ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΗ ΟΜΑΔΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ & ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ (DB-NET) http://www.db-net.aueb.gr ΥΠΕΥΘΥΝΟΣ: ΑΝ. ΚΑΘΗΓΗΤΗΣ Μ. ΒΑΖΙΡΓΙΑΝΝΗΣ (mvazirg@aueb.gr) ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ A/A ΤΙΤΛΟΣ ΠΕΡΙΓΡΑΦΗ 1. Model learning & Assuming the web graph with its features of vast size and dynamism, we aim at mining the spectral learning models of the evolving web graph (graph, content). The models should be a structure of the web good compromise between precision in training and predictive ability. The objective graph is: a. survey of techniques that can be used for model learning (i.e. Akaike, BIC) and relevant efforts for the web, and b. design of methodology for learning such models. The principal eigenvector (pagerank vector) of the web graph is pagerank vector (with well known semantics and wider understanding. The objective is to study a. the semantics of the other spectral constituents (eigenvalues, eigen vectors) and study the stability of these elements (what does stability mean in this context?). Potential applications can be a. rank prediction, b. webgraph compression etc. ΠΡΟΑΠΑΙΤΟΥΜΕΝΑ: Καλή γνώση μαθηματικών και ειδικότερα γραμμικής άλγεβρας και αναλυτικής γεωμετρίας. Πολύ καλή γνώση προγραμματισμού και ειδικότερα του περιβάλλοντος 2. Information Retrieval with GVSM Models (τεχνική επίβλεψη Γ. Τσατσαρώνης) MATLAB Τα καθιερωμένα μοντέλα για ανάκτηση πληροφορίας από κείμενα είναι 3: α) Boolean model, β) Vector Space model και γ) Probabilistic Model. Τα τελευταία χρόνια πληθαίνουν οι ερευνητικές δραστηριότητες που αφορούν την επέκταση των υπαρχόντων μοντέλων σε κανούρια γενικευμένα μοντέλα που να χρησιμοποιούν περισσότερα χαρακτηριστικά του κειμένου από το λεγόμενο και απλό keyword
matching, προκειμένου να βελτιωθεί η ανάκτηση πληροφορίας από τα κείμενα. Σύμφωνα με πρόσφατες μελέτες, πολλές μηχανές αναζήτησης έχουν αρχίσει να καθιερώνουν την χρήση τέτοιων μοντέλων ώστε να παρέχουν καλύτερες υπηρεσίες αναζήτησης. Ο στόχος της πτυχιακής εργασίας είναι διπλός: 1) Να συγκεντρωθούν και να μελετηθούν τα πιο αντιπροσωπευτικά και σημαντικότερα από τα νέα επεκταμένα μοντέλα (π.χ. Generalized Vector Space Models) και να αναλυθούν τα κύρια χαρακτηριστικά τους. 2) Κατόπιν, να υλοποιηθούν μέσω μιας πλατφόρμας αναζήτησης (Lucene ή Terrier), και να συγκριθεί η απόδοσή τους σε benchmark πειραματικές συλλογές ανάκτησης πληροφορίας. 3. Συλλογή χωροχρονικων πληροφοριών και οργάνωση μιας χωροχρονικης αποθήκης δεδομένων 4. Μη γραμμική μείωση διάστασης (τεχνική επίβλεψη Π. Μαγδαληνός) Ένας επιπλέον στόχος της πτυχιακής, αλλά προαιρετικός, είναι η δημιουργία ενός νέου τέτοιου μοντέλου, το οποίο κατά προτίμηση να ενσωματώνει σημασιολογικά χαρακτηριστικά από υπάρχοντες θησαυρούς (π.χ. Roget, WordNet). Σε περίπτωση που το μοντέλο αποδειχθεί επιτυχές, θα επιχειρηθεί η δημοσίευσή του σε διεθνές συνέδριο ή περιοδικό με κριτές. Προαπαιτούμενα: Java - Γνώση βασικών τεχνικών επεξεργασίας φυσικής γλώσσας Στόχος της εργασίας θα είναι η επέκταση και η βελτίωση ενός μηχανισμού για την Συλλογή από τον Παγκ. Ιστό δεδομένων χωροχρονικου χαρακτήρα (πχ. αγγελιών ακινήτων με χωρική και χρονική σφραγίδα) και η δημιουργία και συντήρηση μιας αποθήκης δεδομένων μεγάλης κλίμακας. Ένας πρόσθετoς στόχος είναι η ανάπτυξη και διατήρηση προδιαγραφών ποιότητας των δεδομένων με στόχο τον καθαρισμό της βάσης δεδομένων και την εξαγωγή πληθώρας χρήσιμων αναφορών με βάση την χωρική και χρονική ιεραρχία. Προαπαιτούμενα: προγραμματισμός Java για τον Ιστο, MySQL, χειρισμός κειμένου. Οι σύγχρονες εφαρμογές πληροφορικής και τηλεπικοινωνιών παράγουν όλο και μεγαλύτερο όγκο δεδομένων τα οποία περιγράφονται από ένα διαρκώς αυξανόμενο αριθμό μεταβλητών. Η ποιοτική και ποσοτική αποτίμηση των δεδομένων αυτών απαιτεί ειδική προ-επεξεργασία, αναπόσπαστο κομμάτι της οποίας είναι η μείωση διάστασης. Ο επιστημονικός χώρος της μείωση διάστασης προσφέρει μεθόδους που επιτρέπουν
την απεικόνιση ενός συνόλου δεδομένων από έναν χώρο πολλών διαστάσεων σε έναν μικρότερης διάστασης διατηρώντας ταυτόχρονα αναλλοίωτα κάποια χαρακτηριστικά του αρχικού συνόλου. Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας θα δοθεί έμφαση στην εφαρμογή μη γραμμικών μεθόδων μείωσης διάστασης σε συλλογές κειμένων. Ο στόχος της εργασίας είναι διττός: 1. Αρχικά, η συγκριτική αποτίμηση της απόδοσης των μεθόδων Isomap και LLE πάνω σε συλλογές κειμένων τόσο σε κεντρικό όσο και σε κατανεμημένο περιβάλλον. 2. Ακολούθως, η ενσωμάτωση στην κατανεμημένη εκδοχή των βελτιωτικών επεκτάσεων. ΠΡΟΑΠΑΙΤΟΥΜΕΝΑ: Καλή γνώση μαθηματικών και ειδικότερα γραμμικής άλγεβρας και αναλυτικής γεωμετρίας. Πολύ καλή γνώση προγραμματισμού και ειδικότερα του περιβάλλοντος MATLAB 5. Συστήμα για μελέτη και πειραματική αποτίμηση αλγορίθμων μείωσης διάστασης. (τεχνική επίβλεψη Π. Μαγδαληνός) Η συγκεκριμένη διπλωματική πραγματεύεται με την υλοποίηση ενός συστήματος για την μελέτη και πειραματική αποτίμηση αλγορίθμων μείωσης διάστασης. Μια υψηλού επιπέδου απεικόνιση της προς υλοποίηση εφαρμογής φαίνεται στο παρακάτω σχήμα.
Αναλυτικότερα, τα δεδομένα δίνονται με κάποια μορφή ως είσοδος στο σύστημα και ακολούθως μορφοποιούνται σε διανύσματα. Η μορφή τους ενδεχομένως να περιγράφεται από κάποια μετα-πληροφορία (πληροφορία σχήματος στην βάση ή κάποια επικεφαλίδα στο αρχείο) η οποία και χρησιμοποιείται για το μετέπειτα στάδιο της μορφοποίησης. Στη συνέχεια, εφαρμόζεται κάποιος αλγόριθμος κεντρικής ή κατανεμημένης μείωσης διάστασης (εδώ χρησιμοποιείται το Network Profile) και παράγεται η απεικόνιση των δεδομένων σε ένα νέο διανυσματικό χώρο. Δεδομένης της νέας απεικόνισης επιθυμούμε να μελετήσουμε τη συμπεριφορά των αλγορίθμων αναφορικά με την ικανότητά τους να διατηρούν ορισμένα χαρακτηριστικά του αρχικού συνόλου, όπως κατανομή των δεδομένων, διατήρηση των συσταδικών δομών κ.λ.π. Για το λόγο αυτό κρίνεται σκόπιμη η επικοινωνία με κάποιο σύστημα εξόρυξης γνώσης όπως το Weka ή το YALE. Τα στατιστικά δεδομένα τα οποία εξορύχτηκαν από την τελευταία διαδικασία
απεικονίζονται γραφικά στην οθόνη επιτρέποντας την σύγκριση των αλγορίθμων και ακολούθως αποθηκεύονται στον δίσκο. Όλη η παραπάνω διαδικασία θα γίνεται μέσα από γραφική διεπαφή. Ο βασικός στόχος είναι η δημιουργία ενός πρωτοτύπου του παραπάνω συστήματος το οποίο όμως θα πρέπει απαραίτητα να θέτει τις βάσεις για την αποτελεσματική και αποδοτική μελλοντική επέκταση τα παρακάτω: Επεξεργασία διαφόρων ειδών δεδομένων Συνεργασία με διάφορα συστήματα διαχείρισης βάσεων δεδομένων Προσθήκη νέων αλγορίθμων μείωσης διάστασης Την επικοινωνία με διάφορα συστήματα εξόρυξης γνώσης ΠΡΟΑΠΑΙΤΟΥΜΕΝΑ: Πολύ καλή γνώση προγραμματισμού, κατά προτίμηση Java ή MATLAB Σημείωση: Μερικά ζητούμενα είναι ήδη υλοποιημένα από την ομάδα μας. Παρόμοια συστήματα με το προδιαγραφόμενο στην παρούσα εργασία εμφανίζονται στα http://www.research.att.com/areas/stat/xgobi/ http://www.cs.unimaas.nl/l.vandermaaten/laurens_van_der_maaten/matlab_t oolbox_for_dimensionality_reduction.html 6. Προσέγγιση ημι εποπτευόμενη μάθησης για διαχείριση δεδομένων πολλών διαστάσεων (Semi-supervised learning approach for handling high dimensional data) (τεχνική επίβλεψη Γενικά η ποιότητα των αποτελεσμάτων συσταδοποίησης εξαρτάται από το πεδίο εφαρμογής και τις απαιτήσεις των χρηστών. Υπάρχουν περιπτώσεις που διαφορετικές συσταδοποιήσεις (clusterings) ενός συνόλου δεδομένων μπορούν να θεωρηθούν «καλές» κάτω από διαφορετικές υποθέσεις. Συνεπώς στις περισσότερες περιπτώσεις είναι σημαντικό να παρέχουμε κάποια εποπτεία στη διαδικασία της συσταδοποίησης. Έτσι έχει προκύψει οι ανάγκη για τεχνικές που συνδυάζουν αποδοτικά τόσο κατηγοριοποιημένα όσο και μη κατηγοριοποιημένα δεδομένα (τεχνικές ημι-εποπτευόμενης μάθησης). Οι παραδοσιακές τεχνικές μάθησης θεωρούν όλα τα χαρακτηριστικά των συνόλων δεδομένων το ίδιο σημαντικά με αποτέλεσμα να μην μπορούν να διαχειριστούν αποδοτικά σύνολα δεδομένων πολλών διαστάσεων ή/και περίεργης γεωμετρίας. Με βάση τα παραπάνω θα ήταν ενδιαφέρον να διαχειριστούμε το πρόβλημα της
Μ. Χαλκίδη) συσταδοποίησης (μη εποπτευόμενης μάθησης) ανακαλύπτοντας συστάδες σε υποχώρους που προκύπτουν από διαφορετικούς συνδυασμούς διαστάσεων μέσω της εκμάθησης των τοπικών βαρών που θα πρέπει να δοθούν στα χαρακτηριστικά. Για την εύρεση των υποχώρων (ανάθεση βαρών στις διαστάσεις) θα πρέπει να λαμβάνονται υπόψη τόσο οι ιδιότητες των δεδομένων (διασπορά στοιχείων ανά διάσταση) όσο και οι περιορισμοί που ορίζονται από τους χρήστες. Στόχος της εργασίας: Ανάπτυξη αλγορίθμου μάθησης μέτρου αποστάσεως για την συσταδοποίηση συνόλων δεδομένων πολλών διαστάσεων με βάση περιορισμούς. Απαιτήσεις: Καλή γνώση προγραμματισμού, γνώση ΜΑΤLAB επιθυμητή 7. Προσέγγιση ημιεποπτευόμενη μάθησης για διαχείριση δεδομένων πολλών διαστάσεων (Semisupervised learning approach for handling high dimensional data) (τεχνική επίβλεψη Μ. Χαλκίδη) Γενικά η ποιότητα των αποτελεσμάτων συσταδοποίησης εξαρτάται από το πεδίο εφαρμογής και τις απαιτήσεις των χρηστών. Υπάρχουν περιπτώσεις που διαφορετικές συσταδοποιήσεις (clusterings) ενός συνόλου δεδομένων μπορούν να θεωρηθούν «καλές» κάτω από διαφορετικές υποθέσεις. Συνεπώς στις περισσότερες περιπτώσεις είναι σημαντικό να παρέχουμε κάποια εποπτεία στη διαδικασία της συσταδοποίησης. Έτσι έχει προκύψει οι ανάγκη για τεχνικές που συνδυάζουν αποδοτικά τόσο κατηγοριοποιημένα όσο και μη κατηγοριοποιημένα δεδομένα (τεχνικές ημι-εποπτευόμενης μάθησης). Οι παραδοσιακές τεχνικές μάθησης θεωρούν όλα τα χαρακτηριστικά των συνόλων δεδομένων το ίδιο σημαντικά με αποτέλεσμα να μην μπορούν να διαχειριστούν αποδοτικά σύνολα δεδομένων πολλών διαστάσεων ή/και περίεργης γεωμετρίας. Με βάση τα παραπάνω θα ήταν ενδιαφέρον να διαχειριστούμε το πρόβλημα της συσταδοποίησης (μη εποπτευόμενης μάθησης) ανακαλύπτοντας συστάδες σε υποχώρους που προκύπτουν από διαφορετικούς συνδυασμούς διαστάσεων μέσω της εκμάθησης των τοπικών βαρών που θα πρέπει να δοθούν στα χαρακτηριστικά. Για την εύρεση των υποχώρων (ανάθεση βαρών στις διαστάσεις) θα πρέπει να λαμβάνονται υπόψη τόσο οι ιδιότητες των δεδομένων (διασπορά στοιχείων ανά διάσταση) όσο και οι περιορισμοί που ορίζονται από τους χρήστες. Στόχος της εργασίας: Ανάπτυξη αλγορίθμου μάθησης μέτρου αποστάσεως για την συσταδοποίηση συνόλων δεδομένων πολλών διαστάσεων με βάση περιορισμούς. Απαιτήσεις: Καλή γνώση προγραμματισμού, γνώση ΜΑΤLAB επιθυμητή
8. DASCOSA (P2Pbased Grid database system) (NTUN Prof. K. Norwag) In the DASCOSA project we have implemented a distributed database system based on P2P technology (see http://research.idi.ntnu.no/dascosa/ for more info on the project). We want to extend the system in several directions, each of them a possible topic for a thesis: 1) Improved SQL support: Currently only a relatively small subset of SQL is supported, we want to extend it to support a more exhaustive part of the SQL standard. 2) Improved query optimization: Currently only simple query optimization is performed, we want to extend the optimization of distributed queries. 9. Temporal text mining (NTUN - Prof. K. Norwag) 10 Υλοποίηση και Εφαρμογή Αλγορίθμων Θεωρίας Γράφων σε Πρωτεϊνικούς Γράφους για την 3) In Grid applications, web-service interface to the system might be desired, for example according to OGSA-DAI (see http://www.ogsadai.org.uk/). We want such functionality added to our system. We have implemented a prototype system for finding temporal association rules in text collections, as described in http://www.idi.ntnu.no/grupper/db/research/technical_report/2007/234_art.pdf Unfortunately the algorithm currently used in the system is not scalable so the prototype can only be used on very small document collections. In order to solve this problem, we want to have developed and implemented more scalable algorithms (possibly disk-based instead of main-memory based as is the case now) so that mining on larger collections becomes possible. Σήμερα, μεγάλο μέρος των πρωτεϊνικών αλληλεπιδράσεων του ανθρώπου, όπως και αρκετών άλλων οργανισμών διατίθενται σε online βάσεις δεδομένων όπως είναι οι MIPS, DIP, SWISS_PROT, YPD και η BIND. Η αναπαράσταση του συνόλου των αλληλεπιδράσεων των πρωτεϊνών ενός οργανισμού γίνεται με το μοντέλο του γράφου όπου οι κορυφές του αναπαριστούν τις πρωτεΐνες και οι ακμές την αλληλεπίδραση μεταξύ δύο πρωτεϊνών.
Εύρεση Πρωτεϊνικών Συμπλεγμάτων του ανθρώπου και άλλων οργανισμών. Στόχος της διπλωματικής είναι η υλοποίηση και εφαρμογή αλγορίθμων της θεωρίας γράφων για την εύρεση πυκνών περιοχών στους γράφους αυτούς για την εύρεση πρωτεϊνικών συμπλεγμάτων που ακόμα δεν έχουν καταγραφεί ή για τον χαρακτηρισμό, με μεγάλη πιθανότητα, της λειτουργίας πρωτεϊνών που ακόμα παραμένει άγνωστη. Η μελέτη αυτή θα πραγματοποιηθεί κυρίως σε πρωτεΐνες τους ανθρώπινου οργανισμού όπου ακόμα δεν υπάρχει ολοκληρωμένη εικόνα για τον ρόλο και την λειτουργία πολλών πρωτεϊνών. Η διπλωματική θα υλοποιηθεί με συνεργασία του Ιδρύματος ΙατροΒιολογικών Ερευνών της Ακαδημίας Αθηνών (ΙΙΒΕΑΑ) με έδρα την Αθήνα. Προϋποθέσεις: γνώση γλώσσας προγραμματισμού (C και C++).