ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΗ ΟΜΑΔΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ & ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ (DB-NET)

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Ανάκτηση Πληροφορίας

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ

Ασφάλεια σε χώρους αναψυχής: Ένα σύστημα από έξυπνα αντικείμενα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

The Simply Typed Lambda Calculus

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

( ) 2 and compare to M.

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Démographie spatiale/spatial Demography

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΗ ΣΧΟΛΗ ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

2. Real Web time personalization

Τομέας: Ανανεώσιμων Ενεργειακών Πόρων Εργαστήριο: Σχεδιομελέτης και κατεργασιών

Ανάκτηση Πληροφορίας (Information Retrieval IR)

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Εθνικό Μετσόβιο Πολυτεχνείο. Thales Workshop, 1-3 July 2015

ΙΕΥΘΥΝΤΗΣ: Καθηγητής Γ. ΧΡΥΣΟΛΟΥΡΗΣ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

derivation of the Laplacian from rectangular to spherical coordinates

Δθαξκνζκέλα καζεκαηηθά δίθηπα: ε πεξίπησζε ηνπ ζπζηεκηθνύ θηλδύλνπ ζε κηθξνεπίπεδν.

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

þÿ ÀÌ Ä º± µä À ¹ ¼ ½

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Statistical Inference I Locally most powerful tests

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Finite Field Problems: Solutions

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

þÿ ½ ÁÉÀ ºµ½ÄÁ¹º ÀÁ à ³³¹Ã Ä þÿ Á³±½Éù±º  ±»»±³  ¼ ÃÉ þÿà» Á Æ Á¹±º Í ÃÅÃÄ ¼±Ä Â.

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Η ΠΡΟΣΩΠΙΚΗ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΧΩΡΟΥ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ CHAT ROOMS

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΜΟΡΦΩΝ ΛΥΓΙΣΜΟΥ ΣΤΙΣ ΜΕΤΑΛΛΙΚΕΣ ΚΑΤΑΣΚΕΥΕΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία. Εργαστήριο 4 ο : MATLAB

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

Capacitors - Capacitance, Charge and Potential Difference

Bayesian modeling of inseparable space-time variation in disease risk

Ανοικτά Δεδομένα. Η εμπειρία του OpenDataCloud

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης


TMA4115 Matematikk 3

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Μηχανική Μάθηση Hypothesis Testing

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Study of In-vehicle Sound Field Creation by Simultaneous Equation Method

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Partial Differential Equations in Biology The boundary element method. March 26, 2013

C.S. 430 Assignment 6, Sample Solutions

Πτυχιακή Εργασία ΓΝΩΣΕΙΣ KAI ΣΤΑΣΕΙΣ ΤΩΝ ΕΠΑΓΓΕΛΜΑΤΙΩΝ ΥΓΕΙΑΣ ΓΙΑ ΤΗΝ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΕΚΘΕΣΗ ΣΤΟΝ HIV. Στυλιανού Στυλιανή

Ανάκτηση Πληροφορίας

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Approximation of distance between locations on earth given by latitude and longitude

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

Stabilization of stock price prediction by cross entropy optimization

υπηρεσίες / services ΜΕΛΕΤΗ - ΣΧΕΔΙΑΣΜΟΣ PLANNING - DESIGN ΕΜΠΟΡΙΚΗ ΜΕΛΕΤΗ COMMERCIAL PLANNING ΕΠΙΠΛΩΣΗ - ΕΞΟΠΛΙΣΜΟΣ FURNISHING - EQUIPMENT

Βάσεις Δεδομένων Ενότητα 1

Other Test Constructions: Likelihood Ratio & Bayes Tests

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΠΟΙΟΤΗΤΑΣ ΑΕΡΑ ΣΕ ΕΣΩΤΕΡΙΚΟ ΧΩΡΟ

Proforma C. Flood-CBA#2 Training Seminars. Περίπτωση Μελέτης Ποταμός Έ βρος, Κοινότητα Λαβάρων

Exercises to Statistics of Material Fatigue No. 5

09 Η γλώσσα UML I. Τεχνολογία Λογισμικού. Τμήμα Πληροφορικής & Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών. Εαρινό εξάμηνο

Transcript:

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΗ ΟΜΑΔΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ & ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ (DB-NET) http://www.db-net.aueb.gr ΥΠΕΥΘΥΝΟΣ: ΑΝ. ΚΑΘΗΓΗΤΗΣ Μ. ΒΑΖΙΡΓΙΑΝΝΗΣ (mvazirg@aueb.gr) ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ A/A ΤΙΤΛΟΣ ΠΕΡΙΓΡΑΦΗ 1. Model learning & Assuming the web graph with its features of vast size and dynamism, we aim at mining the spectral learning models of the evolving web graph (graph, content). The models should be a structure of the web good compromise between precision in training and predictive ability. The objective graph is: a. survey of techniques that can be used for model learning (i.e. Akaike, BIC) and relevant efforts for the web, and b. design of methodology for learning such models. The principal eigenvector (pagerank vector) of the web graph is pagerank vector (with well known semantics and wider understanding. The objective is to study a. the semantics of the other spectral constituents (eigenvalues, eigen vectors) and study the stability of these elements (what does stability mean in this context?). Potential applications can be a. rank prediction, b. webgraph compression etc. ΠΡΟΑΠΑΙΤΟΥΜΕΝΑ: Καλή γνώση μαθηματικών και ειδικότερα γραμμικής άλγεβρας και αναλυτικής γεωμετρίας. Πολύ καλή γνώση προγραμματισμού και ειδικότερα του περιβάλλοντος 2. Information Retrieval with GVSM Models (τεχνική επίβλεψη Γ. Τσατσαρώνης) MATLAB Τα καθιερωμένα μοντέλα για ανάκτηση πληροφορίας από κείμενα είναι 3: α) Boolean model, β) Vector Space model και γ) Probabilistic Model. Τα τελευταία χρόνια πληθαίνουν οι ερευνητικές δραστηριότητες που αφορούν την επέκταση των υπαρχόντων μοντέλων σε κανούρια γενικευμένα μοντέλα που να χρησιμοποιούν περισσότερα χαρακτηριστικά του κειμένου από το λεγόμενο και απλό keyword

matching, προκειμένου να βελτιωθεί η ανάκτηση πληροφορίας από τα κείμενα. Σύμφωνα με πρόσφατες μελέτες, πολλές μηχανές αναζήτησης έχουν αρχίσει να καθιερώνουν την χρήση τέτοιων μοντέλων ώστε να παρέχουν καλύτερες υπηρεσίες αναζήτησης. Ο στόχος της πτυχιακής εργασίας είναι διπλός: 1) Να συγκεντρωθούν και να μελετηθούν τα πιο αντιπροσωπευτικά και σημαντικότερα από τα νέα επεκταμένα μοντέλα (π.χ. Generalized Vector Space Models) και να αναλυθούν τα κύρια χαρακτηριστικά τους. 2) Κατόπιν, να υλοποιηθούν μέσω μιας πλατφόρμας αναζήτησης (Lucene ή Terrier), και να συγκριθεί η απόδοσή τους σε benchmark πειραματικές συλλογές ανάκτησης πληροφορίας. 3. Συλλογή χωροχρονικων πληροφοριών και οργάνωση μιας χωροχρονικης αποθήκης δεδομένων 4. Μη γραμμική μείωση διάστασης (τεχνική επίβλεψη Π. Μαγδαληνός) Ένας επιπλέον στόχος της πτυχιακής, αλλά προαιρετικός, είναι η δημιουργία ενός νέου τέτοιου μοντέλου, το οποίο κατά προτίμηση να ενσωματώνει σημασιολογικά χαρακτηριστικά από υπάρχοντες θησαυρούς (π.χ. Roget, WordNet). Σε περίπτωση που το μοντέλο αποδειχθεί επιτυχές, θα επιχειρηθεί η δημοσίευσή του σε διεθνές συνέδριο ή περιοδικό με κριτές. Προαπαιτούμενα: Java - Γνώση βασικών τεχνικών επεξεργασίας φυσικής γλώσσας Στόχος της εργασίας θα είναι η επέκταση και η βελτίωση ενός μηχανισμού για την Συλλογή από τον Παγκ. Ιστό δεδομένων χωροχρονικου χαρακτήρα (πχ. αγγελιών ακινήτων με χωρική και χρονική σφραγίδα) και η δημιουργία και συντήρηση μιας αποθήκης δεδομένων μεγάλης κλίμακας. Ένας πρόσθετoς στόχος είναι η ανάπτυξη και διατήρηση προδιαγραφών ποιότητας των δεδομένων με στόχο τον καθαρισμό της βάσης δεδομένων και την εξαγωγή πληθώρας χρήσιμων αναφορών με βάση την χωρική και χρονική ιεραρχία. Προαπαιτούμενα: προγραμματισμός Java για τον Ιστο, MySQL, χειρισμός κειμένου. Οι σύγχρονες εφαρμογές πληροφορικής και τηλεπικοινωνιών παράγουν όλο και μεγαλύτερο όγκο δεδομένων τα οποία περιγράφονται από ένα διαρκώς αυξανόμενο αριθμό μεταβλητών. Η ποιοτική και ποσοτική αποτίμηση των δεδομένων αυτών απαιτεί ειδική προ-επεξεργασία, αναπόσπαστο κομμάτι της οποίας είναι η μείωση διάστασης. Ο επιστημονικός χώρος της μείωση διάστασης προσφέρει μεθόδους που επιτρέπουν

την απεικόνιση ενός συνόλου δεδομένων από έναν χώρο πολλών διαστάσεων σε έναν μικρότερης διάστασης διατηρώντας ταυτόχρονα αναλλοίωτα κάποια χαρακτηριστικά του αρχικού συνόλου. Στα πλαίσια της συγκεκριμένης διπλωματικής εργασίας θα δοθεί έμφαση στην εφαρμογή μη γραμμικών μεθόδων μείωσης διάστασης σε συλλογές κειμένων. Ο στόχος της εργασίας είναι διττός: 1. Αρχικά, η συγκριτική αποτίμηση της απόδοσης των μεθόδων Isomap και LLE πάνω σε συλλογές κειμένων τόσο σε κεντρικό όσο και σε κατανεμημένο περιβάλλον. 2. Ακολούθως, η ενσωμάτωση στην κατανεμημένη εκδοχή των βελτιωτικών επεκτάσεων. ΠΡΟΑΠΑΙΤΟΥΜΕΝΑ: Καλή γνώση μαθηματικών και ειδικότερα γραμμικής άλγεβρας και αναλυτικής γεωμετρίας. Πολύ καλή γνώση προγραμματισμού και ειδικότερα του περιβάλλοντος MATLAB 5. Συστήμα για μελέτη και πειραματική αποτίμηση αλγορίθμων μείωσης διάστασης. (τεχνική επίβλεψη Π. Μαγδαληνός) Η συγκεκριμένη διπλωματική πραγματεύεται με την υλοποίηση ενός συστήματος για την μελέτη και πειραματική αποτίμηση αλγορίθμων μείωσης διάστασης. Μια υψηλού επιπέδου απεικόνιση της προς υλοποίηση εφαρμογής φαίνεται στο παρακάτω σχήμα.

Αναλυτικότερα, τα δεδομένα δίνονται με κάποια μορφή ως είσοδος στο σύστημα και ακολούθως μορφοποιούνται σε διανύσματα. Η μορφή τους ενδεχομένως να περιγράφεται από κάποια μετα-πληροφορία (πληροφορία σχήματος στην βάση ή κάποια επικεφαλίδα στο αρχείο) η οποία και χρησιμοποιείται για το μετέπειτα στάδιο της μορφοποίησης. Στη συνέχεια, εφαρμόζεται κάποιος αλγόριθμος κεντρικής ή κατανεμημένης μείωσης διάστασης (εδώ χρησιμοποιείται το Network Profile) και παράγεται η απεικόνιση των δεδομένων σε ένα νέο διανυσματικό χώρο. Δεδομένης της νέας απεικόνισης επιθυμούμε να μελετήσουμε τη συμπεριφορά των αλγορίθμων αναφορικά με την ικανότητά τους να διατηρούν ορισμένα χαρακτηριστικά του αρχικού συνόλου, όπως κατανομή των δεδομένων, διατήρηση των συσταδικών δομών κ.λ.π. Για το λόγο αυτό κρίνεται σκόπιμη η επικοινωνία με κάποιο σύστημα εξόρυξης γνώσης όπως το Weka ή το YALE. Τα στατιστικά δεδομένα τα οποία εξορύχτηκαν από την τελευταία διαδικασία

απεικονίζονται γραφικά στην οθόνη επιτρέποντας την σύγκριση των αλγορίθμων και ακολούθως αποθηκεύονται στον δίσκο. Όλη η παραπάνω διαδικασία θα γίνεται μέσα από γραφική διεπαφή. Ο βασικός στόχος είναι η δημιουργία ενός πρωτοτύπου του παραπάνω συστήματος το οποίο όμως θα πρέπει απαραίτητα να θέτει τις βάσεις για την αποτελεσματική και αποδοτική μελλοντική επέκταση τα παρακάτω: Επεξεργασία διαφόρων ειδών δεδομένων Συνεργασία με διάφορα συστήματα διαχείρισης βάσεων δεδομένων Προσθήκη νέων αλγορίθμων μείωσης διάστασης Την επικοινωνία με διάφορα συστήματα εξόρυξης γνώσης ΠΡΟΑΠΑΙΤΟΥΜΕΝΑ: Πολύ καλή γνώση προγραμματισμού, κατά προτίμηση Java ή MATLAB Σημείωση: Μερικά ζητούμενα είναι ήδη υλοποιημένα από την ομάδα μας. Παρόμοια συστήματα με το προδιαγραφόμενο στην παρούσα εργασία εμφανίζονται στα http://www.research.att.com/areas/stat/xgobi/ http://www.cs.unimaas.nl/l.vandermaaten/laurens_van_der_maaten/matlab_t oolbox_for_dimensionality_reduction.html 6. Προσέγγιση ημι εποπτευόμενη μάθησης για διαχείριση δεδομένων πολλών διαστάσεων (Semi-supervised learning approach for handling high dimensional data) (τεχνική επίβλεψη Γενικά η ποιότητα των αποτελεσμάτων συσταδοποίησης εξαρτάται από το πεδίο εφαρμογής και τις απαιτήσεις των χρηστών. Υπάρχουν περιπτώσεις που διαφορετικές συσταδοποιήσεις (clusterings) ενός συνόλου δεδομένων μπορούν να θεωρηθούν «καλές» κάτω από διαφορετικές υποθέσεις. Συνεπώς στις περισσότερες περιπτώσεις είναι σημαντικό να παρέχουμε κάποια εποπτεία στη διαδικασία της συσταδοποίησης. Έτσι έχει προκύψει οι ανάγκη για τεχνικές που συνδυάζουν αποδοτικά τόσο κατηγοριοποιημένα όσο και μη κατηγοριοποιημένα δεδομένα (τεχνικές ημι-εποπτευόμενης μάθησης). Οι παραδοσιακές τεχνικές μάθησης θεωρούν όλα τα χαρακτηριστικά των συνόλων δεδομένων το ίδιο σημαντικά με αποτέλεσμα να μην μπορούν να διαχειριστούν αποδοτικά σύνολα δεδομένων πολλών διαστάσεων ή/και περίεργης γεωμετρίας. Με βάση τα παραπάνω θα ήταν ενδιαφέρον να διαχειριστούμε το πρόβλημα της

Μ. Χαλκίδη) συσταδοποίησης (μη εποπτευόμενης μάθησης) ανακαλύπτοντας συστάδες σε υποχώρους που προκύπτουν από διαφορετικούς συνδυασμούς διαστάσεων μέσω της εκμάθησης των τοπικών βαρών που θα πρέπει να δοθούν στα χαρακτηριστικά. Για την εύρεση των υποχώρων (ανάθεση βαρών στις διαστάσεις) θα πρέπει να λαμβάνονται υπόψη τόσο οι ιδιότητες των δεδομένων (διασπορά στοιχείων ανά διάσταση) όσο και οι περιορισμοί που ορίζονται από τους χρήστες. Στόχος της εργασίας: Ανάπτυξη αλγορίθμου μάθησης μέτρου αποστάσεως για την συσταδοποίηση συνόλων δεδομένων πολλών διαστάσεων με βάση περιορισμούς. Απαιτήσεις: Καλή γνώση προγραμματισμού, γνώση ΜΑΤLAB επιθυμητή 7. Προσέγγιση ημιεποπτευόμενη μάθησης για διαχείριση δεδομένων πολλών διαστάσεων (Semisupervised learning approach for handling high dimensional data) (τεχνική επίβλεψη Μ. Χαλκίδη) Γενικά η ποιότητα των αποτελεσμάτων συσταδοποίησης εξαρτάται από το πεδίο εφαρμογής και τις απαιτήσεις των χρηστών. Υπάρχουν περιπτώσεις που διαφορετικές συσταδοποιήσεις (clusterings) ενός συνόλου δεδομένων μπορούν να θεωρηθούν «καλές» κάτω από διαφορετικές υποθέσεις. Συνεπώς στις περισσότερες περιπτώσεις είναι σημαντικό να παρέχουμε κάποια εποπτεία στη διαδικασία της συσταδοποίησης. Έτσι έχει προκύψει οι ανάγκη για τεχνικές που συνδυάζουν αποδοτικά τόσο κατηγοριοποιημένα όσο και μη κατηγοριοποιημένα δεδομένα (τεχνικές ημι-εποπτευόμενης μάθησης). Οι παραδοσιακές τεχνικές μάθησης θεωρούν όλα τα χαρακτηριστικά των συνόλων δεδομένων το ίδιο σημαντικά με αποτέλεσμα να μην μπορούν να διαχειριστούν αποδοτικά σύνολα δεδομένων πολλών διαστάσεων ή/και περίεργης γεωμετρίας. Με βάση τα παραπάνω θα ήταν ενδιαφέρον να διαχειριστούμε το πρόβλημα της συσταδοποίησης (μη εποπτευόμενης μάθησης) ανακαλύπτοντας συστάδες σε υποχώρους που προκύπτουν από διαφορετικούς συνδυασμούς διαστάσεων μέσω της εκμάθησης των τοπικών βαρών που θα πρέπει να δοθούν στα χαρακτηριστικά. Για την εύρεση των υποχώρων (ανάθεση βαρών στις διαστάσεις) θα πρέπει να λαμβάνονται υπόψη τόσο οι ιδιότητες των δεδομένων (διασπορά στοιχείων ανά διάσταση) όσο και οι περιορισμοί που ορίζονται από τους χρήστες. Στόχος της εργασίας: Ανάπτυξη αλγορίθμου μάθησης μέτρου αποστάσεως για την συσταδοποίηση συνόλων δεδομένων πολλών διαστάσεων με βάση περιορισμούς. Απαιτήσεις: Καλή γνώση προγραμματισμού, γνώση ΜΑΤLAB επιθυμητή

8. DASCOSA (P2Pbased Grid database system) (NTUN Prof. K. Norwag) In the DASCOSA project we have implemented a distributed database system based on P2P technology (see http://research.idi.ntnu.no/dascosa/ for more info on the project). We want to extend the system in several directions, each of them a possible topic for a thesis: 1) Improved SQL support: Currently only a relatively small subset of SQL is supported, we want to extend it to support a more exhaustive part of the SQL standard. 2) Improved query optimization: Currently only simple query optimization is performed, we want to extend the optimization of distributed queries. 9. Temporal text mining (NTUN - Prof. K. Norwag) 10 Υλοποίηση και Εφαρμογή Αλγορίθμων Θεωρίας Γράφων σε Πρωτεϊνικούς Γράφους για την 3) In Grid applications, web-service interface to the system might be desired, for example according to OGSA-DAI (see http://www.ogsadai.org.uk/). We want such functionality added to our system. We have implemented a prototype system for finding temporal association rules in text collections, as described in http://www.idi.ntnu.no/grupper/db/research/technical_report/2007/234_art.pdf Unfortunately the algorithm currently used in the system is not scalable so the prototype can only be used on very small document collections. In order to solve this problem, we want to have developed and implemented more scalable algorithms (possibly disk-based instead of main-memory based as is the case now) so that mining on larger collections becomes possible. Σήμερα, μεγάλο μέρος των πρωτεϊνικών αλληλεπιδράσεων του ανθρώπου, όπως και αρκετών άλλων οργανισμών διατίθενται σε online βάσεις δεδομένων όπως είναι οι MIPS, DIP, SWISS_PROT, YPD και η BIND. Η αναπαράσταση του συνόλου των αλληλεπιδράσεων των πρωτεϊνών ενός οργανισμού γίνεται με το μοντέλο του γράφου όπου οι κορυφές του αναπαριστούν τις πρωτεΐνες και οι ακμές την αλληλεπίδραση μεταξύ δύο πρωτεϊνών.

Εύρεση Πρωτεϊνικών Συμπλεγμάτων του ανθρώπου και άλλων οργανισμών. Στόχος της διπλωματικής είναι η υλοποίηση και εφαρμογή αλγορίθμων της θεωρίας γράφων για την εύρεση πυκνών περιοχών στους γράφους αυτούς για την εύρεση πρωτεϊνικών συμπλεγμάτων που ακόμα δεν έχουν καταγραφεί ή για τον χαρακτηρισμό, με μεγάλη πιθανότητα, της λειτουργίας πρωτεϊνών που ακόμα παραμένει άγνωστη. Η μελέτη αυτή θα πραγματοποιηθεί κυρίως σε πρωτεΐνες τους ανθρώπινου οργανισμού όπου ακόμα δεν υπάρχει ολοκληρωμένη εικόνα για τον ρόλο και την λειτουργία πολλών πρωτεϊνών. Η διπλωματική θα υλοποιηθεί με συνεργασία του Ιδρύματος ΙατροΒιολογικών Ερευνών της Ακαδημίας Αθηνών (ΙΙΒΕΑΑ) με έδρα την Αθήνα. Προϋποθέσεις: γνώση γλώσσας προγραμματισμού (C και C++).