Αυτόµατη Θεµατική Κατηγοριοποίηση και Σηµασιολογική Διεύρυνση Ερωτηµάτων για Μηχανή Αναζήτησης µε Οντολογίες 1

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αυτόµατη Θεµατική Κατηγοριοποίηση και Σηµασιολογική Διεύρυνση Ερωτηµάτων για Μηχανή Αναζήτησης µε Οντολογίες 1"

Transcript

1 Αυτόµατη Θεµατική Κατηγοριοποίηση και Σηµασιολογική Διεύρυνση Ερωτηµάτων για Μηχανή Αναζήτησης µε Οντολογίες 1 Αµαλία Κούρτη 2 Εθνικό Μετσόβιο Πολυτεχνείο, Εργαστήριο ΣΒΓΔ Ηρώων Πολυτεχνείου 9, Ζωγράφου 15780, Αθήνα Περίληψη Ο ολοένα αυξανόµενος όγκος πληροφοριών στις µέρες µας, καθιστά επιτακτική την χρήση συστηµάτων για την αποδοτική διαχείρισή τους. Τέτοιο είναι το σύστηµα GoNTogle, µια µηχανή αναζήτησης που αναπτύχθηκε στο Εργαστήριο ΣΒΓΔ και επιτρέπει την αναζήτηση µε βάση τη σηµασιολογία, πέραν των λέξεων κλειδιών. Η παρούσα διπλωµατική εργασία εµπλουτίζει την λειτουργικότητά του, καθιστώντας το χρηστικό σε πλείστες νέες περιπτώσεις. Επειδή η χειροκίνητη επισηµείωση εγγράφων του GoNTogle είναι έργο επίπονο, υλοποιείται υποσύστηµα αυτόµατου σηµασιολογικού χαρακτηρισµού εγγράφων µε χρήση τεχνικών µηχανικής µάθησης. Το σύστηµα προτείνει στο χρήστη τους πιθανότερους χαρακτηρισµούς για κάθε κείµενο, µαθαίνει από τα λάθη του και επιτυγχάνει υψηλή απόδοση. Για την αντιµετώπιση του συχνού προβλήµατος µη επαρκών αποτελεσµάτων αναζήτησης, προτείνουµε τεχνικές επέκτασης του ερωτήµατος στο σηµασιολογικό άξονα. Με τις µεθόδους αυτές ο χρήστης µπορεί να εξερευνήσει αποδοτικά το χώρο των σηµασιολογικά συναφών αποτελεσµάτων σχετικά µε το αρχικό ερώτηµα. Πειράµατα µε πραγµατικά δεδοµένα επιστηµονικής βιβλιογραφίας αναδεικνύουν την αποδοτικότητα των µεθόδων µας. Κύρια περιοχή έρευνας: Semantic Annotation, Text and Ontology Retrieval Λέξεις κλειδιά: Κατηγοριοποίηση, µηχανική µάθηση, k-nn, αναζήτηση εγγύτητας, οντολογία, σηµασιολογικός χαρακτηρισµός 1. Εισαγωγή Το κλασσικό παράδειγµα αναζήτησης µε χρήση λέξεων κλειδιών (keywords) συχνά αδυνατεί να εντοπίσει ικανοποιητικά αποτελέσµατα σε ένα ερώτηµα, λόγω µειωµένης εκφραστικής δύναµης. Μια λύση σε αυτό το πρόβληµα είναι η συµπερίληψη στα κριτήρια αναζήτησης, του επιθυµητού νοηµατικού περιεχοµένου των αποτελεσµάτων. Η λειτουργία αυτή συχνά γίνεται µε χρήση οντολογιών, δηλαδή, ιεραρχικών κατηγοριοποιήσεων εννοιών µιας γνωστικής περιοχής. Ως επακόλουθο, ο χρήστης µπορεί να δροµολογεί αναζητήσεις κει- µένων χρησιµοποιώντας έννοιες ή κατηγορίες από µια οντολογία. Στην περίπτωση αυτή, σηµαντικό είναι να υπάρχει η δυνατότητα σηµασιολογικού χαρακτηρισµού κειµένων µε βάση κατηγορίες και έννοιες οντολογιών. Το GoNTogle [1] είναι µια µηχανή αναζήτησης τοπικών εγγράφων, που αναπτύχθηκε στο Εργαστήριο Συστηµάτων Βάσεων Γνώσεων και Δεδοµένων, για την παροχή τέτοιων προχωρηµένων δυνατοτήτων αναζήτησης. Η αναζήτηση δε βασίζεται µόνο στον εντοπισµό λέξεων-κλειδιών (όπως γίνεται συνήθως στις µηχανές αναζήτησης), αλλά και στη σηµασιολογία των εγγράφων, δηλαδή στο νοηµατικό τους περιεχόµενο. Με τη χρήση του συστήµατος αυτού, µπορούν να απαντηθούν ερωτήµατα όπως Ποια έγγραφα αναφέρονται σε αποθήκες και καθαρισµό, και θεµατικά εµπίπτουν στην περιοχή των Βάσεων Δεδοµένων;, που είναι δύσκολο να απαντηθούν µε κλασσικά παραδείγµατα αναζήτησης. Στο GoNTogle, ο χρήστης έχει την δυνατότητα να αποδώσει (χειρωνακτικά) θεµατική κατηγορία σε κάθε έγγραφο, αντιστοιχίζοντάς το σε έναν ή περισσότερους κόµβους µιας οντολογίας. Κατόπιν, είναι δυνατή η αναζήτηση του εγγράφου αυτού και µε θεµατικά κριτήρια. Η διπλωµατική αυτή επεκτείνει το σύστηµα GoNTogle, προσθέτοντάς του νέες λειτουργίες, και καθιστώντας το χρηστικό σε πληθώρα νέων περιπτώσεων για το λόγο αυτό, αναφερόµαστε στο προκύπτον σύστη- µα ως GoNTogle 2.0. Οι κυριότερες συνεισφορές της διπλωµατικής αυτής είναι : Υλοποιούµε σύστηµα αυτόµατου σηµασιολογικού χαρακτηρισµού, δηλαδή αυτόµατης κατηγοριοποίησης 1 Επιβλέπων: Καθ. Τ. Σελλής, Συνεπιβλέποντες: Θοδωρής Δαλαµάγκας (Ερευνητής), Αγγελική Δηµητρίου (Υ.Δ.) 2 Η διπλωµατική εργασία εκπονήθηκε το έτος 2008, όπου η συγγραφέας ήταν τελειόφοιτος Ηλεκτρολόγος Μηχανικός και Μηχανικός Υπολογιστών, ΕΜΠ.

2 εγγράφων στις κατηγορίες µιας οντολογίας. Το σύστηµα χρησιµοποιεί τεχνικές µηχανικής µάθησης για να µαθαίνει από τα λάθη του και να προσαρµόζεται στις συνήθειες του χρήστη. Προτείνουµε και υλοποιούµε τεχνικές διεύρυνσης του ερωτήµατος στο σηµασιολογικό άξονα, υπό το γενικό τίτλο αναζήτηση σηµασιολογικής γειτονίας. Με τις µεθόδους αυτές ο χρήστης µπορεί να εξερευνήσει αποδοτικά τον χώρο των σηµασιολογικά συναφών αποτελεσµάτων σχετικά µε το αρχικό του ερώτηµα. Έτσι, αντιµετωπίζουµε το συχνό πρόβληµα που παρατηρείται στις αναζητήσεις, της επιστροφής µη επαρκούς αριθµού αποτελεσµάτων, για παράδειγµα αν το ερώτηµα αναζήτησης είναι υπερβολικά περιοριστικό. Για την αξιολόγηση των µεθόδων µας, δηµιουργούµε µια πλήρη οντολογία κατάταξης επιστηµονικών δηµοσιεύσεων Πληροφορικής, βασισµένη στο σύστηµα κατάταξης της ACM 3 [2]. Πειράµατα µε χρήση πραγµατικών δεδοµένων (άρθρων και πρακτικών συνεδρίων και αυτής της οντολογίας) αναδεικνύουν την αποτελεσµατικότητα των µεθόδων µας Σχετικές Εργασίες Όσον αφορά το αυτόµατο σύστηµα σηµασιολογικού χαρακτηρισµού, έχουν προταθεί αρκετές εργασίες επάνω σε παρεµφερή προβλήµατα. Στο [3] προτείνεται το σύστηµα KIM, το οποίο συνδυάζει αναφορές από τη θεµελιώδη οντολογία (upper level ontology) ΚΙΜΟ που χρησιµοποιείται για την κατηγοριοποίηση και το συσχετισµό οντοτήτων (named entities), τη βάση γνώσης περιγραφής οντοτήτων και συνήθη αναζήτηση µε λέξεις κλειδιά, για την παροχή προχωρηµένων δυνατοτήτων αναζήτησης. Το σύστηµα αυτό πραγµατοποιεί σηµασιολογική επισήµανση οντοτήτων που περιέχονται σε κείµενο (Named Entity Recognigtion - NER), χωρίς να προσδίδει σηµασιολογικό χαρακτηρισµό του κειµένου ή τµηµάτων του. Δηλαδή, δεν χαρακτηρίζει ένα κείµενο βάσει του εννοιολογικού του περιεχοµένου. Για παράδειγµα, ένα κείµενο που αναφέρεται στην προσωπική ζωή ποδοσφαιριστών (οπότε θα χαρακτηριζόταν σηµασιολογικά µε την κατηγορία πχ Κοσµικά ), στο ΚΙΜΟ µπορεί να αναζητηθεί σηµασιολογικά µόνο µέσω των Ποδοσφαιριστών. Πολλά άλλα συστήµατα κάνουν χρήση NER όπως πχ τα [4] και [5]. Στο [6] προτείνεται ένα σύστηµα αναζήτησης που πραγµατοποιεί αναζήτηση συνδυάζοντας οντολογίες και αναζήτηση µε λέξεις κλειδιά. Επίσης προτείνει τεχνικές ηµιαυτόµατου σηµασιολογικού χαρακτηρισµού κειµένων. Εντούτοις, οι τεχνικές αυτές βασίζονται σε κάποιες 3 Το σύστηµα κατάταξης επιστηµονικών δηµοσιεύσεων Πληροφορικής CCS (Computing Classification System) της ACM (Association for Computing Machinery). ευριστικές και επεξεργασία φυσικής γλώσσας. Μη χρησιµοποιώντας τεχνικές µηχανικής µάθησης, το σύστηµα δεν έχει τη δυνατότητα βελτίωσης της απόδοσής του καθώς εµπλουτίζεται η επισηµειωµένη συλλογή εγγράφων. Το [7] χρησιµοποιεί k-nn Classifiers για την κατάταξη εγγράφων σε κόµβους µιας οντολογίας, όπως και η παρούσα εργασία εντούτοις ο στόχος στην [7] είναι η εξατοµικευµένη ιεράρχηση αποτελεσµάτων µετααναζήτησης στον παγκόσµιο ιστό. Στην [8] προτείνεται µέθοδος κατηγοριοποίησης εγγράφων σε οντολογία, η οποία γίνεται µε τεχνικές µη επιβλεπόµενης µηχανικής µάθησης, και άρα αδυνατεί να εκµεταλλευτεί τη γνώση από τα ήδη επισηµασµένα έγγραφα. To [9] πραγµατοποιεί µη επιβλεπόµενο αυτόµατο σηµασιολογικό χαρακτηρισµό κειµένων, χωρίς όµως την χρήση οντολογίας. Το [10] περιγράφει τρόπους κατηγοριοποίησης εγγράφων ως σχετικών µε κάποια ευρεία σηµασιολογική κατηγορία ή µη, χρησιµοποιώντας τεχνικές µηχανικής µάθησης, αλλά αφορά δυαδική κατηγοριοποίηση (Binary Classification). Το [11] εξετάζει ζητήµατα διάκρισης µεταξύ γενικών ή ειδικότερων κατηγοριών που ανακύπτουν κατά την αυτόµατη κατηγοριοποίηση εγγράφων. Τέλος, όσον αφορά τη συνδυασµένη αναζήτηση µε λέξεις-κλειδιά και σηµασιολογία, έχουν προταθεί διάφορες σχετικές εργασίες,, όπως [3], [6]. 2. Αρχιτεκτονική Συστήµατος Σχήμα 1. Αρχιτεκτονικό σχέδιο GoNTogle 2.0 Το συνολικό σύστηµα GoNTogle 2.0, έτσι όπως διαµορφώνεται µε την προσθήκη των παραπάνω λειτουργιών χωρίζεται σε πέντε υποσυστήµατα: Με το Υποσύστηµα Δηµιουργίας Ευρετηρίου πραγµατοποιείται η ευρετηριοποίηση εγγράφων του σκληρού δίσκου, δηµιουργώντας ευρετήριο πάνω στο οποίο εκτελείται η αναζήτηση µε λέξεις-φράσεις κλειδιά.

3 Το Υποσύστηµα Σηµασιολογικού Χαρακτηρισµού δίνει τη δυνατότητα χειρωνακτικού σηµασιολογικού χαρακτηρισµού τµήµατος ή ολόκληρου του κειµένου εγγράφων, χρησιµοποιώντας τους κόµβους-κατηγορίες µίας οντολογίας που έχει φορτωθεί στο σύστηµα, δηµιουργώντας στιγµιότυπα των κλάσεών της. Ο χρήστης επιλέγει το προς χαρακτηρισµό κείµενο, φορτώνει την επιθυµητεί οντολογία, περιηγείται στους κόµβουςκατηγορίες της και επιλέγει ποιοι από αυτούς χαρακτηρίζουν νοηµατικά το κείµενο. Με το Υποσύστηµα Αυτόµατου Σηµασιολογικού Χαρακτηρισµού δίνεται στο χρήστη µία νέα δυνατότητα σηµασιολογικού χαρακτηρισµού των εγγράφων του µε αυτόµατο τρόπο, χωρίς να απαιτείται η γνώση του θεµατικού περιεχοµένου του κειµένου από αυτόν. Ο χρήστης απλώς επιλέγει το προς κατηγοριοποίηση έγγραφο και εκτελεί την λειτουργία αυτόµατης κατηγοριοποίησης. Αυτό έχει ως αποτέλεσµα τη δηµιουργία ενός µοντέλου αναπαράστασης του κειµένου του εγγράφου, µε τη βοήθεια του οποίου επιτυγχάνεται η σύγκρισή του µε τα υπόλοιπα έγγραφα της συλλογής, και την εφαρµογή του αλγορίθµου µηχανικής µάθησης ο οποίος προτείνει τις καταλληλότερες για το έγγραφο κατηγορίες. Ο χρήστης µπορεί είτε να επιλέξει µία από τις προτεινόµενες κατηγορίες για το χαρακτηρισµό του εγγράφου, είτε να τις αγνοήσει, καθώς και να προσθέσει το έγγραφο στο σύνολο εγγράφων εκπαίδευσης του συστήµατος, βελτιώνοντας έτσι τις επιδόσεις του. Με το Υποσύστηµα Αναζήτησης, ο χρήστης µπορεί να εκτελέσει απλή αναζήτηση µε λέξεις κλειδιά, σηµασιολογική αναζήτηση (επιλέγοντας προς εµφάνιση έγγραφα που έχουν χαρακτηριστεί µε κλάσεις µιας οντολογίας), και συνδυαστική αναζήτηση (τα αποτελέσµατα εµφανίζονται µε σκορ που προκύπτει συνυπολογίζοντας την ικανοποίηση των κριτηρίων τόσο λεκτικής, όσο και σηµασιολογικής αναζήτησης). Τέλος το Υποσύστηµα Σηµασιολογικής Αναζήτησης Γειτονίας. Με τον όρο Αναζήτηση σηµασιολογικής γειτονίας, αναφερόµαστε σε δύο νέες δυνατότητες αναζήτησης, που υλοποιήθηκαν για τον εµπλουτισµό των αποτελεσµάτων της απλής σηµασιολογικής αναζήτησης, γενικεύοντας το οντολογικό κοµµάτι του ερωτήµατος, αναζητώντας έγγραφα συγγενών. Η πρώτη δυνατότητα (Αναζήτηση Επόµενης Γενιάς) επιτρέπει προοδευτική ανάκτηση εγγράφων, από κόµβους της οντολογίας που βρίσκονται στο αµέσως επόµενο βάθος σε σχέση µε τους κόµβους αρχικής αναζήτησης, ενώ η δεύτερη (Αναζήτηση Στενής Γειτονίας) πραγµατοποιεί αναζήτηση στους εγγύτερους απογόνους των κόµβων αυτών. 3. Αυτόµατη Θεµατική Κατηγοριοποίηση Η χειρωνακτική κατάταξη των εγγράφων σε θεµατικές κατηγορίες, που απαιτείται για την µετέπειτα αναζήτησή τους από το GoNTogle, είναι έργο επίπονο και χρονοβόρο. Για να χαρακτηρίσει θεµατικά µια συλλογή εγγράφων, ο χρήστης πρέπει, για κάθε έγγραφο, να εξετάσει αφενός το περιεχόµενό του και αφετέρου την οντολογία, προκειµένου να επιλέξει τον κόµβο της οντολογίας που χαρακτηρίζει καλύτερα το θέµα του εγγράφου. Η πολυπλοκότητα της διαδικασίας αυτής αυξάνεται καθώς µεγαλώνει το µέγεθος της οντολογίας ή/και της συλλογής εγγράφων. Για την αντιµετώπιση του προβλήµατος αυτού, αναπτύσσουµε ένα σύστηµα Αυτόµατης Θεµατικής Κατηγοριοποίησης εγγράφων, µε βάση το περιεχόµενό τους. Το σύστηµα χρησιµοποιεί τεχνικές Μηχανικής Μάθησης, και προτείνει στο χρήστη τους καταλληλότερους κόµβους µιας οντολογίας για κάθε έγγραφο ή τµήµα αυτού. Για την εκπαίδευση του αλγορίθµου Μηχανικής Μάθησης ήταν απαραίτητη η χρήση ενός συνόλου εγγράφων εκπαίδευσης (training data set), και κάθε κόµβο της εκάστοτε οντολογίας. Δεδοµένου ότι το GoNTogle δεν κατασκευάστηκε για να λειτουργεί µε µία µόνο συγκεκριµένη οντολογία, προέκυψε το ζήτηµα της εξασφάλισης του κατάλληλου συνόλου τέτοιων εγγράφων, για τους κόµβους οποιασδήποτε οντολογίας εισαχθεί στο σύστηµα (είτε έχει κατασκευαστεί από τρίτους, είτε από τον ίδιο το χρήστη). Για παράδειγµα, έστω ότι ο χρήστης χρησιµοποιεί µία έτοιµη οντολογία που συνοδεύεται από τα αντίστοιχα έγγραφα εκπαίδευσης. Δύο προβλήµατα µπορεί να προκύψουν: Αφενός, αν ο χρήστης προσθέσει νέους κόµβους στην οντολογία, θα πρέπει να εξασφαλίζονται δεδοµένα εκπαίδευσης γι αυτούς. Αφετέρου,µπορεί ο χρήστης να αποδίδει διαφορετικό νόηµα στο περιεχόµενο κάποιας κατηγορίας (κατά την υποκειµενική του κρίση), οπότε να διαφωνεί µε το δοθέν σύνολο εγγράφων εκπαίδευσης αυτής. Τέλος, επιθυµητό θα ήταν το σύστηµα να µπορεί να βελτιώνεται καθώς αυξάνεται η αποθηκευµένη σε αυτό γνώση και να µαθαίνει από τα λάθη του. Η ιδέα αυτή υιοθετήθηκε για την υλοποίηση του υποσυστήµατος Αυτόµατης Θεµατικής Κατηγοριοποίησης ως εξής: Από τη στιγµή που ο χρήστης χαρακτηρίζει σηµασιολογικά ένα έγγραφο, το έγγραφο αυτό µπορεί πλέον να συµµετέχει στα έγγραφα εκπαίδευσης του αντίστοιχου κόµβου της οντολογίας. Έτσι, το σύστηµα µαθαίνει κάθε φορά που κατηγοριοποιείται ένα νέο έγγραφο, µε αποτέλεσµα να χτίζεται σταδιακά το σύνολο των δεδοµένων εκπαίδευσης ολόκληρης της οντολογίας και κατ επέκταση να βελτιώνονται οι επιδόσεις του συστήµατος Μοντέλο Αναπαράστασης Εγγράφων Για την αναπαράσταση των εγγράφων χρησιµοποιήθηκε το Διανυσµατικό Μοντέλο (Vector Space Text Retrieval Model) [12]. Τα έγγραφα της συλλογής υπόκεινται στην απαραίτητη λεξικολογική επεξεργασία (αφαίρεση κοινών λέξεων και σηµείων στίξης, στελέχωση) για την παραγωγή των ελάχιστων λεκτικών

4 µονάδων που αποτελούν τους περιγραφείς τους. Ακολουθεί η διαδιασία ανάθεσης βάρους σε κάθε λεκτική µονάδα, που απεικονίζει τη σηµαντικότητα που έχει κάθε λέξη σε ένα έγγραφο. Η µέθοδος που χρησιµοποιήθηκε είναι η κανονικοποιηµένη tf-idf. Με τη διαδικασία αυτή προκύπτει το διάνυσµα συχνοτήτων των λεκτικών µονάδων του κειµένου (tf vector). Για την κατηγοριοποίησή ενός εγγράφου άγνωστης κατηγορίας, κατασκεάζεται το αντίστοιχο διάνυσµά του, δηµιουργείται µε αυτό ένα ερώτηµα (query) και εκτελείται αναζήτηση στα ευρετηριοποιηµένα έγγραφα της συλλογής. Η αναζήτηση επιστρέφει ως αποτέλεσµα έγγραφα ταξινοµηµένα σύµφωνα µε το βαθµό οµοιότητας του διανύσµατος του εγγράφου, µε τα διανύσµατα των εγγράφων της συλλογής. Η συνάρτηση που υπολογίζει το βαθµό οµοιότητας αποτελεί παραλλαγή της απόστασης συνηµιτόνου (cosine similarity) [12]. Επί των ταξινοµηµένων αποτελεσµάτων που επιστρέφει η αναζήτηση, εφαρµόζεται ο αλγόριθµος µηχανικής µάθησης του συστήµατος. Σχήμα 2. Υποσύστημα Αυτόματης Θεματικής Κατηγοριοποίησης 3.2. Αλγόριθµος Μηχανικής Μάθησης Ο αλγόριθµος που χρησιµοποιήθηκε είναι ο αλγόριθµος των k κοντυνότερων γειτόνων k-nn (k- Nearest Neighbor). Τα βήµατα εκτέλεσης του αλγορίθµου είναι τα εξής: Φάση εκπαίδευσης του αλγορίθµου: Αποθηκεύονται τα έγγραφα εκπαίδευσης, των οποίων είναι γνωστή η κατηγορία στην οποία ανήκουν, µε τη µορφή του διανυσµατικού µοντέλου. Φάση κατηγοριοποίησης: Επιλέγονται k το πλήθος έγγραφα εκπαίδευσης µε το µεγαλύτερο βαθµό οµοιότητας ως προς το άγνωστο έγγραφο, τα οποία συνάµα είναι σηµασιολογικά χαρακτηρισµένα από κόµβους της οντολογίας. Στη συνέχεια, διεξάγεται ψηφοφορία µεταξύ των k επικρατέστερων εγγράφων για να εκλεγούν οι πλειοψηφίσαντες κόµβοι-κατηγορίες µε τους οποίους είναι χαρακτηρισµένα τα έγγραφα αυτά. Η ψηφοφορία µπορεί να γίνει είτε µε ισοβαρείς ψήφους (Απλός k-nn), είτε µε ψήφους σταθµισµένες ανάλογα µε την οµοιότητα των εγγράφων (Σταθµισµένος (weighted) k-nn). Οι δύο αυτές παραλλαγές υλοποιήθηκαν και αξιολογήθηκαν πειραµατικά. Ως δεδοµένα εκπαίδευσης, το σύστηµα χρησιµοποιεί το σύνολο των ήδη κατηγοριοποιηµένων εγγράφων. Έτσι εξασφαλίζεται η καλή λειτουργία του συστήµατος ανεξαρτήτως της οντολογίας που χρησιµοποιείται, το δε σύστηµα βελτιώνεται και µαθαίνει από τα λάθη του και τις συνήθειες του χρήστη. Σχήμα 3. Αποτελέσματα Απλού K-nn 4. Σηµασιολογική Διεύρυνση Ερωτηµάτων Συχνά µια αναζήτηση δεν επιστρέφει επαρκή αριθµό αποτελεσµάτων, για παράδειγµα αν το ερώτηµα αναζήτησης είναι υπερβολικά περιοριστικό (πχ αναζήτηση εγγράφων σχετικών µε κάποιο συνέδριο στη Λευκάδα, στην θεµατική περιοχή Επιστήµη). Για την αντιµετώπιση αυτού του προβλήµατος προτείνονται τεχνικές διεύρυνσης του ερωτήµατος στο σηµασιολογικό άξονα, υπό το γενικό τίτλο Αναζήτηση Σηµασιολογικής Γειτονίας. Οι µέθοδοι αυτές επιτρέπουν στο χρήστη να εξερευνήσει το χώρο των σηµασιολογικά συναφών αποτελεσµάτων αναζήτησης, διευρύνοντας τους σηµασιολογικούς περιορισµούς του ερωτήµατος. Στο προηγούµενο παράδειγµα, ένα έγγραφο για ένα συνέδριο στη Λευκάδα, που ανήκει όµως στη θεµατική υποπεριοχή Μουσική Πληροφορική (Music Computing), µπορεί να ικανοποιεί την πρόθεση του χρήστη. Συγκεκριµένα, προτείνουµε δύο µεθόδους σηµασιολογικής διεύρυνσης ερωτηµάτων, την Αναζήτηση Επόµενης Γενιάς (ΑΕΓ), που επιστρέφει έγγραφα από κατηγορίες που προοδευτικά εξειδικεύουν τις κατηγορίες του ερωτήµατος, και την Αναζήτηση Στενής Γειτονίας (ΑΣΓ), που επιστρέφει έγγραφα από κατηγορίες σηµασιολογικά συσχετισµένες µε αυτές του

5 ερωτήµατος, βαθµολογηµένα ανάλογα µε τη σηµασιολογική αυτή συνάφεια. Στο προηγούµενο παράδειγµα, έστω ότι η αναζήτηση εγγράφων συνέδριο στη Λευκάδα, στη θεµατική περιοχή Επιστήµη δεν επιστρέφει αρκετά αποτελέσµατα. Με την ΑΕΓ, θα επιστραφούν αρχικά στο χρήστη έγγραφα για συνέδριο στη Λευκάδα στις θεµατικές περιοχές π.χ. Ανθρωπιστικές Επιστήµες, Θετικές Επιστήµες, κλπ, ενώ αν ο χρήστης ζητήσει περισσότερα αποτελέσµατα, θα του επιστραφούν έγγραφα για συνέδριο στη Λευκάδα στις θεµατικές περιοχές π.χ. Πληροφορική, Φυσική, κλπ.. Αν ζητήσει περαιτέρω αποτελέσµατα, από τις θεµατικές περιοχές Μουσική Πληροφορική, Πυρηνική Φυσική, κλπ, κ.ο.κ.. Με την ΑΣΓ, θα επιστραφούν έγγραφα για συνέδριο στη Λευκάδα στις θεµατικές περιοχές Ανθρωπιστικές Επιστήµες, Θετικές Επιστήµες, κλπ, και Πληροφορική, Φυσική, κλπ, µε βαθµολογίες ανάλογες της σχετικότητας της θεµατικής τους περιοχής, µε αυτήν που αρχικά ζητήθηκε (Επιστήµη). Με τις µεθόδους αυτές ο χρήστης µπορεί να εξερευνήσει αποδοτικά το χώρο των σηµασιολογικά συναφών αποτελεσµάτων σχετικά µε το αρχικό του ερώτηµα Αναζήτηση Επόµενης Γενιάς Η τεχνική της ΑΕΓ, πραγµατοποιεί προοδευτική εξερεύνηση συναφών αποτελεσµάτων µε το αρχικό ερώτηµα, βασιζόµενη σε ένα µοντέλο σταδιακής εξάπλωσης Στο [13] προτείνεται ένα σύστηµα αναζήτησης εγγράφων, δοµηµένων ως γράφων. Τα αποτελέσµατα µιας αναζήτησης ανακτώνται και αξιολογούνται ανά γενιές, µε βάση την απόστασή τους από κόµβους που σχετίζονται µε το ερώτηµα της αναζήτησης. Η διαίσθηση πίσω απ αυτό το µοντέλο είναι ότι κόµβοι της ίδιας γενιάς (δηλ. οι έχοντες, δηλαδή, την ίδια απόσταση από τους κόµβους του ερωτήµατος) έχουν παρόµοια σχετικότητα µε το ερώτηµα. Υιοθετώντας τη διαίσθηση αυτή, η τεχνική της ΑΕΓ επιστρέφει έγγραφα από κατηγορίες που προοδευτικά εξειδικεύουν τις κατηγορίες του αρχικού ερωτήµατος. Τα αποτελέσµατα µιας αναζήτησης, ανακτώνται και αξιολογούνται ανά γενιές, µε βάση την απόστασή τους από κόµβους που σχετίζονται µε το ερώτηµα της αναζήτησης Αναζήτηση Στενής Γειτονίας Η Αναζήτηση Στενής Γειτονίας, επιστρέφει έγγραφα από κατηγορίες σηµασιολογικά συσχετισµένες µε αυτές του ερωτήµατος, βαθµολογηµένα ανάλογα µε την σηµασιολογική αυτή συνάφεια. Για την ανάπτυξη της µεθόδου αυτής υιοθετήθηκε µοντέλο περιορισµένης εξαπλούµενης ενεργοποίησης [14], το οποίο έχει χρησιµοποιηθεί και στην αναζήτηση εγγύτητας σε γράφους [15], [16]. Σύµφωνα µε το µοντέλο αυτό, θεωρείται ότι οι κόµβοι ενός γράφου που σχετίζονται µε το ερώτηµα µιας αναζήτησης λαµβάνουν µία µονάδα ενεργοποίησης. Ακολούθως, µε βάση κάποιους κανόνες που διέπουν την µετάδοσή της, η ενεργοποίηση µεταδίδεται στους υπόλοιπους κόµβους του γράφου. Για παράδειγµα, µπορεί ο κάθε κόµβος να χάνει ένα ποσοστό µ, της ενεργοποίησής του, το οποίο ισοκατανέµεται σε όλους τους γειτονικούς του κόµβους, και η τελική ενεργοποίηση ενός κόµβου είναι το µέγιστο όλων των ενεργοποιήσεων που έχει λάβει. Το τελικό σκορ ενός κόµβου είναι η τελική ενεργοποίησή του. Επιπλέον, για να υπάρχει µια ελάχιστη εγγυηµένη σχετικότητα του κάθε αποτελέσµατος µε το ερώτηµα, κόµβοι µε ενεργοποίηση κάτω από ένα κατώφλι, δεν την µεταδίδουν. Στην περίπτωσή µας, αυτό µεταφράζεται στα εξής: Επιστρέφονται αποτελέσµατα που ανήκουν στις πιο συναφείς κατηγορίες, µε βαθµολογία σταθµισµένη από το βάθος της κατηγορίας. 5. Πειραµατική Αξιολόγηση 5.1. Αυτόµατη Θεµατική Κατηγοριοποίηση Για την αξιολόγηση των µεθόδων µας, δηµιουργήθηκε µια πλήρης οντολογία κατάταξης επιστηµονικών δηµοσιεύσεων Πληροφορικής, βασισµένη στο σύστηµα κατάταξης της ACM [2]. Ως δεδοµένα εκπαίδευσης, χρησιµοποιήθηκαν 500 επιστηµονικές δηµοσιεύσεις, που είχαν κατηγοριοποιηθεί από τους συγγραφείς τους. Εκτελέστηκαν πειράµατα και για τις δύο παραλλαγές του αλγορίθµου k-nn (Απλός, Σταθµισµένος), µε διαφορετικές τιµές του k. Για την αξιολόγηση των αποτελεσµάτων χρησιµοποιήθηκαν τόσο οι κλασσικές µετρικές Ακρίβειας (ικανότητα ανάκτησης µόνο συναφών εγγράφων) και Ανάκλησης (ικανότητα ανάκτησης όλων των συναφών εγγράφων της συλλογής), όσο και τροποποιηµένες µορφές τους για το συνυπολογισµό των ιδιαιτεροτήτων του προβλήµατος, συγκεκριµένα της αλληλεπιδραστικότητας του συστή- µατος: το σύστηµα προτείνει έναν αριθµό αποτελεσµάτων, ο χρήστης εξετάζει µερικά από αυτά, και τελικά αποφασίζει αν και ποιο θα δεχθεί. Θα ήταν λάθος να ερµηνεύονταν τα προτεινόµενα αποτελέσµατα ως αποφάσεις κατηγοριοποίησης ενός εγγράφου σε πολλαπλές κατηγορίες. Για να αναδείξουµε τη συµπεριφορά αυτή, χρησιµοποιούµε την εξής παραλλαγή µετρικών: Η Τροποποιηµένη Ακρίβεια µετράει τον λόγο του αριθµού των εγγράφων στα οποία το σωστό αποτέλεσµα ανήκε στα προτεινόµενα, προς τον συνολικό αριθµό εγγράφων. Η δε Τροποποιηµένη Ανάκληση µετράει τον λόγο των αποτελεσµάτων που προτείνονται στο χρήστη, προς τον αριθµό των εγγράφων για τα οποία ζητήθηκαν αποτελέσµατα. Όσον αφορά την ορθότητα των προτεινόµενων αποτελεσµάτων, διακρίνουµε τρία επίπεδα ορθότητας. Ιδανικά, ένα προτεινόµενο αποτέλεσµα αντιπροσωπεύει την πραγµατική κατηγορία του κειµένου (αυστηρή ορθότη-

6 τα). Εάν κάτι τέτοιο δε συµβαίνει, είναι προτιµότερο να αντιπροσωπεύει µια γενικότερη κατηγορία αυτής (π.χ. το κείµενο πραγµατεύεται Τεχνικές Πολυδιάστατης Ευρετηριοποίησης και το σύστηµα προτείνει την κατηγορία Τεχνικές Ευρετηριοποίησης) (ορθότητα γενίκευσης). Τέλος εάν και αυτό δε συµβαίνει, είναι πάλι προτιµότερο κάποια προτεινόµενη κατηγορία να είναι συγγενική της πραγµατικής και συγκεκριµένα αδελφική κατηγορία στο δέντρο της οντολογίας (π.χ. στο ανωτέρω παράδειγµα το σύστηµα προτείνει την κατηγορία Τεχνικές Μονοδιάστατης Ευρετηριοποίησης) (ορθότητα συνάφειας). Η λειτουργία του Αυτόµατου Σηµασιολογικού Χαρακτηρισµού εκτελέστηκε πάνω σε σύνολο 66 διαφορετικών δηµοσιεύσεων και σε κάθε εκτέλεση προτείνονταν στο χρήστη αποτελέσµατα µε βαθµολογία πάνω από ένα κατώφλι. Μεταβάλλοντας αυτό το κατώφλι, παρατηρούµε διάφορα σηµεία Τροποποιηµένης Ακρίβειας-Ανάκλησης του συστήµατος. Οι καµπύλες αυτές δείχνουν πόσα έγγραφα µπορούν να κατηγοριοποιηθούν σωστά, ανάλογα µε τον αριθµό προτάσεων που έκανε το σύστηµα. Από τα αποτελέσµατα παρατηρούµε ότι το σύστηµα παρουσιάζει ένα αναµενόµενο ισοζύγιο Ακρίβειας / Ανάκλησης. Επίσης, η απόδοση του συστήµατος βελτιώνεται αισθητά όταν χρησιµοποιείται ο Σταθµισµένος k-nn αλγόριθµος που υλοποιήσαµε, αντί του απλού. Αυτό είναι αναµενόµενο, δεδοµένης της τάσης του Απλού k-nn να ευνοεί λιγότερο σχετικά έγγραφα εκπαίδευσης. Από την αναπαράσταση των αποτελεσµάτων µε τη χρήση των τροποποιηµένων µετρικών, µπορεί κανείς να παρατηρήσει ότι το σύστηµά παρουσιάζει στην πράξη πολύ καλή απόδοση. Ο χρήστης µπορεί να χαρακτηρίσει σωστά 60-90% των εγγράφων του (ανάλογα µε την αυστηρότητα της ορθότητας που επιθυµεί), εξετάζοντας λιγότερες από 4 προτεινόµενες κατηγορίες ανά έγγραφο. Αντίστοιχα αποτελέσµατα, λαµβάνουµε για άλλες µετρικές και παραµέτρους του συστήµατος. Σχήμα 5. Ανάκληση Σχήμα 6. Τροποποιημένη Ανάκληση Κατά την ερµηνεία αυτών των αριθµών, ας συνυπολογιστεί το γεγονός ότι η κατηγοριοποίηση επιστηµονικών δηµοσιεύσεων είναι έργο δύσκολο: Το περιεχόµενο των δηµοσιεύσεων συχνά αναφέρεται σε πολλαπλές κατηγορίες, διαφορετικές µεταξύ τους. Επίσης, αρκετοί κόµβοι στην οντολογία ACM, βρίσκονται εννοιολογικά πολύ κοντά, λόγω της εξειδίκευσης της οντολογίας. Αυτός είναι και ένας λόγος που το σύστηµα παρουσιάζει σαφώς βελτιωµένη συµπεριφορά για λιγότερο αυστηρούς ορισµούς ορθότητας αποτελεσµάτων Αναζήτηση Σηµασιολογικής Γειτονίας Σχήμα 4. Ανάκληση Ακολούθως παρατίθενται παραδείγµατα εκτέλεσης Αναζήτησης Σηµασιολογικής Γειτονίας µε τις δύο µεθόδους που υλοποιήθηκαν, στο σύνολο δεδοµένων που περιγράφηκε. Τα παραδείγµατα αυτά αναδεικνύουν την αποδοτικότητα των προτεινόµενων µεθόδων στον εµπλουτισµό των αποτελεσµάτων της συνήθους αναζήτη-

7 σης (σηµασιολογική και συνδυαστική αναζήτηση). Έχουν ως κοινή αφετηρία την απλή συνδυαστική αναζήτηση εγγράφων της κατηγορίας H.Information Systems, που να περιέχουν τις λέξεις data και records, αλλά όχι τη λέξη autonomic, η οποία αρχικά δεν επιστρέφει απότελέσµατα. Σχήμα 8. Αποτελέσματα βάθους 2 Στην επόµενη επανάληψη ανακτάται το επιθυµητό έγγραφο Αναζήτηση Επόµενης Γενιάς Ο υποθετικός χρήστης Α θέλει να βρει µία παρουσίαση που είχε παρακολουθήσει και απ όσο θυµάται ικανοποιεί τα κριτήρια της παραπάνω αναζήτησης. Μη βρίσκοντας αποτελέσµατα, χρησιµοποιεί την ΑΕΓ για την διαδοχική ανάκτηση εγγράφων, κατά µειούµενη σηµασιολογική σχετικότητα. Με το πάτηµα του κουµπιού Get next generation, ανακτώνται τα έγγραφα που είναι χαρακτηρισµένα µε κάποιο κόµβο-παιδί αυτής της κατηγορίας, και περιέχουν τις επιθυµητές λέξεις: Σχήμα 9. Αποτελέσματα βάθους Αναζήτηση Στενής Γειτονίας Ο υποθετικός χρήστης Β αναζητά επιστηµονικές δηµοσιεύσεις για µια βιβλιογραφική µελέτη, χρησιµοποιώντας την αρχική αναζήτηση. Μη βρίσκοντας αποτελέσµατα, χρησιµοποιεί την ΑΣΓ, για να βρει τα έγγραφα που προσεγγίζουν περισσότερο την αρχική κατηγορία. Με την εφαρµογή της µεθόδου, ανακτά πλήθος σχετικών δηµοσιεύσεων, όπως φαίνεται στο παρακάτω σχήµα: Σχήμα 7. Αποτελέσματα βάθους 1 Εφόσος ο χρήστης δεν έχει εντοπίσει ακόµα το έγγραφο που επιθυµεί, ζητά κι άλλα αποτελέσµατα (από κόµβους µεγαλύτερου βάθους), ξαναπατώντας το κουµπί. Σχήμα 10. Αποτελέσματα ΑΣΓ 6. Λοιπές συνεισφορές της διπλωµατικής Το GoNTogle είναι επιθυµητό να υποστηρίζει πολλούς τύπους αρχείων για να καλύπτει καλύτερα τις ανάγκες αρχειοθέτησης και αναζήτησης του χρήστη. Γι αυτό προστέθηκε η δυνατότητα ευρετηριοποίησης και αναζήτησης νέων τύπων αρχείων καθώς και διόρθωση προβληµάτων τύπων αρχείων που τύγχαναν ελλειπούς υποστήρηξης, καθώς και πρόσθεση πλήρους

8 υποστήρηξης ελληνικών σε αρχεία που την υποστήριζαν µερικώς. Αποτέλεσµα, η πλήρης υποστήριξη αρχείων όπως Postscript (.ps), Microsoft Office PowerPoint (.ppt), Αρχεία HTML (.htm,.html), Αρχεία Microsoft Excel (.xls), Αρχεία Adobe PDF (.pdf),.doc,.txt κά. 7. Συµπεράσµατα Το νέο σύστηµα GoNTogle 2.0 προσφέρει στο χρήστη τη δυνατότητα αυτόµατου σηµασιολογικού χαρακτηρισµού εγγράφων, ώστε να µπορεί µε λιγότερη προσπάθεια να χαρακτηρίζει σηµασιολογικά µεγάλο πλήθος εγγράφων του και άρα να καθίσταται πρακτική η σηµασιολογική αναζήτηση των εγγράφων αυτών. Η υλοποίηση του υποσυστήµατος αυτόµατου σηµασιολογικού χαρακτηρισµού γίνεται µε χρήση τεχνικών µηχανικής µάθησης, ώστε ανάλογα µε τις επιλογές του χρήστη, το σύστηµα να µαθαίνει από τα λάθη του, και τις συνήθειες του χρήστη βελτιώνοντας έτσι την απόδοσή του. Το GoNTogle 2.0 επίσης, υλοποιεί δύο µεθόδους αναζήτησης για τον εµπλουτισµό σηµασιολογικών αποτελεσµάτων, για να ανταποκριθεί σε περιπτώσεις που τα επιστρεφόµενα αποτελέσµατα δεν είναι επαρκή σε αριθµό και δεν καλύπτουν τις ανάγκες του χρήστη. Οι µέθοδοι αυτοί πραγµατοποιούν αναζήτηση εγγράφων σε κόµβους της οντολογίας που είναι συγγενικοί µε τους αρχικούς κόµβους αναζήτησης. 8. Μελλοντικές Επεκτάσεις Μία ενδιαφέρουσα µελλοντική επέκταση που θα διευκόλυνε το χρήστη στα πρώτα στάδια εκπαίδευσης του αλγορίθµου µηχανικής µάθησης, είναι η ύπαρξη ενός συνόλου λέξεων, που θα αποτελεί τα δεδοµένα εκπαίδευσης κόµβων που δεν περιέχουν ακόµα σηµασιολογικά χαρακτηρισµένα έγγραφα. Μία λύση που θεωρούµε πολλά υποσχόµενη, είναι η χρησιµοποίηση άρθρων της Wikipedia για εξαγωγή λέξεων που θα περιγράφουν τους κόµβους αυτούς και θα αποτελούν τα δεδοµένα εκπαίδευσης, µέχρι να υπάρξει επαρκής αριθµός σηµασιολογικά χαρακτηρισµένων κειµένων στην οντολογία. Η Wikepedia προτείνεται διότι τα άρθρα της έχουν µεγάλη θεµατική πληρότητα, είναι ταξινοµηµένα σε κατηγορίες, και τα κείµενά τους προκύπτουν από ποικίλους τρόπους συγγραφής. 9. Βιβλιογραφία [1] Γ. Γιαννόπουλος, GoNTogle: Έξυπνη µηχανή αναζήτησης µε χρήση οντολογιών, Διπλωµατική εργασία, Εθνικό Μετσόβιο Πολυτεχνείο, Ιούλιος 2006 [3] A. Kiryakov, B. Popov, D. Ognyanoff, D. Manov, A. Kirilov, M. Goranov. Semantic Annotation Indexing and Retrieval. Journal of Web Semantics 2, Issue 1, Elsevier, 2004 [4] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan, GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications, Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002 [5] Reuters OpenCalais, Ανακτήθηκε στις [6] P. Castells, M. Fernandez, D. Vallet, "An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval," IEEE Transactions on Knowledge and Data Engineering, vol. 19, no. 2, pp , Feb., 2007 [7] S. Souldatos, T. Dalamagas, T. Sellis, Captain Nemo: A Metasearch Engine with Personalized Hierarchical Search Space Informatica, Vol. 30, No 2, pp , 2006 [8] P. Cimiano, S. Handschuh, S. Staab: Towards the selfannotating web. WWW 2004: [9] Y. Huang, T. M. Mitchell, Text clustering with extended user feedback, SIGIR 2006 [10] L. W. Kwong, Yiu-Kai Ng, Performing Binary- Categorization on Multiple-Record Web Documents Using Information Retrieval Models and Application Ontologies, World Wide Web (WWW), 2003 [11] S. T. Dumais, H. Chen, "Hierarchical classification of Web content" SIGIR, 2000 [12] I. H. Witten, A. Moffat, T. C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann [13] J. Graupmann, R. Schenkel, G. Weikum, The SphereSearch Engine for Unified Ranked Retrieval of Heterogeneous XML and Web Documents, VLDB 2005 [14] P. R. Cohen, R. Kjeldsen, Information retrieval by constrained spreading activation in semantic networks. Inf. Process. Manage. (IPM) 23(4), 1987 [15] G. Kasneci, F. M. Suchanek, G. Ifrim, M. Ramanath, G. Weikum, NAGA: Searching and Ranking Knowledge, ICDE 2008 [16] Wen-Syan Li, K. S. Candan, Q. Vu, D. Agrawal, Retrieving and organizing web pages by information unit, WWW 2001 [2] ACM Computing Classification System,

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αυτόµατη Θεµατική Κατηγοριοποίηση και Σηµασιολογική ιεύρυνση Ερωτηµάτων

Διαβάστε περισσότερα

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης Εθνικό Μετσόβιο Πολυτεχνείο Σχολη Ηλεκτρολογων Μηχανικων και Μηχανικων Υπολογιστων Τομεας Τεχνολογιας Πληροφορικης και Υπολογιστων Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ»

Διαβάστε περισσότερα

ΗΡΑΚΛΗΣ Γ. ΒΑΡΛΑΜΗΣ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

ΗΡΑΚΛΗΣ Γ. ΒΑΡΛΑΜΗΣ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΗΡΑΚΛΗΣ Γ. ΒΑΡΛΑΜΗΣ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΧΑΡΑΚΤΗΡΙΣΜΟΣ, ΟΡΓΑΝΩΣΗ ΚΑΙ ΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ, ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΚΑΙ ΕΜΦΑΣΗ ΣΤΟ ΡΟΛΟ ΤΩΝ ΥΠΕΡΣΥΝ ΕΣΜΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΑΤΟΜΙΚΕΥΣΗ ΙΣΤΟΣΕΛΙΔΩΝ. Παρασκευή Δ. Τζέκου ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ

ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΑΤΟΜΙΚΕΥΣΗ ΙΣΤΟΣΕΛΙΔΩΝ. Παρασκευή Δ. Τζέκου ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΑΤΟΜΙΚΕΥΣΗ ΙΣΤΟΣΕΛΙΔΩΝ Παρασκευή Δ. Τζέκου ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ Οκτώβριος 2007 2 PATRAS UNIVERCITY SCHOOL

Διαβάστε περισσότερα

4.1 Google n-grams...33

4.1 Google n-grams...33 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αποσαφήνιση Λέξεων µε Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη Επιβλέπων:

Διαβάστε περισσότερα

Κεφάλαιο 1. Εισαγωγή 1

Κεφάλαιο 1. Εισαγωγή 1 Κεφάλαιο 1. Εισαγωγή 1 1.1 Η ανάγκη για Ανάκτηση Πληροφορίας Η επιστήµη της Ανάκτησης Πληροφορίας (ΑΠ στο εξής), ασχολείται µε την αναπαράσταση, την αποθήκευση, την οργάνωση και την πρόσβαση σε πληροφοριακά

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξόρυξη Γνώσης από Πλοηγήσεις Χρηστών σε Πύλες Καταλόγων (Portal Catalogs)

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΏΝ ΠΟΛΥΤΕΧΝΙΚΉ ΣΧΟΛΉ ΤΜΉΜΑ ΜΗΧΑΝΙΚΏΝ Η/Υ

ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΏΝ ΠΟΛΥΤΕΧΝΙΚΉ ΣΧΟΛΉ ΤΜΉΜΑ ΜΗΧΑΝΙΚΏΝ Η/Υ ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΏΝ ΠΟΛΥΤΕΧΝΙΚΉ ΣΧΟΛΉ ΤΜΉΜΑ ΜΗΧΑΝΙΚΏΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΉΣ ΔΙΠΛΩΜΑΤΙΚΉ ΕΡΓΑΣΊΑ ΑΞΙΟΠΟΊΗΣΗ ΠΛΑΤΦΌΡΜΑΣ ΔΙΑΧΕΊΡΙΣΗΣ ΠΕΡΙΕΧΟΜΈΝΟΥ ΑΝΟΙΧΤΟΎ ΚΏΔΙΚΑ ΓΙΑ ΤΟ. Μπουρέλος Παναγιώτης AM 3446 Υπεύθυνος

Διαβάστε περισσότερα

«Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά κείµενα»

«Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά κείµενα» ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ιπλωµατική Εργασία Μεταπτυχιακού ιπλώµατος Ειδίκευσης «Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά

Διαβάστε περισσότερα

Προσωποποίηση αποτελεσμάτων μηχανών αναζήτησης μέσω ενσωμάτωσης συμπεριφοράς χρηστών και σημασιολογικών δεδομένων

Προσωποποίηση αποτελεσμάτων μηχανών αναζήτησης μέσω ενσωμάτωσης συμπεριφοράς χρηστών και σημασιολογικών δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΩΝ & ΥΠΟΛΟΓΙΣΜΩΝ Προσωποποίηση

Διαβάστε περισσότερα

ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΡΟΣΩΠΟΠΟΙΗΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΑΓΟΡΙΤΣΑΣ ΒΟΠΗ

ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΡΟΣΩΠΟΠΟΙΗΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΑΓΟΡΙΤΣΑΣ ΒΟΠΗ ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΡΟΣΩΠΟΠΟΙΗΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ της ΑΓΟΡΙΤΣΑΣ ΒΟΠΗ ιπλωµατική εργασία στα πλαίσια του µεταπτυχιακού διπλώµατος ειδίκευσης «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» του τµήµατος Μηχανικών Η/Υ

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές Σύστασης Όρων για Αναζήτηση σε Επιστηµονικές Βάσεις Δεδοµένων

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Αναγνώριση μερών του λόγου σε ελληνικά κείμενα με τεχνικές

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ πradio: Εξατομικευμένο Σύστημα Σύστασης Ακρόασης Ηλεκτρονικού Ραδιοφώνου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ του ΝΤΕΓΙΑΝΝΑΚΗ ΘΕΟΔΟΣΗ Επιβλέπων : Νικόλαος Ματσατσίνης

Διαβάστε περισσότερα

Κατασκευή μοντέλων Data Mining με Γενικευμένα Νευρωνικά Δίκτυα Παλινδρόμησης GRNN σε βάσεις δεδομένων Oracle

Κατασκευή μοντέλων Data Mining με Γενικευμένα Νευρωνικά Δίκτυα Παλινδρόμησης GRNN σε βάσεις δεδομένων Oracle ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κατασκευή μοντέλων Data Mining με Γενικευμένα Νευρωνικά Δίκτυα Παλινδρόμησης GRNN

Διαβάστε περισσότερα

Ανάπτυξη Διαδικτυακής Εφαρµογής Δηµιουργίας και Προβολής Ανυσµατικών Χαρτών Πλοήγησης µε Χρήση Ανοικτού Λογισµικού ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάπτυξη Διαδικτυακής Εφαρµογής Δηµιουργίας και Προβολής Ανυσµατικών Χαρτών Πλοήγησης µε Χρήση Ανοικτού Λογισµικού ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΕΠΙΚΟΙΝΩΝΙΩΝ, ΗΛΕΚΤΡΟΝΙΚΗΣ & ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανάπτυξη Διαδικτυακής Εφαρµογής Δηµιουργίας και Προβολής Ανυσµατικών

Διαβάστε περισσότερα

Χρήση Κοινωνικών Δικτύων ως Βάση ενός Συστήματος Συστάσεων

Χρήση Κοινωνικών Δικτύων ως Βάση ενός Συστήματος Συστάσεων ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΤΩΝ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του ΠΕΤΡΟΥ Ι. ΒΕΝΕΤΗ. Καθηγητής Ε..Μ.Π. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του ΠΕΤΡΟΥ Ι. ΒΕΝΕΤΗ. Καθηγητής Ε..Μ.Π. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αποδοτικά ευρετήρια για ερωτήματα ομοιότητας σε τυχαίους υποχώρους πολυδιάστατων

Διαβάστε περισσότερα

Πτυχιακή Εργασία: Αποτελεσματικότητα των μηχανών αναζήτησης: Μία πειραματική μελέτη βασισμένη στην επισημείωση εικόνων ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Πτυχιακή Εργασία: Αποτελεσματικότητα των μηχανών αναζήτησης: Μία πειραματική μελέτη βασισμένη στην επισημείωση εικόνων ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΕΠΙΚΟΙΝΩΝΙΑΣ ΚΑΙ ΣΠΟΥΔΩΝ ΔΙΑΔΙΚΤΥΟΥ Πτυχιακή Εργασία: Αποτελεσματικότητα των μηχανών αναζήτησης: Μία πειραματική μελέτη βασισμένη στην επισημείωση εικόνων Δέσπω Θεοδώρου

Διαβάστε περισσότερα

14 ιαχείριση και έκδοση πολύγλωσσων δεδοµένων

14 ιαχείριση και έκδοση πολύγλωσσων δεδοµένων Ο ΗΓΟΣ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΚΜΗΡΙΩΣΗΣ ΚΑΙ ΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ Κέντρο Πολιτισµικής Πληροφορικής, Ινστιτούτο Πληροφορικής ΙΤΕ Επιχειρησιακό Πρόγραµµα «Κοινωνία της Πληροφορίας», Μέτρο 1.3 14 ιαχείριση και έκδοση

Διαβάστε περισσότερα

Χρήση Θεματικών Ταξινομιών για την Αυτόματη Δημιουργία και Οργάνωση Εξατομικευμένων Καταλόγων Διαδικτύου : Ένας Πρότυπος Αλγόριθμος Ταξινόμησης

Χρήση Θεματικών Ταξινομιών για την Αυτόματη Δημιουργία και Οργάνωση Εξατομικευμένων Καταλόγων Διαδικτύου : Ένας Πρότυπος Αλγόριθμος Ταξινόμησης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακό Δίπλωμα Ειδίκευσης «Επιστήμη και Τεχνολογία Υπολογιστών» Διπλωματική Εργασία Χρήση Θεματικών

Διαβάστε περισσότερα

Μαγδαληνή Π. Ειρηνάκη

Μαγδαληνή Π. Ειρηνάκη Μαγδαληνή Π. Ειρηνάκη ΚΑΙΝΟΤΟΜΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΕΞΑΤΟΜΙΚΕΥΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τµήµα Πληροφορικής Απρίλιος 2006 Μαγδαληνή Π. Ειρηνάκη 2006 i ΕΥΧΑΡΙΣΤΙΕΣ

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ "ΕΞΟΡΥΞΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠΟ ΠΟΛΥΜΕΣΑ ΜΕ ΧΡΗΣΗ ΓΝΩΣΗΣ" ΙΩΣΗΦΙ

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες. Γεώργιος Σάκκης. Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες. Γεώργιος Σάκκης. Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες Γεώργιος Σάκκης Υπεύθυνος Καθηγητής: Π. Σταματόπουλος ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Κατασκευή ταξινομητών weighted knn με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Κατασκευή ταξινομητών weighted knn με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κατασκευή ταξινομητών weighted knn με metric ball trees για εφαρμογές ανακάλυψης

Διαβάστε περισσότερα

Διπλωματική εργασία. Εργαλείο περιγραφής πολυμέσων με χρήση οντολογιών

Διπλωματική εργασία. Εργαλείο περιγραφής πολυμέσων με χρήση οντολογιών ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική εργασία Εργαλείο περιγραφής πολυμέσων με

Διαβάστε περισσότερα

«Αφιερωμένο στους γονείς μου Νικογιάννη και Ευγενία, στα αδέρφια μου Διονύση και Μπέσσυ αλλά και σε όσους ήταν μαζί μου αυτά τα χρόνια...

«Αφιερωμένο στους γονείς μου Νικογιάννη και Ευγενία, στα αδέρφια μου Διονύση και Μπέσσυ αλλά και σε όσους ήταν μαζί μου αυτά τα χρόνια... ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διδακτορική Διατριβή Εφαρμογή Τεχνικών Data Mining σε Συστήματα Ηλεκτρονικού Εμπορίου Κουρής Ν. Γιάννης ΠΑΤΡΑ

Διαβάστε περισσότερα

ΜΕΘΟ ΟΙ ΟΜΑ ΟΠΟΙΗΣΗΣ ΚΕΙΜΕΝΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙ ΙΚΕΥΣΗΣ. Υποβλήθηκε στην

ΜΕΘΟ ΟΙ ΟΜΑ ΟΠΟΙΗΣΗΣ ΚΕΙΜΕΝΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙ ΙΚΕΥΣΗΣ. Υποβλήθηκε στην i ΜΕΘΟ ΟΙ ΟΜΑ ΟΠΟΙΗΣΗΣ ΚΕΙΜΕΝΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙ ΙΚΕΥΣΗΣ Υποβλήθηκε στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τµήµατος Πληροφορικής Εξεταστική Επιτροπή από τον ΑΡΓΥΡΗ ΚΑΛΟΓΕΡΑΤΟ

Διαβάστε περισσότερα

Πανεπιστηµιο Πατρων Πολυτεχνικη Σχολη

Πανεπιστηµιο Πατρων Πολυτεχνικη Σχολη Πανεπιστηµιο Πατρων Πολυτεχνικη Σχολη Τµήµα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής ιπλωµατική Εργασία στα Πλαίσια του Μ..Ε. «Επιστήµη και Τεχνολογία Υπολογιστών» Τεχνικές Επαναδιατύπωσης Ερωτηµάτων

Διαβάστε περισσότερα

Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής. Πτυχιακή Εργασία. Ανάπτυξη συστήματος διήθησης μηνυμάτων στο Twitter

Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής. Πτυχιακή Εργασία. Ανάπτυξη συστήματος διήθησης μηνυμάτων στο Twitter Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής Πτυχιακή Εργασία Ανάπτυξη συστήματος διήθησης μηνυμάτων στο Twitter Μιχαήλ Βουγιούκας Α.Μ.: 3090029 Επιβλέποντες: Ι. Ανδρουτσόπουλος, Γ. Παλιούρας Βοηθός

Διαβάστε περισσότερα