ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:



Σχετικά έγγραφα
GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας δημιουργίας εγγράφων από το χρήστη. Παρακάτω προτείνεται μια

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Software Production Company

Σχεδιασµός Ανάπτυξη Οντολογίας

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

EBSCOhost Research Databases

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Πληροφορική 2. Δομές δεδομένων και αρχείων

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Απεικόνιση Οντολογιών Σε Σχήµατα Σχεσιακών Βάσεων εδοµένων Με Σκοπό Την Ανάκτηση εδοµένων Σηµασιολογικού Περιεχοµένου ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Η ΟΝΤΟΛΟΓΙΑ ΤΟΥ ΕΛΛΗΝΙΚΟΥ ΚΤΗΜΑΤΟΛΟΓΙΟΥ. Μελέτη υλοποίησης στο Protégé-2000

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΕΚΠΟΝΗΣΗ ΕΡΓΑΣΙΑΣ

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΠΛΑΤΦΟΡΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΙΝΤΕΟΔΙΑΛΕΞΕΩΝ ΔΗΛΟΣ delos.uoa.gr. Εγχειρίδιο Χρήσης Μελών ΔΕΠ

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Άνοιγμα (και κλείσιμο) της εφαρμογής Εγγράφου Κειμένου

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001

ΟΝΤΟΛΟΓΙΕΣ, ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΔΙΑΚΥΒΕΡΝΗΣΗΣ

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

4.1 Άνοιγμα υπάρχοντος βιβλίου εργασίας

H πλατφόρµα ItBiz E- Learn, συνοπτικά.

Ο Οδηγός γρήγορης εκκίνησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

01 SOLUTIONS HELLAS Ε.Π.Ε. Χελμού 20, Μαρούσι Αττικής Τηλ FAX Ηλεκτρονικό Πρωτόκολλο & Διακίνηση Εγγράφων

Vodafone Business Connect

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

e-κπαίδευση Πλατφόρµα Ασύγχρονης Τηλε-κπαίδευσης Οδηγίες χρήσης για τους σπουδαστές του ΤΕΙ Αθήνας και τους επισκέπτες της δικτυακής πύλης e-κπαίδευση

Microsoft Excel Κεφάλαιο 1. Εισαγωγή. Βιβλίο εργασίας

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ

Ενηµερώσεις λογισµικού Οδηγός χρήσης

ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Γ.Τ.Π

Υποστήριξη στη ιαχείριση Γνώσης

Javascript. του project /software/web_tools/webapps/search_engine/.

ΜΜ Document Imaging Solution

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ

ΝΟΜΟΤΕΛΕΙΑ Οδηγίες Χρήσης Internet 1

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

Ανάκτηση Πληροφορίας

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΓΙΑ ΜΑΡΚΕΤΙΝΓΚ ( ιδάσκ. Καθηγητής: Α.Α. Οικονοµίδης) ΑΞΙΟΛΟΓΗΣΗ ΠΑΚΕΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ Product Scope 32 Bookmarks

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ

Περιεχόμενα. Λίγα λόγια από το συγγραφέα...7 Κεφάλαιο 1: Προετοιμασία παρουσίασης...9. Κεφάλαιο 2: Διαχείριση παρουσίασης...44

MICROSOFT OFFICE 2003 MICROSOFT WORD 2003

ηµιουργία αντιγράφων ασφαλείας και επαναφορά Οδηγός χρήσης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΚΗ ΣΤΟ ΕΝΙΑΙΟ ΛΥΚΕΙΟ

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

ΗΜΙΟΥΡΓΙΑ ΙΣΤΟΣΕΛΙ ΑΣ ΣΤΟ MICROSOFT WORD

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό (Hardware) - Λογισµικό (Software) 23 Ιστορική Εξέλιξη

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

Μάθημα 4ο. Προγράμματα

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΔΗΜΟΣΙΩΝ ΕΠΕΝΔΥΣΕΩΝ & ΕΣΠΑ

Εγχειρίδιο Χρήσης Slide Recorder

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012 Όνομα : Μπελούλη Αγάθη

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Τίτλος Πακέτου Certified Computer Expert-ACTA

Διαδικτυακές Εφαρμογές Ενότητα 1: JPA

Βάσεις δεδομένων (Access)

Αναζήτηση σε όλα τα άρθρα των επιστηµονικών περιοδικών στα οποία το Α.Π.Θ. είναι συνδροµητής. Η αναζήτηση µπορεί να γίνει µε βάση λέξεις κλειδιά σε

Περιεχόµενα. 1 Tο βιβλίο "µε µια µατιά" Εισαγωγή στη Microsoft Access Γνωριµία µε τις βάσεις δεδοµένων της Access...

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Σύστημα Ηλεκτρονικού Πρωτοκόλλου. Σχεδιασμός Υποσυστημάτων

Κεφάλαιο 16 Εφαρμογές Αυτοματισμού Γραφείου

Τίτλος Πλατφόρµα Ασύγχρονης Τηλεκπαίδευσης. Συντάκτης. Ακαδηµαϊκό ιαδίκτυο GUnet Οµάδα Ασύγχρονης Τηλεκπαίδευσης

1 Εισαγωγή στην Πληροφορική

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών

TRAVIS TRAFFIC VIOLATION INFORMATION SYSTEM ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΗΣΗΣ ΠΑΡΑΒΑΣΕΩΝ ΦΩΤΟΕΠΙΣΗΜΑΝΣΗΣ

Δημιουργίας Ενεργειών

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Περιεχόμενα. Visio / White paper 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Αν σας ενδιαφέρει κάποιο θέμα, δείτε τη σχετική βιβλιογραφία και στείλτε μου για να συναντηθούμε και να το συζητήσουμε.

SharePoint Online. Δημιουργήστε μια τοποθεσία ή μια δημοσίευση ειδήσεων. Αναζήτηση Βρείτε Τοποθεσίες, Άτομα ή Αρχεία.

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ web εφαρµογής - ηλεκτρονικού κατατήµατος για έξυπνα κινητά

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό - Λογισµικό 23 Ιστορική Εξέλιξη των Η/Υ 23 Γενιές

Linked Data for the Masses: Η προσέγγιση και το λογισμικό

Εκπαιδευτικό Εργαλείο Κανονικοποίησης

7.Α.1 Παρουσιάσεις. 7.Α.2 Περιγραφή περιεχομένων της εφαρμογής

ΕΠΙΜΟΡΦΩΣΗ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΣΤΗΝ ΧΡΗΣΗ ΚΑΙ ΑΞΙΟΠΟΙΗΣΗ ΤΩΝ ΤΠΕ ΣΤΗΝ ΕΚΠΑΙ ΕΥΤΙΚΗ Ι ΑΚΤΙΚΗ ΙΑ ΙΚΑΣΙΑ. Οδηγίες για την πιστοποίηση των εκπαιδευτικών

2. Αλγόριθμοι, δομές δεδομένων και πολυπλοκότητα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Π18: Τεκµηρίωση Εφαρµογών Ιστού

Παράρτημα Α. Πρότυπα Διάθεσης Ψηφιακών Δεδομένων

Transcript:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής της σχολής Η.Μ.Μ.Υ. του Ε.Μ.Π. ΗΛΕΚΤΡΟΝΙΚΗ ΙΕΥΘΥΝΣΗ: giann@dblab.ece.ntua.gr ΚΕΙΜΕΝΟ ΠΕΡΙΛΗΨΗΣ: Στα πλαίσια της διπλωµατικής αναπτύχθηκε µια έξυπνη µηχανή αναζήτησης εγγράφων GoNToggle η οποία συνδυάζει την κλασσική αναζήτηση µε λέξεις κλειδιά µε αναζήτηση-περιήγηση στις έννοιες µίας οντολογίας. Η µηχανή GoNToggle δίνει τις εξής δυνατότητες στο χρήστη: εικτοδότηση εγγράφων. Η µηχανή δεικτοδοτεί έγγραφα του σκληρού δίσκου και δηµιουργεί ένα ευρετήριο που περιέχει πληροφορία σχετική µε αυτά τα έγγραφα. Πάνω σε αυτό το ευρετήριο εκτελείται αναζήτηση διαφόρων εγγράφων µε χρήση λέξεων κλειδιών. Τα έγγραφα που µπορούµε να επεξεργαστούµε είναι doc, pdf, txt, rtf, xls, html. Σηµασιολογικός χαρακτηρισµός εγγράφου. Ο χρήστης µπορεί να χαρακτηρίζει σηµασιολογικά ένα έγγραφο ή κοµµάτια του κειµένου του µε τη βοήθεια εννοιών µίας οντολογίας. Πλήρης συντάκτης οντολογίας. Προσφέρεται η δυνατότητα επεξεργασίας της οντολογίας και συγκεκριµένα προσθαφαίρεση κλάσεων, ιδιοτήτων και στιγµιότυπων. ιατύπωση και επεξεργασία ερωτήσεων αναζήτησης εγγράφων. Ο χρήστης µπορεί να εκτελεί αναζήτηση διαφόρων εγγράφων µε χρήση λέξεων κλειδιών. Επιπλέον, µπορεί να περιηγείται στις κλάσεις της οντολογίας και να επιλέγει στιγµιότυπα (δηλ. χαρακτηρισµένα έγγραφα) προς εµφάνιση. Προσφέρονται λειτουργίες όπως συνδυαστική αναζήτηση, δηλαδή αναζήτηση και µε λέξεις κλειδιά και µε περιήγηση στην οντολογία, αναζήτηση στα αποτελέσµατα προηγούµενης αναζήτησης και αναζήτηση µε σύνθετες ερωτήσεις στην οντολογία. Στα αποτελέσµατα, εκτός από τον τίτλο των εγγράφων, παρουσιάζεται η σηµασιολογική πληροφορία που προκύπτει για το καθένα από την αναζήτηση και το σκορ (βαθµός σχετικότητας) που διαµορφώνεται ανάλογα µε το είδος της αναζήτησης. Ο χρήστης, επιπλέον, µπορεί να ανοίξει το κάθε έγγραφο και να δει τη σηµασιολογική πληροφορία που µεταφέρει, αλλά και να εντοπίσει παρόµοια σηµασιολογικά κείµενα. Συνοπτικά, µε την εφαρµογή GoNToggle επετεύχθησαν οι παρακάτω στόχοι: ηµιουργία συστήµατος σηµασιολογικού χαρακτηρισµού εγγράφων µέσω οντολογίας ηµιουργία συστήµατος συνδυαστικής αναζήτησης µε βάση τις λέξεις κλειδιά και τη σηµασιολογική πληροφορία που προκύπτει από τον χαρακτηρισµό των εγγράφων Βαθµολόγηση αποτελεσµάτων αναζήτησης Ολοκλήρωση των παραπάνω µε τα εργαλεία ανοιχτού κώδικα Lucene και Protégé Ανάπτυξη διαπροσωπείας χρήστη σε γραφικό περιβάλλον για εκτέλεση όλων των παραπάνω ενεργειών και παρουσίαση αποτελεσµάτων. ΛΕΞΕΙΣ ΚΛΕΙ ΙΑ: Αναζήτηση, σκορ, λέξη κλειδί, ευρετήριο, σκληρός δίσκος, οντολογία, έννοια, κλάση, ιδιότητα, στιγµιότυπο, εξαγωγή κειµένου, σηµασιολογική επισηµείωση, χαρακτηρισµός.

ΠΛΗΡΗΣ ΕΡΓΑΣΙΑ: 1. Εισαγωγή Σκοπός της διπλωµατικής είναι η ανάπτυξη µίας µηχανής αναζήτησης εγγράφων στο σκληρό δίσκο υπολογιστών η οποία θα συνδυάζει την κλασσική αναζήτηση µε λέξεις κλειδιά µε αναζήτησηπεριήγηση στις έννοιες µίας οντολογίας. Η εφαρµογή θα δίνει τη δυνατότητα στο χρήστη να δεικτοδοτεί έγγραφα του σκληρού δίσκου και να δηµιουργεί ένα ευρετήριο που θα περιέχει πληροφορία σχετική µε αυτά τα έγγραφα. Πάνω σε αυτό το ευρετήριο θα εκτελείται αναζήτηση διαφόρων εγγράφων µε χρήση λέξεων-φράσεων κλειδιών. Επιπλέον, ο χρήστης θα µπορεί να ανοίγει κάποιο έγγραφο και να χαρακτηρίζει σηµασιολογικά ολόκληρο το έγγραφο ή κοµµάτια του κειµένου του, µε τη βοήθεια εννοιών µίας οντολογίας που θα έχει φορτώσει, δηµιουργώντας στιγµιότυπα των κλάσεων της οντολογίας. Θα προσφέρεται, επίσης, η δυνατότητα επεξεργασίας της οντολογίας (επεξεργασία-προσθαφαίρεση κλάσεων, ιδιοτήτων και στιγµιότυπων). Όσον αφορά την αναζήτηση εγγράφων, ο χρήστης θα µπορεί να περιηγείται στις κλάσεις της οντολογίας και να επιλέγει στιγµιότυπα-χαρακτηρισµένα έγγραφα προς εµφάνιση. Επίσης, θα προσφέρονται λειτουργίες όπως συνδυαστική αναζήτηση, δηλαδή αναζήτηση και µε λέξεις κλειδιά και µε περιήγηση στην οντολογία, αναζήτηση στα αποτελέσµατα προηγούµενης αναζήτησης και αναζήτηση µε σύνθετα επερωτήµατα στην οντολογία. Στα αποτελέσµατα, εκτός από το όνοµα των εγγράφων, θα η παρουσιάζεται σηµασιολογική πληροφορία που προκύπτει για το καθένα από την αναζήτηση και το σκορ που θα διαµορφώνεται ανάλογα µε το είδος της αναζήτησης. Ο χρήστης θα µπορεί να ανοίξει το κάθε έγγραφο και να δει τη σηµασιολογική πληροφορία που µεταφέρει, αλλά και να εντοπίσει παρόµοια σηµασιολογικά κείµενα 2. Θεωρητική Μελέτη Μηχανές Αναζήτησης Μία αρκετά παραστατική περιγραφή της λειτουργίας µίας µηχανής αναζήτησης σε προσωπικό υπολογιστή (desktop search engine) φαίνεται στο παρακάτω σχήµα: Σχήµα 1: Λειτουργία µίας desktop search engine ύο είναι οι βασικές λειτουργίες µίας µηχανής αναζήτησης: εικτοδότηση (indexing) και αναζήτηση (searching). Σηµαντική υπολειτουργία µίας µηχανής αναζήτησης αποτελεί και η ανάλυση, η οποία όµως πραγµατοποιείται ως κοµµάτι τόσο της δεικτοδότησης, όσο και της αναζήτησης και όχι ως ανεξάρτητη λειτουργία. εικτοδότηση είναι η διαδικασία κατά την οποία η µηχανή αναζήτησης σαρώνει το σκληρό δίσκο του υπολογιστή και δηµιουργεί ένα ευρετήριο µε αντικείµενα που περιέχουν πληροφορίες (κείµενο, µεταδεδοµένα) οι οποίες έχουν εξαχθεί από τα σαρωµένα έγγραφα. Σκοπός και χρησιµότητα αυτής

της διαδικασίας είναι να συγκεντρωθούν όλα τα απαιτούµενα για την αναζήτηση δεδοµένα σε µία ευέλικτη και αποδοτική δοµή (ευρετήριο), έτσι ώστε, η φάση της αναζήτησης να µην επιτελείται σε όλο το σκληρό δίσκο, πράγµα που θα ήταν εξαιρετικά χρονοβόρο, αλλά µόνο στα δεδοµένα του ευρετηρίου. Στο ευρετήριο που δηµιουργείται, εκτελείται πλέον η αναζήτηση από την µηχανή. Ο χρήστης εισάγει τις λέξεις ή φράσεις κλειδιά προς αναζήτηση. Η µηχανή τις επεξεργάζεται (ανάλυση), δηµιουργώντας ένα query, µε βάση το οποίο εκτελεί αναζήτηση στο ευρετήριο. Κατόπιν, τα αποτελέσµατα επιστρέφονται πιθανώς επεξεργασµένα (π.χ. στοιχισµένα σύµφωνα µε κάποιο κριτήριο) και εµφανίζονται στο χρήστη. Οι περισσότερες µηχανές αναζήτησης προσφέρουν δυνατότητες κατασκευής αρκετά πιο πολύπλοκων queries από απλές λέξεις ή φράσεις. Σηµασιολογικός ιστός-οντολογίες Ο Σηµασιολογικός Ιστός (Semantic Web) είναι ένα σύνολο πληροφοριών, διασυνδεδεµένων µε κατάλληλο τρόπο, ώστε να είναι εύκολα και µε αποδοτικό τρόπο προσβάσιµες και επεξεργάσιµες από προγράµµατα, σε παγκόσµια κλίµακα. Μπορεί να θεωρηθεί ως µία «παγκόσµια βάση δεδοµένων», της οποίας η δοµή και οργάνωση επιτρέπει όχι µόνο στους ανθρώπους, αλλά και στις µηχανές να χρησιµοποιήσουν την αποθηκευµένη πληροφορία. Ο Σηµασιολογικός Ιστός αποτελεί ουσιαστικά µία επέκταση του Παγκόσµιου Ιστού (World Wide Web) η οποία επιτρέπει την αποτελεσµατικότερη συνεργασία ανθρώπων και υπολογιστών. Το πρόβληµα µε τον Παγκόσµιο Ιστό είναι ότι το µεγαλύτερο µέρος της διαθέσιµης πληροφορίας οργανώνεται µε τρόπο που καθιστά δύσκολη την επεξεργασία της από µία µηχανή. Η πληροφορία αποθηκεύεται συνήθως στη µορφή HTML αρχείων, τα οποία προσφέρουν µόνο οπτική απεικόνιση και όχι σηµασιολογική ταξινόµηση της πληροφορίας. Αυτό έχει ως αποτέλεσµα, ένας άνθρωπος, διαβάζοντας µία σελίδα HTML, να µπορεί να διαχωρίσει σηµασιολογικά την πληροφορία που περιέχει, αλλά αυτό να είναι αδύνατο για µία εφαρµογή. Αυτό που επιδιώκεται µε το Σηµασιολογικό Ιστό είναι η ρητή και µε σαφήνεια σηµασιολογική επισηµείωση της πληροφορίας, έτσι ώστε να διευκολύνεται η αυτοµατοποιηµένη επεξεργασία και ολοκλήρωσή της από µία µηχανή. Στηρίζεται στην δυνατότητα ορισµού από την XML (Extensible Markup Language) σχηµάτων προσαρµοσµένων ετικετών, στη δυνατότητα ευέλικτης παρουσίασης δεδοµένων της RDF (Resource Description Framework) και στη δυνατότητα της OWL για τυπική περιγραφή της σηµασιολογίας και ορολογίας ενός εγγράφου. Το παραπάνω πρόβληµα που επιδιώκεται να λυθεί µε το Σηµασιολογικό Ιστό δεν περιορίζεται µόνο στο διαδίκτυο, αλλά αφορά και οποιονδήποτε άλλο τοµέα στον οποίο προκύπτει η ανάγκη για αποθήκευση και ανάσυρση πληροφορίας. Εν προκειµένω, όσον αφορά την αναζήτηση εγγράφων στο σκληρό δίσκο ενός υπολογιστή, η µέχρι στιγµής υπάρχουσα κλασσική αναζήτηση µε λέξεις κλειδιά εµφανίζει διαφόρων ειδών ατέλειες. Για παράδειγµα, ένα έγγραφο µπορεί να αναφέρεται σε µία έννοια, αλλά να µην περιέχει (αρκετές) λέξεις κλειδιά που να περιγράφουν τη συγκεκριµένη έννοια ή και το αντίστροφο, να περιέχει πολλές λέξεις κλειδιά µίας έννοιας στην οποίο όµως δεν αναφέρεται. Επιπλέον, µπορεί διαφορετικά σηµεία του εγγράφου να αναφέρονται σε διαφορετικές έννοιες. Με τη χρήση οντολογιών και οντολογικών γλωσσών (OWL), δίνεται η δυνατότητα σηµασιολογικής επισηµείωσης της έννοιας (ή και των εννοιών) κάθε εγγράφου (ή µέρους ενός εγγράφου), έτσι ώστε, η αναζήτηση µε τη βοήθεια της οντολογίας να εξειδικεύεται και να γίνεται πιο έγκυρη και αποτελεσµατική. Παρακάτω περιγράφεται η έννοια της οντολογίας και αναλύεται η γλώσσα OWL (Web Ontology Language). Οντολογία είναι η περιγραφή, µε τη χρησιµοποίηση ενός συγκεκριµένου λεξιλογίου, ενός συνόλου από έννοιες, αντικείµενα και σχέσεις µεταξύ τους που αφορούν µία συγκεκριµένη περιοχή γνώσης. Ουσιαστικά, µία οντολογία είναι µία ιεραρχία από κλάσεις, ιδιότητες και στιγµιότυπα των κλάσεων, που περιγράφουν ένα γνωστικό αντικείµενο.

Σχήµα 2: Ιεραρχία οντολογίας Η οντολογική γλώσσα OWL σχεδιάστηκε για να χρησιµοποιηθεί από εφαρµογές που στοχεύουν, όχι απλά στην παρουσίαση πληροφορίας, αλλά στην επεξεργασία της. Η OWL διευκολύνει τη διερµηνεία του περιεχοµένου της πληροφορίας περισσότερο από γλώσσες όπως οι XML, RDF, RDFS, παρέχοντας επιπρόσθετο λεξιλόγιο σε συνδυασµό µε τυπική σηµασιολογία. Περιλαµβάνει τρεις υπογλώσσες µε διαφορετική εκφραστικότητα: OWL Lite, OWL DL και OWL Full. 3. Ανάλυση απαιτήσεων Η εφαρµογή αποτελείται από τρία βασικά υποσυστήµατα: Το υποσύστηµα δηµιουργίας ευρετηρίου. Το υποσύστηµα σηµασιολογικού χαρακτηρισµού κειµένων και επεξεργασίας οντολογιών. Το υποσύστηµα αναζήτησης. Μία αναπαράσταση του συστήµατος δίνεται στο παρακάτω σχήµα:

lucene lucene Υποσύστηµα ηµιουργίας Ευρετηρίου Λεκτική πληροφορία κειµένου αρχείου (tokens) Ευρετήριο Λεκτική πληροφορία κειµένου αρχείου (tokens) protégé protégé-owl Υποσύστηµα Αναζήτησης protégé protégé-owl Υποσύστηµα Σηµασιολογικού Χαρακτηρισµού Σηµασιολογικοί χαρακτηρισµοί Σηµασιολογικοί χαρακτηρισµοί Οντολογία Ερωτήµατα: α) Λέξεις κλειδιά β) Περιήγηση στην οντολογία γ) Συνδυασµός Σχήµα 3: Αρχιτεκτονική συστήµατος Χρήστης ηµιουργία ευρετηρίου Το υποσύστηµα δηµιουργίας ευρετηρίου δίνει στο χρήστη τη δυνατότητα να επιλέξει αν θα δηµιουργήσει ένα νέο ευρετήριο ή αν θα επεξεργαστεί ήδη υπάρχον ευρετήριο, να επιλέξει το φάκελο αρχείων που θα δεικτοδοτηθούν και τέλος, να δηµιουργήσει το ευρετήριο πάνω στο οποίο θα εκτελεστεί αργότερα αναζήτηση µε λέξεις κλειδιά. Τα είδη εγγράφων που υποστηρίζονται, δηλαδή τα είδη των εγγράφων από τα οποία θα µπορεί να εξαχθεί πληροφορία και να αποθηκευθεί στο ευρετήριο είναι τα εξής: doc, pdf, txt, rtf, xls, html. Η ανάπτυξη αυτού του υποσυστήµατος πραγµατοποιήθηκε µε τη βοήθεια συναρτήσεων του lucene. Σηµασιολογικός χαρακτηρισµός κειµένων και επεξεργασία οντολογιών Το υποσύστηµα σηµασιολογικού χαρακτηρισµού κειµένων και επεξεργασίας οντολογιών δίνει στο χρήστη δυνατότητα επιλογής ενός εγγράφου, προβολής του κειµένου του και επιλογής όλου του κειµένου ή µόνο ενός µέρους του για σηµασιολογική επισηµείωση. Το σηµασιολογικά χαρακτηρισµένο κείµενο (ή κοµµάτι κειµένου) αποθηκεύεται σε µία επιλεγµένη από το χρήστη οντολογία ως στιγµιότυπο µίας ή περισσοτέρων κλάσεων που καθορίζει ο χρήστης. Αυτό το στιγµιότυπο θα περιέχει σηµαντική πληροφορία (όνοµα-µονοπάτι του εγγράφου στο δίσκο, έννοιεςκλάσεις µε τις οποίες έχει χαρακτηριστεί) η οποία είναι απαραίτητη για το κοµµάτι της σηµασιολογικής αναζήτησης. Επιπλέον, ο χρήστης µπορεί να επιλέγει την οντολογία µε την οποία θα εργαστεί, να επεξεργάζεται την οντολογία και τα στιγµιότυπά της, καθώς και να αποθηκεύσει τις αλλαγές. Συγκεκριµένα, θα είναι δυνατή η επεξεργασία της ιεραρχίας της οντολογίας (προσθαφαίρεση κλάσεων-εννοιών, δηµιουργία υπερκλάσεων-υποκλάσεων, προσθαφαίρεση ιδιοτήτων των κλάσεων) καθώς και η επεξεργασία των στιγµιοτύπων που περιγράφηκαν παραπάνω (διαγραφή στιγµιοτύπων, προσθαφαίρεση στιγµιοτύπων από κλάσεις της οντολογίας, σύνδεση στιγµιοτύπων µέσω ιδιοτήτων). Για την ανάπτυξη του υποσυστήµατος χρησιµοποιήθηκαν συναρτήσεις του protégé. Αναζήτηση Το υποσύστηµα αναζήτησης δίνει στο χρήστη τη δυνατότητα να εκτελεί αναζήτηση µε λέξεις κλειδιά, αναζήτηση µε ερωτήσεις στην οντολογία και συνδυαστική αναζήτηση. Συγκεκριµένα, µε τη συνδυαστική αναζήτηση, ο χρήστης εκτελεί ταυτόχρονα αναζήτηση µε λέξεις κλειδιά στο ευρετήριο και σηµασιολογική αναζήτηση-περιήγηση στις έννοιες της οντολογίας, έχοντας τη δυνατότητα να επιλέξει ως αποτέλεσµα την ένωση ή την τοµή των δύο αναζητήσεων. Επίσης, µπορεί να εκτελεί αναζήτηση στα αποτελέσµατα προηγούµενης αναζήτησης. Όσον αφορά την αναζήτηση µε λέξεις κλειδιά, προσφέρονται κάποιες προχωρηµένες επιλογές, όπως αναζήτηση ολόκληρων φράσεων,

αναζήτηση µε AND, OR και ΝΟΤ, αναζήτηση στον τίτλο των εγγράφων κ.α. Με τη σηµασιολογική αναζήτηση, δίνεται η δυνατότητα περιήγησης στην ιεραρχία της οντολογίας, επιλογής µίας ή περισσοτέρων κλάσεων-εννοιών και περαιτέρω επιλογής, από τις επιλεγµένες κλάσεις (και τις υποκλάσεις τους), των στιγµιοτύπων των εγγράφων που επιθυµεί ο χρήστης. Επίσης, µε την επιλογή ενός εγγράφου από τη λίστα των αποτελεσµάτων µίας αναζήτησης, διατίθενται επιπλέον δυνατότητες: Ο χρήστης µπορεί να αναζητήσει έγγραφα τα οποία ανήκουν στις ίδιες κλάσεις της οντολογίας µε το επιλεγµένο έγγραφο αλλά και να αναζητήσει έγγραφα που συνδέονται µε ορισµένες ιδιότητες µε το επιλεγµένο έγγραφο. Η παρουσίαση των αποτελεσµάτων γίνεται µε τέτοιο τρόπο ώστε ο χρήστης να αντλεί πληροφορίες σχετικές µε το σκορ του κάθε εγγράφου, το είδος της αναζήτησης από την οποία προήλθε, αλλά και πληροφορίες σηµασιολογικού περιεχοµένου. Το συνολικό σκορ κάθε εγγράφου προέρχεται από έναν συνδυασµό του σκορ που προκύπτει από την αναζήτηση µε λέξεις κλειδιά και του σκορ που προκύπτει από το ποσοστό του κειµένου που έχει χαρακτηριστεί σηµασιολογικά. Επίσης, για κάθε έγγραφο, επισηµαίνεται αν είναι ολόκληρο χαρακτηρισµένο µε συγκεκριµένη κλάση, αν είναι κοµµάτια του χαρακτηρισµένα και αν περιέχει συγκεκριµένη λέξη κλειδί, δηλαδή ουσιαστικά καθορίζεται το είδος αναζήτησης από το οποίο προήλθε το συγκεκριµένο αποτέλεσµα. Μάλιστα, σε περίπτωση εγγράφων που προέκυψαν από αναζήτηση στην οντολογία, εµφανίζονται και οι κλάσεις που περιέχουν στιγµιότυπα του εγγράφου, για τη συγκεκριµένη αναζήτηση. Τέλος, ο χρήστης µπορεί να ανοίξει κάποιο έγγραφο (αρκεί αυτό να ανήκει στους υποστηριζόµενους τύπους) και να δει αναλυτικά στο κείµενό του τις σηµασιολογικές επισηµειώσεις που έχουν πραγµατοποιηθεί στο έγγραφο, µε βάση κάποια οντολογία. Για την ανάπτυξη του υποσυστήµατος χρησιµοποιήθηκαν συναρτήσεις του lucene και του protégé. 4. Υλοποίηση Εργαλεία ανάπτυξης Η εφαρµογή GoNToggle αναπτύχθηκε εξ ολοκλήρου σε γλώσσα java 2. Η κύρια πλατφόρµα ανάπτυξης, η οποία στηρίχθηκε στα j2sdk1.4.2_07 και j2re-1_4_2_07 είναι το NetBeans IDE 5.0. Επιπλέον, ειδικά για την ανάπτυξη (µεταβολή, προσαρµογή, δηµιουργία νέων) συναρτήσεων της βιβλιοθήκης lucene χρησιµοποιήθηκαν δευτερεύοντα εργαλεία όπως τα apache-ant-1.6.5, javacc-4.0 και junit4.0. Βιβλιοθήκες Για την ανάπτυξη του προγράµµατος χρησιµοποιήθηκαν, είτε ως είχαν, είτε µετά από επεξεργασία, συναρτήσεις από τη βιβλιοθήκη του lucene και το API των protégé και protégé-owl. Παρακάτω, παρουσιάζονται συνοπτικά τα δύο αυτά εργαλεία. Το lucene είναι µία ολοκληρωµένη βιβλιοθήκη συναρτήσεων για αναζήτηση κειµένων, υλοποιηµένη σε Java. Παρέχει συναρτήσεις για διάσχιση του σκληρού δίσκου, εξαγωγή κειµένου από διάφορους τύπους εγγράφων, ανάλυση του κειµένου και αποθήκευση της εξαγόµενης πληροφορίας σε ευρετήρια και αναζήτηση λέξεων κλειδιών σε αυτά. Η βιβλιοθήκη του lucene χρησιµοποιήθηκε για το κοµµάτι της εφαρµογής µας που αφορά την κλασσική αναζήτηση, δηλαδή τη δηµιουργία ευρετηρίου και την αναζήτηση λέξεων κλειδιών σε αυτό. Το protégé, σε αντίθεση µε το lucene, είναι µία ολοκληρωµένη εφαρµογή διαχείρισης οντολογίων, που απλά προσφέρει API (protégé και protégé-owl) για χρησιµοποίηση από άλλα προγράµµατα. Με τη χρήση συναρτήσεων του protégé καθίσταται δυνατή η δηµιουργία µίας OWL οντολογίας, η επεξεργασία των στοιχείων (κλάσεων, στιγµιοτύπων, ιδιοτήτων) της οντολογίας και η εκτέλεση ερωτηµάτων πάνω στην οντολογία. Αρκετές από αυτές τις λειτουργίες συνοδεύονται από ολοκληρωµένες διαπροσωπείες (GUI), τις οποίες ο χρήστης µπορεί να χρησιµοποιήσει χωρίς αλλαγές. Βέβαια, η βιβλιοθήκη συναρτήσεων του protégé είναι αρκετά µεγαλύτερη και πιο πολύπλοκη από αυτή του lucene. Επιπλέον, οι περισσότερες συναρτήσεις της χρησιµοποιήθηκαν ως είχαν χωρίς να χρειαστεί τροποποιηθούν. Παραδείγµατα τρεξίµατος της εφαρµογής

Η δηµιουργία ευρετηρίου, πάνω στο οποίο θα βασίζεται η αναζήτηση µε λέξεις κλειδιά γίνεται µε τη βοήθεια της παρακάτω οθόνης. Ο χρήστης µπορεί να επιλέξει ένα ήδη υπάρχον ευρετήριο ή να δηµιουργήσει ένα νέο και επιπλέον να επιλέξει τα αρχεία, τα οποία θα δεικτοδοτηθούν στο ευρετήριο. Σχήµα 4: ηµιουργία ευρετηρίου Ο σηµασιολογικός χαρακτηρισµός κειµένου (ή µέρους του) γίνεται µε τη βοήθεια της οθόνης του σχήµατος 5. Με την επιλογή του προς χαρακτηρισµό κοµµατιού, εµφανίζεται η ιεραρχία της επιλεγµένης οντολογίας, από την οποία επιλέγονται οι κλάσεις που θα χαρακτηρίσουν το συγκεκριµένο κοµµάτι (σχήµα 6).

Σχήµα 5: Σηµασιολογικός χαρακτηρισµός µέρους κειµένου Σχήµα 6: Ιεραρχία επιλεγµένης οντολογίας

Το στιγµιότυπο που δηµιουργείται στην οντολογία και αφορά το χαρακτηρισµένο κοµµάτι εµφανίζεται στη λίστα κάτω από το κείµενο (σχήµα 7). Ο χρήστης µπορεί πλέον να επεξεργαστεί αυτό το στιγµιότυπο (προσθαφαίρεση κλάσεων, διαγραφή, συσχέτιση µε άλλο στιγµιότυπο). Σχήµα 7: Στιγµιότυπο χαρακτηρισµένου κοµµατιού κειµένου Σχήµα 8: Λεπτοµέρειες στιγµιότυπου χαρακτηρισµένου κειµένου Επιπλέον, δίνεται η δυνατότητα επεξεργασίας της ιεραρχίας της οντολογίας (προσθαφαίρεση κλάσεων και ιδιοτήτων).

Σχήµα 9: Επεξεργασία οντολογίας Η αναζήτηση κειµένων γίνεται µέσω της βασικής οθόνης της εφαρµογής (σχήµα 10). Οχρήστης µπορεί να επιλέξει αναζήτηση µόνο µε λέξεις κλειδιά (σχήµα 10), αναζήτηση µόνο µε περιήγηση στις έννοιες της οντολογίας (σχήµα 11, 12) και συνδυαστική αναζήτηση (σχήµα 13). Σχήµα 10: Οθόνη αναζήτησης

Σχήµα 11: Αναζήτηση στην ιεραρχία της οντολογίας Σχήµα 12: Αναζήτηση µε βάση τις έννοιες(κλάσεις) της οντολογίας

Σχήµα 13: Συνδυαστική αναζήτηση Από τα αποτελέσµατα, µπορούµε να ανοίξουµε ένα κείµενο και να δούµε ποια κοµµάτια του είναι σηµασιολογικά χαρακτηρισµένα (σχήµα 14), καθώς και µε ποια άλλα κοµµάτια κειµένου συνδέεται σηµασιολογικά (σχήµα 15). Σχήµα 14: Άνοιγµα κειµένου από τα αποτελέσµατα

Σχήµα 15: Εύρεση επιπλέον κειµένων που συνδέονται σηµασιολογικά µε το επιλεγµένο Τέλος, δίνονται επιπλέον δυνατότητες αναζήτησης, όπως αναζήτηση σε προηγούµενα αποτελέσµατα και αναζήτηση σε σχετικά κείµενα (µε βάση της κλάσεις στις οποίες ανήκουν). Σχήµα 16: Επιπλέον δυνατότητες αναζήτησης

5. Σύνοψη-Μελλοντικές επεκτάσεις Συνοπτικά, µε την εφαρµογή GoNToggle επετεύχθησαν οι παρακάτω στόχοι: ηµιουργία συστήµατος σηµασιολογικού χαρακτηρισµού εγγράφων µέσω οντολογίας ηµιουργία συστήµατος συνδυαστικής αναζήτησης µε βάση τις λέξεις κλειδιά και τη σηµασιολογική πληροφορία που προκύπτει από τον χαρακτηρισµό των εγγράφων Βαθµολόγηση αποτελεσµάτων αναζήτησης Ολοκλήρωση των παραπάνω µε τα εργαλεία ανοιχτού κώδικα Lucene και Protégé Ανάπτυξη διαπροσωπείας χρήστη σε γραφικό περιβάλλον για εκτέλεση όλων των παραπάνω ενεργειών και παρουσίαση αποτελεσµάτων. Μελλοντικές επεκτάσεις της διπλωµατικής θα µπορούσαν να γίνουν όσον αφορά την αυτοµατοποίηση της διαδικασίας σηµασιολογικού χαρακτηρισµού εγγράφων. ηλαδή, πέραν του χειρωνακτικού χαρακτηρισµού από το χρήστη, το ίδιο το πρόγραµµα θα µπορούσε αυτόµατα να χαρακτηρίζει σηµασιολογικά ένα έγγραφο, ή κοµµάτια του, µε βάση, για παράδειγµα, ένα ποσοστό λέξεων κλειδιών που περιέχει και που αντιστοιχούν σε κάποια έννοια της οντολογίας. Επιπλέον, η εφαρµογή θα µπορούσε να επεκταθεί πέρα από το σκληρό δίσκο ενός υπολογιστή και να αναζητά λέξεις κλειδιά και έννοιες οντολογιών σε περισσότερους από έναν υπολογιστές ή στο διαδίκτυο. Τέλος, θα µπορούσε να επεκταθεί το σύνολο των αρχείων που αναγνωρίζει η εφαρµογή, για παράδειγµα αρχεία ηλεκτρονικού ταχυδροµείου, διαφάνειες ή ακόµα και αρχεία εικόνας.