ΜΗΛΙΤΣΟΠΟΥΛΟΥ ΧΡΥΣΑΝΘΗ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΗΛΙΤΣΟΠΟΥΛΟΥ ΧΡΥΣΑΝΘΗ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Τίτλος Εργασίας ΑΠΟΣΑΦΗΝΙΣΗ ΕΡΩΤΗΜΑΤΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΕΧΝΙΚΕΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΗΣ ΑΝΑΖΗΤΗΣΗΣ ΜΗΛΙΤΣΟΠΟΥΛΟΥ ΧΡΥΣΑΝΘΗ Α.Μ. 760 Επιβλέπων καθηγητής ΜΑΚΡΗΣ ΧΡΗΣΤΟΣ, Επίκουρος Καθηγητής Τριμελής Επιτροπή ΜΑΚΡΗΣ ΧΡΗΣΤΟΣ, Επίκουρος Καθηγητής ΤΣΑΚΑΛΙΔΗΣ ΑΘΑΝΑΣΙΟΣ, Καθηγητής ΧΑΤΖΗΛΥΓΕΡΟΥΔΗΣ ΙΩΑΝΝΗΣ, Αναπληρωτής Καθηγητής Πάτρα, Οκτώβριος 2016

2 2

3 UNIVERSITY OF PATRAS SCHOOL OF ENGINEERING DEPARTMENT OF COMPUTER ENGINEERING AND INFORMATICS POST GRADUATE MASTERS DEGREE THESIS Title WEB QUERY DISAMBIGUATION USING PERSONALIZED SEARCH TECHNIQUES MILITSOPOULOU CHRYSANTHI Α.Μ. 760 Supervisor MAKRIS CHRISTOS, Assistant Professor Three member committee MAKRIS CHRISTOS, Assistant Professor TSAKALIDIS ATHANASIOS, Professor HATZILYGEROUDIS IOANNIS, Associate Professor Patras, October

4 4

5 5 Στην κόρη μου...

6 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα αρχικά να ευχαριστήσω τον επιβλέποντα της Διπλωματικής μου Εργασίας κύριο Μακρή Χρήστο, Επίκουρο Καθηγητή του τμήματος Μηχανικών Η/Υ και Πληροφορικής, για την εμπιστοσύνη που μου έδειξε, την καθοδήγησή του και την ανταπόκριση του για βοήθεια όποτε χρειαζόταν, ώστε να ολοκληρωθεί η παρούσα εργασία. Θα ήθελα παράλληλα να ευχαριστήσω τον Καθηγητή Τσακαλίδη Αθανάσιο, καθώς επίσης και τον Αναπληρωτή Καθηγητή Χατζηλυγερούδη Ιωάννη, για την προθυμία τους αλλά και τη συμμετοχή τους στην επιτροπή αξιολόγησης. Παράλληλα, θα ήθελα να ευχαριστήσω την οικογένεια μου και ιδιαίτερα τους γονείς μου, οι οποίοι ήταν πάντα σύμφωνοι με τις αποφάσεις μου, ήταν δίπλα μου και με βοηθούσαν με τον τρόπο που εκείνοι ήξεραν και μπορούσαν, ώστε να υλοποιώ τους στόχους μου. Τέλος, θα ήθελα ιδιαίτερα να ευχαριστήσω το σύζυγό μου, ο οποίος ήταν η κινητήριος δύναμη ώστε να αντιμετωπίζω κάθε δυσκολία που εμφανιζόταν κατά την υλοποίηση της παρούσας εργασίας. Με τα λόγια του και τις ενέργειές του υπήρξε πηγή δύναμης και ενθάρρυνσης, ενώ η πίστη του σε εμένα ήταν καθοριστικής σημασίας. Χρυσάνθη I. Μηλιτσοπούλου 6

7 ΠΕΡΙΛΗΨΗ Μία από τις μεγαλύτερες προκλήσεις των σύγχρονων μηχανών αναζήτησης είναι η ικανοποίηση των χρηστών, με την επιστροφή των κατάλληλων αποτελεσμάτων στα ερωτήματά τους. Ο μεγάλος όγκος του Παγκόσμιου Ιστού, τα σύντομα ερωτήματα των χρηστών καθώς και η ασάφεια που τα χαρακτηρίζει τις περισσότερες φορές, δυσκολεύουν τις μηχανές αναζήτησης. Ως αποτέλεσμα, οι χρήστες δεν παίρνουν πάντα ως απάντηση τα κείμενα που τους ενδιαφέρουν, ενώ ακόμα και αν τα κείμενα αυτά επιστραφούν ως απάντηση, δε θα βρίσκονται σίγουρα στην κορυφή της κατάταξης των αποτελεσμάτων. Είναι γεγονός λοιπόν ότι τα ερωτήματα που θέτουν οι χρήστες στις μηχανές αναζήτησης είναι ασαφή, ενώ επιπρόσθετα, διαφορετικοί χρήστες μπορεί να θέσουν στη μηχανή αναζήτησης το ίδιο ερώτημα, ωστόσο να χρειάζονται διαφορετικό σύνολο αποτελεσμάτων. Ως συνέπεια, το ερευνητικό ενδιαφέρον πολλών ερευνητών έχει στραφεί προς αυτή την κατεύθυνση, στη βελτίωση δηλαδή της ποιότητας των αποτελεσμάτων που παρέχονται στους χρήστες, ώστε να γίνεται σωστή αποσαφήνιση των αμφίσημων όρων των ερωτημάτων, με βάση των εκάστοτε χρήστη. Αυτό ακριβώς αποτελεί και το αντικείμενο της παρούσας διπλωματικής εργασίας, η πρόταση δηλαδή τεχνικών ώστε να αποσαφηνίζονται τα ερωτήματα που θέτουν οι χρήστες στις μηχανές αναζήτησης, με τέτοιο τρόπο που να επιστρέφονται σε κάθε χρήστη εξατομικευμένα αποτελέσματα, αποτελέσματα δηλαδή που να συνάδουν με τα προσωπικά του ενδιαφέροντα. Οι τεχνικές που χρησιμοποιούνται για την εξατομίκευση των αποτελεσμάτων, βασίζονται στο ιστορικό πλοήγησης κάθε χρήστη, δηλαδή στις ιστοσελίδες που έχει πλοηγηθεί ο χρήστης κατά το παρελθόν, οι οποίες αποτελούν σημαντική πηγή για την εκμάθηση των ενδιαφερόντων των χρηστών. Τα πειραματικά δεδομένα βασίστηκαν σε πραγματικούς χρήστες, οι οποίοι χρησιμοποιήθηκαν ως εθελοντές και αφού έγινε επεξεργασία του ιστορικού πλοήγησής τους και επέλεξαν μία σειρά ερωτημάτων, αξιολόγησαν την απόδοση των προτεινόμενων τεχνικών. Τα πειραματικά αποτελέσματα ουσιαστικά προκύπτουν από μία συγκριτική μελέτη μεταξύ των προτεινόμενων τεχνικών και δίνουν τα επιθυμητά αποτελέσματα. 7

8 ABSTRACT One of the biggest challenges of modern search engines is users satisfaction by returning results that fulfill their information needs, when they issue a query to the search engine. The large volume of the Web and the short ambiguous queries are the reason why search engines often fail to accomplish their mission. As a result, users will not get the results that they expect and even if they do, texts that are of more interest won t be at the top of result list. It is true that users queries are ambiguous and at the same time there is always the possibility that different users may issue the same query asking for different results. Therefore, many researchers interest is to improve the quality of the results that are presented to users by disambiguating the terms of queries based on each user separately. So, the purpose of this thesis is the presentation of several techniques that disambiguate users queries in a way that users get personalized search results, which means results that are according to their personal interests. The techniques that are presented are based on the navigation history of each user, meaning the webpages that each user has seen in the past. These webpages are a good source of information of what might be of interest for each user. Experimental data where based on real volunteer users. Their navigation history was analyzed and each user chose a series of queries. Subsequently, they were asked to evaluate the results of the purposed techniques. Experimental results are basically a comparative study between the purposed techniques. 8

9 9

10 ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 ο Εισαγωγή Αντικείμενο διπλωματικής εργασίας Δομή διπλωματικής εργασίας...16 Κεφάλαιο 2 ο Μηχανές Αναζήτησης Περιγραφή Παγκόσμιου Ιστού Ιδιαιτερότητες στην Ανάκτηση Πληροφορίας Περιγραφή Τρόπος λειτουργίας μηχανών αναζήτησης Ιστορία μηχανών αναζήτησης Δημοφιλείς μηχανές αναζήτησης Προκλήσεις για τις σύγχρονες μηχανές αναζήτησης Αξιολόγηση της απόδοσης των μηχανών αναζήτησης...31 Κεφάλαιο 3 ο Επίλυση προβλήματος αμφισημίας των λέξεων (WSD) Ορισμός του προβλήματος Ιστορική αναδρομή Εφαρμογές Βασικές προσεγγίσεις για την επίλυση του προβλήματος Μέθοδοι που βασίζονται σε πηγές γνώσης (Knowledge-based) Αλγόριθμος Lesk Μετρικές σημασιολογικής ομοιότητας που υπολογίζονται σε σημασιολογικά δίκτυα Αυτόματα ή ημι-αυτόματα απεκτηθέντες σημασιολογικές προτιμήσεις Ευρετικές μέθοδοι Μη εποπτευόμενες μέθοδοι (unsupervised methods) Εποπτευόμενες μέθοδοι (supervised methods) WordNet

11 Κεφάλαιο 4 ο Βελτίωση - Επέκταση ερωτημάτων Χρηστών Εισαγωγή Πλεονεκτήματα και μειονεκτήματα της επέκτασης των ερωτημάτων Τεχνικές επέκτασης ερωτημάτων Τεχνικές Καθολικής Ανάλυσης Τεχνικές Τοπικής Ανάλυσης...59 Κεφάλαιο 5 ο Τεχνικές εξατομικευμένης αναζήτησης στον Παγκόσμιο Ιστό Ορισμός Προκλήσεις στον τομέα της εξατομικευμένης αναζήτησης Τεχνικές εξατομικευμένης αναζήτησης...66 Κεφάλαιο 6 ο Περιγραφή και υλοποίηση Μεθοδολογίας Εισαγωγή Περιγραφή προτεινόμενης μεθοδολογίας Περιγραφή πειραματικής διαδικασίας Πειραματικά αποτελέσματα...89 Κεφάλαιο 7 ο Συμπεράσματα και μελλοντικές κατευθύνσεις Συμπεράσματα Μελλοντικές Κατευθύνσεις

12 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 2.1 Γενικός τρόπος λειτουργίας μίας μηχανής αναζήτησης...23 Εικόνα 2.2 Ορισμός των εννοιών της ανάκλησης και της ακρίβειας...33 Εικόνα Μέρος της ιεραρχίας Υπερωνύμων του WordNet...46 Εικόνα 3.1 Παράδειγμα χρήσης της online έκδοσης του WordNet Εικόνα 3.2 Παράδειγμα ιεραρχικής δόμησης του WordNet με βάση τις σχέσεις Υπερωνυμίας Υπωνυμίας...53 Εικόνα 4.1 Σχηματική αναπαράσταση της μεθόδου Relevance Feedback...61 Εικόνα 5.1 Απεικόνιση της αρχικής σελίδας του dmoz.org (Open Project Directory)...69 Εικόνα 6.1 Διάγραμμα ροής γενικού αλγορίθμου αρχικού βήματος μεθοδολογίας...74 Εικόνα 6.2 Διάγραμμα ροής γενικού αλγορίθμου 1 ης τεχνικής...77 Εικόνα 6.3 Διάγραμμα ροής γενικού αλγορίθμου 2 ης κατηγορίας τεχνικών...79 Εικόνα 6.4 Μέσος όρος τιμών ndcg για κάθε τεχνική ξεχωριστά και για το σύνολο των ερωτημάτων...91 Εικόνα 6.5 Συγκριτικά αποτελέσματα τεχνικών διαχωρισμένα με βάση το μέγεθος του ερωτήματος...92 Εικόνα 6.6 Συγκριτικά αποτελέσματα τεχνικών διαχωρισμένα με βάση το βαθμό ασάφειας του ερωτήματος

13 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 3.1 Έννοιες λέξεων pine και cone με βάση το Oxford Advanced Learner s...44 Πίνακας 6.1 Παράδειγμα χρήσης μετρικών CG και DCG

14 14

15 ΚΕΦΑΛΑΙΟ 1 Ο - ΕΙΣΑΓΩΓΗ 1.1 Αντικείμενο διπλωματικής εργασίας Τα τελευταία χρόνια, η ραγδαία αύξηση στη χρήση του Παγκόσμιου Ιστού έχει οδηγήσει σε μία διόγκωση του περιεχομένου του και σε ένα συνεχώς αυξανόμενο όγκο πληροφορίας. Το γεγονός αυτό, σε συνδυασμό με την αναρχία που επικρατεί στο διαδίκτυο, έκαναν επιτακτική την ανάγκη για ύπαρξη ενός μηχανισμού που θα επιτρέπει στο χρήστη να αναζητά και να βρίσκει ιστοσελίδες με τα θέματα που τον ενδιαφέρουν. Οι μηχανές αναζήτησης ήρθαν να συμπληρώσουν αυτό το κενό. Οι μηχανές αναζήτησης υιοθετούν διάφορους μηχανισμούς για να επιστρέψουν στους χρήστες τους το αποτέλεσμα που τους ενδιαφέρει. Συνεχώς εξελίσσονται και χρησιμοποιούν νέες τεχνικές, με αποτέλεσμα να απαντούν αρκετά ικανοποιητικά στα ερωτήματα των χρηστών. Ωστόσο, δεν είναι πάντα σίγουρο ότι θα επιστρέψουν τα σωστά αποτελέσματα και βέβαια ακόμα και αν τα επιστρέψουν, δεν είναι σίγουρο ότι αυτά θα βρίσκονται στην κορυφή της λίστας των αποτελεσμάτων. Για το σκοπό αυτό, το ενδιαφέρον πολλών ερευνητών έχει στραφεί προς αυτή την κατεύθυνση, την προσπάθεια δηλαδή να επιστρέφονται στους χρήστες αποτελέσματα τα οποία θα καλύπτουν με τον πληρέστερο δυνατό τρόπο τις πληροφοριακές τους ανάγκες. Παράλληλα, πολλά από τα ερωτήματα που θέτουν οι χρήστες στις μηχανές αναζήτησης χαρακτηρίζονται από ασάφεια, δηλαδή είναι σύντομα, αποτελούνται από λίγες λέξεις και δε μπορεί να διευκρινιστεί επαρκώς τι ακριβώς αναζητά ο χρήστης. Ως συνέπεια αυτού, τα αποτελέσματα που παίρνουν οι χρήστες αυτοί, δεν αναποκρίνονται στις πληροφοριακές τους ανάγκες. Επιπρόσθετα, διαφορετικοί χρήστες ενδέχεται να θέσουν στη μηχανή αναζήτησης το ίδιο ακριβώς ερώτημα, ωστόσο να χρειάζονται διαφορετικό σύνολο αποτελεσμάτων. Αυτό βέβαια οφείλεται στο γεγονός ότι οι διαφορετικοί χρήστες δεν έχουν κοινά πεδία ενδιαφέροντος και αναζητούν διαφορετικά πράγματα. 15

16 Ως συνέπεια των προηγούμενων, γίνονται προσπάθειες ώστε να βελτιωθεί η ποιότητα των αποτελεσμάτων που παρέχονται στους χρήστες, ώστε να γίνεται όχι μόνο σωστή αποσαφήνιση των αμφίσημων όρων των ερωτημάτων, αλλά και να ταιριάζουν με τις ανάγκες τους. Κατά το παρελθόν, έχουν γίνει διάφορες μελέτες για το πως θα μπορούσαν να παρέχονται στους χρήστες εξατομικευμένα αποτελέσματα. Το αντικείμενο μελέτης της παρούσας διπλωματικής εργασίας είναι ακριβώς όσα αναφέρθηκαν προηγουμένως, η πρόταση δηλαδή τεχνικών ώστε να αποσαφηνίζονται τα ερωτήματα που θέτουν οι χρήστες στις μηχανές αναζήτησης, με τέτοιο τρόπο που να επιστρέφονται σε κάθε χρήστη αποτελέσματα που να συνάδουν με τα προσωπικά του ενδιαφέροντα. Συνολικά προτάθηκαν τέσσερις διαφορετικές μεταξύ τους τεχνικές, οι οποίες έχουν ως κοινή βάση τη μετρική PageRank και χρησιμοποιείται ως ένδειξη για την αποσαφήνιση των αμφίσημων όρων που υπάρχουν στα ερωτήματα των χρηστών. Επίσης βασικό εργαλείο αποτέλεσε και το WordNet, ένα σημασιολογικό δίκτυο λημμάτων, η χρήση του οποίου κρίθηκε αναγκαία για την εύρεση των διαφορετικών εννοιών που μπορεί να έχει ένας όρος του ερωτήματος. Τέλος, οι τεχνικές που προτάθηκαν πραγματοποιούν επέκταση του ερωτήματος με νέους όρους και αυτό που τις διαφοροποιεί είναι και ο τρόπος που επιλέγονται οι όροι προς επέκταση. Η εξατομίκευση των αποτελεσμάτων πραγματοποιήθηκε με χρήση του ιστορικού πλοήγησης των χρηστών, καθώς θεωρείται ότι είναι μία πολύ σημαντική πηγή ώστε να αντλούνται δεδομένα για τους χρήστες σχετικά με τα ενδιαφέροντά τους. Παράλληλα, η χρήση του ιστορικού πλοήγησης είναι ένας πολύ καλός τρόπος ώστε να επιτευχθεί η εξατομίκευση των αποτελεσμάτων, χωρίς την ανάγκη να συμμετέχει ο χρήστης στη διαδικασία, όπως συμβαίνει με άλλες τεχνικές που έχουν προταθεί. 1.2 Δομή διπλωματικής εργασίας Η παρούσα Διπλωματική Εργασία απαρτίζεται από συνολικά 7 κεφάλαια. Το περιεχόμενο και ο λόγος ύπαρξης κάθε κεφαλαίου εξηγούνται στη συνέχεια. 16

17 Το παρόν κεφάλαιο αποτελεί ουσιαστικά μία εισαγωγή για το περιεχόμενο της εργασίας. Αναφέρεται το ερευνητικό αντικείμενο με το οποίο ασχολείται η εργασία και γίνεται μία συνοπτική παρουσίαση του στόχου αλλά και των τεχνικών που προτείνονται. Το δεύτερο κεφάλαιο έχει ως βασική έννοια τις μηχανές αναζήτησης. Εξάλλου η μηχανή αναζήτησης και η εύρεση τεχνικών που θα ικανοποιούν του χρήστες της, είναι και το βασικό αντικείμενο της εργασίας. Για το λόγο αυτό, αρχικά περιγράφονται οι δυσκολίες που προκύπτουν κατά την ανάκτηση πληροφορίας στο Διαδίκτυο και στη συνέχεια περιγράφεται ο τρόπος που λειτουργούν οι σύγχρονες μηχανές αναζήτησης. Αφού γίνεται μία σύντομη ιστορική αναδρομή, αναφέρονται οι πιο δημοφιλείς μηχανές αναζήτησης και έπειτα περιγράφονται οι προκλήσεις που καλούνται να αντιμετωπίσουν. Τέλος, αναφέρονται ποιες μετρικές χρησιμοποιούνται για να αξιολογηθεί η απόδοση τους. Το τρίτο κεφάλαιο έχει ως σκοπό την παρουσίαση του βασικού αντικειμένου που μελετάται στην εργασία, την επίλυση δηλαδή του προβλήματος της αμφισημίας των λέξεων. Αρχικά λοιπόν, αφού παρουσιάζεται το πρόβλημα, δίνεται ένα ιστορικό των προσπαθειών που έχουν πραγματοποιηθεί προς την επίλυση του και στη συνέχεια αναφέρονται οι τέσσερις βασικές εφαρμογές που απαντάται το συγκεκριμένο πρόβλημα. Ακολούθως, αναφέρονται οι βασικές προσεγγίσεις που έχουν αναπτυχθεί και οι οποίες χωρίζονται σε τρεις βασικές κατηγορίες. Τέλος, γίνεται περιγραφή του WordNet καθώς είναι ένα από τα βασικά εργαλεία που χρησιμοποιούνται στην εργασία. Το τέταρτο κεφάλαιο έχει αφιερωθεί στην ανάλυση του θέματος της επέκτασης βελτίωσης των ερωτημάτων που θέτουν οι χρήστες στις μηχανές αναζήτησης. Αναφέρονται τα πλεονεκτήματα καθώς και τα μειονεκτήματα των μεθόδων αυτών και στη συνέχεια αναγράφονται οι τεχνικές που χρησιμοποιούνται, χωρισμένες στις αντίστοιχες κατηγορίες τους. Το πέμπτο και τελευταίο κεφάλαιο πριν την παρουσίαση της μεθοδολογίας της εργασίας, αφορά το θέμα της εξατομικευμένης αναζήτησης στον Παγκόσμιο Ιστό. Το θέμα αυτό, είναι επίσης ύψιστης σημασίας στην εργασία αυτή. Η δομή του κεφαλαίο ξεκινά με τον ορισμό της εξατομικευμένης αναζήτησης και στη συνέχεια αναφέρονται οι προκλήσεις που εμφανίζονται 17

18 αλλά και οι τεχνικές που έχουν προταθεί προς την κατεύθυνση αυτή. Το κεφάλαιο έξι είναι αυτό στο οποίο αναλύεται διεξοδικά η μεθοδολογία που προτείνεται από την παρούσα διπλωματική επεξεργασία προς το θέμα που μελετάται. Αναλύονται συνεπώς οι προτεινόμενες τεχνικές που στοχεύουν στην εξατομικευμένη αποσαφήνιση των ερωτημάτων που θέτουν οι χρήστες σε μία μηχανή αναζήτησης. Πιο συγκεκριμένα, έπειτα από την εισαγωγή, αναλύεται ο αλγόριθμος που έχει υλοποιηθεί για τη μεθοδολογία και περιγράφεται ακόμα η πειραματική διαδικασία. Στο τέλος του κεφαλαίο, αναγράφονται τα πειραματικά αποτελέσματα που εξαχθήκαν. Στο κεφάλαιο επτά παρουσιάζονται τα συμπεράσματα σχετικά με την αποτελεσματικότητα της προτεινόμενης μεθοδολογίας ενώ στη συνέχεια αναφέρονται πιθανές μελλοντικές κατευθύνσεις. 18

19 19

20 ΚΕΦΑΛΑΙΟ 2 Ο ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ 2.1 Περιγραφή Παγκόσμιου Ιστού Ιδιαιτερότητες στην Ανάκτηση Πληροφορίας Ο Παγκόσμιος Ιστός είναι ένα δίκτυο από ιστοσελίδες στο Διαδίκτυο, το οποίο μπορεί να προσπελαστεί χρησιμοποιώντας ένα λογισμικό φυλλομετρητή. Οι ιστοσελίδες αυτές είναι κατασκευασμένες χρησιμοποιώντας κατά κύριο λόγο την HTML, η οποία είναι μία γλώσσα σήμανσης, και αποτελούνται από κείμενο, εικόνες, γραφικά, ήχους και επισυναπτόμενα αρχεία. Καθημερινά, εισάγονται στον Παγκόσμιο Ιστό εκατοντάδες νέες σελίδες, ενώ εκτιμάται ότι τη δεδομένη χρονική στιγμή (Απρίλιος 2016) υπάρχουν ενεργοί περίπου 1 δισεκατομμύριο ιστότοποι. Όπως γίνεται λοιπόν αντιληπτό, το μέγεθος του Παγκόσμιου Ιστού αυξάνεται με ιδιαίτερα ταχύς ρυθμούς, κάνοντας το περιεχόμενο τους διαθέσιμο στους χρήστες του παγκοσμίως. Ωστόσο, ένα από τα κυριότερα χαρακτηριστικά των ιστοσελίδων που απαρτίζουν τον Παγκόσμιο Ιστό είναι η ανομοιογένεία τους, ο άναρχος τρόπος δόμησης και οργάνωσης τους και η μη εφαρμογή των διαθέσιμων προτύπων. Επίσης, το περιεχόμενο τους είναι γραμμένο σε διαφορετικές γλώσσες και διαλέκτους από ανθρώπους με διαφορετικό υπόβαθρο, μόρφωση, κουλτούρα και ενδιαφέροντα, ενώ παράλληλα μπορεί να περιέχει αλήθειες, ψέματα ή ακόμα και να χαρακτηρίζεται από έλλειψη ουσίας και νοήματος. Όλα τα παραπάνω, σε συνδυασμό με την ιδιαιτερότητα των ίδιων των χρηστών, καθιστούν την αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό μία περίπλοκη και ίσως δύσκολη διαδικασία. Αυτό έχει σαν αποτέλεσμα, οι χρήστες να μην μπορούν να καλύψουν πάντα την πληροφοριακή τους ανάγκη. 20

21 Συμπερασματικά λοιπόν, η Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό έχει αρκετές ιδιαιτερότητες σε σχέση με τις συμβατικές εφαρμογές Ανάκτησης Πληροφορίες και συνεπώς διαφέρουν και οι τεχνικές που πρέπει να ακολουθούνται. Στο σημείο αυτό είναι χρήσιμο να αναφερθούν οι ιδιαιτερότητες αυτές: Το πλήθος και το περιεχόμενο των ιστοσελίδων αλλάζει με ραγδαίους ρυθμούς καθημερινά. Συνεχώς προστίθενται καινούριες σελίδες, αφαιρούνται υπάρχουσες ή διαφοροποιείται το περιεχόμενό τους. Έτσι το σύστημα που τις συγκεντρώνει και τις δεικτοδοτεί, αναλαμβάνει μεγάλο όγκο εργασίας καθώς πρέπει διαρκώς να ενημερώνεται για τις αλλαγές που πραγματοποιούνται. Η προεπεξεργασία όλων των σελίδων του Παγκόσμιου Ιστού απαιτεί μεγάλο κόστος χρόνου και χώρου και είναι ουσιαστικά ανέφικτη λόγω του μεγάλου όγκου της υπάρχουσας πληροφορίας. Η θεματολογία των ιστοσελίδων έχει αρκετές ιδιαιτερότητες. Μερικές ιστοσελίδες εστιάζουν ιδιαίτερα σε ένα μόνο θέμα, ενώ κάποιες άλλες δίνουν πληροφορίες για πολλά, και ίσως άσχετα μεταξύ τους θέματα. Υπάρχουν επίσης ιστοσελίδες που σκοπός τους δεν είναι καν η παροχή πληροφοριών. Η ποιότητα της πληροφορίας που παρέχεται από τις ιστοσελίδες δεν εξασφαλίζεται, καθώς μπορεί να αναφέρονται αλήθειες, ψέματα, ανακρίβειες ή και να υπάρχει έλλειψη συνοχής και νοήματος. Οι χρήστες που αναζητούν πληροφορίες, χρησιμοποιώντας τις μηχανές αναζήτησης, έχουν επίσης τις ιδιαιτερότητές τους. Διατυπώνουν πολύ σύντομα ερωτήματα, τα οποία αποτελούνται κατά μέσα όρο από 1 έως 3 όρους, ενώ δε διατυπώνουν σωστά την πληροφοριακή τους ανάγκη με αποτέλεσμα τα ερωτήματα τους να είναι ασαφή. Παράλληλα είναι αρνητικοί στο να παρέχουν πληροφορίες σχετικά με τα γενικά πληροφοριακά τους ενδιαφέροντα. 2.2 Περιγραφή Τρόπος λειτουργίας μηχανών αναζήτησης Το μέγεθος του Παγκοσμίου Ιστού, όπως έχει ήδη αναφερθεί, είναι ήδη εξαιρετικά μεγάλο και αυξάνεται συνεχώς. Την ίδια αύξηση ακολουθεί, προφανώς, και το παρεχόμενο περιεχόμενο 21

22 προς τους χρήστες, οι οποίοι έχουν στη διάθεσή τους μία πληθώρα πηγών για να ικανοποιήσουν την πληροφοριακή τους ανάγκη. Για να μπορέσει όμως ο χρήστης να αναζητήσει και να βρει ιστοσελίδες με θέματα που τον ενδιαφέρουν, είναι επιτακτική η ύπαρξη ενός μηχανισμού που θα τον βοηθήσει προς αυτή την κατεύθυνση. Αυτό το κενό ακριβώς ήρθαν να συμπληρώσουν οι μηχανές αναζήτησης. Μία μηχανή αναζήτησης είναι ουσιαστικά ένα σύστημα Ανάκτησης Πληροφορίας στο Διαδίκτυο που πρέπει να διαχειρίζεται έναν εξαιρετικά μεγάλο και δυναμικό μεταβαλλόμενο αριθμό εγγράφων, με στόχο να μπορεί να επιστρέφει στο χρήστη πληροφορία η οποία να είναι όσο το δυνατόν πιο σχετική στο ερώτημα που διατυπώνει ο εκάστοτε χρήστης και να μπορεί να καλύπτει την πληροφοριακή του ανάγκη. Τα αποτελέσματα που επιστρέφει μία μηχανή αναζήτησης παρουσιάζονται συνήθως σε μορφή μίας ταξινομημένης λίστας, η οποία αποτελείται από ένα σύνολο ιστοσελίδων ή άλλων τύπων αρχείων, όπως εικόνες, video και έγγραφα. Ο γενικός τρόπος λειτουργίας μίας μηχανής αναζήτησης μπορεί να περιγραφεί εξηγώντας τους 3 μηχανισμούς από τους οποίους αποτελείται. Οι μηχανισμοί αυτοί είναι οι εξής: Ανιχνευτής Αράχνη (Web Crawler - Spider) Δεικτοδότηση (Indexing) Αναζήτηση (Searching) 22

23 Εικόνα Γενικός τρόπος λειτουργίας μίας μηχανής αναζήτησης Ο ανιχνευτής είναι ένα ειδικό αυτόματο πρόγραμμα που επισκέπτεται ιστοσελίδες, τις διαβάζει και στη συνέχεια ακολουθεί τους υπερσυνδέσμους αυτών των ιστοσελίδων προς άλλες ιστοσελίδες. Ανά τακτά χρονικά διαστήματα, ο ανιχνευτής επιστρέφει στις ιστοσελίδες που έχει ήδη επισκεφτεί, διερευνώντας για πιθανές αλλαγές που έχουν πραγματοποιηθεί. Κάθε ανιχνευτής μίας μηχανής αναζήτησης έχει ενσωματωμένο ένα δικό του αλγόριθμο με βάση τον οποίο πλοηγείται στον Παγκόσμιο Ιστό και αναζητά ιστοσελίδες. Ο αλγόριθμος αυτός καθορίζει αν κάποια ιστοσελίδα θα πρέπει να αποθηκευτεί από τη μηχανή αναζήτησης ή όχι. Επιπλέον, ο αλγόριθμος βοηθά τον ανιχνευτή έτσι ώστε ο τελευταίος να μην κάνει κύκλους στον Παγκόσμιο Ιστό, δηλαδή να μην στέλνει τις ίδιες σελίδες για αποθήκευση, παραλείποντας κάποιες άλλες. Κατά τη διαδικασία της δεικτοδότησης, όλες οι ιστοσελίδες που επισκέφτηκε και διάβασε ο ανιχνευτής, αποθηκεύονται ως αντίγραφα σε έναν αποθηκευτικό χώρο. Κάθε αποθηκευτικός χώρος περιλαμβάνει διαφορετική πληροφορία και έχει ενσωματωμένο ένα ευρετήριο για την εύκολη προσπέλαση των σελίδων του χώρου. Όταν ο ανιχνευτής ανακαλύψει αλλαγές σε ιστοσελίδες, τότε αντίστοιχα ενημερώνονται και τα αποθηκευμένα αντίγραφά τους. Κάθε φορά που διατυπώνεται ένα ερώτημα στη μηχανή αναζήτησης, χρησιμοποιείται το ευρετήριο για τον 23

24 εντοπισμό της πληροφορίας στις αποθηκευμένες ιστοσελίδες και όχι οι ίδιες οι ιστοσελίδες. Συνεπώς, η κατασκευή του ευρετηρίου διαδραματίζει πολύ σημαντικό ρόλο στην απόδοση της Ανάκτησης Πληροφορίας. Μερικές μηχανές αναζήτησης αποθηκεύουν όλο ή μέρος του πηγαίου κώδικα μίας ιστοσελίδας, σε αντίθεση με άλλες που αποθηκεύουν κάθε λέξη για κάθε σελίδα που βρίσκουν. Ο μηχανισμός αναζήτησης είναι το πρόγραμμα που ερευνά το ευρετήριο για να βρει ιστοσελίδες που ταιριάζουν στους όρους του ερωτήματος αναζήτησης που έθεσε ο χρήστης. Οι χρήστες μηχανών αναζήτησης διατυπώνουν τα ερωτήματά τους επιλέγοντας όρους που θεωρούν πως εκφράζουν την ανάγκη τους για πληροφόρηση μια δεδομένη χρονική στιγμή. Οι όροι αυτοί διαφέρουν από χρήστη σε χρήστη αλλά και για τον ίδιο χρήστη σε διαφορετικές χρονικές στιγμές, εφόσον εκφράζουν τη γνωστική του κατάσταση τη στιγμή που αλληλεπιδρά με το σύστημα. Παράλληλα, η πλειοψηφία των χρηστών δεν είναι εξοικειωμένοι με τη χρήση τεχνητών γλωσσών, με αποτέλεσμα να χρησιμοποιούν φυσική γλώσσα για τη διατύπωση των ερωτημάτων τους. Για την καλύτερη επικοινωνία των χρηστών με τις μηχανές αναζήτησης, οι τελευταίες έχουν ενσωματώσει μηχανισμούς, οι οποίοι υποστηρίζουν ερωτήματα σε φυσική γλώσσα και επιπλέον παρέχουν υπηρεσίες προηγμένης αναζήτησης. Οι υπηρεσίες προηγμένης αναζήτησης καθορίζουν τη σύνταξη των ερωτημάτων, έτσι ώστε η αναζήτηση πληροφορίας στο ευρετήριο να είναι πιο αποδοτική. Οι κυριότερες υπηρεσίες προηγμένης αναζήτησης είναι οι ακόλουθες: Λογικές εκφράσεις Λογικοί τελεστές Αναδίπλωση πεζών-κεφαλαίων χαρακτήρων Γλωσσολογική επεξεργασία των ερωτημάτων και των όρων δεικτοδότησης Χρήση συμβόλων-μπαλαντέρ Αναζήτηση σε συγκεκριμένα σημεία ενός κειμένου Αναζήτηση (εκ)φράσεων, χρήση τελεστών εγγύτητας Αναζήτηση ιστοσελίδων που φιλοξενούνται από συγκεκριμένους δικτυακούς τόπους. Η αποτελεσματικότητα μιας μηχανής αναζήτησης εξαρτάται από τη σχετικότητα του συνόλου αποτελεσμάτων που επιστρέφει. Ενώ μπορεί να υπάρχουν εκατομμύρια ιστοσελίδων που 24

25 περιέχουν μια συγκεκριμένη λέξη ή φράση, μερικές ιστοσελίδες είναι περισσότερο σχετικές, δημοφιλείς ή έγκυρες από κάποιες άλλες. Οι περισσότερες μηχανές αναζήτησης εφαρμόζουν μεθόδους για να διαβαθμίσουν τα αποτελέσματα που παρέχουν και να παρουσιάσουν τα καλύτερα αποτελέσματα πρώτα. Ο τρόπος με τον οποίο μία μηχανή αναζήτησης αποφασίζει για το ποιες σελίδες θα παρουσιαστούν σαν αποτέλεσμα στο χρήστη αλλά και τη σειρά κατάταξή τους διαφέρει από μια μηχανή αναζήτησης στην άλλη. Επιπλέον, οι μέθοδοι αλλάζουν με το πέρασμα του χρόνου, καθώς η χρήση του διαδικτύου αλλάζει και εμπλέκονται νέες τεχνικές. Παρά τα κοινά χαρακτηριστικά που παρατηρούνται ανάμεσα στη λειτουργία των μηχανισμών συλλογής και ευρετηριοποίσης των ιστοσελίδων, υπάρχουν και ορισμένα γνωρίσματα, όπως οι αλγόριθμοι ανανέωσης των ευρετηρίων, οι τεχνικές επιλογής όρων δεικτοδότησης, οι μηχανισμοί αξιολόγησης των ιστοσελίδων κ.ά., που τους διαφοροποιούν. Σε αυτές τις διαφορές οφείλεται η διαφορετική απόδοση των διαφόρων μηχανών αναζήτησης ή ακόμα και της ίδιας μηχανής αναζήτησης σε διαφορετικές χρονικές στιγμές 2.3 Ιστορία μηχανών αναζήτησης Όταν αρχικά ξεκίνησε το Διαδίκτυο, η μορφή του δεν είχε καμία σχέση με αυτό που γνωρίζουμε σήμερα. Στην αρχή ήταν απλά ένας αριθμός από FTP (File Transfer Protocol) sites που οι χρήστες μπορούσαν να κατεβάσουν ή να ανεβάσουν αρχεία. Η εύρεση αυτών των αρχείων ήταν δύσκολη αφού έπρεπε κάποιος να γνωρίζει την ακριβή διεύθυνση που βρίσκονταν, για να αποκτήσει πρόσβαση σε αυτά. Αυτή η διαδικασία εύρεσης των αρχείων ήταν πολύ δύσκολη και χρονοβόρα. Το έτος 1990 όμως η κατάσταση άλλαξε. Οι Alan Emtage, Bill Heelan και J. Peter Deutsch, φοιτητές του Πανεπιστημίου McGill στο Μόντρεαλ, δημιούργησαν το εργαλείο αναζήτησης Archie που ουσιαστικά ήταν ένας κατάλογος με τα ονόματα των αρχείων που υπήρχαν στο Διαδίκτυο. Ωστόσο το Archie δε δεικτοτοδοτούσε το περιεχόμενο αυτών των σελίδων. Το 1991, η δημιουργία του πρωτοκόλλου Gopher, οδήγησε στη δημιουργία δύο νέων εργαλείων αναζήτησης, το Veronica και το Jughead, τα οποία πραγματοποιούσαν αναζητήσεις σε τίτλους 25

26 και ονόματα αρχείων που ήταν αποθηκευμένα στο σύστημα Gopher. Και τα δυο αυτά προγράμματα λειτουργούσαν με παρόμοιο τρόπο, επιτρέποντας στους χρήστες να ψάξουν τους καταλόγους δίνοντας μία φράση ή μία λέξη κλειδί. Τον Ιούνιο του 1993 ο Matthew Gray ανέπτυξε το πρώτο γνωστό διαδικτυακό ρομπότ, το World Wide Web Wanderer, και το χρησιμοποίησε για να δημιουργήσει ένα ευρετήριο του Διαδικτύου, το Wandex. Ωστόσο, ο σκοπός του ήταν να μετρήσει το μέγεθος του Διαδικτύου και όχι να διευκολύνει τη διαδικασία της αναζήτησης. Το Σεπτέμβριο του 1993, δημιουργήθηκε η πρώτη διαδικτυακή Μηχανή Αναζήτησης, η W3Catalog, ενώ το Δεκέμβριο του ίδιου έτους δημιουργήθηκε η JumpStation, η πρώτη μηχανή αναζήτησης που συνδύαζε τα τρία απαραίτητα συστατικά των μηχανών αναζήτησης όπως τα γνωρίζουμε σήμερα, δηλαδή την ανίχνευση, τη δεικτοδότηση και την αναζήτηση. Το επόμενο έτος, το 1994, δημιουργήθηκε η WebCrawler από τον Brian Pinkerton στο πανεπιστήμιο της Washington. Σε αντίθεση με τους προγόνους της, επέτρεπε στους χρήστες της να αναζητούν οποιαδήποτε λέξη μίας ιστοσελίδας, καθώς τοποθετούσε στο ευρετήριο ολόκληρες τις ιστοσελίδες. Δεν περάσαν όμως λίγοι μήνες και η μηχανή αναζήτησης που ξεχώρισε ήταν η Lycos, όπου δημοσιοποίησε έναν κατάλογο με πάνω από εγγραφές, κατατάσσοντας τα αποτελέσματα σύμφωνα με την σχετικότητα ανάκτησης, ενώ συγχρόνως έκανε αντιστοίχηση προθέματος και εγγύτητας λέξης. Τα επόμενα χρόνια, έκαναν την εμφάνισή τους μερικές από τις πλέον γνωστές, ακόμα και σήμερα μηχανές αναζήτησης. Τον Απρίλιο του 1994, δημιουργήθηκε ο κατάλογος του Yahoo από τους David Filo και Jerry Yang, δυο διδακτορικούς φοιτητές. Σκοπός τους ήταν να βοηθήσουν τους φοιτητές του Stanford να εντοπίσουν χρήσιμες σελίδες του Ιστού. Το Yahoo δημιουργήθηκε χειροκίνητα και διατηρήθηκε ιεραρχικά οργανωμένο σε κατηγορίες μέχρι τον Οκτώβριο του Την ίδια χρονιά, δημιουργήθηκε η AltaVista, η πρώτη μηχανή που επέτρεπε αναζητήσεις σε φυσική γλώσσα, ενώ είχε απεριόριστο εύρος ζώνης με προηγμένες τεχνικές αναζήτησης και προσθήκη ή διαγραφή κάποιου Url μέσα σε 24 ώρες. Σήμερα δεν υπάρχει πλέον, αν και το url της είναι ενεργό κάνοντας ανακατεύθυνση στη Yahoo, η οποία την απέκτησε αργότερα. 26

27 Στο επόμενο κεφάλαιο, γίνεται αναφορά σε τρεις πολύ δημοφιλείς μηχανές αναζήτησης, στη Google, στη Yahoo και στη Bing, όπου και συμπληρώνεται η ιστορική εξέλιξη των μηχανών αναζήτησης. Αξίζει όμως να αναφερθεί, ότι κατά τη διάρκεια όλων αυτών των χρόνων, εμφανίστηκαν πολλές ακόμα μηχανές αναζήτησης με διαφορετικά χαρακτηριστικά η κάθε μία. Παράλληλα έχει υπάρξει διαφοροποίηση σε πολλούς τομείς, όπως ο τρόπος αναζήτησης, ο τρόπος παρουσίασης των αποτελεσμάτων, καθώς και πολλών ακόμα χαρακτηριστικών. 2.4 Δημοφιλείς μηχανές αναζήτησης Όπως είναι λογικό, εξαιτίας της ευρείας χρήσης τους από τους χρήστες του Παγκόσμιου Ιστού, έχουν αναπτυχθεί πολλές διαφορετικές μηχανές αναζήτησης από εμπορικές εταιρίες. Για το λόγο αυτό, κρίνεται σκόπιμο να αναφερθούν οι πιο δημοφιλείς εξ αυτών. Google To Google ξεκίνησε τον Ιανουάριο του 1996 ως ερευνητικό πρόγραμμα από τον Larry Page και τον Sergey Brin όταν έκαναν το διδακτορικό τους στο Πανεπιστήμιο Stanford της Καλιφόρνια. Μέχρι τότε, οι συμβατικές μηχανές αναζήτησης κατέτασσαν τα αποτελέσματά τους μετρώντας πόσες φορές οι όροι αναζήτησης εμφανίζονταν στην ιστοσελίδα. Η καινοτομία που εισήχθη από τους Page και Brin είναι ο αλγόριθμος PageRank. Ο αλγόριθμος αυτός ορίζει μία αριθμητική στάθμιση σε κάθε ιστότοπο του Παγκόσμιου Ιστού, με σκοπό να μετρήσει τη σημασία που έχει κάθε ιστότοπος μέσα στο σύνολο. Εκφράζοντας το λίγο πιο αναλυτικά, ο αριθμός Page Rank μιας ιστοσελίδας καθορίζεται κατ επανάληψη και εξαρτάται από τον αριθμό και την τιμή του Page Rank όλων των ιστοσελίδων που δείχνουν σε αυτήν. Μια ιστοσελίδα που συνδέεται με πολλές ιστοσελίδες με υψηλό PageRank λαμβάνει και η ίδια υψηλό PageRanκ. Από την άλλη, εάν δεν υπάρχουν σύνδεσμοι προς μια ιστοσελίδα, δεν υπάρχει τιμή PageRank για την ιστοσελίδα αυτή. Η μηχανή αναζήτησης που ανέπτυξαν ονομάστηκε Google, μία λέξη που προήλθε από τον αναγραμματισμό της λέξης Googol. Η λέξη αυτή είναι ένας μαθηματικός όρος για 27

28 τον αριθμό που ξεκινάει με το ψηφίο 1 ακολουθούμενο από 100 μηδενικά και ουσιαστικά χρησιμοποιήθηκε για να εκφράσει το στόχο του Larry και του Sergey να οργανώσουν ένα φαινομενικά απεριόριστο όγκο πληροφοριών στον ιστό. Το Google.com καταχωρίζεται ως τομέας στις 15 Σεπτεμβρίου του 1997 και ήδη το Δεκέμβριο του 1998, το "PC Magazine" αναφέρει ότι το Google διαθέτει μια ανεξήγητη ικανότητα να εμφανίζει εξαιρετικά συναφή αποτελέσματα, αναγνωρίζοντάς το ως την καλύτερη μηχανή αναζήτησης. Σήμερα, εξακολουθεί να είναι η δημοφιλέστερη μηχανή αναζήτησης με ποσοστό χρήσης που ξεπερνάει το 80%, ενώ μηνιαίως τίθενται περισσότερα 100 δισεκατομμύρια ερωτήματα. Yahoo Η Yahoo ιδρύθηκε τον Ιανουάριο του 1994 από τους David Filo και Jerry Yang, τελειόφοιτους του πανεπιστημίου Stanford, όταν θέλανε να ομαδοποιήσουν και να καταγράψουν διαδικτυακές τοποθεσίες μείζονος ενδιαφέροντος και να τις ταξινομήσουν σε θεματικές ενότητες. Ως αποτέλεσμα, είναι ένας από τους πιο παλιούς και γνωστούς θεματικούς καταλόγους του Διαδικτύου. Βέβαια, αν και ξεκίνησε ως θεματικός κατάλογος, αργότερα εξελίχτηκε σε μια πανίσχυρη μηχανή αναζήτησης. Σήμερα, εκτός από τη λίστα ιστοσελίδων και τη μηχανή αναζήτησης, το Yahoo.com παρέχει δεκάδες ακόμα υπηρεσίες, μεταξύ των οποίων δωρεάν ηλεκτρονικό ταχυδρομείο, ειδήσεις, ψυχαγωγία, ομάδες συζητήσεων, κ.α. Bing Η μηχανή αναζήτησης Bing είναι ιδιοκτησία της Microsoft Corporation. Πρωτοπαρουσιάστηκε από τον Steve Ballmer στις 28 Μαΐου 2009 στο All Things Digital συνέδριο στο Σαν Ντιέγκο. Η εταιρεία ξεκίνησε με την πρώτη ονομασία μηχανής αναζήτησης την MSN αργότερα άλλαξε το όνομα σε Live Search, παρόλο αυτά όμως η ονομασία της σε Bιng ήταν αυτή που θα ξεκινούσε το 2009 με πάρα πολύ θετικούς οιωνούς. Όλα ξεκίνησαν από τότε που η Microsoft ήθελε να αποκτήσει την Yahoo και για χρόνια φλέρταρε με αυτήν την ιδέα. Όταν τελικά κατάφερε να την αποκτήσει, τα οργανικά αποτελέσματα της Bing αντικαθιστούν τα οργανικά αποτελέσματα αναζήτησης του 28

29 Yahoo στα μέσα του Τα πληρωμένα αποτελέσματα της Yahoo μεταφέρονταν στην διαφημιστική πλατφόρμα αναζήτησης της Microsoft, που ονομάζεται adcenter. Παράλληλα με τις μηχανές αναζήτησης που υπάρχουν και δημιουργήθηκαν από εταιρίες, έχουν κατά καιρούς αναπτυχθεί και μηχανές αναζήτησης ανοικτού κώδικα. Αυτές, απευθύνονται κυρίως σε προγραμματιστές, ερευνητές ή υπεύθυνους για ανάπτυξη λογισμικού, με σκοπό την περαιτέρω έρευνα πάνω στο πεδίο των μηχανών Αναζήτησης. Μεταξύ αυτών, συγκαταλέγονται οι ht://dig, η Lucene, η Xapian, η Grub και η Zettair. Στην παραπάνω λίστα πρέπει οπωσδήποτε να προστεθεί και η μηχανή αναζήτησης Ανοικτού Κώδικα Indri, η οποία και χρησιμοποιήθηκε στο πειραματικό μέρος της παρούσας διπλωματικής εργασίας. Η Indri, αποτελεί μέρος του συνόλου εργαλείων του Lemur Project και επιτρέπει στους ερευνητές να δεικτοδοτούν δεδομένα και αρχεία, χρησιμοποιώντας απλές εντολές. Η Indri προσφέρει εξαιρετική ευελιξία καθώς μπορεί να χρησιμοποιηθεί σε διάφορες εφαρμογές, ενώ μπορεί να χειριστεί μεγάλες συλλογές δεδομένων και διαφορετικού είδους αρχεία όπως PDF, XML και HTML. Τέλος, υποστηρίζει διάφορες γλώσσες προγραμματισμού, όπως C++, Java, C# και PHP. 2.5 Προκλήσεις για τις σύγχρονες μηχανές αναζήτησης Στην ενότητα 2.1 παρουσιάστηκαν κάποιες ιδιαιτερότητες σχετικά με την Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό. Οι ίδιες ιδιαιτερότητες προκλήσεις παρουσιάζονται και για τις σύγχρονες μηχανές αναζήτησης, οι οποίες πρέπει να αντιμετωπιστούν, ώστε οι χρήστες να είναι ικανοποιημένοι από την ποιότητα των αποτελεσμάτων που λαμβάνουν και τα οποία πρέπει να καλύπτουν την πληροφοριακή τους ανάγκη. Αναλυτικά λοιπόν, οι προκλήσεις των μηχανών αναζήτησης είναι οι εξής: Μία από τις μεγαλύτερες προκλήσεις είναι η δυσκολία στη διατήρηση του ευρετηρίου μίας μηχανής αναζήτησης όσο πιο ανανεωμένου γίνεται. Η συνεχόμενη διόγκωση του Παγκόσμιου Ιστού, οι αλλαγές που εμφανίζονται σε ιστοσελίδες που έχουν ήδη 29

30 καταχωρηθεί στο ευρετήριο και κυρίως η ύπαρξη δυναμικών ιστοσελίδων που αλλάζουν περιεχόμενο με εισόδους από βάσεις δεδομένων, είναι καθοριστικοί παράγοντες που δυσχεραίνουν την προσπάθεια για ενημερωμένο ευρετήριο. Ο εντοπισμός και η επιστροφή στο χρήστη ιστοσελίδων με ποιοτικό περιεχόμενο. Η ελευθερία λόγου στον Παγκόσμιο Ιστό, έχει οδηγήσει στην ύπαρξη ιστοσελίδων με ψευδείς και ανακριβείς πληροφορίες που το περιεχόμενο τους δε χαρακτηρίζεται ποιοτικό, αλλά αντίθετα είναι χαμηλής ποιότητας τόσο από συντακτικής όσο και από σημασιολογικής πλευράς. Η μηχανή αναζήτησης θα πρέπει να προστατεύει τους χρήστες της από το περιεχόμενο αυτό, επιστρέφοντας ιστοσελίδες με υψηλή ποιότητα περιεχομένου. Η διαδικασία του υπολογισμού του βαθμού ποιότητας, αποτελεί μία ακόμη πρόκληση, λαμβάνοντας επιπροσθέτως υπ όψιν τη συχνή μεταβολή του περιεχομένου του ιστοσελίδων. Τα δεδομένα που είναι αποθηκευμένα στον Παγκόσμιο Ιστό χαρακτηρίζονται από μεγάλη ετερογένεια και ως προς τη δομή αλλά και ως προς το περιεχόμενο. Για παράδειγμα, υπάρχουν δεδομένα που είναι σε πολλές διαφορετικές μορφές όπως κείμενο, εικόνα, ήχος και video. Επίσης, υπάρχουν δεδομένα πλήρως δομημένα που είναι αποθηκευμένα σε βάσεις δεδομένων, ημι-δομημένα που είναι σε μορφή XML και εντελώς αδόμητα (ελεύθερο κείμενο). Επομένως, η μηχανή αναζήτησης θα πρέπει να λάβει υπόψη τις ιδιαιτερότητες αυτές ώστε να παρέχει υπηρεσίες ανεξάρτητα από την ετερογένεια των δεδομένων. Τα δεδομένα στον Παγκόσμιο Ιστό είναι αποθηκευμένα σε εκατομμύρια υπολογιστών που βρίσκονται διασκορπισμένοι σε διαφορετικές γεωγραφικές περιοχές. Το χαρακτηριστικό αυτό, επιφέρει μεγάλη δυσκολία καθώς θα πρέπει η σάρωση του Παγκόσμιου Ιστού να γίνεται γρήγορα, ώστε ο κατάλογος να είναι ενημερωμένος. Παράλληλα, η κατανομή των δεδομένων χωρίς κεντρικό έλεγχο επιφέρει επιπλέον δυσκολίες λόγω της επανάληψης των δεδομένων σε διαφορετικούς ιστοτόπους (διαφορετικές ιστοσελίδες με ίδιο περιεχόμενο). Πολλές ιστοσελίδες χρησιμοποιούν διάφορα τεχνάσματα για να πετύχουν να βρίσκονται ψηλά στη λίστα των αποτελεσμάτων. Αυτό μπορεί να οδηγήσει σε μόλυνση των αποτελεσμάτων μιας μηχανής αναζήτησης με spam ιστοσελίδες που περιέχουν ελάχιστη ή καθόλου πληροφορία σχετική με τα ερωτήματα που θέτει ο χρήστης. Μία ακόμα πρόκληση που αφορά τους ανιχνευτές μίας μηχανής αναζήτησης, είναι η 30

31 ύπαρξη ασφαλούς περιεχομένου που φιλοξενείται σε ιστοτόπους, καθώς οι ανιχνευτές είτε δεν μπορούν να πλοηγηθούν στο περιεχόμενο για τεχνικούς λόγους είτε απλά δεν δεικτοδοτούν το περιεχόμενο για ιδιωτικούς λόγους. Τέλος, ένα από τα σημαντικότερα προβλήματα που καλούνται να αντιμετωπίσουν οι σύγχρονες μηχανές αναζήτησης, είναι η επιστροφή στο χρήστη αποτελεσμάτων που είναι συναφή με τα προσωπικά του ενδιαφέροντα. Πρέπει δηλαδή να υπάρχει διαφοροποίηση των ιστοσελίδων που παρουσιάζονται στον κάθε χρήστη και όχι να επιστρέφονται τα ίδια αποτελέσματα σε όλες τους χρήστες, όταν θέτουν το ίδιο ερώτημα. Ουσιαστικά, πρόκειται για το πρόβλημα της προσωποποίησης των αποτελεσμάτων, που αποτελεί και το αντικείμενο μελέτης της παρούσας διπλωματικής εργασίας. 2.6 Αξιολόγηση της απόδοσης των μηχανών αναζήτησης Στην προσπάθεια που γίνεται για συνεχής βελτίωση των μηχανών αναζήτησης και για την αντιμετώπιση των προκλήσεων που αντιμετωπίζουν, είναι αναγκαίο να υπάρχουν μετρικές που να αξιολογούν την απόδοσή τους. Έχουν προταθεί λοιπόν διάφορες μετρικές, καθεμιά από τις οποίες αποτιμά διαφορετικές παραμέτρους κατά τη διαδικασία της ανάκτησης. Οι Lancaster και Fayen [Lancaster & Fayen, 1973] διατύπωσαν έξι κριτήρια με βάση τα οποία μπορεί να εκτιμηθεί η απόδοση των Μηχανών Αναζήτησης. Αν και τα κριτήρια αυτά, ορίστηκαν αρκετά χρόνια πριν, μπορούν να θεωρηθούν, ακόμα και σήμερα, εφαρμόσιμα. Tα κριτήρια αυτά συνοψίζονται στα παρακάτω: Κάλυψη Ανάκληση Ακρίβεια Χρόνος απόκρισης του συστήματος Καταβαλλόμενη προσπάθεια από το χρήστη κατά την αναζήτηση Τρόπος αναπαράστασης της ανακτηθείσας πληροφορίας. Αναλύοντας περαιτέρω τα παραπάνω, η κάλυψη αναφέρεται τον αριθμό των ιστοσελίδων που έχει δεικτοδοτήσει και αποθηκεύσει μία μηχανή αναζήτησης. Το πλήθος των δεικτοδοτημένων 31

32 κειμένων είναι ενδεικτικό γνώρισμα της απόδοσης των μηχανισμών ανίχνευσης ιστοσελίδων στον Παγκόσμιο Ιστό, καθώς και των μηχανισμών ανανέωσης των ευρετηρίων. Ωστόσο, η κάλυψη δεν αποτελεί επαρκές κριτήριο για την αξιολόγηση μηχανών αναζήτησης και αυτό γιατί το πλήθος των ιστοσελίδων που διακινούνται στον Παγκόσμιο Ιστό και συλλέγονται από τους ανιχνευτές δε μπορεί να μετρηθεί με ακρίβεια. Στα πλαίσια της ανάκτησης πληροφορίας, οι έννοιες της ανάκλησης και της ακρίβειας είναι εξαιρετικά σημαντικές και αποτελούν δύο από τις πιο γνωστές μετρικές. Οι μετρικές αυτές καθορίζονται με βάση κάποιο ερώτημα που τίθεται στη μηχανή αναζήτησης και μετριούνται σε σχέση με με το σύνολο των επιστρεφόμενων κειμένων από το ερώτημα αυτό καθώς επίσης και σε σχέση με το σύνολο των σχετικών κειμένων προς το ίδιο ερώτημα. Πιο συγκεκριμένα, θα υποτεθούν τα εξής: Έστω q ένα ερώτημα προς τη μηχανή αναζήτησης, R το σύνολο των σχετικών κειμένων ολόκληρης της συλλογής της μηχανής αναζήτησης προς το ερώτημα q και A το σύνολο των κειμένων που επεστράφησαν από τη μηχανή αναζήτησης για το ερώτημα q. Οι μαθηματικοί τύποι για τις μετρικές αυτές είναι οι παρακάτω: Ακρίβεια (Precision) = R A A = # Σχετικών κειμένων που επεστράφησαν # Κειμένων που επεστράφησαν Ανάκληση (Recall) = R A R = # Σχετικών κειμένων που επεστράφησαν # Σχετικών κειμένων 32

33 Εικόνα 2.2 Ορισμός των εννοιών της ανάκλησης και της ακρίβειας Διαισθητικά λοιπόν, η ανάκληση μετρά το ποσοστό των σχετικών εγγράφων που το σύστημα μπόρεσε να ανακτήσει σε σχέση με όλα τα σχετικά έγγραφα που υπάρχουν στη συλλογή. Είναι προφανές ότι η τέλεια ανάκληση είναι 100%. Βέβαια, κάτι που η ανάκληση δε λαμβάνει υπ όψιν, είναι το πλήθος των εγγράφων που ανακτήθηκαν αλλά δεν είναι σχετικά προς το ερώτημα. Συμβαίνει δηλαδή πολλές φορές να έχουν μεν ανακτηθεί όλα τα σχετικά έγγραφα, αλλά μαζί με αυτά να έχουν ανακτηθεί και πολλά μη σχετικά ως προς το ερώτημα. Όπως και στην περίπτωση της ανάκλησης, η καλύτερη δυνατή ακρίβεια που μπορεί να επιτευχθεί είναι 100%. Όσο μεγαλύτερες είναι λοιπόν οι τιμές τις ανάκλησης και της ακρίβειας, τόσο πιο αποτελεσματικό θεωρείται το σύστημα για το συγκεκριμένο ερώτημα. Στην ιδανική περίπτωση δηλαδή, το σύστημα θα επιστρέψει όλα τα σχετικά έγγραφα (100% ανάκληση) και μόνο αυτά (100% ακρίβεια). Ωστόσο αυτό συμβαίνει εξαιρετικά σπάνια, καθώς το ένα μέγεθος έχει την τάση να μειώνεται όσο αυξάνεται το άλλο. Αν και οι δύο αυτές μετρικές είναι αρκετά αξιόπιστες, αντιμετωπίζουν δύο βασικά προβλήματα. Από τη μία πλευρά, η ανάκληση μπορεί να υπολογιστεί όταν η συλλογή των δεικτοδοτημένων κειμένων είναι στατική και ο αριθμός των κειμένων που περιέχουν είναι συγκεκριμένος. Στην περίπτωση του Παγκόσμιου Ιστού όμως, εξαιτίας της δυναμικής φύσης του, ο συνολικός αριθμός των δεικτοδοτημένων κειμένων μπορεί να υπολογιστεί μόνο κατά προσέγγιση και ποτέ 33

34 με ακρίβεια. Από την άλλη πλευρά, η ακρίβεια της ανακτηθείσας πληροφορίας δεν αντικατοπτρίζει τον πραγματικό βαθμό σχετικότητας του κειμένου με τα ερωτήματα, εφόσον τα ποσοστά ακρίβειας καθορίζονται από αλγοριθμικές τεχνικές που ενεργοποιούνται κατά την επεξεργασία των ερωτημάτων και την ταξινόμηση των αποτελεσμάτων που επιστρέφονται. Συνεπώς, η αξιολόγηση δικτυακών μηχανών αναζήτησης με βάση την ανάκληση και την ακρίβεια, δεν αποτελεί απόλυτα ενδεικτικό κριτήριο της απόδοσής τους. Παρόλα αυτά, εξακολουθούν να χρησιμοποιούνται σαν μετρικές και βοηθούν στην αξιολόγηση της απόδοσης των μηχανών αναζήτησης, ιδιαίτερα σε ερευνητικό στάδιο. Ο χρόνος απόκρισης αναφέρεται στο χρόνο που μεσολαβεί από τη στιγμή που ένας χρήστης διατυπώσει ένα ερώτημα προς τη μηχανή αναζήτησης, μέχρι τη στιγμή που επιστρέφονται τα αποτελέσματα σε αυτόν. Σήμερα, ο χρόνος απόκρισής των περισσότερων μηχανών αναζήτησης είναι μόνο μερικά κλάσματα του δευτερολέπτου και αποτελεί ενδεικτικό κριτήριο της λειτουργίας και της αποτελεσματικότητας των μηχανισμών επεξεργασίας των ερωτημάτων. Η προσπάθεια που καταβάλλει ένας χρήστης κατά την αλληλεπίδρασή του με μία μηχανή αναζήτησης, αποτελεί ένα πιο υποκειμενικό κριτήριο, αλλά ωστόσο εξακολουθεί να είναι αρκετά σημαντικό. Η προσπάθεια του χρήστη εξαρτάται σε μεγάλο βαθμό από τον ίδιο και αφορά τόσο τη διαδικασία διατύπωσης ερωτημάτων, όσο και τη διαδικασία εκτίμησης της σχετικότητας της ανακτηθείσας πληροφορίας. Προφανώς, η σχέση ανάμεσα στην ανακτηθείσα πληροφορία και στα αιτήματα του χρήστη είναι υποκειμενική, εφόσον οι εκτιμήσεις σχετικότητας διαφέρουν μεταξύ διαφορετικών χρηστών, αλλά ακόμα και για τον ίδιο χρήστη σε διαφορετικές χρονικές στιγμές. Ο τρόπος αναπαράστασης της ανακτηθείσας πληροφορίας, κατά βάση, δεν παρουσιάζει σημαντικές διαφοροποιήσεις μεταξύ των διαφόρων μηχανών αναζήτησης, ωστόσο αποτελεί ένα σημαντικό κριτήριο αξιολόγησης της ευχρηστίας τέτοιων συστημάτων. Τα κείμενα που ανακτώνται σαν απαντήσεις στα ερωτήματα των χρηστών απεικονίζονται, μέσω των διεπαφών χρήστη, υπό τη μορφή μιας διατεταγμένης λίστας ιστοσελίδων του Παγκόσμιου Ιστού. Αυτό που είναι σημαντικό, είναι το πως απεικονίζεται κάθε ιστοσελίδα που επιστρέφεται σαν αποτέλεσμα στη λίστα. Για παράδειγμα, σε πολλές μηχανές αναζήτησης κάθε ιστοσελίδα που επιστρέφεται, 34

35 συνοδεύεται από μια σύντομη περίληψη του περιεχομένου του κειμένου της. Αυτή η σύνοψη, τις περισσότερες φορές εξάγεται αυτόματα από το ίδιο το σύστημα. Ωστόσο, τέτοιες τεχνικές απαιτούν την εκτεταμένη χρήση μηχανισμών αυτόματης εξαγωγής πληροφορίας από κείμενα, η ανάπτυξη των οποίων είναι αρκετά δύσκολη και απαιτεί εκτεταμένη χρήση τεχνικών γλωσσικής επεξεργασίας. Οι μετρικές που αναφέρθηκαν προηγουμένως χρησιμοποιούνται κυρίως, με εξαίρεση μίας εξ αυτών, σαν ποσοτικά χαρακτηριστικά και μπορούν να ερμηνευτούν από τους σχεδιαστές και τους αξιολογητές - αναλυτές των μηχανών αναζήτησης. Ωστόσο, τα αποτελέσματα των μετρικών αυτών δεν μπορούν να ερμηνευθούν από τους τελικούς χρήστες, καθώς δεν είναι εξοικειωμένοι με αλγοριθμικές τεχνικές. Για το λόγο αυτό, τα τελευταία χρόνια γίνονται προσπάθειες να καταγραφούν όχι μόνο οι απαιτήσεις των χρηστών αλλά και τα κριτήρια που υιοθετούν κατά την αξιολόγηση της απόδοσης της ανάκτησης. Στόχος είναι να συνδυαστούν οι απαιτήσεις τόσο των χρηστών, όσο και των σχεδιαστών μηχανών αναζήτησης για την υιοθέτηση αντικειμενικών κριτηρίων αξιολόγησης. 35

36 36

37 ΚΕΦΑΛΑΙΟ 3 Ο ΕΠΙΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΑΜΦΙΣΗΜΙΑΣ ΤΩΝ ΛΕΞΕΩΝ (WSD) 3.1 Ορισμός του προβλήματος Στο κεφάλαιο αυτό, στόχος είναι να αναλυθεί το πρόβλημα της αμφισημίας των λέξεων στον τομέα της γλωσσικής τεχνολογίας, να γίνει μία σύντομη ιστορική αναδρομή, να αναφερθούν οι βασικές εφαρμογές στις οποίες συναντάται το πρόβλημα και τέλος να μελετηθούν οι βασικές προσεγγίσεις για την επίλυσή του. Ωστόσο είναι σκόπιμο πρώτα να δοθεί ένας ορισμός του προβλήματος. Λαμβάνοντας υπ όψιν το γεγονός ότι όλα μπορούν να εξηγηθούν καλύτερα χρησιμοποιώντας ένα παράδειγμα, έστω ότι υπάρχει ένα αγγλικό κείμενο που περιέχει τη λέξη κλειδί bank. Η λέξη αυτή από μόνη της, μεταφράζοντάς τη σε ένα λεξικό, ως ουσιαστικό έχει κατά βάση δύο διαφορετικές έννοιες. Χρησιμοποιείται είτε για να δηλώσει την τράπεζα, σαν χρηματοπιστωτικό ίδρυμα, είτε για να δηλώσει την όχθη του ποταμού. Επιπλέον αν χρησιμοποιηθεί ως ρήμα, σημαίνει αναχώνω δηλαδή καλύπτω κάτι με χώμα. Όταν λοιπόν μία λέξη, όπως η λέξη bank, έχει παραπάνω από 2 έννοιες (senses), θεωρείται ότι χαρακτηρίζεται από πολυσημία. Ωστόσο, τις περισσότερες φορές, όταν η ίδια λέξη απαντηθεί στο σώμα ενός κειμένου, το πρόβλημα της πολυσημίας μπορεί να λυθεί από τα συμφραζόμενα, δηλαδή η κάθε λέξη μπορεί να αντιστοιχηθεί στη σωστή έννοιά της με βάση το υπόλοιπο κείμενο. Σε περίπτωση που αυτό δε συμβεί, τότε θεωρείται ότι η λέξη χαρακτηρίζεται από ασάφεια. Επεκτείνοντας το παραπάνω παράδειγμα σε ένα πιο ευρύ φάσμα, είναι σύνηθες φαινόμενο μία λέξη να έχει ένα μικρό αριθμό εννοιών οι οποίες διακρίνονται ξεκάθαρα μεταξύ τους και το πιθανότερο είναι να μην έχουν καμία συσχέτιση. Αυτές οι έννοιες κατά τύχη και μόνο συμβαίνει να χρησιμοποιούν την ίδια συμβολοσειρά. Ωστόσο, υπάρχουν και περιπτώσεις όπου οι έννοιες 37

38 δε μπορούν να διακριθούν ξεκάθαρα μεταξύ τους και δημιουργείται σύγχυση ως προς το ποια έννοια αντιστοιχεί σε μία λέξη. Για παράδειγμα, η λέξη bank ως χρηματοπιστωτικό ίδρυμα μπορεί να διαιρεθεί σε ένα επιμέρους σύνολο σχετιζόμενων εννοιών, όπως η τράπεζα σαν εταιρία ή ίδρυμα, η τράπεζα ως κτίριο, η τράπεζα ως αποταμιευτική έννοια, κ.ά. Με βάση λοιπόν όλα τα παραπάνω, μία λέξη μπορεί να έχει περισσότερες από μία διαφορετικές ερμηνείες. Εξάλλου, η λεξική αμφισημία είναι διάχυτη. Είναι γεγονός ότι τα 121 πιο πολυχρησιμοποιούμενα ουσιαστικά της αγγλικής γλώσσας, έχουν κατά μέσο όρο 7.8 διαφορετικές έννοιες το καθένα (σύμφωνα με το Princeton WordNet). Δίνοντας έναν πιο ελεύθερο ορισμό, η λεξική αποσαφήνιση είναι η απόδοση μίας έννοιας σε κάθε λέξη που βρίσκεται σε κάποιο πλαίσιο, η οποία βέβαια είναι μία διαδικασία που γίνεται μάλλον ασυναίσθητα στο μυαλό των ανθρώπων. Ως υπολογιστικό πρόβλημα όμως, χαρακτηρίζεται ως AI-complete, δηλαδή ότι η δυσκολία του είναι τέτοια ώστε μπορεί να εξομοιωθεί με την επίλυση του κεντρικού προβλήματος της τεχνητής νοημοσύνης, να γίνουν δηλαδή οι υπολογιστές τόσο έξυπνοι όσο οι άνθρωποι [Ide & Véronis, 1998]. Στον τομέα της Γλωσσικής Τεχνολογίας, το παραπάνω πρόβλημα ονομάζεται WSD (Word Sense Disambiguation), δηλαδή είναι το πρόβλημα της επίλυσης της αμφισημίας των λέξεων, και ορίζεται ως η διαδικασία της απόδοσης της σωστής έννοιας σε μία λέξη από τη χρήση της σε κάποιο συγκεκριμένο πλαίσιο. Στην πραγματικότητα το πρόβλημα αυτό, είναι βασικά μία εργασία ταξινόμησης καθώς οι έννοιες είναι οι κατηγορίες, το πλαίσιο παρέχει τα απαραίτητα στοιχεία και κάθε εμφάνιση μίας λέξης ανατίθεται σε μία ή περισσότερες κατηγορίες με βάση τα υπάρχοντα στοιχεία. Προφανώς, υπάρχει η υπόθεση ότι οι λέξεις έχουν ένα πεπερασμένο και διακριτό σύνολο εννοιών που μπορεί να βρεθεί σε κάποιο λεξικό, σε κάποια λεξιλογική βάση γνώσεων ή σε κάποια οντολογία. 3.2 Ιστορική αναδρομή Η επίλυση του προβλήματος της αμφισημίας των λέξεων διατυπώθηκε για πρώτη φορά, ως ξεχωριστή υπολογιστική εργασία, στα τέλη της δεκαετίας του 1940, καθιστώντας το έτσι ένα από 38

39 τα παλαιότερα προβλήματα στον τομέα της Γλωσσικής Τεχνολογίας. Παρουσιάστηκε από τον Weaver το 1949 [Weaver, 1949], στο διάσημο πλέον υπόμνημά του πάνω στη μηχανική μετάφραση (machine translation). Εκτός όμως ότι διατύπωσε τη γενικότερη μεθοδολογία, η οποία εξακολουθεί να εφαρμόζεται ακόμα και σήμερα, ο Weaver αναγνώρισε ότι πρώτον, το γενικότερο πλαίσιο (τα μέρη ενός προφορικού ή γραπτού λόγου που προηγούνται ή ακολουθούν μία λέξη ή φράση) είναι ζωτικής σημασίας και δεύτερον, το στατιστικό χαρακτήρα του προβλήματος. Κατά τη δεκαετία του 1950, έγινε ιδιαίτερα μεγάλη προσπάθεια στο να εκτιμηθεί ο βαθμός της ασάφειας που υπήρχε σε κείμενα και σε δίγλωσσα λεξικά, καθώς επίσης και στην εφαρμογή απλών στατιστικών μοντέλων. Ωστόσο, οι αρχικοί ερευνητές στο πεδίο, αντιλήφθηκαν τη σημασία και τη δυσκολία του προβλήματος και μάλιστα αυτή η δυσκολία ήταν και ο λόγος που η έρευνα στο πεδίο της μηχανικής μετάφρασης εγκαταλείφθηκε το Η επίλυση του προβλήματος της αμφισημίας επανήλθε στο προσκήνιο τη δεκαετία του 1970 στα πλαίσια της έρευνας της Τεχνητής Νοημοσύνης για πλήρη κατανόηση της φυσικής γλώσσας. Σημείο καμπής όμως, υπήρξε η δεκαετία του Τότε, άρχισαν να γίνονται διαθέσιμοι ευρείας κλίμακας λεξιλογικοί πόροι και σώματα κειμένων με αποτέλεσμα πλέον η γνώση να μπορεί να εξαχθεί αυτόματα από τους διαθέσιμους αυτούς πόρους. Η επίλυση της αμφισημίας που βασίζεται σε λεξικά είχε μόλις ξεκινήσει και η συσχέτιση μεταξύ αυτής και της λεξικογραφίας έγινε σαφής. Αξίζει να σημειωθεί όμως, ότι παρόλο που οι μέθοδοι που βασίζονται σε λεξικά είναι εξαιρετικά χρήσιμες σε κάποιες περιπτώσεις όρων που χαρακτηρίζονται από ασάφεια, δε μπορούν να θεωρηθούν και απόλυτα ισχυρές δεδομένου ότι τα λεξικά στερούνται πλήρης κάλυψης πληροφορίας όσον αφορά τις διακρίσεις των εννοιών. Κατά τη διάρκεια της δεκαετίας του 1990, πραγματοποιήθηκαν 3 εξαιρετικά σημαντικές εξελίξεις: η διάθεση του WordNet, η στατιστική επανάσταση στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP Natural Language Processing) και η έναρξη του Senseval. Η εμφάνιση του WordNet ήταν πραγματικά καθοριστική καθώς ώθησε την έρευνα ένα βήμα παραπέρα. Ο λόγος για αυτό, ήταν ότι το WordNet ήταν υπολογιστικά προσβάσιμο και ιεραρχικά οργανωμένο σε έννοιες λέξεων, που ονομάζονται synsets. Σήμερα, το Αγγλικό WordNet (παράλληλα με WordNets άλλων γλωσσών), αποτελεί την πιο ευρέως χρησιμοποιημένη, γενικού σκοπού, 39

40 καταγραφή εννοιών στον τομέα της επίλυσης της αμφισημίας των λέξεων. Παράλληλα, όπως ήδη αναφέρθηκε, στατιστικές μέθοδοι έχουν επιτυχώς εφαρμοστεί στο πρόβλημα της ταξινόμησης των εννοιών. Ο Weaver είχε αναγνωρίσει τη στατιστική φύση του προβλήματος ήδη από το 1949, ενώ πρώιμες εργασίες που στηρίζονταν σε σώματα κειμένων από τους [Weiss, 1973], [Kelley & Stone, 1975] και [Black, 1988], προανήγγειλαν τη στατιστική επανάσταση με την επίδειξη των δυνατοτήτων των εμπειρικών μεθόδων στην εξαγωγή στοιχείων αποσαφήνισης από σώματα κειμένων που είχαν χαρακτηριστεί χειροκίνητα. Οι [Brown et al, 1991] ήταν οι πρώτοι που χρησιμοποίησαν μεθόδους επίλυσης αμφισημίας βασισμένες σε κείμενα στον τομέα της στατιστικής Μηχανικής Μάθησης. Ολοκληρώνοντας την ιστορική αναδρομή, είναι σημαντικό να αναφερθεί γιατί η έναρξη του Senseval ήταν τόσο καθοριστική. Πριν το Senseval, ήταν εξαιρετικά δύσκολα να συγκριθούν και να αξιολογηθούν τα διαφορετικά συστήματα εξαιτίας διαφορών στις λέξεις, στους σχολιαστές, στους καταγραφείς εννοιών και στα σώματα κειμένων που χρησιμοποιούνταν για πειραματικούς σκοπούς. Πρώτη φορά συζητήθηκε το 1997 και σήμερα έχει εξελιχθεί σε κυρίαρχο forum για τους ερευνητές ώστε να συζητούν και να εξελίσσουν τον κλάδο. Η κύρια συνεισφορά του ήταν να καθιερώσει ένα πλαίσιο αξιολόγησης για την επίλυση της αμφισημίας που περιλαμβάνει τυποποιημένες περιγραφές εργασιών και μία μεθοδολογία αξιολόγησης. Περιλαμβάνει επίσης επικεντρωμένη έρευνα, επιτρέπει την επιστημονική αυστηρότητα, δημιουργεί σημεία αναφοράς και παράγει σημαντικούς πόρους σε πολλές γλώσσες, επιτρέποντας έτσι την έρευνα και σε γλώσσες άλλες, πέραν της Αγγλικής. 3.3 Εφαρμογές Ένα από τα βασικά θέματα συζήτησης και έρευνας που απασχολεί όσους ασχολούνται με την επίλυση της αμφισημίας των λέξεων, είναι το κατά πόσο θα έπρεπε να αντιμετωπίζεται το πρόβλημα ως αυτόνομο ή σαν αναπόσπαστο κομμάτι ευρύτερων εφαρμογών. Στην πρώτη περίπτωση, κατασκευάζεται ένα σύστημα όπου είναι σαν ένα μαύρο κουτί που περιλαμβάνει μία σαφής διαδικασία για την επίλυση του προβλήματος και το οποίο σύστημα μπορεί να 40

41 χρησιμοποιηθεί σε οποιαδήποτε εφαρμογή μπορεί να χρειαστεί, ακριβώς όπως συμβαίνει με τους μορφοσυντακτικούς χαρακτηριστές (taggers) και τους συντακτικούς αναλυτές (parsers). Στη δεύτερη περίπτωση, κατασκευάζεται ένα σύστημα σαν συστατικό μίας εφαρμογής με συγκεκριμένο πεδίο ορισμού και ενσωματώνεται με τέτοιο τρόπο, ώστε είναι δύσκολο να διαχωριστεί από την εφαρμογή. Αυτό που μέχρι στιγμής ισχύει, είναι ότι ως αυτόνομο σύστημα δεν έχει αποδείξει πειστικά ότι μπορεί να έχει σημαντική θετική επίδραση σε κάποια εφαρμογή ενώ αντιθέτως, η ενσωμάτωσή του ως αναπόσπαστο κομμάτι εφαρμογών έχει υπάρξει επιτυχής. Το πρόβλημα μπορεί να απαντηθεί σε πολλές εφαρμογές που αφορούν την Επεξεργασία Φυσικής Γλώσσας (NLP Natural Language Processing), ενώ εμφανίζεται παράλληλα και σε άλλους τομείς, όπως η Βιο-πληροφορική και ο Σημασιολογικός Ιστός. Οι πιο σημαντικές εφαρμογές που εμφανίζεται είναι οι εξής: Μηχανική Μετάφραση (Machine Translation): Η λεκτική αποσαφήνιση είναι απαραίτητη σε εφαρμογές της Μηχανικής Μετάφρασης, ώστε να βρεθεί η σωστή μετάφραση για λέξεις όπου έχουν πολλές διαφορετικές έννοιες και είναι αμφίσημες. Για παράδειγμα, σε ένα Αγγλο-Ελληνικό λεξικό, ο όρος lens (φακός), μπορεί να χρησιμοποιηθεί στον κλάδο της Φωτογραφίας ως εξάρτημα φωτογραφικής μηχανής, στον κλάδο της Φυσικής ως όργανο εστίασης και στον κλάδο της Ανατομίας ως ο φακός του ματιού. Ωστόσο, το θέμα της αμφισημίας-πολυσημίας μπορεί να εμφανιστεί ακόμα και σε κάποιο δεδομένο γνωστικό αντικείμενο. Για παράδειγμα σε ένα Αγγλο-Γαλλικό λεξικό μετάφρασης οικονομικών νέων, το ουσιαστικό change θα μπορούσε να μεταφραστεί είτε ως changement (μετασχηματισμός) είτε ως monnaie (ρέστα). Λεξικογραφία (Lexicography): Η σύγχρονη Λεξικογραφία βασίζεται σε ένα υπαρκτό σώμα κειμένων και έτσι μαζί με την λεκτική αποσαφήνιση μπορούν να εργάζονται αμφίδρομα, με τη λεκτική αποσαφήνιση να παρέχει στους λεξικογράφους εμπειρικές ομαδοποιήσεις εννοιών και στατιστικούς δείκτες εννοιών που βασίζονται στα συμφραζόμενα, ενώ από την αντίθετη πλευρά, η Λεξικογραφία μπορεί να παρέχει καλύτερους καταγραφείς εννοιών. Εξαγωγή Πληροφορίας (Information extraction) και Εξόρυξη Κειμένων (Text Mining): Η λεκτική αποσαφήνιση είναι απαραίτητη για την ακριβή ανάλυση κειμένων σε πολλές εφαρμογές. Για παράδειγμα, κάποια ιατρική εφαρμογή μπορεί να χρειάζεται να συγκεντρώσει πληροφορίες και αναφορές για φάρμακα, όπου στα Αγγλικά 41

42 χρησιμοποιείται η λέξη drugs. Ωστόσο, η λέξη drugs χρησιμοποιείται όχι μόνο για τα φάρμακα, αλλά και για τις παράνομες ουσίες. Δεύτερο παράδειγμα θα μπορούσε να εξαχθεί από τον τομέα της Βιο-πληροφορικής, όπου η έρευνα απαιτεί την καταλογοποίηση, μέσα από την επιστημονική βιβλιογραφία, των σχέσεων μεταξύ των γονιδίων και των γονιδιακών προϊόντων. Πολύ συχνά όμως τα γονίδια και οι πρωτεΐνες τους έχουν το ίδιο όνομα. Τρίτο και πιο γενικό παράδειγμα, αποτελεί ο Σημασιολογικός Ιστός όπου απαιτεί αυτόματο σχολιασμό κειμένων σύμφωνα με μία οντολογία αναφοράς. Όλες οι αναφορές κειμένου πρέπει να επιλυθούν στις σωστές έννοιες και δομές της οντολογίας [Dill et al, 2003 ]. Ανάκτηση Πληροφορίας (Information Retrieval): Ο τομέας της Ανάκτησης Πληροφορίας είναι αρκετά μεγάλος και αφορά μία πληθώρα εφαρμογών. Η σπουδαιότητά του είναι μεγάλη και στην παρούσα διπλωματική εργασία καθώς η αποσαφήνιση ερωτημάτων που τίθενται σε μία μηχανή αναζήτησης, είναι μία από τις εφαρμογές του τομέα αυτού. Η ασάφεια λοιπόν, πρέπει να επιλυθεί σε ορισμένα ερωτήματα. Για παράδειγμα, αν τεθεί ένα ερώτημα με τη λέξη apple (μήλο), θα έπρεπε το σύστημα να επιστρέψει κείμενα που αφορούν την εταιρία τεχνολογικών προϊόντων ή κείμενα σχετικά με το φρούτο μήλο; Αρκετά συστήματα Ανάκτησης Πληροφορίας δε χρησιμοποιούν τεχνικές αποσαφήνισης ερωτημάτων και επαφίενται στο χρήση να χρησιμοποιήσει αρκετό περιεχόμενο στο ερώτημά του ώστε να λάβει απαντήσεις σχετικές με τις πληροφοριακές του ανάγκες. Ωστόσο το ζητούμενο δεν είναι αυτό, καθώς το ιδανικό είναι ο χρήστης να λάβει την πληροφορία που χρειάζεται καταβάλλοντας τη λιγότερη δυνατή προσπάθεια. Για να επιτευχθεί όμως αυτό, σύμφωνα με έρευνες, χρειάζεται να σχεδιαστεί το σύστημα με τέτοιο τρόπο ώστε να επιτυγχάνεται 90% ακρίβεια στην αποσαφήνιση των όρων. 3.4 Βασικές προσεγγίσεις για την επίλυση του προβλήματος Οι προσεγγίσεις που έχουν προταθεί για την επίλυση της αμφισημίας των λέξεων συχνά κατηγοριοποιούνται με βάση την κύρια πηγή γνώσης που χρησιμοποιείται για την διαφοροποίηση των εννοιών. Με βάση αυτή την κατηγοριοποίηση λοιπόν υπάρχουν 3 επιμέρους κατηγορίες. Η πρώτη κατηγορία μεθόδων είναι αυτές που βασίζονται κυρίως σε κάποιο λεξικό, 42

43 θησαυρό ή σε κάποια βάση λεξικολογικής γνώσης, χωρίς τη χρήση κάποιου σώματος κειμένων. Αυτές οι μέθοδοι ονομάζονται dictionary-based ή knowledge-based. Η δεύτερη κατηγορία είναι οι μη εποπτευόμενες μέθοδοι (unsupervised methods), οι οποίες αποφεύγουν σχεδόν ολοκληρωτικά τη χρήση οποιασδήποτε εξωτερικής πληροφορίας και δουλεύουν απευθείας με ακατέργαστα, μη σχολιασμένα σώματα κειμένων. Τέλος, η τρίτη κατηγορία είναι οι εποπτευόμενες και οι μερικώς εποπτευόμενες μέθοδοι (supervised and semi-supervised methods) που χρησιμοποιούν σχολιασμένα σώματα κειμένων για να εκπαιδευτούν. Βέβαια, υπάρχουν και συνδυαστικοί μέθοδοι όπου συνδυάζουν χαρακτηριστικά των παραπάνω για να επιτύχουν τη σωστή αποσαφήνιση των όρων Μέθοδοι που βασίζονται σε πηγές γνώσης (Knowledge-based) Οι μέθοδοι αυτοί, όπως προαναφέρθηκε αποτελούν μία ολόκληρη κατηγορία στην προσπάθεια για λεκτική αποσαφήνιση. Αυτό που έχει ενδιαφέρον είναι ότι, ενώ η απόδοσή τους είναι χαμηλότερη συγκριτικά με μεθόδους που βασίζονται σε σώματα κειμένων, έχουν το πλεονέκτημα ότι παρέχουν μεγαλύτερη κάλυψη. Δηλαδή, μπορούν να εφαρμοστούν σε όλες τις λέξεις χωρίς να υπάρχει ο περιορισμός ύπαρξής τους σε συγκεκριμένο σώμα κειμένων. Κάποιες επιμέρους βασικές κατηγορίες αυτών των μεθόδων αναφέρονται παρακάτω Αλγόριθμος Lesk Ο αλγόριθμος Lesk αναπτύχθηκε το 1986 [Lesk, 1986] και είναι ένας από τους πρώτους αλγορίθμους που αναπτύχθηκαν για σημασιολογική αποσαφήνιση όλων των λέξεων σε οποιοδήποτε κείμενο. Η μόνη πηγή που απαιτείται από τον αλγόριθμο είναι ένα σύνολο από εισόδους λεξικού, μία για κάθε πιθανή έννοια όρου καθώς και γνώση για το άμεσο πλαίσιο που εκτελείται η αποσαφήνιση. Ο τρόπος λειτουργίας του είναι ότι oι πιο πιθανές έννοιες των λέξεων σε ένα δεδομένο πλαίσιο προσδιορίζονται βάσει μίας μετρικής επικάλυψης συμφραζομένων μεταξύ των ορισμών των διαφορετικών εννοιών για τις διφορούμενες λέξεις, όπως αυτές καταγράφονται σε κάποιο λεξικό. Αξίζει να σημειωθεί ότι αν και παραδοσιακά ο αλγόριθμος Lesk 43

44 θεωρείται ότι ανήκει στην κατηγορία των dictionary-based μεθόδων, η ιδέα πίσω από τον αλγόριθμο αποτέλεσε το έναυσμα για τις σημερινές μεθόδους που βασίζονται σε σώματα κειμένων. Ένα παραδείγμα λειτουργίας του αλγορίθμου είναι το παρακάτω: Έστω ότι πρέπει να αποσαφηνιστούν οι λέξεις τις αγγλικής γλώσσας pine και cone. Με βάση το λεξικό Oxford Advanced Learner s υπάρχουν τέσσερις έννοιες για τη λέξη pine και τρεις για τη λέξη cone. Οι έννοιες αυτές είναι οι εξής: pine 1. seven kinds of evergreen tree with needleshaped leaves 2. pine 3. waste away through sorrow or illness 4. pine for something, pine to do something Cone 1. solid body which narrows to a point 2. something of this shape, whether solid or hollow 3. fruit of certain evergreen trees (fir, pine) Πίνακας 3.1 Έννοιες λέξεων pine και cone με βάση το Oxford Advanced Learner s Η πρώτη έννοια του όρου pine και η τρίτη έννοια του όρου cone έχουν τη μεγαλύτερη επικάλυψη μεταξύ όλων των πιθανών συνδυασμών των εννοιών, καθώς έχουν τρεις κοινές λέξεις τις evergreen, tree και pine. Συνεπώς αυτές είναι και οι έννοιες που θα επιλεχθούν από τον αλγόριθμο για το ζεύγος όρων pine cone Μετρικές σημασιολογικής ομοιότητας που υπολογίζονται σε σημασιολογικά δίκτυα Μία από τις βασικές αρχές της ανθρώπινης γλώσσας και ένας από τους βασικούς περιορισμούς που χρησιμοποιούνται στη αυτόματη αποσαφήνιση των λέξεων είναι ότι οι λέξεις σε ένα λόγο ή σε ένα κείμενο πρέπει να συσχετίζονται σημασιολογικά μεταξύ τους ώστε να υπάρχει συνέπεια και συνεκτικότητα [Halliday & Hasan, 1976]. Έτσι, οι κατάλληλες έννοιες για τις λέξεις αυτές μπορούν να βρεθούν επιλέγοντας τις έννοιες εκείνες που βρίσκονται στη μικρότερη σημασιολογική απόσταση [Rada et al, 1989]. 44

45 Αυτή η κατηγορία περιλαμβάνει μεθόδους εύρεσης σημασιολογικής πυκνότητας / απόστασης μεταξύ των διαφόρων εννοιών. Ανάλογα με το μέγεθος του πλαισίου των συμφραζομένων που εφαρμόζονται, οι μετρικές χωρίζονται σε δύο κατηγορίες. Η πρώτη είναι αυτές που εφαρμόζονται σε τοπικό πλαίσιο όπου οι σημασιολογικές μετρικές χρησιμοποιούνται για να αποσαφηνίσουν λέξεις που συνδέονται με συντακτικές σχέσεις ή με σχέσεις τοπικότητας. Η δεύτερη κατηγορία είναι αυτές που εφαρμόζονται σε καθολικό πλαίσιο όπου οι λεκτικές αλυσίδες (νήματα εννοιών που σχεδιάζονται διά μέσου ενός ολόκληρου κειμένου) υπολογίζονται με βάση τα μέτρα σημασιολογικής ομοιότητας. Αυτή τη στιγμή υπάρχει μία πληθώρα μετρικών που αναπτύχθηκαν για να μετράνε το βαθμό σημασιολογικής ομοιότητας μεταξύ δύο όρων. Αρκετές εξ αυτών έχουν πολύ καλύ εφαρμογή αν χρησιμοποιηθούν με το WordNet. Μία μετρική είναι αυτή που προτάθηκε από τους [Wu & Palmer, 1994] και ανήκει στην κατηγορία των structure-based. Σε αυτή την κατηγορία, οι μετρικές χρησιμοποιούν μία συνάρτηση που υπολογίζει τη σημασιολογική ομοιότητα σε ιεραρχικές δομές, όπως είναι η ιεραρχική δόμηση του WordNet που στηρίζεται στη σχέση Υπερωνυμίας - Υπωνυμίας). Η συνάρτηση έχει ως παραμέτρους το μήκος του μονοπατιού που συνδέει τους όρους και τη θέση των όρων στην ιεραρχία. Με βάση αυτή τη λογική λοιπόν όσο πιο όμοιες είναι δύο έννοιες, τόσοι περισσότεροι σύνδεσμοι υπάρχουν μεταξύ αυτών. Η μετρική Wu-Palmer υπολογίζεται με τον ακόλουθο τρόπο. Έστω C1 και C2 είναι δύο έννοιες στην ιεραρχία. Η Wu-Palmer λαμβάνει υπόψιν της τη θέση των C1 και C2 σε συνάρτηση με τη θέση του ελάχιστου κοινού πρόγονου C των C1 και C2. Ο τύπος της μετρικής είναι: SimWP(C1, C2)= 2Ν Ν1+Ν2+2Ν όπου N1 και N2 είναι η απόσταση της έννοιας C1 και C2 αντίστοιχα από την έννοια C και Ν είναι η απόσταση που χωρίζει την έννοια C από τη ρίζα της ιεραρχίας. Έστω λοιπόν ένα παράδειγμα [Slimani, 2013] όπου απαιτείται να υπολογιστεί η ομοιότητα μεταξύ των όρων της αγγλικής γλώσσας fever και diarrehea. Η ιεραρχία στο WordNet φαίνεται 45

46 στο παρακάτω σχήμα. Εικόνα Μέρος της ιεραρχίας Υπερωνύμων του WordNet Αρχικά αναζητείται ο ελάχιστος κοινός πρόγονος των δύο όρων. Αυτός ο πρόγονος είναι ο όρος signs and symptoms. Στη συνέχεια ορίζεται ότι το μήκος του μονοπατιού από τον κόμβο fever στον κόμβο signs_and_symptoms είναι 2, ενώ το μήκος του μονοπατιού από τον κόμβο diarrehea στον κόμβο signs and symptoms είναι επίσης 2. Το βάθος του κόμβου signs and symptoms είναι 3. Ως εκ τούτου SimWP(fever, diarrehea)=

47 Αυτόματα ή ημι-αυτόματα απεκτηθέντες σημασιολογικές προτιμήσεις Χρησιμοποιούνται ως μέσο περιορισμού των πιθανών εννοιών μίας λέξης, οι οποίες βασίζονται στη σχέση που έχει η λέξη αυτή με άλλες λέξεις εντός του πλαισίου. Οι μέθοδοι της κατηγορίας αυτής, πραγματοποιούν καταγραφή πληροφορίας σχετικά με τις πιθανές σχέσεις μεταξύ των λεξικών κατηγοριών και αντιπροσωπεύουν γνώση κοινής λογικής σχετικά με τις κλάσεις των εννοιών. Για παράδειγμα οι eat-food και drink-liquid είναι παραδείγματα τέτοιων σημασιολογιών περιορισμών και μπορούν να χρησιμοποιηθούν ώστε να αποκλεισθουν λανθασμένες επιλογές εννοιών λέξεων και παράλληλα να επιλεχθούν μόνο αυτές οι λέξεις που είναι σε αρμονία με τη γνώση που έχει καταγραφεί. Έτσι, με βάση το προηγούμενο παράδειγμα, αν υπάρχει η πρόταση Mary drank burgundy, η έννοια του όρου burgundy που αντιπροσωπεύει χρώμα θα αποκλεισθεί καθώς το ρήμα drink απαιτεί την ύπαρξη ενός υγρού ως άμεσο αντικείμενο. Η κατηγορία αυτών των μεθόδων, όπως εξάλλου είναι φανερό, είναι διαισθητικές με αποτέλεσμα να είναι δύσκολο να εφαρμοστούν στην πράξη Ευρετικές μέθοδοι Αποτελούνται από απλούς κανόνες που μπορούν αξιόπιστα να αναθέσουν μία έννοια σε συγκεκριμένες κατηγορίες λέξεων. Αυτές οι μέθοδοι μπορεί να είναι: Απόδοση στη λέξη της πιο συχνής έννοιας. Ουσιαστικά δηλαδή, μεταξύ όλων των πιθανών εννοιών που μπορεί να έχει μία λέξη, είναι γεγονός ότι μία από αυτές εμφανίζεται συχνότερα από τις υπόλοιπες. Μία έννοια ανά θεματική ομιλία Οι συγκεκριμένες μέθοδοι βασίζονται στην παραδοχή ότι ένας όρος τείνει να διατηρεί μία συγκεκριμένη έννοια κάθε φορά που εμφανίζεται σε ένα δεδομένο κείμενο ή ομιλία. Μία έννοια ανά συνδυασμό λέξεων Στην κατηγορία αυτή, η ιδέα είναι παρόμοια με την προηγούμενη, δηλαδή μία έννοια ανά θεματική ομιλία, με τη διαφορά ότι υπάρχει διαφορετική σκοπιά. Ουσιαστικά, στις μεθόδους αυτές υποτίθεται ότι κοντινές λέξεις παρέχουν ισχυρά στοιχεία για την έννοια ενός συγκεκριμένου όρου. 47

48 3.4.2 Μη εποπτευόμενες μέθοδοι (unsupervised methods) Η μη εποπτευόμενη μάθηση είναι η μεγαλύτερη πρόκληση που έχουν να αντιμετωπίσουν οι ερευνητές που μελετούν τον τομέα της λεξικής αποσαφήνισης. Η βασική υπόθεση των μεθόδων αυτών είναι ότι παρόμοιες έννοιες εμφανίζονται σε σχετικά πλαίσια συμφραζομένων και συνεπώς, οι έννοιες των όρων μπορούν να υποτεθούν από το κείμενο, ομαδοποιώντας εμφανίσεις όρων χρησιμοποιώντας κάποια μετρική ομοιότητας. Στη συνέχεια, οι νέες εμφανίσεις ενός όρου μπορούν να ταξινομηθούν στην πιο κοντινή συστάδα (cluster). Η βασική υπόθεση των μεθόδων αυτών είναι ότι δεν επαφίενται σε κάποια εξωτερική πηγή γνώσης όπως για παράδειγμα ένα λεξικό και δεν αναθέτουν ετικέτες εννοιών σε όρους. Αντιθέτως, πραγματοποιούν διαχωρισμό μεταξύ των εννοιών των όρων που βασίζεται σε πληροφορία που βρίσκεται σε μη σχολιασμένα σώματα κειμένων. Οι μη εποπτευόμενες μέθοδοι είναι ιδιαίτερα σημαντικές καθώς εμφανίζουν ένα σημαντικό πλεονέκτημα έναντι των υπολοίπων. Οι εποπτευόμενες μέθοδοι απαιτούν την ύπαρξη ενός σώματος κειμένων που έχει σχολιαστεί και σημανθεί από ανθρώπους. Παράλληλα οι μέθοδοι που απαιτούν την ύπαρξη κάποιας πηγής γνώσης, όπως για παράδειγμα ένα λεξικό, απαιτούν επίσης η πηγή αυτή να έχει κατασκευαστεί χειροκίνητα, προφανώς από ανθρώπινο παράγοντα. Ως συνέπεια, οι δύο άλλες αυτές κατηγορίες θέτουν περιορισμούς στην απόκτηση γνώσης και δεν μπορούν να εφαρμοστούν σε αρκετές περιπτώσεις, όπως όταν υπάρχει πολύ μεγάλο σώμα κειμένων ή όταν επιχειρείται αποσαφήνιση σε μία νέα γλώσσα. Αντίθετα, στις μη εποπτευόμενες μεθόδους κάτι τέτοιο δεν απαιτείται και δεν τίθενται αντίστοιχοι περιορισμοί Εποπτευόμενες μέθοδοι (supervised methods) Στις εποπτευόμενες μεθόδους, προκειμένου να πραγματοποιηθεί η αποσαφήνιση απαιτείται η ύπαρξη ενός σώματος κειμένων, το οποίο είναι ήδη χαρακτηρισμένο, δηλαδή έχουν ήδη βρεθεί οι έννοιες των όρων που βρίσκονται στα κείμενα. Το σώμα αυτών των κειμένων χρησιμοποιείται για την εκπαίδευση ενός ταξινομητή, ο οποίος εκπαιδεύεται ώστε να χαρακτηρίζει τους όρους 48

49 ενός νέου κειμένου. Άρα ουσιαστικά αυτά που απαιτούνται από τις μεθόδους αυτές είναι τα εξής: Το σύνολο των εννοιών, όπως καταγράφονται σε κάποιο λεξικό ή σε κάποιο θησαυρό. Ένα σώμα κειμένων που χρησιμοποιείται για εκπαίδευση του ταξινομητή. Ένα σύνολο χαρακτηριστικών που εξάγονται από το σώμα κειμένων εκπαίδευσης. Ένας ταξινομητής. Αυτό που έχει μεγάλη βαρύτητα στις συγκεκριμένες μεθόδους είναι ο τρόπος που εξάγονται τα χαρακτηριστικά από το σώμα κειμένων εκπαίδευσης. Τα χαρακτηριστικά αυτά είναι προφανώς ένα σύνολο διανυσμάτων. Έστω για παράδειγμα ένα βιβλίο στο οποίο απαιτείται η αποσαφήνιση ενός όρου. Αν εξετασθεί ο όρος ξεχωριστά, τότε προφανώς είναι σχεδόν αδύνατο να αποσαφηνιστεί στη σωστή έννοιά του. Αν όμως το παράθυρο μεγαλώσει, αν δηλαδή ο όρος αυτός εξετασθεί σε συνδυασμό με τις λέξεις που την περιβάλουν, έστω N στον αριθμό, τότε είναι πιο εύκολο να αποσαφηνιστεί ο όρος [Weaver, 1949]. Το ερώτημα που τίθεται λοιπόν είναι πόσος είναι ο ιδανικός αριθμός λέξεων N που πρέπει να συμπεριληφθούν στους όρους προς εξέταση. Τα διανύσματα χαρακτηριστικών είναι αυτά που ουσιαστικά αντιπροσωπεύουν τις παρατηρήσεις που έχουν εξαχθεί και αναπαριστούν το παράθυρο των λέξεων γύρω από τον όρο προς εξέταση. Υπάρχουν δύο ειδών χαρακτηριστικά που χρησιμοποιούνται στα διανύσματα. Αυτά που βασίζονται στους συνδυασμούς των λέξεων που βρίσκονται σε συγκεκριμένες θέσεις σε σχέση με τον όρο προς εξέταση και αυτά που βασίζονται στο σύνολο των λέξεων που εμφανίζονται οπουδήποτε μέσα στο παράθυρο (ανεξάρτητα από τη θέση τους). Ο ταξινομητής είναι εκείνος λοιπόν που δέχεται ως είσοδο έναν όρο προς εξέταση, ένα σύνολο χαρακτηριστικών και ένα σταθερό σύνολο κλάσεων και έχει ως έξοδο μία κλάση στην οποία προβλέπει ότι αντιστοιχεί ο όρος που εξετάστηκε. 3.5 WordNet Το WordNet είναι ένα εργαλείο που χρησιμοποιείται κατά κόρον στην πρώτη κατηγορία μεθόδων για την επίλυση της αμφισημίας των λέξεων, στις μεθόδους δηλαδή που βασίζονται 49

50 σε κάποια πηγή γνώσης. Πρόκειται για μία μεγάλη λεξικολογική βάση για την αγγλική γλώσσα. Ομαδοποιεί τις αγγλικές λέξεις σε ομάδες συνωνύμων που καλούνται synsets και παρέχει σύντομους ορισμούς καθώς και παραδείγματα χρήσης τους. Παράλληλα καταγράφει διαφόρων ειδών σημασιολογικές συσχετίσεις που μπορούν να υπάρχουν μεταξύ των ομάδων συνωνύμων. Έτσι λοιπόν, από αυτή τη σκοπιά, το WordNet μπορεί να θεωρηθεί ένας συνδυασμός λεξικού και θησαυρού συνωνύμων. Παρόλο που το WordNet είναι προσβάσιμο σε όλους τους χρήστες του Διαδικτύου μέσα από σχετική ιστοσελίδα, ο βασικός σκοπός που δημιουργήθηκε είναι για εφαρμογές ανάλυσης κειμένου καθώς και εφαρμογές Τεχνητής Νοημοσύνης. Το WordNet δημιουργήθηκε από το εργαστήριο Γνωστικών Επιστημών του Πανεπιστημίου Princeton, υπό την εποπτεία του καθηγητή ψυχολογίας George Armitage Miller και στη συνέχεια από τον Christiane Fellbaum. Αξίζει να σημειωθεί ότι το πρόγραμμα πήρε χρηματοδότηση από κυβερνητικές υπηρεσίες, συμπεριλαμβανομένου του NSF (National Science Foundation), του DARPA και του REFLEX. Από τη μέρα δημιουργίας του μέχρι σήμερα, έχουν υπάρξει όλο και νεότερες εκδόσεις. Η πιο πρόσφατη είναι η έκδοση 3.1 η οποία εμφανίστηκε το Νοέμβριο του Η βάση περιέχει όρους, οργανωμένους σε synsets. Αυτό που είναι εξαιρετικά ενδιαφέρον είναι ότι το WordNet δε συνδέει απλά όρους αλλά συγκεκριμένες έννοιες όρων. Ως αποτέλεσμα, όροι που βρίσκονται σε στενή γειτνίαση στο δίκτυο, αποσαφηνίζονται σημασιολογικά. Το WordNet κατηγοριοποιεί τους όρους σε τέσσερις κατηγορίες ανάλογα με το μέρος του λόγου στο οποίο ανήκουν. Οι τέσσερις αυτές κατηγορίες είναι ουσιαστικά, ρήματα, επιρρήματα και επίθετα. Οι όροι που ανήκουν σε ίδια λεξικολογική κατηγορία και είναι αυστηρά συνώνυμοι κατηγοριοποιούνται σε synsets. Τα synsets μπορούν να περιλαμβάνουν είτε απλούς όρους όπως για παράδειγμα ο όρος παιδότοπος, είτε συμφράσεις όπως το ζεύγος όρων παιδική - χαρά. Οι διαφορετικές έννοιες ενός πολύσημου όρου ανατίθενται σε διαφορετικά synsets. Το νόημα κάθε synset διευκρινίζεται με ένα σύντομο κείμενο που καλείται gloss καθώς επίσης και πιθανά παραδείγματα χρήσης. Στην παρακάτω εικόνα δίνεται ένα παράδειγμα από την online έκδοση του WordNet. Στο παράδειγμα αυτό έχει αναζητηθεί η λέξη wordnet, η οποία προκύπτει ότι ανήκει σε δύο 50

51 διαφορετικά synsets. Και στις δύο περιπτώσεις τα synsets ανήκουν στην κατηγορία των ουσιαστικών, ενώ μέσα στην παρένθεση φαίνεται το gloss κείμενο που επεξηγεί κάθε synset. Εικόνα Παράδειγμα χρήσης της online έκδοσης του WordNet 3.1 Όπως έχει αναφερθεί και προηγουμένως, όλα τα synsets σχετίζονται μεταξύ τους με σημασιολογικές συσχετίσεις. Αυτές οι συσχετίσεις είναι οι παρακάτω, χωρισμένες ανάλογα με το μέρος του λόγου στο οποίο μπορούν να εμφανιστούν. Ουσιαστικά Σχέση Υπερωνυμίας: Ο όρος Υ είναι υπερώνυμο του Χ, εάν κάθε Χ είναι εξειδίκευση του Υ, δηλαδή το X είναι ένα είδος Y. (Παράδειγμα: To αυτοκίνητο είναι υπερώνυμο του ασθενοφόρο ) Σχέση Υπωνυμίας: Ο όρος Υ είναι υπώνυμο του Χ εάν κάθε Υ είναι γενίκευση του Χ. (Παράδειγμα: To ασθενοφόρο είναι υπώνυμο του αυτοκίνητο ) Σχέση Μερωνυμίας: Ο όρος Χ είναι μερώνυμο του Υ εάν όρος Χ είναι μέρος του Y (Παράδειγμα: Ο προφυλακτήρας είναι μέρος του αυτοκίνητο ) 51

52 Σχέση Ολωνυμίας: Ο όρος Υ είναι ολώνυμο του Χ εάν ο όρος Χ είναι συστατικό του όρου Υ. (Παράδειγμα: Ο όρους αυτοκίνητο είναι ολώνυμο του όρου προφυλακτήρας. ) Ρήματα Σχέση Υπερωνυμίας: Το ρήμα Υ είναι υπερώνυμο του ρήματος Χ εάν η ενέργεια που εκφράζει το ρήμα Χ είναι ειδίκευση του ρήματος Y (Παράδειγμα: Το ρήμα αντιλαμβάνομαι είναι υπερώνυμο του ρήματος ακούω ) Σχέση Συνεπαγωγής: Το ρήμα Υ συνεπάγεται του Χ εάν η εκτέλεση του Χ προκαλεί την εκτέλεση του Υ (Παράδειγμα: Το ρήμα κοιμάμαι συνεπάγεται το ρήμα ροχαλίζω ) Σχέση Τροπωνυμίας: Το ρήμα Y είναι τροπώνυμο του ρήματος X εάν η πράξη Y είναι τρόπος να πραγματοποιείται η πράξη X. (Παράδειγμα: Το ρήμα ψιθυρίζω είναι τροπώνυμο του ρήματος μιλάω ) Συνεργατικοί όροι: Ο όρος Υ είναι συνεργατικός όρος με το Χ εάν οι όροι Χ και Υ έχουν κοινό υπερώνυμο. (Παράδειγμα: Τα ρήματα ψιθυρίζω και φωνάζω ) Επίθετα Συσχετιζόμενα ουσιαστικά Μετοχή ρήματος Επιρρήματα Ρίζα επιρρημάτων Η βασική σχέση που επικρατεί στο WordNet είναι οι σχέσεις Υπερωνυμίας - Υπωνυμίας καθώς με βάση αυτές καθορίζεται και η ιεραχική δόμηση του WordNet η οποία εφαρμόζεται τόσο στα ουσιαστικά όσο και στα ρήματα. Στην παρακάτω εικόνα δίνεται ένα παράδειγμα. 52

53 Εικόνα 3.3: Παράδειγμα ιεραρχικής δόμησης του WordNet με βάση τις σχέσεις Υπερωνυμίας - Υπωνυμίας Το WordNet είναι οργανωμένο σε 25 δέντρα για τα ουσιαστικά και σε 15 για τα ρήματα. Όλα συνδέονται μεταξύ τους σε ένα μοναδικό synset έναρξης, το entity. Οι ιεραρχίες των ουσιαστικών είναι πολύ πιο μεγάλες από τις ιεραρχίες των ρημάτων, ενώ όπως ήδη αναφέρθηκε τα επίθετα δεν οργανώνονται σε δέντρα. 53

54 54

55 ΚΕΦΑΛΑΙΟ 4 Ο ΒΕΛΤΙΩΣΗ ΕΠΕΚΤΑΣΗ ΕΡΩΤΗΜΑΤΩΝ ΧΡΗΣΤΩΝ 4.1 Εισαγωγή Καθημερινά, οι χρήστες του Παγκόσμιου Ιστού θέτουν χιλιάδες ερωτήματα στις μηχανές αναζήτησης προκειμένου να αναζητήσουν κάποια πληροφορία. Τα ερωτήματα αυτά συνήθως διατυπώνονται από τους χρήστες σε φυσική γλώσσα και αρκετές φορές τα αποτελέσματα που επιστρέφονται δεν είναι τα αναμενόμενα, καθώς δεν είναι αυτά που καλύπτουν τις ανάγκες των χρηστών. Η αιτία βέβαια για αυτό δεν είναι πάντα η απόδοση του συστήματος. Πολλές φορές, αιτία είναι ο τρόπος που έχει διατυπωθεί το ίδιο το ερώτημα. Ο τρόπος διατύπωσης των ερωτημάτων είναι κρίσιμο κομμάτι στον τομέα της ανάκτησης πληροφορίας, καθώς επηρεάζει σημαντικά τα επιστρεφόμενα αποτελέσματα. Υπάρχει δηλαδή η περίπτωση, κάποιο κείμενο να περιέχει την ακριβή πληροφορία που αναζητά κάποιος χρήστης αλλά αυτό το κείμενο να μη μπορεί να ανακτηθεί καθώς δεν περιέχει καμία από τις λέξεις κλειδιά που χρησιμοποίησε ο χρήστης στο ερώτημά του. Αυτό οδηγεί σε πολύ χαμηλά επίπεδα τις μετρικές της ανάκλησης και της ακρίβειας, που σημαίνει ότι οι χρήστες λαμβάνουν ως απαντήσεις στα ερωτήματά τους ένα μεγάλο όγκο κειμένων που δεν είναι σχετικά με τις αναζητήσεις τους. Για να λυθεί το παραπάνω πρόβλημα, έχουν προταθεί λύσεις που βασίζονται σε τεχνικές επέκτασης-βελτίωσης των ερωτημάτων. Ουσιαστικά, πρόκειται για μία διαδικασία που επαναδιατυπώνεται το αρχικό ερώτημα του χρήστη με στόχο να αυξηθεί η απόδοση της ανάκτησης. Δηλαδή το ερώτημα αξιολογείται και στη συνέχεια επεκτείνεται διαφοροποιείται ώστε να ταιριάζει με περισσότερα σχετικά έγγραφα. Μερικές διαδικασίες που περιλαμβάνουν αυτές οι τεχνικές είναι οι εξής: Βρίσκουν συνώνυμα, υπώνυμα και υπερώνυμα των αρχικών όρων του ερωτήματος και 55

56 κάνουν εκ νέου αναζητήσεις με τις νέες αυτές λέξεις. Αναζητούν όλες τις διαφορετικές μορφολογίες των όρων, βρίσκοντας τη ρίζα τους. Διορθώνουν ορθογραφικά λάθη και αυτόματα κάνουν αναζήτηση με τη σωστή μορφή ή τουλάχιστον προτείνουν τη σωστή μορφή στο χρήστη. Δίνουν βάρη ή επανυπολογίζουν τα βάρη των όρων του αρχικού ερωτήματος. Πραγματοποιούν συνδυασμό κάποιων ή όλων από τα παραπάνω. Οι τεχνικές επέκτασης ερωτημάτων διαχωρίζονται σε 2 μεγάλες κατηγορίες, στις τεχνικές καθολικής ανάλυσης και στις τεχνικές τοπικής ανάλυσης. Προτού όμως γίνει επεξήγηση αυτών, κρίνεται σκόπιμο να αναφερθούν τα πλεονεκτήματα και τα μειονεκτήματα που προκύπτουν από τη χρήση των τέτοιων τεχνικών. 4.2 Πλεονεκτήματα και μειονεκτήματα της επέκτασης των ερωτημάτων Οι σύγχρονες μηχανές αναζήτησης χρησιμοποιούν τεχνικές επέκτασης ερωτημάτων με σκοπό να αυξήσουν την ποιότητα των αποτελεσμάτων που παρέχουν στους χρήστες, καθώς υποτίθεται ότι οι χρήστες δε σχηματίζουν πάντα τα ερωτήματά τους χρησιμοποιώντας τους κατάλληλους όρους. Βέβαια, ακόμα και αν το κάνουν, μπορεί τα κείμενα που ταιριάζουν ως απαντήσεις να μην περιέχουν τους όρους αυτούς. Έτσι λοιπόν, βρίσκοντας για παράδειγμα τη ρίζα ενός όρου που χρησιμοποίησε ο χρήστης, περισσότερα έγγραφα θα ταιριάζουν με το ερωτήματα του χρήστη, αυξάνοντας έτσι τη μετρική της ανάκλησης. Εξάλλου, ο σκοπός της επέκτασης των ερωτημάτων είναι με την αύξηση της ανάκλησης, να αυξηθεί και η ακρίβεια, συμπεριλαμβάνοντας στο σύνολο αποτελεσμάτων σελίδες που είναι πιο σχετικές ή τουλάχιστον που είναι εξίσου σχετικές. Δηλαδή, σελίδες που δε θα συμπεριλαμβάνονταν στο σύνολο αποτελεσμάτων ενώ έχουν την προοπτική να είναι πιο σχετικές στο ερώτημα ενός χρήστη, με την επέκταση των ερωτημάτων θα συμπεριλαμβάνονται. Παράλληλα, πολλές μηχανές αναζήτησης χρησιμοποιούν τη συχνότητα εμφάνισης των όρων σε ένα κείμενο (tf-idf), ώστε να βελτιώσουν την κατάταξη των αποτελεσμάτων. Με την κατάταξη 56

57 των εμφανίσεων των όρων που χρησιμοποίησε ο χρήστης καθώς και των συνωνύμων τους ή των διαφορετικών μορφών τους, έγγραφα με υψηλότερη πυκνότητα τείνουν να εμφανίζονται υψηλότερα στο σύνολο των αποτελεσμάτων, με αποτέλεσμα να υπάρχει καλύτερη ποιότητα στα αποτελέσματα. Ωστόσο, αν και οι τεχνικές επέκτασης ερωτημάτων έχουν δείξει ότι σε πολλές περιπτώσεις βελτιώνουν το σύνολο των αποτελεσμάτων, υπάρχουν περιπτώσεις όπου αυτό δεν ισχύει. Ένας λόγος για αυτό είναι ότι προσθέτοντας λέξεις σε κάποιο ερώτημα υπάρχει πάντα ο κίνδυνος να αλλαχθεί το αρχικό ερώτημα με αποτέλεσμα να διαφοροποιηθεί η ίδια η αναζήτηση του χρήστη. Παράλληλα, επεκτείνοντας ένα ερώτημα προσθέτοντας συνώνυμα των όρων του αρχικού ερωτήματος, υπάρχει ο κίνδυνος μείωσης της ακρίβειας των αποτελεσμάτων. Αυτό, είναι συνέπεια της ίδιας της φύσης της εξίσωσης του τρόπου που υπολογίζεται η ακρίβεια, καθώς αύξηση της ανάκλησης, έμμεσα οδηγεί σε μείωση της ακρίβειας. Εξάγεται επίσης το συμπέρασμα ότι μεγαλύτερη ανάκληση επιδρά αρνητικά στην ποιότητα των αποτελεσμάτων, καθώς οι χρήστες δε θέλουν να διαχειρίζονται περισσότερα αποτελέσματα, ανεξάρτητα αν αυτά τα αποτελέσματα παρέχουν μεγαλύτερη ακρίβεια. 4.3 Τεχνικές επέκτασης ερωτημάτων Όπως αναφέρθηκε και προηγουμένως, οι τεχνικές επέκτασης ερωτημάτων διαχωρίζονται σε 2 μεγάλες κατηγορίες, στις τεχνικές καθολικής ανάλυσης και στις τεχνικές τοπικής ανάλυσης. Σε πολύ γενικές γραμμές, οι τεχνικές καθολικής ανάλυσης εξετάζουν τις εμφανίσεις των λέξεων και τις σχέσεις μεταξύ τους σε ολόκληρο το σώμα κειμένων που είναι διαθέσιμο και χρησιμοποιούν αυτή την πληροφορία για να επεκτείνουν το ερώτημα. Από την άλλη μεριά, οι τεχνικές τοπικής ανάλυσης χρησιμοποιούν σαν βάση για την επέκταση μόνο τα κείμενα που βρίσκονται στην κορυφή της κατάταξης των αποτελεσμάτων που έχουν επιστραφεί από το αρχικό ερώτημα. 57

58 4.3.1 Τεχνικές Καθολικής Ανάλυσης Στις τεχνικές καθολικής ανάλυσης, η επέκταση ή η διαμόρφωση του ερωτήματος είναι ανεξάρτητη από το ίδιο το ερώτημα και από τα αποτελέσματα που επιστρέφονται από αυτό. Στις τεχνικές αυτές συμπεριλαμβάνονται οι παρακάτω: Επέκταση - βελτίωση ερωτήματος με χρήση έτοιμης θησαυρικής πληροφορίας Επέκταση - βελτίωση ερωτήματος μέσω αυτόματης παραγωγής θησαυρικής πληροφορίας Επέκταση - βελτίωση ερωτήματος με μεθόδους όπως η ορθογραφική διόρθωση Από τις τεχνικές που αναφέρθηκαν χρησιμοποιούνται περισσότερο αυτές που πραγματοποιούν επέκταση με χρήση θησαυρικής πληροφορίας. Κάθε όρος δηλαδή του ερωτήματος μπορεί αυτόματα να επεκταθεί με συνώνυμες και σχετικές λέξεις με αυτόν. Οι λέξεις αυτές εξάγονται από γλωσσολογικούς πόρους που είναι είτε θησαυροί συνωνύμων, είτε δίκτυα σημασιολογικών συσχετίσεων. Οι σχέσεις μεταξύ των λημμάτων που περιλαμβάνουν οι παραπάνω λεξικολογικοί πόροι είναι ως επί το πλείστον σημασιολογικές και συνεπώς υφίστανται μεταξύ των εννοιών των όρων και όχι μεταξύ των λέξεων. Η αναπαράσταση των δεικτοδοτημένων κειμένων με έννοιες και όχι λέξεις βελτιώνει αρκετά την απόδοση της ανάκτησης, και αυτό γιατί οι έννοιες που αντιπροσωπεύουν το νόημα του κειμένου, αποτελούν τη βάση για τη διερεύνηση της σημασιολογικής σχέσης ανάμεσα στα κείμενα του ευρετηρίου και στα ερωτήματα του χρήστη. Οι θησαυροί αποτελούν λεξικολογικούς πόρους σημασιολογικής πληροφορίας μιας φυσικής γλώσσας, η οποία εκφράζεται με σχέσεις συνωνυμίας μεταξύ των λημμάτων και κατά κανόνα, περιλαμβάνουν συνωνυμικές σχέσεις μεταξύ λημμάτων, ενώ σε ορισμένες περιπτώσεις είναι δυνατό να περιλαμβάνουν και συνώνυμες φράσεις, που απαντώνται πολύ συχνά σε κείμενα μιας φυσικής γλώσσας. Ο θησαυρός αποθηκεύει στην ουσία ομαδοποιήσεις λημμάτων με την ίδια ερμηνεία, με στόχο η αναζήτηση να μην πραγματοποιείται μόνο με βάση τους όρους που διατυπώθηκαν από το χρήστη αλλά και με άλλες λέξεις που έχουν την ίδια ερμηνεία με αυτούς. Στην περίπτωση πολύσημων όρων η σχέση συνωνυμίας μεταξύ λημμάτων υφίσταται μόνο για τις ερμηνείες εκείνες που είναι συνώνυμες μεταξύ τους. 58

59 Οι θησαυροί που μπορούν να χρησιμοποιηθούν διακρίνονται σε αυτούς που κατασκευάζονται χειροκίνητα και σε αυτούς που κατασκευάζονται αυτόματα. Στους χειροκίνητους θησαυρούς, όπως για παράδειγμα το WordNet που περιγράφηκε σε προηγούμενο κεφάλαιο, μία ομάδα ανθρώπων είναι υπεύθυνη τόσο για τη δημιουργία όσο και για τη συντήρηση του θησαυρού. Το πρόβλημα με αυτή την κατηγορία είναι ότι η δημιουργία τους είναι χρονοβόρα, δεν υπάρχουν θησαυροί για όλες τις γλώσσες και οι πληροφορίες που μπορούν να χρησιμοποιηθούν περιορίζονται στις σχέσεις που υποστηρίζει ο θησαυρός αυτός. Κατά την αυτόματη κατασκευή ενός θησαυρού, προϋπόθεση είναι η ύπαρξη μίας μεγάλης και αντιπροσωπευτικής συλλογής κειμένων. Η ιδέα που κρύβεται εδώ είναι η ανακάλυψη σημασιολογικών σχέσεων μεταξύ λέξεων αναλύοντας στατιστικά τη δεδομένη συλλογή κειμένων. Μία προσέγγιση για παράδειγμα είναι η απλή ανακάλυψη των συνεμφανίσεων των λέξεων. Στην προσέγγιση αυτή, θεωρείται ότι όταν κάποιες λέξεις εμφανίζονται μαζί σε κάποιο κείμενο ή σε μία παράγραφο, είναι πιθανόν να έχουν μεταξύ τους κάποια σημασιολογική συσχέτιση. Ως αποτέλεσμα, η απλή μέτρηση των στατιστικών αυτών μπορεί να οδηγήσει στην ανακάλυψη σχετικών λέξεων. Μία δεύτερη προσέγγιση προτείνει τη χρήση μίας απλής γραμματικής ανάλυσης του κειμένου ώστε να εξαχθούν γραμματικές συσχετίσεις ή εξαρτήσεις. Για παράδειγμα οντότητες που μεγαλώνουν, μαγειρεύονται, τρώγονται και χωνεύονται είναι πολύ πιθανόν να αναφέρονται σε φαγητά. Στο σημείο αυτό αξίζει να αναφερθεί ότι η προσέγγιση της συνεμφάνισης των λέξεων είναι πιο εύρωστη, καθώς δε μπορεί να ξεγελαστεί από λάθη του αναλυτή, ωστόσο η χρήση γραμματικών συσχετίσεων είναι πιο ακριβής Τεχνικές Τοπικής Ανάλυσης Σε αυτή την κατηγορία, ανήκουν οι τεχνικές όπου κάθε ερώτημα επεκτείνεται χρησιμοποιώντας πληροφορία που εξάγεται από τα κείμενα που επιστρέφονται σαν απαντήσεις, όταν αυτό τεθεί από το χρήστη στη μηχανή αναζήτησης. Οι όροι δηλαδή που χρησιμοποιούνται για επέκταση 59

60 εξάγονται από αυτά τα κείμενα και όχι από το σύνολο των κειμένων που είναι διαθέσιμο. Προχωρώντας σε μία επιπλέον κατηγοριοποίηση, οι τεχνικές τοπικής ανάλυσης διαιρούνται σε αυτές που ονομάζονται relevance feedback, οι οποίες βασίζονται στην κρίση που κάνει ο χρήστης ως προς τη συνάφεια των κειμένων που ανακτούνται, και στις μεθόδους που ονομάζονται local feedback που δε ζητούν την παρέμβαση του χρήστη, αλλά θεωρούν ότι τα κορυφαία στην κατάταξη κείμενα που έχουν επιστραφεί, είναι τα πιο σχετικά. Σε γενικές γραμμές ο λόγος που αναπτύχθηκε η δεύτερη υποκατηγορία τεχνικών, αν και μπορούν να πετύχουν εξαιρετική απόδοση, είναι το μεγάλο μειονέκτημα της πρώτης υποκατηγορίας, ότι δηλαδή οι χρήστες δεν είναι πάντοτε πρόθυμοι ή ικανοί να δώσουν ικανοποιητικές και σωστές κρίσεις όταν τους ζητηθεί. Από την άλλη πλευρά, το μειονέκτημα της δεύτερης υποκατηγορίας μεθόδων είναι ότι πολλές φορές τα κορυφαία στην κατάταξη κείμενα τυχαίνει να μην είναι σχετικά, με συνέπεια και οι όροι που θα χρησιμοποιηθούν για επέκταση να μην είναι σχετικοί. Αναλύοντας περισσότερο τις τεχνικές relevance feedback, η διαδικασία που ακολουθείται είναι η εξής: Ο χρήστης θέτει ένα αρχικό ερώτημα. Το σύστημα επιστρέφει ένα αρχικό σετ απαντήσεων για το ερώτημα αυτό. Ο χρήστης χαρακτηρίζει μερικά από τα κείμενα αυτά ως σχετικά ή μη σχετικά. Το σύστημα υπολογίζει μία καλύτερη αναπαράσταση ζητούμενης πληροφορίας που βασίζεται στην κρίση που πραγματοποίησε ο χρήστης. Το σύστημα επιστρέφει ένα αναθεωρημένο σύνολο απαντήσεων σε σχέση με το αρχικό. Υπάρχει η περίπτωση το σύστημα να πραγματοποιεί περισσότερες από μία επαναλήψεις της παραπάνω διαδικασίας. 60

61 Εικόνα 4.1 Σχηματική αναπαράσταση των μεθόδων Relevance Feedback Η βασική ιδέα που κρύβεται εδώ είναι ότι μπορεί να είναι δύσκολο για κάποιον χρήστη να διατυπώσει κάποιο ερώτημα σωστά καθώς δε γνωρίζει καλά τη συλλογή κειμένων που έχει στη διάθεσή του. Ωστόσο είναι ευκολότερο για αυτόν να κρίνει συγκεκριμένα κείμενα. Σε ένα τέτοιο σενάριο, οι τεχνικές αυτές προσφέρουν ένα ακόμα πλεονέκτημα καθώς μπορεί κάποιος χρήστης, όταν δει κάποια έγγραφα, να μπορέσει να βελτιώσει την κατανόησή του πάνω στην πληροφορία που ο ίδιος αναζητά. Συνεχίζοντας με τις μεθόδους local feedback, το ερώτημα διατυπώνεται αρχικά χρησιμοποιώντας συμβατικές τεχνικές ανάκτησης πληροφορίας και στη συνέχεια εξάγεται ένα σύνολο σχετιζόμενων όρων από τα πρώτα σχετικά αποτελέσματα που έχουν επιστραφεί από το αρχικό ερώτημα του χρήστη. Οι όροι επέκτασης επιλέγονται κατά κύριο λόγο με χρήση στατιστικών μεθόδων. Το επεκτεταμένο ερώτημα υποβάλλεται ξανά στη μηχανή αναζήτησης και επιστρέφεται στο χρήστη ένα νέο σύνολο αποτελεσμάτων. Η επαναδιατύπωση του ερωτήματος δεν λαμβάνει υπόψη μόνο κείμενα που περιέχουν τους όρους του αρχικού ερωτήματος, αλλά μπορεί επίσης να ανακτήσει κείμενα τα οποία ανήκουν στην ίδια θεματική κατηγορία με τα επιθυμητά αποτελέσματα που όμως για κάποιο λόγο, δεν περιέχουν κάποιο από τους όρους του αρχικού ερωτήματος. 61

62 Ολοκληρώνοντας το κεφάλαιο, αναφέρεται ότι υπάρχουν και υβριδικές τεχνικές που χρησιμοποιούν μεθόδους και από τις δύο κατηγορίες, δηλαδή και από τις τεχνικές τοπικής ανάλυσης αλλά και από τις τεχνικές καθολικής ανάλυσης. Για παράδειγμα έχουν προταθεί τεχνικές όπου αρχικά λαμβάνονται υπόψιν τα κείμενα που επιστρέφονται από το αρχικό ερώτημα του χρήστη, και το ερώτημα επεκτείνεται με όρους που συνεμφανίζονται με τους αρχικούς μόνο σε αυτά τα κείμενα και όχι στο σύνολο των κειμένων που είναι διαθέσιμο. 62

63 63

64 ΚΕΦΑΛΑΙΟ 5 Ο ΤΕΧΝΙΚΕΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΗΣ ΑΝΑΖΗΤΗΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ 5.1 Ορισμός Η αναζήτηση είναι μία από τις πιο συχνά πραγματοποιούμενες ενέργειες των χρηστών στον Παγκόσμιο Ιστό. Εξάλλου, οι μηχανές αναζήτησης είναι ένα από τα βασικά εργαλεία του Διαδικτύου τα οποία μπορούν και συλλέγουν πληροφορίες με βάση τα ερωτήματα που θέτουν οι χρήστες. Είναι γεγονός, ότι η ιδανική μηχανή αναζήτησης θα ήταν αυτή που θα μπορούσε να επισκέπτεται όλες τις σελίδες που υπάρχουν στον Παγκόσμιο Ιστό και θα κατέγραφε όλες αυτές που είναι σχετικές στο ερώτημα ενός χρήστη. Ωστόσο, παρά της συνεχείς βελτιώσεις που επιτυγχάνονται, υπάρχουν ακόμα πολλές καταστάσεις στις οποίες οι μηχανές αναζήτησης αποτυγχάνουν. Μία τέτοια περίπτωση είναι και αυτή όπου η μηχανή αναζήτησης δε μπορεί να αναγνωρίσει την πρόθεση του χρήστη όταν θέτει ένα ερώτημα. Στην πραγματικότητα, τα περισσότερα ερωτήματα είναι σύντομα και ασαφή, ενώ παράλληλα διαφορετικοί χρήστες μπορεί να έχουν εντελώς διαφορετικές πληροφοριακές ανάγκες και στόχους, ακόμα και αν έχουν θέσει ακριβώς το ίδιο ερώτημα. Για παράδειγμα, έστω ότι υπάρχει το ερώτημα που αποτελείται από μία μόνο λέξη κλειδί, τη λέξη ποντίκι. Ένα βιολόγος με το συγκεκριμένο ερώτημα πιθανότατα θα έψαχνε πληροφορίες για το ποντίκι ως τρωκτικό, ενώ ένας προγραμματιστής θα έψαχνε πληροφορίες για το ποντίκι ως περιφερειακή συσκευή των υπολογιστών. Για να λυθούν προβλήματα σαν τα παραπάνω, έχει προταθεί η λύση της εξατομικευμένης αναζήτησης, όπου επιστρέφονται διαφορετικά αποτελέσματα σε κάθε χρήστη, ανάλογα με τις προσωπικές του ανάγκες. Ουσιαστικά λοιπόν, η εξατομικευμένη αναζήτηση είναι η διαδικασία 64

65 ενσωμάτωσης πληροφορίας σχετικής με το χρήστη κατά την επεξεργασία του ερωτήματος, ώστε τα αποτελέσματα να είναι καλύτερα ως προς την πρόθεση του ερωτήματος αυτού. Στοχεύει στο να μάθει τα ενδιαφέροντα του χρήστη που κρύβονται πίσω από τα ερωτήματά του και να χρησιμοποιήσει τη γνώση αυτή για την ανάκτηση αποτελεσμάτων σχετικών με τα ενδιαφέροντα αυτά. 5.2 Προκλήσεις στον τομέα της εξατομικευμένης αναζήτησης Οι τεχνικές εξατομικευμένης αναζήτησης έχουν απασχολήσει πολύ τους ερευνητές και έχουν προταθεί πολλές διαφορετικές στρατηγικές προς αυτή την κατεύθυνση. Ωστόσο, πρέπει να δοθεί προσοχή στο γεγονός ότι αυτές οι τεχνικές απέχουν ακόμα από να δώσουν οριστική λύση στο πρόβλημα που προαναφέρθηκε. Ένα βασικό θέμα που τίθεται είναι ότι δεν μπορούν όλες οι τεχνικές που προτείνονται να βρουν εφαρμοφή σε όλους τους χρήστες και σε όλα τα ερωτήματα. Στην πραγματικότητα είναι θεμιτό να μη γίνεται ο ίδιος χειρισμός για όλων των ειδών τα ερωτήματα. Οι προκλήσεις λοιπόν που πρέπει να αντιμετωπιστούν στις προτεινόμενες τεχνικές εξατομικευμένης αναζήτησης είναι οι εξής: Η προσωποποίηση δεν είναι ανάγκη να εφαρμόζεται σε όλα τα ερωτήματα, καθώς σε μερικά μπορεί να φέρει το επιθυμητό αποτέλεσμα ενώ σε μερικά άλλα μπορει να μην είναι ιδιαίτερα αποτελσματική. Για παράδειγμα, για ένα ερωτημα όπως αυτό που προαναφέρθηκε με τη λέξη ποντίκι, θα μπορούσε η προσωποίηση που βασίζεται σε προφίλ χρηστών να επιτύχει μεγάλη συνάφεια αποτελεσμάτων για τους εκάστοτε χρήστες σε σύγκριση με μία κοινή αναζήτηση για όλους τους χρήστες. Οπότε σε μία τέτοια περίπτωση, η προσωποποίηση θα ήταν επιτυχημένη. Αντίθετα, για ένα ερώτημα όπως αυτό που αποτελείται από τη λέξη κλειδί Google, όπου σχεδόν όλοι οι χρήστες θα ήθελαν απλά να ανακατευθυνθούν στην κεντρική σελίδα αναζητήσεων της Google, οι τεχνικές προσωποποίησης δε θα προσέφεραν κανένα επιπλέον όφελος. Οι τεχνικές προσωποποίησης μπορεί να προσφέρουν διαφορετική αποτελεσματικότητα ανάλογα με το διαφορετικό ιστορικό αναζήτησης κάθε χρήστη και τα διαφορετικό πλαίσιο 65

66 συμφραζομένων. Για παράδειγμα, σε συστήματα που βασίζονται στο ιστορικό πλοήγησης των χρηστών, είναι σχετικά δύσκολο να εξαχθούν τα ενδιαφέροντα των χρηστών που έχουν κάνει μόνο μερικές λίγες αναζητήσεις. Επιπλέον, πολλοί χρήστες συχνά ψάχνουν για έγγραφα που ικανοποιούν βραχυπρόθεσμες πληροφοριακές τους ανάγκες, οι οποίες δεν είναι συνεπείς με τα γενικά τους ενδιαφέροντα. Σε αυτές τις περιπτώσεις, τα μακροπρόθεσμα προφίλ χρηστών μπορεί να μην είναι χρήσιμα, ενώ τα συμφραζόμενα των βραχυπρόθεσμων ερωτημάτων μπορεί να είναι πιο χρήσιμα. Διαφορετικές στρατηγικές μπορεί να έχουν διαφορετικά αποτελέσματα στα ξεχωριστά ερωτήματα. Επιπλέον, απλά εφαρμόζοντας μία στρατηγική προσωποποίησης σε κάποια ερωτήματα μπορεί να βλάψει την εμπειρία των χρηστών. Για παράδειγμα, όταν ένας χρήστης που παρακολουθεί αθλητικά θέσει το ερώτημα office, μπορεί να μην ψάχνει πληροφορίες για σπορ αλλά για το λογισμικό των Microsoft Office. Σε αυτή την περίπτωση, αν η προσωποποίηση γίνεται με βάση τα ενδιαφέροντα των χρηστών, θα επιστραφούν πολλά μη σχετικά αποτελέσματα τα οποία θα μπουν στην κορυφή της κατάταξης και ο χρήστης δε θα πάρει την πληροφορία που τον ενδιαφέρει. Συμπερασματικά λοιπόν, η αποτελεσματικότητα μίας στρατηγικής εξατομικευμένης αναζήτησης μπορεί να προσφέρει σημαντική βελτίωση στα επιστρεφόμενα αποτελέσματα, σε σχέση με περιπτώσεις που δε θα χρησιμοποιούνταν, για κάποιους χρήστες και για κάποιο συγκεκριμένο πλαίσιο αναφοράς, αλλά μπορεί σε άλλες περιπτώσεις να μη χρειάζεται καν ή ακόμα και να αποβεί επιβλαβής. 5.3 Τεχνικές Εξατομικευμένης Αναζήτησης Υπάρχουν αρκετές προσπάθειες που έχουν γίνει στο παρελθόν και πολλές τεχνικές που έχουν προταθεί προς την κατεύθυνση της εξατομικευμένης αναζήτησης. Οι βασικές προσεγγίσεις είναι οι εξής: Οι ίδιοι οι χρήστες ερωτώνται ώστε να διευκρινήσουν τα γενικά ενδιαφέροντά τους. Αυτά τα ενδιαφέροντα χρησιμοποιούνται στη συνέχεια ώστε να φιλτράρουν τα επιστρεφόμενα αποτελέσματα από την αναζήτηση, ελέγχοντας της ομοιότητα μεταξύ των 66

67 επιστρεφόμενων αποτελεσμάτων και των ενδιαφερόντων των χρηστών. Το μεγάλο μειονέκτημα αυτών των τεχνικών, όπως έχουν αποδείξει σχετικές έρευνες, είναι ότι οι χρήστες είναι απρόθυμοι να παρέχουν άμεση ανατροφοδότηση, δηλαδή να δώσουν οι ίδιοι στοιχεία που αφορούν τα προσωπικά τους ενδιαφέροντα και τη γνώμη τους όσον αφορά τα επιστρεφόμενα αποτελέσματα. Μελέτες που πραγματοποιήθηκαν αργότερα, προσπάθησαν να εξάγουν και να μάθουν τα ενδιαφέροντα των χρηστών χωρίς προσπάθεια από την πλευρά των χρηστών. Ουσιαστικά δηλαδή χτίζονται προφίλ χρηστών σε μορφή κατηγοριών ενδιαφέροντος ή σε διανύσματα / λίστες όρων. Σκοπός της διαδικασίας δημιουργίας προφίλ είναι η ανάπτυξη μιας βάσης δεδομένων που περιέχει τις προτιμήσεις, τα χαρακτηριστικά και τις δραστηριότητες των χρηστών. Ένα προφίλ χρήστη μπορεί να είναι είτε στατικό, όταν οι πληροφορίες που περιέχει αλλάζουν σπάνια ή ποτέ (π.χ. δημογραφικά στοιχεία), είτε δυναμικό, όταν τα δεδομένα του προφίλ αλλάζουν συχνά. Τρίτη κατηγορία τεχνικών είναι αυτές που βασίζονται στη δομή υπερσυνδέσμων του Διαδικτύου, όπου ουσιαστικά ερευνώνται παραλλαγές του αλγορίθμου PageRank. Τέλος, υπάρχουν στρατηγικές που ενσωματώνουν τις προτιμήσεις ενός γκρουπ χρηστών ώστε να επιτύχουν την προσωποποίηση της αναζήτησης. Σε αυτή την κατηγορία, το ιστορικό πλοήγησης χρηστών που έχουν παρόμοια ενδιαφέροντα με το χρήστη που πραγματοποιεί την αναζήτηση χρησιμοποιείται, για να εκκαθαρίσει και να αναπροσαρμόσει τα αποτελέσματα. Παρακάτω αναφέρονται κάποιες πιο συγκεκριμένες τεχνικές που έχουν μελετήσει οι ερευνητές και βασίζονται στις παραπάνω βασικές προσεγγίσεις. Στην εργασία [Lipei et al, 2007] οι ερευνητές πρότειναν επέκταση των ερωτημάτων που βασίζεται σε μοντέλο εξατομικευμένης αναζήτησης. Πιο συγκεκριμένα, ένα κομμάτι λογισμικού τοποθετήκε στο τερματικό κάθε χρήστη, το οποίο λειτούργησε ως γέφυρα μεταξύ του χρήστη και της μηχανής αναζήτησης. Αυτό το σύστημα μελετά τις προτιμήσεις του χρήστη έμμεσα και παράγει το προφίλ του αυτόματα. Όταν ο χρήστης θέτει το ερώτημά του, παράγονται λέξεις κλειδιά με βάση αυτό το προφίλ και αυτές οι λέξεις σε συνδυασμό με τις αρχικές προωθούνται στη μηχανή αναζήτησης. Οι λέξεις που χρησιμμοποιήθηκαν για επέκταση έιναι και αυτές που διευκολύνουν την μηχανή ανάκτησης πληροφορίας ώστε να προτείνει πιο εξατομικευμένα 67

68 αποτελέσματα. Στην προσέγγιση των [Palleti et al, 2007] αναπτύχθηκε σύστημα εξατομικευμένης αναζήτησης χρησιμοποιώντας πιθανοτική επέκταση ερωτημάτων. Ουσιαστικά το σύστημα παράγει προφίλ χρηστών με τη χρήση της τεχνικής συνεργατικού φιλτραρίσματος (collaborative filtering). Στην τεχνική αυτή, οι χρήστες καλούνται να βαθμολογήσουν αντικείμενα και να δηλώσουν τα ενδιαφέροντα και τις προτιμήσεις τους και στη συνέχεια επιστρέφεται σε αυτούς πληροφορία η οποία προβλέπεται ότι θα τους ενδιαφέρει. Τα προφίλ χρηστών που παράγονται αποτελούνται από πιθανοτικές συσχετίσεις μεταξύ των όρων του ερωτήματος και των όρων των κειμένων. Οι [Meng et al, 2004] πρότειναν μία καινοφανή τεχνική που μαθαίνει τα προφίλ των χρηστών μέσα από το ιστορικό αναζήτησής τους. Το προφίλ του χρήστη καθώς και ένα κοινό προφίλ μελετούνται από το ιστορικό αναζήτησης του χρήστη και από μία ιεραρχία κατηγορίων αντίστοιχα. Αυτά τα δύο προφίλ ενοποιούνται, ώστε να αντιστοιχήσουν ένα ερώτημα χρήστη σε ένα γκρουπ κατηγοριών που ανταποκρίνονται στην πρόθεση που έχει ο χρήστης κατά την αναζήτηση και παρέχουν ένα πλαίσιο για αποσαφήνιση των λέξεων που υπάρχουν στο ερώτημα του χρήστη. Έτσι η αναζήτηση πραγματοποιείται σύμφωνα με το ερώτημα του χρήστη και το γκρουπ των κατηγοριών. Οι [Chirita et al, 2005] χρησιμοποίησαν τις εγγραφές που υπάρχουν στο Open Directory Project (ODP). Ο ODP είναι ένα κατάλογος που δημιουργήθηκε χειροκίνητα και καταγράφεικατηγοριοποιεί τις ιστοσελίδες του Παγκόσμιου Ιστού. Οι συγγραφείς πραγματοποιούν εξατομίκευση των αποτελεσμάτων εισάγοντας ένα επιπλέον κριτήριο στην κατάταξη των επιστρεφόμενων αποτελεσμάτων. Το κριτήριο αυτό είναι η απόσταση μεταξύ του προφίλ ενός χρήστη, που καθορίζεται με βάση τα θέματα του ODP, και τα θέματα του ODP που καλύπτονται από τις επιστρεφόμενες ιστοσελίδες της συμβατικής αναζήτησης. 68

69 Εικόνα 5.1 Απεικόνιση της αρχικής σελίδας του dmoz.org (Open Project Directory) Στη μελέτη των [Bhadoria et al, 2011], οι συγγραφείς δημιουργούν ένα δυναμικό μοντέλο για το χρήστη και βασίζονται στα ενδιαφέροντα του, τα οποία εξάγονται συνδυαστικά από το βραχυπρόθεσμο και το μακροπρόθεσμο ιστορικό πλοήγησης του. Αυτό το μοντέλο χρησιμοποιείται στην συνέχεια για να διαμορφώσει την αλληλεπίδραση του χρήστη με τα δεδομένα. Η λίστα των αποτελεσμάτων αναπροσαρμόζεται λοιπόν με βάση τα ενδιαφέροντα του χρήστη. Το προφίλ ενδιαφερόντων του χρήστη εξάγεται από τις σελίδες που έχει επισκεφτεί συχνότερα, το χρονικό διάστημα που ξόδεψε σε αυτές και από τα κείμενα που βρίσκονται στην επιφάνεια εργασίας του. Παράλληλα και το ιστορικό λήψεων του χρησιμοποιείται ως επιπλέον πηγή πληροφοριών. Οι [Chirita et al, 2007] προτείνουν ως τεχνική προσωποποίησης την βελτίωση των ερωτημάτων κάθε χρήστη επεκτείνοντάς τα με όρους μου βρίσκονται στην Προσωπική του Αποθήκη Πληροφοριών (Personal Information Repository - PIR). Η αποθήκη αυτή αποτελείται από ένα σύνολο κειμένων του χρήστη που περιλαμβάνει έγγραφα, s, ιστοσελίδες στην cache, σελιδοδείκτες, κα. Χρησιμοποιούν και ερευνούν την απόδοση πέντε διαφορετικών τεχνικών, οι οποίες βοηθούν στην παραγωγή των λέξεων προς επέκταση. Οι τεχνικές αυτές ουσιαστικά αναλύουν τα δεδομένα των χρηστών χρησιμοποιώντας ολοένα και περισσότερη πληροφορία. Στις τρεις πρώτες, το ερώτημα τίθεται στην προσωπική συλλογή του χρήστη και στη συνέχεια προσαρτώνται σε αυτό λέξεις κλειδιά από τα επιστρεφόμενα κείμενα, ενώ στις δύο επόμενες το 69

70 ερώτημα επεκτείνεται από λέξεις κλειδιά ολόκληρης της αποθήκης του χρήστη. Τέλος, αξίζει να αναφερθεί η πρόταση των [Matthijs & Radlinski, 2011] οι οποίοι χτίζουν το προφίλ του χρήστη αναλύοντας την πλήρη συμπεριφορά πλοήγησης του και στη συνέχεια αυτό το μοντέλο χρησιμοποιείται για να ανακατατάξει τα επιστρεφόμενα από ένα ερώτημα αποτελέσματα. Η διαφορά σε σχέση με προηγούμενες εργασίες είναι ο τρόπος που χτίζεται το προφίλ του χρήστη καθώς αναλύεται η δομή των ιστοσελίδων, χρησιμοποιώντας εξαγωγή όρων και σήμανση του μέρους του λόγου κάθε όρου και στη συνέχει εξάγονται ουσιαστικά για να εκκαθαρίσουν το προφίλ των χρηστών. 70

71 71

72 ΚΕΦΑΛΑΙΟ 6 Ο ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΥΛΟΠΟΙΗΣΗ ΜΕΘΟΔΟΛΟΓΙΑΣ 6.1 Εισαγωγή Οι σύγχρονες μηχανές αναζήτησης έχουν να αντιμετωπίσουν πολλές και διαφορετικές προκλήσεις ώστε να είναι αποτελεσματικές και να μπορούν να ικανοποιήσουν τους χρήστες τους, παρέχοντάς τους αποτελέσματα στα ερωτήματα που οι ίδιοι θέτουν. Ένα από τα μεγαλύτερα προβλήματα είναι η αποσαφήνιση των ερωτημάτων. Τις περισσότερες φορές οι χρήστες θέτουν ερωτήματα τα οποία είναι μικρά σε μέγεθος, δηλαδή αποτελούνται από το πολύ 2-3 λέξεις, και ασαφή, δηλαδή οι όροι που χρησιμοποιούνται είναι δύσκολο να αντιστοιχηθούν στη σωστή τους έννοια, καθώς κάθε όρος μπορεί να έχει πολλές διαφορετικές έννοιες. Παράλληλα, μία ακόμα μεγάλη πρόκληση των μηχανών αναζήτησης είναι η εξατομικευμένη αναζήτηση, η επιστροφή δηλαδή στο χρήστη αποτελεσμάτων στα ερωτήματά τους, με βάση τα ατομικά τους ενδιαφέροντα και τη δική τους πληροφοριακή ανάγκη. Αντικείμενο λοιπόν της παρούσας διπλωματικής εργασίας είναι η προσπάθεια για αποσαφήνιση των ερωτημάτων των χρηστών χρησιμοποιώντας τεχνικές εξατομικευμένης αναζήτησης. Ουσιαστικά δηλαδή, στόχος είναι να επιλυθεί το πρόβλημα της αμφισημίας των όρων που απαρτίζουν ένα ερώτημα, όχι όμως με μία καθολική σκοπιά, αλλά με τέτοιο τρόπο ώστε να αντιστοιχίζεται η σωστή έννοια κάθε όρου, με βάση τα ενδιαφέροντα του κάθε χρήστη ξεχωριστά. Στο κεφάλαιο αυτό θα γίνει περιγραφή της μεθοδολογίας που αναπτύχθηκε. Ωστόσο περιληπτικά, η γενική ιδέα στηρίζεται στην εργασία των [Makris et al, 2012] οι οποίοι πραγματοποιούν αποσαφήνιση των όρων με βάση τη μετρική PageRank, η οποία και χρησιμοποιείται ως κύρια ένδειξη της σημασίας που έχει κάθε έννοια για κάποιον συγκεκριμένο όρο ενός ερωτήματος. Οι έννοιες αυτές εξάγονται από το WordNet και σε κάθε έννοια ανατίθεται ένα βάρος, το οποίο προκύπτει από μεθοδολογία που στηρίζεται στην τιμή PageRank που 72

73 υπολογίζεται για κάθε έννοια ξεχωριστά. Παράλληλα, για να επιτευχθεί η εξατομίκευση στην παραπάνω διαδικασία, χρησιμοποιούνται ως δεδομένα κείμενα που βρίσκονται στην Προσωπική Αποθήκη Πληροφοριών κάθε χρήστη και πιο συγκεκριμένα χρησιμοποιείται το ιστορικό πλοήγησης του. Είναι αναμενόμενο ότι οι σελίδες που έχει επισκεφτεί κάποιος χρήστης κατά το παρελθόν είναι μία πολύ σημαντική πηγή πληροφοριών για να εξαχθούν τα ενδιαφέροντα του χρήστη. Έτσι, οι ιστοσελίδες αυτές γίνονται το βασικό εργαλείο για να επιτευχθεί η προσωποποίηση, με βασική χρήση τους την εξαγωγή όρων για την επέκταση του ερωτήματος που αρχικά έχει θέσει ο χρήστης. Στο κεφάλαιο λοιπόν που ακολουθεί περιγράφεται η μεθοδολογία που ακολουθείται, αναλύεται η τεχνική που χρησιμοποιήθηκε για την πειραματική διαδικασία και τέλος παρουσιάζονται τα πειραματικά αποτελέσματα. 6.2 Περιγραφή προτεινόμενης μεθοδολογίας Η μεθοδολογία που ακολουθήθηκε κατά την πειραματική διαδικασία στηρίζεται στη χρήση τεσσάρων διαφορετικών τεχνικών με σκοπό να αποκαλυφθεί κατά πόσο κάποια από αυτές συνεισφέρει στην επίλυση του προβλήματος και ποια από όλες υπερέχει έναντι των άλλων. Ωστόσο, ο βασικός κορμός των τεσσάρων αυτών τεχνικών είναι ο ίδιος, καθώς στηρίζονται στη χρήση του WordNet, ως βασική πηγή για την εξαγωγή των εννοιών κάθε όρου αλλά και στη μετρική PageRank, ως δείκτης για τη σημασία κάθε όρου. Αρχικά λοιπόν, όπως ακριβώς συμβαίνει και στην εργασία των [Makris et al, 2012], για κάθε όρο που βρίσκεται στο WordNet, ακολουθούνται τα παρακάτω βήματα: 1. Εξάγονται όλες οι διαφορετικές έννοιες κάθε όρου. 2. Για κάθε έννοια, δημιουργείται ένα ερώτημα προς τη μηχανή αναζήτησης. Το ερώτημα αυτό αποτελείται από τον αρχικό όρο, καθώς και από τα ουσιαστικά που βρίσκονται στο gloss κείμενο της έννοιας αυτής. 3. Κάθε ερώτημα που έχει δημιουργηθεί, τίθεται στη μηχανή αναζήτησης και διατηρούνται 73

74 τα κορυφαία στην κατάταξη αποτελέσματα. Ο μέσος όρος της μετρικής PageRank των σελίδων αυτών, χρησιμοποιείται ως βάρος για τη συγκεκριμένη έννοια. 4. Έτσι λοιπόν συμπερασματικά, για κάθε έννοια ενός όρου, υπολογίζεται ένα βάρος. Αν κάποια έννοια παίρνει βάρος από περισσότερους από έναν όρους, τότε αποδίδεται σε αυτή η μέση τιμή των αντίστοιχων βαρών. Εικόνα Διάγραμμα ροής γενικού αλγορίθμου αρχικού βήματος μεθοδολογίας 74

75 Στη συνέχεια εκτελείται ένας γραφικός αλγόριθμος αποσαφήνισης που βασίζεται στην αρχική ανάθεση βάρους των εννοιών. Το γράφημα του αλγορίθμου αποτελείται από το σύνολο των εννοιών του WordNet, με αμφίδρομες συνδέσεις μεταξύ των εννοιών που σχετίζονται μέσω των εσωτερικών συνδέσεων των synsets στο WordNet. Επιπλέον, οι όροι συνδέονται στις έννοιες τους (synsets) με απευθείας κατευθυνόμενες ακμές. Όσον αφορά την τεχνική διάδοσης βαρών, ακολουθείται η προσέγγιση που περιγράφεται στο [Ramage et al, 2009] που μοιάζει με τον εξατομικευμένο υπολογισμό κατάταξης που παρουσιάζεται στο [Agirre & Soroa, 2009] και έχει αποδειχθεί ότι είναι αρκετά αποτελεσματικός στην πράξη. Στην ουσία, κάνουμε ένα τυχαίο περίπατο στο γράφημα που δημιουργείται χρησιμοποιώντας, ως αρχικά βάρη, τα αρχικά βάρη που υπολογίζονται στην προηγούμενη φάση του αλγορίθμου. Ως εκ τούτου, εάν w(0) είναι το μιας διάστασης διάνυσμα με την αρχική κατανομή βαρών, Α είναι η στήλη του κανονικοποιημένου πίνακα καταστάσεων μετάβασης, (που λαμβάνεται από τη μήτρα γειτονικότητας του σχηματιζόμενου γραφήματος) και b είναι μια παράμετρος που εκφράζει την πιθανότητα να επιστρέφει στην αρχική κατάσταση, τότε η κατανομή βάρους στο χρόνο t θα είναι ίση με w(t) = bw(0) +(1 b)aw(t 1). Αυτές οι διαδόσεις βαρών εκτελούνται μέχρι να συγκλίνει ο αλγόριθμος (δηλαδή μέχρι διαδοχικές τιμές του κάθε κόμβου να διαφέρουν κατά λιγότερο από μία μικρή τιμή), ή μέχρι να πραγματοποιηθεί ένας επαρκής αριθμός επαναλήψεων. Με βάση τους παραπάνω υπολογισμούς ολοκληρώνεται ο υπολογισμός των τελικών βαρών, τα οποία αντιπροσωπεύουν το πόσο σημαντική είναι κάθε έννοια ενός όρου. Με αυτό τον τρόπο, βασιζόμαστε στις έννοιες με τα μεγαλύτερα βάρη ως επικρατούσες έννοιες των όρων μέσα σε ένα ερώτημα. Ο λόγος που χρησιμοποιείται η μετρική PageRank είναι ότι θα μπορούσε να υπάρχει μεγάλη συσχέτιση μεταξύ της σημασίας που έχει μία ένα ενός όρου σε ένα ερώτημα και της σημασίας που έχει η ίδια έννοια όταν περιέχεται σε μία ιστοσελίδα. Η τιμή PageRank είναι ενδεικτική της σημασίας που έχει μία ιστοσελίδα στον Παγκόσμια Ιστό. Στη συνέχεια η προτεινόμενη, στην παρούσα διπλωματική εργασία, μεθοδολογία διασπάται σε 2 κατηγορίες. Στην πρώτη κατηγορία, που ουσιαστικά ανήκει η πρώτη τεχνική, και προκειμένου να επιτευχθεί η εξατομικευμένη αναζήτηση, η βασική ιδέα είναι ότι μπορεί το βάρος κάθε έννοιας να διαφοροποιηθεί για κάθε χρήστη, και να μην είναι για όλους το ίδιο. Για το σκοπό αυτό, χρησιμοποιούνται οι ιστοσελίδες που έχει επισκεφθεί ο χρήστης κατά το παρελθόν και 75

76 βρίσκονται στο ιστορικό πλοήγησής τους. Τα βήματα λοιπόν είναι τα εξής: 1. Οι ιστοσελίδες που βρίσκονται στο ιστορικό πλοήγησης των χρηστών αποθηκεύονται και στη συνέχεια δεικτοδοτούνται με κατάλληλο πρόγραμμα στον υπολογιστή του χρήστη. Το σημείο αυτό είναι εξαιρετικά σημαντικό καθώς με τον τρόπο αυτό δεν παραβιάζεται η ιδιωτικότητα του χρήστη, καθώς η επεξεργασία των κειμένων που έχει επισκεφθεί πραγματοποιείται στον προσωπικό του υπολογιστή. 2. Η διαδικασία που περιγράφηκε στο αρχικό βήμα πραγματοποιείται και εδώ, μόνο που αντί το ερώτημα να τίθεται στον Παγκόσμιο Ιστό, τίθεται στο υποσύνολο κειμένων του χρήστη. Διατηρούνται τα κορυφαία στην κατάταξη αποτελέσματα, τα οποία είναι σαφέστατα λιγότερα στον αριθμό σε σχέση με αυτά που διατηρούνται στο προηγούμενο βήμα εξαιτίας του όγκου των κειμένων, και εξάγεται και από αυτά ο μέσος όρος της μετρικής PageRank των ιστοσελίδων. 3. Τελικά, υπολογίζεται ένα ενιαίο βάρος για κάθε έννοια κάθε όρου το οποίο είναι συνδυασμός των 2 βαρών, του βάρους δηλαδή που υπολογίστηκε στο αρχικό βήμα και του βάρους που υπολογίζεται από το σώμα κειμένων του χρήστη. Το βάρος αυτά είναι γραμμικός συνδυασμός των δύο άλλων και υπολογίζεται ως w=a*w1 +-b*w2 όπου w1 είναι το βάρος από το πρώτο βήμα και w2 είναι το βάρος από τα κείμενα του χρήστη. Αξίζει να σημειωθεί ότι b>a γιατί διαισθητικά είναι λογικό να έχουν μεγαλύτερη βαρύτητα οι ιστοσελίδες που έχει επισκεφθεί ο ίδιος ο χρήστης κατά το παρελθόν. 4. Αφού υπολογιστεί το νέο ενιαίο βάρος για κάθε έννοια εφαρμόζεται ο γραφικός αλγόριθμος αποσαφήνισης που περιγράφηκε προηγουμένως (εννοείται ότι δεν εφαρμόζεται ο αλγόριθμός στα αρχικά βάρη αλλά μόνο στο νέο ενιαίο βάρος που προκύπτει.) 76

77 Εικόνα Διάγραμμα ροής γενικού αλγορίθμου 1 ης τεχνικής 77

78 Στη δεύτερη κατηγορία τεχνικών χρησιμοποιείται απλά το αρχικό βάρος που έχει προκύψει με τη μετρική PageRank που εξάγεται από τον Παγκόσμιο Ιστό και όχι από το σώμα κειμένων του χρήστη. Η προσωποποίηση όμως επιτυγχάνεται στο επόμενο βήμα, δηλαδή όταν ο χρήστης πραγματοποιήσει το ερώτημά του. Ο μηχανισμός που μόλις αναφέρθηκε είναι ουσιαστικά η επεξεργασία που πραγματοποιείται εκ των προτέρων και υπολογίζεται για κάθε χρήστη ένα βάρος για κάθε όρο που βρίσκεται στο WordNet. Όταν λοιπόν έρθει η ώρα της πραγματοποίησης του ερωτήματος από την πλευρά του χρήστη η μέθοδος έχει ως εξής: Ερωτήματα ενός όρου Στην πρώτη τεχνική, αναζητούνται όλες οι διαφορετικές έννοιες του όρου του ερωτήματος. Για κάθε έννοια εξάγονται τα ουσιαστικά από το gloss κείμενο και προστίθενται στο ερώτημα του χρήστη. Το ερώτημα ξανατίθεται, τροποποιημένο πια, στη μηχανή αναζήτησης. Είναι σημαντικό να γίνει αντιληπτό ότι το ερώτημα επεκτείνεται τόσες φορές, όσες είναι και οι διαφορετικές έννοιες του αρχικού όρου. Στη δεύτερη κατηγορία, όπου ανήκουν τρεις επόμενες τεχνικές, το ερώτημα, αφού επεκταθεί με όρους και πάλι από το gloss κείμενο των επιμέρους εννοιών, τίθεται στο σώμα κειμένων του χρήστη όπου επιστρέφονται κάποια αποτελέσματα. Διατηρούνται τα κορυφαία στην κατάταξη κείμενα και οι λέξεις κλειδιά που εξάγονται από αυτά χρησιμοποιούνται ως όροι για επέκταση του αρχικού ερωτήματος. Αφού λοιπόν οι όροι αυτοί προστεθούν στο αρχικό ερώτημα, πραγματοποιείται αναζήτηση στη μηχανή αναζήτησης. Και πάλι στο σημείο αυτό το αρχικό ερώτημα επεκτείνεται τόσες φορές, όσες είναι και οι διαφορετικές έννοιες του αρχικού όρου. Το καινοτόμο στην όλη διαδικασία είναι ότι, σε αντίθεση με άλλες τεχνικές που έχουν προταθεί, όπου πραγματοποιείται μία φορά επέκταση του αρχικού όρου με λέξεις κλειδιά από το ιστορικό πλοήγησης του χρήστη, στη μεθοδολογία που προτείνεται στην παρούσα διπλωματική εργασία επεκτείνεται κάθε επιμέρους έννοια του αρχικού όρου. Αυτό βοηθάει σε δύο σημεία. Αρχικά στο ότι λαμβάνονται υπ όψιν αποτελέσματα από κάθε πιθανή έννοια και στο τέλος πραγματοποιείται η εκκαθάριση. Δεύτερον ότι λαμβάνεται υπόψιν όλο το ιστορικό του χρήστη, 78

79 βραχυπρόθεσμο και μακροπόθεσμο, γεγονός πολύ σημαντικό καθώς τα ενδιαφέρονται του χρήστη μπορούν να αλλάξουν ανά τακτά χρονικά διαστήματα. Εικόνα Διάγραμμα ροής γενικού αλγορίθμου 2 ης κατηγορίας τεχνικών 79

80 Στη συνέχεια και για τις τέσσερις τεχνικές γίνονται τα εξής: 1. Για κάθε έννοια, έστω x, επιστρέφεται μία διαφορετική λίστα αποτελεσμάτων, και σε κάθε μία αποδίδεται το βάρος της αντίστοιχης έννοιας. 2. Οι λίστες αυτές συνενώνονται και τελικά παράγεται μία ενοποιημένη λίστα αποτελεσμάτων που παρουσιάζεται στο χρήστη. Προκειμένου να επιτευχθεί η συγχώνευση χρησιμοποιείται η μέθοδος μέτρησης του Borda [Dwork et al., 2001; Farah & Vanderpooten, 2007]. Σύμφωνα με αυτή, για κάθε λίστα που περιέχει k κείμενα κάθε κείμενο παίρνει ένα βαθμό, ξεκινώντας από το κορυφαίο στην κατάταξη που παίρνει βαθμό t, το δεύτερο που παίρνει βαθμό t-1, και συνεχίζει μέχρι το τέλος για όλα τα κείμενα. Στην τελική ενοποιημένη λίστα αποτελεσμάτων σε κάθε αποτέλεσμα αποδίδεται ένα βάρος που είναι ο γραμμικός συνδυασμός των βαρών του σε κάθε λίστα αποτελεσμάτων, σταθμισμένο με το βάρος της έννοιας της αντίστοιχης λίστας αποτελεσμάτων. Τα βάρη ταξινομούνται και παράγεται η τελική λίστα αποτελεσμάτων. Οι λέξεις κλειδιά που χρησιμοποιούνται ως επέκταση στις τρεις τεχνικές της δεύτερης κατηγορίας εξάγονται με τρεις διαφορετικούς τρόπους. Αυτό που συμβαίνει είναι ότι κάθε όρος κάθε κειμένου παίρνει ένα βάρος και οι όροι με το μεγαλύτερο βάρος προσαρτώνται ως επέκταση στο ερώτημα. Ο τρόπος που υπολογίζεται το βάρος για κάθε όρο είναι και αυτός που διαφοροποιεί τις τεχνικές. Και οι τρεις αυτοί τρόποι βασίζονται στα κείμενα που βρίσκονται στο ιστορικό πλοήγησης του χρήστη. Από αυτά τα κείμενα λοιπόν, εξάγονται όλοι οι όροι και πραγματοποιείται η διαδικασία της απομάκρυνσης των τερματικών όρων (stop words). Οι όροι αυτοί βρίσκονται κάνοντας χρήση μίας χειροκίνητα δημιουργημένης λίστας και είναι εκείνοι οι όροι που εμφανίζονται πολύ συχνά σε όλα σχεδόν τα κείμενα και δεν έχουν κανένα σημασιολογικό περιεχόμενο, όπως για παράδειγμα σύνδεσμοι, προθέσεις κ.α. Οι όροι αυτοί είναι συνήθως δεδομένοι για κάθε φυσική γλώσσα και δεν περιέχουν σημασιολογική πληροφορία. Για το λόγο αυτό κρίνονται ακατάλληλοι να χρησιμοποιηθούν ως όροι κλειδιά για επέκταση του ερωτήματος. Στη συνέχεια πραγματοποιείται η διαδικασία της αποκατάληξης (stemming), της τεχνικής αποκοπής δηλαδή των μορφολογικών καταλήξεων των όρων που βρίσκονται μέσα στα κείμενα. Η απλούστερη μέθοδος αποκατάληξης είναι γνωστή ως απλή αφαίρεση κατάληξης (suffixstripping) [Lovins, 1968] [Porter, 1980]. Η απλή αφαίρεση της κατάληξης των όρων 80

81 δεικτοδότησης πραγματοποιείται με τη βοήθεια μιας λίστας συχνών καταλήξεων μιας φυσικής γλώσσας. Όταν κάποια από τις καταλήξεις αυτές εντοπίζεται στους όρους του κειμένου, η κατάληξη αφαιρείται. Στη δεύτερη λοιπόν τεχνική οι όροι κάθε κειμένου, αφού έχει γίνει προηγουμένως η διαδικασία που αναφέρθηκε, παίρνουν βάρος με βάση τη συχνότητα εμφάνισής τους. Στην πιο απλή προσέγγιση, και σε αυτή που θα χρησιμοποιηθεί, το βάρος κάθε όρου ισούται με τον αριθμό των εμφανίσεών του στο συγκεκριμένο κείμενο. Το σχήμα αυτό απόδοσης βάρους ονομάζεται συχνότητα όρου (Term Frequency) και δηλώνεται ως tft,d όπου οι δείκτες αναφέρονται στον όρο και στο κείμενο αντίστοιχα. Για ένα κείμενο, το σύνολο των βαρών που αποδίδονται με βάση τα βάρη tf, μπορούν να θεωρηθούν ως ποσοτική σύνοψη. Με βάση αυτό, η ακριβής σειρά των όρων σε ένα έγγραφο αγνοείται αλλά ο αριθμός των εμφανίσεων είναι κρίσιμης σημασίας. Έτσι, ένα κείμενο όπως το Mary is quicker than John, με αυτή την σκοπιά, είναι ακριβώς ίδιο με το John is quicker than Mary. Ο ενδοιασμός που υπεισέρχεται εδώ, είναι αν πραγματικά όλες οι λέξεις σε ένα κείμενο είναι ίσης σημασίας. Στην τρίτη τεχνική οι όροι παίρνουν βάρος με βάση τη μετρική TF-IDF, αφού πραγματοποιήθηκε κανονικοποίηση με Ευκλείδια νόρμα. Η μετρική αυτή στηρίζεται σε 2 επιμέρους μετρικές, την TF και την IDF και ορίζεται ως tf-idft,d = tft,d x idft. Ο λόγος που επινοήθηκε η μετρική αυτή είναι για να μειώσει το βάρος tf ενός όρου με βάση έναν παράγοντα που μεγαλώνει με τη συχνότητα εμφάνισής του στη συλλογή κειμένων που μελετάται. Ουσιαστικά, η ιδέα είναι ότι όροι οι οποίοι εμφανίζονται πολύ συχνά σε ένα κείμενο και έχουν επίσης μεγάλη συχνότητα εμφάνισης στη συλλογή που μελετάται, δε μπορούν να θεωρηθούν αντιπροσωπευτικοί για το κείμενο αυτό. Δίνονται λοιπόν οι παρακάτω ορισμοί. Συχνότητα κειμένου (DF Term Frequency) ενός όρου t: dft = Αριθμός κειμένων στη συλλογή που περιέχει τον όρο t. Αντίστροφη συχνότητα εγγράφου (IDF - Inverse Document Frequency) ενός όρου t: idft = log(n/dft) και χρησιμοποιείται για να κλιμακώσει το βάρος ενός όρου με βάση τη συχνότητα που εμφανίζεται στη συλλογή των κειμένων. Έτσι, η τιμή idf ενός σπάνιου όρου είναι υψηλή, ενώ για έναν συχνά εμφανιζόμενο όρο είναι χαμηλή. Συνοπτικά λοιπόν, η tf-idft,d αποδίδει ένα βάρος σε έναν όρο t για κάποιο κείμενο d που είναι: 1. Υψηλότερο όταν ο t εμφανίζεται πολλές φορές σε ένα μικρό αριθμό κειμένων. 81

82 2. Χαμηλότερο όταν ο όρος εμφανίζεται περισσότερες φορές σε ένα κείμενο, ή εμφανίζεται σε πολλά κείμενα. 3. Χαμηλότερο όταν ο όρος υπάρχει πρακτικά σε όλα τα κείμενα. Τέλος, στην τέταρτη τεχνική, χρησιμοποιείται μία εκ των προσεγγίσεων των [Chirita et al, 2007], η Term Score. Σύμφωνα με αυτή, αποδίδεται ένα βάρος σε κάθε όρο του κειμένου με βάση τον τύπο: TSt,d = [1/2 +(nrwords-pos/2nrwords)]*log (1+TFt,d) όπου nrwords είναι ο συνολικός αριθμός όρων στο κείμενο και pos είναι η θέση που εμφανίζεται πρώτη φορά ο όρος. Το TFt,d, όπως και πριν, αναπαριστά τη συχνότητα εμφάνισης του όρου t στο κείμενο. Η λογική πίσω από τη συγκεκριμένη τεχνική είναι ότι όσο πιο ψηλά εμφανίζεται ένας όρος σε ένα κείμενο, το πιθανότερο είναι ότι ο όρος αυτός είναι και πιο σημαντικός. Ερωτήματα πολλαπλών όρων Για τα ερωτήματα πολλαπλών όρων, αυτό που διαφοροποιείται είναι ο τρόπος που υπολογίζεται το βάρος κάθε συνδυασμού εννοιών. Η έννοια του συνδυασμού υπεισέρχεται εδώ καθώς για κάθε όρο του ερωτήματος εξάγονται οι αντίστοιχες έννοιες, και το ερώτημα επεκτείνεται τόσες φορές, όσοι είναι οι διαφορετικοί συνδυασμοί μεταξύ των εννοιών. Κάθε συνδυασμός παίρνει ως βάρος το γινόμενο των αντίστοιχων βαρών κάθε έννοιας. Ο τρόπος επίσης που επεκτείνεται το αρχικό ερώτημα για να τεθεί στη μηχανή αναζήτησης, είναι ένα σημείο που υπάρχει επίσης διαφοροποίηση. Αυτό που γίνεται είναι ότι από το μεγάλο πλήθος συνδυασμών εννοιών, διατηρούνται μόνο εκείνοι όπου οι έννοιες τους έχουν μεγαλύτερη σημασιολογική σχέση συγκριτικά με τις υπόλοιπες έννοιες των υπόλοιπων όρων με βάση το WordNet. Υπολογίζεται λοιπόν η Wu Palmer μετρική ομοιότητας μεταξύ των διαφορετικών εννοιών των όρων και διατηρούνται εκείνες που εμφανίζουν τη μέγιστη μέση ομοιότητα με τις έννοιες των άλλων όρων του ερωτήματος. Η Wu Palmer μετρική ορίζεται ως εξής: 82

83 similarity(ci,sj) = 2depth(LCA(ci,sj)) depth(ci) +depth(cj) όπου ci και cj είναι οι δύο έννοιες που ελέγχονται για ομοιότητα, το depth() είναι το βάθος στου αντίστοιχου κόμβου στο γράφημα του WordNet και LCA() είναι ο ελάχιστος κοινός πρόγονος των δύο κόμβων. Το ερώτημα όταν τίθεται στη μηχανή αναζήτησης επεκτείνεται στην πρώτη τεχνική πάλι με λέξεις από το gloss κείμενων των εννοιών ενώ στις υπόλοιπες τρεις τεχνικές επεκτείνεται με όρους από τα κείμενα του χρήστη όπως ακριβώς περιγράφεται και στα ερωτήματα του ενός όρου. 6.3 Περιγραφή πειραματικής διαδικασίας Προκειμένου να αξιολογηθεί η παραπάνω μεθοδολογία και να εξαχθούν συμπεράσματα για το κατά πόσο αποδίδει και ποιά από τις 4 τεχνικές αποδίδει καλύτερα, πραγματοποιήθηκε μία σειρά πειραμάτων. Στο κεφάλαιο αυτό αναλύεται πως πραγματοποιήθηκαν τα πειράματα αυτά και ποια διαδικασία ακολουθήθηκε. Αρχικά λοιπόν για να εκτελεστούν οι φάσεις του αλγορίθμου όπου συγκεντρώνονται τα αρχικά βάρη και στη συνέχεια εφαρμόζεται η γραφική αποσαφήνιση, πρέπει για κάθε χρήστη ξεχωριστά να υλοποιηθεί ένας γράφος με όλες τις έννοιες του WordNet. Ουσιαστικά, αυτός ο υπολογισμός γίνεται πριν ο χρήστης πραγματοποιήσει το ερώτημά του και όχι σε πραγματικό χρόνο καθώς αυτό θα καθυστερούσε πολύ την επιστροφή των αποτελεσμάτων στο ερώτημά του. Επίσης, ανά τακτά χρονικά διαστήματα και ιδιαίτερα για τη δεύτερη κατηγορία τεχνικών, θα πρέπει να γίνεται επανυπολογισμός των βαρών, καθώς η συλλογή κειμένων του χρήστη αλλάζει συνεχώς και συνεπώς θα πρέπει και τα βάρη να αναπροσαρμόζονται. Ωστόσο για τις ανάγκες των πειραμάτων ο γράφος που σχηματίστηκε, έγινε με βάση τους όρους των ερωτημάτων κάθε χρήστη και των εννοιών τους, και όχι όλων των όρων που υπάρχουν στο WordNet. 83

84 Στη συνέχεια έπρεπε να δεικτοδοτηθούν τα κείμενα από το ιστορικό πλοήγησης κάθε χρήστη και να μπορούν να πραγματοποιηθούν ερωτήματα στα κείμενα αυτά. Για το σκοπό αυτό χρησιμοποιήθηκε η μηχανή αναζήτησης Indri, η οποία είναι μέρος το Lemur Project, και πρόκειται για μια συνεργατική προσπάθεια μεταξύ του Πανεπιστημίου της Μασσαχουσέτης και του Πανεπιστήμιο Carnegie Mellon για να δημιουργήσουν εργαλεία γλωσσικά μοντελοποίησης στον τομέα της ανάκτησης πληροφορίας. Ο λόγος που χρησιμοποιήθηκε η Indri είναι εξαιτίας των δυνατοτήτων που προφέρει: Υποστηρίζει δημοφιλείς τελεστές δομημένων ερωτημάτων. Υποστηρίζει κείμενα κωδικοποιημένα σε UTF-8 Πραγματοποιεί tokenization, διαδικασία δηλαδή εύρεσης των επιμέρους όρων ενός κειμένου, σε όλα τα κείμενα που είναι κωδικοποιημένα με UTF-8, ανεξαρτήτου γλώσσας του κειμένου. Αναλύει κείμενα που είναι σε μορφή HTML, XML και PDF. Μπορεί να χρησιμοποιηθεί για συλλογές κειμένων κλίμακας Terabyte. Δουλεύει στα λειτουργικά συστήματα Windows, Linux, Solaris και Mac OS X Το API που παρέχει χρησιμοποιείται με μία πληθώρα γλωσσών προγραμματισμού όπως JAVA, PHP, C++ και C#. Έτσι λοιπόν, τα παραπάνω χαρακτηριστικά, κάνουν την Indri ιδανική επιλογή. Όσον αφορά τα κείμενα που χρησιμοποιούνται για την απόδοση βαρών, για να αποδοθεί το αρχικό βάρος κάθε έννοιας χρησιμοποιήθηκε η μηχανή αναζήτησης Google, λόγω του μεγέθους της δημοτικότητάς της και λόγω του μεγάλου όγκου των κειμένων που υπάρχουν στη συλλογή της. Για κάθε έννοια, με βάση την εργασία των [Makris et al, 212], προκειμένου να υπολογιστεί η μέση τιμή PageRank χρησιμοποιήθηκαν τα πρώτα 40 αποτελέσματα που επεστράφησαν από την Google. Αντιθέτως, για την απόδοση του δεύτερου βάρους από τη συλλογή κειμένων του χρήστη δε μπορούσαν να χρησιμοποιηθούν τόσα πολλά κείμενα, εξαιτίας της διαφοράς στον όγκο των κειμένων κάθε συλλογής. Για το σκοπό αυτό, επιλέχθηκαν να χρησιμοποιηθούν 5 στον αριθμό κείμενα. Συνεχίζοντας με τις επιμέρους λεπτομέρειες των πειραμάτων, το βάρος που αποδόθηκε σε κάθε έννοια στην πρώτη τεχνική είναι γραμμικός συνδυασμός των δύο άλλων και υπολογίζεται ως w=a*w1 +-b*w2 όπου w1 είναι το βάρος από το πρώτο βήμα και w2 είναι το βάρος από τα 84

85 κείμενα του χρήστη. Επειδή, όπως έχει ήδη ειπωθεί, w2>w1 επιλέχθηκε a=0.3 και b= 0.7, δηλαδή w=0.3*w *w2. Ένα άλλο σημείο το οποίο χρήζει ιδιαίτερης προσοχής είναι ο αριθμός των όρων που χρησιμοποιούνται για επέκταση του αρχικού ερωτήματος στη δεύτερη κατηγορία τεχνικών. Υπάρχουν δύο προσεγγίσεις που μπορούν να ακολουθηθούν. Η μία προτείνει να χρησιμοποιείται για κάθε ερώτημα ένας σταθερός αριθμός όρων που προστίθενται στο αρχικό ερώτημα. Ωστόσο, ένας βέλτιστος αλγόριθμος για επέκταση ερωτημάτων θα έπρεπε να προσαρμόζεται αυτόματα στο αρχικό ερώτημα, στις επιμέρους παραμέτρους του ερωτήματος καθώς και στο χρήστη που το έχει πραγματοποιήσει. Υπάρχουν λοιπόν διάφορες ενδείξεις που θα μπορούσαν να βοηθήσουν έναν αλγόριθμο να αποφασίσει τον ιδανικό αριθμό των όρων για επέκταση. Οι [Chirita et al, 2007] πραγματοποίησαν κάποια σχετικά πειράματα με βάση μετρικές όπως το μήκος του αρχικού ερωτήματος, την έκταση του ερωτήματος σε σχέση με τη μετρική IDF και τη σαφήνεια του ερωτήματος. Στην παρούσα διπλωματική εργασία και καθώς ο σκοπός είναι η μελέτη συγκεκριμένων τεχνικών εξατομικευμένης αναζήτησης, εφαρμόστηκε η πρώτη προσέγγιση όπου ουσιαστικά χρησιμοποιείται σταθερός αριθμός όρων για επέκταση. Ο αριθμός αυτός ορίστηκε στο πέντε και συγκεκριμένα για κάθε αρχικό ερώτημα που τίθεται στα κείμενα του χρήστη, διατηρούνται τα πέντε κορυφαία στην κατάταξη αποτελέσματα και για κάθε ένα από αυτά, εξάγεται η κορυφαία λέξη κλειδί με βάση την επιμέρους τεχνική που χρησιμοποιείται κάθε φορά. Για να αξιολογηθεί η προτεινόμενη μεθοδολογία, εφαρμόστηκε παρόμοια διαδικασία όπως αυτή που ακολουθείται στην εργασία [Teevan et. Al, 2005]. Ζητήθηκε λοιπόν σε 5 συμμετέχοντες να πάρουν μέρος στην πειραματική διαδικασία. Οι συμμετέχοντες ήταν από διαφορετικά γνωστικά πεδία και είχαν διαφορετικά ενδιαφέροντα, ωστόσο όλοι είχαν καλές γνώσεις υπολογιστή και ήταν εξοικειωμένοι με τη διαδικασία αναζήτησης. Σε κάθε έναν από αυτούς ζητήθηκε να πραγματοποιήσουν αναζητήσεις στον Παγκόσμιο Ιστό για ένα χρονικό διάστημα 2 εβδομάδων πάνω σε θέματα που άπτονται του ενδιαφέροντός τους. Στη συνέχεια, το ιστορικό πλοηγήσεων κάθε χρήστη, χρησιμοποιήθηκε για την πειραματική διαδικασία. Συνολικά, κάθε χρήστης συγκέντρωσε περίπου 80 έως 100 κείμενα. 85

86 Στη συνέχεια, ζητήθηκε από κάθε χρήστη να επιλέξει 6 ερωτήματα που ακολουθούσαν τις εξής προδιαγραφές: Ένα ερώτημα ενός όρου το οποίο χαρακτηριζόταν από μικρή ασάφεια δηλαδή είτε με βάση το WordNet είχε το πολύ 2 διαφορετικές έννοιες. Ένα ερώτημα ενός όρου σχετικά ασαφές, δηλαδή με βάση το WordNet είχε το πολύ τρεις έννοιες. Ένα ερώτημα ενός όρου ασαφές, δηλαδή με βάση το WordNet είχε παραπάνω από τρεις έννοιες. Τρία ερωτήματα που ανήκουν στις παραπάνω κατηγορίες αλλά έχουν πάνω από έναν όρο και το πολύ 3 τρεις. Αφού λοιπόν εφαρμόστηκαν οι αλγόριθμοι που υλοποιήθηκαν, για κάθε ερώτημα και για κάθε ξεχωριστή τεχνική, συμπεριλαμβανομένου και της περίπτωσης όπου δεν εφαρμόστηκε καμία τεχνική επέκτασης, διατηρήθηκαν τα 20 κορυφαία στην κατάταξη αποτελέσματα. Τα αποτελέσματα παρουσιάστηκαν στους συμμετέχοντες σε τυχαία σειρά ώστε να μην τους προδιαθέτουν προς κάποια κατεύθυνση. Επίσης, τα αποτελέσματα παρουσιάστηκαν όπως ακριβώς παρουσιάζονται από τη Google, δηλαδή ο τίτλος της ιστοσελίδας, το link της και η σύνοψη της. Στη συνέχεια, ζητήθηκε από τους συμμετέχοντες να αξιολογήσουν τα αποτελέσματα αυτά, δίνοντας ένα βαθμό στο καθένα. Ουσιαστικά τους ζητήθηκε να αξιολογήσουν πόσο σχετικό ως προς το ερώτημά τους ήταν κάθε επιστρεφόμενο αποτέλεσμα. Έτσι για κάθε URL που τους παρουσιαζόταν έπρεπε να δώσουν μία βαθμολογία μεταξύ 0 και 2. Η βαθμολογίες αυτές αντιστοιχούν στα εξής: 0 για ένα URL που ο χρήστης δε θεωρεί χρήσιμο και δεν έχει να κάνει με τα ενδιαφέροντά του. 1 αν το URL ενδιαφέρει το χρήστη αλλά δεν είναι ακριβώς αυτό που έψαχνε. Δηλαδή για ένα αποτέλεσμα που ο χρήστης βρίσκει σχετικά ενδιαφέρον αλλά δεν καλύπτει πλήρως την πληροφοριακή του ανάγκη. 2 αν το URL είναι πολύ σχετικό και εξαιρετικά ενδιαφέρον για το χρήστη. Ουσιαστικά δηλαδή για ένα URL που περιέχει ακριβώς ότι έψαχνε. Η εκτίμηση της απόδοσης των επιμέρους τεχνικών που εφαρμόστηκαν πραγματοποιήθηκε συγκρίνοντας τις λίστες κατάταξης που επέστρεψε η μηχανή αναζήτησης για κάθε μία τεχνική. 86

87 Η μετρική που χρησιμοποιήθηκε ήταν η Normalized Discounted Cumulative Gain (ndcg). Η ndcg χρησιμοποιείται συχνά στον τομέα της ανάκτησης πληροφορίας για να εκτιμήσει την απόδοση των αλγορίθμων αναζήτησης στον Παγκόσμιο Ιστό. Η ndcg προκύπτει από μία άλλη μετρική που χρησιμοποιούνταν αρχικά, τη DCG. Η DCG ποσοτικοποιεί τη χρησιμότητα ή αλλιώς το κέρδος (gain) ενός εγγράφου με βάση τη θέση του στη λίστα των αποτελεσμάτων. Το κέρδος υπολογίζεται από την κορυφή της λίστας των αποτελεσμάτων προς το τέλος, με τέτοιο τρόπο ώστε το κέρδος κάθε αποτελέσματος να μειώνεται στα χαμηλότερα αποτελέσματα. Βασίζεται στην εξής δύο υποθέσεις: Έγγραφα που χαρακτηρίζονται από μεγάλη σχετικότητα ως προς το ερώτημα είναι πιο χρήσιμα όταν εμφανίζονται ψηλά στη λίστα των αποτελεσμάτων. Έγγραφα που χαρακτηρίζονται από μεγάλη σχετικότητα ως προς το ερώτημα είναι πιο χρήσιμα συγκριτικά με έγγραφα λιγότερο σχετικά, τα οποία με τη σειρά τους είναι πιο χρήσιμα από έγγραφα που δεν έχουν σχέση με το ερώτημα που έθεσε ο χρήστης. Η μετρική DCG προέρχεται με τη σειρά της από μία προηγούμενη, πιο πρωταρχική μετρική, τη CG (Cumulative Gain). Η μεγάλη διαφορά της CG σε σχέση με τη DCG είναι ότι η CG δε λαμβάνει υπόψιν της τη θέση που έχει ένα αποτέλεσμα στη λίστα των αποτελεσμάτων. Ουσιαστικά ο τρόπος που υπολογίζεται είναι απλά να προστίθενται οι βαθμοί που έχει δώσει κάθε χρήστης σε κάθε αποτέλεσμα της λίστας. Έτσι η τιμή που υπολογίζεται τελικά δεν επηρεάζεται καθόλου από αλλαγές στη σειρά των επιστρεφόμενων αποτελεσμάτων. Ακριβώς αυτό το μειονέκτημα ήρθε να διορθώσει η DCG, καθώς η σειρά με την οποία έχουν ταξινομηθεί τα αποτελέσματα έχει μεγάλη βαρύτητα για τους χρήστες. Είναι γνωστό ότι όσο πιο ψηλά είναι ένα αποτέλεσμα στη λίστα, τόσο πιο πιθανό είναι να το δει και να το επιλέξει ο χρήστης, ενώ παράλληλα υπάρχουν έρευνες που δείχνουν ότι οι χρήστες αναμένουν από τις μηχανές αναζήτησης να επιστρέφουν τα πιο σωστά για αυτούς αποτελέσματα στην κορυφή της λίστας. Έτσι λοιπόν ο βαθμός σχετικότητας, όπως έχει δοθεί από το χρήστη, ενός αποτελέσματος μειώνεται λογαριθμικά αναλογικά ως προς τη θέση του. Ο τύπος για τον υπολογισμό της DCG δίνεται παρακάτω: 87

88 DCGp = rel1 + p reli (i=2) log 2 i όπου reli είναι τα αποτελέσματα σχετικότητας των εγγράφων όπως τα βαθμολόγησε ο κάθε χρήστης και ο δείκτης p τη συγκεκριμένη θέση της λίστας κατάταξης για την οποία υπολογίζεται η DCG Η χρήση της μετρικής ndcg προέκυψε ως ανάγκη καθώς επιτρέπει τη σύγκριση τιμών DCG που έχουν προκύψει από διαφορετικού είδους ερωτήματα. Η διαφορετικότητα αυτή μπορεί να οφείλεται σε διάφορους παράγοντες. Ένας από αυτούς είναι ότι κάποια ερωτήματα είναι πιο εύκολα από κάποια άλλα και ως συνέπεια η μηχανή αναζήτησης πιθανότατα θα έχει υψηλότερες βαθμολογίες σε σχέση με ένα πιο δύσκολο ερώτημα. Αυτό προφανώς δε σημαίνει πάντα ότι η μηχανή αναζήτησης έχει χειρότερη απόδοση στα δυσκολότερα ερωτήματα. Δεύτερον, το μήκος των αποτελεσμάτων που επιστρέφει ένα ερώτημα μπορεί να διαφέρει σε σχέση με κάποιο άλλο. Για τους παραπάνω λόγους λοιπόν χρησιμοποιείται πλέον η μετρική ndcg η οποία κανονικοποιεί τις DCG τιμές. Ο τρόπος για να επιτευχθεί αυτό είναι να διαταχθούν τα έγγραφα που υπάρχουν στη λίστα των αποτελεσμάτων με βάση τη βαθμολογία σχετικότητας σε φθίνουσα σειρά. Στη συνέχεια υπολογίζεται στη νέα διατεταγμένη λίστα η DCG τιμή, η οποία αποκαλείται idcg (ideal DCG). Τελικά λοιπόν, ο τύπος για τη ndcg μετρική είναι ο εξής: ndcgp = DCGp idcgp Για να εξηγηθεί καλύτερα η παραπάνω μετρική δίνεται το ακόλουθο παράδειγμα. Έστω ότι κάποιος χρήστης έχει πάρει ως αποτέλεσμα στο ερώτημά του μία λίστα που αποτελείται από έξι κείμενα, τα D1, D2, D3, D4, D5 και D6. Για τα κείμενα αυτά έχει δώσει βαθμολογία 3,2,3,0,1 και 2 αντίστοιχα. Ο παρακάτω πίνακας δείχνει τις τιμές για τις μετρικές που αναφέρθηκαν. 88

89 Έγγραφο Θέση Βαθμολογία CG DCG D N/A D D D D D Πίνακας 6.1 Παράδειγμα χρήσης μετρικών CG και DCG Τελικά λοιπόν η τιμή της μετρικής DCG για την λίστα αποτελεσμάτων του παραδείγματος είναι: DCG= = 8.10 Αν η παραπάνω λίστα ταξινομηθεί με φθίνουσα σειρά βαθμολογίας σχετικότητας, η νέα λίστα θα είναι D1, D3, D2, D6, D5 και D4 με τιμές 3,3,3,3,1 και 0 αντίστοιχα. Η τιμή idcg είναι 8.69 και τελικά ndcg = 8.10/8.69 = Πειραματικά αποτελέσματα Στο υποκεφάλαιο αυτό παρουσιάζονται τα αποτελέσματα που προέκυψαν από την εφαρμογή της πειραματικής διαδικασίας. Αφού λοιπόν οι χρήστες επέλεξαν τα ερωτήματά τους με βάση τον τρόπο που αναφέρθηκε σε προηγούμενο υποκεφάλαιο, στη συνέχεια εφαρμόστηκε η μεθοδολογία που αναλύθηκε. Στη συνέχεια οι χρήστες βαθμολόγησαν τις λίστες που τους επεστράφησαν ως αποτελέσματα στα ερωτήματά τους. Συνολικά κάθε χρήστης έκρινε 30 διαφορετικές λίστες αποτελεσμάτων. Ο αριθμός αυτός προέκυψε καθώς κάθε χρήστης είχε επιλέξει 6 διαφορετικά ερωτήματα και σε κάθε ερώτημα επεστράφησαν αποτελέσματα από 4 διαφορετικές τεχνικές, προσθέτοντας ακόμα την περίπτωση όπου δε χρησιμοποήθηκε καμία τεχνική αλλά παρουσιάστηκαν τα αποτελέσματα όπως ακριβώς θα τα επέστρεφε η μηχανή αναζήτησης που χρησιμοποιήθηκε, δηλαδή η Google. 89

90 Τέλος, υπολογίστηκε για κάθε λίστα η μετρική ndcg. Στη συνέχεια ακολουθούν τα γραφήματα των αποτελεσμάτων. Προκειμένου να γίνουν κατανοητά τα γραφήματα, σε κάθε τεχνική δόθηκε ένα ενδεικτικό αντιπροσωπευτικό όνομα. Τα ονόματα αυτά είναι τα εξής: None Περίπτωση όπου δεν ακολουθήθηκε κάποια μετρική και τα αποτελέσματα είναι ακριβώς όπως θα τα επέστρεφε η Google Weights Περίπτωση όπου χρησιμοποιήθηκε συνδυαστικό βάρος για να γίνει ταξινόμηση των αποτελεσμάτων TF Περίπτωση όπου οι λέξεις κλειδία εξήχθηκαν με χρήση της μετρικής Term Frequency TFIDF Περίπτωση όπου οι λέξεις κλειδία εξήχθηκαν με χρήση της μετρικής Term Frequency Inverse Document Frequency TS Περίπτωση όπου οι λέξεις κλειδία εξήχθηκαν με χρήση της μετρικής Term Score Αρχικά λοιπόν, ο πιο ενδεικτικός τρόπος παρουσίασης της απόδοσης των τεχνικών είναι με τον υπολογισμό του μέρου όρου των τιμών ndcg για κάθε τεχνική ξεχωριστά και για το σύνολο των ερωτημάτων, ανεξαρτήτου δηλαδή σε ποια κατηγορία ανήκει το κάθε ερώτημα. Το αντίστοιχο γράφημα παρουσιάζεται παρακάτω. 90

91 Εικόνα Μέσος όρος τιμών ndcg για κάθε τεχνική ξεχωριστά και για το σύνολο των ερωτημάτων Από το γράφημα αυτό παρατηρείται ότι η πιο αποδοτική τεχνική από όσες δοκιμάστηκαν είναι η τεχνική TF, η οποία μάλιστα παρουσιάζει ιδιαίτερα υψηλά ποσοστά απόδοσης, καθώς η μέση τιμή της μετρικής ndcg είναι Ωστόσο είναι φανερό ότι και η τεχνική TS παρουσιάζει εξίσου καλή απόδοση, η οποία πλησιάζει την αντίστοιχη της TF. Η παρατήρηση αυτή δε μπορεί παρά να ήταν αναμενόμενη, καθώς ο τρόπος που εξάγονται οι λέξεις κλειδιά στις δύο αυτές τεχνικές είναι αρκετά παρόμοιος με αποτέλεσμα, όπως φάνηκε και στα πειράματα, πολλές φορές να έχουν αρκετές κοινές λέξεις με τη μεγαλύτερη βαθμολογία στα κείμενα. Επίσης, η αλήθεια είναι ότι δεν εκπλήσσει το γεγονός ότι οι τεχνικές αυτές έχουν την καλύτερη απόδοση, καθώς η μετρική TF χρησιμοποιείται κατά κόρον σε τεχνικές εξατομικευμένης επέκτασης των ερωτημάτων με αρκετά καλά αποτελέσματα. Βέβαια, στην παρούσα μεθοδολογία, η TF δε χρησιμοποιείται απλά για επέκταση του αρχικού ερωτήματος του χρήστη. Ο τρόπος που χρησιμοποιείται είναι για να επεκτείνει το αρχικό ερώτημα, τόσες φορές όσες και οι έννοιες των όρων των ερωτημάτων, αρκεί βέβαια οι έννοιες αυτές να απαντώνται στα κείμενα του χρήστη. Παράλληλα, κάθε έννοια επεκτείνεται με διαφορετικό σύνολο λέξεων, ανάλογα με τα κείμενα του χρήστη τα οποία ανακτά. Αυτό που επίσης έχει εξαιρετικό ενδιαφέρον είναι ότι η τεχνική Weights έχει τη χειρότερη απόδοση, ακόμα και από την περίπτωση που δεν εφαρμόζεται καμία τεχνική προσωποποίησης. 91

92 Η ερμηνεία για αυτό θα μπορούσε να είναι ότι ναι μεν η μετρική PageRank, όταν χρησιμοποιείται από μόνη της, εκφράζει την πλέον χρησιμοποιούμενη έννοια για τους περισσότερους χρήστες, δε μπορεί όμως προφανώς να χρησιμοποιηθεί για τα ενδιαφέροντα ενός συγκεκριμένου, πιθανώς με διαφορετικά ενδιαφέροντα από τους υπόλοιπους χρήστες, χρήστη. Ίσως εν τέλει, να προκαλεί σύγχυση στα αποτελέσματα και για αυτό το λόγο να είναι χειρότερη σε απόδοση ακόμα και από την περίπτωση που δεν εφαρμόζεται καμία τεχνική προσωποποίησης. Στο επόμενο γράφημα παρουσιάζονται συγκριτικά τα αποτελέσματα για τις τεχνικές, όπως προκύπτουν ξεχωριστά για τα ερωτήματα ενός όρου και για τα ερωτήματα πολλαπλών όρων. Ο λόγος που εξήχθει το διάγραμμα αυτό είναι για να διαπιστωθεί κατά πόσον οι απόδοσεις των τεχνικών επηρεάζονται από το μέγεθος των ερωτημάτων. Εικόνα 6.5 Συγκριτικά αποτελέσματα τεχνικών διαχωρισμένα με βάση το μέγεθος του ερωτήματος Το πρωταρχικό και ίσως βασικότερο συμπέρασμα που εξάγεται από το γράφημα αυτό, είναι ότι στα ερωτήματα πολλαπλών όρων όλες οι τεχνικές αποδίδουν σαφέστατα καλύτερα σε σχέση με τα ερωτήματα ενός όρου. Βέβαια αυτό είναι και πάλι αναμενόμενο καθώς στα ερωτήματα πολλαπλών όρων ουσιαστικά ο χρήστης είναι πιο ξεκάθαρος ως προς την αναζήτησή του. 92

93 Μάλιστα, εδώ παρατηρούνται ιδιαίτερα υψηλές αποδόσεις που φτάνουν μέχρι και το Αυτό ωστόσο που φαίνεται είναι ότι οι τεχνικές TF και TS είναι καλύτερες και στους δύο τύπους ερωτημάτων με πολύ μικρές διαφορές μεταξύ τους. Για άλλη μία φορά επίσης, η τεχνική Weights υπολείπεται και στα δύο είδη ερωτημάτων. Αξίζει να αναφερθεί ακόμα ότι μπορεί η περίπτωση None να εμφανίζει πολύ καλά αποτελέσματα στα ερωτήματα πολλαπλών όρων, αλλά ωστόσο υπολείπεται φανερά στα ερωτήματα ενός όρου. Ολοκληρώνοντας τα συμπεράσματα για αυτό το γράφημα, αν και κάποιος παρατηρητής θα μπορούσε να συμπεράνει ότι δεν υπάρχει λόγος χρήσης τεχνικών εξατομικευμένης αναζήτησης για τα ερωτήματα πολλαπλών όρων, αυτό δε θεωρείται δόκιμο. Ακόμα και η μικρή διαφορά μεταξύ της τεχνικής None και των TF ή TS είναι σημαντική, καθώς αφήνει περισσότερους χρήστες ικανοποιημένους. Προκειμένου να ολοκληρωθεί η διαδικασία της αξιολόγησης των πειραματικών αποτελεσμάτων παρουσιάζεται ένα ακόμα γράφημα το οποίο πραγματοποιεί συγκριτική απεικόνιση των τεχνικών με βάση το βαθμό ασάφειας του κάθε ερωτήματος. Ουσιαστικά, όπως αναφέρθηκε και στο υποκεφάλαιο που περιγράφεται η πειραματική διαδικασία, κάθε χρήστης επέλεξε 6 διαφορετικά ερωτήματα, 2 τα οποία θεωρούνταν σαφή (clear), 2 σχετικά ασαφή (Semi - ambiguous) και 2 ασαφή (Ambiguous). 93

94 Εικόνα 6.6 Συγκριτικά αποτελέσματα τεχνικών διαχωρισμένα με βάση το βαθμό ασάφειας του ερωτήματος Παρατηρώντας το γράφημα αυτό εξάγεται το συμπέρασμα ότι για τα σαφή και για τα σχετικά ασαφή ερωτήματα οι τεχνικές TF και TS έχουν την καλύτερη απόδοση, με την TF να προηγείται στα σαφή και την TS να προηγείται στα σχετικά ασαφή. Ωστόσο προβληματίζει το γεγονός ότι στα ασαφή ερωτήματα την καλύτερη απόδοση την έχει η τεχνική None, αυτή δηλαδή που δε χρησιμοποιεί καμία τεχνική εξατομίκευσης. Θα ήταν λοιπόν σκόπιμο να γίνεται διάκριση της κατηγορίας στην οποία ανήκει το κάθε ερώτημα και να κρίνεται αν θα εφαρμοστεί ή όχι διαδικασία εξατομίκευσης των αποτελεσμάτων. Ωστόσο αυτό θα ήταν εξαιρετικά χρονοβόρο και καθώς η τεχνική TF έχει κοντική απόδοση για αυτά τα ερωτήματα, δε κρίνεται σκόπιμο να εφαρμοστεί η διάκριση αυτή. Γενικεύοντας λοιπόν τα συμπεράσματα από όλα τα παραπάνω, οι τεχνικές TF και TS που προτάθηκαν, στη γενική περίπτωση προσφέρουν εξατομικευμένα αποτελέσματα σε αρκετά καλύτερο βαθμό από όλες τις υπόλοιπες, αυξάνοντας το βαθμό ικανοποίησης των χρηστών από τη μηχανή αναζήτησης. Η επιλογή ανάμεσα στις δύο φαίνεται να εξαρτάται από το είδος του ερωτήματος, ωστόσο για τον ίδιο λόγο και πάλι, ότι δηλαδή η διαδικασία ανάθεσης του 94

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιο λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ Δρ. Κουζαπάς Δημήτριος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Μηχανές Αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Περιεχόμενα. Δημιουργία σύνδεσης... 27 5. ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ... 37. Γνωριμία με μια ιστοσελίδα:... 38

Περιεχόμενα. Δημιουργία σύνδεσης... 27 5. ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ... 37. Γνωριμία με μια ιστοσελίδα:... 38 Περιεχόμενα ΠΡΟΛΟΓΟΣ... 11 ΔΙΑΔΙΚΤΥΟ... 13 1. ΙΣΤΟΡΙΑ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ... 15 2. ΤΙ ΕΙΝΑΙ ΤΟ ΔΙΑΔΙΚΤΥΟ INTERNET;... 16 3. ΤΙ ΠΡΟΣΦΕΡΕΙ ΤΟ ΔΙΑΔΙΚΤΥΟ, ΤΙ ΜΠΟΡΕΙ ΝΑ ΒΡΕΙ ΚΑΝΕΙΣ... 19 4. ΤΙ ΑΠΑΙΤΕΙΤΑΙ ΓΙΑ ΝΑ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Πώς λειτουργεί το Google?

Πώς λειτουργεί το Google? Πώς λειτουργεί το Google? Στα άδυτα του Γίγαντα της Αναζήτησης! Το να ψάξουμε κάτι στο Google είναι κάτι τόσο καθημερινό για τους περισσότερους από εμάς, που το θεωρούμε δεδομένο. Αυτό που ίσως ξεχνάμε

Διαβάστε περισσότερα

Ο αλγόριθμος PageRank της Google

Ο αλγόριθμος PageRank της Google Ο αλγόριθμος PageRank της Google 1 Η μηχανή αναζήτησης Google Το Google ξεκίνησε σαν μια κολεγιακή εργασία από τον Larry Page και τον Sergey Brin το 1996 με σκοπό την κατασκευή μιας μηχανής αναζήτησης

Διαβάστε περισσότερα

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του Ο Παγκόσμιος Ιστός Ο Παγκόσμιος Ιστός (World Wide Web - WWW) είναι η πιο δημοφιλής υπηρεσία του Διαδικτύου, που μας επιτρέπει με ιδιαίτερα εύκολο τρόπο να έχουμε πρόσβαση σε μια τεράστια συλλογή ψηφιακών

Διαβάστε περισσότερα

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του Ο Παγκόσμιος Ιστός Ο Παγκόσμιος Ιστός (World Wide Web - WWW) είναι η πιο δημοφιλής υπηρεσία του Διαδικτύου, που μας επιτρέπει με ιδιαίτερα εύκολο τρόπο να έχουμε πρόσβαση σε μια τεράστια συλλογή ψηφιακών

Διαβάστε περισσότερα

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Διπλωματική Εργασία με θέμα: Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού Καραγιάννης Ιωάννης Α.Μ.

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι 5 η Διάλεξη Μάθημα: Τεχνολογίες Διαδικτύου Περιεχόμενα 5 η διάλεξη Μηχανές αναζήτησης Αναζήτηση στο Web Ωραίο το Web και το Internet Μάθαμε

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι 5 η Διάλεξη Μάθημα: Τεχνολογίες Διαδικτύου Περιεχόμενα 5 η διάλεξη Μηχανές αναζήτησης Αναζήτηση στο Web Ωραίο το Web και το Internet Μάθαμε

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. ΚΕΦΑΛΑΙΟ 9 Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966 αρχίζει ο σχεδιασμός του ARPANET, του πρώτου

Διαβάστε περισσότερα

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος Δικτυακοί τόποι Η σχεδίαση ενός δικτυακού τόπου Δρ. Ματθαίος Α. Πατρινόπουλος Πώς χρησιμοποιούμε το διαδίκτυο; ΔΙΑΦΑΝΕΙΕΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΔΙΑΔΙΚΤΥΟΥ. 2 Από το www.smartinsights.

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10 6 ΕΡΓΑΣΙΑ 1 «Η Μηχανή Αναζήτησης Google» 6 Εικόνα εξώφυλλου: Λωρίδα του Mobius. 2005. (Σύνθεση). Νικόλαος Μπαλκίζας 10 Η Μηχανή Αναζήτησης Google 7 Εισαγωγή Η εύρεση χρήσιμων πληροφορίων στον Παγκόσμιο

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ Ενότητα 8: Search Engine Marketing Βλαχοπούλου Μάρω Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 11 : Ο αλγόριθμος PageRank της Google. Δρ.

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 11 : Ο αλγόριθμος PageRank της Google. Δρ. 1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πληροφορική Ι Ενότητα 11 : Ο αλγόριθμος PageRank της Google Δρ. Γκόγκος Χρήστος 2 Ανοιχτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Τμήμα Χρηματοοικονομικής & Ελεγκτικής

Διαβάστε περισσότερα

Ψευδοκώδικας. November 7, 2011

Ψευδοκώδικας. November 7, 2011 Ψευδοκώδικας November 7, 2011 Οι γλώσσες τύπου ψευδοκώδικα είναι ένας τρόπος περιγραφής αλγορίθμων. Δεν υπάρχει κανένας τυπικός ορισμός της έννοιας του ψευδοκώδικα όμως είναι κοινός τόπος ότι οποιαδήποτε

Διαβάστε περισσότερα

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων) Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων) Τι είναι το Wordpress: To Wordpress είναι ένα δωρεάν ανοικτού κώδικα (open source) λογισμικό (εφαρμογή), με το οποίο μπορεί κάποιος να δημιουργεί

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών Περιεχόµενα World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών Εισαγωγή Ιστορική Αναδροµή Το ιαδίκτυο και το WWW Υπερκείµενο Εντοπισµός πληροφοριών στο WWW Search Engines Portals Unicode Java Plug-Ins 1 2

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Τεχνολογίες Κοινωνικής Δικτύωσης στην Εκπαίδευση

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Τεχνολογίες Κοινωνικής Δικτύωσης στην Εκπαίδευση ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Τεχνολογίες Κοινωνικής Δικτύωσης στην Εκπαίδευση Ομάδα: Αριστερίδου Δανάη Ελένη (08) Ευαγγελόπουλος Νίκος (670)

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ 2013 ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ Περιήγηση στις δυνατότητες του λογισμικού και στον τρόπο χρήσης του ΟΜΑΔΑ ΕΡΓΟΥ ΔΙΕΥΘΥΝΣΗΣ

Διαβάστε περισσότερα

18α γενέθλια της Google

18α γενέθλια της Google 18α γενέθλια της Google Πότε είναι τα γενέθλια της Google? Η Google έχει γιορτάσει γενέθλια στις 8,7,26 Σεπτεμβρίου, από το 2006 ωστόσο οριστικοποιήθηκε ως γενέθλια ημέρα η 27 η Σεπτεμβρίου. Η ιστορία

Διαβάστε περισσότερα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΣΠΟΥ ΑΣΤΗΣ: Γιαννόπουλος Γεώργιος ΕΠΙΒΛΕΠΩΝ: Καθ. Ι. Βασιλείου ΒΟΗΘΟΙ: Α. ηµητρίου, Θ. αλαµάγκας Γενικά Οι µηχανές αναζήτησης

Διαβάστε περισσότερα

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Μεταπτυχιακό Δίπλωμα Ειδίκευσης: «Σπουδές στην Εκπαίδευση» Οδηγός Σχολιασμού Διπλωματικής Εργασίας (βιβλιογραφική σύνθεση) ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: «ΕΞΕΛΙΞΗ ΤΟΥ ΠΑΙΔΙΟΥ ΣΤΟ ΚΟΙΝΩΝΙΚΟ

Διαβάστε περισσότερα

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ ΕΘΝΙΚΟΝ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟΝ ΠΑΝΕΠΙΣΤΗΜΙΟΝ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ 2008-2013 ΠΑΡΑΡΤΗΜΑ ΧΙ ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ

Διαβάστε περισσότερα

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Λαμπαδαρίδης Αντώνιος el04148@mail.ntua.gr Διπλωματική εργασία στο Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Επιβλέπων: Καθηγητής Τ. Σελλής Περίληψη

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές

Διαβάστε περισσότερα

Ημερομηνία Παράδοσης: 4/4/2013

Ημερομηνία Παράδοσης: 4/4/2013 Δράση 9.14 / Υπηρεσία εντοπισμού λογοκλοπής Κυρίως Παραδοτέο / Σχεδιασμός και ανάπτυξη λογισμικού (λογοκλοπής) και βάσης δεδομένων (αποθετηρίου) Επιμέρους Παραδοτέο 9.14.1.4 / Πληροφοριακό σύστημα υπηρεσίας

Διαβάστε περισσότερα

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. ΕΡΓΑΣΙΑ 4 «Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. Στόχος Στόχος της Εργασίας 4 είναι να η εξοικείωση με την αντικειμενοστρέφεια (object oriented programming). Πιο συγκεκριμένα,

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ και ΔΟΜΗ ΑΚΟΛΟΥΘΙΑΣ 2.1 Να δοθεί ο ορισμός

Διαβάστε περισσότερα

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Εργαλεία ανάπτυξης εφαρμογών internet Ι IEK ΟΑΕΔ ΚΑΛΑΜΑΤΑΣ ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΟΦΟΡΙΚΗΣ Εργαλεία ανάπτυξης εφαρμογών internet Ι Διδάσκουσα: Κανελλοπούλου Χριστίνα ΠΕ19 Πληροφορικής 4 φάσεις διαδικτυακών εφαρμογών 1.Εφαρμογές στατικής πληροφόρησης

Διαβάστε περισσότερα

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι. ΠΑΝΤΕΙΟ ΠΑΝΕΠΗΣΤΗΜΙΟ -ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ ΚΕΝΤΡΟ ΨΥΧΟ-ΚΟΙΝΩΝΙΟΛΟΓΙΚΗΣ ΕΡΕΥΝΑΣ ΤΗΣ ΙΑΚΥΒΕΡΝΗΣΗΣ ΤΩΝ ΥΝΗΤΙΚΩΝ ΚΟΙΝΟΤΗΤΩΝ ΕΡΕΥΝΗΤΙΚΟ ΑΚΑ ΗΜΑΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΕΙ ΜΕΣΟΛΟΓΓΙΟΥ Μάθηµα : Εισαγωγικά

Διαβάστε περισσότερα

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC) Ο ηλεκτρονικός κατάλογος (OPAC) είναι το online σύστημα αναζήτησης στο αυτοματοποιημένο σύστημα της Βιβλιοθήκης (GEAC-ADVANCE), για την τοπική συλλογή της. Το περιβάλλον αλληλεπίδρασης (interface) είναι

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΟΜΕΑΣ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ Η/Υ, ΠΛΗΡΟΦΟΡΙΚΗΣ & ΔΙΚΤΥΩΝ Εργ. Τεχνολογίας Λογισμικού & Υπηρεσιών S 2 E Lab Π Τ Υ Χ Ι

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Αναζήτηση Πληροφοριών στο Διαδίκτυο Αναζήτηση Πληροφοριών στο Διαδίκτυο Πηγές Πληροφόρησης - Εργαλεία Αναζήτησης - Στρατηγικές Αναζήτησης ΤΕΙ ΚΡΗΤΗΣ Τμήμα Κοινωνικής Εργασίας Πληροφορική Ι Μια κινέζικη παροιμία λέει «Αν σού δώσω ένα ψάρι

Διαβάστε περισσότερα

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. AeppAcademy.com facebook.com/aeppacademy Γεια. Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. Καλή Ανάγνωση & Καλή Επιτυχία

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

Vodafone Business Connect

Vodafone Business Connect Vodafone Business Connect Vodafone Business WebHosting Αναλυτικός Οδηγός Χρήσης EasySite Optimizer Αναλυτικός οδηγός χρήσης: EasySite Optimizer Vodafone Business Connect - Υπηρεσίες φιλοξενίας εταιρικού

Διαβάστε περισσότερα

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΑΘΗΝΑ 2014 1 1. Τι είναι το e-learning; Το e-learning, η ηλεκτρονική μάθηση, είναι μια διαδικασία μάθησης και ταυτόχρονα μια μεθοδολογία εξ αποστάσεως εκπαίδευσης

Διαβάστε περισσότερα

Θέματα Προγραμματισμού Η/Υ

Θέματα Προγραμματισμού Η/Υ Πρόγραμμα Μεταπτυχιακών Σπουδών Πληροφορική και Υπολογιστική Βιοϊατρική Θέματα Προγραμματισμού Η/Υ Ενότητα 1: Εισαγωγή Θεματική Ενότητα: Εισαγωγή στον Προγραμματισμό ΘΕΜΑΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ Θεματική

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

Α2. Να γράψετε στο τετράδιο απαντήσεών σας το κατάλληλο τμήμα κώδικα, κάνοντας τις απαραίτητες αλλαγές σύμφωνα με την εκάστοτε εκφώνηση:

Α2. Να γράψετε στο τετράδιο απαντήσεών σας το κατάλληλο τμήμα κώδικα, κάνοντας τις απαραίτητες αλλαγές σύμφωνα με την εκάστοτε εκφώνηση: ΠΡΟΣΟΜΟΙΩΣΗ ΑΠΟΛΥΤΗΡΙΩΝ ΕΞΕΤΑΣΕΩΝ Γ' ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ (ΚΥΚΛΟΥ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΗΡΕΣΙΩΝ) ΣΥΝΟΛΟ

Διαβάστε περισσότερα

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι.

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι. Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι. Παραδοτέο: Δημοσιότητα Ανάλυση Αρχείων Κίνησης Πληροφοριακού Κόμβου submit-atlas.grnet.gr Σελίδα 1 από 164 Σελίδα 2 από 164 Σύνοψη H

Διαβάστε περισσότερα

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙΔΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙΔΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ 556 3 Ο ΣΥΝΕΔΡΙΟ ΣΤΗ ΣΥΡΟ ΤΠΕ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙΔΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ Ματούλας Γεώργιος Δάσκαλος ΔΣ Ευξινούπολης

Διαβάστε περισσότερα

Μεταπτυχιακή Διατριβή

Μεταπτυχιακή Διατριβή Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Υπηρεσία Αυτόματης Ανάκτησης Συνδεδεμένης Δομής Θεματικών Επικεφαλίδων μέσω

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1 Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0 Καραμαούνας Πολύκαρπος 1 9.1 Ιστορικά Στοιχεία Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο και ήταν απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966

Διαβάστε περισσότερα

Νεογεωγραφία και Χαρτογραφική Διαδικτυακή Απεικόνιση. Η χρήση Ελεύθερων Γεωγραφικών Δεδομένων και Λογισμικού Ανοιχτού Κώδικα σε Φορητές Συσκευές.

Νεογεωγραφία και Χαρτογραφική Διαδικτυακή Απεικόνιση. Η χρήση Ελεύθερων Γεωγραφικών Δεδομένων και Λογισμικού Ανοιχτού Κώδικα σε Φορητές Συσκευές. Νεογεωγραφία και Χαρτογραφική Διαδικτυακή Απεικόνιση. Η χρήση Ελεύθερων Γεωγραφικών Δεδομένων και Λογισμικού Ανοιχτού Κώδικα σε Φορητές Συσκευές. 13ο ΕΘΝΙΚΟ ΣΥΝΕΔΡΙΟ ΧΑΡΤΟΓΡΑΦΙΑΣ Η ΧΑΡΤΟΓΡΑΦΙΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΟΜΕΑΣ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ Η/Υ, ΠΛΗΡΟΦΟΡΙΚΗΣ & ΙΚΤΥΩΝ Εργ. Τεχνολογίας Λογισμικού & Υπηρεσιών S 2 E Lab Π Τ Υ Χ Ι

Διαβάστε περισσότερα

ΕΓΧΕΙΡΙΔΙΟ ΜΑΘΗΤΗ. της Πλατφόρμας Τηλεκατάρτισης

ΕΓΧΕΙΡΙΔΙΟ ΜΑΘΗΤΗ. της Πλατφόρμας Τηλεκατάρτισης ΕΓΧΕΙΡΙΔΙΟ ΜΑΘΗΤΗ της Πλατφόρμας Τηλεκατάρτισης ΠΕΡΙΕΧΟΜΕΝΑ 1. Εισαγωγή...2 2. Αρχική σελίδα, Εισαγωγή & Περιβάλλον Συστήματος...3 2.1. Αρχική σελίδα εισαγωγής...3 2.2. Εισαγωγή στην Πλατφόρμα Τηλε-κατάρτισης...4

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

6 Εισαγωγή στο Wordpress 3.x

6 Εισαγωγή στο Wordpress 3.x Περιεχόμενα 1 Εγκατάσταση του WordPress... 11 Ελάχιστες απαιτήσεις... 11 Easy PHP... 12 Εγκατάσταση Easy PHP... 12 Βήματα εγκατάστασης EasyPHP με εικόνες... 13 Το EasyPHP στα Ελληνικά... 17 Κατέβασμα και

Διαβάστε περισσότερα

Εισαγωγή στις Αρχές της Επιστήμης των ΗΥ

Εισαγωγή στις Αρχές της Επιστήμης των ΗΥ Εισαγωγή στις Αρχές της Επιστήμης των ΗΥ 2.3.1.1. Παπαγιάννη Νάσια Ηλεκτρολόγος Μηχανικός και Μηχανικός Υπολογιστών ΕΜΠ 1 περιλαμβάνει: Η έννοια του προγράμματος Επίλυση προβλήματος 1. Ακριβή προσδιορισμό

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική

Διαβάστε περισσότερα

Συγκεντρωτικό Παράρτημα

Συγκεντρωτικό Παράρτημα Αρχική σελίδα -> Βρείτε το. Δεν λειτουργούν τα links Αποπροσανατολισμός, δυσλειτουργία δικτυακού τόπου Να διορθωθούν τα links Έγινε έλεγχος και διόρθωση όλων των συνδέσμων Ενότητα βιβλιοθήκη: η διαδρομή

Διαβάστε περισσότερα

ΕΚΘΕΣΗ ΑΝΑΦΟΡΑΣ ΓΙΑ ΤΙΣ ΣΥΝΕΝΤΕΥΞΕΙΣ ΤΩΝ ΜΕΛΩΝ ΟΜΕΑ

ΕΚΘΕΣΗ ΑΝΑΦΟΡΑΣ ΓΙΑ ΤΙΣ ΣΥΝΕΝΤΕΥΞΕΙΣ ΤΩΝ ΜΕΛΩΝ ΟΜΕΑ ΕΚΘΕΣΗ ΑΝΑΦΟΡΑΣ ΓΙΑ ΤΙΣ ΣΥΝΕΝΤΕΥΞΕΙΣ ΤΩΝ ΜΕΛΩΝ ΟΜΕΑ ΣΤΟ ΠΛΑΙΣΙΟ ΤΗΣ ΠΡΑΞΗΣ «Μονάδα Διασφάλισης Ποιότητας Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών» ΑΝΑΘΕΤΟΥΣΑ ΑΡΧΗ: ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας; Πολιτική Cookies Χρησιμοποιούμε cookies στον ιστότοπο μας για τη διαχείριση των περιόδων σύνδεσης, για την παροχή εξατομικευμένων ιστοσελίδων και για την προσαρμογή διαφημιστικού και άλλου περιεχομένου

Διαβάστε περισσότερα

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL:  στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση Αναζήτηση στον Ιστό Χρήση μιας μηχανής αναζήτησης Επιλογή συγκεκριμένης μηχανής αναζήτησης Είναι συχνό το φαινόμενο να θέλει ο χρήστης να εντοπίσει πληροφορίες στο διαδίκτυο και να μην ξέρει που να κοιτάξει.

Διαβάστε περισσότερα

Social Web: lesson #4

Social Web: lesson #4 Social Web: lesson #4 looking for relevant information browsing searching monitoring recommendations Information Retrieval the inverted index Google.com the pagerank algorithm the value of words the price

Διαβάστε περισσότερα

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος Γ.Γ Συντονισμού του Κυβερνητικού Έργου ΕΕΛΛΑΚ: Ομάδα Ανοιχτής Διακυβέρνησης ΕΕΛΛΑΚ Google Summer of Code Το πρόβλημα

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25 Περιεχόμενα Κεφάλαιο 1 Εισαγωγή στην Access...9 Γνωριμία με την Access... 12 Δημιουργία βάσης δεδομένων... 18 Άνοιγμα και κλείσιμο βάσης δεδομένων... 21 Ερωτήσεις ανακεφαλαίωσης... 22 Πρακτική εξάσκηση...

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Διαχείριση Πολιτισμικών Δεδομένων Μάθημα 1 Εισαγωγή στις Βάσεις Δεδομένων Τζανέτος Πομόνης ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι οι Βάσεις

Διαβάστε περισσότερα

Πολιτική για τα cookies

Πολιτική για τα cookies Πολιτική για τα cookies Έκδοση 1.0 Πολιτική για τα cookies Εισαγωγή Πληροφορίες για τα cookies Η πλειονότητα των ιστοτόπων που επισκέπτεστε χρησιμοποιεί τα cookies για να βελτιώνει την εμπειρία του χρήστη,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι Απλά ερωτήματα Επιλογής Ερωτήματα με Ενώσεις πινάκων Ερωτήματα με Παραμετρικά Κριτήρια Ερωτήματα με Υπολογιζόμενα πεδία Απλά ερωτήματα Επιλογής Τα Ερωτήματα μας επιτρέπουν

Διαβάστε περισσότερα

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο FrontPage 2003 Πρακτικός Οδηγός Χρήσης Το FrontPage είναι ένα πρόγραμμα δημιουργίας ιστοσελίδων και δικτυακών τόπων που επιτρέπει το σχεδιασμό ιστοσελίδων μέσα από γραφικό περιβάλλον αλλά και την ταυτόχρονη

Διαβάστε περισσότερα

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΕΝΟΤΗΤΑ 1.1 ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΔΙΔΑΚΤΙΚΟI ΣΤOΧΟΙ Στο τέλος της ενότητας αυτής πρέπει να μπορείτε: να επεξηγείτε τις έννοιες «βάση δεδομένων» και «σύστημα διαχείρισης βάσεων δεδομένων» να αναλύετε

Διαβάστε περισσότερα

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις Άγγελος Μητρέλης 1, Λεωνίδας Παπαχριστόπουλος 1, Γιάννης Τσάκωνας 1,2, Χρήστος Παπαθεοδώρου

Διαβάστε περισσότερα

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ 1Τι είναι ο Παγκόσµιος Ιστός; Λόγω της µεγάλης απήχησης του Παγκόσµιου Ιστού πολλές φορές ταυτίζουµε τον Παγκόσµιο Ιστό µε το Διαδίκτυο. Στην πραγµατικότητα αυτή η αντίληψη

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση Ηλεκτρονικό εμπόριο HE 8 Εξατομίκευση Πληροφοριακός υπερφόρτος (information overload) Αδυναμία διαχείρισης μεγάλου όγκου πληροφοριών και εντοπισμού της χρήσιμης πληροφορίας Η εξατομίκευση στοχεύει στην

Διαβάστε περισσότερα

Πλοήγηση και Αναζήτηση

Πλοήγηση και Αναζήτηση Πλοήγηση και Αναζήτηση Περιήγηση Το Eprints παρέχει πολλούς διαφορετικούς τρόπους να επιμεριστεί το καταθετήριο σε διαφορετικές συλλογές και να προσεγγίζεται το περιεχόμενό του από διαφορετικές οπτικές

Διαβάστε περισσότερα

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε; 1.1 ΕΙΣΑΓΩΓΗ Η πληροφορία αποτελεί το βασικό εργαλείο άσκησης της ιατρικής επιστήμης. Η διάγνωση, η θεραπεία, η πρόληψη και η διοίκηση της υγείας βασίζονται στην απόκτηση, διαχείριση και επεξεργασία της

Διαβάστε περισσότερα

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης ιπλωµατική Εργασία του Θεοδώρου Ι. Γαλάνη ΠΕΡΙΛΗΨΗ Γενικά Με την εξάπλωση του διαδικτύου όλο και περισσότεροι

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

ΚΑΡΤΕΛΑ ΕΡΕΥΝΗΤΗ ΕΠΙΤΡΟΠΗ ΕΡΕΥΝΩΝ ΑΠΘ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ

ΚΑΡΤΕΛΑ ΕΡΕΥΝΗΤΗ ΕΠΙΤΡΟΠΗ ΕΡΕΥΝΩΝ ΑΠΘ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ 2011 ΕΠΙΤΡΟΠΗ ΕΡΕΥΝΩΝ ΑΠΘ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΚΑΡΤΕΛΑ ΕΡΕΥΝΗΤΗ Στο παρόν έγγραφο μπορείτε να βρείτε αναλυτικές πληροφορίες για τις υπηρεσίες που παρέχονται στην Καρτέλα Ερευνητή

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

Πρόγραμμα Μεταπτυχιακών Σπουδών

Πρόγραμμα Μεταπτυχιακών Σπουδών Πρόγραμμα Μεταπτυχιακών Σπουδών Συνοπτική Παροσουσίαση η κατάρτιση πτυχιούχων ΑΕΙ και ΤΕΙ σε ειδικά θέματα και εφαρμογές της Πληροφορικής και της Τηλεματικής κυρίως στα πεδία των δικτυοκεντρικών πληροφοριακών

Διαβάστε περισσότερα