Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems) Διδακτικές μονάδες: 4 Προαπαιτούμενα ΗΥ240 - Δομές Δεδομένων ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γιάννης Τζίτζικας ιάλεξη : 1 Ημερομηνία : 3-2-2009 Θέμα : ιαδικαστικά, Εισαγωγή και Επισκόπηση Εβδομαδιαίο Πρόγραμμα : Διαλέξεις: Τρίτη 5-7 και Πέμπτη 3-5 στην αίθουσα Β211 Φροντιστήρια: Παρασκευή 1-3 στην αίθουσα ΡΑ201 (θα στέλνεται email πριν από κάθε φροντιστήριο) Παρακολούθηση Αναμενόμενη αλλά όχι υποχρεωτική Η ενεργή συμμετοχή στο μάθημα θα ληφθεί θετικά υπόψη Γραφτείτε (σήμερα) στη λίστα hy463-list CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 2 Προσωπικό Ιστοσελίδα μαθήματος Διδάσκων: Γιάννης Τζίτζικας tzitzik (at) csd.uoc.gr Γραφείο: Γ107 (τηλ. 393 521) Ώρες γραφείου: πριν και μετά τις διαλέξεις Βοηθοί: Παπαδάκος Παναγιώτης Αρμενατζόγλου Νίκος Μύρωνας Παπαδάκης Πέτρος Τσιαλαμάνης Υπεύθυνοι για: Λύση και βαθμολόγηση ασκήσεων Επίβλεψη εργασιών Φροντιστήρια Απάντηση η ερωτήσεων www.csd.uoc.gr/~hy463 Τελευταίες Ανακοινώσεις Περιγραφή Μαθήματος - Διδακτέα Ύλη Πρόγραμμα Διαλέξεων Διαφάνειες Διαλέξεων, Πρόγραμμα Μελέτης Ασκήσεις, Λύσεις, Βαθμολογίες Ύλη Μαθήματος Συνδέσμους σε συμπληρωματικό δδ διδακτικό υλικό (βιβλία, (ββλί άρθρα, σχετικές διαδυκτιακές πύλες, ανάλογα μαθήματα σε άλλα Παν/μια, κλπ). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 3 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 4
Διδακτικό Ύλικό Σειρές Ασκήσεων Κύριο Βιβλίο Modern Information Retrieval, by Baeza-Yates and Ribeiro-Neto Πρόσθετα Βιβλία και Ερευνητικά Άρθρα θα αναρτώνται στην ιστοσελίδα (ήδη υπάρχουν κάποια) Φωτοτυπίες κεφαλαίων από το κύριο βιβλίο συνεννοηθείτε με τους βοηθούς Σκοπός: η κατανόηση και εμπέδωση της ύλης, και η συνεχής επαφή με το μάθημα κατά τη διάρκεια του εξαμήνου Θα δοθούν μάλλον 4 σειρές ασκήσεων 1. Αξιολόγηση της αποτελεσματικότητας της ανάκτησης, μοντέλα ανάκτησης και ευρετήρια 2. Χρήση bazar 3. Προγραμματιστική 4. Άλλα θέματα Βάρος: 35% του τελικού βαθμού CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 6 Πρόοδος Εργασία μαθήματος (project) Το εάν θα γίνει θα εξαρτηθεί από την συμμετοχή σας στο μάθημα. [Αξία: ξ 20% τελικού βαθμού] ] 2005:Υλοποίηση ενός Συστήματος Ανάκτησης Πληροφοριών με ψευδοανάδραση συνάφειας (pseudo relevance feedback) Χρονοδιάγραμμα (1 Απρίλη-Mέσα Μαΐου), oμάδες 2 ατόμων, yλοποίηση λ ί σε Java Βάρος: 30% Τελικού βαθμού 2006: Ανάπτυξη μια μηχανής αναζήτησης για τον παγκόσμιο ιστό. Κάθε ομάδα θα αναλάβει μόνο κάποια υποσυστήματα αυτής της μηχανής. => Groogle 2006 (basic functionality but too many problems) 2007: => Groogle 2007 (decent but several functionalities cto tes were e missing) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 7 2008: => Stemmer Utilities, Inverted Index (without DBMS), Crawlers 2009: => Groogle 2009 (improved ranking & link analysis techniques) and whatever extra you like (it s up to you!) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 8
Βαθμολόγηση Εντιμότητα Τελικός βαθμός Τελικός = 35% Ασκήσεις + 25% Εργασία + 40% ΤελικήΕξέταση Για να περάσετε το μάθημα χρειάζεστε Τελικός 5 AND ΤελικήΕξ 4 Σημειώσεις στην Πρόοδο/Τελική Εξέταση: [Εξέταση προόδου: Κλειστές (μάλλον)] Τελική εξέταση: Ανοιχτές Αντιγραφή ή άλλες μορφές κλοπής θα σημάνουν αυτόματα αποτυχία στο μάθημα Συμβουλές μην αντιγράφετε ή δίνετε τις εργασίες σας σε άλλους προστατέψτε τα αρχεία και τα έγγραφά σας πάντα να αναφέρετε τις πηγές σας (άτομα, βιβλία, Web) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 9 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 10 Ανάκτηση Πληροφοριών (Information Retrieval): Το τυπικό πρόβλημα Ανάκτηση Πληροφοριών (Information Retrieval): Το τυπικό πρόβλημα Δεδομένα Προβλήματος Μια συλλογή από έγγραφα με κείμενο φυσικής γλώσσας D={d1,,dn} Μια επερώτηση q ενός χρήστη σε μορφή συμβολοσειράς (string) Ζητούμενο Ένα διατεταγμένο σύνολο από έγγραφα που είναι συναφή με την επερώτηση <d5,d2,d7,d9> String IR System Document corpus 1. Doc5 2. Doc2 3D 3. Doc7 4 Doc9 Ranked Relevant documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 11 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 12
Σκεπτικό: Περιγραφή Μαθήματος Τα Συστήματα Ανάκτησης Πληροφοριών (Information Retrieval systems) επιτρέπουν την πρόσβαση σε μεγάλους όγκους πληροφοριών αποθηκευμένων με τη μορφή κειμένου, φωνής, video, ή σε σύνθετη μορφή όπως Ιστοσελίδες. Σκοπός των συστημάτων αυτών είναι η ανάκτηση μόνο εκείνων των εγγράφων που είναι συναφή με αυτό που αναζητεί ο χρήστης. Για να το επιτύχουν πρέπει να αντιμετωπίσουν την αβεβαιότητα ως προς το τι πραγματικά αναζητεί ο χρήστης και ποιο το θέμα ενός εγγράφου. Σκοπός του μαθήματος Εισαγωγή στην περιοχή των συστημάτων ανάκτησης πληροφοριών και εξέταση των θεωρητικών και πρακτικών ζητημάτων που σχετίζονται με την σχεδίαση, υλοποίηση και αξιολόγηση τέτοιων συστημάτων. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 13 Στόχοι του μαθήματος Μετά το πέρας αυτού του μαθήματος πρέπει να: έχετε κατανοήσει τη θεωρητική βάση των καθιερωμένων μοντέλων ανάκτησης (Boolean, Vector Space, Probabilistic, Logical Models), έχετε κατανοήσει τεχνικές παράστασης και ανάκτησης εγγράφων, εικόνων, ομιλίας, κλπ, έχετε μάθει να υλοποιείτε και να αξιολογείτε ένα σύστημα ανάκτησης πληροφοριών, να έχετε κατανοήσει τους καθιερωμένους τρόπους ευρετηρίασης και ανάκτησης του Παγκόσμιου Ιστού, να έχετε γνωρίσει ποικίλους αλγόριθμους και συστήματα. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14 Εισαγωγή στην Ανάκτηση Πληροφοριών Διάρθρωση Γιατί χρειαζόμαστε ΑΠ? Γιατί χρειαζόμαστε Ανάκτηση Πληροφοριών (ΑΠ); Τι είναι η Ανάκτηση Πληροφοριών; Ανάκτηση, Διήθηση, Πλοήγηση Μοντέλα Πλοήγησης Το βασικό πρόβλημα στην Ανάκτηση η Πληροφοριών ρ Ανάκτηση Δεδομένων έναντι Ανάκτηση Πληροφοριών Συνάφεια Η βασική προσέγγιση & αρχιτεκτονική ενός Συστήματος Ανάκτησης Πληροφοριών (ΣΑΠ) Ανάκτηση Πληροφοριών στον Παγκόσμιο Ιστό Άλλες λειτουργίες ενός ΣΑΠ Ιστορική Αναδρομή Σχετικές Περιοχές Για να μπορούμε να βρίσκουμε ψύλλους στ άχυρα Πόσο εύχρηστος θα ήταν ο Ιστός χωρίς μηχανές αναζήτησης; Ο Ιστός περιέχει δισεκατομμύρια σελίδες The Indexed Web contains at least 45.84 billion pages (Monday, 18 February, 2008). Ο κόσμος ό παράγει περίπου 2 exabytes (2 60 ) νέας πληροφορίας το χρόνο, 90% της οποίας είναι σε ψηφιακή μορφή και με 50% ετήσια αύξηση CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 16
Το πρόβλημα δεν είναι νέο Το πρόβλημα είναι σημαντικό και επίκαιρο (Εφημερίδα: Το ΒΗΜΑ 22/1/2006) "There is a growing mountain of research... The investigator t is staggered by the findings and conclusions of thousands of other workers - conclusions which he cannot find time to grasp, much less remember. The summation of human experience is being expanded at a prodigious rate and the means we use for threading through the consequent maze to the momentarily important item is the same that t was used in the days of the square rigged ships." V. Bush 1945 Μέσα σε μόλις επτά χρόνια μια παγκόσμια αυτοκρατορία εξαπλώθηκε. Όχι δεν έχει στρατό και πλοία. Είναι μια εξουσία της γνώσης: η μεγαλύτερη μηχανή διύλισης - για την ακρίβεια - των πληροφοριών που κυκλοφορούν στο Διαδίκτυο. Είναι δωρεάν και προσφέρει απλόχερα τις αγαθοεργούς υπηρεσίες της εν είδει καθολικής και αποστολικής εκκλησίας της γνώσης. Και όπως κάθε παγκόσμια εκκλησία, έχει θησαυρίσει. Με δεδομένη την καχυποψία μας για κάθε αυτοκρατορική εξουσία και με τη φθονερή βεβαιότητα ότι ουδέν καλόν αμιγές κακού, ας δούμε ποια είναι και που το πάει η Google CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 17 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 18 Το πρόβλημα είναι σημαντικό και επίκαιρο (έως και οι πολιτικοί άρχισαν να ασχολούνται με αυτό) Τι να είναι η ΑΠ; Ο πρόεδρος της Γαλλίας σήμανε προσκλητήριο για μια ευρωπαϊκή μηχανή αναζήτησης που θα απέκρουε τον αγγλοσαξονικό πολιτισμικό ιμπεριαλισμό. Εξήγγειλε ως βασική προτεραιότητα του για το 2006 το Project Quaero ( Ερευνώ στα λατινικά), την υλοποίηση δηλαδή μιας ευρωπαικής μηχανής αναζήτησης 30/8/2005: Βρισκόμαστε στο μέσον ενός παγκόσμιου ανταγωνισμού για τεχνολογική υπεροχή. Στη Γαλλία, στην Ευρώπη, διακυβεύεται η αυτοκυριαρχία μας. 1/1/2006: Σήμερα χαράσσεται η νέα γεωγραφία της γνώσης και των πολιτισμών. Αύριο εκείνο που δεν είναι ευρέσιμο στο Διαδίκτυο κινδυνεύει να είναι αθέατο από τον κόσμο. Project Quaero Συνεταίροι: Thomson, France Telecom, Deutsche Telekom, CNRS, RWTH (Aachen), INRIA, Bertelsmann, Θα επεκταθεί η υπάρχουσα μηχανή Exalead αυτόματη μετάφραση, καταλογογράφηση,..... Europeana grep www.vivisimo.com CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 19 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 20
Τι να είναι η ΑΠ; Ανάκτηση και Φιλτράρισμα Μήπως οι μηχανές αναζήτησης όπως το Google, Lycos? Αρκετά αποτελεσματικές (σε μερικά πράγματα) Αναγνωρίσιμες και γνωστές Εμπορικά επιτυχημένες (τουλάχιστον μερικές) Ανάκτηση (ad hoc retrieval): Σταθερή συλλογή εγγράφων, μεταβαλλόμενες επερωτήσεις query query query query IR System σταθερή Τι συμβαίνει όμως πίσω από τη σκηνή ; Πως δουλεύουν? Πως μπορούμε να κρίνουμε αν δουλεύουν καλά; Πως μπορούμε να τις κάνουμε πιο αποτελεσματικές; Πως μπορούμε να τις κάνουμε να λειτουργούν πιο γρήγορα; Υπάρχει τίποτα παραπάνω από αυτό που βλέπουμε στον Ιστό; Φιλτράρισμα ή Διήθηση (Filtering): Σταθερή επερώτηση, ροή νέων κειμένων Προφίλ Χρήστη = Επερώτηση που εκφράζει πιο μόνιμες μ προτιμήσεις Έμφαση στη δημιουργία/ενημέρωση του προφίλ σταθερή User profile IR System CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 21 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22 Φιλτράρισμα Ανάκτηση και Πλοήγηση (Retrieval vs Browsing) User 2 Docs Filtered Profile for User 2 User 1 Profile Docs for User 1 Information need Retrieval string Browsing Ο Ο χρήστης δεν διατυπώνει επερώτηση Πλοήγηση με σκοπό ή χωρίς σκοπό (εξερεύνηση). Documents Stream CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24
Τύποι Πλοήγησης (Types of Browsing) Πλοήγηση οδηγούμενη από δομή Παράδειγμα (1) Επίπεδο (flat) πχ. μια λίστα εγγράφων bysports Hotels bylocation (2) Οδηγούμενο από δομή (structure guided) Υπάρχει δομή (συνήθως ιεραρχική) Παραδείγματα η οργάνωση αρχείων σε φακέλους το ευρετήριο του Yahoo! ή του ODP Δομή μπορεί να υπάρχει και στο επίπεδο των εγγράφων πχ abstract, section 1,, αναφορές) SeaSports WinterSports Islands Mainland Islands Mainland Mainland Crete Pilio Olympus Crete Pilio Pilio Olympus SeaSports SeaSports WinterSports WinterSports CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 26 Τύποι Πλοήγησης (II) (3) Μη γραμμικό κείμενο (Hypertext) διευθυνόμενοι σύνδεσμοι (π.χ. HTML) σύνδεσμοι διπλής κατεύθυνσης τύποι συνδέσμων (typed links) (4) Διεπίπεδο μη γραμμικό κείμενο Τα έγγραφα ταξινομούνται σε ένα εννοιολογικό σχήμα και από αυτήν την ταξινόμηση επάγονται οι συνδέσεις τους Παράδειγμα: σύστημα DOMENICUS [Tzitzikas & Theodorakis, Hypertext 96] Ανάκτηση Πληροφοριών (Information Retrieval): Το τυπικό πρόβλημα Δεδομένα Μια συλλογή από έγγραφα με κείμενο φυσικής γλώσσας D={d1,,dn} Μια επερώτηση q ενός χρήστη σε μορφή συμβολοσειράς (string) Ζητούμενο Ένα διατεταγμένο σύνολο από έγγραφα που είναι συναφή με την επερώτηση <d5,d2,d7,d9> String IR System Document corpus 1. Doc5 2. Doc2 3D 3. Doc7 4 Doc9 Ranked Relevant documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 27 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 31
Ανάκτηση Πληροφοριών (Information Retrieval): Μερικές παραλλαγές του προβλήματος Πληροφοριακές Ανάγκες Χρήστη (User Information Need) String IR System corpus Information need 1. 1D5 2. D2 3. D7 4 D9 Ranked Relevant «documents» Κείμενο φυσικής γλώσσας Έγγραφα κειμένου Λογική έκφραση (με τελεστές and, or, not) Υπερκείμενα (π.χ. χ HTML) Με τελεστές εγγύτητας Δομημένα έγγραφα (π.χ. XML) Πολυμέσα Πολυμέσα (εικόνες, ήχοι, video) Δομικές συνθήκες (π.χ. χ εκφράσεις Xquery) Παράδειγμα Find all docs containing information on college tennis teams which: (1) are maintained by a USA university and (2) participate p in the NCAA tournament. Έμφαση στην ανάκτηση πληροφορίας (όχι δεδομένων) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 32 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 33 Ανάκτηση Δεδομένων έναντι Ανάκτηση Πληροφορίας (Data versus Information Retrieval) Ανάκτηση Δεδομένων ποια έγγραφα περιέχουν αυτές τις λέξεις ; Καλά ορισμένη σημασιολογία (δεδομένων και επερωτήσεων) ένα λάθος αντικείμενο ισοδυναμεί με αποτυχία ορθότητα (soundness), πληρότητα η (completeness) Ανάκτηση Πληροφορίας βρες πληροφορίες σχετικές με αυτό το θέμα η σημασιολογία είναι αρκετά χαλαρή ανοχή σε μικρά σφάλματα Σύστημα Ανάκτησης Πληροφορίας (ΣΑΠ) : προσπαθεί να ερμηνεύσει το περιεχόμενο των εγγράφων και επερωτήσεων και να παράξει μια διάταξη των εγγράφων βάσει του βαθμού συνάφειας τους με την επερώτηση. Η έννοια της συνάφειας είναι κυρίαρχο ζήτημα. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 34 Συνάφεια (Relevance) Δεν υπάρχει τυπικός ορισμός της συνάφειας! Η συνάφεια είναι σε μεγάλο βαθμό υποκειμενική. Συναφές έγγραφο μπορεί να σημαίνει: στο σωστό θέμα επίκαιρο (timely) έγκυρο (από αξιόπιστη πηγή). Ικανό να ικανοποιήσει τους σκοπούς του χρήστη (τη επιθυμητή χρήση της αναζητούμενης πληροφορίας) (information need)... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 35
Η βασική προσέγγιση ΑΠ Πως βλέπουμε ένα έγγραφο; Οι πιο επιτυχημένες προσεγγίσεις είναι οι στατιστικές Γιατί όχι επεξεργασία φυσικής γλώσσας; Χειρονακτικά προσδιορισμένες επικεφαλίδες (headings) e.g. Library of Congress headings, Dewey Decimal headings η χειρονακτική ευρετηρίαση είναι ακριβή η χειρονακτική ευρετηρίαση απαιτεί συμφωνία (human agreement) Πως βλέπουμε ένα έγγραφο; Ως έχει (full text); Αγνοώντας λέξεις που δεν φέρουν νόημα (π.χ. τα άρθρα) ; Ως σάκο (bag) όρων ευρετηρίου (bag of index terms), δηλαδή αγνοώντας τη σειρά με την οποία εμφανίζονται οι λέξεις στο κείμενο; Ως σύνολο όρων ευρετηρίου (set of Index terms) Ως δομημένο έγγραφο (π.χ. hypertext, XML) Η απάντηση σε αυτό το ερώτημα θα καθορίσει τη μορφή του ευρετηρίου που πρέπει να κατασκευάσουμε (και τον τύπο των επερωτήσεων που μπορούμε να απαντήσουμε). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 36 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 37 Πως βλέπουμε ένα έγγραφο; Σνωμφύα με μια ένυερα του Κέμπριτζ η σιερά των γμμάαρωτν σε μια λξέη δεν έεχι σησίμαα. Ακρεί το πώτρο και το ταίυελετο γμαράμ να είανι στη σστωή σεριά. Σύμφωνα με μια έρευνα του Κέμπριτζ η σειρά των γραμμάτων σε μια λέξη δεν έχει σημασία. Αρκεί το πρώτο και το τελευταίο γράμμα να είναι στη σωστή σειρά. Docs Accents spacing stopwords Noun groups stemming Manual indexing structure structure Full text Index terms CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 38 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 39
Οι βασικές λειτουργικές μονάδες ενός ΣΑΠ Λειτουργίες Κειμένου (Text Operations) σχηματίζουν τις λέξεις ευρετηρίου (tokens, index terms). Αφαίρεση λέξεων αποκλεισμού (Stopword removal), Stemming Ευρετηριασμός (Indexing) κατασκευάζει ένα ευρετήριο (συνήθως inverted index) με δείκτες από τις λέξεις προς τα έγγραφα Αναζήτηση (Searching) ανακτά τα έγγραφα που περιέχουν μια λέξη (της επερώτησης) από το inverted index. Κατάταξη (Ranking) διαβαθμίζει όλα τα ανακτημένα αρχεία βάσει μιας μετρικής συνάφειας. Διεπαφή (User Interface) διευθύνει την αλληλεπίδραση με το χρήστη Λειτουργίες επερώτησης ( Operations) μετασχηματίζουν την επερώτηση για βλί βελτίωση της ανάκτησης: Επέκταση επερώτησης χρησιμοποιώντας έναν θησαυρό Επέκταση επερώτησης βάσει τοπικής ή καθολικής ανάλυσης Μετασχηματισμός επερώτησης με ανάδραση συνάφειας... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 40 Γενική μορφή ενός ευρετηρίου Indexing Items k 1 k 2... k j... k D t o d 1 c 11 1,1 c 21 2,1..... c i1 i,1..... c t1 t,1 c d 2 c 1,2 c 2,2... c i,2... c t,2 u..................... m d i c 1,j c 2,j... c i,j... c t,j..................... d N c 1,N c 2,N... c i,n... c t,n e n t s c ij : το κελί που αντιστοιχεί στο έγγραφο di και στον όρο kj, το οποίο μπορεί να περιέχει: ένα w ij που να δηλώνει την παρουσία ή απουσία του kj στο di (ή τη σπουδαιότητα του kj στο di) τις θέσεις στις οποίες ο όρος kj εμφανίζεται στο di (αν πράγματι εμφανίζεται) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 41 Δημιουργία του Ευρετηρίου Λειτουργίες Κειμένου (Text Operations) σχηματίζουν τις λέξεις ευρετηρίου (tokens, index terms). D o c u m e n t s Indexing Items k 1 k 2... k j... k t d 1 c 11 1,1 c 21 2,1... c i1 i,1... c t,1 d 2 c 1,2 c 2,2... c i,2... c t,2..................... d i c 1,j c 2,j... c i,j... c t,j..................... d N c 1,N c 2,N... c i,n... c t,n Ευρετηρίαση (Indexing) κατασκευάζει ένα ευρετήριο (inverted index) με δείκτες από τις λέξεις προς τα έγγραφα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 42 Χρήση του Ευρετηρίου query Αναζήτηση (Searching) ανακτά τα έγγραφα που περιέχουν μια λέξη (της επερώτησης) από το inverted index. Κατάταξη (Ranking) διαβαθμίζει όλα τα ανακτημένα αρχεία με βάσει μια μετρική συνάφειας. Indexing Items k 1 k 2..... k j..... k D t o d 1 c 1,1 c 2,1... c i,1... c t,1 c d 2 c 1,2 c 2,2... c i,2... c t,2 u..................... m e d i c 1,j c 2,j... c i,j... c t,j n..................... t d N c 1,N c 2,N... c i,n... c t,n s CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 43
Η Αρχιτεκτονική ενός ΣΑΠ user need logical view user feedback Operations query retrieved docs Searching User Interface Text Operations logical view inverted dfile Indexing Index Text Text Text Corpus Αναζήτηση στον Ιστό (Web Search) Εφαρμογή της ΑΠ σε έγγραφα HTML του Ιστού Διαφορές: Εδώ πρέπει να συλλέξουμε τη συλλογή των εγγράφων διασχίζοντας (crawling/spidering) τον Ιστό και να την κρατάμε ενήμερη διότι οι σελίδες τροποποιούνται/διαγράφονται χωρίς προειδοποίηση. Μπορούμε να καταγράψουμε και να αξιοποιήσουμε τη δομή των συνδέσμων του Ιστού. Μπορούμε να αξιοποιήσουμε τη δομή της πληροφορίας των HTML (ή XML) εγγράφων, π.χ. οι λέξεις που εμφανίζονται μεταξύ <h1>.. </h1> μπορεί να θεωρηθούν «σπουδαιότερες» από αυτές που εμφανίζονται μεταξύ <h3>.. </h3> ranked kddocs Ranking CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 44 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 45 Σύστημα Αναζήτησης Ιστού Γενική μορφή ενός Ευρετηρίου για ανάκτηση πληροφοριών από τον Ιστό Crawling («έρπειν») Web Crawler Document corpus String 1. Page1 2. Page2 3. Page3.. IR System Ranked Documents W e b p a g e s Indexing Items k 1 k 2... k j... k t d 1 c 11 1,1 c 21 2,1... c i1 i,1... c t,1 d 2 c 1,2 c 2,2... c i,2... c t,2..................... d i c 1,j c 2,j... c i,j... c t,j..................... d N c 1,N c 2,N... c i,n... c t,n Ευρετηρίαση (Indexing) From To d2 d3 d2 d4 d4 d1 d10 d20 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 46 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 47
Άλλες λειτουργίες που σχετίζονται με την ΑΠ User Automatic Taxonomy User Interface Stemmer Stemmed Evaluator Boolean Vector-Space Fuzzy Model Model Model Expansion Indexing Process Edit Distance Index document(id,md5,title,,url,type,rank, ) word(id,name,df) occurrence(word_id,doc_id,block[],tf) spam(url,freq) collection(id,name) collection_document(col_id,doc_id) Term Positions stopwords Clustering World Wide Web Results Crawler DFS BFS BWS Links Anchors Document Index ID1 link1 link1 text1 ID, URL, path, title, ID2 link2 link2 text2 charset, type, Retrieval ID2 link3 link3 text3 last_changed,...... last_fetched Process Ranker Indexer Lexical Analyzer Stemmer Repository Parsers html parser./www.site.com pdf parser./www.site.com/1.html stopwords plain-text parser./www.site.com/3.html MS-format parser./www.site.com/2.html...... Question answering (απάντηση ερωτήσεων) Recommender systems (συστήματα συστάσεων) ) Automatic clustering (αυτόματη ομαδοποίηση) Cross-language retrieval (διαγλωσσική ανάκτηση) Data and information mining (εξόρυξη δεδομένων και πληροφοριών) Information integration (εννοποίηση πληροφοριών) Knowledge management (διαχείριση γνώσης) Meta-search (multi-database searching) (μέτα-αναζήτηση) αναζήτηση) Summarization (αυτόματη περίληψη) Agents (filtering, routing)... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 49 Ενδεικτικά Συστήματα IR Systems Verity, Fulcrum, Excalibur, Eurospider Hummingbird, Documentum Inquery, Smart, Okapi, Lemur, Indri Web search and in-house systems West, LEXIS/NEXIS, Dialog Lycos, AltaVista, Excite, Yahoo, Google, Nothern Light, Teoma, HotBot, Direct Hit, Ask Jeeves elibrary, Inquira vivisimo (www.vivisimo.com)... ΗΥ463: Θεματικές Ενότητες CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 50
ΗΥ463: Θεματικές Ενότητες ΗΥ463: Θεματικές Ενότητες (ΙΙ) 1. Εισαγωγή Τι είναι η Ανάκτηση Πληροφοριών, Βασικές έννοιες, Ιστορική αναδρομή 2. Αξιολόγηση Αποτελεσματικότητας ( 1-2 διαλέξεις) Ακρίβεια, Ανάκληση, Εναλλακτικά μέτρα, Συλλογές αναφοράς 3. Μοντέλα Ανάκτησης Πληροφοριών ( 3 διαλέξεις) Boolean, Διανυσματικό, Πιθανοκρατικό, Εναλλακτικά μοντέλα 4. Προχωρημένες Λειτουργίες Επερώτησης ης ( 1 διάλεξη) δάλ ) Επέκταση επερώτησης, Ανάδραση συνάφειας, Αυτόματη τοπική/καθολική ανάλυση 5. Γλώσσες Επερώτησης ης για Ανάκτηση ηηπληροφοριών ρ ( 1 διάλεξη) Λέξεις κλειδιά, Λογικές επερωτήσεις, Επερωτήσεις συμφραζομένων, Επερωτήσεις φυσικής γλώσσας, Δομημένες επερωτήσεις, Ευρετηρίαση και Ανάκτηση XML εγγράφων 6. Ομαδοποίηση Εγγράφων (Clustering) ( 1 διάλεξη) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 52 7. Ευρετηρίαση, Προεπεξεργασία και Οργάνωση Αρχείων Κειμένου ( 2 δ) Λέξεις αποκλεισμού (stopwοrds), stemming (στελέχωση χ ηκειμένου) ), θησαυροί όρων Ανεστραμμένα Αρχεία (inverted files), Δένδρα Καταλήξεων (suffix trees), Αρχεία Υπογραφών (signature files) 8. Στατιστικά και Συμπίεση Κειμένου ( 1 διάλεξη) 9. Αναζήτηση σε Κείμενα Αλγόριθμοι Knuth-Morris-Pratt, Boyer-Moore, Αυτόματο καταλήξεων (suffix automaton), Φράσεις και εγγύτητα 10. Ανάκτηση Πολυμέσων ( 2 διαλ.) Μοντέλα και γλώσσες, Ευρετηρίαση και Αναζήτηση 11.Παράλληλη και Κατανεμημένη Ανάκτηση Πληροφοριών ( 3 διαλέξεις) Αρχιτεκτονικές MIMD, SIMD, Peer-2-Peer (P2P), Διαμερισμός συλλογών, Επιλογή πηγής,επεξεργασία επερωτήσεων, Ανάκτηση Πληροφοριών σε P2P CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 53 ΗΥ463: Θεματικές Ενότητες (ΙΙΙ) ΗΥ463: Θεματικές Ενότητες (IV) 12. Τεχνικές μετα-κατάταξης (meta-ranking) ( 1 διάλεξη) Ενοποιημένες και απομονωμένες μέθοδοι, Παρεμβολή, Ψηφοφορία 13. Αναζήτηση στον Παγκόσμιο Ιστό ( 3 διαλέξεις) Ευρετηρίαση ιστοσελίδων, Διάσχιση του ιστού (crawling), Τεχνικές ανάλυσης συνδέσμων (link analysis), PageRank, HITS 14. Εξατομικευμένη Ανάκτηση και Διήθηση Προφίλ χρηστών, Συνεργατική Ανάκτηση και Διήθηση 15. Ανάκτηση Δομημένων Εγγράφων Eυρετηρίαση και ανάκτηση εγγράφων XML 16. Διεπαφές Χρήσης και Οπτικοποίηση ( 1 διάλεξη) Άλλα σχετικά ζητήματα που ίσως προλάβουμε να θίξουμε: Cross language g retrieval Information Extraction Text Categorization Digital Libraries Video Retrieval Generalized dinteraction Models Faceted Classification Theory and Recent Advances CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 54 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 55
Ιστορική Αναδρομή Ιστορική Αναδρομή 1960-70 s: Initial exploration of text retrieval systems for small corpora of scientific abstracts, and law and business documents. Development of the basic Boolean and vector-space models of retrieval. Prof. Salton and his students at Cornell University are the leading researchers in the area. 1980 s: Large document database systems, many run by companies: Lexis-Nexis Dialog MEDLINE CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 57 Ιστορική Αναδρομή (II) 1990 s: Searching FTPable documents on the Internet Archie WAIS Searching the World Wide Web Lycos Yahoo Altavista Organized Competitions NIST TREC Recommender Systems Ringo Amazon NetPerceptions Automated Text Categorization & Clustering CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 58 Ιστορική Αναδρομή (III) 2000 s Link analysis for Web Search Google Automated Information Extraction Whizbang Fetch Burning Glass Πριν τον Ιστό η ΑΠ εθεωρείτο ότι είχε στενό Question Answering πεδίο εφαρμογής TREC Q/A track Multimedia IR Μετά την επινόηση του Web αυτό άλλαξε για Image, Video, Audio and music τα καλά: Cross-Language IR οικουμενική δεξαμενή γνώσης DARPA Tides ελεύθερη (και φθηνή) καθολική πρόσβαση Document Summarization έλλειψη κεντρικού ελέγχου σύνταξης CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 59
«Ιστορική» Αναδρομή (IV) Στο μέλλον Στόχος: εύρεση της «σωστής» απάντησης για σένα εδώ και τώρα Εξατομίκευση (personalization), περίσταση (context) Επεξεργασία φυσικής γλώσσας Ενοποίηση η με άλλες τεχνολογίες Κατανεμημένη, ετερογενή ΑΠ CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 60 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 61 Σχετικές Περιοχές Comparing IR to Databases Artificial Intelligence Databases Information Retrieval Machine Learning Databases Data Structured Unstructured Fields Defined (e.g. age, price) No fields (other than text) Queries Defined (e.g. SQL) Free text (natural language), Boolean Matching Exact (results are always Imprecise (need to «correct») measure effectiveness) IR Natural Library & Language Information Processing Science CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 62 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 63
Τεχνητή Νοημοσύνη (Artificial Intelligence) Μηχανική Μάθηση (Machine Learning) Παραδοσιακά εστιάζει στην παράσταση γνώσης (knolwedge representation) και τον συλλογισμό (reasoning). Φορμαλισμοί για παράσταση γνώσης και επερωτήσεων: First-order Predicate Logic Bayesian Networks Η πρόσφατη δουλειά σε web ontologies και intelligent information agents την φέρνει πιο κοντά στην ΑΠ Εστιάζει στην ανάπτυξη υπολογιστικών συστημάτων που βελτιώνουν τις επιδόσεις τους με το χρόνο (αξιοποιώντας πρωθύστερη εμπειρία) Επιτηρούμενη Μάθηση (Supervised learning) Αυτόματη ταξινόμηση μέσω μάθησης από παραδείγματα (labeled training examples) Μη-Επιτηρούμενη Μάθηση (Unsupervised learning) Αυτόματη ομαδοποίηση Μηχανική μάθηση και Ανάκτηση Πληροφοριών Κατηγοριοποίηση Κειμένων (Text Categorization) Αυτόματη ιεραρχική ταξινόμηση (hierarchical classification, e.g.yahoo). Προσαρμόσιμη διήθηση (filtering) / δρομολόγηση (routing) / συστάσεις (recommending). Αυτόματος εντοπισμός spam. Ομαδοποίηση Κειμένων (Text Clustering) Ομαδοποίηση των αποτελεσμάτων της αναζήτησης Αυτόματος σχηματισμός ιεραρχιών (Yahoo). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 64 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 65 Επεξεργασία Φυσικής Γλώσσας Natural Language Processing Παραδοσιακά εστιάζει την συντακτική (syntactic) ανάλυση, σημασιολογική (semantic) ανάλυση και πραγματολογική (pragmatic) ανάλυση της φυσικής γλώσσας και ομιλίας Η ανάλυση του συντακτικού (δομή φράσεων) και της σημασιολογίας θα μπορούσε να επιτρέψει την ανάκτηση μέσω νοήματος, αντί λέξεων. Library and Information Science Focused on the human user aspects of information retrieval (human-computer interaction, user interface, visualization). Concerned with effective categorization of human knowledge. Concerned with citation analysis and bibliometrics (structure of information). Recent work on digital libraries brings it closer to CS & IR. Σχετικά θέματα: Μέθοδοι αποσαφήνισης του νοήματος των διφορούμενων λέξεων βάσει των συμφραζομένων (word sense disambiguation). Μέθοδοι αναγνώρισης συγκεκριμένων τμημάτων πληροφορίας σε ένα έγγραφο (information extraction). Μέθοδοι απάντησης επερωτήσεων φυσικής γλώσσας από συλλογές κειμένου CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 66 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 67