Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 1. Ανάκτηση Boole Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων
Γνωριμία ιδάσκων: Χρήστος ουλκερίδης e-mail: cdoulk@unipi.gr Ώρες γραφείου (102, Γρ.Λαμπράκη 126): Τετάρτη 09:15 11:00 Και κατόπιν συνεννόησης Ώρες μαθήματος: Τρίτη 08:15 08:30 11:00, Αίθ.335 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2
Επικοινωνία Ιστοσελίδα μαθήματος: http://evdoxos.ds.unipi.gr/courses/ds213/ Θέματα και υλικό σχετικά με το μάθημα ΙΑΛΕΞΕΙΣ ΑΝΑΚΟΙΝΩΣΕΙΣ ΕΚΦΩΝΗΣΕΙΣ ΕΡΓΑΣΙΩΝ ΠΑΡΑ ΟΣΗ ΕΡΓΑΣΙΩΝ ΒΟΗΘΗΤΙΚΟ ΥΛΙΚΟ... Άρα γραφτείτε στο μάθημα! March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3
Βιβλία Μαθήματος Εισαγωγή στην Ανάκτηση Πληροφοριών C.Manning, P.Raghavan, H.Schuetze Εκδόσεις Κλειδάριθμος Ανάκτηση Πληροφορίας Ricardo Baeza-Yates and Berthier Ribeiro- Nero Εκδόσεις Τζιόλα ιαβάστε το βιβλίο, οι διαφάνειες δεν αρκούν! March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4
Βαθμολογία Ασκήσεις (Α) Εξέταση (Ε) Τελικός Βαθμός = 0.7*Ε + 0.3*Α Παραδείγματα : Φοιτητής που έγραψε 6 στην τελική εξέταση αλλά δεν παρέδωσε ασκήσεις Τελικός Βαθμός = 0.7*6 + 0.3*0 = 4.2 4 Φοιτητής που έγραψε 5 στην τελική εξέταση και παρέδωσε ασκήσεις που βαθμολογήθηκαν με 10/10 Τελικός Βαθμός = 0.7*5 + 0.3*10 = 6.5 7 Φοιτητής που έγραψε 4 στην τελική εξέταση και παρέδωσε ασκήσεις που βαθμολογήθηκαν με 8/10 Τελικός Βαθμός = 0.7*4 + 0.3*8 = 5.2 5 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5
Σχετικά Μαθήματα στο Πρόγραμμα Σπουδών ομές εδομένων (3 ο εξάμηνο) Αλγόριθμοι & Πολυπλοκότητα (4 ο εξάμηνο) Σχεδιασμός Βάσεων εδομένων (4 ο εξάμηνο) Βάσεις εδομένων (5 ο εξάμηνο) Αποθήκες και Εξόρυξη εδομένων (6 ο εξάμηνο) Ανάκτηση Πληροφοριών (6 ο εξάμηνο) ιαχείριση εδομένων στον Π.Ι. (7 ο εξάμηνο) Εργαστήριο Ανάπτυξης Εφαρμογών Β (7 ο εξάμηνο) Εργαστήριο Συστημάτων Επεξεργασίας Πληροφοριών Π.Ι. (8 ο εξάμηνο) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6
Ανάκτηση Πληροφοριών Ανάκτηση Πληροφοριών (ΑΠ) είναι η εύρεση υλικού (συνήθως εγγράφων) αδόμητης φύσης (συνήθως κειμένων) μέσα σε μεγάλες συλλογές (που βρίσκονται συνήθως αποθηκευμένες σε υπολογιστές), το οποίο ικανοποιεί μια ανάγκη πληροφόρησης March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7
Αδόμητα (Κείμενα) vs. Δομημένα (Βάσεις) Δεδομένα το 1996 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8
Αδόμητα (Κείμενα) vs. Δομημένα (Βάσεις) Δεδομένα το 2009 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9
Αδόμητα Δεδομένα το 1680 Κεφάλαιο 1.1 Ποια έργα του Shakespeare περιέχουν τις λέξεις Brutus και Caesar αλλά όχι Calpurnia; (Brutus AND Caesar AND NOT Calpurnia) Μια λύση θα ήταν (?) η γραμμική σάρωση (grep) όλων των έργων αναζητώντας λέξεις Brutus και Caesar, και έπειτα αφαίρεση των γραμμών που περιέχουν το Calpurnia Γιατί δεν είναι κατάλληλη λύση; Είναι αργή (ειδικά για μεγάλες συλλογές) Το NOT Calpurnia δεν είναι εύκολο Άλλες πράξεις, όπως εύρεση των λέξεων Romans κοντά στο countrymen, δεν είναι εφικτές Ανάκτηση με κατάταξη (ranked retrieval) εύρεση των καλύτερων εγγράφων Επόμενα μαθήματα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10
Κεφάλαιο 1.1 Μήτρα/Πίνακας Σύμπτωσης (Incidence Matrix) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11
Κεφάλαιο 1.1 Διανύσματα Σύμπτωσης (Incidence Vectors) Για κάθε όρο, έχουμε ένα διάνυσμα με 0/1 Για να απαντήσουμε το ερώτημα Βρίσκουμε τα διανύσματα για τους όρους Brutus, Caesar και Calpurnia Υπολογίζουμε το συμπλήρωμα του διανύσματος Calpurnia (010000 101111) Εκτελούμε την πράξη AND στα δυαδικά ψηφία των διανυσμάτων 110100 AND 110111 AND 101111 = 100100 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12
Απαντήσεις στο Ερώτημα Κεφάλαιο 1.1 Antony and Cleopatra, Act III, Scene ii Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus, When Antony found Julius Caesar dead, He cried almost to roaring; and he wept When at Philippi he found Brutus slain. Hamlet, Act III, Scene ii Lord Polonius: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13
Κεφάλαιο 1.1 Βασικές Υποθέσεις της Ανάκτησης Πληροφοριών Συλλογή (collection) ή σώμα εγγράφων (corpus) Ένα σταθερό σύνολο εγγράφων Στόχος Ανάκτηση εγγράφων που περιέχουν πληροφορία σχετική με την πληροφοριακή ανάγκη του χρήστη και υποβοηθά το χρήστη να ολοκληρώσει κάποια εργασία March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14
Το Κλασικό Μοντέλο Αναζήτησης TASK Info Need Verbal form Query Misconception? Mistranslation? Misformulation? Get rid of mice in a politically correct way Info about removing mice without killing them How do I trap mice alive? mouse trap SEARCH ENGINE Query Refinement Results Corpus March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15
Κεφάλαιο 1.1 Πόσο Καλά είναι τα Έγγραφα-Αποτελέσματα; Ακρίβεια (Precision) Ποιο ποσοστό επιστρεφόμενων αποτελεσμάτων είναι συναφές προς την ανάγκη πληροφόρησης; Ανάκληση (Recall) Ποιο ποσοστό των συναφών εγγράφων της συλλογής επιστρέφονται από το σύστημα; Σε επόμενα μαθήματα θα δούμε πιο λεπτομερείς ορισμούς και μέτρα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16
Μεγαλύτερες Συλλογές Κεφάλαιο 1.1 Έστω Ν = 1.000.000 έγγραφα, που το καθένα περιλαμβάνει περίπου 1.000 λέξεις Αν θεωρήσουμε ότι κάθε λέξη έχει μέγεθος 6 byte κατά μέσο όρο (συμπεριλαμβανομένων των κενών διαστημάτων και της στίξης) 6 GB δεδομένα μέσα στα έγγραφα Ας υποθέσουμε ότι υπάρχουν Μ = 500.000 διακριτοί όροι σε αυτά τα έγγραφα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17
Δεν είναι Εφικτή η Κατασκευή του Πίνακα Κεφάλαιο 1.1 500Κ x 1M σημαίνει μισό τρισεκατομμύριο ψηφία 0 και 1 Όμως δεν περιέχει πάνω από ένα δισεκατομμύριο 1 Ο πίνακας είναι εξαιρετικά αραιός Ποια θα ήταν μια καλύτερη αναπαράσταση; Γιατί; Να καταγράφουμε μόνο ότι πραγματικά υπάρχει, δηλαδή τις τιμές 1 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18
Κεφάλαιο 1.2 Αντεστραμμένο Ευρετήριο (Inverted Index) Για κάθε όρο t, αποθηκεύουμε μια λίστα όλων των εγγράφων που περιέχουν τον όρο t Κάθε έγγραφο διαθέτει ένα μοναδικό αναγνωριστικό (docid) Μπορούμε να χρησιμοποιήσουμε πίνακες σταθερού μεγέθους για αυτό το σκοπό; Brutus 1 2 4 11 31 45 173174 Caesar 1 2 4 5 6 16 57 132 Calpurnia 2 31 54101 Τι θα συμβεί εάν η λέξη Caesar προστεθεί στο έγγραφο 14? March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19
Αντεστραμμένο Ευρετήριο (Inverted Index) Χρειαζόμαστε λίστες καταχωρήσεων (postings lists) μεταβλητού μεγέθους Στο δίσκο, αποθηκεύονται ως (πιθανώς συμπιεσμένες) συνεχόμενες ακολουθίες καταχωρήσεων Στη μνήμη, μπορούν να χρησιμοποιηθούν συνδεδεμένες λίστες ή πίνακες μεταβλητού μεγέθους Posting Brutus Υπάρχουν tradeoffs μεγέθους/ευκολίας εισαγωγής νέων όρων Κεφάλαιο 1.2 1 2 4 11 31 45 173174 Caesar 1 2 4 5 6 16 57 132 Calpurnia 2 31 54101 Dictionary Postings Ταξινόμηση κατά docid (εξήγηση ακολουθεί). March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20
Κεφάλαιο 1.2 Δημιουργία Αντεστραμμένων Ευρετηρίων Documents to be indexed Friends, Romans, countrymen. Tokenizer Token stream Friends Romans Countrymen More on these later. Linguistic modules Modified tokens Inverted index Indexer friend roman countryman friend roman countryman 2 4 1 2 13 16 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21
Κεφάλαιο 1.2 Βήματα Ευρετηρίασης: Ακολουθία Συμβόλων Ακολουθία ζευγών (τροποποιημένο σύμβολο, document ID) Σύμβολο (token) Doc 1 Doc 2 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22
Κεφάλαιο 1.2 Βήματα Ευρετηρίασης: Ταξινόμηση Ταξινόμηση πρώτα κατά όρο Μετά κατά docid Core indexing step March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23
Βήματα Ευρετηρίασης: Λεξικό & Καταχωρήσεις Κεφάλαιο 1.2 Πολλαπλές εμφανίσεις όρων στο ίδιο έγγραφο συγχωνεύονται σε ένα ιαχωρισμός σε λεξικό και καταχωρήσεις Προστίθεται και πληροφορία για τη συχνότητα εμφάνισης κάθε όρου Γιατί συχνότητα; Θα το δούμε αργότερα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24
Κόστος Αποθήκευσης Κεφάλαιο 1.2 Lists of docids Terms and counts Pointers Σε επόμενα μαθήματα: Πώς φτιάχνουμε αποδοτικά ευρετήρια? Πόσο χώρο αποθήκευσης χρειαζόμαστε? March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25
Κεφάλαιο 1.3 Σχετικά με το Ευρετήριο που Δημιουργήσαμε Πώς θα επεξεργαστούμε ένα ερώτημα; Αργότερα: τι είδους ερωτήματα μπορούμε να υποστηρίξουμε; Σημερινή διάλεξη March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26
Επεξεργασία Ερωτημάτων AND Κεφάλαιο 1.3 Ας θεωρήσουμε το συζευκτικό ερώτημα Brutus AND Caesar Βήματα Εύρεση Brutus στο λεξικό Ανάκτηση των καταχωρήσεών του Εύρεση Caesar στο λεξικό Ανάκτηση των καταχωρήσεών του «Συγχώνευση» των καταχωρήσεων (= τομή των δύο λιστών) 2 4 8 16 32 64 1 2 3 5 8 13 21 128 34 Brutus Caesar March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27
Συγχώνευση Κεφάλαιο 1.3 ιατρέχουμε τις δύο λίστες καταχωρήσεων ταυτόχρονα σε χρόνο γραμμικό ως προς τα μήκη των δύο λιστών 2 8 2 4 8 16 32 64 1 2 3 5 8 13 21 128 34 Brutus Caesar Εάν τα μήκη των λιστών είναι x και y, η συγχώνευση απαιτεί O(x+y) πράξεις. Σημαντικό: οι καταχωρήσεις ταξινομημένες κατά docid. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28
Αλγόριθμος Εύρεσης Τομής δύο Λιστών March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29
Κεφάλαιο 1.3 Ερωτήματα Boole: Ακριβές Ταίριασμα Το μοντέλο ανάκτησης Boole επιτρέπει τη διατύπωση ερωτημάτων που αποτελούν μια λογική έκφραση Boole Τα ερωτήματα Boole χρησιμοποιούν AND, OR και NOT για να συνδέσουν όρους μεταξύ τους Θεωρούν το κάθε έγγραφο σαν ένα σύνολο λέξεων (bag of words) Κάνουν επακριβές ταίριασμα: το έγγραφο είτε ταιριάζει με τη συνθήκη ή όχι Ήταν το βασικό εμπορικό εργαλείο ανάκτησης για 3 δεκαετίες Πολλά συστήματα που χρησιμοποιούμε ακόμη υιοθετούν το ίδιο μοντέλο ανάκτησης E-mail, κατάλογοι βιβλιοθηκών, Mac OS X Spotlight March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30
Παράδειγμα: WestLaw (http://www.westlaw.com) Κεφάλαιο 1.4 Ο μεγαλύτερος εμπορικός πάροχος υπηρεσιών αναζήτησης σε νομικά κείμενα (ξεκίνησε το 1975, από το 1992 υποστήριζε καταταγμένη αναζήτηση) εκάδες TB δεδομένων και 700Κ χρήστες Η πλειοψηφία των χρηστών ακόμη χρησιμοποιούν ερωτήματα Boole Παράδειγμα Απαιτήσεις που πρέπει να ικανοποιούνται ώστε άτομα με αναπηρία (disabled) να έχουν πρόσβαση (access) στο χώρο εργασίας τους (work site, work place) disab! /p access! /s work-site work place (employment /3 place) /3 εντός 3 λέξεων, /s στην ίδια πρόταση, /p στην ίδια παράγραφο March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31
Παράδειγμα: WestLaw (http://www.westlaw.com) Κεφάλαιο 1.4 Το κενό διάστημα μεταξύ λέξεων υποδηλώνει διάζευξη, όχι σύζευξη Μακροσκελή ερωτήματα, επακριβή ερωτήματα, χρήση τελεστών εγγύτητας ιαφορετικά από την αναζήτηση στον Παγκόσμιο Ιστό (web search) Πολλοί χρήστες (ιδιαίτερα επαγγελματίες) προτιμούν τα μοντέλα ερωτημάτων Boole Ξέρουν ακριβώς τι είναι αυτό που ανακτούν Αυτό βέβαια δε σημαίνει ότι δουλεύει καλύτερα πραγματικά... March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32
Ερωτήματα Boole: Πιο Σύνθετη Συγχώνευση Κεφάλαιο 1.3 Άσκηση: Προσαρμόστε τη συγχώνευση για τα ερωτήματα Brutus AND NOT Caesar Brutus OR NOT Caesar Μπορούμε ακόμη να κάνουμε τη συγχώνευση σε χρόνο Ο(x+y); Τι μπορούμε να καταφέρουμε; March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33
Συγχώνευση Κεφάλαιο 1.3 Πώς επεξεργαζόμαστε μια οποιαδήποτε αυθαίρετη παράσταση ερωτήματος Boole; (Brutus OR Caesar) AND NOT (Antony OR Cleopatra) Μπορούμε πάντα να κάνουμε συγχώνευση σε «γραμμικό» χρόνο; Γραμμικός ως προς τι; Μπορούμε να κάνουμε κάτι καλύτερο; March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34
Βελτιστοποίηση Ερωτήματος Κεφάλαιο 1.3 Ποια είναι η καλύτερη σειρά προσπέλασης των λιστών καταχωρήσεων; Ας θεωρήσουμε ένα ερώτημα n όρων που συνδυάζονται με τον τελεστή AND Για καθένα από τους n όρους, παίρνουμε τις καταχωρήσεις, και τις συνδυάζουμε με την πράξη AND Brutus Caesar 2 4 8 16 32 64 128 1 2 3 5 8 16 21 34 Calpurnia 13 16 Query: Brutus AND Calpurnia AND Caesar March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35
Βελτιστοποίηση Ερωτήματος: Παράδειγμα Κεφάλαιο 1.3 Επεξεργασία όρων κατά αύξουσα σειρά συχνότητας εγγράφων Ξεκινούμε με την τομή των δύο μικρότερων λιστών καταχωρήσεων, άρα όλα τα ενδιάμεσα αποτελέσματα δε θα είναι μεγαλύτερα από τη μικρότερη λίστα Να γιατί διατηρούμε τη συχνότητα εγγράφων στο λεξικό Brutus Caesar Calpurnia 2 4 8 16 32 64 128 1 2 3 5 8 16 21 34 13 16 Το ερώτημα εκτελείται ως: (Calpurnia AND Brutus) AND Caesar. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36
Πιο Γενική Βελτιστοποίηση Κεφάλαιο 1.3 Π.χ. (madding OR crowd) AND (ignoble OR strife) Βρες τις συχνότητες εγγράφων για όλους τους όρους Εκτίμησε το μέγεθος του κάθε αποτελέσματος OR ως το άθροισμα των συχνοτήτων εγγράφων (συντηρητική προσέγγιση) Επεξεργασία σε αύξουσα σειρά των μεγεθών των OR αποτελεσμάτων March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37
Άσκηση Προτείνετε σειρά εκτέλεσης για το ερώτημα: (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes) Term Freq eyes 213312 kaleidoscope 87009 marmalade 107913 skies 271658 tangerine 46653 trees 316812 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38
Ασκήσεις Επεξεργασίας Ερωτημάτων Άσκηση: εάν το ερώτημα είναι friends AND romans AND (NOT countrymen), πώς μπορούμε να χρησιμοποιήσουμε τη συχνότητα του countrymen; Άσκηση: επεκτείνετε τη συγχώνευση ώστε να υποστηρίζει αυθαίρετα ερωτήματα Boole. Μπορούμε πάντα να εγγυηθούμε εκτέλεση σε χρόνο γραμμικό ως προς το συνολικό μήκος των καταχωρήσεων; Υπόδειξη: Ξεκινήστε με την περίπτωση ενός ερωτήματος Boole φόρμουλας όπου κάθε όρος εμφανίζεται μία μόνο φορά στο ερώτημα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39
Άσκηση οκιμάστε την αναζήτηση στο http://www.rhymezone.com/shakespeare/ Σημειώστε 5 πράγματα που θεωρείτε ότι θα μπορούσε να κάνει καλύτερα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40
Πέρα από την Αναζήτηση Όρων Αναζήτηση φράσεων Stanford University Εγγύτητα: εύρεση Gates NEAR Microsoft Χρειαζόμαστε ευρετήριο που διατηρεί πληροφορία για τη θέση εμφάνισης όρων σε έγγραφα Ζώνες σε έγγραφα: εύρεση εγγράφων με (author = Ullman) AND (text contains automata) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41
Συσσώρευση Πειστηρίων Το μοντέλο Boole καταγράφει μόνο την παρουσία/απουσία όρων (1 vs. 0) 2 vs. 1 3 vs. 2 Συνήθως περισσότερες εμφανίσεις όρων φαίνεται να δίνουν μεγαλύτερη βαρύτητα στα έγγραφα Χρειαζόμαστε πληροφορίες συχνότητας όρων στις λίστες καταχωρήσεων (= πόσες φορές εμφανίζεται ένας όρος σε ένα κείμενο) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42
Κατάταξη Αποτελεσμάτων Αναζήτησης Τα ερωτήματα Boole απλώς ανακτούν το σύνολο των εγγράφων που ταιριάζουν με το ερώτημα Συχνά όμως θέλουμε μια αποτελεσματική μέθοδο διάταξης (ή κατάταξης) και ομαδοποίησης των αποτελεσμάτων Χρειάζεται μηχανισμός μέτρησης της εγγύτητας του ερωτήματος από κάθε έγγραφο Πρέπει να μπορούμε να αποφασίζουμε εάν τα έγγραφα που παρουσιάζονται στο χρήστη είναι ατομικές μονάδες ή μια ομάδα εγγράφων που πιάνουν διαφορετικές οπτικές του ερωτήματος March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43
Ανάκτηση Πληροφορίας vs. Βάσεις Δεδομένων Δομημένα vs. Αδόμητα Δεδομένα ομημένα δεδομένα αναφέρονται σε πληροφορία που αποθηκεύεται σε πίνακες Employee Manager Salary Smith Jones 50000 Chang Smith 60000 Ivy Smith 50000 Επιτρέπουν ερωτήσεις εύρους και ακριβές ταίριασμα (για κείμενο), π.χ., Salary < 60000 AND Manager = Smith. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44
Αδόμητα Δεδομένα Αναφερόμαστε σε ελεύθερο κείμενο Επιτρέπουν Ερωτήματα λέξεων-κλειδιών με τελεστές Πιο περίπλοκα ερωτήματα «εννοιών», όπως Εύρεση όλων των ιστοσελίδων για drug abuse Είναι το κλασικό μοντέλο αναζήτησης σε έγγραφα κειμένου March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45
Ημιδομημένα Δεδομένα Στην πραγματικότητα δεν υπάρχουν αδόμητα δεδομένα Π.χ. Αυτή η διαφάνεια έχει διακριτές ζώνες, όπως ο τίτλος και η λίστα (bullets) Επιτρέπουν «ημιδομημένη» αναζήτηση, όπως Ο Τίτλος περιέχει δεδομένα AND η λίστα αναζήτηση Και φυσικά υπάρχει και γλωσσολογική δομή...(αλλά δεν ασχολούμαστε με αυτό) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46
Πιο Προχωρημένη Ημιδομημένη Αναζήτηση Ο τίτλος είναι σχετικός με Object Oriented Programming AND ο συγγραφέας μοιάζει με stro*rup Όπου * είναι ο χαρακτήρας μπαλαντέρ Θέματα Πώς επεξεργαζόμαστε το «είναι σχετικός με»; Πώς κατατάσσουμε τα αποτελέσματα; Θα το δούμε στην «Ανάκτηση XML», κεφ.10 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47
Συσταδοποίηση, Κατηγοριοποίηση και Κατάταξη Συσταδοποίηση (clustering) οθέντος ενός συνόλου εγγράφων, ομαδοποίησέ τα σε συστάδες με βάση το περιεχόμενό τους Κατηγοριοποίηση (classification) οθέντος ενός συνόλου κατηγοριών, και ενός νέου εγγράφου D, αποφάσισε σε ποια (ποιες) κατηγορία (κατηγορίες) ανήκει το D Κατάταξη (ranking) Μπορούμε να ανακαλύψουμε τον βέλτιστο τρόπο κατάταξης ενός συνόλου εγγράφων, π.χ. αποτελεσμάτων αναζήτησης March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 48
Ο Παγκόσμιος Ιστός και οι Προκλήσεις που κρύβει Ασυνήθιστα και ποικίλα έγγραφα Ασυνήθιστοι και ποικίλοι χρήστες, ερωτήματα, πληροφοριακές ανάγκες Πέρα από όρους, εκμετάλλευση ιδεών από κοινωνικά δίκτυα Ανάλυση υπερσυνδέσμων, clickstreams Πώς λειτουργούν οι μηχανές αναζήτησης; Πώς μπορούμε να τις βελτιώσουμε; March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 49
Πιο Προηγμένη Ανάκτηση Πληροφοριών ιαγλωσσική ανάκτηση πληροφοριών (Cross-language information retrieval) Συστήματα ερωταπαντήσεων (Question answering) ημιουργία περιλήψεων ή συνόψεων (Summarization) Εξόρυξη γνώσης από κείμενα (Text mining)... March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 50
Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαιο 1 Shakespeare: http://www.rhymezone.com/shakespeare/ Managing Gigabytes, chapter 3.2 Modern Information Retrieval, chapter 8.2 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 51