Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων
Επανάληψη: Στάθμιση tf-idf Κεφάλαιο 6 Το tf-idf βάρος ενός όρου είναι το γινόμενο του tf βάρους και του idf βάρους w (1 log tf ) log 10 t, d 10 ( N / df t, d t ) Είναι ο καλύτερος γνωστός τρόπος στάθμισης στην ΑΠ Αυξάνεται με το πλήθος εμφανίσεων όρου σε ένα έγγραφο Αυξάνεται με τη σπανιότητα του όρου στη συλλογή May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2
Κεφάλαιο 6 Επανάληψη: Ερωτήματα ως Διανύσματα Βασική Ιδέα 1: Αναπαριστούμε τα ερωτήματα σαν διανύσματα στο χώρο (όπως ακριβώς και τα έγγραφα) Βασική Ιδέα 2: Κατατάσουμε τα έγγραφα με βάση την εγγύτητά τους με το ερώτημα σε αυτό το χώρο Εγγύτητα = ομοιότητα διανυσμάτων May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3
Επανάληψη: cosine(query, document) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4 V i i V i i V i i i d q q d d d q q d q d q d q 1 2 1 2 1 ), cos( Dot product Unit vectors q i είναι το tf-idf βάρος του όρου i στο ερώτημα d i είναι το tf-idf βάρος του όρου i στο έγγραφο cos(q,d) είναι η συνημιτονοειδής ομοιότητα (cosine similarity) του q και του d ή, ισοδύναμα, το συνημίτονο της γωνίας μεταξύ q και d Κεφάλαιο 6
Σε αυτό το Μάθημα Κεφάλαιο 7 Επιτάχυνση της κατάταξης στο διανυσματικό μοντέλο Σύσταση ενός ολοκληρωμένου συστήματος αναζήτησης Απαιτεί την εκμάθηση ενός πλήθους ποικίλων θεμάτων και ευριστικών May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5
Υπολογισμός Βαθμολογιών Κεφάλαιο 6.3.3 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6
Αποδοτική Κατάταξη με Συνημίτονο Κεφάλαιο 7.1 Εύρεση των K εγγράφων στη συλλογή που είναι κοντινότερα στο ερώτημα K μεγαλύτερα συνημίτονα ερωτήματος-εγγράφου Αποδοτική κατάταξη: Αποδοτικός υπολογισμός μιας τιμής συνημιτόνου Αποδοτική επιλογή των K μεγαλύτερων τιμών συνημιτόνου Μπορούμε να το κάνουμε χωρίς να υπολογίσουμε όλα τα N συνημίτονα; May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7
Αποδοτική Κατάταξη με Συνημίτονο Κεφάλαιο 7.1 Στην πράξη αυτό που κάνουμε: επιλύουμε το πρόβλημα εύρεσης K-κοντινότερων γειτόνων (Knearest neighbor problem) για ένα διάνυσμα ερωτήματος Γενικά, δεν υπάρχουν αποδοτικοί αλγόριθμοι που να δουλεύουν καλά σε χώρους υψηλής διάστασης (high-dimensional spaces) Όμως υπάρχουν λύσεις για ερωτήματα μικρού μήκους, και τα παραδοσιακά ευρετήρια τις υποστηρίζουν καλά May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8
Ειδική Περίπτωση: Ερωτήματα χωρίς Βάρη ε χρησιμοποιούμε βάρη στους όρους του ερωτήματος Υποθέτουμε ότι κάθε όρος ερωτήματος εμφανίζεται μόνο μια φορά Για την κατάταξη δε χρειάζεται να κανονικοποιήσουμε το διάνυσμα ερωτήματος Μικρή απλοποίηση του αλγόριθμου του 6 ου μαθήματος Κεφάλαιο 7.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9
Υπολογισμός των Κ Μεγαλύτερων Συνημιτόνων: Επιλογή vs. Ταξινόμηση Κεφάλαιο 7.1 Ουσιαστικά θέλουμε να ανακτήσουμε τα top K έγγραφα (στην κατάταξη συνημιτόνου για το δοθέν ερώτημα) Όχι να βρούμε μια πλήρη ταξινόμηση όλων των εγγράφων της συλλογής με βάση το συνημίτονο με το διάνυσμα ερωτήματος Μπορούμε να επιλέξουμε τα έγγραφα με τις K μεγαλύτερες τιμές συνημιτόνου; Έστω J = πλήθος εγγράφων με μη μηδενικό συνημίτονο Αναζητούμε τα K καλύτερα από αυτά τα J May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10
Χρήση Σωρού για την Επιλογή των Top K Κεφάλαιο 7.1 Σωρός: δυαδικό δέντρο όπου η τιμή κάθε κόμβου είναι > από τις τιμές των παιδιών του Απαιτεί 2J βήματα σύγκρισης για την κατασκευή, και έπειτα κάθε ένας από τους K νικητές εντοπίζεται σε 2log J βήματα Για J=1M, K=100, αυτό καταλήγει να είναι το 10% του κόστους ταξινόμησης 1.9.3.3.8.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11.1
Σημεία Συμφόρησης (Bottlenecks) Κεφάλαιο 7.1.1 Κύριο υπολογιστικό σημείο συμφόρησης στη βαθμολόγηση: υπολογισμός συνημιτόνου Μπορούμε να αποφύγουμε αυτό τον υπολογισμό; Ναι, όμως μερικές φορές μπορεί να κάνουμε λάθος Ένα έγγραφο που δεν ανήκει στα top K μπορεί να εμφανιστεί στη λίστα με τα K έγγραφα εξόδου Είναι αυτό τόσο κακό; May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12
Η Συνημιτονοειδής Ομοιότητα είναι απλά κάτι Προσεγγιστικό Κεφάλαιο 7.1.1 Ο χρήστης έχει μια εργασία που θέλει να εκτελέσει και διαμορφώνει γι αυτό ένα ερώτημα Το συνημίτονο βρίσκει ταιριάσματα εγγράφων με το ερώτημα Έτσι το συνημίτονο είναι απλά ένα μέσο προσέγγισης της πραγματικής συνάφειας για το χρήστη Εάν πάρουμε μια λίστα από K έγγραφα κοντά στην top K λίστα που προκύπτει από το συνημίτονο, θα πρέπει να μας αρκεί May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13
Γενική Προσέγγιση Κεφάλαιο 7.1.1 Εύρεση ενός συνόλου A από υποψήφια έγγραφα (contenders), με K < A << N Το A δεν περιέχει απαραιτήτως τα top K, όμως περιέχει αρκετά έγγραφα που ανήκουν στα top K Επιστρέφουμε το top K έγγραφα στο A Μπορούμε να σκεφτόμαστε το A σαν έναν τρόπο να απορρίπτουμε με υποψήφια έγγραφα (pruning noncontenders) Η ίδια προσέγγιση ακολουθείται και για άλλες (μη συνημιτονοειδείς) συναρτήσεις βαθμολόγησης Θα εξετάσουμε διάφορους τρόπους που ακολουθούν αυτή την προσέγγιση May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14
Κεφάλαιο 7.1.2 Απαλοιφή Καταχωρήσεων Ευρετηρίου Ο βασικός αλγόριθμος υπολογισμού του συνημιτόνου λαμβάνει υπόψιν μόνο τα έγγραφα που περιέχουν τουλάχιστον έναν όρο του ερωτήματος Μπορούμε να προχωρήσουμε λίγο αυτή τη διαπίστωση: Εξετάζουμε μόνο τα έγγραφα που περιέχουν όρους ερωτήματος με υψηλό idf Εξετάζουμε μόνο τα έγγραφα που περιέχουν πολλούς όρους του ερωτήματος May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15
Μόνο Όροι με Υψηλό idf Κεφάλαιο 7.1.2 Για ένα ερώτημα όπως: catcher in the rye ιατρέχουμε μόνο τις καταχωρήσεις των catcher και rye ιαισθητικά: οι λέξεις in και the συνεισφέρουν λίγο στη βαθμολογία και δεν επηρεάζουν σημαντικά την κατάταξη Πλεονέκτημα: Λίστες καταχώρησης όρων με χαμηλό idf περιέχουν πολλά έγγραφα αυτά τα (πολλά) έγγραφα απορρίπτονται από το σύνολο A των υποψηφίων May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16
Μόνο Έγγραφα με Πολλούς Όρους Ερωτήματος Κεφάλαιο 7.1.2 Οποιοδήποτε έγγραφο που περιέχει τολάχιστον έναν όρο ερωτήματος είναι υποψήφιο για την top K λίστα Για ερωτήματα πολλών όρων (multi-term queries), υπολογίζουμε τη βαθμολογία μόνο για έγγραφα που περιέχουν πολλούς όρους ερωτήματος Π.χ., τουλάχιστον 3 από τους 4 Επιβάλλεί μια χαλαρή σύζευξη ( soft conjunction ) σε ερωτήματα που υποβάλονται σε μηχανές αναζήτησης (Google στις αρχές) Εύκολο να υλοποιηθεί κατά τη διάσχιση των λιστών καταχώρησης May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17
3 από 4 Όρους Ερωτήματος Κεφάλαιο 7.1.2 Antony 3 4 8 16 32 64 128 Brutus Caesar Calpurnia 2 4 8 16 32 64 128 1 2 3 5 8 13 21 34 13 16 32 Οι βαθμολογίες υπολογίζονται μόνο για τα έγγραφα 8, 16 και 32 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18
Κεφάλαιο 7.1.3 Λίστες Πρωταθλητών (Champion Lists) Προϋπολογίζουμε για κάθε όρο του λεξικού t, τα r έγγραφα με το υψηλότερο βάρος στις λίστες καταχώρησης του t Αυτά τα έγγραφα αποτελούν τη λίστα πρωταθλητών (champion list) για τον όρο t (γνωστή και ως fancy list ή top docs για τον όρο t) Σημειώστε ότι το r πρέπει να επιλεγεί κατά το χρόνο κατασκευής του ευρετηρίου Έτσι, είναι πιθανό ότι r < K Στο χρόνο ερώτησης, υπολογίζουμε μόνο τις βαθμολογίες για τα έγγραφα στη λίστα πρωταθλητών κάποιου όρου ερωτήματος Επιλέγονται τα K έγγραφα με την υψηλότερη βαθμολογία ανάμεσα σε αυτά May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19
Ασκήσεις Κεφάλαιο 7.1.3 Πώς σχετίζονται οι λίστες πρωταθλητών με το Index Elimination; Μπορούν να χρησιμοποιηθούν μαζί; Πώς μπορούν να υλοποιηθούν οι λίστες πρωταθλητών σε ένα αντεστραμμένο ευρετήριο; Σημειώστε ότι η λίστα πρωταθλητών δεν έχει καμία σχέση με μικρά docids May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20
Στατικές Βαθμολογίες Ποιότητας (Static Quality Scores) Επιθυμούμε τα κορυφαία έγγραφα στην κατάταξη να είναι τόσο σχετικά όσο και authoritative Η σχετικότητα μοντελοποιείται από τις βαθμολογίες συνημιτόνου Η Authority είναι μια ιδιότητα ενός εγγράφου που είναι ανεξάρτητη ερωτήματος Παραδείγματα authority Η Wikipedia ανάμεσα σε άλλους ιστότοπους Άρθρα σε συγκεκριμένες εφημερίδες Ένα άρθρο με πολλές ετεροαναφορές Πολλές εμφανίσεις σε bitly s, diggs ή del.icio.us (Pagerank) Κεφάλαιο 7.1.4 Quantitative May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21
Μοντελοποίηση του Authority Κεφάλαιο 7.1.4 Ανάθεση σε κάθε έγγραφο d μιας βαθμολογίας ποιότητας ανεξάρτητης από το ερώτημα (query-independent quality score) στο διάστημα [0,1] Το συμβολίζουμε αυτό με g(d) Έτσι, μια ποσότητα όπως το πλήθος των ετεροαναφορών κανονικοποιείται στο [0,1] Άσκηση: προτείνετε μια φόρμουλα/εξίσωση γι αυτό May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22
Καθαρή Βαθμολογία (Net Score) Κεφάλαιο 7.1.4 Ας θεωρήσουμε μια απλή συνολική βαθμολογία που συνδυάζει συνάφεια κατά συνημίτονο και authority net-score(q,d) = g(d) + cosine(q,d) Μπορεί να χρησιμοποιηθεί κάποιος άλλος γραμμικός συνδυασμός Πράγματι, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση των δυο σημάτων ικανοποίησης του χρήστη περισσότερα αργότερα Τώρα αναζητούμε τα top K έγγραφα κατά net score May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23
Top K κατά net score Γρήγορες Μέθοδοι Πρώτη ιδέα: κατάταξη όλων των καταχωρήσεων κατά g(d) Βασικό: αυτή η κατάταξη είναι κοινή για όλες τις λίστες καταχώρησης Έτσι, μπορούμε ταυτόχρονα να διασχίσουμε τις λίστες καταχωρήσεων όρων για Τομή καταχωρήσεων λιστών Υπολογισμό συνημιτόνου Άσκηση: γράψτε ψευδοκώδικα για υπολογισμό συνημιτόνου εάν οι λίστες καταχώρησης είναι ταξινομημένες κατά g(d) Κεφάλαιο 7.1.4 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24
Κεφάλαιο 7.1.4 Γιατί Ταξινομούμε τις Λίστες κατά g(d)? Με την ταξινόμηση κατά g(d), τα έγγραφα με υψηλή βαθμολογία (top-scoring docs) είναι πιθανό να εμφανιστούν νωρίς κατά τη διάσχιση των λιστών Σε εφαρμογές που ο χρόνος είναι κρίσιμος (π.χ., όταν πρέπει να επιστρέψουμε οσαδήποτε αποτελέσματα μπορούμε σε 50 ms), αυτό επιτρέπει να σταματήσουμε νωρίς τη διάσχιση των λιστών Χωρίς να υπολογίσουμε βαθμολογίες για όλα τα έγγραφα στις λίστες καταχώρησης May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25
Λίστες Πρωταθλητών με Κατάταξη κατά g(d) Μπορούμε να συνδυάσουμε τις λίστες πρωταθλητών (champion lists) με την κατάταξη κατά g(d) ιατηρούμε για κάθε όρο μια λίστα πρωταθλητών των r εγγράφων με την υψηλότερη βαθμολογία g(d) + tf-idf td Αναζητούμε τα top-k αποτελέσματα μόνο από τα έγγραφα σε αυτές τις λίστες πρωταθλητών Κεφάλαιο 7.1.4 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26
Υψηλές και Χαμηλές Λίστες (High and Low Lists) Για κάθε όρο, διατηρούμε δύο λίστες καταχώρησης που ονομάζονται high και low Μπορείτε να θεωρείτε τη high σαν τη λίστα πρωταθλητών Καθώς διασχίζουμε λίστες καταχώρησης για ένα ερώτημα, αρχικά διασχίζουμε μόνο τις high λίστες Εάν βρούμε πάνω από K έγγραφα, επιλέγουμε τα top K και τέλος Κεφάλαιο 7.1.4 Αλλιώς συνεχίζουμε προσπαθώντας να βρούμε έγγραφα από τις low λίστες Μπορεί να χρησιμοποιηθεί ακόμα και για απλές βαθμολογίες συνημιτόνου, δίχως καθολική βαθμολογία ποιότητας g(d) Είναι ένας τρόπος για for τμηματοποίηση ευρετηρίων (segmenting index) σε δύο επίπεδα (tiers) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27
Κατάταξη κατά Επίπτωση (Impactordered postings) Θέλουμε να υπολογίσουμε βαθμολογίες μόνο για έγγραφα για τα οποία η τιμή wf t,d είναι αρκετά υψηλή Ταξινομούμε κάθε λίστα καταχώρησης κατά wf t,d Τώρα: δεν έχουν όλες οι λίστες καταχώρησης κοινή κατάταξη! Πώς υπολογίζουμε βαθμολογίες ώστε να επιλέξουμε τα top K έγγραφα? Ακολουθούν δύο ιδέες για αυτό Κεφάλαιο 7.1.5 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28
Κεφάλαιο 7.1.5 1. Έγκαιρος Τερματισμός (Early termination) Καθώς διασχίζουμε τίς καταχωρήσεις του όρου t, μπορούμε να σταματήσουμε μετά από ένα από τα ακόλουθα Μετά από ένα συγκεκριμένο αριθμό r εγγράφων Αφού η τιμή wf t,d πέσει κάτω από ένα κατώφλι (threshold) Παίρνουμε την ένωση των συνόλων εγγράφων που προκύπτουν Ένα σύνολο για τις καταχωρήσεις κάθε όρου ερωτήματος Υπολογίζουμε μόνο τις βαθμολογίες για τα έγγραφα σε αυτή την ένωση May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29
2. Κατάταξη Όρων κατά idf (idf-ordered terms) Όταν εξετάζουμε τις καταχωρήσεις που αντιστοιχούν σε όρους ερωτήματος Τις εξετάζουμε κατά φθίνουσα σειρά τιμών idf Όροι με υψηλό idf είναι πιο πιθανό να συνεισφέρουν πολύ στη βαθμολογία Καθώς ενημερώνουμε τη συνεισφορά βαθμολογίας για κάθε όρο ερωτήματος Κεφάλαιο 7.1.5 Σταματάμε όταν παρατηρήσουμε ότι οι βαθμολογίες εγγράφων παραμένουν σχετικά οι ίδιες Εφαρμόσιμο σε συνημίτονο ή σε άλλο net score May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30
Κλάδεμα Συστάδων (Cluster pruning): Προεπεξεργασία Επιλέγουμε N έγγραφα με τυχαίο τρόπο: ανομάζονται αρχηγοί (leaders) Για κάθε άλλο έγγραφο, υπολογίζουμε σε μια φάση προεπεξεργασίας τον κοντινότερο αρχηγό Έτσι τα έγγραφα ανατίθενται σε ένα αρχηγό: ονομάζονται followers Πολύ πιθανώς: κάθε αρχηγός έχει ~ N followers Κεφάλαιο 7.1.6 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31
Κλάδεμα Συστάδων: Επεξεργασία Επερωτήσεων Κεφάλαιο 7.1.6 Ένα ερώτημα το επεξεργαζόμαστε ως εξής: οθέντος του ερωτήματος Q, βρίσκουμε τον κοντινότερο αρχηγό L Αναζητούμε τα K κοντινότερα έγγραφα ανάμεσα στους followers του L May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32
Οπτικοποίηση Κεφάλαιο 7.1.6 Query Leader Follower May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33
Γιατί Χρησιμοποιείται Τυχαία Κεφάλαιο 7.1.6 Δειγματοληψία Είναι γρήγορη Οι επιλεγμένοι αρχηγοί (leaders) αντανακλούν την κατανομή των δεδομένων May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34
Γενικές Παραλλαγές Κεφάλαιο 7.1.6 Κάθε follower ανατίθεται σε b1=3 (έστω) κοντινότερους αρχηγούς Για το ερώτημα, βρίσκουμε b2=4 (έστω) κοντινότερους αρχηγούς και τους followers αυτών Μπορούμε αναδρομικά να κατασκευάζουμε leader/follower συσχετίσεις May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35
Ασκήσεις Κεφάλαιο 7.1.6 To find the nearest leader in step 1, how many cosine computations do we do? Why did we have N in the first place? What is the effect of the constants b1, b2 on the previous slide? Devise an example where this is likely to fail i.e., we miss one of the K nearest docs. Likely under random sampling. May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36
Παραμετρικά Ευρετήρια και Κεφάλαιο 6.1 Ευρετήρια Ζωνών Μέχρι τώρα, θεωρούσαμε ότι ένα έγγραφο είναι μια ακολουθία όρων Στην πραγματικότητα, τα έγγραφα έχουν πολλαπλά μέρη, ορισμένα εκ των οποίων έχουν ιδιαίτερη σημασιολογία: Author Title Date of publication Language Format κτλ. Αυτά είναι τα μεταδεδομένα (metadata) ενός εγγράφου May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37
Πεδία Κεφάλαιο 6.1 Ορισμένες φορές επιθυμούμε να κάνουμε αναζήτηση με βάση τα μεταδεδομένα Π.χ., εύρεση εγγράφων με συγγραφέα τον William Shakespeare το έτος 1601, και περιέχουν alas poor Yorick Έτος = 1601 είναι ένα παράδειγμα πεδίου (field) Επίσης, επώνυμο συγγραφέα = shakespeare, κτλ. Ευρετήριο πεδίου ή παραμετρικό (field or parametric index): καταχωρήσεις για κάθε τιμή πεδίου Μερικές φορές χτίζουμε range trees (π.χ., για ημερομηνίες) Το ερώτημα πεδίου (field query) το χειριζόμαστε σαν σύζευξη (το έγγραφο πρέπει να έχει συγγραφέα τον shakespeare) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38
Ζώνη Κεφάλαιο 6.1 Μια ζώνη (zone) είναι μια περιοχή του εγγράφου η οποία μπορεί να περιέχει ένα αυθαίρετο μέγεθος κειμένου, π.χ., Title Abstract References Χτίζουμε αντεστραμμένα ευρετήρια και για ζώνες, ώστε να επιτρέπεται η επεξεργασία επερωτήσεων Π.χ., εύρεση εγγράφων με τη λέξη merchant στη ζώνη τίτλου και να ταιριάζει με το ερώτημα gentle rain May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39
Παράδειγμα Ευρετήριου Ζώνης Κεφάλαιο 6.1 Κωδικοποίηση ζωνών στο λεξικό vs. στις λίστες May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40
Διαστρωματωμένα Ευρετήρια (Tiered Indexes) ιασπώνται οι καταχωρήσεις σε μια ιεραρχία λιστών Πιο σημαντικές Λιγότερο σημαντικές Μπορεί να γίνει κατά g(d) ή άλλο μέτρο Το αντεστραμμένο ευρετήριο διασπάται σε επίπεδα (tiers) φθίνουσας σημασίας Στο χρόνο ερώτησης χρησιμοποιούνται τα υψηλότερα επίπεδα, εκτός κι αν αποτύχουν να μας δώσουν K έγγραφα Εάν συμβεί αυτό, πηγαίνουμε στα χαμηλότερα επίπεδα Κεφάλαιο 7.2.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41
Παράδειγμα Διαστρωματωμένου Κεφάλαιο 7.2.1 Ευρετηρίου May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42
Εγγύτητα Όρων Ερωτήματος Κεφάλαιο 7.2.2 Ερωτήματα ελεύθερου κειμενου (free text queries): απλά ένα σύνολο όρων που έχουν γραφεία στο κουτί αναζήτησης κοινό σενάριο στον Παγκόσμιο Ιστό Οι χρήστες προτιμούν έγγραφα στα οποία οι όροι του ερωτήματος εμφανίζονται σε κοντινές μεταξύ τους θέσεις Έστω w το μικρότερο παράθυρο (window) σε ένα έγγραφο που περιέχει όλους τους όρους, π.χ., Για το ερώτημα strained mercy το μικρότερο παράθυρο στο έγγραφο The quality of mercy is not strained είναι 4 (λέξεις) Θα θέλαμε να λαμβάνεται υπόψιν στη βαθμολόγηση πώς; May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43
Query Parsers Κεφάλαιο 7.2.3 Ένα ερώτημα ελεύθερου κειμένου από κάποιο χρήστη μπορεί να εμπεριέχει ένα ή πολλαπλά ερωτήματα προς τα ευρετήρια, π.χ., ερώτημα rising interest rates Εκτελείται το ερώτημα σαν ερώτημα φράσης (phrase query) Εάν <K έγγραφα περιέχουν τη φράση rising interest rates, εκτελούμε τα δύο ερωτήματα φράσης rising interest και interest rates Εάν εξακολουθούμε να έχουμε <K έγγραφα, εκτελούμε το ερώτημα διανυσματικού χώρου rising interest rates Κατατάσσουμε τα έγγραφα που ταιριάζουν με το ερώτημα κατά βαθμολόγηση διανυσματικού χώρου Αυτή η ακολουθία βημάτων γίνεται από έναν query parser May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44
Συναθροιστική Βαθμολόγηση Κεφάλαιο 7.2.3 Ειδαμε ότι συναρτήσεις βαθμολόγησης μπορεί να συνδυάζουν συνημίτονο, στατική ποιότητα, εγγύτητα, κτλ. Πώς ξέρουμε ποιος είναι ο βέλτιστος συδυασμός; Για μερικές εφαρμογές καθορίζεται από κάποιον ειδικό (expert-tuned) Ολοένα και συχνότερα: χρησιμοποιείται μηχανική μάθηση (machine-learned) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45
Βάζοντάς τα Όλα Μαζί Κεφάλαιο 7.2.4 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46
Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαια 7, 6.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47