7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

Σχετικά έγγραφα
6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

Information Retrieval

Ανάκτηση Πληροφορίας

ΜΥΕ003: Ανάκτηση Πληροφορίας

Information Retrieval

Information Retrieval

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Information Retrieval

Τι (άλλο) θα δούμε σήμερα;

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ανάκτηση Πληροφορίας

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Επεξεργασία Ερωτήσεων

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Ανάκτηση Πληροφορίας

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Επεξεργασία Ερωτήσεων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Ανάκτηση Πληροφορίας

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Κεφ.11: Ευρετήρια και Κατακερματισμός

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Σχεδίαση και Ανάλυση Αλγορίθμων

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ουρές Προτεραιότητας. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Το εσωτερικό ενός Σ Β

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ανάκτηση Δεδομένων (Information Retrieval)

9. Κόκκινα-Μαύρα Δέντρα

1. Financial New Times Year MAXk {FREQij} D D D D

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πιθανοκρατικό μοντέλο

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

ΑΡΧΗ 2ΗΣ ΣΕΛΙΔΑΣ Γ Α... Β

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Θέμα: Ανάπτυξη Βασικής Πλατφόρμας για Υπηρεσίες με Βάση το Προφίλ και τη Θέση (Profile & Location Based Services)

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Ανάκτηση Πληροφορίας

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Δυναμικός Κατακερματισμός

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Σχεδίαση & Ανάλυση Αλγορίθμων

Model) Retrieval Model)... 18

Α2. Να γράψετε στο τετράδιο σας τον αριθμό 1-4 κάθε πρότασης και δίπλα το γράμμα που δίνει τη σωστή επιλογή.

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

LALING/PLALING :

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Τελικό επαναληπτικό διαγώνισμα Επιμέλεια: Δρεμούσης Παντελής

Πληροφορική 2. Δομές δεδομένων και αρχείων

Επεξεργασία Ερωτήσεων

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Οι δυναμικές δομές δεδομένων στην ΑΕΠΠ

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Transcript:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Επανάληψη: Στάθμιση tf-idf Κεφάλαιο 6 Το tf-idf βάρος ενός όρου είναι το γινόμενο του tf βάρους και του idf βάρους w (1 log tf ) log 10 t, d 10 ( N / df t, d t ) Είναι ο καλύτερος γνωστός τρόπος στάθμισης στην ΑΠ Αυξάνεται με το πλήθος εμφανίσεων όρου σε ένα έγγραφο Αυξάνεται με τη σπανιότητα του όρου στη συλλογή May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

Κεφάλαιο 6 Επανάληψη: Ερωτήματα ως Διανύσματα Βασική Ιδέα 1: Αναπαριστούμε τα ερωτήματα σαν διανύσματα στο χώρο (όπως ακριβώς και τα έγγραφα) Βασική Ιδέα 2: Κατατάσουμε τα έγγραφα με βάση την εγγύτητά τους με το ερώτημα σε αυτό το χώρο Εγγύτητα = ομοιότητα διανυσμάτων May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

Επανάληψη: cosine(query, document) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4 V i i V i i V i i i d q q d d d q q d q d q d q 1 2 1 2 1 ), cos( Dot product Unit vectors q i είναι το tf-idf βάρος του όρου i στο ερώτημα d i είναι το tf-idf βάρος του όρου i στο έγγραφο cos(q,d) είναι η συνημιτονοειδής ομοιότητα (cosine similarity) του q και του d ή, ισοδύναμα, το συνημίτονο της γωνίας μεταξύ q και d Κεφάλαιο 6

Σε αυτό το Μάθημα Κεφάλαιο 7 Επιτάχυνση της κατάταξης στο διανυσματικό μοντέλο Σύσταση ενός ολοκληρωμένου συστήματος αναζήτησης Απαιτεί την εκμάθηση ενός πλήθους ποικίλων θεμάτων και ευριστικών May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

Υπολογισμός Βαθμολογιών Κεφάλαιο 6.3.3 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

Αποδοτική Κατάταξη με Συνημίτονο Κεφάλαιο 7.1 Εύρεση των K εγγράφων στη συλλογή που είναι κοντινότερα στο ερώτημα K μεγαλύτερα συνημίτονα ερωτήματος-εγγράφου Αποδοτική κατάταξη: Αποδοτικός υπολογισμός μιας τιμής συνημιτόνου Αποδοτική επιλογή των K μεγαλύτερων τιμών συνημιτόνου Μπορούμε να το κάνουμε χωρίς να υπολογίσουμε όλα τα N συνημίτονα; May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

Αποδοτική Κατάταξη με Συνημίτονο Κεφάλαιο 7.1 Στην πράξη αυτό που κάνουμε: επιλύουμε το πρόβλημα εύρεσης K-κοντινότερων γειτόνων (Knearest neighbor problem) για ένα διάνυσμα ερωτήματος Γενικά, δεν υπάρχουν αποδοτικοί αλγόριθμοι που να δουλεύουν καλά σε χώρους υψηλής διάστασης (high-dimensional spaces) Όμως υπάρχουν λύσεις για ερωτήματα μικρού μήκους, και τα παραδοσιακά ευρετήρια τις υποστηρίζουν καλά May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

Ειδική Περίπτωση: Ερωτήματα χωρίς Βάρη ε χρησιμοποιούμε βάρη στους όρους του ερωτήματος Υποθέτουμε ότι κάθε όρος ερωτήματος εμφανίζεται μόνο μια φορά Για την κατάταξη δε χρειάζεται να κανονικοποιήσουμε το διάνυσμα ερωτήματος Μικρή απλοποίηση του αλγόριθμου του 6 ου μαθήματος Κεφάλαιο 7.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

Υπολογισμός των Κ Μεγαλύτερων Συνημιτόνων: Επιλογή vs. Ταξινόμηση Κεφάλαιο 7.1 Ουσιαστικά θέλουμε να ανακτήσουμε τα top K έγγραφα (στην κατάταξη συνημιτόνου για το δοθέν ερώτημα) Όχι να βρούμε μια πλήρη ταξινόμηση όλων των εγγράφων της συλλογής με βάση το συνημίτονο με το διάνυσμα ερωτήματος Μπορούμε να επιλέξουμε τα έγγραφα με τις K μεγαλύτερες τιμές συνημιτόνου; Έστω J = πλήθος εγγράφων με μη μηδενικό συνημίτονο Αναζητούμε τα K καλύτερα από αυτά τα J May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

Χρήση Σωρού για την Επιλογή των Top K Κεφάλαιο 7.1 Σωρός: δυαδικό δέντρο όπου η τιμή κάθε κόμβου είναι > από τις τιμές των παιδιών του Απαιτεί 2J βήματα σύγκρισης για την κατασκευή, και έπειτα κάθε ένας από τους K νικητές εντοπίζεται σε 2log J βήματα Για J=1M, K=100, αυτό καταλήγει να είναι το 10% του κόστους ταξινόμησης 1.9.3.3.8.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11.1

Σημεία Συμφόρησης (Bottlenecks) Κεφάλαιο 7.1.1 Κύριο υπολογιστικό σημείο συμφόρησης στη βαθμολόγηση: υπολογισμός συνημιτόνου Μπορούμε να αποφύγουμε αυτό τον υπολογισμό; Ναι, όμως μερικές φορές μπορεί να κάνουμε λάθος Ένα έγγραφο που δεν ανήκει στα top K μπορεί να εμφανιστεί στη λίστα με τα K έγγραφα εξόδου Είναι αυτό τόσο κακό; May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

Η Συνημιτονοειδής Ομοιότητα είναι απλά κάτι Προσεγγιστικό Κεφάλαιο 7.1.1 Ο χρήστης έχει μια εργασία που θέλει να εκτελέσει και διαμορφώνει γι αυτό ένα ερώτημα Το συνημίτονο βρίσκει ταιριάσματα εγγράφων με το ερώτημα Έτσι το συνημίτονο είναι απλά ένα μέσο προσέγγισης της πραγματικής συνάφειας για το χρήστη Εάν πάρουμε μια λίστα από K έγγραφα κοντά στην top K λίστα που προκύπτει από το συνημίτονο, θα πρέπει να μας αρκεί May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

Γενική Προσέγγιση Κεφάλαιο 7.1.1 Εύρεση ενός συνόλου A από υποψήφια έγγραφα (contenders), με K < A << N Το A δεν περιέχει απαραιτήτως τα top K, όμως περιέχει αρκετά έγγραφα που ανήκουν στα top K Επιστρέφουμε το top K έγγραφα στο A Μπορούμε να σκεφτόμαστε το A σαν έναν τρόπο να απορρίπτουμε με υποψήφια έγγραφα (pruning noncontenders) Η ίδια προσέγγιση ακολουθείται και για άλλες (μη συνημιτονοειδείς) συναρτήσεις βαθμολόγησης Θα εξετάσουμε διάφορους τρόπους που ακολουθούν αυτή την προσέγγιση May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

Κεφάλαιο 7.1.2 Απαλοιφή Καταχωρήσεων Ευρετηρίου Ο βασικός αλγόριθμος υπολογισμού του συνημιτόνου λαμβάνει υπόψιν μόνο τα έγγραφα που περιέχουν τουλάχιστον έναν όρο του ερωτήματος Μπορούμε να προχωρήσουμε λίγο αυτή τη διαπίστωση: Εξετάζουμε μόνο τα έγγραφα που περιέχουν όρους ερωτήματος με υψηλό idf Εξετάζουμε μόνο τα έγγραφα που περιέχουν πολλούς όρους του ερωτήματος May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

Μόνο Όροι με Υψηλό idf Κεφάλαιο 7.1.2 Για ένα ερώτημα όπως: catcher in the rye ιατρέχουμε μόνο τις καταχωρήσεις των catcher και rye ιαισθητικά: οι λέξεις in και the συνεισφέρουν λίγο στη βαθμολογία και δεν επηρεάζουν σημαντικά την κατάταξη Πλεονέκτημα: Λίστες καταχώρησης όρων με χαμηλό idf περιέχουν πολλά έγγραφα αυτά τα (πολλά) έγγραφα απορρίπτονται από το σύνολο A των υποψηφίων May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16

Μόνο Έγγραφα με Πολλούς Όρους Ερωτήματος Κεφάλαιο 7.1.2 Οποιοδήποτε έγγραφο που περιέχει τολάχιστον έναν όρο ερωτήματος είναι υποψήφιο για την top K λίστα Για ερωτήματα πολλών όρων (multi-term queries), υπολογίζουμε τη βαθμολογία μόνο για έγγραφα που περιέχουν πολλούς όρους ερωτήματος Π.χ., τουλάχιστον 3 από τους 4 Επιβάλλεί μια χαλαρή σύζευξη ( soft conjunction ) σε ερωτήματα που υποβάλονται σε μηχανές αναζήτησης (Google στις αρχές) Εύκολο να υλοποιηθεί κατά τη διάσχιση των λιστών καταχώρησης May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

3 από 4 Όρους Ερωτήματος Κεφάλαιο 7.1.2 Antony 3 4 8 16 32 64 128 Brutus Caesar Calpurnia 2 4 8 16 32 64 128 1 2 3 5 8 13 21 34 13 16 32 Οι βαθμολογίες υπολογίζονται μόνο για τα έγγραφα 8, 16 και 32 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

Κεφάλαιο 7.1.3 Λίστες Πρωταθλητών (Champion Lists) Προϋπολογίζουμε για κάθε όρο του λεξικού t, τα r έγγραφα με το υψηλότερο βάρος στις λίστες καταχώρησης του t Αυτά τα έγγραφα αποτελούν τη λίστα πρωταθλητών (champion list) για τον όρο t (γνωστή και ως fancy list ή top docs για τον όρο t) Σημειώστε ότι το r πρέπει να επιλεγεί κατά το χρόνο κατασκευής του ευρετηρίου Έτσι, είναι πιθανό ότι r < K Στο χρόνο ερώτησης, υπολογίζουμε μόνο τις βαθμολογίες για τα έγγραφα στη λίστα πρωταθλητών κάποιου όρου ερωτήματος Επιλέγονται τα K έγγραφα με την υψηλότερη βαθμολογία ανάμεσα σε αυτά May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

Ασκήσεις Κεφάλαιο 7.1.3 Πώς σχετίζονται οι λίστες πρωταθλητών με το Index Elimination; Μπορούν να χρησιμοποιηθούν μαζί; Πώς μπορούν να υλοποιηθούν οι λίστες πρωταθλητών σε ένα αντεστραμμένο ευρετήριο; Σημειώστε ότι η λίστα πρωταθλητών δεν έχει καμία σχέση με μικρά docids May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

Στατικές Βαθμολογίες Ποιότητας (Static Quality Scores) Επιθυμούμε τα κορυφαία έγγραφα στην κατάταξη να είναι τόσο σχετικά όσο και authoritative Η σχετικότητα μοντελοποιείται από τις βαθμολογίες συνημιτόνου Η Authority είναι μια ιδιότητα ενός εγγράφου που είναι ανεξάρτητη ερωτήματος Παραδείγματα authority Η Wikipedia ανάμεσα σε άλλους ιστότοπους Άρθρα σε συγκεκριμένες εφημερίδες Ένα άρθρο με πολλές ετεροαναφορές Πολλές εμφανίσεις σε bitly s, diggs ή del.icio.us (Pagerank) Κεφάλαιο 7.1.4 Quantitative May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

Μοντελοποίηση του Authority Κεφάλαιο 7.1.4 Ανάθεση σε κάθε έγγραφο d μιας βαθμολογίας ποιότητας ανεξάρτητης από το ερώτημα (query-independent quality score) στο διάστημα [0,1] Το συμβολίζουμε αυτό με g(d) Έτσι, μια ποσότητα όπως το πλήθος των ετεροαναφορών κανονικοποιείται στο [0,1] Άσκηση: προτείνετε μια φόρμουλα/εξίσωση γι αυτό May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

Καθαρή Βαθμολογία (Net Score) Κεφάλαιο 7.1.4 Ας θεωρήσουμε μια απλή συνολική βαθμολογία που συνδυάζει συνάφεια κατά συνημίτονο και authority net-score(q,d) = g(d) + cosine(q,d) Μπορεί να χρησιμοποιηθεί κάποιος άλλος γραμμικός συνδυασμός Πράγματι, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση των δυο σημάτων ικανοποίησης του χρήστη περισσότερα αργότερα Τώρα αναζητούμε τα top K έγγραφα κατά net score May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

Top K κατά net score Γρήγορες Μέθοδοι Πρώτη ιδέα: κατάταξη όλων των καταχωρήσεων κατά g(d) Βασικό: αυτή η κατάταξη είναι κοινή για όλες τις λίστες καταχώρησης Έτσι, μπορούμε ταυτόχρονα να διασχίσουμε τις λίστες καταχωρήσεων όρων για Τομή καταχωρήσεων λιστών Υπολογισμό συνημιτόνου Άσκηση: γράψτε ψευδοκώδικα για υπολογισμό συνημιτόνου εάν οι λίστες καταχώρησης είναι ταξινομημένες κατά g(d) Κεφάλαιο 7.1.4 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

Κεφάλαιο 7.1.4 Γιατί Ταξινομούμε τις Λίστες κατά g(d)? Με την ταξινόμηση κατά g(d), τα έγγραφα με υψηλή βαθμολογία (top-scoring docs) είναι πιθανό να εμφανιστούν νωρίς κατά τη διάσχιση των λιστών Σε εφαρμογές που ο χρόνος είναι κρίσιμος (π.χ., όταν πρέπει να επιστρέψουμε οσαδήποτε αποτελέσματα μπορούμε σε 50 ms), αυτό επιτρέπει να σταματήσουμε νωρίς τη διάσχιση των λιστών Χωρίς να υπολογίσουμε βαθμολογίες για όλα τα έγγραφα στις λίστες καταχώρησης May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25

Λίστες Πρωταθλητών με Κατάταξη κατά g(d) Μπορούμε να συνδυάσουμε τις λίστες πρωταθλητών (champion lists) με την κατάταξη κατά g(d) ιατηρούμε για κάθε όρο μια λίστα πρωταθλητών των r εγγράφων με την υψηλότερη βαθμολογία g(d) + tf-idf td Αναζητούμε τα top-k αποτελέσματα μόνο από τα έγγραφα σε αυτές τις λίστες πρωταθλητών Κεφάλαιο 7.1.4 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

Υψηλές και Χαμηλές Λίστες (High and Low Lists) Για κάθε όρο, διατηρούμε δύο λίστες καταχώρησης που ονομάζονται high και low Μπορείτε να θεωρείτε τη high σαν τη λίστα πρωταθλητών Καθώς διασχίζουμε λίστες καταχώρησης για ένα ερώτημα, αρχικά διασχίζουμε μόνο τις high λίστες Εάν βρούμε πάνω από K έγγραφα, επιλέγουμε τα top K και τέλος Κεφάλαιο 7.1.4 Αλλιώς συνεχίζουμε προσπαθώντας να βρούμε έγγραφα από τις low λίστες Μπορεί να χρησιμοποιηθεί ακόμα και για απλές βαθμολογίες συνημιτόνου, δίχως καθολική βαθμολογία ποιότητας g(d) Είναι ένας τρόπος για for τμηματοποίηση ευρετηρίων (segmenting index) σε δύο επίπεδα (tiers) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

Κατάταξη κατά Επίπτωση (Impactordered postings) Θέλουμε να υπολογίσουμε βαθμολογίες μόνο για έγγραφα για τα οποία η τιμή wf t,d είναι αρκετά υψηλή Ταξινομούμε κάθε λίστα καταχώρησης κατά wf t,d Τώρα: δεν έχουν όλες οι λίστες καταχώρησης κοινή κατάταξη! Πώς υπολογίζουμε βαθμολογίες ώστε να επιλέξουμε τα top K έγγραφα? Ακολουθούν δύο ιδέες για αυτό Κεφάλαιο 7.1.5 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

Κεφάλαιο 7.1.5 1. Έγκαιρος Τερματισμός (Early termination) Καθώς διασχίζουμε τίς καταχωρήσεις του όρου t, μπορούμε να σταματήσουμε μετά από ένα από τα ακόλουθα Μετά από ένα συγκεκριμένο αριθμό r εγγράφων Αφού η τιμή wf t,d πέσει κάτω από ένα κατώφλι (threshold) Παίρνουμε την ένωση των συνόλων εγγράφων που προκύπτουν Ένα σύνολο για τις καταχωρήσεις κάθε όρου ερωτήματος Υπολογίζουμε μόνο τις βαθμολογίες για τα έγγραφα σε αυτή την ένωση May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

2. Κατάταξη Όρων κατά idf (idf-ordered terms) Όταν εξετάζουμε τις καταχωρήσεις που αντιστοιχούν σε όρους ερωτήματος Τις εξετάζουμε κατά φθίνουσα σειρά τιμών idf Όροι με υψηλό idf είναι πιο πιθανό να συνεισφέρουν πολύ στη βαθμολογία Καθώς ενημερώνουμε τη συνεισφορά βαθμολογίας για κάθε όρο ερωτήματος Κεφάλαιο 7.1.5 Σταματάμε όταν παρατηρήσουμε ότι οι βαθμολογίες εγγράφων παραμένουν σχετικά οι ίδιες Εφαρμόσιμο σε συνημίτονο ή σε άλλο net score May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

Κλάδεμα Συστάδων (Cluster pruning): Προεπεξεργασία Επιλέγουμε N έγγραφα με τυχαίο τρόπο: ανομάζονται αρχηγοί (leaders) Για κάθε άλλο έγγραφο, υπολογίζουμε σε μια φάση προεπεξεργασίας τον κοντινότερο αρχηγό Έτσι τα έγγραφα ανατίθενται σε ένα αρχηγό: ονομάζονται followers Πολύ πιθανώς: κάθε αρχηγός έχει ~ N followers Κεφάλαιο 7.1.6 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

Κλάδεμα Συστάδων: Επεξεργασία Επερωτήσεων Κεφάλαιο 7.1.6 Ένα ερώτημα το επεξεργαζόμαστε ως εξής: οθέντος του ερωτήματος Q, βρίσκουμε τον κοντινότερο αρχηγό L Αναζητούμε τα K κοντινότερα έγγραφα ανάμεσα στους followers του L May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

Οπτικοποίηση Κεφάλαιο 7.1.6 Query Leader Follower May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

Γιατί Χρησιμοποιείται Τυχαία Κεφάλαιο 7.1.6 Δειγματοληψία Είναι γρήγορη Οι επιλεγμένοι αρχηγοί (leaders) αντανακλούν την κατανομή των δεδομένων May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

Γενικές Παραλλαγές Κεφάλαιο 7.1.6 Κάθε follower ανατίθεται σε b1=3 (έστω) κοντινότερους αρχηγούς Για το ερώτημα, βρίσκουμε b2=4 (έστω) κοντινότερους αρχηγούς και τους followers αυτών Μπορούμε αναδρομικά να κατασκευάζουμε leader/follower συσχετίσεις May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35

Ασκήσεις Κεφάλαιο 7.1.6 To find the nearest leader in step 1, how many cosine computations do we do? Why did we have N in the first place? What is the effect of the constants b1, b2 on the previous slide? Devise an example where this is likely to fail i.e., we miss one of the K nearest docs. Likely under random sampling. May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

Παραμετρικά Ευρετήρια και Κεφάλαιο 6.1 Ευρετήρια Ζωνών Μέχρι τώρα, θεωρούσαμε ότι ένα έγγραφο είναι μια ακολουθία όρων Στην πραγματικότητα, τα έγγραφα έχουν πολλαπλά μέρη, ορισμένα εκ των οποίων έχουν ιδιαίτερη σημασιολογία: Author Title Date of publication Language Format κτλ. Αυτά είναι τα μεταδεδομένα (metadata) ενός εγγράφου May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

Πεδία Κεφάλαιο 6.1 Ορισμένες φορές επιθυμούμε να κάνουμε αναζήτηση με βάση τα μεταδεδομένα Π.χ., εύρεση εγγράφων με συγγραφέα τον William Shakespeare το έτος 1601, και περιέχουν alas poor Yorick Έτος = 1601 είναι ένα παράδειγμα πεδίου (field) Επίσης, επώνυμο συγγραφέα = shakespeare, κτλ. Ευρετήριο πεδίου ή παραμετρικό (field or parametric index): καταχωρήσεις για κάθε τιμή πεδίου Μερικές φορές χτίζουμε range trees (π.χ., για ημερομηνίες) Το ερώτημα πεδίου (field query) το χειριζόμαστε σαν σύζευξη (το έγγραφο πρέπει να έχει συγγραφέα τον shakespeare) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

Ζώνη Κεφάλαιο 6.1 Μια ζώνη (zone) είναι μια περιοχή του εγγράφου η οποία μπορεί να περιέχει ένα αυθαίρετο μέγεθος κειμένου, π.χ., Title Abstract References Χτίζουμε αντεστραμμένα ευρετήρια και για ζώνες, ώστε να επιτρέπεται η επεξεργασία επερωτήσεων Π.χ., εύρεση εγγράφων με τη λέξη merchant στη ζώνη τίτλου και να ταιριάζει με το ερώτημα gentle rain May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

Παράδειγμα Ευρετήριου Ζώνης Κεφάλαιο 6.1 Κωδικοποίηση ζωνών στο λεξικό vs. στις λίστες May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

Διαστρωματωμένα Ευρετήρια (Tiered Indexes) ιασπώνται οι καταχωρήσεις σε μια ιεραρχία λιστών Πιο σημαντικές Λιγότερο σημαντικές Μπορεί να γίνει κατά g(d) ή άλλο μέτρο Το αντεστραμμένο ευρετήριο διασπάται σε επίπεδα (tiers) φθίνουσας σημασίας Στο χρόνο ερώτησης χρησιμοποιούνται τα υψηλότερα επίπεδα, εκτός κι αν αποτύχουν να μας δώσουν K έγγραφα Εάν συμβεί αυτό, πηγαίνουμε στα χαμηλότερα επίπεδα Κεφάλαιο 7.2.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

Παράδειγμα Διαστρωματωμένου Κεφάλαιο 7.2.1 Ευρετηρίου May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

Εγγύτητα Όρων Ερωτήματος Κεφάλαιο 7.2.2 Ερωτήματα ελεύθερου κειμενου (free text queries): απλά ένα σύνολο όρων που έχουν γραφεία στο κουτί αναζήτησης κοινό σενάριο στον Παγκόσμιο Ιστό Οι χρήστες προτιμούν έγγραφα στα οποία οι όροι του ερωτήματος εμφανίζονται σε κοντινές μεταξύ τους θέσεις Έστω w το μικρότερο παράθυρο (window) σε ένα έγγραφο που περιέχει όλους τους όρους, π.χ., Για το ερώτημα strained mercy το μικρότερο παράθυρο στο έγγραφο The quality of mercy is not strained είναι 4 (λέξεις) Θα θέλαμε να λαμβάνεται υπόψιν στη βαθμολόγηση πώς; May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

Query Parsers Κεφάλαιο 7.2.3 Ένα ερώτημα ελεύθερου κειμένου από κάποιο χρήστη μπορεί να εμπεριέχει ένα ή πολλαπλά ερωτήματα προς τα ευρετήρια, π.χ., ερώτημα rising interest rates Εκτελείται το ερώτημα σαν ερώτημα φράσης (phrase query) Εάν <K έγγραφα περιέχουν τη φράση rising interest rates, εκτελούμε τα δύο ερωτήματα φράσης rising interest και interest rates Εάν εξακολουθούμε να έχουμε <K έγγραφα, εκτελούμε το ερώτημα διανυσματικού χώρου rising interest rates Κατατάσσουμε τα έγγραφα που ταιριάζουν με το ερώτημα κατά βαθμολόγηση διανυσματικού χώρου Αυτή η ακολουθία βημάτων γίνεται από έναν query parser May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

Συναθροιστική Βαθμολόγηση Κεφάλαιο 7.2.3 Ειδαμε ότι συναρτήσεις βαθμολόγησης μπορεί να συνδυάζουν συνημίτονο, στατική ποιότητα, εγγύτητα, κτλ. Πώς ξέρουμε ποιος είναι ο βέλτιστος συδυασμός; Για μερικές εφαρμογές καθορίζεται από κάποιον ειδικό (expert-tuned) Ολοένα και συχνότερα: χρησιμοποιείται μηχανική μάθηση (machine-learned) May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45

Βάζοντάς τα Όλα Μαζί Κεφάλαιο 7.2.4 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46

Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαια 7, 6.1 May 17, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47