ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας.

Σχετικά έγγραφα
ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Information Retrieval

Information Retrieval

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Τι (άλλο) θα δούμε σήμερα;

Πιθανοκρατικό μοντέλο

Ανάκτηση Πληροφορίας

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Information Retrieval

Ανάκτηση Πληροφορίας

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΜΥΕ003: Ανάκτηση Πληροφορίας

Information Retrieval

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΗΥ537: Έλεγχος Πόρων και Επίδοση σε Ευρυζωνικά Δίκτυα,

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Information Retrieval

Δυναμική Διατήρηση Γραμμικής Διάταξης

Ανάκτηση Πληροφορίας

Δομές Δεδομένων και Αλγόριθμοι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Επεξεργασία Ερωτήσεων

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Παλαιότερες ασκήσεις

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Επεξεργασία Ερωτήσεων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Επεξεργασία Ερωτήσεων

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

ΜΥΕ03: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 8: Αξιολόγηση στην Ανάκτηση Πληροφορίας.

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Κατακερματισμός (Hashing)

Θεωρία Λήψης Αποφάσεων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Εικονικό Εργαστήριο Χωρικής Ανάλυσης. Εγχειρίδιο Χρήστη ΤΕΙ ΑΘΗΝΑΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Δεσμευμένη (ή υπο-συνθήκη) Πιθανότητα (Conditional Probability)

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

Οργάνωση Υπολογιστών

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Δυναμικός Κατακερματισμός

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ασκήσεις μελέτης της 16 ης διάλεξης

Ανάκτηση Πληροφορίας

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Τηλεπικοινωνιακά Συστήματα ΙΙ

07_Έλεγχος_Συχνοτήτων. Γούργουλης Βασίλειος Καθηγητής Τ.Ε.Φ.Α.Α. Σ.Ε.Φ.Α.Α. Δ.Π.Θ.

Προσδιορισμός ενός επίπεδου απλού αρμονικού κύματος από τις ταλαντώσεις σημείων του

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

1. Financial New Times Year MAXk {FREQij} D D D D

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Κατανεμημένα Συστήματα Ι

Έννοιες Διαχείρισης Βάσεων Δεδομένων και Αρχιτεκτονική

Σύστημα Πλεονάσματος. Αναπαράσταση Πραγματικών Αριθμών. Αριθμητικές Πράξεις σε Αριθμούς Κινητής Υποδιαστολής

Μηχανική Μάθηση: γιατί;

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

1.4 Αριθμητική υπολογιστών και σφάλματα

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Πλοήγηση και Αναζήτηση

Θεωρία Υπολογισμού Άρτιοι ΑΜ. Διδάσκων: Σταύρος Κολλιόπουλος. eclass.di.uoa.gr. Περιγραφή μαθήματος

Θεωρία Υπολογισμού Αρτιοι ΑΜ Διδάσκων: Σταύρος Κολλιόπουλος eclass.di.uoa.gr

Η παρουσίαση των ευρημάτων στην ερευνητική αναφορά ΠΕΤΡΟΣ ΡΟΥΣΣΟΣ

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ταξινόμηση. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Transcript:

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 8, : Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας.

Κεφ. 8 Τι θα δούμε σήμερα; Πιθανοτική ανάκτηση Περιλήψεις αποτελεσμάτων Κάνοντας τα καλά αποτελέσματα χρήσιμα 2

ΠΙΘΑΝΟΤΙΚΗ ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 3

Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι συναφή με το ερώτημα Τυχαία μεταβλητή Διάταξη με βάση το P=, d

Κεφ..2 Αρχή Πιθανοτικής Κατάταξης «Αν η απόκριση ενός συστήματος ανάκτησης πληροφορίας σε κάθε ερώτημα είναι η κατάταξη των εγγράφων κατά φθίνουσα πιθανότητα συνάφειας προς τον χρήστη που υπέβαλε το ερώτημα, όπου οι πιθανότητες εκτιμώνται με τον ακριβέστερο δυνατό τρόπο βάσει των όποιων δεδομένων είναι διαθέσιμα στο σύστημα για τον σκοπό αυτό, η συλλογική αποτελεσματικότητα είναι η βέλτιστη εφικτή με βάση αυτά τα δεδομένα» [van jsbergen 979] Probablty ankng Prncle P: decreasng robablty of relevance => best overall effectveness

Δυαδικό Μοντέλο Ανεξαρτησίας Bnary Indeendence Model BIP Θα αναπαραστήσουμε κάθε έγγραφο d και αντίστοιχα, το ερώτημα ως ένα δυαδικό Boolean διάνυσμα,, M ανν το έγγραφο περιέχει τον όρο Υπόθεση ανεξαρτησίας όρων ndeendence assumton: Οι όροι εμφανίζονται στα έγγραφα ανεξάρτητα ο ένας από τον άλλο Επίσης, η συνάφεια ενός εγγράφου είναι ανεξάρτητη από τη συνάφεια των άλλων εγγράφων ανεξαρτησία εγγράφων Κεφ..3

Επειδή μας ενδιαφέρει η διάταξη θα χρησιμοποιήσουμε τη σχετική πιθανότητα - odds, 0,, O Δυαδικό Μοντέλο Ανεξαρτησίας 0, 0,, 0,, O Από τον κανόνα του Bayes Κεφ..3

Δυαδικό Μοντέλο Ανεξαρτησίας Κεφ..3 O,, 0, 0, 0, Σταθερά για κάθε ερώτημα Εκ των προτέρων πιθανότητα ror robablty να ανακτήσουμε συναφές μη συναφές ερώτημα Πρέπει να εκτιμήσουμε αυτήν την ποσότητα Αν έχουμε ανακτήσει ένα συναφές μη συναφές έγγραφο, αυτό να έχει αναπαράσταση

Θα χρησιμοποιήσουμε την υπόθεση ανεξαρτησίας των όρων η παρουσία ή απουσία ενός όρου σε ένα έγγραφο είναι ανεξάρτητη από την παρουσία ή απουσία οποιουδήποτε άλλου όρου Naïve Bayes condtonal ndeendent assumton M 0,, 0,, Δυαδικό Μοντέλο Ανεξαρτησίας n O O 0,,, Άρα: Κεφ..3

Δυαδικό Μοντέλο Ανεξαρτησίας 0 0, 0, 0 0,,, O O Αφού τα είναι είτε είτε 0, σπάμε το γινόμενο n O O 0,,, Κεφ..3

Δυαδικό Μοντέλο Ανεξαρτησίας Κεφ..3 Για τον όρο, ορίζουμε ως την πιθανότητα να εμφανίζεται σε συναφές και ως r την πιθανότητα να εμφανίζεται σε μη συναφές r, 0, Έγγραφο Συναφές = Μη συναφές =0 Όρος εμφανίζεται = r Όρος δεν εμφανίζεται = 0 r

r 0, r r O O Δυαδικό Μοντέλο Ανεξαρτησίας Αν υποθέσουμε ότι οι όροι που δεν εμφανίζονται στο ερώτημα είναι το ίδιο πιθανό να εμφανίζονται σε συναφή και σε μη συναφή Κεφ..3

Οι όροι του ερωτήματος που εμφανίζονται Οι όροι του ερωτήματος που δεν εμφανίζονται Οι όροι του ερωτήματος που εμφανίζονται Όλοι οι όροι 0, r r r r O O, r r r O O 0, r r O O Δυαδικό Μοντέλο Ανεξαρτησίας Μοιράζουμε το μεσαίο όρο = στα αριστερά και δεξιά είναι οι όροι του ερωτήματος που εμφανίζονται στο έγγραφο Κεφ..3

Σταθερά για κάθε ερώτημα Η μοναδική ποσότητα που πρέπει να εκτιμηθεί, r r r O O Θα χρησιμοποιήσουμε το log αυτής της ποσότητας etreval Status Value SV τιμή κατάστασης ανάκτησης log log r r r r SV Δυαδικό Μοντέλο Ανεξαρτησίας Κεφ..3

Τιμή Κατάστασης Ανάκτησης SV Κεφ..3 SV log r log r r r SV c c log r r Τα c log odd ratos έχουν το ρόλο των βαρών σε αυτό το μοντέλο Έγγραφο Συναφές = Μη συναφές =0 Όρος εμφανίζεται = r Όρος δεν εμφανίζεται = 0 r Πως θα εκτιμήσουμε αυτά τα c ;

Κεφ..3 Θεωρητική Εκτίμηση των SV συντελεστών Για κάθε όρο, κατασκευάζουμε έναν πίνακα μετρητών Έστω Ν έγγραφα, S συναφή, και ο όρος εμφανίζεται σε συνολικά σε n έγγραφα από τα οποία τα συναφή είναι s Έγγραφα Συναφή = Μη συναφή =0 Συνολικά = s n - s n = 0 S - s N n S s N - n S N - S N Εκτιμήσεις: c s S K N, n, S, s r log n N n s S s S s s N n S s Αγνοεί τους όρους που δεν εμφανίζονται

Κεφ..3 Εκτίμηση των SV συντελεστών Αν τώρα υποθέσουμε ότι τα μη συναφή είναι περίπου όλη η συλλογή, τότε το r η πιθανότητα εμφάνισης του όρου σε μη συναφές έγγραφο είναι n/n r log r log N n S n s s log N n n log N n IDF!

Εκτίμηση των SV συντελεστών To πιθανότητά εμφάνισης σε συναφή έγγραφα είναι πιο δύσκολο να εκτιμηθεί Πιθανοί τρόποι εκτίμησης του : Από συναφή έγγραφα, αν κάποια από αυτά είναι γνωστά Με μία σταθερά τότε απλώς χρησιμοποιούμε το df wth =0.5 SV Ανάλογο των εμφανίσεων του όρου στη συλλογή έχει προταθεί: /3 + 2/3 df /N log N n

Πιθανοτική Ανάδραση Συνάφειας elevance Feedback. Υποθέτουμε κάποιες αρχικές τιμές για τα και r - τις οποίες χρησιμοποιούμε για να ανακτήσουμε ένα αρχικό σύνολο συναφών εγγράφων εγγράφων με = 2. Αλληλοεπιδρούμε με το χρήστη για να βελτιώσουμε αυτές τις τιμές: οι χρήστες χαρακτηρίζουν ένα σύνολο έγγραφων V ως συναφή = και μη συναφή = 0 3. Επανα-υπολογίζουμε τα και r Ή τα συνδυάζουμε με τις αρχικές μας εκτιμήσεις χρήση Bayesan ror: 2 V V 4. Επαναλαμβάνουμε, έως σύγκλιση κ: ror weght

PP και BIM + Λογικές προσεγγίσεις για τις πιθανότητες - Περιοριστικές υποθέσεις: Ανεξαρτησία όρων Ανεξαρτησία συνάφειας εγγράφων Οι όροι που δεν εμφανίζονται στο ερώτημα δεν επηρεάζουν το αποτέλεσμα Δυαδική αναπαράσταση αγνοούμε tf, μήκος εγγράφου, κλπ

Στάθμιση Oka BM25 BM25 Best Match 25 Αναπτύχθηκε στα πλαίσια του συστήματος Oka Πιθανοτικό μη δυαδικό μοντέλο που λαμβάνει υπόψη συχνότητες όρων και μήκη εγγράφων

Αρχικές Εκδοχές του BM25 Εκδοχή: c BM 25v tf = c BIM tf k + tf Εκδοχή 2 απλοποίηση με IDF: c k BM 25 v2 N tf log df k tf tf

Στάθμιση BM25 με Κανονικοποίηση με το Μήκους Εγγράφου Μεγαλύτερα έγγραφα πιο πιθανόν να έχουν μεγάλες τιμές tf Μεγάλα έγγραφα πλεονασμός verbosty το tf που παρατηρούμε είναι πού μεγάλο γενικότερου σκοπού το tf που παρατηρούμε μπορεί να είναι ακριβές Πρέπει να σταθμίσουμε αυτά τα δύο

Στάθμιση BM25 με Κανονικοποίηση με το Μήκους Εγγράφου Μήκος εγγράφου dl V tf B b b dl avdl avdl: μέσο μήκος εγγράφου στη συλλογή b - Συντελεστής κανονικοποίησης μήκους Κανονικοποίηση tf tf B

Oka BM25 SV BM 25 log N df k b b k ελέγχει τη διαβάθμιση της συχνότητα όρου term freuency scalng k = 0 δυαδικό μοντέλο; k = μεγάλο μετράει η καθαρή συχνότητα b ελέγχει την κανονικοποίηση του μήκους εγγράφου b = 0 μη κανονικοποίηση; b = είναι η σχετική συχνότητα πλήρης κανονικοποίηση Συνήθως, k στο.2 2 και το b γύρω στο 0.75 tf dl avdl tf Υπάρχουν και εκδοχές του BM25 που συμπεριλαμβάνουν και βάρη στους όρους του ερωτήματος καθώς και ανάδραση συνάφειας. k

Κεφ. 8 Τι θα δούμε σήμερα; Πιθανοτική ανάκτηση Περιλήψεις αποτελεσμάτων Κάνοντας τα καλά αποτελέσματα χρήσιμα 26

Παρένθεση : Ασκήσεις Ακολουθούμε τις οδηγίες - Για τον τρόπο υποβολής df, emal, κλπ - Για τις περιεχόμενο 0000 όχι 000, κλπ - κλπ Θα αφαιρεθούν βαθμοί 27

Παρένθεση 2: emals. username Στέλνουμε από το account του Τμήματος Σε κάθε περίπτωση: Το username πρέπει να είναι «σοβαρό» 2. Δε ξεχνάμε το subject το οποίο πρέπει να είναι ενδεικτικό του περιεχομένου 3. Προσφώνηση ανάλογα με τον αποδέκτη αν θέλετε να αναφερθείτε προσωπικά: Τίτλος Επώνυμο Πχ Αγαπητή κ. Πιτουρά ή Dear Prof. Ptoura, όχι κυρία ή κυρία Μαρία 4. Υπογράφουμε Όνομα Επώνυμο 5. Να αποφεύγονται: ορθογραφικά λάθη, ιδιωματισμοί, πολλές συντομογραφίες, έλλειψη τόνων, 6. Να είστε όσο σύντομοι χρειάζεται 28

ΠΩΣ ΠΑΡΟΥΣΙΑΖΟΥΜΕ ΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΤΟ ΧΡΗΣΤΗ; 29

Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Αφού έχουμε διατάξει τα έγγραφα που ταιριάζουν με το ερώτημα, θέλουμε να τα παρουσιάσουμε στο χρήστη Πιο συχνά ως μια λίστα από τίτλους εγγράφων, UL, μαζί με μια μικρή περίληψη result snet, aka 0 blue lnks 30

Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Η περιγραφή του εγγράφου είναι κρίσιμη γιατί συχνά οι χρήστες βασίζονται σε αυτήν για να αποφασίσουν αν το έγγραφο είναι σχετικό Δε χρειάζεται να διαλέξουν ένα-ένα τα έγγραφα με τη σειρά Ο τίτλος αυτόματα από μεταδεδομένα, αλλά πώς να υπολογίσουμε τις περιλήψεις; 3

Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Δύο βασικά είδη περιλήψεων Μια στατική περίληψη statc summary ενός εγγράφου είναι πάντα η ίδια ανεξάρτητα από το ερώτημα που έθεσε ο χρήστης Μια δυναμική περίληψη dynamc summary εξαρτάται από το ερώτημα uery-deendent. Προσπαθεί να εξηγήσει γιατί το έγγραφο ανακτήθηκε για το συγκεκριμένο κάθε φορά ερώτημα 32

Κεφ. 8.7 Στατικές Περιλήψεις Σε ένα τυπικό σύστημα η στατική περίληψη είναι ένα υποσύνολο του εγγράφου Απλός ευριστικός: οι πρώτες περίπου 50 λέξεις του εγγράφου cached κατά τη δημιουργία του ευρετηρίου Πιο εξελιγμένες μέθοδοι tet summarzaton βρες από κάθε έγγραφο κάποιες σημαντικές προτάσεις Απλή γλωσσολογική επεξεργασία NLP με ευριστικά για να βαθμολογηθεί κάθε πρόταση πληροφορία θέσης: πρώτη και τελευταία παράγραφος, πρώτη και τελευταία πρόταση στην παράγραφο, και περιεχομένου: σημαντικές λέξεις Η περίληψη αποτελείται από τις προτάσεις με το μεγαλύτερο βαθμό Ή και πιο περίπλοκη γλωσσολογική επεξεργασία για τη σύνθεση/δημιουργία περίληψης 33

Κεφ. 8.7 Δυναμικές Περιλήψεις Παρουσίασε ένα ή περισσότερα «παράθυρα» wndows, snets μέσα στο έγγραφο που να περιέχουν αρκετούς από τους όρους του ερωτήματος KWIC snets: αναπαράσταση Keyword-n-Contet 34 34

Κεφ. 8.7 Δυναμικές Περιλήψεις Για τον υπολογισμό τους χρειαζόμαστε τα ίδια τα έγγραφα δεν αρκεί το ευρετήριο Cache εγγράφων που πρέπει να ανανεώνεται Συχνά όχι όλο το έγγραφο αν είναι πολύ μεγάλο, αλλά κάποιο πρόθεμα του Βρες μικρά παράθυρα στα έγγραφα που περιέχουν όρους του ερωτήματος Απαιτεί γρήγορη αναζήτηση παράθυρου στην cache των εγγράφων 35

Κεφ. 8.7 Δυναμικές Περιλήψεις Βαθμολόγησε κάθε παράθυρο ως προς το ερώτημα Με βάση διάφορα χαρακτηριστικά: το πλάτος του παραθύρου, τη θέση του στο έγγραφο, κλπ Συνδύασε τα χαρακτηριστικά Δύσκολο να εκτιμηθεί η ποιότητα Postonal ndees words vs bytes Ο χώρος που διατίθεται για τα παράθυρα είναι μικρός 36

Κεφ. 8.7 Δυναμικές Περιλήψεις Query: new gunea economc develoment Snets n bold that were etracted from a document:... In recent years, Paua New Gunea has faced severe economc dffcultes and economc growth has slowed, artly as a result of weak governance and cvl war, and artly as a result of eternal factors such as the Bouganvlle cvl war whch led to the closure n 989 of the Panguna mne at that tme the most mortant foregn echange earner and contrbutor to Government fnances, the Asan fnancal crss, a declne n the rces of gold and coer, and a fall n the roducton of ol. PNG s economc develoment record over the ast few years s evdence that governance ssues underly many of the country s roblems. Good governance, whch may be defned as the transarent and accountable management of human, natural, economc and fnancal resources for the uroses of eutable and sustanable develoment, flows from roer ublc sector management, effcent fscal and accountng mechansms, and a wllngness to make servce delvery a rorty n ractce.... 37

Qucklnks Για navgatonal uery όταν ψάχνουμε μια συγκεκριμένη σελίδα όπως unted arlnes οι χρήστες πιθανόν να ικανοποιούνται από τη σελίδα www.unted.com Qucklnks παρέχουν navgatonal cues σε αυτή τη σελίδα 38

39

Εναλλακτικές αναπαραστάσεις; 40

ΤΕΛΟΣ τμήματος Κεφαλαίων 8, Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar aghavan, CS276:Informaton etreval and Web Search Stanford Hnrch Schütze and Chrstna Loma, Stuttgart II class 4