ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΙI. Β. Μεγαλοοικονόµου. Βάσεις εδοµένων Κειµένου

Σχετικά έγγραφα

Βάσεις Δεδομένων ΙΙ Ενότητα 8

Βάσεις Δεδομένων ΙΙ Ενότητα 9

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Αλγόριθμοι Συμβολοσειρών

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση Πληροφορίας

substructure similarity search using features in graph databases

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Ανάκτηση Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Ανάκτηση πληροφορίας

Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

εικτοδότηση και Αναζήτηση (Indexing & Searching) Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ΑΛΓΟΡΙΘΜΟΙ. Ενότητα 7: Χωρικοί Χρονικοί Συμβιβασμοί. Ιωάννης Μανωλόπουλος, Καθηγητής Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Τμήμα Πληροφορικής ΑΠΘ

Indexing Methods for Encrypted Vector Databases

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Ανάκτηση πληροφορίας

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ανάκτηση Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

An Effective and Efficient Algorithm for Text Categorization

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Επερωτήσεις σύζευξης με κατάταξη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Δυναμικός Κατακερματισμός

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Κεφ.11: Ευρετήρια και Κατακερματισμός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Τεχνικές Προσπέλασης σε Πολυδιάστατες Βάσεις εδοµένων µε χρήση ένδρων (R-trees,

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας

Δομές Δεδομένων Εργαστηριακή Άσκηση Γκόγκος Νίκος Α.Μ.: 4973 Έτος: 3 ο gkogkos@ceid.upatras.gr. Εισαγωγικά:

ER-Tree (Extended R*-Tree)

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

Βάσεις Δεδομένων ΙΙ Ενότητα 5

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

User Behavior Analysis for a Large2scale Search Engine

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Το εσωτερικό ενός Σ Β

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Υπολογιστικό Πρόβληµα

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

#2 Αλγόριθµοι, οµές εδοµένων και Πολυπλοκότητα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Ανάκτηση Δεδομένων (Information Retrieval)

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Εισαγωγή στην Ανάλυση Αλγορίθμων (1) Διαφάνειες του Γ. Χ. Στεφανίδη

Δομές Δεδομένων και Αλγόριθμοι

Αλγόριθμοι Ταξινόμησης Μέρος 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Επεξεργασία Ερωτήσεων

Πίνακες (Μια παλιά άσκηση) Πίνακες Κατακερματισμού (Hash Tables) Πίνακες (Μια παλιά άσκηση) Εισαγωγή. A n

Δομές Δεδομένων & Αλγόριθμοι

MIDI [8] MIDI. [9] Hsu [1], [2] [10] Salamon [11] [5] Song [6] Sony, Minato, Tokyo , Japan a) b)

Δοµές Δεδοµένων. 2η Διάλεξη Αλγόριθµοι Ένωσης-Εύρεσης (Union-Find) Ε. Μαρκάκης. Βασίζεται στις διαφάνειες των R. Sedgewick K.

Ειδικές Επιστηµονικές Εργασίες

Newman Modularity Newman [4], [5] Newman Q Q Q greedy algorithm[6] Newman Newman Q 1 Tabu Search[7] Newman Newman Newman Q Newman 1 2 Newman 3

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΙI Β. Μεγαλοοικονόµου Βάσεις εδοµένων Κειµένου (παρουσίαση βασισµένη εν µέρη σε σηµειώσεις των Silberchatz, Korth και Sudarshan και του C. Faloutsos)

Κείµενο οµή διάλεξης Κείµενο Πρόβληµα Σάρωση πλήρους κειµένου Αναστροφή Αρχεία υπογραφής Οµαδοποίηση Φιλτράρισµα πληροφορίας και LSI

Πρόβληµα- Κίνητρο Π.χ., να βρεθούν έγγραφα τα οποία περιέχουν τις λέξεις data και retrieval Εφαρµογές: Ιστός ικηγορικά γραφεία και γραφεία ευρεσιτεχνειών Ψηφιακές βιβλιοθήκες Φιλτράρισµα πληροφορίας

Πρόβληµα- Κίνητρο Τύποι ερωτηµάτων: Λογικοί ( data AND retrieval AND NOT...)

Πρόβληµα- Κίνητρο Τύποι ερωτηµάτων: Λογικοί ( data AND retrieval AND NOT...) Επιπλέον χαρακτηριστικά ( data ADJACENT retrieval ) Ερωτήµατα λέξεων κλειδιών ( data, retrieval ) Πώς γίνεται η αναζήτηση σε µία µεγάλη συλλογή κειµένων;

Σάρωση πλήρους κειµένου Κατασκευή ενός FSA, Σάρρωση c a t

Σάρωση πλήρους κειµένου Για έναν όρο: (απλά: O(N*M)) ABRACADABRA CAB κείµενο πρότυπο

Σάρωση πλήρους κειµένου Για έναν όρο: (απλά: O(N*M)) Knuth Morris & Pratt ( 77) Κατασκευή µικρού FSA, επίσκεψη κάθε γράµµατος του κειµένου µόνο µία φορά, µε προσεκτική ολίσθηση περισσοτέρων από ένα βηµάτων ABRACADABRA CAB κείµενο πρότυπο

Σάρωση πλήρους κειµένου ABRACADABRA CAB κείµενο πρότυπο CAB... CAB CAB

Σάρωση πλήρους κειµένου Για έναν όρο : (απλός τρόπος: O(N*M)) Knuth Morris & Pratt ( 77) Boyer & Moore ( 77) Προεπεξεργασία προτύπου, ξεκινά από δεξιά προς τα αριστερά και προσπερνά! ABRACADABRA CAB κείµενο πρότυπο

Σάρωση πλήρους κειµένου ABRACADABRA CAB κείµενο πρότυπο CAB CAB CAB

Σάρωση πλήρους κειµένου ABRACADABRA OMINOUS OMINOUS κείµενο πρότυπο Boyer+Moore: γρηγορότερος, στην πράξη Sunday ( 90): κάποιες βελτιώσεις

Σάρωση πλήρους κειµένου Για πολλαπλούς όρους (w/o don t care characters): Aho+Corasic ( 75) πάλι, κατασκεύασε ένα απλό FSA σε O(M) χρόνο Πιθανοτικοί αλγόριθµοι: fingerprints (Karp + Rabin 87) Προσεγγιστικό ταίριασµα: agrep [Wu+Manber, Baeza-Yates+, 92]

Σάρωση πλήρους κειµένου Προσεγγιστικό ταίριασµα- Απόσταση µετασχηµατισµού συµβολοσειράς (string editing distance): d( survey, surgery ) = 2 = ελάχιστος # ενθέσεων, διαγραφών, αντικαταστάσεων για τον µετασχηµατισµό της πρώτης συµβολοσειράς στην δεύτερη SURVEY SURGERY

Σάρωση πλήρους κειµένου string editing distance Πως υπολογίζεται; A:

Σάρωση πλήρους κειµένου string editing distance Πως υπολογίζεται; A: υναµικός προγραµµατισµός cost( i, j ) = το κόστος ταιριάσµατος του προθέµατος µήκους i της πρώτης συµβολοσειράς s µε το πρόθεµα µήκους j της δεύτερης συµβολοσειράς t

Σάρωση πλήρους κειµένου if s[i] = t[j] then cost( i, j ) = cost(i-1, j-1) else cost(i, j ) = min ( 1 + cost(i, j-1) // deletion 1 + cost(i-1, j-1) // substitution 1 + cost(i-1, j) // insertion )

Σάρωση πλήρους κειµένου Πολυπλοκότητα: O(M*N) (όταν χρησιµοποιείται πίνακας για την αποµνηµόνευση των επιµέρους αποτελεσµάτων)

Σάρωση πλήρους κειµένου Συµπεράσµατα: Η σάρωση πλήρους κειµένου δεν χρειάζεται επιπλέον χώρο, αλλά είναι αργή για µεγάλα σύνολα δεδοµένων

Κείµενο οµή διάλεξης Κείµενο Πρόβληµα Σάρωση πλήρους κειµένου Αναστροφή Αρχεία υπογραφών Οµαδοποίηση Φιλτράρισµα πληροφορίας και LSI

Κείµενο- Αναστροφή

Κείµενο- Αναστροφή Q: επιπλέον χρήση χώρου;

Κείµενο- Αναστροφή A: κυρίως, λίστες εναπόθεσης

Κείµενο- Αναστροφή Πώς γίνεται η οργάνωση λεξικού; stemming Ν/Ο; Είσοδοι;

Κείµενο- Αναστροφή Πώς γίνεται η οργάνωση λεξικού; B-tree, hashing, TRIEs, PATRICIA trees,... stemming Ν/Ο; Είσοδοι

Κείµενο- Αναστροφή Νέα θέµατα: Παραλληλισµός[Tomasic+,93] Είσοδοι [Tomasic+94], [Brown+] zipf διανοµές Προσεγγιστική αναζήτηση ( glimpse [Wu+])

Κείµενο- Αναστροφή postings list more Zipf distr.: eg., rank-frequency plot of Bible log(freq) freq ~ 1 / (rank * ln(1.78v)) log(rank)

Κείµενο- Αναστροφή postings lists Cutting+Pedersen (κράτησε τα πρώτα 4 in B-tree leaves) Πως γίνεται η δέσµευση χώρου: [Faloutsos+92] Γεωµετρική πρόοδος Συµπίεση (Elias codes) [Zobel+] µόλις 2% επιπλέον!

Συµπεράσµατα Συµπεράσµατα: χρειάζεται επιπλέον χώρος (2%-300%), αλλά έχουµε καλύτερη ταχύτητα

Κείµενο οµή διάλεξης Κείµενο Πρόβληµα Σάρωση πλήρους κειµένου Αναστροφή Αρχεία υπογραφής Οµαδοποίηση Φιλτράρισµα πληροφορίας και LSI

Αρχεία υπογραφής Ιδέα: quick & dirty filter

Αρχεία υπογραφής Ιδέα: «γρήγορο και βρώµικο» φιλτράρισµα Έπειτα, σάρωσε ακολουθιακά το αρχείο υπογραφής και εντόπισε τις «ενδείξεις σφάλµατος» Πλεονέκτηµα: εύκολες ενθέσεις Μειονέκτηµα: αναζήτηση σε Ο(Ν) (µε µικρή σταθερά) Q: Πώς γίνεται η εξαγωγή υπογραφών;

Αρχεία υπογραφής A: κωδικοποίηση υπέρθεσης!! [Mooers49],... m (=4 bits/word) ~ (=4 bits παίρνουν την τιµή 1 Και τα υπόλοιπα παραµένουν 0 ) F (=12 bits sign. size) Τα πρότυπα των bits σχηµατίζουν την υπογραφή του κειµένου

Αρχεία υπογραφής A: κωδικοποίηση υπέρθεσης!! [Mooers49],... data Ταίριασµα

Αρχεία υπογραφής A: κωδικοποίηση υπέρθεσης!! [Mooers49],... Αποτυχία retrieval

Αρχεία υπογραφής A: κωδικοποίηση υπέρθεσης!! [Mooers49],... nucleotic Ένδειξη σφάλµατος ( false drop )

Αρχεία υπογραφής A: Κωδικοποίηση υπέρθεσης!! [Mooers49],... ΝΑΙ είναι ΙΣΩΣ ΟΧΙ είναι ΟΧΙ

Αρχεία υπογραφής Q1: Πώς επιλέγονται τα F και m; Q2: Για ποιο λόγο καλείται false drop ; Q3: Άλλες εφαρµογές των αρχείων υπογραφής;

Αρχεία υπογραφής Q1: Πώς επιλέγονται τα F και m; m (=4 bits/word) F (=12 bits sign. size)

Αρχεία υπογραφής Q1: Πώς επιλέγονται τα F και m; A: Έτσι ώστε η υπογραφή κειµένου να είναι 50% πλήρης m (=4 bits/word) F (=12 bits sign. size)

Αρχεία υπογραφής Q1: Πώς επιλέγονται τα F και m; Q2: Για ποιο λόγο καλείται false drop ; Q3: Άλλες εφαρµογές των αρχείων υπογραφής;

Αρχεία υπογραφής Q2: Για ποιο λόγο καλείται false drop ; Παλιά, αλλά ενδιαφέρουσα ιστορία [1949] Πώς γίνεται η αναζήτηση βιβλίων (µε την λέξη τίτλου, και/ή τον συγγραφέα, και/ή την λέξη κλειδί) Σε χρόνο O(1); Χωρίς υπολογιστές

Αρχεία υπογραφής Λύση: Edge-notched cards 1 2 40...... Κάθε λέξη τίτλου αντιστοιχίζεται σεm αριθµούς (πώς;) Και οι αντίστοιχες τρύπες αποκόπτονται:

Αρχεία υπογραφής Λύση: Edge-notched cards 1 2 40...... data data -> #1, #39

Αρχεία υπογραφής Ψάξε, π.χ., για data : ενεργοποίησε την βελόνα #1, #39 και ανακάτεψε τον σωρό των καρτών! data 1 2 40...... data -> #1, #39

Αρχεία υπογραφής Γνωστή επίσης ως zatocoding, Zator

Αρχεία υπογραφής Q1: Πώς επιλέγονται τα F και m; Q2: Για ποιο λόγο καλείται false drop ; Q3: Άλλες εφαρµογές των αρχείων υπογραφής;

Αρχεία υπογραφής Q3: Άλλες εφαρµογές των αρχείων υπογραφής; A: Ο,τιδήποτε έχει να κάνει µε membership testing : Ανήκει η λέξη data στο σύνολο λέξεων του κειµένου;

Αρχεία υπογραφής UNIX s early spell system [McIlroy] Bloom-joins in System R* [Mackert+] & active disks [Riedel99] ιαφορετικά αρχεία [Severance+Lohman]

Αρχεία υπογραφής- Συµπερασµατα Εύκολες ενθέσεις, πιο αργά από αναστροφή Εξαιρετική η ιδέα του quick and dirty φίλτρου: αποµακρύνεται γρήγορα η πλειοψηφία των άσχετων στοιχείων και γίνεται εστίαση στα υπόλοιπα

Αναφορές Aho, A. V. and M. J. Corasick (June 1975). "Fast Pattern Matching: An Aid to Bibliographic Search." CACM 18(6): 333-340. Boyer, R. S. and J. S. Moore (Oct. 1977). "A Fast String Searching Algorithm." CACM 20(10): 762-772. Brown, E. W., J. P. Callan, et al. (March 1994). Supporting Full-Text Information Retrieval with a Persistent Object Store. Proc. of EDBT conference, Cambridge, U.K., Springer Verlag.

Αναφορές Faloutsos, C. and H. V. Jagadish (Aug. 23-27, 1992). On B-tree Indices for Skewed Distributions. 18th VLDB Conference, Vancouver, British Columbia. Karp, R. M. and M. O. Rabin (March 1987). "Efficient Randomized Pattern-Matching Algorithms." IBM Journal of Research and Development 31(2): 249-260. Knuth, D. E., J. H. Morris, et al. (June 1977). "Fast Pattern Matching in Strings." SIAM J. Comput 6(2): 323-350.

Αναφορές Mackert, L. M. and G. M. Lohman (August 1986). R* Optimizer Validation and Performance Evaluation for Distributed Queries. Proc. of 12th Int. Conf. on Very Large Data Bases (VLDB), Kyoto, Japan. Manber, U. and S. Wu (1994). GLIMPSE: A Tool to Search Through Entire File Systems. Proc. of USENIX Techn. Conf. McIlroy, M. D. (Jan. 1982). "Development of a Spelling List." IEEE Trans. on Communications COM- 30(1): 91-99.

Αναφορές Mooers, C. (1949). Application of Random Codes to the Gathering of Statistical Information Bulletin 31. Cambridge, Mass, Zator Co. Pedersen, D. C. a. J. (1990). Optimizations for dynamic inverted index maintenance. ACM SIGIR. Riedel, E. (1999). Active Disks: Remote Execution for Network Attached Storage. ECE, CMU. Pittsburgh, PA.

Αναφορές Severance, D. G. and G. M. Lohman (Sept. 1976). "Differential Files: Their Application to the Maintenance of Large Databases." ACM TODS 1(3): 256-267. Tomasic, A. and H. Garcia-Molina (1993). Performance of Inverted Indices in Distributed Text Document Retrieval Systems. PDIS. Tomasic, A., H. Garcia-Molina, et al. (May 24-27, 1994). Incremental Updates of Inverted Lists for Text Document Retrieval. ACM SIGMOD, Minneapolis, MN.

Αναφορές Wu, S. and U. Manber (1992). "AGREP- A Fast Approximate Pattern-Matching Tool.". Zobel, J., A. Moffat, et al. (Aug. 23-27, 1992). An Efficient Indexing Technique for Full-Text Database Systems. VLDB, Vancouver, B.C., Canada.

Κείµενο οµή διάλεξης Κείµενο Πρόβληµα Σάρωση πλήρους κειµένου Αναστροφή Αρχεία υπογραφής Οµαδοποίηση Φιλτράρισµα πληροφορίας και LSI

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Ερωτήµατα λέξεων κλειδιών (vs Boolean) Κάθε κείµενο: -> διάνυσµα (ΠΩΣ;) Κάθε ερώτηµα: -> διάνυσµα Αναζήτηση όµοιων διανυσµάτων

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Κεντρική Ιδέα: κείµενο...δεδοµένα... aaron δεικτοδότηση data zoo V (= µέγεθος λεξικού)

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Έπειτα, οµαδοποίησε τα πλησιεστερα διανύσµατα Q1: Αναζήτηση οµάδας; Q2: Παραγωγή οµάδας; Σηµαντική συνεισφορά: Ταξινοµηµένη έξοδος Ανατροφοδότηση συνάφειας

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Αναζήτηση οµάδας: επισκέψου τις (k) πλησιέστερες υπεροµάδες, συνέχισε επαναληπτικά TU TRs CS TRs

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Ταξινοµηµένη έξοδος: εύκολο! TU TRs CS TRs

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Ανατροφοδότηση συνάφειας (εξαιρετική ιδέα) [Roccio 73] TU TRs CS TRs

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Ανατροφοδότηση συνάφειας (εξαιρετική ιδέα) [Roccio 73] Πώς; TU TRs CS TRs

Μοντέλο διανυσµατικού χώρου και οµαδοποίηση Πώς; A: Προσθέτοντας καλά διανύσµατα και αφαιρώντας τα κακά TU TRs CS TRs

Σχεδιάγραµµα-Λεπτοµερές Βασική ιδέα Αναζήτηση οµάδας Παραγωγή οµάδας Αξιολόγηση

Παραγωγή οµάδας Πρόβληµα: εδοµένων N σηµείων σε V διαστάσεις, οµαδοποίησέ τα

Παραγωγή οµάδας Πρόβληµα: εδοµένων N σηµείων σε V διαστάσεις, οµαδοποίησέ τα

Παραγωγή οµάδας Χρειαζόµαστε Q1: οµοιότητα κειµένου µε κείµενο Q2: οµοιότητα κειµένου µε οµάδα

Παραγωγή οµάδας Q1: Οµοιότητα κειµένου µε κείµενο (βλέπε: αναπαράσταση σάκου µε λέξεις ) D1: { data, retrieval, system } D2: { lung, pulmonary, system } Συναρτήσεις απόστασης/οµοιότητας;

Παραγωγή οµάδας A1: # κοινών λέξεων A2:... κανονικοποίηση µε βάση τα µεγέθη του λεξικού A3:... κτλ

Παραγωγή οµάδας Οµοιότητα συνηµιτόνου: similarity(d1, D2) = cos(θ) = sum(v 1,i * v 2,i ) / len(v 1 )/ len(v 2 ) D1 θ D2

Παραγωγή οµάδας Οµοιότητα συνηµιτόνου- Παρατηρήσεις: Σχετίζεται µε την Ευκλείδια απόσταση Ζυγίζει το v i,j : σύµφωνα µε την σχέση tf/idf D1 θ D2

Παραγωγή οµάδας tf ( συχνότητα όρου ) Υψηλή, στην περίπτωση που ο όρος παρουσιάζεται πολύ συχνά µέσα στο κείµενο idf ( αντίστροφη συχνότητα κειµένου ) ίνει λιγότερη σηµασία στις κοινές λέξεις, που εµφανίζονται σχεδόν σε κάθε κείµενο

Παραγωγή οµάδας Χρειαζόµαστε Q1: οµοιότητα κειµένου µε κείµενο Q2: οµοιότητα κειµένου µε οµάδα?

Παραγωγή οµάδας A1: ελάχιστη απόσταση ( single-link ) A2: µέγιστη απόσταση ( all-link ) A3: µέση απόσταση A4: απόσταση από το κεντροϊδές?

Παραγωγή οµάδας A1: ελάχιστη απόσταση ( single-link ) Οδηγεί σε µεγαλύτερες οµάδες A2: µέγιστη απόσταση ( all-link ) Πολλές, µικρές, αυστηρές οµάδες A3: µέση απόσταση Μεταξύ των δύο ανωτέρω περιπτώσεων A4: απόσταση από το κεντροϊδές Γρήγορο στον υπολογισµό

Παραγωγή οµάδας Έχουµε Οµοιότητα κειµένου µε κείµενο Οµοιότητα κειµένου µε οµάδα Q: Πώς γίνεται η οµαδοποίηση κειµένων σε φυσικές οµάδες

Παραγωγή οµάδας A: *many-many* αλγόριθµοι σε δύο σύνολα [VanRijsbergen]: Τheoretically sound (O(N^2)) Ανεξάρτητα από την σειρά εισαγωγής Επαναληπτικός (O(N), O(N log(n))

Παραγωγή οµάδων- sound methods Προσέγγιση #1: δενδρογράµµαταδηµιούργησε µία ιεραρχία (από κάτω προς τα πάνω ή το αντίστροφο) επέλεξε ένα όριο(πώς;) και περιόρισε 0.8 0.3 γάτα τίγρης άλογο αγελάδα 0.1

Παραγωγή οµάδας- sound methods Προσέγγιση#2: ελαχιστοποίησε κάποιο στατιστικό κριτήριο (πχ., το άθροισµα τετραγώνων από τα κέντρα των οµάδων) Όπως k-means Όµως πώς επιλέγεται το k ;

Παραγωγή οµάδας- sound methods Προσέγγιση#3: Θεωρητικός γράφος[zahn]: Κατασκεύασε MST, ιέγραψε τις ακµές µε µήκος µεγαλύτερο του 2.5* std του τοπικού µέσου όρου

Παραγωγή οµάδας- sound methods Αποτέλεσµα: Παραλλαγές Πολυπλοκότητα;

Παραγωγή οµάδας- επαναληπτικές µέθοδοι Γενικό σχεδιάγραµµα: Επέλεξε φύτρα (Πώς;) Αντιστοίχισε κάθε διάνυσµα στην πλησιέστερη φύτρα (πιθανόν προσαρµόζοντας το κεντροϊδές της οµάδας) Πιθανόν, να ανατεθούν ξανά κάποια διανύσµατα για να βελτιωθούν οι οµάδες Γρήγορο και πρακτικό, αλλά απρόβλεπτο

Παραγωγή οµάδας Ένας τρόπος να εκτιµηθεί το πλήθος των οµάδων k: cover coefficient [Can+] ~ SVD

Σχεδιάγραµµα-Λεπτοµερές Βασική ιδέα Αναζήτηση οµάδας Παραγωγή οµάδας Αξιολόγηση

Αξιολόγηση Q: πώς µετριέται η υπεροχή µίας συνάρτησης απόστασης σε σχέση µε κάποια άλλη; A: σε πρώτη φάση από τους ανθρώπους και ακρίβεια & επανάκληση

Αξιολόγηση Ακρίβεια= (ανακτηθείσα & σχετική) / ανακτηθείσα 100% ακρίβεια-> χωρίς ενδείξεις σφάλµατος Επανάκληση= (ανακτηθείσα & σχετική)/ανακτηθείσα 100% επανάκληση-> χωρίς απώλεια σφάλµατος

Αναφορές Can, F. and E. A. Ozkarahan (Dec. 1990). "Concepts and Effectiveness of the Cover-Coefficient-Based Clustering Methodology for Text Databases." ACM TODS 15(4): 483-517. Noreault, T., M. McGill, et al. (1983). A Performance Evaluation of Similarity Measures, Document Term Weighting Schemes and Representation in a Boolean Environment. Information Retrieval Research, Butterworths. Rocchio, J. J. (1971). Relevance Feedback in Information Retrieval. The SMART Retrieval System - Experiments in Automatic Document Processing. G. Salton. Englewood Cliffs, New Jersey, Prentice-Hall Inc.

Αναφορές Salton, G. (1971). The SMART Retrieval System - Experiments in Automatic Document Processing. Englewood Cliffs, New Jersey, Prentice-Hall Inc. Salton, G. and M. J. McGill (1983). Introduction to Modern Information Retrieval, McGraw-Hill. Van-Rijsbergen, C. J. (1979). Information Retrieval. London, England, Butterworths. Zahn, C. T. (Jan. 1971). "Graph-Theoretical Methods for Detecting and Describing Gestalt Clusters." IEEE Trans. on Computers C-20(1): 68-86.

Κείµενο οµή διάλεξης Κείµενο Πρόβληµα Σάρωση πλήρους κειµένου Αναστροφή Αρχεία υπογραφής Οµαδοποίηση Φιλτράρισµα πληροφορίας και LSI

LSI Λέπτοµερές σχεδιάγραµµα LSI Ορισµός προβλήµατος Βασική ιδέα Πειράµατα

Φιλτράρισµα πληροφορίας+ LSI [Foltz+, 92] Στόχος: οι χρήστες προσδιορίζουν τα ενδιαφέροντά τους (= λέξεις κλειδιά) Το σύστηµα τα εντοπίζει, σε κατάλληλα νέα κείµενα Μέγιστη συνεισφορά: LSI = Latent Semantic Indexing Κρυµµένες ( hidden ) ιδέες

Φιλτράρισµα πληροφορίας+ LSI Βασική ιδέα Αντιστοίχισε κάθε κείµενο σε κάποιες ιδέες Αντιστοίχισε κάθε όρο σε κάποιες ιδέες Ιδέα ( concept ):~ ένα σύνολο όρων, µε βάρη, π.χ. data (0.8), system (0.5), retrieval (0.6) -> DBMS_concept

Φιλτράρισµα πληροφορίας+ LSI Απεικόνιση: πίνακας όρων-κειµένου (BEFORE) 'data' 'system' 'retrieval' 'lung' 'ear' TR1 1 1 1 TR2 1 1 1 TR3 1 1 TR4 1 1

Information Filtering + LSI Απεικόνιση: πίνακας ιδέας-κειµένου και... TR2 1 TR3 1 TR4 1 'DBMSconcept' TR1 1 'medicalconcept'

Φιλτράρισµα πληροφορίας+ LSI... και πίνακας όρου-κειµένου system 1 retrieval 1 lung 1 ear 1 'DBMSconcept' data 1 'medicalconcept'

Φιλτράρισµα πληροφορίας+ LSI Q: Πώς γίνεται η αναζήτηση, πχ., για το system ;

Φιλτράρισµα πληροφορίας+ LSI A: βρες την αντίστοιχη ιδέα(ες) και τα αντίστοιχα κείµενα system 1 retrieval 1 lung 1 ear 1 TR2 1 TR3 1 TR4 1 'DBMSconcept' data 1 'medicalconcept' 'DBMSconcept' TR1 1 'medicalconcept'

Φιλτράρισµα πληροφορίας+ LSI A: βρες την αντίστοιχη ιδέα(ες) και τα αντίστοιχα κείµενα system 1 retrieval 1 lung 1 ear 1 TR2 1 TR3 1 TR4 1 'DBMSconcept' data 1 'medicalconcept' 'DBMSconcept' TR1 1 'medicalconcept'

Φιλτράρισµα πληροφορίας+ LSI Με τον τρόπο αυτό λειτουργεί σαν (αυτόµατη κατασκευή) θησαυρός: Μπορεί να ανακτήσουµε κείµενα τα οποία ΕΝ έχουν τον όρο system, αλλά περιέχουν σχεδόν όλους τους άλλους ( data, retrieval )

LSI Λεπτοµερές σχεδιάγραµµα LSI Ορισµός προβλήµατος Βασική ιδέα Πειράµατα

LSI - Πειράµατα 150 Tech Memos (TM) / µήνα 34 προφίλ χρηστών (6-66 λέξεις ανά προφίλ) 100-300 ιδέες

LSI - Πειράµατα Τέσσερεις µέθοδοι, προϊόν των ακολούθων: Vector-space / LSI, για την µέτρηση οµοιότητας Λέξεις κλειδιά ή δείγµα κειµένου, για τον προσδιορισµό του προφίλ Μετρηµένη : ακρίβεια/ανάκληση

LSI - Πειράµατα LSI, µε προφίλ βάσει κειµένων, καλύτερη ακρίβεια (0.25,0.65) (0.50,0.45) (0.75,0.30) ανάκληση

LSI - Συζήτηση- Συµπεράσµατα Σηµαντική ιδέα, Η παραγωγή ιδεών από τα κείµενα Η αυτόµατη παραγωγή στατιστικού θησαυρού Η µείωση των διαστάσεων Συχνά οδηγεί σε καλύτερη σχέση ακρίβειας/ανάκλησης Αλλά: Χρειάζεται ένα σύνολο κειµένων προετοιµασίας ( training set) Τα διανύσµατα ιδεών είναι πλέον πλήρη

LSI Συζήτηση- Συµπεράσµατα Παρατηρήσεις Bellcore (-> Telcordia): έχει µία πατέντα Χρησιµοποιείται για πολύγλωσση ανάκτηση SVD: Πώς λειτουργεί ακριβώς;

εικτοδότηση- Λεπτοµερές σχεδιάγραµµα εικτοδότηση πρωτεύοντος κλειδιού εικτοδότηση δευτερεύοντος κλειδιού/multikey Μέθοδοι χωρικής προσπέλασης fractals Κείµενο SVD: ένα εργαλείο µε µεγάλες δυνατότητες πολυµέσα...

Αναφορές Foltz, P. W. and S. T. Dumais (Dec. 1992). "Personalized Information Delivery: An Analysis of Information Filtering Methods." Comm. of ACM (CACM) 35(12): 51-60.