Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρµογές της Εισαγωγικά ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείµενα πληροφορίας Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη: Εντόπισεόλατακείµενα µε πληροφορίες σχετικά µε φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συµµετέχουν σε κάποιο αθλητικό σύλλογο Έµφαση δίνεται στην ανάκτηση πληροφορ ίας και όχι δεδοµ ένων
Εισαγωγικά Ανάκτηση εδοµένων Ποια κείµενα περιέχουν ένα σύνολο keywords? Καλά ορισµένη σηµασιολογία (semantics) Ελάχιστα λανθασµένηαπάντησησυνιστά αποτυχία! Ανάκτηση Πληροφορίας Το ερώτηµα είναι ασαφές Ησηµασιολογία είναι συχνά ελλιπής Μικρά λάθη είναι ανεκτά Σύστηµα ΑΠ: Ερµηνεύει περιεχόµενα αντικειµένων πληροφορίας Παράγει µία κατάταξη που αναπαριστά σχετικότητα Εισαγωγικά ΑΠ τα τελευταία 30 χρόνια: Ταξινόµηση (classification) και κατηγοριοποίηση (categorization) Κειµένων Συστήµατα Βιβλιοθήκης και γλώσσες ιεπαφή χρηστών και οπτικοποίηση Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος Με την έλευση του ιαδικτύου: Παγκόσµια αποθήκη γνώσης Ελεύθερη (χαµηλού κόστους) προσπέλαση Πολλά προβλήµατα : ΑΠ προσφέρει λύσεις
Πεδία Εφαρµογής Web Search Engines Ψηφιακές Βιβλιοθήκες (Digital Libraries) Ανάκτηση Στοιχείων σε Peer to Peer Περιβάλλοντα Web Services Βιοπληροφορική Συστήµατα Προσαρµοστικών Πολυµέσων/Υπερµέσων Γειτονικές Περιοχές Βάσεις εδοµένων Συστήµατα Πολυµέσων Τεχνητή Νοηµοσύνη /Επεξεργασία Φυσικής Γλώσσας Εξόρυξη εδοµένων (Data Mining) Τεχνικές Μοντελοποίησης οµές εδοµένων Συµπίεση Κειµένων Συµπίεση οµών εδοµένων
Ανάκτηση Πληροφορίας Τα τελευταία 50-60 χρόνια ως επιστηµονικό πεδίο 1945: Vannenar Bush s As we may think 1960+: Gerald Salton 1978: Πρώτο ACM SIGIR συνέδριο 1992: Πρώτο TREC συνέδριο Unstructured (text) vs. structured (database) data in 1996 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap
Unstructured (text) vs. structured (database) data in 2006 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap Μέθοδοι Προσέγγισης Computer Centered View (Ανάκτηση Πληροφορίας) - Κτίσιµο δοµών δεικτοδότησης - Γρήγορη Επεξεργασία Ερωτηµάτων - Ποιοτικοί αλγόριθµοι κατάταξης Human Centered View (Βιβλιοθηκονοµία και Επιστήµη Πληροφορήσης) - Μελέτη βασικών αναγκών του χρήστη - Καταγραφή συµπεριφοράς χρήστη
Βασικές Έννοιες Η ιεργασία του Χρήστη Ανάκτηση Βάση εδοµένων Φυλλοµέτρηση Ανάκτηση (Retrieval) Φυλλοµέτρηση (Browsing) Συνδυασµός (Hidden web) Επεξεργασία Κειµένων Σε τι format είναι; pdf/word/excel/html? Σε τι γλώσσα είναι; Ποιο σύνολο χαρακτήρων χρησιµοποιεί; Τα κείµενα µπορεί να περιέχουν όρους από διαφορετικές λέξεις Τι είναι ένα µοναδιαίο κείµενο; ένα αρχείο; ένα e-mail; ένα email µε επισυνάψεις; oµάδα αρχείων;
Λογική Όψη Κειµένων κείµενο + δοµή Κείµενο Αναγνώριση οµής τόνοι, κενά κλπ. κείµενο κοινές λέξεις οµάδες ουσιαστικών αποµάκρυνση καταλήξεων αυτόµατη ή χειροκίνητη δεικτοδότηση δοµή πλήρες κείµενο όροι δεικτοδότησης Η αναπαράσταση των κειµένων (λογική όψη) µπορεί να πάρει διάφορες µορφές σε µία συνέχεια αναπαραστάσεων ιεργασία Ανάκτησης
Τυπικός Ορισµός Μοντέλων Α.Π. Ένα µοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(q i, d j )] όπου: 1) - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείµενα της συλλογής 2) - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήµατα 3) - F είναι ένα υπόβαθρο για την µοντελοποίηση της αναπαράστασης των κειµένων, των ερωτηµάτων και των σχέσεων µεταξύ τους - R(q i, d j ) είναι µια συνάρτηση κατάταξης, ηοποίασυνδέει έναν πραγµατικό αριθµό µε έναερώτηµα q i Q και µια αναπαράσταση κειµένου d j D. Μια τέτοια κατάταξη ορίζει µια διάταξη πάνω στα κείµενα πάντα µε βάσητοερώτηµα. q- i. Μοντέλα Α.Π. Συνολοθεωρητικό Κλασσικά Μοντέλα Ασαφές (Fuzzy) Επεκτεταµένο Boolean ιαδικασία Χρήστη Ανάκτηση: Ad-hoc Φιλτράρισµα Φυλλοµέτρηση Boolean Vector space Πιθανοτικό οµηµένα Μοντέλα Μη επικαλυπτόµενες λίστες Κοντινοί κόµβοι Αλγεβρικό Γενικευµένο Vector Space Λανθ. Σηµασ. εικτοδότηση Νευρωνικά ίκτυα Πιθανοτικό ίκτυα Εξαγ. Συµπεράσµατος ίκτυα Πεποίθησης Φυλλοµέτρηση Επίπεδη Καθοδηγούµενη από δοµή Υπερκειµένου
Ανεστραµµένα Αρχεία Inverted file : Structure for the efficient location of the occurrences of a term inside a text collection. Structure : Set of inverted lists, that are stored inside a file in a disk. Inverted list: a list that contains the occurrences of a term inside the texts of a collection Structure of an inverted list [3] <1,2> <2,1> <4,3> number of documents in the inverted list that contain the specific term pair <d,f d,t > : the term appears in the document 1, twice Depending on the requirements of the application an inverted list record can contain various kinds of information (e.g. number of the paragraph where the term appears etc.) 17 Ανεστραµµένα Αρχεία d 1 d 2 d 3 t 1 t 2 t 3 t 4 t 5 t 2 t 1 t 3 t 5 t 4 t 2 t 1 t 4 t 2 t 1 Document Collection Algorithm for Inverted File creation Mapping terms to Inverted lists t 1 t 2 t 3 t 4 t 5 [3] <d 1,1> <d 2,1> <d 3,2> [3] <d 1,1> <d 2,1> <d 3,2> [2] <d 1,1> <d 2,1> [2] <d 1,1> <d 3,2> [2] <d 1,1> <d 2,1> Inverted file 18
Παγκόσµιος Ιστός WWW url καταλόγους (π.χ. Yahoo) Μηχανές Αναζήτησης τεράστιος, µη οµογενής µεταβάλλεται ραγδαία επικοινωνιακό κόστος Παγκόσµιος Ιστός URL = Universal Resource Locator http://www.ceid.upatras.gr/ir/ Access method Host name Page name
Παγκόσµιος Ιστός Τεράστιο µέγεθος 2-10B στατικές σελίδες, διπλασιαζόµενες κάθε 8-12 µήνες Μέγεθος Λεξικού: 10-100άδες εκατοµµύρια λέξεις http://www.netcraft.com/survey Παγκόσµιος Ιστός Γλώσσες/Κωδικοποιήσεις: Εκατοντάδες γλώσσες, W3C κωδικοποιήσεις: 55 Σελίδες : Αγγλικές 82%, Επόµενες 15: 13% Μεγάλος Ρυθµός Αλλαγής στις Σελίδες Ανοµοιογένεια στη µορφή: Εκατοµµύρια άνθρωποι δηµιουργούν σελίδες µε τη δικιά τους γραµµατική, λεξικό, στυλ Πολλές φορές οι σελίδες εξυπηρετούν εµπορικούς σκοπούς (marketing) Μεγάλος Ρυθµός Αλλαγής στις Σελίδες Επανάληψη της ίδιας πληροφορίας Συντακτική επανάληψη (30-40% πανοµοιότυπες) Σηµασιολογική οµοιότητα? Υψηλή Συνεκτικότητα Κατά µέσο όρο ~8 σύνδεσµοι/σελίδα Πολύπλοκη τοπολογία γράφου Bow-tie τοπολογία
Παγκόσµιος Ιστός Συλλογή:Οι προσπελάσιµες σελίδες στον παγκόσµιο ιστό: στατικές + δυναµικές Στόχος: Ανάκτηση υψηλής ποιότητας αποτελεσµάτων που να είναι σχετικά µε τις ανάγκες του χρήστη Ανάγκη Πληροφοριακή ενηµέρωση για κάποια πληροφορία (~40%) Απλής διαπέρασης µετακίνηση σε µία σελίδα (~25%) Transactional πραγµατοποίηση µίας συναλλαγής (web-mediated) (~35%) Προσπέλαση υπηρεσίας Κατέβασµα πληροφορίας Αγορά Υβριδικό Εύρεση καλού hub ιερευνητικό ψάξιµο see what s there Παγκόσµιος Ιστός Στατικές σελίδες κείµενο (html, xml), mp3, images, video,... υναµικές σελίδες = παράγονται κατ απαίτηση data base access the invisible web proprietary content, etc.
Παγκόσµιος Ιστός Κακώς σχηµατισµένες ερωτήσεις µικρές σε πλήθος όρων ανακριβείς όροι µηβέλτιστησύνταξη(80% ερωτήµατα χωρίς τελεστή) χαµηλή προσπάθεια Μεγάλη απόκλιση σε ανάγκες επίπεδα αναµονής γνώση bandwidth Τυπική συµπεριφορά Εστίαση στην πρώτη οθόνη, όχι feedback, ακολούθηση υπερδεσµών Παγκόσµιος Ιστός Ποσότητες που µπορούν να µετρηθούν Το σχετικό µέγεθος των µηχανών αναζήτησης προβλήµατα επέκταση κειµένων: π.χ. το Google δεικτοδοτεί σελίδες που δεν έχουν γίνει crawl δεικτοδοτώντας anchor-text. περιορισµός στα κείµενα: Μερικές µηχανές περιορίζουν το τι δεικτοδοτείται (πρώτες n λέξεις, µόνοσχετικέςλέξειςκ.λ.π.) Η κάλυψηµίας µηχανής σε σχέση µε κάποιαάλληδιεργασίαcrawling.
Τεχνικές Εκτίµησης Μεγέθους Ιδανική στρατηγική: παρήγαγε ένα τυχαίο URL και έλεγξε αν εµπεριέχεται στις διάφορες δοµές δεικτοδότησης. Πρόβληµα: τυχαία URLs δεν βρίσκονται εύκολα Πάρε δείγµα URLs τυχαία από κάθε µηχανή 20,000 τυχαία URLs από κάθε µηχανή ιατύπωσε random conjunctive query µε <200 αποτελέσµατα Επέλεξε ένα τυχαίοurl από τα κορυφαία 200 αποτελέσµατα Έλεγξε αν είναι παρόντα σε άλλες µηχανές Query with 8 rarest words. Look for URL match Υπολόγισε µέγεθος τοµής Τεχνικές Εκτίµησης Μεγέθους Choose random searches extracted from a local log or build random searches Use only queries with small results sets. Count normalized URLs in result sets. Use ratio statistics Advantage: Might be a good reflection of the human perception of coverage
Η οµή του Παγκόσµιου Ιστού /~newbie/ www.ibm.com / / /leaf.htm Η οµή του Παγκόσµιου Ιστού Για τυχαίες σελίδες p1,p2: Pr[p1 να προσπελαύνεται από p2] ~ 1/4 Μέγιστη απόσταση µεταξύ 2 SCC κόµβων: >28 Μέση κατευθυνόµενη απόσταση µεταξύ 2 κόµβων: ~16 Μέση µη κατευθυνόµενη απόσταση: ~7
Power Laws - Γενικά ύο ποσότητες x και y συνδέονται µε έναν power law όταν y x -c log y = -c*log x y log y x log x Ένας γνωστός power law Κατανοµή Zipf y : συχνότητα λέξης σε κείµενο x : o x-οστός πιο συχνός όρος Power law για c=1 y 1/x
Power laws και στο Web? Broder et. al. 1999 x = #links που εισέρχονται σε σελίδα i y = #σελίδων µε x εισερχόµενα links y x -2.09 Power laws και στο Web? (συνέχεια) x = #links που εξέρχονται από σελίδα i y = #σελίδων µε x εξερχόµενα links y x -2.72
Χρησιµότητα Παρατήρησης Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web Βοηθάει στην κατασκευή νέων αλγορίθµων ταξινόµησης Εκτέλεση προσοµοιώσεων σε σχέση µε το Web Μοντελοποίηση του Web Μοντελοποίηση Γραφήµατος του Web Kumar et. al. Stochastic models for the Web Graph, FOCS 2000 t+1 v Οι πρώτοι t κόµβοι του Web
Μοντελοποίηση Γραφήµατος του Web Για τον t+1 φτιάξε d συνδέσµους d>1 Πως επιλέγεται ο ι-στος σύνδεσµος? Πιθανότητα 1-α ο i-στός σύνδεσµος του v t+1 v Πιθανότητα α µια τυχαία σελίδα Μοντελοποίηση Γραφήµατος του Web Όταν δηµιουργείται µια σελίδα αυτή ανήκει σε ένα θέµα. Μας ενδιαφέρει να αντιγράψουµε τους συνδέσµους µίας άλλης σελίδας στο θέµα Ή να εισάγουµε νέες ιδέες Το µοντέλο ακολουθεί Power laws! To µέσο πλήθος των σελίδων µε βαθµό d είναι: ( 2 α ) /(1 α ) ( ) Θ d
Επεκτάσεις Εµπορικά πιο σηµαντικές εφαρµογές: Enterprise search Peer-2-Peer (P2P) search Peer-to-Peer ίκτυα Όχι κεντρικός δεικτοδοτητής Κάθε κόµβος στο διαδίκτυο κτίζει και διαχειρίζεται το δικό του δείκτη Παραδείγµατα Gnutella Kazaa Bearshare Aimster Grokster Morpheus
Μηχανές Αναζήτησης Πρώτη γενιά - χρήση µόνο on page δεδοµένων κειµένου Συχνότητα λέξεων, γλώσσα εύτερη γενιά -- χρήση off-page, web-specific δεδοµένων Link (ή connectivity) ανάλυση Click-through δεδοµένα (σε ποια αποτελέσµατα γίνεται click on) Anchor-text (πως οι άνθρωποι αναφέρονται σε δεδοµένα) Τρίτη γενιά καταγραφή ανάγκης πίσω από ερώτηµα Σηµασιολογική ανάλυση σε τι αναφέρεται? Εστίαση σε ανάγκες χρηστών και όχι ερωτήµατα Προσδιορισµός context Βοήθεια στο χρήστη Ολοκλήρωση ψαξίµατος και ανάλυσης κειµένου Μηχανές Πρώτης Γενιάς Μοντέλο διανυσµατικού χώρου και Επεκταµένο Boolean µοντέλο Ταιριάσµατα: exact, prefix, phrase, Τελεστές: AND, OR, AND NOT, NEAR, Πεδία: TITLE:, URL:, HOST:, Συνήθως ο τελεστής AND υλοποιείται πιο εύκολα, και πιθανώς να είναι προτιµητέα ως η εκ των προτέρων επιλογή για µικρά ερωτήµατα ιάταξη TF παράγοντες: TF, άµεσα keywords, λέξεις σε τίτλους, άµεση έµφαση (headers), κ.λ.π. IDF παράγοντες: IDF, συνολικός αριθµός λέξεων στο corpus, συχνότητα στο query log, συχνότητα στη γλώσσα
Μηχανές εύτερηςγενιάς Κατάταξη - χρήση off-page, web-specific δεδοµένων - Link (ή connectivity) ανάλυση - Click-through δεδοµένα (σε ποια αποτελέσµατα οι άνθρωποι εστιάζουν) - Anchor-text (πως οι άνθρωποι αναφέρονται σε µία σελίδα) Crawling - Αλγόριθµοι δηµιουργίας του καλύτερου δυνατού corpus Μηχανές Τρίτης Γενιάς Query language determination and different ranking Integration of Search and Text Analysis Context determination spatial (user location/target location) query stream (previous queries) personal (user profile) Context use Result restriction Ranking modulation
Μηχανές Αναζήτησης ιαπερνώντας το διαδίκτυο (Crawling) ποιες σελίδες πρέπει να προσπελαστούν ; τι γίνεται όταν το περιεχόµενο των σελίδων µεταβάλλεται ; (refresh policy) πως ελαχιστοποιείται ο φόρτος ; πως η διαδικασία διαπέρασης γίνεται παράλληλα ;
Είδη Crawlers (Crawling) Κλασσικός Crawler επισκέπτεται ολόκληρο το παγκόσµιο ιστό και αντικαθιστά τη δοµή δεικτοδότησης. Περιοδικός Crawler επισκέπτεται τµήµατα του παγκοσµίου ιστού και ενηµερώνει υποσύνολο δοµής δεικτοδότησης Αυξητικός Crawler επιλεκτικά ψάχνει το παγκόσµιο Ιστό και αυξητικά µεταβάλλει τη δοµή δεικτοδότησης. Εστιασµένος Crawler επισκέπτεται σελίδες που σχετίζονται µε ένα συγκεκριµένο θέµα. Crawling - Επιλογή Σελίδων Μετρικές Σπουδαιότητας Interest Driven
Crawling - Επιλογή Σελίδων Μετρικές Σπουδαιότητας Interest Driven & Οµοιότητα Κειµένων If Q is the user interest then: A new approach to topic-specific web resource discovery Chakrabarti et al. 8 th WWW conference 1999 Crawling - Επιλογή Σελίδων Μετρικές Σπουδαιότητας Popularity Driven Location Driven
Context Graph Crawling Context Graph: Context graph created for each seed document. Root is the seed document. Nodes at each level show documents with links to documents at next higher level. Updated during crawl itself. Approach: 1. Construct context graph and classifiers using seed documents as training data. 2. Perform crawling using classifiers and context graph created. Context Graph Crawling
Crawling - Ανανέωση Σελίδων f (συχνότητα επισκεψιµότητας) =σταθερή f=f(λ i ) Crawling - Ανανέωση Σελίδων P 1 P 2
Crawling - Ανανέωση Σελίδων Synchronizing a database to improve freshness. Cho, Molina. In Pro-ceedings of the International Conference on Management of Data, 2000. Αποθήκευση Page Repository
Αποθήκευση Page Repository Κατανεµηµένο και αυξοµειώσιµο Φυσική Οργάνωση : αποδοτικό RPA και Streaming Access Log Hash Hash-Log Streaming +! -! + Access RPA ~ +! ~ Page Addition +! -! ~ Αποθήκευση Page Repository conflicts vs. freshness obsolete pages : µηχανισµός διαγραφής
ηµιουργία Ευρετηρίων Indexing ηµιουργία Ευρετηρίων Indexing text index inverted files suffix arrays signature files κατανεµηµένο συµπιεσµένο structure (link) index utility index : link : site
Ranking and Link Analysis O τρόπος διασύνδεσης των σελίδων µπορεί να µας δώσει σηµαντική επιπλέον πληροφορία! PageRank : The pagerank citation ranking:bringing order to the web. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) HITS: Authoritative sources in a hyperlinked environment. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever IBM, πρόδροµος της Teoma). PageRank Κάθε σελίδα λαµβάνει µία βαθµολογία που εκφράζει την «σηµαντικότητα» της. #in_links=760 www.upatras.gr www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu
PageRank strongly connected graph PageRank random surfer model strongly connected assumption problem: rank leak, rank sink
PageRank random surfer model Λεπτοµέρειες Υπολογισµού (1) Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα n n πιθανοτικό πίνακα µεταβάσεων P. Σε κάθε βήµα, είµαστε σε µία µόνο από τις καταστάσεις. Για 1 i,j n, το στοιχείο P ij µας δίνει τη πιθανότητα το j να βρίσκεται στην επόµενη κατάσταση, υποθέτοντας ότι βρισκόµαστε στην κατάσταση i. Μία Markov chain είναι εργοδική εάν Υπάρχει µονοπάτι από κάθε κατάσταση σε άλλη Μπορούµε να βρισκόµαστε σε κάθε κατάσταση κάθε στιγµή µε µη µηδενική πιθανότητα.
Λεπτοµέρειες Υπολογισµού (2) Για κάθε εργοδική Markov αλυσίδα, υπάρχει µία Steady-state distribution. Έστω a = (a 1, a n ) το row vector µε τις steady-state πιθανότητες. Εάν η τρέχουσα θέση περιγράφεται µε a, τότε η επόµενη περιγράφεται µε ap. Άρα a=ap, και συνεπώς το a είναι το (αριστερό) ιδιοδιάνυσµα τουp. (αντιστοιχεί στο βασικό ιδιοδιάνυσµα τουp µε τη µεγαλύτερη ιδιοτιµή.) Hypertext Induced Topic Search (HITS) Χρησιµοποιεί µηχανισµό αξιολόγησης που εξαρτάται από ένα ερώτηµα Q. authority hub Q= greek university Authority : www.upatras.gr www.auth.gr Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html
Hypertext Induced Topic Search (HITS) Απάντηση στο Q max{d} S: focused subgraph (all the outgoing, a restricted number of the incoming) R S : root set (~10 3 ) Hypertext Induced Topic Search (HITS)
Hypertext Induced Topic Search (HITS) Hypertext Induced Topic Search (HITS)
Hypertext Induced Topic Search (HITS) Πολλαπλά σύνολα jaguar randomized algorithms abortion Tag/position heuristics Αύξησε βάρη όρων σε τίτλους σε tags Κοντά στην αρχή του κειµένου, στα κεφάλαια και sections
Χρήσεις του Anchor Text Όταν δεικτοδοτείται µία σελίδα, να δεικτοδοτείται επίσης και το anchor text των υπερδεσµών που δείχνουν σε αυτή. Γιαναδίνονταικατάλληλαβάρηστοναλγόριθµο hubs/authorities. Το Anchor text συνήθως είναι ένα παράθυρο µεγέθους 6-8 λέξεων, γύρω από ένα link anchor. h( x) a( y) xa y a( x) h( y) a( x) = w( x, y) h( y) yax h( x) = xay yax w( x, y) a( y) Web sites, όχι σελίδες Οι σελίδες σε ένα site δίνουν πληροφορίας για παραλλαγές ίδιου θέµατος
Web Mining Taxonomy Web Content Mining Keyword Term Association Similarity Search Classification Clustering Natural Language Processing
Web Usage Mining Ordering Duplicates Consecutive Maximal Support Association Rules N N N N Freq(X)/#transactions Episodes Y N N N Freq(X)/#timewindows Sequential patterns Y N N Y Freq(X)/#customers Forward sequences Y N Y Y Freq(X)/#forward sequences Maximal forward sequences Y Y Y Y Freq(X)/#clicks Βιβλιογραφία R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999. Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008. (http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html) Ι. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers, 1999. G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York: McGraw-Hill, 1983. Van Reijsbergen, Information Retrieval, London: Butterworths, 1979 Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University Press, 2005 W.B. Frakes, R. Baeza-Yates, Information Retrieval: Data Structures and Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992. Σηµειώσεις : http://mmlab.ceid.upatras.gr/ir
B. Allen, Information Tasks: Towards a User-Centered Approach to Information Systems. Academic Press, San Diego, CA, 1996. M. Attalah ed., Algorithms and Theory of Computation Handbook CRC Press 1999. D. Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge University Press, 1997. V.S. Subrahmanian. Principles of Multimedia Database Systems, Morgan Kaufmann, 1998. Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999. S. Abiteboul, P. Buneman, D. Suciu, Data on the Web: From Relations to Semistructured Data and XML, Morgan Kaufmann, 1999