Εισαγωγή. CS 463: Information Retrieval Systems. Yannis Tzitzikas. University of Crete. Spring 05. Lecture : 1 Date : 22-2-2005

Σχετικά έγγραφα

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

Ανάκτηση Πληροφορίας

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems)

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Συγκριτικά Πλεονεκτήµατα Γραµµατείας 2003 έναντι Γραµµατείας 2.5

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος Αιγαίου.

Βάσεις εδοµένων & Πολυµέσα

Εισαγωγή. Τι είναι µια βάση δεδοµένων;

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Εισαγωγή. web σελίδα Βάσεις εδοµένων Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Πληροφοριακά Συστήματα

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

(SEO) - Ανοίγοντας τους ορίζοντες τις ΜΜΕ Ελληνικής τουριστικής επιχείρησης στο ιαδίκτυο

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Ανάκτηση Πληροφορίας

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

Αξιολόγηση των εκπαιδευτικών δραστηριοτήτων των νοσοκομειακών βιβλιοθηκών.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

Information Retrieval

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Αυτοματοποιημένη χαρτογραφία

6.003: Signals and Systems. Modulation

ΠΕΡΙΕΧΟΜΕΝΑ. Κεφάλαιο 1: Κεφάλαιο 2: Κεφάλαιο 3:

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

Μεταπτυχιακή Διατριβή

Ανάκτηση Πληροφορίας

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Ο ρόλος των ελεγχόμενων λεξιλογίων και θησαυρών στην οργάνωση της γνώσης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Wilson Web Art Databases, H.W. Wilson

Ανάκτηση Δεδομένων (Information Retrieval)

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Automatic extraction of bibliography with machine learning

Τεχνολογία Πολυμέσων

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΚΙΝ ΥΝΟΙ ΛΟΙΜΩΞΕΩΝ ΧΕΙΡΟΥΡΓΙΚΗΣ ΘΕΣΗΣ ΓΥΝΑΙΚΩΝ ΠΟΥ ΥΠΟΒΑΛΛΟΝΤΑΙ ΣΕ ΚΑΙΣΑΡΙΚΗ ΤΟΜΗ

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ. «Θεσμικό Πλαίσιο Φωτοβολταïκών Συστημάτων- Βέλτιστη Απόδοση Μέσω Τρόπων Στήριξης»

Introduction to Bioinformatics

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ. Πτυχιακή Εργασία

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Big Data/Business Intelligence

Social Web: lesson #4

Αξιολόγηση Ανάκτησης Retrieval Evaluation

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Ανάκτηση Πληροφορίας

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΩΝ

How to register an account with the Hellenic Community of Sheffield.

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

SilverPlatter WebSPIRS 4.1.

Transcript:

CS 463: Information Systems Εισαγωγή Yannis Tzitzikas University of Crete Spring 05 Lecture : 1 Date : 22-2- ιάρθρωση ιάλεξης Γιατί χρειαζόµαστε Ανάκτηση Πληροφοριών (ΑΠ); ΤιείναιηΑΠ? Πλοήγηση και Ανάκτηση Μοντέλα Πλοήγησης Το βασικό πρόβληµα ΑΠ Ανάκτηση εδοµένων και Ανάκτηση Πληροφοριών Συνάφεια Η βασική προσέγγιση & αρχιτεκτονική ενός ΣΑΠ ΑΠ στον Παγκόσµιο Ιστό Άλλες λειτουργίες ΑΠ Ιστορική Αναδροµή Σχετικές Περιοχές 2 1

ΓιατίχρειαζόµαστεΑΠ? Για να μπορούμε να βρίσκουμε βρίσκουμε ψύλλους στ άχυρα Πόσο εύχρηστος θα ήταν ο Ιστός χωρίς μηχανές αναζήτησης; Ο Ιστός περιέχει δισεκατομμύρια σελίδες (Google indexes 4.2 billions) Ο κόσμος παράγει περίπου 2 exabytes (2 60 ) νέας πληροφορίας το χρόνο, 90% της οποίας είναι σε ψηφιακή μορφή και με 50% ετήσια αύξηση 3 Το πρόβληµα δεν είναι νέο "There is a growing mountain of research... The investigator is staggered by the findings and conclusions of thousands of other workers - conclusions which he cannot find time to grasp, much less remember. The summation of human experience is being expanded at a prodigious rate and the means we use for threading through the consequent maze to the momentarily important item is the same that was used in the days of the square rigged ships." V. Bush 1945 4 2

ΤιναείναιηΑΠ? grep 5 ΤιναείναιηΑΠ; Μήπως οι µηχανές αναζήτησης όπως το Google, Lycos? Αρκετά αποτελεσµατικές (σε µερικά πράγµατα) Αναγνωρίσιµες και γνωστές Εµπορικά επιτυχηµένες (τουλάχιστον µερικές) Τισυµβαίνειόµωςπίσωαπότησκηνή ; Πως δουλεύουν? Πως µπορούµε να κρίνουµε αν δουλεύουν καλά; Πως µπορούµε να τις κάνουµε πιο αποτελεσµατικές; Πως µπορούµε να τις κάνουµε να λειτουργούν πιο γρήγορα; Υπάρχει τίποτα παραπάνω από αυτό που βλέπουµε στον Ιστό; 6 3

vs Browsing Query string Information need Browsing εν έχουµε επερώτηση µεσκοπόήχωρίςσκοπό (εξερεύνηση) 7 Types of Browsing (1) Επίπεδο (flat) πχ. µια λίστα εγγράφων (2) Οδηγούµενο από δοµή (structure guided) Υπάρχει δοµή (συνήθως ιεραρχική) Παραδείγµατα η οργάνωση αρχείων σε φακέλους το ευρετήριο του Yahoo! ή του ODP οµή µπορεί να υπάρχει και στο επίπεδο των εγγράφων πχ abstract, section 1,, αναφορές) 8 4

Παράδειγµα Hotels bysports bylocation SeaSports WinterSports Islands Mainland Islands Mainland Mainland Crete Pilio Olympus Crete Pilio Pilio Olympus SeaSports SeaSports WinterSports WinterSports 9 Types of Browsing (II) (3) Μη γραµµικό κείµενο (Hypertext) διευθυνόµενοι σύνδεσµοι (π.χ. HTML) διπλής κατεύθυνσης typed links, etc. (4) ιεπίπεδο µη γραµµικό κείµενο Τα έγγραφα ταξινοµούνται σε ένα εννοιολογικό σχήµα και από αυτήν την ταξινόµηση επάγονται οι συνδέσεις τους πχ DOMENICUS [Tzitzikas & Theodorakis, Hypertext 96] 10 5

Το σύστηµα οµήνικος Λειτουργίες Subject catalog Alphabetic lists Guided tours Query cards Schema-based generation of hyperlinks Semantic network Hypermedia structures run-time 11 οµήνικος: Αυτόµατη Παραγωγή Υπερκειµένου από Βάση Γνώσης Curators Painting title: The Musicians. OilPainting created by Caravaggio on 1595, belonging to the style of Baroque. The upper left part of the painting represents a Self-Portrait. Children This OilPainting has the title The Musicians and has been created by Caravaggio 12 6

οµήνικος Πλεονεκτήµατα διεπίπεδου hypertext Αυτόµατο διασύνδεση βάσει περιεχοµένου υνατότητα πολλαπλών παρουσιάσεων Συνέπεια, ακεραιότητα δεδοµένων και συνδέσµων Ισχυρή γλώσσα επερώτησης Εύκολη και γρήγορη εισαγωγή και ενηµέρωση στοιχείων 13 εδοµένα Το τυπικό πρόβληµα της Ανάκτησης Πλ. Μια συλλογή από έγγραφα µε κείµενο φυσικής γλώσσας D={d1,,dn} Μιαεπερώτηση qενόςχρήστησεµορφήσυµβολοσειράς (string) Ζητούµενο Ένα διατεταγµένο σύνολο από έγγραφα που είναι συναφή µε την επερώτηση <d5,d2,d7,d9> Query String IR System Document corpus 1. Doc5 2. Doc2 3. Doc7 4 Doc9 Ranked Relevant documents 14 7

User Information Need Παράδειγµα Find all docs containing information on college tennis teams which: (1) are maintained by a USA university and (2) participate in the NCAA tournament. Έµφαση στην ανάκτηση πληροφορίας (όχι δεδοµένων) 15 Data vs Information Ανάκτηση εδοµένων ποια έγγραφα περιέχουν αυτές τις λέξεις ; Καλά ορισµένη σηµασιολογία (δεδοµένων και επερωτήσεων) ένα λάθος αντικείµενο ισοδυναµεί µε αποτυχία ορθότητα (soundness), πληρότητα (completeness) Ανάκτηση Πληροφορίας βρες πληροφορίες σχετικές µε αυτό το θέµα η σηµασιολογία είναι αρκετά χαλαρή ανοχή σε µικρά σφάλµατα Σύστηµα Ανάκτησης Πληροφορίας (ΣΑΠ) : προσπαθεί να ερµηνεύσει το περιεχόµενο των εγγράφων και επερωτήσεων παραγάγει διάταξη των εγγράφων βάσει της συνάφειας η ένοια της συνάφειας είναι κυρίαρχο ζήτηµα 16 8

Συνάφεια (Relevance) εν υπάρχει τυπικός ορισµός της συνάφειας! Η συνάφεια είναι σε µεγάλο βαθµό υποκειµενική. Συναφές έγγραφο µπορεί να σηµαίνει: στο σωστό θέµα επίκαιρο (timely) έγκυρο (από αξιόπιστη πηγή). Ικανό να ικανοποιήσει τους σκοπούς του χρήστη (τη επιθυµητή χρήση της αναζητούµενηςπληροφορίας) (information need)... 17 Η βασική προσέγγιση ΑΠ Οι πιο επιτυχηµένες προσεγγίσεις είναι οι στατιστικές Γιατί όχι επεξεργασία φυσικής γλώσσας; Χειρονακτικά προσδιορισµένες επικεφαλίδες (headings) e.g. Library of Congress headings, Dewey Decimal headings η χειρονακτική ευρετηρίαση είναι ακριβή η χειρονακτική ευρετηρίαση απαιτεί συµφωνία (human agreement) 18 9

Πλήρες κείµενο => Όρους ευρετηρίου Docs Accents spacing stopwords Noun groups stemming Manual indexing structure structure Full text Index terms 19 Τα βασικά τµήµατα ενός ΣΑΠ Λειτουργίες Κειµένου (Text Operations) σχηµατίζουν τις λέξεις ευρετηρίου (tokens, index terms). Αφαίρεση λέξεων αποκλεισµού (Stopword removal), Stemming Ευρετηρίαση (Indexing) κατασκευάζειέναευρετήριο (inverted index) µε δείκτες από τις λέξεις προς τα έγγραφα Αναζήτηση (Searching) ανακτά τα έγγραφα που περιέχουν µια λέξη (της επερώτησης) από το inverted index. Κατάταξη (Ranking) διαβαθµίζει όλα τα ανακτηµένα αρχεία µε βάσει µια µετρική συνάφειας. ιεπαφή (User Interface) διευθύνει την αλληλεπίδραση µε το χρήστη Λειτουργίες επερώτησης (Query Operations) µετασχηµατίζουν την επερώτηση για βελτίωση της ανάκτησης: Επέκταση επερώτησης χρησιµοποιώντας έναν θησαυρό Μετασχηµατισµός επερώτησης µε ανάδραση συνάφειας 20 10

Η Αρχιτεκτονική ενός ΣΑΠ user need User Interface Text Operations Text Text user feedback query retrieved docs ranked docs Query Operations Searching Ranking logical view logical view Indexing inverted file Index DB Manager Module Text Database 21 Αναζήτηση στον Ιστό (Web Search) Εφαρµογή της ΑΠ σε έγγραφα HTML του Ιστού ιαφορές: Πρέπει να συλλέξουµε τη συλλογή κειµένων διασχίζοντας (crawling/spidering) τονιστό Μπορούµε νααξιοποιήσουµετηςδοµήτηςπληροφορίαςστην HTML (XML). Τα έγγραφα τροποποιούνται (χωρίς προειδοποίηση) Μπορούµε να αξιοποιήσουµε τη δοµή των συνδέσµων του Ιστού. 22 11

Σύστηµα Αναζήτησης Ιστού Web Spider Document corpus Query String IR System 1. Page1 2. Page2 3. Page3.. Ranked Documents 23 Άλλα Task σχετικά µε την ΑΠ Question answering (απάντησηερωτήσεων) Agents (filtering, routing) Recommender systems Automatic clustering (αυτόµατηοµαδοποίηση) Cross-language retrieval Data and information mining (εξόρυξηδεδοµένωνκαι πληροφοριών) Information integration (εννοποίηση πληροφορίας) Knowledge management (διαχείρισηγνώσης) Meta-search (multi-database searching) (µέτα-αναζήτηση) Summarization (αυτόµατηπερίληψη)... 24 12

Ενδεικτικά Συστήµατα IR Systems Verity, Fulcrum, Excalibur, Eurospider Hummingbird, Documentum Inquery, Smart, Okapi, Lemur, Indri Web search and in-house systems West, LEXIS/NEXIS, Dialog Lycos, AltaVista, Excite, Yahoo, Google, Nothern Light, Teoma, HotBot, Direct Hit, Ask Jeeves elibrary, Inquira... 25 Ιστορική Αναδροµή 1960-70 s: Initial exploration of text retrieval systems for small corpora of scientific abstracts, and law and business documents. Development of the basic Boolean and vector-space models of retrieval. Prof. Salton and his students at Cornell University are the leading researchers in the area. 1980 s: Large document database systems, many run by companies: Lexis-Nexis Dialog MEDLINE 26 13

Ιστορική Αναδροµή (II) 1990 s: Searching FTPable documents on the Internet Archie WAIS Searching the World Wide Web Lycos Yahoo Altavista Organized Competitions NIST TREC Recommender Systems Ringo Amazon NetPerceptions Automated Text Categorization & Clustering 27 2000 s Ιστορική Αναδροµή (III) Link analysis for Web Search Google Automated Information Extraction Whizbang Fetch Burning Glass Question Answering TREC Q/A track Multimedia IR Image, Video, Audio and music Cross-Language IR DARPA Tides Document Summarization ΠριντονΙστόηΑΠεθεωρείτοότιείχεστενό πεδίο εφαρµογής Μετά την επινόηση του Web αυτό άλλαξε για τα καλά: οικουµενική δεξαµενή γνώσης ελεύθερη (και φθηνή) καθολική πρόσβαση έλλειψη κεντρικού ελέγχου σύνταξης 28 14

«Ιστορική»Αναδροµή (IV) Στο µέλλον ΑΠκαι context (ησωστήαπάντησηγιασέναεδώκαιτώρα) Επεξεργασία φυσικής γλώσσας Ενοποίηση µε άλλες τεχνολογίες Κατανεµηµένη, ετερογενήαπ 29 Σχετικές Περιοχές Databases Artificial Intelligence Machine Learning Information Natural Language Processing Library & Information Science 30 15

Comparing IR to Databases Databases IR Data Structured Unstructured Fields Defined (e.g. age, price) No fields (other than text) Queries Defined (e.g. SQL) Free text (natural language), Boolean Matching Exact (results are always «correct») Imprecise (need to measure effectiveness) 31 Τεχνητή Νοηµοσύνη (Artificial Intelligence) Παραδοσιακά εστιάζει στην παράσταση γνώσης (knolwedge representation) και τον συλλογισµό (reasoning). Φορµαλισµοί για παράσταση γνώσης και επερωτήσεων: First-order Predicate Logic Bayesian Networks Ηπρόσφατηδουλειάσε web ontologiesκαι intelligent information agents την φέρνει πιο κοντά στην ΑΠ 32 16

Μηχανική Μάθηση (Machine Learning) Εστιάζει στην ανάπτυξη υπολογιστικών συστηµάτων που βελτιώνουν τις επιδόσεις τους µε το χρόνο (αξιοποιώντας πρωθύστερη εµπειρία) Επιτηρούµενη Μάθηση (Supervised learning) Αυτόµατηταξινόµησηπαραδειγµάτωνβάσειµάθησηςαπό labeled training examples Μη-Επιτηρούµενη Μάθηση (Unsupervised learning) Αυτόµατηοµαδοποίηση unlabeled examples σεσηµαντικέςοµάδες (into meaningful groups). 33 ΜηχανικήΜάθηση:IR Directions Ταξινόµηση Κειµένου (Text Categorization) Αυτόµατη ιεραρχική ταξινόµηση (hierarchical classification, e.g.yahoo). Προσαρµόσιµο φιλτράρισµα/routing/σύσταση(recommending). Αυτόµατο φιλτράρισµα spam. Οµαδοποίηση Κειµένων (Text Clustering) Οµαδοποίηση των αποτελεσµάτων της αναζήτησης Αυτόµατος σχηµατισµός ιεραρχιών (Yahoo). Learning for Information Extraction Text Mining 34 17

Επεξεργασία Φυσικής Γλώσσας Natural Language Processing Παραδοσιακά εστιάζει την συντακτική (syntactic), σηµασιολογική (semantic) και pragmatic ανάλυση της φυσικής γλώσσας και οµιλίας Η ανάλυση του συντακτικού (δοµή φράσεων) και της σηµασιολογίας θα µπορούσε να επιτρέψει την ανάκτηση µέσω νοήµατος, αντί λέξεων. 35 Επεξεργασία Φυσικής Γλώσσας (ΙΙ) IR Directions: Μέθοδοι για αποσαφήνιση του νοήµατος των διφορούµενων λέξεων βάσει τωνσυµφραζοµένων (word sense disambiguation). Μέθοδοι αναγνώρισης συγκεκριµένων τµηµάτων πληροφορίας σε ένα έγγραφο (information extraction). Μέθοδοι απάντησης επερωτήσεων φυσικής γλώσσας από συλλογές κειµένου 36 18

Library and Information Science Focused on the human user aspects of information retrieval (human-computer interaction, user interface, visualization). Concerned with effective categorization of human knowledge. Concerned with citation analysis and bibliometrics (structure of information). Recent work on digital libraries brings it closer to CS & IR. 37 19