Ανάκτηση Πληροφορίας Εισαγωγή

Σχετικά έγγραφα
Ανάκτηση πληροφορίας

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Βάσεις Δεδομένων. Database Management Systems (DBMS) Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια

Ανάκτηση Πληροφορίας

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Εισαγωγή. CS 463: Information Retrieval Systems. Yannis Tzitzikas. University of Crete. Spring 05. Lecture : 1 Date :

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ανάκτηση Πληροφορίας

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Βάσεις Δεδομένων ΙΙ Ενότητα 9

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Τμήμα Πληροφορικής ΑΠΘ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

ΒΙΒΛΙΟΘΗΚΗ ΣΕΥΠ Γκουν Γκ ταβά τ Ε.

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Information Retrieval

ΒΙΒΛΙΟΘΗΚΗ Γ Κ Ο Υ Ν Τ Α Β Α Ε.

Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α


πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems)

Βάσεις δεδομένων. Π. Φιτσιλής

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Ανάκτηση πολυμεσικού περιεχομένου

Εισαγωγή στα Πληροφοριακά Συστήματα

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Ανάκτηση Πληροφορίας

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Έννοιες Διαχείρισης Βάσεων Δεδομένων και Αρχιτεκτονική

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Information Technology for Business

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) Ενότητα Advanced Βάσεις Δεδομένων, Προχωρημένο Επίπεδο. Copyright 2013 ECDL Foundation Ref: SL_AM3_Syl2.

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Δράσεις για την ενίσχυση της Δημιουργικότητας μέσω της Μουσικής Πληροφόρησης και της Τηλεκπαίδευσης στη Φιλαρμονική Ένωση Κέρκυρας «Καποδίστριας»

Βάσεις εδοµένων & Πολυµέσα

Πέργαµος: Το Σύστηµα Ψηφιακής Βιβλιοθήκης του Πανεπιστηµίου Αθηνών

Ανάκτηση πληροφορίας

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Ειδικές Επιστηµονικές Εργασίες

Η ιστορια του Διαδικτύου

Πληροφοριακά Συστήματα Διοίκησης

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Μεθοδολογία Εκπαιδευτικής Έρευνας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Σεμινάριο Βιβλιογραφίας σε μεταπτυχιακούς φοιτητές Θετικών Επιστημών & Ιατρικής

Ανάκτηση πληροφορίας

Επικοινωνιών στην Εκπαίδευση. Τεχνολογίες Πληροφορίας & (ΤΠΕ-Ε)

CONFIOUS: The Conference Nous Σύστημα Διαχείρισης Επιστημονικών & Ακαδημαϊκών Συνεδρίων. (

Ανάλυση, Περιγραφή και Ανάκτηση Μουσικών Δεδομένων: το έργο ΠΟΛΥΜΝΙΑ*

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Πληροφοριακά Συστήματα Διοίκησης

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

(Blended Executive Learning)

Social Web: lesson #4

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΗΛΕΚΤΡΟΝΙΚΕΣ ΥΠΗΡΕΣΙΕΣ. Κεντρικής Βιβλιοθήκης Θεολογικής Σχολής

Βιβλιοθήκη. Ωράριο Δευτέρα Τετάρτη Παρασκευή 8:00 15:00 Tρίτη Πέμπτη 8:00 20:00

Ανάκτηση Πληροφορίας

Τεχνικές Εξόρυξης Δεδομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Twitter 6. DEIM Forum 2014 A Twitter,,, Wikipedia, Explicit Semantic Analysis,

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Τι είναι ένα δίκτυο υπολογιστών; Αρχιτεκτονική επιπέδων πρωτοκόλλων. Δικτυακά πρωτόκολλα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Web DEIM Forum 2009 A7-1. Web. Web. Web. Web. 4 Wikipedia. Wikipedia. Web.

2. Αλγόριθμοι, δομές δεδομένων και πολυπλοκότητα

Αναζητώντας θέμα έρευνας: ορισμένες μεθοδολογικές παρατηρήσεις. Δρ. Ηλίας Μαυροειδής

Ανάκτηση Πληροφορίας

Η SQL αποτελείται από δύο υποσύνολα, τη DDL και τη DML.

Computer & Applied Sciences Complete ΟΔΗΓΟΣ ΧΡΗΣΗΣ

Αυτοματοποιημένη χαρτογραφία

Προσοχή: Αν επιχειρείτε να χρησιμοποιήσετε για πρώτη φορά το σύστημα, ακολουθείστε τις οδηγίες εγκατάστασης.

Διάμετροι και αποστάσεις πλανητών.

Transcript:

Ανάκτηση Πληροφορίας Εισαγωγή Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Ακαδημαϊκό Έτος 2007-2008 Αντικείμενο IR Η Ανάκτηση Πληροφορίας (ΑΠ) (Information Retrieval - IR) μελετά προβλήματα που σχετίζονται με την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας (έγγραφα κειμένου, εικόνες, μουσικά αρχεία, βίντεο). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 2 1

ΑΠ και ΒΔ Οι περιοχή της Ανάκτησης Πληροφορίας (ΑΠ) έχει πολλά κοινά με την περιοχή των Βάσεων Δεδομένων (ΒΔ). Οι δύο περιοχές για πολλά χρόνια εξελίσσονταν παράλληλα και έτσι η κάθε μία έχει αναπτύξει διαφορετικές τεχνικές. Οι διαφορές οφείλονται στις διαφορές που έχουν τα δεδομένα και τα ερωτήματα. Οι ερευνητές κατευθύνονται προς τη μελέτη συστημάτων που θα έχουν δυνατότητες ΣΔΒΔ και θα μπορούν να εκτελούν αποτελεσματικά και αποδοτικά τις λειτουργίες των συστημάτων ΑΠ. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 3 ΣΑΠ και ΣΔΒΔ Χαρακτηριστικό είδος δεδομένων ΣΔΒΔ απολύτως δομημένα ΣΑΠ αδόμητα, ημι-δομημένα τύπος δεδομένων γλώσσα ερωτημάτων αριθμητικά, αλφαριθμητικά SQL, QBE έγγραφα (κειμένου) φυσική γλώσσα ερώτημα σαφές ασαφές αποτελέσματα χωρίς βαθμολόγηση βαθμολογημένα Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 4 2

ΑΠ και ΒΔ Ερώτημα SQL SELECT όνομα FROM πλανήτες WHERE δορυφόροι = 0 OR δορυφόροι = 1 OR δορυφόροι = 2 κωδικός 1 2 3 4 5 όνομα Ερμής Αφροδίτη Γη Άρης Δίας διάμετρος 4880 12103.6 12756.3 6794 142984 δορυφόροι 0 0 1 2 63 6 Κρόνος 120536 34 7 Ουρανός 51118 21 8 9 Ποσειδώνας Πλούτωνας 49532 2274 13 3 Το ερώτημα είναι σαφές, προσδιορίζει επακριβώς τη συνθήκη που πρέπει να ικανοποιεί κάθε record που εμφανίζεται στην έξοδο. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 5 ΑΠ και ΒΔ Συλλογή εγγράφων d1 : Ο κομήτης του Χάλεϋ μας επισκέπτεται περίπου κάθε εβδομήντα έξι χρόνια. d2 : Ο κομήτης του Χάλεϋ πήρε το όνομά του από τον αστρονόμo Έντμοντ Χάλεϋ. d3 : Ένας κομήτης διαγράφει ελλειπτική τροχιά. d4 : Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το Δείμο και το Φόβο. d5 : Ο πλανήτης Δίας έχει 63 γνωστούς φυσικούς δορυφόρους. d6 : Ένας κομήτης έχει μικρότερη διάμετρο από ότι ένας πλανήτης. d7 : Ο Άρης είναι ένας πλανήτης του ηλιακού μας συστήματος. Πληροφοριακή ανάγκη (ερώτημα): πληροφορίες για τον κομήτη του Χάλεϋ Διαισθητικά αντιλαμβανόμαστε ότι τα έγγραφα d1 και d2 σχετίζονται περισσότερο με το ερώτημα απ ότι τα υπόλοιπα έγγραφα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 6 3

Αναζήτηση και Περιήγηση Αναζήτηση (Search) Η δυνατότητα εύρεσης πληροφορίας σχετική με την ερώτηση του χρήστη. Ο χρήστης εκφράζει την πληροφοριακή ανάγκη (ερώτημα) και το σύστημα επιστρέφει έγγραφα με μεγάλο βαθμό ομοιότητας ως προς το ερώτημα. Περιήγηση (Browsing) Η δυνατότητα μετακίνησης μεταξύ των αποτελεσμάτων ή όλων των εγγράφων της συλλογής (π.χ. Hypertext) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 7 Αναζήτηση και Περιήγηση έγγραφα που επιστρέφονται σχετικά έγγραφα περιήγηση όροι αναζήτησης Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 8 4

Αναζήτηση Εγγράφων Η ανάκτηση εγγράφων τα οποία σχετίζονται με την ερώτηση του χρήστη, και η αποφυγή ανάκτησης εγγράφων που δε σχετίζονται με την ερώτηση του χρήστη. Τα τελικά αποτελέσματα ταξινομούνται ανάλογα με το ποσοστό συσχέτισης (relevance) δηλαδή το βαθμό ομοιότητας. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 9 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 10 5

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 11 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 12 6

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 13 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 14 7

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 15 Ταξινόμηση και Βαθμολόγηση Όταν ένας χρήστης υποβάλλει ένα ερώτημα σε ένα σύστημα ανάκτησης, το σύστημα επιστρέφει ένα σύνολο αποτελεσμάτων. Εάν η συλλογή κειμένων είναι μεγάλη, ενδέχεται και τα αποτελέσματα να είναι πολλά (π.χ. αναζήτηση σε μία μηχανή αναζήτησης). Επομένως, έχει μεγάλη σημασία η σειρά εμφάνισης των αποτελεσμάτων. Υπάρχουν τρεις μέθοδοι: Ταξινόμηση των αποτελεσμάτων π.χ. ως προς την ημερομηνία Βαθμολόγηση των αποτελεσμάτων ως προς την ομοιότητα με το ερώτημα. Βαθμολόγηση των αποτελεσμάτων ως προς τη σημαντικότητά τους Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 16 8

Χρήση Καταλόγων Τα συστήματα ανάκτησης σπάνια αναζητούν την πληροφορία απευθείας στη συλλογή εγγράφων. Συνήθως, χρησιμοποιούνται κατάλογοι οι οποίοι επιταχύνουν τη διαδικασία αναζήτησης. συλλογή εγγράφων Κατάλογος αναζήτηση καταλόγου δημιουργία καταλόγου Έγγραφα Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 17 Αναπαράσταση Εγγράφων 1. Πλήρες κείμενο 2. Απαλοιφή άρθρων και συνδέσμων 3. Απαλοιφή επιθέτων, ρημάτων, κλπ. 4. Άλλοι μετασχηματισμοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές μας ενδιαφέρει και η δομή (structure) του κειμένου (π.χ. αναπαράσταση με XML) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 18 9

Αναπαράσταση Εγγράφων document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 19 Δομή ενός ΣΑΠ Έγγραφο Ερωτήματος Νέα Έγγραφα Ερώτημα Χρήστης Ανάδραση Προεπεξεργασία Εγγράφου Ερωτήματος Προεπεξεργασία Εγγράφου Επαναπροσδιορισμός Ερωτήματος Αναζήτηση Σχετικών Εγγράφων Ενημέρωση Καταλόγου Βαθμολόγηση Εγγράφων Παραγωγή και Μορφοποίηση Αποτελεσμάτων Κατάλογος Έγγραφα Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 20 10

Περιστασιακή Αναζήτηση και Φιλτράρισμα Ένα ερώτημα μπορεί να ανήκει σε μία από δύο κατηγορίες. Η πρώτη κατηγορία αφορά σε ερωτήματα που εκτελούνται μία φορά, ενώ η δεύτερη κατηγορία αφορά σε ερωτήματα που εκτελούνται συνεχώς για κάποιο χρονικό διάστημα που συνήθως προσδιορίζεται από το χρήστη. Η πρώτη κατηγορία αναζήτησης καλείται περιστασιακή ή εξειδικευμένη (ad-hoc), ενώ η συνεχής επεξεργασία ενός ερωτήματος καλείται και φιλτράρισμα (filtering) ή δρομολόγηση (routing) των εγγράφων. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 21 Περιστασιακή Αναζήτηση ερώτημα 1 συλλογή εγγράφων χρήστης 1 απάντηση 1 ερώτημα 2 έγγραφο 2 έγγραφο 4 χρήστης 2 απάντηση 2 έγγραφο 1 έγγραφο 5 χρήστης 3 ερώτημα 3 έγγραφο 3 έγγραφο 6 απάντηση 3 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 22 11

Φιλτράρισμα ή Δρομολόγηση νεότερο έγγραφο ροή εγγράφων παλαιότερο έγγραφο έγγραφο 7 έγγραφο 6 έγγραφο 5 έγγραφο 4 έγγραφο 3 έγγραφο 2 έγγραφο 1 φιλτράρισμα (δρομολόγηση εγγράφων) προφίλ χρήστη 1 προφίλ χρήστη 2 προφίλ χρήστη 3 έγγραφο 1 έγγραφο 2 έγγραφο 1 έγγραφο 2 έγγραφο 4 έγγραφο 7 έγγραφο 1 έγγραφο 2 έγγραφο 5 έγγραφο 7 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 23 Χθες και Σήμερα Τα πρώτα διαθέσιμα συστήματα IR χρησιμοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων με βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγματοποιείται ανάκτηση με βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήμερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγμένα user interfaces, πιο γρήγορες μηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 24 12

Ιστορική Αναδρομή 1960-70 s: Αναζήτηση σε μικρές συλλογές κειμένων σχετικές με επιστημονικά άρθρα και νομικά κείμενα Ανάπτυξη των βασικών μοντέλων boolean και vector. Από τους σημαντικότερους ερευνητές στο χώρο είναι ο καθ. Salton και οι συνεργάτες του στο Πανεπιστήμιο Cornell. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 25 Ιστορική Αναδρομή 1980 s: Ανάπτυξη μεγάλων συστημάτων ανάκτησης, πολλά από τα οποία διαχειρίζονται από εταιρίες: Lexis-Nexis Dialog MEDLINE Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 26 13

Ιστορική Αναδρομή 1990 s: Αναζήτηση κειμένων στο Internet μέσω FTP Archie WAIS Αναζήτηση στο World Wide Web Lycos Yahoo Altavista Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 27 Ιστορική Αναδρομή 1990 s συνέχεια: Διαγωνισμοί NIST TREC Recommender Systems Ringo Amazon NetPerceptions Αυτόματη κατάταξη και ομαδοποίηση κειμένων Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 28 14

Ιστορική Αναδρομή 2000 s Ανάλυση συνδέσμων (link analysis) Google Αυτόματη εξαγωγή πληροφορίας Whizbang Fetch Burning Glass Απάντηση ερωτήσεων (question answering) TREC Q/A track Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 29 Ιστορική Αναδρομή 2000 s συνέχεια: Ανάκτηση πολυμεσικών δεδομένων (Multimedia IR) Image Video Audio and music Cross-Language IR DARPA Tides Document Summarization Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 30 15

Σύγχρονες Τάσεις Παγκόσμιος Ιστός Γεωγραφική Ανάκτηση Πληροφορίας Πολυμεσικά Δεδομένα Ολοκλήρωση Τεχνικών Ανάκτησης και Βάσεων Δεδομένων Ομότιμα Συστήματα (P2P systems) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 31 Περιεχόμενα Διαλέξεων Μοντέλα ανάκτησης πληροφορίας Προεπεξεργασία εγγράφων Αποτίμηση αποτελεσματικότητας συστημάτων Κατάλογοι για αποδοτική ανάκτηση Συμπίεση εγγράφων Επεξεργασία ερωτημάτων Ανάδραση σχετικότητας Παράλληλη και κατανεμημένη ανάκτηση Ανάκτηση πολυδιάστατων δεδομένων Ανάκτηση πληροφορίας στον παγκόσμιο ιστό Ειδικά θέματα Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 32 16

Συνέδρια Text Retrieval Conference (TREC) ACM Special Interest Group on Information Retrieval (SIGIR) Conference European Conference on Information Retrieval (ECIR) European Conference on Research and Advanced Technology for Digital Libraries (ECDL) Joint Conference on Digital Libraries (JCDL) ACM International Workshop on Multimedia Information Retrieval (MIR) International Symposium on Music Information Retrieval (ISMIR), και άλλα. Ακόμη, πολλά από τα μεγάλα συνέδρια που αναφέρονται στη διαχείριση δεδομένων έχουν ειδικές συνεδρίες για την Ανάκτηση Πληροφορίας. Χαρακτηριστικά αναφέρουμε: ACM Conference on Information and Knowledge Management (CIKM) ACM Special Interest Group on Management of Data (SIGMOD) Conference International Conference on Very Large Databases (VLDB). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 33 Περιοδικά Τέλος, αναφέρουμε και επιστημονικά περιοδικά που εστιάζουν στην περιοχή: ACM Transactions on Information Systems Information Retrieval Information Processing and Management Information Systems International Journal on Digital Libraries, και άλλα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 34 17

Βιβλιογραφία - βιβλία Manning, C.D. and Raghavan, P. and Schutze, H., "An Introduction to Information Retrieval", Cambridge University Press", 2007. Baeza-Yates, R. and Ribeiro-Neto, B., "Modern Information Retrieval", Addison Wesley, 1999. Witten, I.H and Moffat, A. and Bell, T.C., "Managing Gigabytes: Compressing and Indexing Documents and Images", Morgan Kaufmann, 1999. Korfhage, R., "Information Storage and Retrieval", John Wiley & Sons, 1997. Frakes, W.B. and Baeza-Yates (eds), "Information Retrieval: Data Structures and Algorithms", Prentice Hall, Englewood Cliffs, NJ, 1992. van Rijsbergen, C.J., "Information Retrieval", Butterworths, 1979. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 35 Χρήσιμοι Ιστότοποι http://www-csli.stanford.edu/~hinrich/information-retrieval.html http://documents.cfar.umd.edu/resources/ir/ http://www.glue.umd.edu/~dlrg/clir/ http://www.daviddlewis.com/resources/ http://www.cs.umbc.edu/~crowder/pubs/ir.html http://www.google.com/top/computers/software/information_retrieval/ http://ir.dcs.gla.ac.uk/resources.html http://www.searchtools.com/info/info-retrieval.html Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 36 18