Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας Εισαγωγή

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας

Βάσεις Δεδομένων. Database Management Systems (DBMS) Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Ανάκτηση Πληροφορίας

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Εισαγωγή. CS 463: Information Retrieval Systems. Yannis Tzitzikas. University of Crete. Spring 05. Lecture : 1 Date :

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ανάκτηση Πληροφορίας

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Βάσεις εδοµένων & Πολυµέσα

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems)

Βάσεις Δεδομένων ΙΙ Ενότητα 9

Ανάκτηση Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πληροφοριακά Συστήματα Διοίκησης

Ανάκτηση Δεδομένων (Information Retrieval)

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη


Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Πληροφοριακά Συστήματα Διοίκησης

Ανάκτηση Πληροφορίας

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Ανάκτηση Πληροφορίας

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

7.11 Πρωτόκολλα εφαρµογής

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Πέργαµος: Το Σύστηµα Ψηφιακής Βιβλιοθήκης του Πανεπιστηµίου Αθηνών

Στρατηγική έρευνας. Στρατηγική έρευνας. Η ερευνητική διαδικασία στη βιβλιοθήκη αρχίζει από τη στιγμή που χρειάζεται

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Εισαγωγή στα Πληροφοριακά Συστήματα

Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Μεθοδολογία Εκπαιδευτικής Έρευνας

Επικοινωνιών στην Εκπαίδευση. Τεχνολογίες Πληροφορίας & (ΤΠΕ-Ε)

Computer & Applied Sciences Complete ΟΔΗΓΟΣ ΧΡΗΣΗΣ

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) Ενότητα Advanced Βάσεις Δεδομένων, Προχωρημένο Επίπεδο. Copyright 2013 ECDL Foundation Ref: SL_AM3_Syl2.

Information Retrieval

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό - Λογισµικό 23 Ιστορική Εξέλιξη των Η/Υ 23 Γενιές

(Blended Executive Learning)

Τμήμα Πληροφορικής ΑΠΘ

ECDL Module 5 Χρήση Βάσεων εδοµένων Εξεταστέα Ύλη, έκδοση 5.0 (Syllabus Version 5.0)

Αυτοματοποιημένη χαρτογραφία

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΒΙΒΛΙΟΘΗΚΗ Γ Κ Ο Υ Ν Τ Α Β Α Ε.

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Ανάκτηση πολυμεσικού περιεχομένου

Ειδικές Επιστηµονικές Εργασίες

Η ιστορια του Διαδικτύου

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό (Hardware) - Λογισµικό (Software) 23 Ιστορική Εξέλιξη

Σεμινάριο Βιβλιογραφίας σε μεταπτυχιακούς φοιτητές Θετικών Επιστημών & Ιατρικής

Αναζήτηση σε όλα τα άρθρα των επιστηµονικών περιοδικών στα οποία το Α.Π.Θ. είναι συνδροµητής. Η αναζήτηση µπορεί να γίνει µε βάση λέξεις κλειδιά σε

ΒΙΒΛΙΟΘΗΚΗ ΣΕΥΠ Γκουν Γκ ταβά τ Ε.

Βάσεις δεδομένων. Π. Φιτσιλής

CONFIOUS: The Conference Nous Σύστημα Διαχείρισης Επιστημονικών & Ακαδημαϊκών Συνεδρίων. (

Ανάλυση, Περιγραφή και Ανάκτηση Μουσικών Δεδομένων: το έργο ΠΟΛΥΜΝΙΑ*

Twitter 6. DEIM Forum 2014 A Twitter,,, Wikipedia, Explicit Semantic Analysis,

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Hellenic European Law Concordance

Δράσεις για την ενίσχυση της Δημιουργικότητας μέσω της Μουσικής Πληροφόρησης και της Τηλεκπαίδευσης στη Φιλαρμονική Ένωση Κέρκυρας «Καποδίστριας»

Web DEIM Forum 2009 A7-1. Web. Web. Web. Web. 4 Wikipedia. Wikipedia. Web.

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Information Technology for Business

Social Web: lesson #4

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΗΛΕΚΤΡΟΝΙΚΕΣ ΥΠΗΡΕΣΙΕΣ. Κεντρικής Βιβλιοθήκης Θεολογικής Σχολής

Βιβλιοθήκη. Ωράριο Δευτέρα Τετάρτη Παρασκευή 8:00 15:00 Tρίτη Πέμπτη 8:00 20:00

Ανάκτηση πληροφορίας

ΕΠΛ202:'Η'επιστημονική'δημοσίευση

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Τι είναι ένα δίκτυο υπολογιστών; Αρχιτεκτονική επιπέδων πρωτοκόλλων. Δικτυακά πρωτόκολλα

Ασφάλεια Υπολογιστικών Συστηµάτων

Transcript:

Ανάκτηση Πληροφορίας Εισαγωγή Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής Ακαδηµαϊκό Έτος 2015-2016

Αντικείµενο IR Η Ανάκτηση Πληροφορίας (ΑΠ) (Information Retrieval - IR) µελετά προβλήµατα που σχετίζονται µε την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας (έγγραφα κειµένου, εικόνες, µουσικά αρχεία, βίντεο). Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 2

ΑΠ και Β Οι περιοχή της Ανάκτησης Πληροφορίας (ΑΠ) έχει πολλά κοινά µε την περιοχή των Βάσεων εδοµένων (Β ). Οι δύο περιοχές για πολλά χρόνια εξελίσσονταν παράλληλα και έτσι η κάθε µία έχει αναπτύξει διαφορετικές τεχνικές. Οι διαφορές οφείλονται στις διαφορές που έχουν τα δεδοµένα και τα ερωτήµατα. Οι ερευνητές κατευθύνονται προς τη µελέτη συστηµάτων που θα έχουν δυνατότητες Σ Β και θα µπορούν να εκτελούν αποτελεσµατικά και αποδοτικά τις λειτουργίες των συστηµάτων ΑΠ. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 3

ΣΑΠ και Σ Β Χαρακτηριστικό Σ Β ΣΑΠ είδος δεδοµένων απολύτως δοµηµένα αδόµητα, ηµι-δοµηµένα τύπος δεδοµένων αριθµητικά, έγγραφα (κειµένου) αλφαριθµητικά γλώσσα ερωτηµάτων SQL, QBE φυσική γλώσσα ερώτηµα σαφές ασαφές αποτελέσµατα χωρίς βαθµολόγηση βαθµολογηµένα Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 4

ΑΠ και Β Ερώτηµα SQL SELECT όνοµα FROM πλανήτες WHERE δορυφόροι = 0 OR δορυφόροι = 1 OR δορυφόροι = 2 κωδικός όνοµα διάµετρος δορυφόροι 1 Ερµής 4880 0 2 Αφροδίτη 12103.6 0 3 Γη 12756.3 1 4 Άρης 6794 2 5 ίας 142984 63 6 Κρόνος 120536 34 7 Ουρανός 51118 21 8 Ποσειδώνας 49532 13 9 Πλούτωνας 2274 3 Το ερώτηµα είναι σαφές, προσδιορίζει επακριβώς τη συνθήκη που πρέπει να ικανοποιεί κάθε record που εµφανίζεται στην έξοδο. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 5

ΑΠ και Β Συλλογή εγγράφων d1 : Ο κοµήτης του Χάλλεϋ µας επισκέπτεται περίπου κάθε εβδοµήντα έξι χρόνια. d2 : Ο κοµήτης του Χάλλεϋ πήρε το όνοµά του από τον αστρονόµo Έντµοντ Χάλεϋ. d3 : Ένας κοµήτης διαγράφει ελλειπτική τροχιά. d4 : Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το είµο και το Φόβο. d5 : Ο πλανήτης ίας έχει 63 γνωστούς φυσικούς δορυφόρους. d6 : Ένας κοµήτης έχει µικρότερη διάµετρο από ότι ένας πλανήτης. d7 : Ο Άρης είναι ένας πλανήτης του ηλιακού µας συστήµατος. Πληροφοριακή ανάγκη (ερώτηµα): πληροφορίες για τον κοµήτη του Χάλλεϋ ιαισθητικά αντιλαµβανόµαστε ότι τα έγγραφα d1 και d2 σχετίζονται περισσότερο µε το ερώτηµα απ ότι τα υπόλοιπα έγγραφα. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 6

Αναζήτηση και Περιήγηση Αναζήτηση (Search) Η δυνατότητα εύρεσης πληροφορίας σχετική µε την ερώτηση του χρήστη. Ο χρήστης εκφράζει την πληροφοριακή ανάγκη (ερώτηµα) και το σύστηµα επιστρέφει έγγραφα µε µεγάλο βαθµό οµοιότητας ως προς το ερώτηµα. Περιήγηση (Browsing) Η δυνατότητα µετακίνησης µεταξύ των αποτελεσµάτων ή όλων των εγγράφων της συλλογής (π.χ. Hypertext) Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 7

Αναζήτηση και Περιήγηση έγγραφα που επιστρέφονται σχετικά έγγραφα περιήγηση όροι αναζήτησης Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 8

Αναζήτηση Εγγράφων Η ανάκτηση εγγράφων τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης εγγράφων που δε σχετίζονται µε την ερώτηση του χρήστη. Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance) δηλαδή το βαθµό οµοιότητας. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 9

Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 10

Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 11

Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 12

Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 13

Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 14

Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 15

Ταξινόµηση και Βαθµολόγηση Όταν ένας χρήστης υποβάλλει ένα ερώτηµα σε ένα σύστηµα ανάκτησης, το σύστηµα επιστρέφει ένα σύνολο αποτελεσµάτων. Εάν η συλλογή κειµένων είναι µεγάλη, ενδέχεται και τα αποτελέσµατα να είναι πολλά (π.χ. αναζήτηση σε µία µηχανή αναζήτησης). Εποµένως, έχει µεγάλη σηµασία η σειρά εµφάνισης των αποτελεσµάτων. Υπάρχουν τρεις µέθοδοι: Ταξινόµηση των αποτελεσµάτων π.χ. ως προς την ηµεροµηνία Βαθµολόγηση των αποτελεσµάτων ως προς την οµοιότητα µε το ερώτηµα. Βαθµολόγηση των αποτελεσµάτων ως προς τη σηµαντικότητά τους Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 16

Χρήση Καταλόγων Τα συστήµατα ανάκτησης σπάνια αναζητούν την πληροφορία απευθείας στη συλλογή εγγράφων. Συνήθως, χρησιµοποιούνται κατάλογοι οι οποίοι επιταχύνουν τη διαδικασία αναζήτησης. συλλογή εγγράφων Κατάλογος αναζήτηση καταλόγου δηµιουργία καταλόγου Έγγραφα Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 17

Αναπαράσταση Εγγράφων 1. Πλήρες κείµενο 2. Απαλοιφή άρθρων και συνδέσµων 3. Απαλοιφή επιθέτων, ρηµάτων, κλπ. 4. Άλλοι µετασχηµατισµοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML) Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 18

Αναπαράσταση Εγγράφων document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 19

οµή ενός ΣΑΠ Έγγραφο Ερωτήµατος Νέα Έγγραφα Ερώτηµα Χρήστης Ανάδραση Προεπεξεργασία Εγγράφου Ερωτήµατος Προεπεξεργασία Εγγράφου Επαναπροσδιορισµός Ερωτήµατος Αναζήτηση Σχετικών Εγγράφων Ενηµέρωση Καταλόγου Βαθµολόγηση Εγγράφων Παραγωγή και Μορφοποίηση Αποτελεσµάτων Κατάλογος Έγγραφα Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 20

Περιστασιακή Αναζήτηση και Φιλτράρισµα Ένα ερώτηµα µπορεί να ανήκει σε µία από δύο κατηγορίες. Η πρώτη κατηγορία αφορά σε ερωτήµατα που εκτελούνται µία φορά, ενώ η δεύτερη κατηγορία αφορά σε ερωτήµατα που εκτελούνται συνεχώς για κάποιο χρονικό διάστηµα που συνήθως προσδιορίζεται από το χρήστη. Η πρώτη κατηγορία αναζήτησης καλείται περιστασιακή ή εξειδικευµένη (ad-hoc), ενώ η συνεχής επεξεργασία ενός ερωτήµατος καλείται και φιλτράρισµα (filtering) ή δροµολόγηση (routing) των εγγράφων. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 21

Περιστασιακή Αναζήτηση ερώτηµα 1 συλλογή εγγράφων χρήστης 1 απάντηση 1 ερώτηµα 2 έγγραφο 2 έγγραφο 4 χρήστης 2 απάντηση 2 έγγραφο 1 έγγραφο 5 χρήστης 3 ερώτηµα 3 έγγραφο 3 έγγραφο 6 απάντηση 3 Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 22

Φιλτράρισµα ή ροµολόγηση νεότερο έγγραφο ροή εγγράφων παλαιότερο έγγραφο έγγραφο 7 έγγραφο 6 έγγραφο 5 έγγραφο 4 έγγραφο 3 έγγραφο 2 έγγραφο 1 φιλτράρισµα (δροµολόγηση εγγράφων) προφίλ χρήστη 1 προφίλ χρήστη 2 προφίλ χρήστη 3 έγγραφο 1 έγγραφο 2 έγγραφο 1 έγγραφο 2 έγγραφο 4 έγγραφο 7 έγγραφο 1 έγγραφο 2 έγγραφο 5 έγγραφο 7 Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 23

Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 24

1960-70 s: Ιστορική Αναδροµή Αναζήτηση σε µικρές συλλογές κειµένων σχετικές µε επιστηµονικά άρθρα και νοµικά κείµενα Ανάπτυξη των βασικών µοντέλων boolean και vector. Από τους σηµαντικότερους ερευνητές στο χώρο είναι ο καθ. Salton και οι συνεργάτες του στο Πανεπιστήµιο Cornell. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 25

Ιστορική Αναδροµή 1980 s: Ανάπτυξη µεγάλων συστηµάτων ανάκτησης, πολλά από τα οποία διαχειρίζονται από εταιρίες: Lexis-Nexis Dialog MEDLINE Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 26

Ιστορική Αναδροµή 1990 s: Αναζήτηση κειµένων στο Internet µέσω FTP Archie WAIS Αναζήτηση στο World Wide Web Lycos Yahoo Altavista Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 27

Ιστορική Αναδροµή 1990 s συνέχεια: ιαγωνισµοί NIST TREC Recommender Systems Ringo Amazon NetPerceptions Αυτόµατη κατάταξη και οµαδοποίηση κειµένων Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 28

Ιστορική Αναδροµή 2000 s Ανάλυση συνδέσµων (link analysis) Google Αυτόµατη εξαγωγή πληροφορίας Whizbang Fetch Burning Glass Απάντηση ερωτήσεων (question answering) TREC Q/A track Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 29

Ιστορική Αναδροµή 2000 s συνέχεια: Ανάκτηση πολυµεσικών δεδοµένων (Multimedia IR) Image Video Audio and music Cross-Language IR DARPA Tides Document Summarization Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 30

Σύγχρονες Τάσεις Παγκόσµιος Ιστός Γεωγραφική Ανάκτηση Πληροφορίας Πολυµεσικά εδοµένα Ολοκλήρωση Τεχνικών Ανάκτησης και Βάσεων εδοµένων Οµότιµα Συστήµατα (P2P systems) Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 31

Περιεχόµενα ιαλέξεων Μοντέλα ανάκτησης πληροφορίας Προεπεξεργασία εγγράφων Αποτίµηση αποτελεσµατικότητας συστηµάτων Κατάλογοι για αποδοτική ανάκτηση Συµπίεση εγγράφων Επεξεργασία ερωτηµάτων Ανάδραση σχετικότητας Παράλληλη και κατανεµηµένη ανάκτηση Ανάκτηση πολυδιάστατων δεδοµένων Ανάκτηση πληροφορίας στον παγκόσµιο ιστό Ειδικά θέµατα Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 32

Συνέδρια Text Retrieval Conference (TREC) ACM Special Interest Group on Information Retrieval (SIGIR) Conference European Conference on Information Retrieval (ECIR) European Conference on Research and Advanced Technology for Digital Libraries (ECDL) Joint Conference on Digital Libraries (JCDL) ACM International Workshop on Multimedia Information Retrieval (MIR) International Symposium on Music Information Retrieval (ISMIR), και άλλα. Ακόµη, πολλά από τα µεγάλα συνέδρια που αναφέρονται στη διαχείριση δεδοµένων έχουν ειδικές συνεδρίες για την Ανάκτηση Πληροφορίας. Χαρακτηριστικά αναφέρουµε: ACM Conference on Information and Knowledge Management (CIKM) ACM Special Interest Group on Management of Data (SIGMOD) Conference International Conference on Very Large Databases (VLDB). Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 33

Περιοδικά Τέλος, αναφέρουµε και επιστηµονικά περιοδικά που εστιάζουν στην περιοχή: ACM Transactions on Information Systems Information Retrieval Information Processing and Management Information Systems International Journal on Digital Libraries, και άλλα. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 34

Βιβλιογραφία - βιβλία Manning, C.D. and Raghavan, P. and Schutze, H., An Introduction to Information Retrieval", Cambridge University Press, 2007. Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, Addison Wesley, 1999. Witten, I.H and Moffat, A. and Bell, T.C., Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999. Korfhage, R., Information Storage and Retrieval, John Wiley & Sons, 1997. Frakes, W.B. and Baeza-Yates (eds), Information Retrieval: Data Structures and Algorithms, Prentice Hall, Englewood Cliffs, NJ, 1992. van Rijsbergen, C.J., Information Retrieval, Butterworths, 1979. Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 35

Χρήσιµοι Ιστότοποι http://www-csli.stanford.edu/~hinrich/information-retrieval.html http://documents.cfar.umd.edu/resources/ir/ http://www.glue.umd.edu/~dlrg/clir/ http://www.daviddlewis.com/resources/ http://www.cs.umbc.edu/~crowder/pubs/ir.html http://www.google.com/top/computers/software/information_retrieval/ http://ir.dcs.gla.ac.uk/resources.html http://www.searchtools.com/info/info-retrieval.html Ανάκτηση Πληροφορίας Τµήµα Πληροφορικής ΑΠΘ 36