Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1
Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Χθες και σήμερα Τα πρώτα διαθέσιμα συστήματα IR χρησιμοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων με βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγματοποιείται ανάκτηση με βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήμερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγμένα user interfaces, πιο γρήγορες μηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. 4
Ιστορική Ανασκόπηση 1960-70 s: Αρχική διερεύνηση συστημάτων ανάκτησης κειμένων για μικρές συλλογές περιλήψεων επιστημονικών άρθρων καθώς και νομικών και επιχειρηματικών κειμένων. Ανάπτυξη των βασικών μοντέλων ανάκτησης boolean και vector. Οι πρωτοπόροι ερευνητές της περιοχής είναι ο καθ. Salton και οι φοιτητές του στο Cornell University. 5
Ιστορική Ανασκόπηση 1980 s: Εμπορικά συστήματα μεγάλων συλλογών κειμένων χρησιμοποιούνται πλέον από εταιρείες: Lexis-Nexis έχει τη μεγαλύτερη ηλεκτρονική βάση νομικών και δημόσιων (public records) πληροφοριών στον κόσμο! Dialog ένας από τους πιο σοβαρούς προγόνους του World Wide Web ως παρόχου πληροφορίας MEDLINE Medical Literature Analysis and Retrieval System Online 6
Ιστορική Ανασκόπηση 1990 s: Αναζήτηση αρχείων μέσω FTP Archie WAIS Αναζήτηση ιστοσελίδων στο World Wide Web Lycos Yahoo Altavista Οργανωμένοι διαγωνισμοί συστημάτων NIST TREC Έμφαση στην αυτόματη κατηγοριοποίηση και ομαδοποίηση κειμένων 7
Ιστορική Ανασκόπηση 2000 s Ανάλυση συνδέσμων (link analysis) για αποδοτική αναζήτηση στο Web Google Αυτόματη εξαγωγή πληροφορίας Whizbang Fetch Burning Glass Απάντηση ερωτήσεων TREC Q/A track 8
Ιστορική Ανασκόπηση 2000 s: Πολυμεσική IR Εικόνα Βίντεο Ήχος και μουσική Διαγλωσσική (cross-language) IR DARPA TIDES (Translingual Information Detection, Extraction and Summarization) Αυτόματη περίληψη κειμένου και video (document/video summarization) 9
Σύγχρονες τάσεις Παγκόσμιος Ιστός Γεωγραφική Ανάκτηση Πληροφορίας Πολυμεσικά Δεδομένα Ολοκλήρωση Τεχνικών Ανάκτησης και Βάσεων Δεδομένων Ομότιμα Συστήματα (P2P systems) 10
Web και Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας είναι πλέον πολύ φτηνή. Η προσπέλαση στις πηγές πληροφορίας πραγματοποιείται γρηγορότερα και χωρίς γεωγραφικούς περιορισμούς. Η ελευθερία στη δημοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του Web με εκρηκτικούς ρυθμούς. 11
Θεμελιώδη ερωτήματα 1. Στο δυναμικό κόσμο του Web και των ψηφιακών βιβλιοθηκών ποιες τεχνικές θα επιτρέψουν ανάκτηση υψηλότερης ποιότητας? 2. Στην ολοένα αυξανόμενη πληροφορία και πρόσβαση σε αυτή, ποιες τεχνικές θα επιτρέψουν μικρότερους χρόνους απόκρισης? 12
Θεμελιώδεις Ερωτήσεις 3. Πώς μπορεί να βοηθήσει η κατανόηση της συμπεριφοράς ή/και των ενδιαφερόντων του χρήστη στη δημιουργία πιο αποδοτικών συστημάτων? 13
Διεπιστημονικότητα Η περιοχή της Ανάκτησης Πληροφορίας έχει πολλά κοινά με άλλες, διακριτές επιστημονικές περιοχές. Όπως είναι αναμενόμενο, οι περιοχές αυτές εξελίσσονταν για πολλά χρόνια παράλληλα και έτσι η κάθε μία έχει αναπτύξει διαφορετικές τεχνικές 14
Σχετικές Επιστημονικές Περιοχές 1. Διαχείριση βάσεων δεδομένων 2. Βιβλιοθηκονομία και πληροφορική 3. Τεχνητή νοημοσύνη 4. Επεξεργασία φυσικής γλώσσας 5. Μηχανική μάθηση 15
1. Διαχείριση Βάσεων Δεδομένων Εστιάζει στην αποθήκευση δομημένων δεδομένων σε σχεσιακούς πίνακες παρά σε κείμενο ελεύθερης μορφής. Εστιάζει σε αποτελεσματική επεξεργασία καλά ορισμένων ερωτημάτων σε μία τυπική γλώσσα (SQL). Ξεκάθαρη σημασιολογία και για τα δεδομένα και για τα ερωτήματα. Η πρόσφατη στροφή σε επεξεργασία ημιδομημένων δεδομένων (XML) την φέρνει πιο κοντά στη IR. 16
1. Διαχείριση Βάσεων Δεδομένων Συστήματα Διαχ. Βασ. Δεδ. Συστήματα Αν. Πληρ. 17
1. Διαχείριση Βάσεων Δεδομένων 18
1. Διαχείριση Βάσεων Δεδομένων 19
2. Βιβλιοθηκονομία και Πληροφορική Εστιάζει στον άνθρωπο-χρήστη στη διαδικασία ανάκτησης πληροφορίας (επικοινωνία ανθρώπου-μηχανής, διεπαφή χρήστη, οπτικοποίηση αποτελεσμάτων) Ασχολείται με την αποδοτική κατηγοριοποίηση της ανθρώπινης γνώσης. Ασχολείται με την ανάλυση αναφορών και βιλβλιομετρικών (δομή της πληροφορίας). Πρόσφατη έρευνα στο χώρο των ψηφιακών βιβλιοθηκών την φέρνει πιο κοντά στη IR. 20
3. Τεχνητή Νοημοσύνη Εστιάζει στην αναπαράσταση της γνώσης, στο συλλογισμό και στην ευφυή δράση. Φορμαλισμοί αναπαράστασης γνώσης και ερωτήσεων: First-order Predicate Logic Bayesian Networks Πρόσφατη έρευνα στις οντολογίες web και στους ευφυείς πράκτορες (intelligent agents) την φέρνουν πιο κοντά στη IR. 21
4. Επεξεργασία Φυσικής Γλώσσας Εστιάζει στην συντακτική, σημασιολογική και πραγματολογική ανάλυση κειμένων και διαλόγων σε φυσική γλώσσα. Η ικανότητα ανάλυσης της σύνταξης και της σημασιολογίας επιτρέπει ανάκτηση βάσει νοήματος. Βασικές κατευθύνσεις έρευνας που σχετίζονται με IR: Μέθοδοι αποσαφήνισης της έννοιας αμφίσημων λέξεων (word sense disambiguation) βάσει των συμφραζομένων (context). Μέθοδοι αναγνώρισης συγκεκριμένων τμημάτων πληροφορίας σε ένα κείμενο (information extraction). Μέθοδοι απάντησης συγκεκριμένων ερωτήσεων σε φυσική γλώσσα από μία συλλογή κειμένων. 22
5. Μηχανική Μάθηση Εστιάζει στην ανάπτυξη υπολογιστικών συστημάτων που βελτιώνουν την επίδοσή τους με την εμπειρία. Αυτόματη ταξινόμηση αντικειμένων υπό δεδομένες κατηγορίες βάσει εκμάθησης από παραδείγματα εκπαίδευσης (supervised learning). Αυτόματη ομαδοποίηση παρόμοιων αντικειμένων σε ομάδες (unsupervised learning). 23
5. Μηχανική Μάθηση και IR Κατηγοριοποίηση κειμένων Αυτόματη ιεραρχική ταξινόμηση (Yahoo) Προσαρμοζόμενο φιλτράρισμα/δρομολόγηση πληροφορίας Ομαδοποίηση κειμένων (text clustering) Ομαδοποίηση αποτελεσμάτων IR Αυτόματος σχηματισμός ιεραρχιών (Yahoo) Εξόρυξη κειμένων (text mining) 24
Ερωτήσεις - Απορίες 25