Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ανάκτηση πληροφορίας

Αυτοματοποιημένη χαρτογραφία

Ανάκτηση Πληροφορίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Συστήματα Αυτομάτου Ελέγχου. Ενότητα Α: Γραμμικά Συστήματα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Ανάκτηση Πληροφορίας

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Εισαγωγή στην Πληροφορική

Εισαγωγή στην Επιστήμη των Υπολογιστών

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Πληροφοριακά Συστήματα & Περιβάλλον Ασκήσεις

Βάσεις Δεδομένων Ενότητα 1

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Τεχνολογίες & Εφαρμογές Πληροφορικής Ενότητα 1: Εισαγωγικό Μάθημα

Βάσεις Περιβαλλοντικών Δεδομένων

Νέες Τεχνολογίες και Καλλιτεχνική Δημιουργία

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Συστήματα Πολυμέσων. Ενότητα 1: Εισαγωγικά Θέματα Πολυμέσων. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Ανάκτηση Πληροφορίας

Σχεδίαση με Ηλεκτρονικούς Υπολογιστές

Αυτοματοποιημένη χαρτογραφία

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

Σχεδίαση με Ηλεκτρονικούς Υπολογιστές

Εφαρμογή Υπολογιστικών Τεχνικών στην Γεωργία

CAD / CAM. Ενότητα #10: Βιομηχανικά Συστήματα Ελέγχου. Δημήτριος Τσελές Τμήμα Μηχανικών Αυτοματισμού T.E.

Ιστορία της μετάφρασης

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

TEC610 Δυναμικές Εφαρμογές Διαδικτύου (ΣΤ εξάμηνο)

Αρχιτεκτονική υπολογιστών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μεταγλωττιστές Ενότητα 1: Εισαγωγή

Ανάκτηση πληροφορίας

Ανοικτά Ψηφιακά Μαθήματα Η εμπειρία του ΠΑΜΑΚ

Διαγλωσσική μεταφορά και διαμεσολάβηση

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Τεχνολογία Πολυμέσων. Ενότητα # 2: Εφαρμογές πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Προχωρημένα Θέματα Προγραμματισμού Δικτύων

Ανάκτηση Πληροφορίας

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 8: MPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

Μαθησιακές δραστηριότητες με υπολογιστή

ΜΑΘΗΜΑ: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 7α: SQL (NULL, Διαίρεση) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Εισαγωγή στα πολυμέσα

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

Διδακτική Πληροφορικής

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

Εισαγωγή στην Επιστήμη των Υπολογιστών

Μαθησιακές δραστηριότητες με υπολογιστή

Βιομηχανικοί Ελεγκτές

Σχεδίαση με Ηλεκτρονικούς Υπόλογιστές

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση. Ευαγγελίδης Γεώργιος Τμήμα Εφαρμοσμένης Πληροφορικής

Αρχές Χρηματοοικονομικής

Εισαγωγή στα Πληροφοριακά Συστήματα

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Προγραμματισμός Ηλεκτρονικών Υπολογιστών 1

Εισαγωγή στους Αλγορίθμους

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 1: Εισαγωγή Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Διδακτική της Πληροφορικής

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 9: Πληροφοριακά Συστήματα Ορισμοί

Εισαγωγή στο Συγκριτικό Δίκαιο

Συστήματα Πολυμέσων. Ενότητα 16: Διαμορφώσεις και Πρότυπα Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής

Οργανωσιακή Συμπεριφορά Ενότητα 1: Η έννοια της οργάνωσης και διοίκησης

Εφαρμογή Υπολογιστικών Τεχνικών στην Γεωργία

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα: Εργαστηριακές Ασκήσεις. Καθηγήτρια: Ι.

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συστήματα Πληροφοριών Διοίκησης

Διδακτική Πληροφορικής

Επιχειρησιακός Σχεδιασμός & Επιχειρηματικότητα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Γνωστική Ψυχολογία 3

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Βιοϊατρική τεχνολογία

Λογιστικές Εφαρμογές Εργαστήριο

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 1η - Εισαγωγή

ΨΗΦΙΑΚΟΣ ΓΡΑΜΜΑΤΙΣΜΟΣ

Διδακτική Πληροφορικής

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

Εργαστήριο Σημασιολογικού Ιστού

Υπολογιστικά Συστήματα

Εισαγωγή στους Αλγορίθμους

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Transcript:

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1

Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Χθες και σήμερα Τα πρώτα διαθέσιμα συστήματα IR χρησιμοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων με βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγματοποιείται ανάκτηση με βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήμερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγμένα user interfaces, πιο γρήγορες μηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. 4

Ιστορική Ανασκόπηση 1960-70 s: Αρχική διερεύνηση συστημάτων ανάκτησης κειμένων για μικρές συλλογές περιλήψεων επιστημονικών άρθρων καθώς και νομικών και επιχειρηματικών κειμένων. Ανάπτυξη των βασικών μοντέλων ανάκτησης boolean και vector. Οι πρωτοπόροι ερευνητές της περιοχής είναι ο καθ. Salton και οι φοιτητές του στο Cornell University. 5

Ιστορική Ανασκόπηση 1980 s: Εμπορικά συστήματα μεγάλων συλλογών κειμένων χρησιμοποιούνται πλέον από εταιρείες: Lexis-Nexis έχει τη μεγαλύτερη ηλεκτρονική βάση νομικών και δημόσιων (public records) πληροφοριών στον κόσμο! Dialog ένας από τους πιο σοβαρούς προγόνους του World Wide Web ως παρόχου πληροφορίας MEDLINE Medical Literature Analysis and Retrieval System Online 6

Ιστορική Ανασκόπηση 1990 s: Αναζήτηση αρχείων μέσω FTP Archie WAIS Αναζήτηση ιστοσελίδων στο World Wide Web Lycos Yahoo Altavista Οργανωμένοι διαγωνισμοί συστημάτων NIST TREC Έμφαση στην αυτόματη κατηγοριοποίηση και ομαδοποίηση κειμένων 7

Ιστορική Ανασκόπηση 2000 s Ανάλυση συνδέσμων (link analysis) για αποδοτική αναζήτηση στο Web Google Αυτόματη εξαγωγή πληροφορίας Whizbang Fetch Burning Glass Απάντηση ερωτήσεων TREC Q/A track 8

Ιστορική Ανασκόπηση 2000 s: Πολυμεσική IR Εικόνα Βίντεο Ήχος και μουσική Διαγλωσσική (cross-language) IR DARPA TIDES (Translingual Information Detection, Extraction and Summarization) Αυτόματη περίληψη κειμένου και video (document/video summarization) 9

Σύγχρονες τάσεις Παγκόσμιος Ιστός Γεωγραφική Ανάκτηση Πληροφορίας Πολυμεσικά Δεδομένα Ολοκλήρωση Τεχνικών Ανάκτησης και Βάσεων Δεδομένων Ομότιμα Συστήματα (P2P systems) 10

Web και Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας είναι πλέον πολύ φτηνή. Η προσπέλαση στις πηγές πληροφορίας πραγματοποιείται γρηγορότερα και χωρίς γεωγραφικούς περιορισμούς. Η ελευθερία στη δημοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του Web με εκρηκτικούς ρυθμούς. 11

Θεμελιώδη ερωτήματα 1. Στο δυναμικό κόσμο του Web και των ψηφιακών βιβλιοθηκών ποιες τεχνικές θα επιτρέψουν ανάκτηση υψηλότερης ποιότητας? 2. Στην ολοένα αυξανόμενη πληροφορία και πρόσβαση σε αυτή, ποιες τεχνικές θα επιτρέψουν μικρότερους χρόνους απόκρισης? 12

Θεμελιώδεις Ερωτήσεις 3. Πώς μπορεί να βοηθήσει η κατανόηση της συμπεριφοράς ή/και των ενδιαφερόντων του χρήστη στη δημιουργία πιο αποδοτικών συστημάτων? 13

Διεπιστημονικότητα Η περιοχή της Ανάκτησης Πληροφορίας έχει πολλά κοινά με άλλες, διακριτές επιστημονικές περιοχές. Όπως είναι αναμενόμενο, οι περιοχές αυτές εξελίσσονταν για πολλά χρόνια παράλληλα και έτσι η κάθε μία έχει αναπτύξει διαφορετικές τεχνικές 14

Σχετικές Επιστημονικές Περιοχές 1. Διαχείριση βάσεων δεδομένων 2. Βιβλιοθηκονομία και πληροφορική 3. Τεχνητή νοημοσύνη 4. Επεξεργασία φυσικής γλώσσας 5. Μηχανική μάθηση 15

1. Διαχείριση Βάσεων Δεδομένων Εστιάζει στην αποθήκευση δομημένων δεδομένων σε σχεσιακούς πίνακες παρά σε κείμενο ελεύθερης μορφής. Εστιάζει σε αποτελεσματική επεξεργασία καλά ορισμένων ερωτημάτων σε μία τυπική γλώσσα (SQL). Ξεκάθαρη σημασιολογία και για τα δεδομένα και για τα ερωτήματα. Η πρόσφατη στροφή σε επεξεργασία ημιδομημένων δεδομένων (XML) την φέρνει πιο κοντά στη IR. 16

1. Διαχείριση Βάσεων Δεδομένων Συστήματα Διαχ. Βασ. Δεδ. Συστήματα Αν. Πληρ. 17

1. Διαχείριση Βάσεων Δεδομένων 18

1. Διαχείριση Βάσεων Δεδομένων 19

2. Βιβλιοθηκονομία και Πληροφορική Εστιάζει στον άνθρωπο-χρήστη στη διαδικασία ανάκτησης πληροφορίας (επικοινωνία ανθρώπου-μηχανής, διεπαφή χρήστη, οπτικοποίηση αποτελεσμάτων) Ασχολείται με την αποδοτική κατηγοριοποίηση της ανθρώπινης γνώσης. Ασχολείται με την ανάλυση αναφορών και βιλβλιομετρικών (δομή της πληροφορίας). Πρόσφατη έρευνα στο χώρο των ψηφιακών βιβλιοθηκών την φέρνει πιο κοντά στη IR. 20

3. Τεχνητή Νοημοσύνη Εστιάζει στην αναπαράσταση της γνώσης, στο συλλογισμό και στην ευφυή δράση. Φορμαλισμοί αναπαράστασης γνώσης και ερωτήσεων: First-order Predicate Logic Bayesian Networks Πρόσφατη έρευνα στις οντολογίες web και στους ευφυείς πράκτορες (intelligent agents) την φέρνουν πιο κοντά στη IR. 21

4. Επεξεργασία Φυσικής Γλώσσας Εστιάζει στην συντακτική, σημασιολογική και πραγματολογική ανάλυση κειμένων και διαλόγων σε φυσική γλώσσα. Η ικανότητα ανάλυσης της σύνταξης και της σημασιολογίας επιτρέπει ανάκτηση βάσει νοήματος. Βασικές κατευθύνσεις έρευνας που σχετίζονται με IR: Μέθοδοι αποσαφήνισης της έννοιας αμφίσημων λέξεων (word sense disambiguation) βάσει των συμφραζομένων (context). Μέθοδοι αναγνώρισης συγκεκριμένων τμημάτων πληροφορίας σε ένα κείμενο (information extraction). Μέθοδοι απάντησης συγκεκριμένων ερωτήσεων σε φυσική γλώσσα από μία συλλογή κειμένων. 22

5. Μηχανική Μάθηση Εστιάζει στην ανάπτυξη υπολογιστικών συστημάτων που βελτιώνουν την επίδοσή τους με την εμπειρία. Αυτόματη ταξινόμηση αντικειμένων υπό δεδομένες κατηγορίες βάσει εκμάθησης από παραδείγματα εκπαίδευσης (supervised learning). Αυτόματη ομαδοποίηση παρόμοιων αντικειμένων σε ομάδες (unsupervised learning). 23

5. Μηχανική Μάθηση και IR Κατηγοριοποίηση κειμένων Αυτόματη ιεραρχική ταξινόμηση (Yahoo) Προσαρμοζόμενο φιλτράρισμα/δρομολόγηση πληροφορίας Ομαδοποίηση κειμένων (text clustering) Ομαδοποίηση αποτελεσμάτων IR Αυτόματος σχηματισμός ιεραρχιών (Yahoo) Εξόρυξη κειμένων (text mining) 24

Ερωτήσεις - Απορίες 25