Ανάκτηση Πληροφορίας (Information Retrieval IR)

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Αυτοματοποιημένη χαρτογραφία

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Ανάκτηση πληροφορίας

Social Web: lesson #4

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

ECDL Module 5 Χρήση Βάσεων εδοµένων Εξεταστέα Ύλη, έκδοση 5.0 (Syllabus Version 5.0)

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Εισαγωγή. CS 463: Information Retrieval Systems. Yannis Tzitzikas. University of Crete. Spring 05. Lecture : 1 Date :

Ανάκτηση Πληροφορίας

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Ανάκτηση Πληροφορίας

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Springer Book Series, Springer Science + Business Media

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Κειµένων. Προεπεξεργασία Clustering Συµπίεση

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ανάκτηση πληροφορίας

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

Information Retrieval

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

EBSCOhost Research Databases

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Εργαστήριο Βάσεων εδοµένων. Άσκηση 2. Η βάση βιβλιοθήκη περιλαµβάνει πληροφορίες για τα βιβλία, τους συγγραφείς και τους εκδοτικούς οίκους.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems)

Π ΨΗΦΙΑΚΗ ΜΟΥΣΙΚΗ ΒΙΒΛΙΟΘΗΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΒΙΒΛΙΟΘΗΚΗ ΣΕΥΠ Γκουν Γκ ταβά τ Ε.

Βάσεις Δεδομένων (Using Databases)

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Φορολογική Βιβλιοθήκη. Θανάσης Φώτης Προγραμματιστής Εφαρμογών

Βάσεις εδοµένων & Πολυµέσα

Το µάθηµα Ηλεκτρονική ηµοσίευση

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

Ενότητα 5 Βάσεις Δεδομένων

Computer & Applied Sciences Complete ΟΔΗΓΟΣ ΧΡΗΣΗΣ

Ανάκτηση Πληροφορίας

Microsoft ACCESS ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Κατανόηση Βάσεων. 2 Χρήση της Εφαρμογής

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

SilverPlatter WebSPIRS 4.1.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Tεχνολογίες της Πληροφορίας. Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 1

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

7.11 Πρωτόκολλα εφαρµογής

Διαχείριση Πολιτισμικών Δεδομένων

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Βάσεις Δεδομένων Ενότητα 1

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Το µάθηµα Ψηφιακές Βιβλιοθήκες

Βάσεις εδοµένων. Βασίλειος Βεσκούκης, Εµµ. Στεφανάκης ΣΥΣΤΗΜΑΤΑ ΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Το εσωτερικό ενός Σ Β

Εξεταστέα Ύλη (Syllabus) Έκδοση 5.0

Information Technology for Business

Ανάκτηση Πληροφορίας

Διαχείριση Δεδομένων

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Ανάκτηση Πληροφορίας

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΩΝ

ΒΙΒΛΙΟΘΗΚΗ Γ Κ Ο Υ Ν Τ Α Β Α Ε.

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εισαγωγή στη Δασική Πληροφορική

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

1 Εισαγωγή στην Πληροφορική

Γιάννης Θεοδωρίδης. Εργαστήριο Πληροφοριακών Συστηµάτων.

Ολοκληρωμένου Περιβάλλοντος Βιβλιοθήκης ως Υπηρεσίας ILSaS

Σχεδιασμός Βάσεων Δεδομένων

IBM DB2, Microsoft SQL Server. Εαρινό Εξάμηνο

Transcript:

Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006

ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου του µαθήµατος Είναι στην αγγλική 510 σελίδες 1η έκδοση (Μάιος, 1999) ~50 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2

ιδακτικό βοήθηµα 2 Καλύπτει το 30% του αντικειµένου του µαθήµατος Είναι στην αγγλική 290 σελίδες 1η έκδοση (Μάιος, 2003) ~75 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3

ιδακτικό βοήθηµα 3 Καλύπτει το 10% του αντικειµένου του µαθήµατος Είναι στην αγγλική 520 σελίδες 2η έκδοση (Μάιος, 1999) ~70 Αναλυτικότατο & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4

ιδακτικό βοήθηµα 4 Καλύπτει το 10% του αντικειµένου του µαθήµατος Είναι στην αγγλική 350 σελίδες 1η έκδοση (Μάιος, 1999) ~60 Paper-like µορφή Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5

ιδακτικό βοήθηµα 5 Καλύπτει το 5% του αντικειµένου του µαθήµατος Είναι στην αγγλική 250 σελίδες 1η έκδοση (Σεπτέµβριος, 2003) ~60 Ανεξάρτητα κεφάλαια Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6

Αντικείµενο IR Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7

Ανάκτηση Πληροφορίας & Ανάκτηση εδοµένων Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 τη βραδιά. (σαφές ερώτηµα) Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR. (ασαφές ερώτηµα) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8

Σύγκριση DR IR Matching Exact Partial, best Items wanted Matching Relevant Queries Precise Imprecise Information Data, numeric Nat. Lang. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9

Στόχος Συστήµατος IR Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη. Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance). Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10

Σύστηµα IR Κείµενα Index Terms (keywords) κείµενο Αίτηση για Πληροφορία ταίριασµα Βαθµ/ση ερώτηµα Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11

Λειτουργίες IR Ανάκτηση (Retrieval) Η δυνατότητα εύρεσης πληροφορίας σχετική µε την ερώτηση του χρήστη. Αναζήτηση (Browsing) Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12

Λογική Όψη Κειµένων 1. Πλήρες κείµενο (Logical View) 2. Απαλοιφή άρθρων και συνδέσµων 3. Απαλοιφή επιθέτων, ρηµάτων, κλπ. 4. Άλλοι µετασχηµατισµοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13

Πλήρες Κείµενο -> > Keywords document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14

ιαδικασία IR user need User Interface Text Operations Text Text logical view logical view user feedback Query Operations Indexing DB Manager Module query inverted file Searching Index retrieved docs ranked docs Ranking Text Database Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15

Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16

WWW + Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο. Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα. Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17

Ερώτηµα 1 Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί. Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18

Ερώτηµα 2 Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική. Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19

Ερώτηµα 3 Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη συστήµατος. Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20