Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Αυτοματοποιημένη χαρτογραφία

Ανάκτηση πληροφορίας

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Εισαγωγή. CS 463: Information Retrieval Systems. Yannis Tzitzikas. University of Crete. Spring 05. Lecture : 1 Date :

Ανάκτηση Πληροφορίας

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Ανάκτηση Πληροφορίας

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Social Web: lesson #4

ECDL Module 5 Χρήση Βάσεων εδοµένων Εξεταστέα Ύλη, έκδοση 5.0 (Syllabus Version 5.0)

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Κειµένων. Προεπεξεργασία Clustering Συµπίεση

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ανάκτηση πληροφορίας

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

Information Retrieval

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems)

Π ΨΗΦΙΑΚΗ ΜΟΥΣΙΚΗ ΒΙΒΛΙΟΘΗΚΗ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Springer Book Series, Springer Science + Business Media

Φορολογική Βιβλιοθήκη. Θανάσης Φώτης Προγραμματιστής Εφαρμογών

Βάσεις εδοµένων & Πολυµέσα

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

Ενότητα 5 Βάσεις Δεδομένων

Computer & Applied Sciences Complete ΟΔΗΓΟΣ ΧΡΗΣΗΣ

EBSCOhost Research Databases

Microsoft ACCESS ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Κατανόηση Βάσεων. 2 Χρήση της Εφαρμογής

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

SilverPlatter WebSPIRS 4.1.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Βάσεις Δεδομένων (Using Databases)

ΒΙΒΛΙΟΘΗΚΗ ΣΕΥΠ Γκουν Γκ ταβά τ Ε.

Tεχνολογίες της Πληροφορίας. Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 1

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

7.11 Πρωτόκολλα εφαρµογής

Εργαστήριο Βάσεων εδοµένων. Άσκηση 2. Η βάση βιβλιοθήκη περιλαµβάνει πληροφορίες για τα βιβλία, τους συγγραφείς και τους εκδοτικούς οίκους.

Διαχείριση Πολιτισμικών Δεδομένων

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Βάσεις Δεδομένων Ενότητα 1

Ανάκτηση Πληροφορίας

Βάσεις εδοµένων. Βασίλειος Βεσκούκης, Εµµ. Στεφανάκης ΣΥΣΤΗΜΑΤΑ ΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Εξεταστέα Ύλη (Syllabus) Έκδοση 5.0

Information Technology for Business

Ανάκτηση Πληροφορίας

Διαχείριση Δεδομένων

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Ανάκτηση Πληροφορίας

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εισαγωγή στη Δασική Πληροφορική

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

1 Εισαγωγή στην Πληροφορική

Το εσωτερικό ενός Σ Β

Ολοκληρωμένου Περιβάλλοντος Βιβλιοθήκης ως Υπηρεσίας ILSaS

Σχεδιασμός Βάσεων Δεδομένων

IBM DB2, Microsoft SQL Server. Εαρινό Εξάμηνο

Σύστημα Παροχής Πληροφοριών κατ Απαίτηση από Ετερογενείς Πηγές Πληροφορίας στο Διαδίκτυο

Συστήματα. βάση την εικόνα. Συγγραφέας: Κουταλά Ματίνα Καθηγητής: Στυλιαράς Γιώργος ΓΤΠ61 ΠΛΗΡΟΦΟΡΙΚΗ-ΠΟΛΥΜΕΣΑ ΕΑΠ

Συστήματα πανταχού παρόντος υπολογιστή σε περιβάλλοντα υβριδικών βιβλιοθηκών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Προσοχή: Αν επιχειρείτε να χρησιμοποιήσετε για πρώτη φορά το σύστημα, ακολουθείστε τις οδηγίες εγκατάστασης.

Η επεξεργασία του υλικού στην υβριδική υπηρεσία πληροφόρησης: παράλληλη χρήση των εργαλείων

Transcript:

Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η έκδοση(μάιος, 1999) ~50 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2 ιδακτικό βοήθηµα 2 Καλύπτει το 30% του 290 σελίδες 1η έκδοση(μάιος, 2003) ~75 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3 1

ιδακτικό βοήθηµα 3 Καλύπτει το 10% του 520 σελίδες 2η έκδοση(μάιος, 1999) ~70 Αναλυτικότατο & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4 ιδακτικό βοήθηµα 4 Καλύπτει το 10% του 350 σελίδες 1η έκδοση(μάιος, 1999) ~60 Paper-like µορφή Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5 ιδακτικό βοήθηµα 5 Καλύπτει το 5% του 250 σελίδες 1η έκδοση(σεπτέµβριος, 2003) ~60 Ανεξάρτητα κεφάλαια Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6 2

Αντικείµενο IR Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7 Ανάκτηση Πληροφορίας & Ανάκτηση εδοµένων Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 τη βραδιά. (σαφές ερώτηµα) Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR. (ασαφές ερώτηµα) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8 Σύγκριση DR IR Matching Exact Partial, best Items wanted Matching Relevant Queries Precise Imprecise Information Data, numeric Nat. Lang. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9 3

Στόχος Συστήµατος IR Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη. Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance). Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10 Σύστηµα IR Κείµενα Index Terms (keywords) κείµενο Αίτηση για Πληροφορία ταίριασµα Βαθµ/ση ερώτηµα Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11 Λειτουργίες IR Ανάκτηση (Retrieval) Η δυνατότητα εύρεσης πληροφορίας σχετική µε την ερώτηση του χρήστη. Αναζήτηση (Browsing) Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12 4

Λογική Όψη Κειµένων (Logical View) 1. Πλήρες κείµενο 2. Απαλοιφή άρθρων και συνδέσµων 3. Απαλοιφή επιθέτων, ρηµάτων, κλπ. 4. Άλλοι µετασχηµατισµοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13 Πλήρες Κείµενο -> > Keywords document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14 ιαδικασία IR user need User Interface Text Operations Text Text user feedback logical view Query Operations query logical view Indexing inverted file DB Manager Module Searching Index retrieved docs ranked docs Ranking Text Database Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15 5

Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16 WWW + Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο. Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα. Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17 Ερώτηµα 1 Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί. Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18 6

Ερώτηµα 2 Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική. Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19 Ερώτηµα 3 Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη συστήµατος. Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20 7