HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems) & IR

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems) & IR"

Transcript

1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems) Γιάννης Τζίτζικας ιάλεξη : Ημερομηνία : & IR CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Τι διαφέρει η Ανάκτηση σε P2P συστήματα από την Κατανεμημένη Ανάκτηση; Η ανάκτηση πληροροφιών σε συστήματα ομοτίμων είναι μια περίπτωση κατανεμημένης ανάκτησης Ιδιαιτερότητες των ομότιμων συστημάτων: Υπερβολικά μεγάλος αριθμός πηγών (peers) Μεγαλύτερη αυτονομία πηγών Έλλειψη Σταθερότητας, Ελέγχου, Προβλεψιμότητας (not stable, controllable, unpredictable) Επιτακτική ανάγκη για μείωση του κόστους επικοινωνίας CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

2 Αρχιτεκτονικές Ομότιμων Συστημάτων 1: register (user, files) Napster server 2: lookup (x) 3: peer 1 has x peer 1 peer 2 4: download docx.mp3 q Gnutella-style Napster-style Napster-style Napster-style CAN (Content Addressable Network) Chord (Distributed Hash Table -DHT) CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P2P and IR: Περίπτωση: Kατηγοριοποιημένα Έγγραφα Έστω ότι κάθε έγγραφο είναι ταξινομημένο σε μια κατηγορία ενός ελεγχόμενου ευρετηρίου (ODP, Yahoo!). Ο χρήστης κάνει αναζήτηση δίνοντας μια κατηγορία έγγραφο mp3 αρχείο κατηγορία εγγράφου τίτλος του mp3 αρχείου Άρα μπορούμε να φτιάξουμε ένα ομότιμο σύστημα τύπου Napster (Hybrid P2P) τύπου Gnutella (Pure P2P) τύπου Κazaa (Hierarchical P2P) τύπου Freenet (Structured P2P) τύπου Chord (Structured P2P) τύπου CAN (Structured P2P) Βέβαια έτσι θα μπορούμε να κάνουμε ανάκτηση μόνο βάσει του τίτλου (και όχι βάσει του περιεχομένου). CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

3 P2P and Statistical IR Τυπικό Ευρετήριο P2P Τυπικό Ευρετήριο IRS (document partitioning) p k d Singing in the Rain SR.mp «Υπάρχω» stelios.mp Singing in the Rain SingRain.mp3 P1 cold <5,1> cold <4,1> hot <5,1> <6,1> hot <4,1> in <6,1> in cold <3,1> <2,1> not not <5,1> <4,1> hot <1,1> pease pease <5,2> <6,1> <3,1> <4,2> pease <1,1> <2,1> porridge <3,1> <4,2> porridge <5,2> <6,1> porridge <1,1> <2,1> pot <3,1> pot <6,1> the <3,1> the <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P2 P3 P2P and Statistical IR Τυπικό Ευρετήριο P2P Τυπικό Ευρετήριο IRS (term partitioning) p k d Singing in the Rain SR.mp «Υπάρχω» stelios.mp Singing in the Rain SingRain.mp3 cold <2,1> <4,1> <5,1> P1 hot <1,1> <4,1> <5,1> <6,1> in <3,1> <6,1> not <4,1> <5,1> P2 pease <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> porridge <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> pot <3,1> <6,1> P3 the <3,1> <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

4 P2P and IR: Ανεστραμμένα Ευρετήρια (Napster-style) Ένας κεντρικός εξυπηρετητής αποθηκεύει όλα τα ανεστραμμένα ευρετήρια των κόμβων (1) (2) (3) (4) Napster server 1: register (user, files) Global Index 2: lookup (x) 3: peer 1 has x peer 1 peer 2 (1) 4: download docx.mp3 αδυναμίες: o εξυπηρετητής χρειάζεται πολύ χώρο χρονοβόρο upload των ευρετηρίων στον εξυπηρετητή, το κόστος αποτίμησης επερωτήσεων πάει εξ ολοκλήρου στον εξυπηρετητή Google, χωρίς το crawling (συλλογή σελίδων) και έχοντας έτοιμα κομμάτια του ευρετηρίου CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P2P and IR: (Gnutella-style) Κάθε κόμβος συντηρεί το ανεστραμμένο ευρετήριο των εγγράφων του. Αποτίμηση επερωτήσεων με κατακλυσμό μηνυμάτων Local Invert. Local IndexInvert. Index Αδυναμίες πολλά μηνύματα IDF =? CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

5 P2P and IR: (Gnutella-style) Παραλλαγές του Kατακλυσμού μηνυμάτων BFS: Breadth First Search (=Gnutella) RBFS: κάθε κόμβος προωθεί ένα μήνυμα σε ένα τυχαίο ποσοστό (π.χ. 20%) των γνωστών του κόμβων + πιθανοκρατικός αλγόριθμος - μπορεί το μήνυμα να μην πάει σε κόμβους που έχουν συναφή αντικείμενα 1-Random Walker: κάθε κόμβος προωθεί ένα μήνυμα σε έναν τυχαία επιλεγμένο κόμβο από τους γνωστούς του k-random Walkers: κάθε κόμβος προωθεί ένα μήνυμα σε κ τυχαία επιλεγμένους κόμβους από τους γνωστούς του + λιγότερα μηνύματα από το RDFS CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P2P and IR (Freenet-style) Κάθε κόμβος: (α) συντηρεί το ανεστραμμένο ευρετήριο των εγγράφων του. (β) φτιάχνει ένα προφίλ των γειτόνων του βασισμένο στις επερωτήσεις του παρελθόντος (γ) έχει μια φόρμουλα βαθμολόγησης κόμβων που τη χρησιμοποιεί για επιλεκτική δρομολόγηση Local Invert. Local IndexInvert. Index CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Local Invert Index

6 P2P and IR (Freenet-style) Local Invert. Local IndexInvert. Index CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Προφίλ Γειτόνων βάσει των προηγούμενων απαντήσεων p q ans(q) Singing in the Rain «Υπάρχω» One U2One.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 LRU (Least Recently Used) deletion policy Το προφίλ είναι τριάδες της μορφής (pj,q, ans(pj,q) ) όπου pj ένας γείτονας, q μια επερώτηση που απήντησε αυτός ο γείτονας, και ans(pj,q) το μέγεθος της απάντησης LRU update policy CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

7 Προφίλ Γειτόνων και Δρομολόγηση: >RES (περισσότερα αποτελέσματα) p q ans(q) Singing in the Rain «Υπάρχω» One U2One.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 Σκορ( )=16 Σκορ( )=8 Για την δρομολόγηση μιας επερώτησης επιλέγονται εκείνοι οι γείτονες που έχουν δώσει τα περισσότερα αποτελέσματα στο παρελθόν ( εξ ου και το όνομα >RES). Συγκεκριμένα στις προηγούμενες m επερωτήσεις. Το σκορ ενός γείτονα pj είναι Score(pj) = Σ { ans(pj,qj) qj answered by pj in the past} CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Προφίλ Γειτόνων και Δρομολόγηση: >RES και ομοιότητα επερωτήσεων p q ans(q) Singing in the Rain «Υπάρχω» One U2One.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 Για την δρομολόγηση μιας επερώτησης q επιλέγονται εκείνοι οι γείτονες που έχoυν δώσει τα περισσότερα αποτελέσματα στο παρελθόν ( >RES) σε επερωτήσεις που είναι κοντινές με το q CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

8 Προφίλ Γειτόνων και Δρομολόγηση: >RES και ομοιότητα επερωτήσεων Το σκορ ενός γείτονα pj δοθείσας επερώτησης q, είναι: >RES Score(pj) = Σ { ans(pj,qj) qj answered by pj in the past} >RES και ομοιότητα επερωτήσεων Score(pj,q) = Σ { ans(pj,qj) *sim(qj, q) α qj answered by pj in the past} sim(qj, q): Π.χ. ομοιότητα συνημίτονου α: παράμετρος για το καθορισμό της σπουδαιότητας μεταξύ συνάφειας και μεγέθους απάντησης CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Προφίλ Γειτόνων και Δρομολόγηση: >RES και ομοιότητα επερωτήσεων p q ans(q) Singing in the Rain «Υπάρχω» One U2One.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 q1 =Singing q2 = Special Dog Song Πότε αυτή η προσέγγιση είναι καλή; Απ: Όταν τα έγγραφα του κάθε κόμβου είναι σημασιολογικά κοντινά Ποια η διαφορά με το Freenet? Επειδή αυτό όμως δεν συμβαίνει πάντα η επερώτηση προωθείται και σε έναν τυχαία επιλεγμένο γείτονα. // αυτό επίσης συμβάλει στην καλή εκκίνηση του συστήματος CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

9 Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα (Kazaa-style IR) Γενική Ιδέα: Κάνουμε ό,τι και στην κατανεμημένη, απλά εδώ έχουμε πολλούς μεσίτες Κάθε μεσίτης (εδώ super-peer) έχει μια περιγραφή των περιεχομένων των υποκείμενων κόμβων Επιλογή Πηγής Ενοποίηση Αποτελεσμάτων Hubs Leaf nodes CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη: Επιλογή Πηγής με Διανύσματα Πηγών IRS1=<0.4, 0.3,, 0.8> IRS2=<0.1, 0.9,, 0.4> IRS3=<0.8, 0.5,, 0.2> IRS1 IRS2 IRS3 IRS4 IRS5 Βλέπουμε κάθε συλλογή ως ένα μεγάλο έγγραφο Φτιάχνουμε ένα διάνυσμα για κάθε συλλογή (τύπου TF-IDF) tfij: συνολικές εμφανίσεις του όρου i στη συλλογή j idfi: log(n/ni), όπου Ν το πλήθος των συλλογών, και ni το πλήθος των συλλογών που έχουν τον όρο i Υπολογίζουμε το βαθμό ομοιότητας κάθε νέας επερώτησης με το διάνυσμα κάθε συλλογής (π.χ. ομοιότητα συνημίτονου) Διατάσσουμε τις συλλογές και επιλέγουμε τις κορυφαίες Εναλλακτικά: Αντί για ένα, μπορούμε να περιγράφουμε κάθε πηγή με Κ διανύσματα CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

10 Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα (Kazaa-style IR) Περιγραφή των περιεχομένων των φύλλων Ανάγκη για μείωση του αποθηκευτικού χώρου στα Hubs???? Hubs Leaf nodes CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα Επιλογές 1/ Λεξιλόγια των υποκείμενων κόμβων + συχνότητες εμφάνισης τους (δεν ξέρουμε το καθολικό λεξιλόγιο για να φτιάξουμε το διάνυσμα πηγής)? 2/ Λεξιλόγια των υποκείμενων κόμβων 3/ Λέξεις που εμφανίζονται πάνω από 1 φορά + συχνότητες τους λόγω του νόμου του Ziph, οαπαιτούμενος αποθηκευτικός χώρος μειώνεται στο μισό CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

11 Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα (Kazaa-style IR) Περιγραφή των περιεχομένων των άλλων Hub? HUBS Desr? Leaves Descr. Leaves Descr. Leaves Descr. Leaves Descr. Hubs Leaf nodes ΗπεριγραφήενόςHUB είναι η ένωση των περιγραφών των υποκείμενων του κόμβων (Πρόβλημα: χώρος) Καταγραφή προηγούμενων επερωτήσεων που έχουν απαντηθεί π.χ. >RES και ομοιότητα επερώτησης CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα A Client node sends its query to each of its connecting hubs. A hub that receives the query uses its resource selection algorithm to rank and select one or more neighboring leaf nodes as well as hubs, and routes the query to them if the message s TTL hasn t reached 0. A leaf node that receives the query message uses its document retrieval algorithm to generate a relevance ranking of its documents and responds with a queryhit message to include a list of top-ranked documents. Each top-level hub (the hub that connects directly to the client node that issues the request) collects the queryhit messages and uses its result merging algorithm to merge the documents retrieved from multiple leaf nodes into a single, integrated ranked list and returns it to the client node. If the client node issues the request to more than one hub, then it also needs to merge results returned by multiple toplevel hubs. CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

12 P2P and IR: Το σύστημα PlanetP Local Invert. Local Index Invert. Index PlanetP Προφιλ Όλων Προφιλ Όλων Προφιλ Όλων Προφιλ Όλων Προφιλ Όλων Local Invert. Local Index Invert. Index Προφιλ Όλων Προφιλ Όλων CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P2P and IR: Το σύστημα PlanetP καθολικό ανεστραμμένο ευρετήριο όλων των κόμβων? OXI. Ανάγκη για μια πιο συνοπτική περιγραφή Προφιλ Όλων Προφιλ Όλων Προφιλ Όλων Προφιλ Όλων Local Invert. Local IndexInvert. Index Προφιλ Όλων Προφιλ Όλων Προφιλ Όλων CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

13 P2P and IR: Το σύστημα PlanetP Επιλογή Πηγής? Θυμηθείτε: Κατανομή Συναφών Εγγράφων (Relevant document distribution (RDD)) Διανύσματα Πηγών Στο σύστημα PlanetP το λεξιλόγιο του κάθε κόμβου (όχι οι λίστες των εμφανίσεων των όρων ) περιγράφεται με ένα Bloom φίλτρο Τα φίλτρα Bloom ομοιάζουν με την τεχνική των αρχείων υπογραφών (signature files). CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη: Αρχεία Υπογραφών (Signature files) b=3 ( 3 words per block) B=6 (bit masks of 6 bits) Text Block 1 Block 2 Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Text Signature Signature Function h(text)= h(many)= h(words)= h(made)= h(letters)= CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

14 Bloom filters [Burton Bloom 1970] Συμπαγής Κωδικοποίηση Συνόλων Ένα σύνολο κωδικοποιείται σε ένα δυαδικό διάνυσμα των m-bits κ συναρτήσεις κατακερματισμού h1, h2,, hk, με πεδίο τιμών το {1,..,m} Κωδικοποίηση στοιχείου: BF({α}) = διάνυσμα με άσσους στις θέσεις h1(α), h2(α),, hk(α) Κωδικοποίηση συνόλου: BF({α1, α2}) = BF({α1}) ΒΙΤwiseOR BF({α2}) Πως βρίσκω αν ένα στοιχείο b ανήκει στο σύνολο A? 1/ Υπολογίζω το BloomFilter του b 2/ ΚοιτάζωανοιάσσοιτουBF(b) υπάρχουν στο BF(A) Αν όχι, τότε σίγουρα το b δεν ανήκει στο Α Αν ναι, τότε ανήκει αλλά μπορεί και να μην ανήκει (false positive) Όσο μεγαλύτερο είναι το m, τόσο μικρότερη η πιθανότητα για false positives CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Bloom filters: Παράδειγμα m=14, k=3 hash1("apples") = 3 hash2("apples") = 12 hash3("apples") = 11 {apples}= hash1("plums") = 11 hash2("plums") = 1 hash3("plums") = 8 {apples, plums}= CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

15 Περιγραφή των λεξιλογίων με Bloom filters P1: P2: P3: P1 cold <5,1> cold <4,1> hot <5,1> <6,1> hot <4,1> in <6,1> in cold <3,1> <2,1> not not <5,1> <4,1> hot <1,1> pease pease <5,2> <6,1> <3,1> <4,2> pease <1,1> <2,1> porridge <3,1> <4,2> porridge <5,2> <6,1> porridge <1,1> <2,1> pot <3,1> pot <6,1> the <3,1> the <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P2 P3 P2P and IR: Το σύστημα PlanetP P1: P2: Κάθε pi κατασκευάζει το bloom filter bi του δικού του λεξιλογίου και στο στέλνει στο υπόλοιπο δίκτυο με τεχνικές flooding/gossiping P1: P2: P1: P2: Κάθε pi ξέρει τα bloom filters όλων των άλλων κόμβων Έτσι κάθε pi μπορεί να βρεί τους κόμβους που έχουν έναν συγκεκριμένο όρο (άρα μπορεί να προσεγγίσει το καθολικό ευρετήριο) CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

16 Bloom filters in PlanetP: Πόσο μεγάλα είναι; AP89 Collection (Associated Press articles of 1989 from TREC): 84,678 documents, 129,603 words, collection size 266 MB Num. Peers Memory used (MB) % of collection size % % % 1000 Nodes: => about 4500 terms per peer Bloom filters with less than 5% false positives => Bloom filter size for the vocabulary of one peer: 4.6 KB Total size of bloom filters of peers : 4.6 MBytes Γιατί το μέγεθος αυξάνει με το πλήθος των κόμβων; CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PlanetP: Τρόπος ενημέρωσης των κόμβων (Gossiping algorithms) ΗμετάδοσητωνBloom filters σε όλο το δίκτυο καθώς και η ενημέρωση των κόμβων (για νέα δεδομένα, είσοδο/έξοδο κόμβων) μπορεί να γίνει με ποικίλους αλγορίθμους gossiping: rumoring algorithm anti-entropy algorithm partial anti-entropy algorithm. CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

17 (Gossiping algorithms) Rumoring (φημολογία) Ο p1 έχει μια αλλαγή: Έχω μία αλλαγή! κάθε Χ δευτερόλεπτα, o p1 στέλνει ένα μήνυμα με την αλλαγή σε έναν τυχαία επιλεγμένο κόμβο p2 Αν ο p2 δεν ήξερε αυτήν την πληροφορία. τότε αρχίζει να κάνει ό,τι και ο p1 p2 rumor p1 rumor rumor O p1 σταματάει να στέλνει μηνύματα μόνο αν n συνεχόμενοι κόμβοι του πουν ότι ήταν ήδη ενήμεροι της αλλαγής. rumor CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring (Gossiping algorithms) anti-entropy Κάθε Χ δευτερόλεπτα, κάθε κόμβος επιλέγει τυχαία έναν άλλο κόμβο (από το καθολικό του ευρετήριο) και του ζητάει να του στείλει μια περίληψη το δικού του καθολικού ευρετήριο. Αν διαπιστώσει ότι δεν είναι ενημερωμένος, του ζητάει ό,τι χρειάζεται. P x pull Purpose: The algorithm allows to avoid the possibility of rumors dying out before reaching everyone global index summary P y CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

18 P2P and IR: Το σύστημα PlanetP P1: P2: Pn: P1: P2: Pn: P1: P2: Pn: P1: P2: Pn: Local Invert. Local IndexInvert. Index P1: P2: Pn: P1: P2: Pn: CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PlanetP: Επιλογή Κόμβου q P1: P2: Pn: ? 1/ Βαθμολόγηση κόμβων βάσει της πιθανότητας να έχουν έγγραφα συναφή με την q 2/ Επιλογή των κόμβων που θα επερωτηθούν και ενοποίηση των αποτελεσμάτων που θα επιστρέψουν Inverse Peer Frequency (IPF) of a term t = IPF(t) := total number of peers / peers that contain the term t Score(pj,q) = Σ { IPF(t) t q, t Bfilter(pj) } CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

19 PlanetP: Αποτελεσματικότητα & Επιδόσεις Η αποτελεσματικότητα προσεγγίζει αυτήν που θα είχαμε αν κάθε κόμβος είχε ολόκληρο το ευρετήριο Τα μηνύματα φτάνουν σε 20%-40% περισσότερους κόμβους σε σχέση με την περίπτωση όπου κάθε κόμβος γνώριζε ακριβώς το καθολικό ευρετήριο Gossiping rate 1/second => PlanetP can propagate a Bloom filter containing 1000 terms in less than 40 secs for a community of 1000 peers. This requires an average of 24KB/s per peer. CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (Chord-style) Ποια είναι εδώ τα κλειδιά? CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

20 Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (Chord-style) Περίπτωση (Ι): Κάθε όρος είναι ένα κλειδί Το ευρετήριο κατανέμεται βάσει των όρων (άρα έχουμε term-partitioning: θυμηθείτε την παράλληλη Α.Π. ) Αδυναμία: Η ενημέρωση των ευρετηρίων είναι ακριβή: Εισαγωγή ενός νέου εγγράφου: Για κάθε λέξη του εγγράφου, πρέπει να βρούμε τον κόμβο που είναι υπεύθυνος για αυτήν την λέξη και να του στείλουμε την ανεστραμμένη λίστα P1 P2 cold hot in not pease <2,1> <4,1> <1,1> <4,1> <5,1> <6,1> <3,1> <6,1> <4,1> <5,1> <5,1> <1,1> <2,1> <3,1> <4,2> <5,2> porridge <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> pot <3,1> <6,1> P3 the <3,1> <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring <6,1> Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (Chord-style): Κάθε όρος είναι ένα κλειδί pease <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> in <3,1> <6,1> cold <2,1> <4,1> <5,1> pot <3,1> <6,1> hot <1,1> <4,1> <5,1> <6,1> not <4,1> <5,1> the <3,1> <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

21 Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (Chord-style) Αποτίμηση επερώτησης q βρίσκουμε κάθε κόμβο που έχει τουλάχιστον έναν όρο του q (χρησιμοποιώντας τους πίνακες δρομολόγησης) Σενάριο 1: κάθε ένας από αυτούς τους κόμβος υπολογίζει τα μερικά σκορ και τα στέλνει στον ερωτώντα (αφού του στείλουμε και την επερώτηση) Σενάριο 2: κάθε ένας από αυτούς τους κόμβους επιστρέφει τις ανεστραμμένες λίστες [-] Ανταλλαγή πολλών μηνυμάτων για επερωτήσεις με πολλούς όρους P1 P2 cold hot in not pease <2,1> <4,1> <1,1> <4,1> <5,1> <6,1> <3,1> <6,1> <4,1> <5,1> <5,1> <1,1> <2,1> <3,1> <4,2> <5,2> porridge <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> pot <3,1> <6,1> P3 the <3,1> <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring <6,1> Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (Chord-style) Υπόθεση: Έστω ότι το σύστημα λαμβάνει πολύ συχνά επερωτήσεις με 2 όρους Περίπτωση (ΙΙ): Θεωρούμε ως κλειδί κάθε ζευγάρι όρων Αν η επερώτηση έχει 2 όρους, τότε ένας μόνο κόμβος θα έχει όλο το κομμάτι του ευρετηρίου που χρειαζόμαστε Άραέτσιέχουμελίγαμηνύματα Π.χ. q= Hotels Crete Ξέρω ότι υπάρχει ένας κόμβος που έχει τις ανεστραμμένες λίστες και των δυο όρων, άρα ο κόμβος αυτός μπορεί να αποτιμήσει πλήρως την επερώτηση Αδυναμία: V * ( V -1) κλειδιά, άρα η ανεστραμμένη λίστα κάθε λέξης είναι αποθηκευμένη V -1 φορές P1 P1 P3 Hotels [.inverted list for Hotels. ] Crete [...inverted list for Crete... ] Hotels [.inverted list for Hotels. ] Cefalonia [...inverted list for Cefalonia... ] Crete [.inverted list for Crete. ] Cefalonia [...inverted list for Cefalonia... ] Η είσοδος ενός νέου εγγράφου είναι ακόμα πιο ακριβή CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

22 Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα Περίπτωση (ΙΙΙ): Θεωρούμε ως κλειδιά τα διανύσματα των εγγράφων Ερ: Ποια προσέγγιση δομημένων συστημάτων είναι κατάλληλη για την παράσταση διανυσμάτων (Chord ή CAN) ; Απ: Η προσέγγιση του CAN διότι βλέπει τον χώρο των κλειδιών ως ένα κ- διάστατο χώρο Άρα διαμερίζουμε τα έγγραφα στους κόμβους βάσει των διανυσμάτων τους. (άρα document-partitioning (θυμηθείτε την Παράλληλη Α.Π. )) Ερ: Τι κερδίζουμε διαμερίζοντας τα έγγραφα όπως το CAN? Απ: Τα κοντινά (ως προς το μέτρο συνημίτονου) έγγραφα τοποθετούνται στον ίδιο ή σε κοντινούς κόμβους. CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Document Partitioning: Ο υπολογισμός των καθολικών στατιστικών (IDF) απαιτεί επικοινωνία cold hot <2,1> <1,1> P1 cold hot in not pease P2 <4,1> <4,1> <3,1> <4,1> <3,1> <4,2> cold hot in not pease P3 <5,1> <5,1> <6,1> <6,1> <5,1> <5,2> <6,1> pease <1,1> <2,1> porridge <3,1> <4,2> porridge <5,2> <6,1> porridge <1,1> <2,1> pot <3,1> pot <6,1> the <3,1> the <6,1> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

23 Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style) Ερ: Πόσες διαστάσεις έχουν τα διανύσματα των εγγράφων; Απ: Συνήθως πολλές (π.χ ) Ερ: Πόσους γείτονες έχει μια περιοχή k-διάστατου χώρου; Απ: κατά μέσο όρο 2κ Για κ=1 έχω 2 Για κ=2 έχω 4 Για κ=3 έχω 6 Για κ= έχω ! CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style). Το σύστημα psearch Μείωση των διαστάσεων των διανυσμάτων για (Ι) Μείωση τουαριθμούτωνγειτόνωνπου πρέπει να γνωρίζει (αποθηκεύει) ένας κόμβος. (ΙΙ) Ομαδοποίηση εγγράφων Αξιοποίηση συνωνύμων, συνεμφανιζόμενων λέξέων, μείωση θορύβου Τρόπος μείωσης διαστάσεων: Latent Semantic Indexing CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

24 Επανάληψη: Latent Semantic Indexing: t: total number of index terms d: total number of documents terms documents X = t x d T0 t x m Singular Value Decomposition * * * S * * m x m D 0 0 m x d m=min(t,d) documents Select first k (<m) singular values terms X^ = T * * * * * k x k S D k x d t x d t x k CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη LSI: Paper example Index terms in italics CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

25 Επανάληψη LSI: term-document Matrix CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη LSI: T 0,S 0,D 0 T 0 S 0 D 0 CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

26 Επανάληψη LSI: SVD with minor terms dropped TS define coordinates for documents in latent space CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style). Το σύστημα psearch Διάσταση διανυσμάτων μετά την εφαρμογή LSI: Φτιάχνουμε ένα CAN με διαστάσεις όσες των διανυσμάτων (μετά το LSI). Εισαγωγή ενός νέου εγγράφου: Φτιάχνεται το «semantic διάνυσμα» του εγγράφου (βάσει των διαστάσεων που προέκυψαν από την εφαρμογή του LSI) και εισάγεται στον κατάλληλο κόμβο Είσοδοςμιαςνέαςεπερώτησης Φτιάχνεται το semantic διάνυσμα της επερώτησης και δρομολογείται στον κατάλληλο κόμβο Μόλις φτάσει στον κόμβο, διαδίδεται στους γείτονες σε απόσταση ρ Το ρ μπορεί να δίδεται μαζί με την αρχική επερώτηση CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

27 Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style). Το σύστημα psearch Επερώτηση 1 C (0.5-1, ) B (0-0.5, 0.5-1) Ε (0.5-1, ) q A (0-0.5, 0-0.5) D (0.5-1, 0-0.5) 0 1 CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style). Το σύστημα psearch Ο υπολογισμός του LSI απαιτεί Καθολικά στατιστικά (IDF) Επίσηςόλοιοικόμβοιπρέπειναγνωρίζουντηνβάσητου σημασιολογικού χώρου (για να υπολογίζουμε τα σημασιολογικά διανύσματα των νέων εγγράφων). Τα παραπάνω πρέπει να διαδοθούν σε όλους τους κόμβους. Το πρόβλημα των διαστάσεων 300 LSI διαστάσεις. Αν έχω λίγους κόμβους τότε η πραγματική διάσταση του CAN ειναι μικρότερη γιατί δεν υπάρχουν αρκετοί κόμβοι. Έτσι πολλές διαστάσεις παραμένουν αδιαμέριστες, μεγαλώνοντας έτσι το μήκος του μονοπατιού αναζήτησης. CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

28 CAN & Multiple Realities Ένας τρόπος αύξησης της ευρωστίας / ανθεκτικότητας είναι να θεωρήσουμε Πολλαπλές Πραγματικότητες (Multiple Realities) Δεν έχουμε 1 αλλά m διαφορετικά συστήματα συντεταγμένων Κάθε κόμβος έχει μια ζώνη για κάθε σύστημα συντεταγμένων Έτσι έχουμε m αντίγραφα ευρετηρίου Μείωση του μήκους του μονοπατιού αναζήτησης (επιλέγεται το σύστημα συντεταγμένων βάσει του οποίου η αναζητούμενη ζώνη είναι εγγύτερα) o1 q q o1 CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style). Το σύστημα psearch Διαμερισμός των διανυσμάτων σε πολλά διανύσματα μικρότερης διάστασης (x 1,, x n ) => (x 1,, x n1 ), (x n1+1,, x n2 ), (x n2+1,, x n ) Τα πρώτα διανύσματα αποθηκεύονται σε ένα CAN1 Τα δεύτερα σε ένα CAN2, κ.ο.κ Το διάνυσμα μιας επερώτησης επίσης διαμερίζεται σε διανύσματα μικρότερης διάστασης : CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

29 Ανάκτηση Πληροφοριών σε Δομημένα Ομ. Συσ/τα (CΑΝ-style). Το σύστημα psearch: Σύνοψη Φτιάχνουμε ένα ευρετήριο όπου κάθε έγγραφο δεν περιγράφεται από το διάνυσμα του, αλλά από το διάνυσμα που προκύπτει αν πρώτα εφαρμόσουμε Latent Semantic Indexing διανύσματα μικρότερης διάστασης, ομαδοποίηση εγγράφων Τα ευρετήριο αυτό διανέμεται στους κόμβους. Το κλειδί του κάθε εγγράφου είναι το διάνυσμα του (μετά την εφαρμογή του LSI). // Αυτό θα τοποθετήσει στον ίδιο κόμβο εννοιολογικά συναφή έγγραφα Ο υπολογισμός των διανυσμάτων απαιτεί καθολικά στατιστικά (άρα υπάρχει ανάγκη επικοινωνίας). Επίσης πρέπει να συμφωνηθεί η βάση των διανυσμάτων. Μπορεί να χρησιμοποιηθεί και για πολυμέσα (θυμηθείτε Featurebased Multimedia Indexing). CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ενοποίηση Αποτελεσμάτων & Ομότιμα Συστήματα answer =? ans1 ans2 ans3 ans4 ans5 IRS1 IRS2 IRS3 IRS4 IRS5 Τεχνικές Ενοποίησης Αποτελεσμάτων Round Robin Inter-leaving Score-based (~ merge sort) καλή αν τα σκορ υπολογίζονται βάσει των καθολικών στατιστικών Weighted-score based Έστω di προερχόμενο από μια πηγή Sj score(di) = score(sj,di) * score(sj) Λαμβάνοντας υπόψη μόνο τις διατάξεις και όχι τα σκορ (ενοποίηση διατάξεων) Borda, Condorcet, Kemeny, Arrow s Impossibility Theorem CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

30 Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (Ι): Οι κόμβοι δεν έχουν στη διάθεση τους καθολικά στατιστικά q Local Invert. Local Index Invert. Index Gnutella-like systems (document-partitioning): Ενοποίηση: Round-robin interleaving, Score-based, Rank-Aggregation Συστήματα βασισμένα σε προφίλ γειτόνων και >RES Ενοποίηση: Weighted score-based CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙ): Οι κόμβοι μπορούν να προσεγγίσουν τα καθολικά στατιστικά P1: P2: Pn: P1: P2: Pn: P1: P2: Pn: P1: P2: Pn: P1: P2: Pn: Local Invert. Local Index Invert. Index P1: P2: Pn: Π.χ. PlanetP (κάθε κόμβος μπορεί να προσεγγίσει το καθολικό ευρετήριο) Ενοποίηση: Weighted score-based (καλύτερο από το προφίλ γειτόνων, λιγότερα μηνύματα) CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

31 Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙΙ): Οι κόμβοι έχουν στη διάθεση τους τα καθολικά στατιστικά pease <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> in <3,1> <6,1> cold <2,1> <4,1> <5,1> pot <3,1> <6,1> hot <1,1> <4,1> <5,1> <6,1> not <4,1> <5,1> the <3,1> <6,1> Π.χ. Chord-like (term-partitioning) ο κόμβος που είναι υπεύθυνος για έναν όρο γνωρίζει τις συχνότητες εμφάνισης του καθώςκαιτοπλήθοςτωνκόμβωνπουέχουνέγγραφαπουπεριέχουναυτόντονόρο Ενοποίηση: απλό Score-based είναι μια χαρά κάθε κόμβος υπολογίζει partial scores, ο ερωτών τα αθροίζει και παράγει την τελική διάταξη CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙΙ): Οι κόμβοι έχουν στη διάθεση τους τα καθολικά στατιστικά Έστω σύστημα όπως το Chord, στοοποίοτακλειδιάείναιοιόροικαιτοοποίο συνολικά έχει έγγραφα Η ανεστραμμένη λίστα ενός όρου έχει το πολύ αναφορές σε έγγραφα (έστω ότι κατά μέσο όρο έχει αναφορές) Έστω ότι ο p λαμβάνει επερώτηση q με 5 όρους. Κάθε όρος της q (μαζί με βάρος του στο q) θα προωθηθεί στον υπεύθυνο κόμβο για τον όρο αυτό Κάθε ένας από τους 5 κόμβους θα διατάξει τα έγγραφα βάσει του όρου αυτού και θα επιστρέψει μια λίστα μερικών αποτελεσμάτων το πολύ τριάδες (p, docid, score) κάτα μέσο όρο O p θα λάβει αυτές τις 5 λίστες και θα αθροίσει τα μερικά σκορ score(doci) = score1(doci) + + score5(doci) Άρα 5* τριάδες ακεραίων πρέπει να μεταφερθούν στο δίκτυο TotalBytes = 50Κ * 3 * 4 = 600 ΚΒ Ερώτηση: Αν ο p θέλειναβρειμόνοτακορυφαίακ(π.χ. κ=10) έγγραφα. Πως μπορούμε να ελαχιστοποιήσουμε την πληροφορία που πρέπει να μεταφέρουμε; CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

32 Top-k Rank Aggregation Έχουμε Ν αντικείμενα και τους βαθμούς τους βάσει m διαφορετικών κριτηρίων. Έχουμε έναν τρόπο να συνδυάζουμε τα m σκορ κάθε αντικειμένου σε ένα ενοποιημένο σκορ π.χ. min, avg, sum Στόχος: Βρες τα κ αντικείμενα με το υψηλότερο ενοποιημένο σκορ. Εφαρμογές: Υπολογισμός των κορυφαίων-κ στοιχείων της απάντησης ενός ΣΑΠ που βασίζεται στο διανυσματικό μοντέλο (τα m κριτήρια είναι οι m όροι της επερώτησης) ενός μεσίτη πάνω από m Συστήματα Ανάκτησης Πληροφοριών μιας επερώτησης σε μια Βάση Πολυμέσων κριτήρια: χρώμα, μορφή, υφή, CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Άλλο ένα παράδειγμα εφαρμογής Ενοποίηση απαντήσεων σε Μεσολαβητές (middleware) έστω μια υπηρεσία εύρεσης εστιατορίων βάσει τριών κριτηρίων: τιμή γεύματος απόσταση από ένα σημείο κατάταξη εστιατορίου όπου ο χρήστης μπορεί να ορίσει τον επιθυμητό τρόπο υπολογισμού του ενοποιημένου σκορ ενός εστιατορίου π.χ. Σκορ= Τιμή*0.5 + Stars* *DistanceFromHome ηυπηρεσίααυτήυλοποιείταιμεχρήσητριώναπομακρυσμένωνυπηρεσιών (α) getrestaurantsbyprice (b) getrestaurantsbystars (c) getrestaurantsbydistance Πως μπορώ να ελαχιστοποιήσω το πλήθος των στοιχείων που πρέπει να διαβάσω από την απάντηση της κάθε υπηρεσίας, προκειμένου να βρω τα κορυφαία 5 εστιατόρια; CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

33 Εύρεση των κ-κορυφαίων Απλοϊκός Αλγόριθμος 1/ Ανέκτησε ολόκληρες τις m λίστες 2/ Υπολόγισε το ενοποιημένο σκορ του κάθε αντικειμένου 3/ Ταξινόμησε τα αντικείμενα βάσει του σκορ και επέλεξε τα πρώτα κ Παρατηρήσεις Κόστος γραμμικό ως προς το μήκος των λιστών Δεν αξιοποιεί το γεγονός ότι οι λίστες είναι ταξινομημένες CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων Παράδειγμα: Απλοϊκός Τρόπος S1 = < Α 0.9, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > S2 = < B 1.0, E 0.8, F 0.7, Α 0.7, C 0.5, H 0.5, G 0.5 > S3 = < Α 0.8, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > Ο Απλοϊκός Τρόπος Score(Α) = = 2.4 Score(B) = = 2 Score(C) = = 2.1 Score(E) = = 2.2 Score(F) = = 1.7 Score(G) = = 1.5 Score(H) = = 1.5 Τελική διάταξη: < A, E, C, B, F, G, H> CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

34 Εύρεση των κ-κορυφαίων Πιο Αποδοτικοί Αλγόριθμοι Γενική ιδέα: Άρχισε να διαβάζεις τις διατάξεις από την κορυφή. Προσπάθησε να καταλάβεις πότε πρέπει να σταματήσεις. Αλγόριθμοι Fagin Algorithm (FA) [Fagin 1999, J. CSS 58] Threshold Algorithm (ΤΑ) [Fagin et al., PODS 2001] Υποθέσεις Υποθέτουμε ότι έχουμε στη διάθεση μας 2 τρόπους πρόσβασης στα αποτελέσματα μιας πηγής: Σειριακή πρόσβαση στις διατάξεις: φθίνουσα ως προς το σκορ Τυχαία προσπέλαση: Δυνατότητα εύρεσης του σκορ ενός αντικειμένου με μία πρόσβαση Συναρτήσεις βαθμολόγησης (σκορ) Τα σκορ ανήκουν στο διάστημα [0,1] Η συνάρτηση ενοποιημένου σκορ είναι μονότονη αν όλα (m) τα σκορ ενός αντικειμένου Α είναι μεγαλύτερα ή ίσα των αντίστοιχων σκορ ενός αντικειμένου Β, τότε σίγουρα το ενοποιημένο σκορ του Α είναι μεγαλύτερο ή ίσο του σκορ του Β CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων ΟΑλγόριθμοςτουFagin (FA) [1999] 1.α/ Κάνε σειριακή ανάκτηση αντικειμένων από κάθε λίστα (αρχίζοντας από την κορυφή), έως ότου η τομή των αντικειμένων από κάθε λίστα να έχει κ αντικείμενα 1.β/ Για κάθε αντικείμενο που ανακτήθηκε (στο 1.α) συνέλεξε τα σκορ που λείπουν (με χρήση του μηχανισμού τυχαίας προσπέλασης) 2/ Υπολόγισε το ενοποιημένο σκορ του κάθε αντικειμένου 3/ Ταξινόμησε τα αντικείμενα βάσει του ενοποιημένου σκορ και επέλεξε τα πρώτα κ Σχόλια Αξιοποιεί (α) το γεγονός ότι οι λίστες είναι ταξινομημένες και (β) ότι η συνάρτηση ενοποίησης είναι μονότονη [-] Το πλήθος των αντικειμένων που θα ανακτηθούν μπορεί να είναι μεγάλο CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

35 Εύρεση των κ-κορυφαίων Παράδειγμα: Αλγόριθμος του Fagin (FA) S1 = < Α 0.9, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > S2 = < B 1.0, E 0.8, F 0.7, Α 0.7, C 0.5, H 0.5, G 0.5 > S3 = < Α 0.8, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > Το Ε εμφανίζεται σε όλες Έστω ότι θέλω το Top-1 (μονοτονία => δεν μπορεί κάποιο δεξιότερο του Ε να είναι καλύτερο του Ε Το Ε δεν είναι σίγουρα ο νικητής. Υποψήφιοι νικητές = {A, B, C, E, F}. Κάνουμε τυχαίες προσπελάσεις για vα βρούμε τα σκορ που μας λείπουν getscore(s2,a), getscore(s1,b), getscore(s3,b), getscore(s2,c), Πράγματι, top-1= {Α} CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων ΟΑλγόριθμοςΤΑ(Threshold Algorithm) [Fagin et al. 2001] Ιδέα: Υπολόγισε το μέγιστο σκορ που μπορεί να έχει ένα αντικείμενο που δεν έχουμε συναντήσει ακόμα. 1/ Κάνε σειριακή ανάκτηση αντικειμένων από κάθε λίστα (αρχίζοντας από την κορυφή) και με χρήση τυχαίας προσπέλασης βρες όλα τα σκορ κάθε αντικειμένου 2/ Ταξινόμησε τα αντικείμενα (βάσει του ενοποιημένου σκορ) και κράτησε τα καλύτερα κ 3/ Σταμάτησε την σειριακή ανάκτηση όταν τα σκορ των παραπάνω κ αντικειμένων δεν μπορεί να είναι μικρότερα του μέγιστου πιθανού σκορ των απαρατήρητων αντικειμένων (threshold). CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

36 Εύρεση των κ-κορυφαίων Παράδειγμα: Αλγόριθμος του Fagin (FA) S1 = < Α 0.9, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > S2 = < B 1.0, E 0.8, F 0.7, Α 0.7, C 0.5, H 0.5, G 0.5 > S3 = < Α 0.8, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > Έστω ότι θέλω το Top-2 Το Ε, B (και το Α) εμφανίζονται σε όλες (μονοτονία => δεν μπορεί κάποιο δεξιότερο του Β να είναι καλύτερο του Β CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων Παράδειγμα: Αλγόριθμος TA: S1 = < Α 0.9, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > S2 = < B 1.0, E 0.8, F 0.7, Α 0.7, C 0.5, H 0.5, G 0.5 > S3 = < Α 0.8, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > Score(A) = = 2.4 Score(B) = = 2 UpperBound = = 2.7 αφού 2.7 > 2.4 συνεχίζω Score(C) = = 2.1 Score(E) = = 2.2 UpperBound = = 2.4 αφού 2.4 δεν είναι μεγαλύτερο του 2.4 (σκορ του Α) σταματάω. Έστω ότι θέλω το Top-1 CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

37 Σύγκριση: Fagin vs. ΤΑ Ο FA ποτέ δεν τερματίζει ενωρίτερα του ΤΑ Ο ΤΑ χρειάζεται μόνο έναν μικρό (k) ενταμιευτή (buffer) Ο ΤΑ μπορεί όμως να κάνει περισσότερες τυχαίες προσπελάσεις ΟΤA είναι βέλτιστος για όλες τις μονότονες συναρτήσεις σκορ Συγκεκριμένα, είναι instant optimal : είναι καλύτερος πάντα (όχι μόνο στην χειρότερη περίπτωση ή στην μέση περίπτωση) Επεκτάσεις Αλγόριθμος NRA (Non Random Access) Έκδοση του ΤΑ για την περίπτωση που η τυχαία πρόσβαση είναι αδύνατη. Επίσης instant optimal. Do sequential access until there are k objects whose lower bound no less than the upper bound of all other objects Αλγόριθμος CA (Combined Algorithm) Έκδοση του ΤΑ που θεωρεί τις τυχαίες προσπελάσεις ακριβότερες των σειριακών. CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙΙ): Οι κόμβοι έχουν στη διάθεση τους τα καθολικά στατιστικά Έστω σύστημα όπως το Chord, στοοποίοτακλειδιάείναιοιόροικαιτοοποίο συνολικά έχει έγγραφα Η ανεστραμμένη λίστα ενός όρου έχει το πολύ αναφορές σε έγγραφα (έστω ότι κατά μέσο όρο έχει αναφορές) Έστω ότι ο p λαμβάνει επερώτηση q με 5 όρους. Κάθε όρος της q (μαζί με βάρος του στο q) θα προωθηθεί στον υπεύθυνο κόμβο για τον όρο αυτό Κάθε ένας από τους 5 κόμβους θα διατάξει τα έγγραφα βάσει του όρου αυτού και θα επιστρέψει μια λίστα μερικών αποτελεσμάτων το πολύ τριάδες (p, docid, score) κάτα μέσο όρο O p θα λάβει αυτές τις 5 λίστες και θα αθροίσει τα μερικά σκορ score(doci) = score1(doc1) + + score5(doc1) Άρα 5* τριάδες ακεραίων πρέπει να μεταφερθούν στο δίκτυο TotalBytes = 50Κ * 3 * 4 = 600 ΚΒ Ερώτηση: Αν ο p θέλειναβρειμόνοτακορυφαίακ(π.χ. κ=10) έγγραφα. Πως μπορούμε να ελαχιστοποιήσουμε την πληροφορία που πρέπει να μεταφέρουμε; CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

38 Ομότιμα Συστήματα (P2P) και Ανάκτηση Πληροφοριών Διαφορές με Κατανεμημένη Ανάκτηση Napster-style Gnutella-style (local inv. Index) Freenet-style (p,q, ans(q) ), >RES (p,q, ans(q) ), >RES * sim(q) Hiearchical PlanetP (Bloom filters) Chold-style: key=1 term, a term pair, term partitioning CAN-style: key = LSI vector psearch (LSI + CAN) document partitioning Result aggregation Γενικά: P2P & IR = αντικείμενο έρευνας σήμερα CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Αναφορές D. Zeinalipour-Yazti, Vana Kalogeraki, Dimitrios Gunopulos, Information Retrieval in P2P Networks Text-Based Content Search and Retrieval in ad hoc P2P Communities, Francisco Matias Cuenca-Acuna and Thu D. Nguyen Jie Lu, Jamie Callan, «Federated Search of Text-Based Digital Libraries in Hierarchical Peer-to-Peer Networks», SIGMOD 04 workshop Fagin, Lotem, and Naor, Optimal Aggregation Algorithms for Middleware (PODS 2001) CS463 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών

Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών CS463 - Information Retrieval Yannis Tzitzikas, U.

Διαβάστε περισσότερα

(Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών

(Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γιάννης Τζίτζικας άλ ιάλεξη : Ημερομηνία : Μέρος Γ Συστήματα Ομοτίμων

Διαβάστε περισσότερα

Napster ( ): διαμοιρασμός MP3

Napster ( ): διαμοιρασμός MP3 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 HΥ46 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μέρος Γ Συστήματα Ομοτίμων (Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών

Διαβάστε περισσότερα

Parallel and Distributed IR

Parallel and Distributed IR Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη η και Κατανεμημένη η ΑΠ Γιάννης

Διαβάστε περισσότερα

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μέρος Γ Συστήματα Ομοτίμων (Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μέρος Γ Συστήματα Ομοτίμων (Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γιάννης Τζίτζικας ιάλεξη : 17b Ημερομηνία : 30-5-007 Μέρος Γ Συστήματα

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση

Διαβάστε περισσότερα

KLEE: A Framework for Distributed top-k Query Algorithms

KLEE: A Framework for Distributed top-k Query Algorithms KLEE: A Framework for Distributed top-k Query Algorithms Sebastian Michel Peter Triantafillou Gerhard Weikum VLDB 2005 Αντικείμενο της εργασίας Η εργασία αναφέρεται στο πρόβλημα των top-k queries που αφορούν

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης Τζίτζικας CS463 - Information Retrieval Systems Yannis Tzitzikas,

Διαβάστε περισσότερα

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks P2P 1,a) 1 1 1 P2P P2P P2P P2P A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks NARISHIGE Yuki 1,a) ABE Kota 1 ISHIBASHI Hayato 1 MATSUURA Toshio 1

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα. Javascript LCR example

Κατανεμημένα Συστήματα. Javascript LCR example Κατανεμημένα Συστήματα Javascript LCR example Javascript JavaScript All JavaScript is the scripting language of the Web. modern HTML pages are using JavaScript to add functionality, validate input, communicate

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη

Ευρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη Ευρετήρια Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βασικές έννοιες Οι μηχανισμοί δεικτοδότησης χρησιμοποιούνται για να επιταχύνουν την προσπέλαση σε επιθυμητά δεδομένα. π.χ., author catalog in library

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible. B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs

Διαβάστε περισσότερα

Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα

Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα Τα Peer-To-Peer προσελκύουν το ενδιαφέρον Ακαδημαϊκά Προσπάθειες International Workshop on P2P Computing Global and P2P Computing

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Σε ένα σύστημα φιλτραρίσματος πληροφορίας, ή αλλιώς σύστημα έκδοσης/συνδρομής, οι χρήστες εγγράφονται

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ανάκτηση Πληροφορίας. Φροντιστήριο 3 Ανάκτηση Πληροφορίας Φροντιστήριο 3 Τσιράκης Νίκος Νοέμβριος 2007 2 Περιεχόμενα Ανεστραμμένα Αρχεία Εισαγωγή Δημιουργία Συμπίεση Πιθανοτικά Μοντέλα 3 Ανεστραμμένα Αρχεία 4 Εισαγωγή Με ποιους τρόπους μπορούμε

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Αρχιτεκτονική υπολογιστών

Αρχιτεκτονική υπολογιστών 1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Αρχιτεκτονική υπολογιστών Ενότητα 4 : Κρυφή Μνήμη Καρβούνης Ευάγγελος Δευτέρα, 30/11/2015 Χαρακτηριστικά Θέση Χωρητικότητα Μονάδα Μεταφοράς

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ασκήσεις.

Κατανεμημένα Συστήματα Ασκήσεις. Κατανεμημένα Συστήματα Ασκήσεις 2016-2017 http://www.cslab.ece.ntua.gr/courses/distrib Άσκηση 1 3 διεργασίες, η P1, η P2 και η P3 στέλνουν μεταξύ τους multicast μηνύματα. Σε περίπτωση που θέλουμε να εξασφαλίσουμε:

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Διαδικασιακός Προγραμματισμός

Διαδικασιακός Προγραμματισμός Τμήμα ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ ΤΕΙ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ Διαδικασιακός Προγραμματισμός Διάλεξη 12 η Αναζήτηση/Ταξινόμηση Πίνακα Οι διαλέξεις βασίζονται στο βιβλίο των Τσελίκη και Τσελίκα C: Από τη Θεωρία στην

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1 Οι πράξεις της συνένωσης Μ.Χατζόπουλος 1 ΠΡΟΜΗΘΕΥΤΗΣ (ΠΡΜ) Κ_Προμ Π_Ονομα Είδος Πόλη 22 Ανδρέου 7 Αθήνα 31 Πέτρου 8 Πάτρα 28 Δέδες 12 Λάρισα 58 Παππάς 7 Αθήνα ΠΡΟΙΟΝ (ΠΡ) Κ_Πρ Πρ_Ονομα Χρώμα Βάρος Π35

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Standard Template Library (STL) C++ library

Standard Template Library (STL) C++ library Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Standard Template Library (STL) C++ library Δομές Δεδομένων Μάριος Κενδέα kendea@ceid.upatras.gr Εισαγωγή Η Standard Βιβλιοθήκη προτύπων

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηριασμός, Αποθήκευση και Οργάνωση Αρχείων Κειμένων (Indexing,

Διαβάστε περισσότερα

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων, Γ. Ιωαννίδης Πανεπιστήµιο Αθηνών Προσπέλαση Πληροφοριών: Λίγη Ιστορία Query-Based Approaches Ερώτηση Πρόσβαση εδοµένων εδοµένα Ίδια απάντηση σε όλους τους χρήστες

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα). Κ08 Δομές Δεδομένων και Τεχνικές Προγραμματισμού Διδάσκων: Μανόλης Κουμπαράκης Εαρινό Εξάμηνο 2017-2018. Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Διάλεξη 16: Πρόβλημα Συμφωνίας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Διάλεξη 16: Πρόβλημα Συμφωνίας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι Διάλεξη 16: Πρόβλημα Συμφωνίας ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι Τι θα δούμε σήμερα Ορισμός του προβλήματος Συμφωνίας Αλγόριθμος Συμφωνίας με Σφάλματα Κατάρρευσης ΕΠΛ432: Κατανεµηµένοι Αλγόριθµοι 1 Πρόβλημα

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

SEMANTIC DATA CACHING AND REPLACEMENT

SEMANTIC DATA CACHING AND REPLACEMENT SEMANTIC DATA CACHING AND REPLACEMENT Paper By: Shaul Dar, Michael J. Franklin, Bjorn Jonsson, Divesh Srivastava, Michael Tan Appeared: VLDB conference 1996 Presented by: Βασίλης Φωτόπουλος Agenda 1. Data-Shipping

Διαβάστε περισσότερα

Στόχοι και αντικείμενο ενότητας. Πέρασμα Πίνακα σε Συνάρτηση (συν.) Πέρασμα Πίνακα σε Συνάρτηση. #8.. Ειδικά Θέματα Αλγορίθμων

Στόχοι και αντικείμενο ενότητας. Πέρασμα Πίνακα σε Συνάρτηση (συν.) Πέρασμα Πίνακα σε Συνάρτηση. #8.. Ειδικά Θέματα Αλγορίθμων Στόχοι και αντικείμενο ενότητας Πέρασμα Πίνακα σε Συνάρτηση #8.. Ειδικά Θέματα Αλγορίθμων Προβλήματα Αναζήτησης Γραμμική Αναζήτηση (Linear Search) Ενημέρωση Μέτρηση Δυαδική Αναζήτηση (Binary Search) Προβλήματα

Διαβάστε περισσότερα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα. Συστήματα Peer-to-Peer (P2P)

Κατανεμημένα Συστήματα. Συστήματα Peer-to-Peer (P2P) Κατανεμημένα Συστήματα Συστήματα Peer-to-Peer (P2P) Κωνσταντίνος Αντωνής 2011 Σκοπός Τα P2P είναι κατανεμημένες αρχιτεκτονικές που σχεδιάζονται με σκοπό τη διαμοίραση πόρων (περιεχομένου, αποθηκευτικού

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun Κ24: Προγραμματισμός Συστήματος - 1η Εργασία, Εαρινό Εξάμηνο 2018 Προθεσμία Υποβολής: Κυριακή 18 Μαρτίου, 23:59 Εισαγωγή Στην εργασία αυτή θα υλοποιήσετε μία μίνι μηχανή αναζήτησης (search engine). Οι

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών Σαράντος Καπιδάκης sarantos@ionio.gr Ομοιότητες

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Search and Replication in Unstructured Peer-to-Peer Networks

Search and Replication in Unstructured Peer-to-Peer Networks Search and Replication in Unstructured Peer-to-Peer Networks Presented in P2P Reading Group in 11/10/2004 Abstract: Τα µη-κεντρικοποιηµένα και µη-δοµηµένα Peer-to-Peer δίκτυα όπως το Gnutella είναι ελκυστικά

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Elements of Information Theory

Elements of Information Theory Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure

Διαβάστε περισσότερα

(C) 2010 Pearson Education, Inc. All rights reserved.

(C) 2010 Pearson Education, Inc. All rights reserved. Connectionless transmission with datagrams. Connection-oriented transmission is like the telephone system You dial and are given a connection to the telephone of fthe person with whom you wish to communicate.

Διαβάστε περισσότερα

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Πρόβλημα 1 Το πρώτο πρόβλημα λύνεται με τη μέθοδο του Δυναμικού Προγραμματισμού. Για να το λύσουμε με Δυναμικό Προγραμματισμό

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή Συμπίεση 2 ΣΤΑΤΙΣΤΙΚΑ

Διαβάστε περισσότερα

Model) Retrieval Model)... 18

Model) Retrieval Model)... 18 Πανεπιστήμιο Πατρών Πολυτεχνική Σχολή Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Αποδοτική Ιεραρχημένη Ανάκτηση Κοινωνικού Περιεχομένου με Χρήση Ταξονομιών Ετικετών Κοντοτάσιου Ιωάννα ΑΜ:

Διαβάστε περισσότερα