Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2010-2011 1"

Transcript

1 Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 1 Ανάκτηση Κειμένου (εισαγωγικά θέματα) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 2 Εξόρυξη Δεδομένων

2 Ανάκτηση Πληροφορίας Information retrieval Ανάκτηση Πληροφορίας Η πληροφορία οργανώνεται σε (ένα μεγάλο αριθμό) από κείμενα documents Information retrieval problem: εντοπισμός των σχετικών κειμένων (documents) με βάση την είσοδο του χρήστη όπως λέξεις κλειδιά ή παραδείγματα κειμένου Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 3 Ανάκτηση Πληροφορίας Βασικές έννοιες Ένα έγγραφο (document) αρχείο κειμένου μπορεί να περιγράφει από ένα σύνολο αντιπροσωπευτικών λέξεων κλειδιά (keywords) που ονομάζονται όροι δεικτοδότησης index terms. Διαφορετικοί όροι με διαφορετικό βαθμό σχετικότητας μπορούν να χρησιμοποιηθούν για την περιγραφή κειμένων με διαφορετικό περιεχόμενο Αυτό επιτυγχάνεται με την ανάθεση αριθμητικών βαρών (numerical weights) σε κάθε όρο δεικτοδότησης του κειμένου (π.χ.: συχνότητα, tf idf) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 4 Εξόρυξη Δεδομένων

3 Ανάκτηση Πληροφορίας Επιλέγουμε ένα σύνολο από όρους Το μοντέλο ενός αρχείου Δυαδικό (Boolean) μοντέλο: 1: αν ο όρος υπάρχει 0: αν ο όρος δεν υπάρχει Ερώτηση (t 11 t 12 t i11 ) (t 21 t 22 t 2i2 ). (t j1 t j2 t jij ) Όπου τα t ij είναι όροι Όλα τα έγγραφα που έχουν τους όρους Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 5 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Παράδειγμα Did Λέξεις Κλειδιά 1 agent James Bond 2 agent mobile computer 3 James Madison movie 4 James Bond movie Παραδείγματα ερωτήσεων: Agent, James and agent, Agent or James Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 6 Εξόρυξη Δεδομένων

4 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Συνήθως, κατασκευάζονται ευρετήρια που περιέχουν ζεύγη <όρος, id αρχείου> με πιθανών επιπλέον πεδία όπως η συχνότηταεμφάνισηςτουόρουστοαρχείο Παρόμοια, ευρετήρια χρησιμοποιούν και οι μηχανές αναζήτησης Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 7 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Μια ταξινομημένη λίστα (ανεστραμμένη λίστα) (inverted file, inverted list, inverted index) για κάθε όρο Παράδειγμα Did Λέξεις Κλειδιά 1 agent James Bond 2 agent mobile computer 3 James Madison movie 4 James Bond movie Παράδειγμα ερωτήσεων Agent <1,2> Bond <1,4> Computer <2> James <1,3,4> Madison <3> Mobile <2> Movie <3,4> Postings (keyword, DocID) Ταξινόμηση κάθε λίστας με βάση το DocID Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 8 Εξόρυξη Δεδομένων

5 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Ευρετήριο Λεξιλογίου: Για τον ταχύτερο εντοπισμό της λίστας για κάθε όρο: Το σύνολο των όρων μπορεί να οργανωθεί με τη χρήση μιας δομής ευρετηρίου (π.χ. Β+ δέντρο) Στα φύλλα, δείκτες προς την αντίστοιχη ανεστραμμένη λίστα Παράδειγμα Ένας όρος, σύζευξη, διάζευξη Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 9 Ανάκτηση Πληροφορίας Βασικές Μετρικές Relevant Relevant & Retrieved Retrieved All Documents Precision Ακρίβεια: το ποσοστό των ανακτημένων εγγράφων που είναι σχετικά με την ερώτηση (δηλαδή, το ποσοστό των «σωστών» απαντήσεων») { Relevant} { Retrieved} precision = { Retrieved} Recall Ανάκληση: το ποσοστό των σχετικών εγγράφων που ανακτούνται { Relevant} { Retrieved} recall = { Relevant} Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 10 Εξόρυξη Δεδομένων

6 Μοντέλα Ανάκτηση Κειμένου Το δυαδικό μοντέλο που είδαμε μέχρι στιγμής θεωρεί ότι οι όροι δεικτοδότησης είτε υπάρχουν είτε δεν υπάρχουν στο αρχείο (κείμενο) Οι ερωτήσεις είναι όροι συνδεδεμένοι με : not, and, και or πχ.: car and repair, plane or airplane Το δυαδικό μοντέλο προβλέπει ότι ένα αρχείο είναι είτε σχετικό είτε μη σχετικό Δεν υπάρχει διαβάθμιση (Ranking) «πόσο» σχετικό Διανυσματικό μοντέλο > πάλι ένα έγγραφο περιγράφεται από τους όρους αλλά κάθε όρος με ένα βάρος (που σχετίζεται με τη συχνότητα εμφάνισης του όρου στο έγγραφο) δηλαδή, στο δυαδικό μοντέλο, τα βάρη είναι όλα δυαδικά (0 ή 1) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 11 Μοντέλα Ανάκτηση Κειμένου Συχνότητα όρου term frequency : πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο Κανονικοποιημένο ώστε να αποφύγουμε να δώσουμε μεγαλύτερο βάρος σε μεγάλα έγγραφα Σημασία του όρου t i σε ένα έγγραφο Τοπική μέτρηση tf i = Διανυσματικό Μοντέλο k ni n k Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 12 Εξόρυξη Δεδομένων

7 Μοντέλα Ανάκτηση Κειμένου Ανεστραμμένη συχνότητα εγγράφου (inverse document frequency) μετρά πόσο γενικά σημαντικός είναι ένας όρος Ολική μέτρηση idf i = log { d D : d ti} D αριθμός εγγράφων Πόσα έγγραφα τον περιέχουν Έγγραφα στα οποία ανήκει ο όρος t i Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 13 Μοντέλα Ανάκτηση Κειμένου tfidf = tf idf Μεγάλη τιμή όταν μεγάλη συχνότητα εμφάνισης (σε ένα συγκεκριμένο έγγραφο) και μικρή συχνότητα εμφάνισης του όρου σε όλη τη συλλογή Βάρος χρήσιμο για να αποφύγουμε κοινούς όρους Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 14 Εξόρυξη Δεδομένων

8 Ομοιότητα με την ερώτηση Μοντέλα Ανάκτηση Κειμένου Τα αρχεία και οι ερωτήσεις αναπαρίστανται ως m διάστατα διανύσματα, όπου m είναι ο συνολικός αριθμός όρων στη συλλογή Ο βαθμός ομοιότητας ενός αρχείου d και μιας ερώτησης q υπολογίζεται ως η συνέλιξη τους, χρησιμοποιώντας μετρικές όπως η Ευκλείδεια απόσταση ή το συνημίτονο της γωνίας των δύο διανυσμάτων: q d cos( q, d) = q d Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 15 Ρίζα λέξεων Word stem Άλλα Θέματα Μοντέλα Ανάκτηση Κειμένου Πολλές λέξεις είναι μικρές παραλλαγές αφού έχουν μια κοινή ρίζα E.g., drug, drugs, drugged Συνώνυμα Synonymy: Ενώ η λέξη κλειδί T δεν εμφανίζετε στο κείμενο αν και το κείμενο είναι σχετικό Πολυσημία Polysemy: Η ίδια λέξη μπορεί να σημαίνει διαφορετικά πράγματα με βάση τα συμφραζόμενα Stop list Σύνολο λέξεων που δεν είναι σχετικά αν και εμφανίζονται συχνά, πχ, a, the, of, for, to, with, etc. Οντολογίες Wordnet Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 16 Εξόρυξη Δεδομένων

9 Μηχανές Αναζήτησης Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 17 Μηχανές Αναζήτησης Βασισμένες σε ευρετήρια: Αναζητούν σελίδες, τις δεικτοδοτούν και κατασκευάζουν ευρετήρια βασισμένα σε λέξεις κλειδιά Χρήσιμες για τον εντοπισμό σελίδων που περιέχουν συγκεκριμένες λέξεις κλειδιά Προβλήματα Έναθέμαμπορείναπεριέχειχιλιάδεςέγγραφα Πολλά σχετικά με κάποιο θέμα έγγραφα μπορεί να μην περιέχουν τις λέξεις κλειδιά που το προσδιορίζουν Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 18 Εξόρυξη Δεδομένων

10 Μηχανές Αναζήτησης Θα δούμε Page Rank HITS Και οι δύο εκμεταλλεύονται την ύπαρξη links συνδέσεων ανάμεσα στις σελίδες Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 19 PageRank Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 20 Εξόρυξη Δεδομένων

11 PageRank: εισαγωγή PageRank: Capturing Page Popularity (Brin & Page 98) Ο αρχικός αλγόριθμος του google, παρουσιάστηκε στην κλασική εργασία: The Anatomy of a Large Scale Hypertextual Web Search Engine, Sergey Brin and Lawrence Page Η εργασία περιλαμβάνει μια πολύ ενδιαφέρουσα «ιστορικής σημασίας» εισαγωγή We chose our system name, Google, because it is a common spelling of googol, or and fits well with our goal of building very large-scale search engines. The verb, "google", was added to the Merriam Webster Collegiate Dictionary and the Oxford English Dictionary in 2006, meaning, "to use the Google search engine to obtain information on the Internet." (source: Wikipedia) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 21 PageRank: Βασική Ιδέα Βασική Ιδέα Ακόμα και αν ένα τεράστιο ευρετήριο με όλες τις λέξεις και τι σελίδες > αυτό που έχει σημασία είναι οι σημαντικές σελίδες (precision vs recall) τα «10 πρώτα» αποτελέσματα ΣΤΟΧΟΣ: υπολογισμός μιας τιμής για κάθε σελίδα που να χαρακτηρίζει πόσο σημαντική είναι αυτή η σελίδα, η ποσότητα αυτή λέγεται page rank Πότε είναι μια σελίδα σημαντική; Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 22 Εξόρυξη Δεδομένων

12 PageRank: Βασική Ιδέα Βασική Ιδέα Οι Web pages δεν είναι όλες το ίδιο σημαντικές schmoe.com vs Αναφορές (Inlinks) ως «ψήφοι» votes 23,400 inlinks schmoe.com 1 inlink οι συνδέσεις μιασελίδαπουδέχεταιπολλέςαναφορέςπεριμένει κανείς να είναι γενικά πιο σημαντική Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 23 PageRank: Βασική Ιδέα Βασική Ιδέα (συνέχεια) Ο PageRank βασίζεται στην «μέτρηση αναφορών» σε μία σελίδα ( citation counting ), αλλά με μια βελτίωση: Δεν είναι όλες οι αναφορές το ίδιο σημαντικές! Θεωρεί «έμμεσες αναφορές» indirect citations : Αναφορές από σημαντικές σελίδες (δηλαδή, από σελίδες που επίσης έχουν πολλές αναφορές) θεωρούνται πιο σημαντικές Αναδρομικός ορισμός! Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 24 Εξόρυξη Δεδομένων

13 Ορισμός PageRank Απλή Αναδρομική Διατύπωση Κάθε σελίδα μια ποσότητα που χαρακτηρίζει τη σημαντικότητα της (αυτή η ποσότητα καλείται page rank) Αυτή η ποσότητα μοιράζεται ισόποσα στις εξωτερικές ακμές της σελίδας Συγκεκριμένα: Η ψήφος κάθε ακμής (αναφοράς) είναι ανάλογη της σημαντικότητας (PR) της σελίδας από την οποία προέρχεται Αν μια σελίδα P με σημαντικότητα (PR) y έχει n outlinks, κάθε link παίρνει y/n ψήφους Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 25 Ορισμός PageRank Παράδειγμα Έστω ότι υπάρχει μια γενική ποσότητα PR που μοιράζεται στις σελίδες του συστήματος. Έστω 4 σελίδες: A, B, C και D. Αρχική προσεγγιστική τιμή για καθεμία: PR = 0.25 Έστω B, C, και D έχουν link μόνο στο A, τότε όλα το PageRank PR( ) τους θα μαζευόταν στο Α Έστω τώρα ότι η Β έχει link στη C, και η D έχει links και στο Β και στο C Η τιμή του PR μιας σελίδας μοιράζεται ανάμεσα στις εξωτερικές ακμές της Άρα η ψήφος της B έχει αξία για την Α και για την C. Αντίστοιχα, μόνο το 1/3 του PageRank του D μετρά για PageRank του Α (περίπου 0.083). Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 26 Εξόρυξη Δεδομένων

14 Ορισμός PageRank Γενικός ορισμός του PageRank για μια σελίδα Α: Έστω ότι η A έχει τις σελίδες T1,...,Tn που δείχνουν σε αυτήν (δηλαδή, αναφορές) Έστω C(Τ) ο αριθμός των εξωτερικών ακμών μιας σελίδας T PR(A) = PR(T1)/C(T1) PR(Tn)/C(Tn) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 27 Απλό μοντέλο «ροής» flow model Υπολογισμός PageRank Το web το 1839 a/2 y Yahoo y/2 y/2 y = y /2 + a /2 a = y /2 + m m = a /2 Amazon a m a/2 M soft m Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 28 Εξόρυξη Δεδομένων

15 Υπολογισμός PageRank Λύση των εξισώσεων ροής 3 εξισώσεις, 3 άγνωστοι, όχι σταθερές Μη μοναδική λύση Οι λύσεις ισοδύναμες με κλιμάκωση (scale factor) Επιπρόσθετος περιορισμός για μοναδικότητα της λύσης y+a+m = 1(το συνολικό PR που μοιράζεται στις σελίδες) y = 2/5, a = 2/5, m = 1/5 Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 29 Υπολογισμός PageRank Διατύπωσημετηνμορφήπίνακα Ο πίνακας M έχει μια γραμμή και μια στήλη για κάθε web σελίδα (πίνακας γειτνίασης) Έστω ότι η σελίδα j έχει n outlinks Αν j >i, τότε M ij =1/n Αλλιώς,M ij =0 M είναι column stochastic matrix Οι στήλες έχουν άθροισμα 1 Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 30 Εξόρυξη Δεδομένων

16 ιατύπωση με την μορφή πίνακα (παράδειγμα) Υπολογισμός PageRank Yahoo Amazon M soft y a m y 1/2 1/2 0 a 1/2 0 1 m 0 1/2 0 y = y /2 + a /2 a = y /2 + m m = a /2 Άθροισμα 1 (οι ψήφοι του y) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 31 Υπολογισμός PageRank Διατύπωσημετηνμορφήπίνακα Έστω r ένα διάνυσμα με μια εγγραφή web σελίδα r i είναι η σημαντικότητα (PR) της σελίδας i r: rank vector [PR(y) PR(a) PR(m)] Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 32 Εξόρυξη Δεδομένων

17 Υπολογισμός PageRank Yahoo PR Διάνυσμα (παράδειγμα) y a m y 1/2 1/2 0 a 1/2 0 1 m 0 1/2 0 Amazon M soft y = y /2 + a /2 a = y /2 + m m = a /2 r = Mr y 1/2 1/2 0 y a = 1/2 0 1 a m 0 1/2 0 m Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 33 Υπολογισμός PageRank Έστω ότι η σελίδα j έχει links σε 3 σελίδες, συμπεριλαμβανομένου του i j i 1/3 = i M r r Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 34 Εξόρυξη Δεδομένων

18 Υπολογισμός PageRank Ιδιοδιανύσματα (eigenvectors) Οι εξισώσεις ροής μπορούν να γραφούν r = Mr Δηλαδή, ο rank vector είναι ένα ιδιοδιάνυσμα (eigenvector) του στοχαστικού πίνακα γειτνίασης του web Συγκεκριμένα είναι το βασικό ιδιοδιάνυσμα (αυτό που αντιστοιχεί στην ιδιοτιμή λ = 1) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 35 Υπολογισμός PageRank Power Iteration method Επαναληπτική Μέθοδο Ένα απλό επαναληπτικό σχήμα (relaxation) Έστω N web σελίδες Αρχικοποίηση: r 0 = [1/N,.,1/N] T Επανάληψη: r k+1 = Mr k Τερματισμός όταν r k+1 - r k 1 < ε x 1 = 1 i N x i είναι L1 norm Μπορεί να χρησιμοποιηθούν και άλλες μετρικές, πχ Ευκλείδεια Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 36 Εξόρυξη Δεδομένων

19 Υπολογισμός PageRank Παράδειγμα Yahoo y a m y 1/2 1/2 0 a 1/2 0 1 m 0 1/2 0 Amazon M soft y a = m 1/3 1/3 1/3 1/3 1/2 1/6 5/12 1/3 1/4 3/8 11/24 1/6... 2/5 2/5 1/5 Συγκλίνει; Μοναδική Λύση; Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 37 Υπολογισμός PageRank Μοντέλο Τυχαίου Δικτυακού Περιηγητή Surfer (random walk) Tο PageRank μιας σελίδας μπορεί επίσης να θεωρηθεί ότι εκφράζει την πιθανότητα ένας τυχαίος περιηγητής να φτάσει σε αυτήν (δηλαδή, εκφράζει πόσο δημοφιλής είναι) Ένας τυχαίος περιηγητής ξεκινά από μια τυχαία σελίδα και συνεχίζει να κάνει click σε links, χωρίς να επιστρέφει σε προηγούμενη σελίδα Τη χρονική στιγμή t, ο περιηγητής είναι σε κάποια σελίδα P Τη χρονική στιγμή t + 1, ο περιηγητής ακολουθεί ένα εξωτερικό link outlink του P τυχαία (uniformly at random) Φτάνει σε κάποια σελίδα Q του P Συνεχίζει την παραπάνω διαδικασία επ άπειρων Έστω p(t) το διάνυσμα του οποίου το i οστόστοιχείοείναιηπιθανότητα ο περιηγητής να είναι στη σελίδα i τη χρονική στιγμή t p(t) κατανομή πιθανότητας (probability distribution) στις σελίδες Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 38 Εξόρυξη Δεδομένων

20 Υπολογισμός PageRank The stationary distribution Που είναι ο περιηγητής τη χρονική στιγμή t+1? Ακολουθεί ένα link uniformly at random p(t+1) = Mp(t) Έστω ότι ο τυχαίος περίπατος φτάνει μια κατάσταση όπου p(t+1) = M p(t) = p(t) Τότεp(t) ονομάζεται stationary distribution για τον τυχαίο περίπατο Επειδή ο πίνακας r ικανοποιεί την r = Mr είναι stationary distribution για τον τυχαίο περιηγητή Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 39 Υπολογισμός PageRank Βασικό αποτέλεσμα από τη θεωρία τυχαίων περιπάτων (και Markov processes): Για γράφους που ικανοποιούν συγκεκριμένες συνθήκες, η stationary distribution είναι μοναδική και τελικά φτάνουμε σε αυτήν ανεξάρτητα από την αρχική κατανομή πιθανότητας τη χρονική στιγμή t = 0 (σύγκλιση). Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 40 Εξόρυξη Δεδομένων

21 Επεκτάσεις (τυχαίο άλμα) Spider traps Μια ομάδα σελίδων είναι μια αραχνο παγίδα (spider trap) ανδενυπάρχουνακμές από την ομάδα σε σελίδες εκτός της ομάδας Οτυχαίοςsurfer παγιδεύεται Οι συνθήκες που χρειάζονται για το θεώρημα των τυχαίων περιπάτων παύουν να ισχύουν Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 41 Επεκτάσεις (τυχαίο άλμα) Spider traps (παράδειγμα) Yahoo y a m y 1/2 1/2 0 a 1/2 0 0 m 0 1/2 1 Amazon M soft y a = m /2 3/2 3/4 1/2 7/4 5/8 3/ Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 42 Εξόρυξη Δεδομένων

22 Επεκτάσεις (τυχαίο άλμα) Επέκταση Μοντέλου Σε κάθε βήμα, ο τυχαίος surfer έχει δύο δυνατότητες: Με πιθανότητα β, ακολουθεί ένα τυχαίο link Με πιθανότητα 1 β πετάγεται σε κάποια άλλη σελίδα τυχαία Τιμές για το β: Καταφέρνει να βγει από την παγίδα μετά από κάποιες χρονικές στιγμές Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 43 Επεκτάσεις (τυχαίο άλμα) Επέκταση Μοντέλου Αρχικός ορισμός του PageRank για μια σελίδα Α: PR(A) = PR(T1)/C(T1) PR(Tn)/C(Tn) Ορισμός με τον παράγοντας απόσβεσης d (damping factor) μεταξύ του 0 και του 1 PR(A) = (1 d)/n + d (PR(T1)/C(T1) PR(Tn)/C(Tn)) Ώστε το άθροισμα να είναι 1 > 1 d/n Ο πρώτος παράγοντας λέει ότι με την ίδια πιθανότητα διαλέγω οποιαδήποτε σελίδα όπου d, είναι 1 β Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 44 Εξόρυξη Δεδομένων

23 Επεκτάσεις (τυχαίο άλμα) Κατασκευή του ΝxΝπίνακαΑ A ij = βm ij + (1 β)/n Ο A είναι στοχαστικός πίνακας Το page rank διάνυσμα r είναι το βασικό ιδιοδιάνυσμα αυτού του πίνακα r = Ar Ισοδύναμα, r είναι stationary distribution των τυχαίων περιπάτων με μεταπηδήσεις (random walk with teleports) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 45 Παράδειγμα (d=0.8) Επεκτάσεις (τυχαίο άλμα) Yahoo 1/2 1/ / /2 1 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 Amazon M soft y 7/15 7/15 1/15 a 7/15 1/15 1/15 m 1/15 7/15 13/15 y a = m /11 5/11 21/11 Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 46 Εξόρυξη Δεδομένων

24 Επεκτάσεις (τυχαίο άλμα) Μοντέλο Τυχαίου Surfer (φυσική ερμηνεία) Ένας τυχαίος surfer ξεκινάαπόμιατυχαίασελίδακαισυνεχίζεινα κάνει click σε links, χωρίς να επιστρέφει σε προηγούμενη σελίδα αλλά τελικά βαριέται και ξεκινά από κάποια άλλη τυχαία σελίδα Το d (ο παράγοντας απόσβεσης) εκφράζει τη πιθανότητα σε κάθε σελίδα ο τυχαίος surfer να βαρεθεί και να αρχίσει από κάποια άλλη τυχαία σελίδα Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 47 Επεκτάσεις (τυχαίο άλμα) Διατύπωση της επέκτασης με μεταπηδήσεις με τη μορφή πίνακα Έστω Ν σελίδες Έστω σελίδα j, με ένα σύνολο outlinks O(j) M ij = 1/ O(j) αν j > i and M ij = 0 otherwise Η τυχαία μεταπήδηση είναι ισοδύναμη με το Να προσθέσουμε ένα τυχαίο link από το j σε οποιαδήποτε άλλη σελίδα με (1 β)/n Ελάττωση της πιθανότητας να ακολουθήσουμε ένα outlink από 1/ O(j) σε β/ O(j) Ήισοδύναμα: χρέωσε σε κάθε σελίδα ένα ποσοστό (1 β) της τιμής της και κάνε κατανομή αυτού ομοιόμορφα Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 48 Εξόρυξη Δεδομένων

25 Επεκτάσεις (αδιέξοδα) Αδιέξοδα Οι σελίδες χωρίς outlinks για τον τυχαίο surfer Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 49 Επεκτάσεις (αδιέξοδα) Yahoo 1/2 1/ / /2 0 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 Amazon M soft y 7/15 7/15 1/15 a 7/15 1/15 1/15 m 1/15 7/15 1/15 y a = m Μη στοχαστικό! Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 50 Εξόρυξη Δεδομένων

26 Επεκτάσεις (αδιέξοδα) Χειρισμός αδιεξόδων (deadend) Μεταπήδηση Για αδιέξοδα, ακολούθησε τυχαία μεταπήδηση με πιθανότητα 1 Τροποποίησε τον πίνακα Ψαλίδισε τα αδιέξοδα και αναπροσάρμοσε το γράφο Προ επεξεργασία του γράφου για σβήσιμο των αδιεξόδων Πιθανών πολλαπλές επαναλήψεις Υπολογισμός page rank στον ελαττωμένο γράφο Υπολογισμός προσεγγιστικών τιμών για αδιέξοδα μεταφέροντας τις τιμές από τον ελαττωμένο γράφο Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 51 O Αλγόριθμος PageRank ΜιασελίδαμπορείναέχειυψηλόPR αν: υπάρχουν πολλές σελίδες που δείχνουν σε αυτήν, ή όταν κάποιες σελίδες που δείχνουν σε αυτήν έχουν υψηλό PR Καιοιδύοπεριπτώσειςέχουνσημασία: Πχ στη δεύτερη περίπτωση αν υπάρχει link από πχ Yahoo! Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 52 Εξόρυξη Δεδομένων

27 Spam Content spam Link spam Google bombing: Προσθήκη αναφορών που επηρεάζουν άμεσα το PR Link farms: Σελίδες που αναφέρονται η μία στην άλλη Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 53 PageRank συνέχεια Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 54 Εξόρυξη Δεδομένων

28 O Αλγόριθμος PageRank Αν δούμε το Web ως γράφo, θέλουμε να βρούμε τους σημαντικούς/κεντρικούς κόμβους Με βάση το PageRank: Ένας κόμβος είναι σημαντικός αν συνδέεται με σημαντικούς κόμβους Μια ποσότητα σε κάθε σελίδα (κόμβο) H ποσότητα εξαρτάται από πόσες σελίδες δείχνουν σε αυτήν και μοιράζεται στις σελίδες που δείχνει (αναδρομικός ορισμός) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 55 O Αλγόριθμος PageRank Παράδειγμα Κάθε κόμβος μια αρχική τιμή PageRank την οποία μοιράζει ισοδύναμα στους κόμβους στους οποίους δείχνει Πχ κάθε ακμή Του κόμβου 2 έχει ½ Του κόμβου 3 έχει 1 κλπ Ισοδύναμα, η πιθανότητα μετάβασης σε κάποιον κόμβο Random walks (τυχαίοι περίπατοι) M o Πίνακας Γειτνίασης (Πίνακας μετάβασης για αλυσίδες Markov) r το διάνυσμα PageRank r = M r Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 56 Εξόρυξη Δεδομένων

29 O Αλγόριθμος PageRank Παράδειγμα M o Πίνακας Γειτνίασης,r το διάνυσμα PageRank r = M r r είναι το ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή λ = 1 (είναι η μεγαλύτερη ιδιοτιμή, επειδή ο πίνακας είναι column stochastic) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 57 O Αλγόριθμος PageRank Teleport Πίνακας Α A ij = β M ij + (1 β)/n Fly out probability r = Ar Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 58 Εξόρυξη Δεδομένων

30 O Αλγόριθμος PageRank Θεματικό PageRank (Topic Specific PageRank) Υπολογισμός δημοτικότητας (popularity) για κάποιο θέμα E.g., computer science, health Bias the random walk Όταν ο τυχαίος περιπατητής teleports, επιλέγει μια σελίδα από ένα σύνολο S σελίδων του παγκόσμιου ιστού S περιέχει μόνο σελίδες που είναι σχετικές με ένα θέμα Πχ., Open Directory (DMOZ) σελίδες για κάποιο θέμα (www.dmoz.org) Για κάθε σύνολο teleport S, διαφορετικό διάνυσμα r S Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 59 O Αλγόριθμος HITS d 3 d 4 d 1 d A = hd ( ) = ad ( ) i dj OUT( di) ad ( ) = hd ( ) i dj IN( di) v v v v T h = Aa; a = A h v v T v T v h = AA h; a = A Aa j j Πίνακας Γειτνίασης Αρχικές Τιμές: a=h=1 Iterate Normalize: i 2 2 ad ( ) = hd ( ) = 1 i i i Πάλι ιδιοδιανύσματα Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 60 Εξόρυξη Δεδομένων

31 HITS Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 61 Εισαγωγή Προβλήματα με τη χρήση της δομής των συνδέσεων του Web Δεν αρκεί να δείχνουν πολλές συνδέσεις Μια σύνδεση δε σημαίνει απαραίτητα θετική γνώμη (αναγνώριση για τη σελίδα ) (κάποιες συνδέσεις διαφημίσεις, αλλά navigation, κλπ) Μια αυθεντία (authority) για κάποιο θέμα σπάνια θα έχει link σε αντίπαλη αυθεντία στον ίδιο τομέα Οι αυθεντικές σελίδες σπάνια είναι περιγραφικές/αντιπροσωπευτικές Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 62 Εξόρυξη Δεδομένων

32 HITS ορισμοί ΟαλγόριθμοςHITS (Hyperlink Induced Topic Search) Για κάθε θέμα: δύο είδη σελίδων Αυθεντική (authority): Μια σελίδα που είναι αυθεντία σε ένα θέμα και αναγνωρίζεται ως τέτοια από άλλες σελίδες (δηλαδή, υπάρχουν πολλοί σύνδεσμοι σε αυτήν) Κομβικοί (hubs): Μια σελίδα που αναφέρεται σε μια αυθεντική σελίδα Βασική ιδέα: Οι σελίδες που αναφέρονται από άλλες σελίδες συχνάπρέπειναείναιαυθεντίες(authorities) Οι σελίδες που αναφέρουν πολλές άλλες σελίδες πρέπει να είναι καλά κομβικά σημεία (hubs) Κομβικοί Αυθεντικοί Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 63 O Αλγόριθμος HITS Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 64 Εξόρυξη Δεδομένων

33 O Αλγόριθμος HITS Βασική ιδέα του HITS Καλές αυθεντίες είναι αυτές στις οποίες αναφέρονται καλά κομβικά σημεία Καλάκομβικάσημείαείναιαυτάταοποίααναφέρονταισε καλές αυθεντίες Αναδρομική έκφραση Σημείωση: Αναθέτει σε κάθε σελίδα δύο τιμές για κάθε θέμα διάνυσμα h (hub) και α (authority) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 65 O Αλγόριθμος HITS Το web ως ένας κατευθυνόμενος γράφος Κόμβοι: ιστοσελίδες Ακμή από Α στον Β: η ιστοσελίδα Α έχει έναν υπερ σύνδεσμο στην ιστοσελίδα Β Ο αλγόριθμος χωρίζεται σε 2 φάσεις: Φάση Ι: (δειγματοληπτικό στάδιο) ένα σύνολο σελίδων που αποτελεί το βασικό σύνολο για κάποιο θέμα Φάση ΙΙ: (επαναληπτικό στάδιο) επεξεργασία του βασικού συνόλου για τον εντοπισμό καλών αυθεντικών και καλών κομβικών ιστοσελίδων Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 66 Εξόρυξη Δεδομένων

34 O Αλγόριθμος HITS Φάση Ι: Υπολογισμός βασικού συνόλου 1. Υπολογισμός αρχικού συνόλου: σύνολο ρίζα Κλασικοί μέθοδοι: πχανάκτησηόλωντωνσελίδωνπουπεριέχουντιςλέξεις κλειδιά (περιμένουμε ότι θα περιέχει (τουλάχιστον) αναφορέςπροςσχετικέςσελίδες) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 67 O Αλγόριθμος HITS Φάση Ι: Υπολογισμός βασικού συνόλου (διεύρυνση του συνόλου ρίζα) 2. + Σελίδες σύνδεσμοι: Σελίδα που είτε συμπεριλαμβάνει σύνδεσμο που να αναφέρεται σε έναν κόμβο p στο σύνολο ρίζα (p είναι αυθεντία) είτε Ένας κόμβος p στο σύνολο ρίζα (p είναι κομβικό σημείο) περιέχει σύνδεσμο που αναφέρεται σε αυτήν Βασικό Σύνολο: διεύρυνση του συνόλου ρίζα ώστε να περιλαμβάνει και τις σελίδες συνδέσμους Βασικές Ιστοσελίδες Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 68 Εξόρυξη Δεδομένων

35 O Αλγόριθμος HITS Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Κάθε βασική σελίδα p δύο τιμές: h p Συντελεστής Κομβικού Ρόλου (πολλούς δείκτες σε αυθεντικές) a p Συντελεστής Αυθεντικότητας (πολλοί δείκτες από κομβικές σε αυτήν) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 69 O Αλγόριθμος HITS Βασική διαφορά από τον Page Rank Δύο τιμές ανά σελίδα (αυθεντία κομβικό σημείο) Θεματικά υποσύνολα του web γράφου ξεκινάμε από το βασικό σύνολο Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 70 Εξόρυξη Δεδομένων

36 O Αλγόριθμος HITS Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Αρχικοποίηση, p, h p = 1 και α p = 1 Επαναληπτικά, αυξάνεται a p = Σ h q Βασικές σελίδες q που δείχνουν στην p h p = Σ α q Βασικές σελίδες q στιςοποίεςδείχνειηp Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 71 Πίνακας Γειτνίασης Αναπαράσταση με πίνακες Έστω το βασικό σύνολο σελίδων {1, 2,..., n} Πίνακας Γειτνίασης (adjacency matrix) B: n x n B[i, j] = 1 αν η σελίδα i περιέχει σύνδεσμο που δείχνει στη σελίδα j Έστω h = <h 1, h 2,, h n > το διάνυσμα συντελεστών κομβικών ρόλων και α = <α 1, α 2,..., α n > το διάνυσμα συντελεστών αυθεντικότητας (αντίστοιχο του r vector) Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 72 Εξόρυξη Δεδομένων

37 O Αλγόριθμος HITS Οι κανόνες ενημέρωσης Αρχικά h = B a 1ηεπανάληψη h = B B Τ h = (B B Τ )h 2ηεπανάληψη h = (B B Τ ) 2 h a = B Τ h a = B T B a = (B T B) a a = (B T B) 2 a Σύγκλιση στα ιδιοδιανύσματα του ΒΒ Τ και Β Τ Β αν κανονικοποιηθούν αρχικά οι συντελεστές Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 73 O Αλγόριθμος HITS Διατύπωσημετηνμορφήπίνακα(παράδειγμα) Netscape Amazon B = M soft n m a n m a B T = n m a B B T = h = BB T h = Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 74 Εξόρυξη Δεδομένων

38 O Αλγόριθμος HITS Προβλήματα Drifting: ότανένακομβικόσημείοπεριέχειπολλάθέματα Topic hijacking: όταν πολλές σελίδες από το ίδιο web site δείχνουν στο ίδιο δημοφιλές κόμβο Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 75 Λίγα ακόμη για τις μηχανές αναζήτησης Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 76 Εξόρυξη Δεδομένων

39 Google: Άλλα στοιχεία Anchor Text Το κείμενο που υπάρχει στα links έχει διαφορετική αντιμετώπιση Οι περισσότερες μηχανές αναζήτησης το συσχέτιζαν με τη σελίδα στην οποία εμφανίζεται Google και με τη σελίδα στην οποία δείχνει Πιο ακριβείς πληροφορίες για τις σελίδες που δείχνουν παρά για τις σελίδες στις οποίες εμφανίζονται Μπορεί να δείχνουν σε σελίδες που δεν έχουν κείμενο αλλά εικόνες, προγράμματα, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 77 Most of Google is implemented in C or C++ for efficiency and can run in either Solaris or Linux. Google: Αρχιτεκτονική The web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 78 Εξόρυξη Δεδομένων

40 Every web page has an associated ID number called a docid which is assigned whenever a new URL is parsed out of a web page. Google: Αρχιτεκτονική The indexing function is performed by the indexer and the sorter. The indexer reads the repository, uncompresses the documents, and parses them. document > a set of word occurrences called hits. Ηits: word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of "barrels", creating a partially sorted forward index. Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 79 Google: Αρχιτεκτονική Indexer: It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link. Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 80 Εξόρυξη Δεδομένων

41 Google: Αρχιτεκτονική URLresolver relative URLs -> absolute URLs -> docids. The sorter takes the barrels, which are sorted by docid and resorts them by wordid to generate the inverted index. + lexicon Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 81 Google: Αρχιτεκτονική The searcher is run by a web server uses the lexicon built by DumpLexicon together with the inverted index and the PageRanks to answer queries. Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 82 Εξόρυξη Δεδομένων

42 Κατηγορίες Εξόρυξης από το Web Εξόρυξη από το Web Εξόρυξη Περιεχομένου Εξόρυξη ομής Εξόρυξη Χρήσης Εξόρυξη περιεχομένου σελίδων Εξόρυξη αποτελεσμάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρμοσμένης (customized) χρήσης Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 83 Κατηγορίες Εξόρυξης από το Web PageRank, HITS Εξόρυξη από το Web Small-world models, Εξόρυξη Περιεχομένου Εξόρυξη ομής Εξόρυξη Χρήσης Εξόρυξη περιεχομένου σελίδων Εξόρυξη αποτελεσμάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρμοσμένης (customized) χρήσης Εξόρυξη Δεδομένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 84 Εξόρυξη Δεδομένων

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2008-2009 1

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2008-2009 1 Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό Ανάκτηση Κειμένου (εισαγωγικά θέματα) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Εξόρυξη Δεδομένων 2008-2009 1 Ανάκτηση Πληροφορίας Βάσεις

Διαβάστε περισσότερα

Μηχανές Αναζήτησης. Εξόρυξη εδοµένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1

Μηχανές Αναζήτησης. Εξόρυξη εδοµένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1 Μηχανές Αναζήτησης Εξόρυξη εδοµένων: Ακ. Έτος 2010-2011 ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1 Μηχανές Αναζήτησης Βασισμένες σε ευρετήρια: Αναζητούν σελίδες, τις δεικτοδοτούν και κατασκευάζουν ευρετήρια βασισμένα σε λέξεις

Διαβάστε περισσότερα

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML Θέματα Βάσεις ιαδικτύου Ο αλγόριθμος HITS Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Τι είναι η XML XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #14 Αναζήτηση στο Web Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

Ανάκτηση Κειμένου (εισαγωγικά θέματα)

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Ανάκτηση Κειμένου και από τον Παγκόσμιο Ιστό Ανάκτηση Κειμένου (εισαγωγικά θέματα) Δεδομένων: Ακ. Έτος 2006-2007 ΓΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Βάσεις Κειμένων (document

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 13η: 28/04/2014 1 Παράμετροι του μοντέλου PageRank 2 Ηπαράμετροςα(1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή

Διαβάστε περισσότερα

Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό

Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό 5.1 Βασικές Έννοιες Στην ενότητα αυτή παρουσιάζονται ορισµένες βασικές έννοιες σχετικά µε την Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό. Αρχικά δίνεται

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Εισαγωγή στην ανάλυση συνδέσμων

Εισαγωγή στην ανάλυση συνδέσμων Εισαγωγή στην ανάλυση συνδέσμων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μαρία Χαλκίδη Why link analysis? Why link analysis? The web is not just a collection of documents its hyperlinks are important!

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου E-commerce Networks & Applications Η διαφήμιση στο Internet Νίκος Κωνσταντίνου Εισαγωγή Ηαπλήδημιουργίαενόςsite δεν είναι πλέον αρκετή Μια επένδυση σε ανάπτυξη και συντήρηση δεν αποδίδει χωρίς διαφήμιση

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Πώς λειτουργεί το Google?

Πώς λειτουργεί το Google? Πώς λειτουργεί το Google? Στα άδυτα του Γίγαντα της Αναζήτησης! Το να ψάξουμε κάτι στο Google είναι κάτι τόσο καθημερινό για τους περισσότερους από εμάς, που το θεωρούμε δεδομένο. Αυτό που ίσως ξεχνάμε

Διαβάστε περισσότερα

Ο αλγόριθμος PageRank της Google

Ο αλγόριθμος PageRank της Google Ο αλγόριθμος PageRank της Google 1 Η μηχανή αναζήτησης Google Το Google ξεκίνησε σαν μια κολεγιακή εργασία από τον Larry Page και τον Sergey Brin το 1996 με σκοπό την κατασκευή μιας μηχανής αναζήτησης

Διαβάστε περισσότερα

Αναζήτηση στο ιαδίκτυο

Αναζήτηση στο ιαδίκτυο Αναζήτηση στο ιαδίκτυο Εισαγωγή url WWW καταλόγους (π.χ. Yahoo) Μηχανές Αναζήτησης τεράστιος, µη οµογενής µεταβάλλεται ραγδαία επικοινωνιακό κόστος Εισαγωγή Web URL = Universal Resource Locator http://www.ceid.upatras.gr/ir/

Διαβάστε περισσότερα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014 Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining Το Web Mining στοχεύει στην

Διαβάστε περισσότερα

Social Web: lesson #4

Social Web: lesson #4 Social Web: lesson #4 looking for relevant information browsing searching monitoring recommendations Information Retrieval the inverted index Google.com the pagerank algorithm the value of words the price

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Μελέτη Περίπτωσης: Random Surfer

Μελέτη Περίπτωσης: Random Surfer Μελέτη Περίπτωσης: Random Surfer Introduction to Programming in Java: An Interdisciplinary Approach Robert Sedgewick and Kevin Wayne Copyright 2008 March 1, 2016 11:10 tt Memex Memex. [Vannevar Bush, 1936]

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 17η: 23/05/2016 1 Spamming PageRank 2 (Link Spam Farms) Spamming: Παξαπιάλεζε ησλ κεραλώλ αλαδήηεζεο γηα λα απνθηεζεί πςειόηεξε δηάηαμε (ranking)

Διαβάστε περισσότερα

ΘΕΜΑ: ΤΕΧΝΟΛΟΓΙΕΣ ΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ ΚΑΙ ΟΙ ΕΦΑΡΜΟΓΕΣ ΤΟΥΣ ΣΤΙΣ ΤΡΕΧΟΥΣΕΣ WEB SEARCH ENGINES. ΕΠΟΠΤΗΣ ΚΑΘΗΓΗΤΗΣ: ΣΤΕΡΓΙΟΣ ΠΑΠΑΔΗΜΗΤΡΙΟΥ

ΘΕΜΑ: ΤΕΧΝΟΛΟΓΙΕΣ ΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ ΚΑΙ ΟΙ ΕΦΑΡΜΟΓΕΣ ΤΟΥΣ ΣΤΙΣ ΤΡΕΧΟΥΣΕΣ WEB SEARCH ENGINES. ΕΠΟΠΤΗΣ ΚΑΘΗΓΗΤΗΣ: ΣΤΕΡΓΙΟΣ ΠΑΠΑΔΗΜΗΤΡΙΟΥ ΤΕΙ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ:ΔΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΤΕΧΝΟΛΟΓΙΕΣ ΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ ΚΑΙ ΟΙ ΕΦΑΡΜΟΓΕΣ ΤΟΥΣ ΣΤΙΣ ΤΡΕΧΟΥΣΕΣ WEB SEARCH ENGINES. ΕΠΟΠΤΗΣ ΚΑΘΗΓΗΤΗΣ: ΣΤΕΡΓΙΟΣ

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη η: 09/0/00 Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης

Διαβάστε περισσότερα

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10 6 ΕΡΓΑΣΙΑ 1 «Η Μηχανή Αναζήτησης Google» 6 Εικόνα εξώφυλλου: Λωρίδα του Mobius. 2005. (Σύνθεση). Νικόλαος Μπαλκίζας 10 Η Μηχανή Αναζήτησης Google 7 Εισαγωγή Η εύρεση χρήσιμων πληροφορίων στον Παγκόσμιο

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις

Διαβάστε περισσότερα

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. ΕΡΓΑΣΙΑ 4 «Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. Στόχος Στόχος της Εργασίας 4 είναι να η εξοικείωση με την αντικειμενοστρέφεια (object oriented programming). Πιο συγκεκριμένα,

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΑ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ. Internet Software Consortium

ΤΕΧΝΟΛΟΓΙΑ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ. Internet Software Consortium SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ Internet Software Consortium 1 Μηχανές Αναζήτησης (ΜΑ) Οι μηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισμικού με την βοήθεια των οποίων οι χρήστες μπορούν να

Διαβάστε περισσότερα

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο 1 Πληροφορική: Τάσεις, Επιχειρηματικές Ευκαιρίες και Έρευνα ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ τμήματος Εφαρμοσμένης Πληροφορικής Πανεπιστημίου Μακεδονίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων 5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων http://ecourseschemengntuagr/courses/computational_methods_for_engineers/ Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων Γενικά:

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 14η: 30/05/2007 1 Η µέθοδος HITS Η µέθοδος

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Ο αλγόριθμος PAGE RANK και η βελτιστοποίησή του

Ο αλγόριθμος PAGE RANK και η βελτιστοποίησή του Ο αλγόριθμος PAGE RANK και η βελτιστοποίησή του Το περιεχόμενο της παρουσίασης βασίζεται στο: The Professional s Guide to PageRank Optimization http://www.scribd.com/doc/31056877/the Professionals Guide

Διαβάστε περισσότερα

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση Γαβαλάς Δαμιανός dgavalas@aegean.gr 1 Πως οι χρήστες εντοπίζουν ιστοσελίδες στο web; Tα ποσοστά συμμετοχής των μηχανών αναζήτησης

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

Τεχνικές Εξατομικευμένης Αναζήτησης στον Παγκόσμιο Ιστό

Τεχνικές Εξατομικευμένης Αναζήτησης στον Παγκόσμιο Ιστό ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Τεχνικές Εξατομικευμένης Αναζήτησης στον Παγκόσμιο Ιστό Πλέγας Ιωάννης ΑΜ:466 Μάρτιος 2008 Επιβλέπων καθηγητής: Καθ. κ. Μακρής Χρήστος @ Πανεπιστήμιο

Διαβάστε περισσότερα

Model) Retrieval Model)... 18

Model) Retrieval Model)... 18 Πανεπιστήμιο Πατρών Πολυτεχνική Σχολή Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Αποδοτική Ιεραρχημένη Ανάκτηση Κοινωνικού Περιεχομένου με Χρήση Ταξονομιών Ετικετών Κοντοτάσιου Ιωάννα ΑΜ:

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 26 Διάθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Web Searching I: History and Basic Notions, Crawling II: Link

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 9η: 25/04/2007 1 Τα µαθηµατικά του PageRank

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηπιορ Καηζαπόρ Διάλεξη 12η: 09/05/2016 Τμ. HMMY, Πανεπιστήμιο Θεσσαλίας 1 Ερπυστές στον Παγκόσμιο Ιστό 2 Sec. 20.2 Βασική λειτουργία του crawler

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D. Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 14η: 30/05/2007 1 Η µέθοδος HITS Η µέθοδος

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Χαρακτηριστική Εξίσωση Πίνακα

Χαρακτηριστική Εξίσωση Πίνακα Έστω ο n nτετραγωνικός πίνακας A της μορφής a L a M O M an L a όπου aij, i n, j n πραγματικές σταθερές Ονομάζουμε χαρακτηριστική εξίσωση του πίνακα A την εξίσωση A λi, όπου I ο n n μοναδιαίος πίνακας και

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

Βελτίωση της θέσης της ιστοσελίδας στις μηχανές αναζήτησης

Βελτίωση της θέσης της ιστοσελίδας στις μηχανές αναζήτησης Βελτίωση της θέσης της ιστοσελίδας στις μηχανές αναζήτησης Πέτρος Καρβέλης BSc, MSc Computer Science PhD Candidate Computer Science IT manager, Nextcom, Ioannina ΠΡΟΗΓΜΕΝΑ ΕΡΓΑΛΕΙΑ ΚΑΙ ΜΕΘΟΔΟΙ ΤΕΧΝΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

(C) 2010 Pearson Education, Inc. All rights reserved.

(C) 2010 Pearson Education, Inc. All rights reserved. Connectionless transmission with datagrams. Connection-oriented transmission is like the telephone system You dial and are given a connection to the telephone of fthe person with whom you wish to communicate.

Διαβάστε περισσότερα

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος Γιώργος Μικρός ΕΚΠΑ Γλωσσικά χαρακτηριστικά Θα αναλύσουμε την συχνότητα ορισμένων

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 17η: 21/05/2014 1 ΗμέθοδοςHITS Hypertext Induced Topic Search 2 Hypertext Induced Topic Search (HITS) Επινοήθηκε από τον Jon Kleinberg το 1998 Διαφορές

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 12: 07/04/2014 1 Τα μαθηματικά του PageRank 2 Η αρχική εξίσωση αθροίσματος Το PageRank μιας σελίδας είναι το άθροισμα του PageRank των σελίδων που

Διαβάστε περισσότερα

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση Πίνακες Διασποράς Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση κλειδί k T 0 1 2 3 4 5 6 7 U : χώρος πιθανών κλειδιών Τ : πίνακας μεγέθους

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιο λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών «Υλοποίηση Μηχανής Αναζήτησης βασισμένης στο PageRank με χρήση του Hadoop» «Implementation of a Pagerank-based Search Engine using

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 15η: 12/05/2014 1 Το πρόβλημα PageRank ως γραμμικό σύστημα 2 PageRank ως γραμμικό σύστημα Το πρόβλημα του PageRank μπορεί να γραφεί είτε ως Πρόβλημα

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO

ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO Βαμβακάς Χρήστος Τασούλης Κωνσταντίνος ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO INTERNET MARKETING Βασικότεροι τύποι: Social

Διαβάστε περισσότερα

Homework 3 Solutions

Homework 3 Solutions Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Σχέσεις, Ιδιότητες, Κλειστότητες

Σχέσεις, Ιδιότητες, Κλειστότητες Σχέσεις, Ιδιότητες, Κλειστότητες Ορέστης Τελέλης telelis@unipi.gr Τµήµα Ψηφιακών Συστηµάτων, Πανεπιστήµιο Πειραιώς Ο. Τελέλης Πανεπιστήµιο Πειραιώς Σχέσεις 1 / 26 Εισαγωγή & Ορισµοί ιµελής Σχέση R από

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο Βασικές Υπηρεσίες Διαδικτύου Επικοινωνίες Δεδομένων Μάθημα 2 ο Μεταφορά αρχείων (File Transfer Protocol, FTP) user at host FTP user interface FTP client local file system file transfer FTP server remote

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος του συγγραφέα... 13 Πρόλογος του καθηγητή Τιμολέοντα Σελλή... 15 ΚΕΦΑΛΑΙΟ 1: Εργαλεία γλωσσών προγραμματισμού...17 1.1 Γλώσσες προγραμματισμού τρίτης γεννεάς... 18 τι είναι η γλώσσα

Διαβάστε περισσότερα

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Αναζήτηση Πληροφοριών στο Διαδίκτυο Αναζήτηση Πληροφοριών στο Διαδίκτυο Πηγές Πληροφόρησης - Εργαλεία Αναζήτησης - Στρατηγικές Αναζήτησης ΤΕΙ ΚΡΗΤΗΣ Τμήμα Κοινωνικής Εργασίας Πληροφορική Ι Μια κινέζικη παροιμία λέει «Αν σού δώσω ένα ψάρι

Διαβάστε περισσότερα

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Κεφάλαιο 2.4 Matrix Algorithms

Κεφάλαιο 2.4 Matrix Algorithms Κεφάλαιο 2.4 Matrix Algorithms Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική Κατασκευή ΝxNxN Mesh of trees (1/3) Στον ΝxNxN κύβο προσθέτω τους εξής κόμβους:

Διαβάστε περισσότερα

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον Τμήμα Μηχανικών Πληροφορικής Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον Δρ. Δημήτρης Βαρσάμης Επίκουρος Καθηγητής Οκτώβριος 2014 Δρ. Δημήτρης Βαρσάμης Οκτώβριος 2014 1 / 42 Αριθμητικές Μέθοδοι

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1 WILD-CARD Ερωτήματα 2 Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν

Διαβάστε περισσότερα

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing). 1 Εισαγωγή στο Internet Marketing 1.1. Τι πρέπει να γνωρίζετε πριν ξεκινήσετε. 1.2. Εξοικείωση µε τα εργαλεία βελτιστοποίησης των µηχανών αναζήτησης. 2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

Διαβάστε περισσότερα