Ανάκτηση Κειμένου (εισαγωγικά θέματα)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ανάκτηση Κειμένου (εισαγωγικά θέματα)"

Transcript

1 Θέματα σχετικά με από τον Παγκόσμιο Ιστό Ανάκτηση Κειμένου (εισαγωγικά θέματα) Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Βάσεις Κειμένων (document databases) Μεγάλη συλλογή από κείμενα από διάφορες πηγές: [news artcles, research papers, books, dgtal lbrares, e-mal messages, and Web pages, lbrary database, etc.] Τα δεδομένα δεν ακολουθούν κάποιο αυστηρό μοντέλο ημιδομημένα sem-structured Informaton retreval Ανάκτηση Πληροφορίας Η πληροφορία οργανώνεται σε (ένα μεγάλο αριθμό) από κείμενα -documents Informaton retreval problem: εντοπισμός των σχετικών κειμένων (documents) με βάση την είσοδο του χρήστη όπως λέξεις κλειδιά ή παραδείγματα κειμένου IR συστήματα Κατάλογοι βιβλιοθηκών Onlne document management systems IR vs. DBMS Ενημερώσεις, επεξεργασία δοσοληψιών κλπ Ερωτήσεις με λέξεις κλειδιά, rankng(διαβάθμιση)/relevance Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 3 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 4 Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Βασικές έννοιες Ένα έγγραφο (document) αρχείο κειμένου μπορεί να περιγράφει από ένα σύνολο αντιπροσωπευτικών λέξεωνκλειδιά (keywords) που ονομάζονται όροι δεικτοδότησης - ndex terms. ιαφορετικοί όροι με διαφορετικό βαθμό σχετικότητας μπορούν να χρησιμοποιηθούν για την περιγραφή κειμένων με διαφορετικό περιεχόμενο Αυτό επιτυγχάνεται με την ανάθεση αριθμητικών βαρών (numercal weghts) σε κάθε όροι δεικτοδότησης του κειμένου (π.χ.: συχνότητα, tf-df) Αναλογία με Σ Β : Όροι εικτοδότησης Γνωρίσματα Βάρη Τιμές γνωρισμάτων Αναζήτηση με μια λέξη κλειδί (keyword queres). Αίτημα Boole (t t 2 t ) (t 2 t 22 t 22 ). (t j t j2 t jj ) Όπου τα t j είναι όροι έχουν ή όχι τους όρους 2. Αίτημα ιαβάθμισης (Rankng) βαθμός σχετικότητας Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 5 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 6

2 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 7 Ανάκτηση Πληροφορίας Ευρετηριοποίηση για την Ανάκτηση Κειμένου Βασικές Μετρικές Precson Ακρίβεια: το ποσοστό των ανακτημένων εγγράφων που είναι σχετικά με την ερώτηση (δηλαδή, το ποσοστό των «σωστών» απαντήσεων») Relevant Relevant & Retreved Retreved All Documents { Relevant} { Retreved} precson = { Retreved} Συνήθως, κατασκευάζονται ευρετήρια που περιέχουν ζεύγη <όρος, d-αρχείου> με πιθανών επιπλέον πεδία όπως η συχνότητα εμφάνισης του όρου στο αρχείο Παρόμοια, ευρετήρια χρησιμοποιούν και οι μηχανές αναζήτησης Recall Ανάκληση: το ποσοστό των σχετικών εγγράφων που ανακτούνται { Relevant} { Retreved} recall = { Relevant} Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 8 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Ευρετηριοποίηση για την Ανάκτηση Κειμένου Μια ταξινομημένη λίστα (ανεστραμμένη λίστα) (nverted fle, nverted lst, nverted ndex) για κάθε όρο Παράδειγμα Rd Λέξεις-Κλειδιά agent James Bond 2 agent moble computer 3 James Madson move 4 James Bond move Agent <,2> Bond <,4> Computer <2> James <,3,4> Madson <3> Moble <2> Move <3,4> Ευρετήριο Λεξιλογίου: Για τον ταχύτερο εντοπισμό της λίστας για κάθε όρο: Το σύνολο των όρων μπορεί να οργανωθεί με τη χρήση μιας δομής ευρετηρίου (π.χ. Β+-δέντρο) Στα φύλλα, δείκτες προς την αντίστοιχη ανεστραμμένη λίστα Παράδειγμα Ένας όρος, σύζευξη, διάζευξη Παράδειγμα ερωτήσεων Postngs (keyword, DocID) Ταξινόμηση κάθε λίστας με βάση το DocID Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 9 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 0 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Ευρετηριοποίηση για την Ανάκτηση Κειμένου Υπογραφή εγγράφου (Fle Sgnature) Μια εγγραφή ευρετηρίου για κάθε έγγραφο στη βάση δεδομένων Κάθε εγγραφή σταθερό μέγεθος b bts, εύρος της υπογραφής Κατασκευή της υπογραφής ενός αρχείου: Σε κάθε όρο που υπάρχει στο αρχείο, εφαρμόζεται μια συνάρτηση κατακερματισμού, που επιστρέφει ένα αριθμό από το ως το b και το αντίστοιχο bt της υπογραφής του αρχείου γίνεται Για μια ερώτηση, φτιάχνουμε την υπογραφή της και σαρώνουμε τις υπογραφές των αρχείων για να βρούμε κάποια που ταιριάζει False postves Αποφυγή σάρωσης όλου του αρχείου υπογραφών: Αρχείο υπογραφών με κατακόρυφο διαμερισμό σε μονοψήφιες στήλες: ιαμερίζουμε ένα αρχείο υπογραφών σε ένα σύνολο κατακόρυφων δυαδικών στηλών Για κ άσσους ανάκτηση κ-στηλών Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2

3 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 3 Boolean Model υαδικό Μοντέλο Το μοντέλο που είδαμε μέχρι στιγμής θεωρεί ότι οι όροι δεικτοδότησης είτε υπάρχουν είτε δεν υπάρχουν στο αρχείο (κείμενο) ηλαδή, τα βάρη είναι όλα δυαδικά (0 ή ) Οι ερωτήσεις είναι όροι συνδεδεμένοι με : not, and, και or πχ.: car and repar, plane or arplane Το δυαδικό μοντέλο προβλέπει ότι ένα αρχείο είναι είτε σχετικό είτε μη σχετικό με βάση ένα ταίριασμα της ερώτησης με το αρχείο Συχνότητα όρου term frequency : πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο Κανονικοποιημένο ώστε να αποφύγουμε να δώσουμε μεγαλύτερο βάρος σε μεγάλα έγγραφα Σημασία του όρου t σε ένα έγγραφο Τοπική μέτρηση tf = Μοντέλο με βάρη k n n k Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 4 Ανεστραμμένη συχνότητα εγγράφου (nverse document frequency) μετρά πόσο γενικά σημαντικός είναι ένας όρος tfdf = tf df Ολική μέτρηση D df = log { d : d t} D αριθμός εγγράφων Πόσα έγγραγφα τον περιέχουν Έγγραφα στα οποία ανήκει ο όρος t Μεγάλη τιμή όταν μεγάλη συχνότητα εμφάνισης (σε ένα συγκεκριμένο έγγραφο) και μικρή συχνότητα εμφάνισης του όρου σε όλη τη συλλογή Βάρος χρήσιμο για να αποφύγουμε κοινούς όρους Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 5 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 6 Άλλα Μοντέλα Ένας πίνακας με τη συχνότητα των όρων (term frequency table) Κάθε εγγραφή frequent_table(, j) = # of occurrences of the word t n document d Συνήθως, το ποσοστό (rato) αντί του πραγματικού αριθμού εμφανίσεων Vector Model Μοντέλο ιανυσμάτων Τα αρχεία και οι ερωτήσεις αναπαρίστανται ως m-διάστατα διανύσματα, όπου m είναι ο συνολικός αριθμός όρων στη συλλογή Ο βαθμός ομοιότητας ενός αρχείου d και μιας ερώτησης q υπολογίζεται ως η συνέλιξη τους, χρησιμοποιώντας μετρικές όπως η Ευκλείδεια απόσταση ή το συνημίτονο της γωνίας των δύο διανυσμάτων Smlarty metrcs μετρική ομοιότητας: μεταξύ ενός κειμένου και μιας ερώτησης (συνόλου από λέξεις-κλειδιά - όρους) Relatve term occurrences v v2 Cosne dstance: cos( v, v2) = v v2 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 7 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 8

4 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 9 Άλλα Θέματα Latent Semantc Indexng Βασική Ιδέα Smlar documents have smlar word frequences Dffculty: the sze of the term frequency matrx s very large Use a sngular value decomposton (SVD) technques to reduce the sze of frequency table Retan the K most sgnfcant rows of the frequency table Ρίζα λέξεων -Word stem Πολλές λέξεις είναι μικρές παραλλαγές αφού έχουν μια κοινή ρίζα E.g., drug, drugs, drugged Συνώνυμα - Synonymy: Ενώ η λέξη-κλειδί T δεν εμφανίζετε στο κείμενο αν και το κείμενο είναι σχετικό Πολυσημία - Polysemy: Η ίδια λέξη μπορεί να σημαίνει διαφορετικά πράγματα με βάση τα συμφραζόμενα Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 20 Άλλα Θέματα Stop lst Σύνολο λέξεων που δεν είναι σχετικά αν και εμφανίζονται συχνά, πχ, a, the, of, for, to, wth, etc. Μηχανές Αναζήτησης Οντολογίες -Wordnet Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 22 Μηχανές Αναζήτησης Μηχανές Αναζήτησης Βασισμένες σε ευρετήρια: Αναζητούν σελίδες, τις δεικτοδοτούν και κατασκευάζουν τεράστια ευρετήρια βασισμένα σε λέξεις κλειδιά Χρήσιμες για τον εντοπισμό σελίδων που περιέχουν συγκεκριμένες λέξεις κλειδιά Θα δούμε Page Rank HITS Προβλήματα Ένα θέμα μπορεί να περιέχει χιλιάδες έγγραφα Πολλά σχετικά με κάποιο θέμα έγγραφα μπορεί να μην περιέχουν τις λέξεις κλειδιά που το προσδιορίζουν Και οι δύο εκμεταλλεύονται την ύπαρξη lnks συνδέσεων ανάμεσα στις σελίδες Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 23 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 24

5 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 25 PageRank: εισαγωγή PageRank: Capturng Page Popularty (Brn & Page 98) PageRank Ο αρχικός αλγόριθμος του google, παρουσιάστηκε στην κλασική εργασία: The Anatomy of a Large Scale Hypertextual Web Search Engne, Sergey Brn and Lawrence Page Η εργασία περιλαμβάνει μια πολύ ενδιαφέρουσα «ιστορικής σημασίας» εισαγωγή We chose our system name, Google, because t s a common spellng of googol, or 0 00 and fts well wth our goal of buldng very large-scale search engnes. The verb, "google", was added to the Merram Webster Collegate Dctonary and the Oxford Englsh Dctonary n 2006, meanng, "to use the Google search engne to obtan nformaton on the Internet." (source: Wkpeda) Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 26 PageRank: Βασική Ιδέα PageRank: Βασική Ιδέα Βασική Ιδέα Ακόμα και αν ένα τεράστιο ευρετήριο με όλες τις λέξεις και τι σελίδες -> αυτόπουέχεισημασίαείναιοισημαντικέςσελίδες(precson vs recall) ΣΤΟΧΟΣ: υπολογισμός μιας τιμής για κάθε σελίδα που να χαρακτηρίζει πόσο σημαντική είναι αυτή η σελίδα, η ποσότητα αυτή λέγεται page rank Οι Web pages δεν είναι όλες το ίδιο σημαντικές vs Αναφορές (Inlnks) ως «ψήφοι» -votes 23,400 nlnks nlnk Τι είναι σημαντικό οι συνδέσεις μια σελίδα που δέχεται πολλές αναφορές περιμένει κανείς να είναι γενικά πιο σημαντική Βασική Ιδέα (συνέχεια) Ο PageRank βασίζεται στην «μέτρηση αναφορών» ctaton countng, αλλά με μια βελτίωση: εν είναι όλες οι αναφορές το ίδιο σημαντικές! Θεωρεί «έμμεσες αναφορές» ndrect ctatons : αναφορές από σημαντικές σελίδες (δηλαδή, από σελίδες που επίσης έχουν πολλές αναφορές) θεωρούνται πιο σημαντικές Αναδρομικός ορισμός! Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 27 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 28 Ορισμός PageRank Ορισμός PageRank Παράδειγμα Απλή Αναδρομική ιατύπωση Η ψήφος κάθε ακμής (αναφοράς) είναι ανάλογη της σημαντικότητας (PR) της σελίδας από την οποία προέρχεται Υπάρχει μια γενική ποσότητα PR που μοιράζεται στις σελίδες του συστήματος. Έστω 4 σελίδες: A, B, C και D. Αρχική προσεγγιστική τιμή για καθεμία PR = 0.25 Έστω B, C, και D έχουν lnk μόνο στο A, τότε όλα το PageRank PR( ) τους θα μαζευόταν στο Α Αν μια σελίδα P με σημαντικότητα (PR) y έχει n outlnks, κάθε lnk παίρνει y/n ψήφους Έστω τώρα ότι η Β έχει lnk στη C, και η D έχει lnks και στο Β και στο C ΗτιμήτουPR μιας σελίδας μοιράζεται ανάμεσα στις εξωτερικές ακμές της Άρα η ψήφος της B έχει αξία για την Α 0.25 και 0.25 για την C. Αντίστοιχα, μόνο το /3 του PageRank του D μετρά για PageRank του Α (περίπου 0.083). Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 29 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 30

6 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 3 Ορισμός PageRank Απλό μοντέλο «ροής» - flow model Το web το 839 Γενικός ορισμός του PageRank για μια σελίδα Α: Έστω ότι η A έχει τις σελίδες T,...,Tn που δείχνουν σε αυτήν (δηλαδή, αναφορές) Έστω C(Τ) ο αριθμός των εξωτερικών ακμών μιας σελίδας T y a/2 Yahoo y/2 y/2 y = y /2 + a /2 a = y /2 + m m = a /2 PR(A) = PR(T)/C(T) PR(Tn)/C(Tn) Amazon m M soft a a/2 m Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 32 ιατύπωσημετηνμορφήπίνακα Λύση των εξισώσεων ροής 3 εξισώσεις, 3 άγνωστοι, όχι σταθερές Μη μοναδική λύση Οι λύσεις ισοδύναμες με κλιμάκωση (scale factor) Επιπρόσθετος περιορισμός για μοναδικότητα της λύσης y+a+m = (το συνολικό PR που μοιράζεται στις σελίδες) y = 2/5, a = 2/5, m = /5 Ο πίνακας M έχει μια γραμμή και μια στήλη για κάθε web σελίδα (πίνακας γειτνίασης) Έστω ότι η σελίδα j έχει n outlnks Αν j ->, τότε M j =/n Αλλιώς, M j =0 M είναι column stochastc matrx Οι στήλες έχουν άθροισμα Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 33 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 34 ιατύπωσημετηνμορφήπίνακα(παράδειγμα) Amazon Yahoo M soft y = y /2 + a /2 a = y /2 + m m = a /2 y a m y /2 /2 0 a /2 0 m 0 /2 0 Άθροισμα (οι ψήφοι του y) ιατύπωσημετηνμορφήπίνακα Έστω r ένα διάνυσμα με μια εγγραφή web σελίδα r είναι η σημαντικότητα (PR) της σελίδας r: rank vector [PR(y) PR(a) PR(m)] Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 35 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 36

7 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 37 Yahoo PR ιάνυσμα (παράδειγμα) y a m y /2 /2 0 a /2 0 m 0 /2 0 Έστω ότι η σελίδα j έχει lnks σε 3 σελίδες, συμπεριλαμβανομένου του j Amazon M soft r = Mr /3 = y = y /2 + a /2 a = y /2 + m m = a /2 y /2 /2 0 y a = /2 0 a m 0 /2 0 m M r r Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 38 Ιδιοδιανύσματα (egenvectors) Οι εξισώσεις ροής μπορούν να γραφούν Power Iteraton method Επαναληπτική Μέθοδο Ένα απλό επαναληπτικό σχήμα (relaxaton) Έστω N web σελίδες r = Mr ηλαδή, ο rank vector είναι ένα ιδιοδιάνυσμα (egenvector) του στοχαστικού πίνακα γειτνίασης του web Συγκεκριμένα είναι το βασικό ιδιοδιάνυσμα (αυτό που αντιστοιχεί στην ιδιοτιμή λ = ) Αρχικοποίηση: r 0 = [/N,.,/N] T Επανάληψη: r k+ = Mr k Τερματισμός όταν r k+ - r k < ε x = N x είναι L norm Μπορεί να χρησιμοποιηθούν και άλλες μετρικές, πχ Ευκλείδεια Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 39 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 40 Amazon y a = m Yahoo /3 /3 /3 Παράδειγμα M soft /3 /2 /6 5/2 /3 /4 y a m y /2 /2 0 a /2 0 m 0 /2 0 3/8 /24 /6... Συγκλίνει; Μοναδική Λύση; 2/5 2/5 /5 Μοντέλο Τυχαίου ικτυακού Περιηγητή Surfer- (random walk) Tο PageRank μιας σελίδας μπορεί επίσης να θεωρηθεί ότι εκφράζει την πιθανότητα ένας τυχαίος περιηγητής να φτάσει σε αυτήν (δηλαδή, εκφράζει πόσο δημοφιλής είναι) Ένας τυχαίος περιηγητής ξεκινά από μια τυχαία σελίδα και συνεχίζει να κάνει clck σε lnks, χωρίς να επιστρέφει σε προηγούμενη σελίδα Τη χρονική στιγμή t, ο περιηγητής είναι σε κάποια σελίδα P Τη χρονική στιγμή t+, ο περιηγητής ακολουθεί ένα εξωτερικό lnk - outlnk του P τυχαία (unformly at random) Φτάνει σε κάποια σελίδα Q του P Συνεχίζει την παραπάνω διαδικασία επ άπειρων Έστω p(t) το διάνυσμα του οποίου το -οστό στοιχείο είναι η πιθανότητα ο περιηγητής να είναι στη σελίδα τη χρονική στιγμή t p(t) probablty dstrbuton - κατανομή πιθανότητας στις σελίδες Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 4 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 42

8 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 43 The statonary dstrbuton Που είναι ο περιηγητής τη χρονική στιγμή t+? Ακολουθεί ένα lnk unformly at random p(t+) = M p(t) Έστω ότι ο τυχαίος περίπατος φτάνει μια κατάσταση όπου p(t+) = M p(t) = p(t) Τότε p(t) ονομάζεται statonary dstrbuton για τον τυχαίο περίπατο Επειδή ο πίνακας r ικανοποιεί την r = Mr είναι statonary dstrbuton για τον τυχαίο περιηγητή Βασικό αποτέλεσμα από τη θεωρία τυχαίων περιπάτων (και Markov processes): Για γράφους που ικανοποιούν συγκεκριμένες συνθήκες, η statonary dstrbuton είναι μοναδική και τελικά φτάνουμε σε αυτήν ανεξάρτητα από την αρχική κατανομή πιθανότητας τη χρονική στιγμή t = 0 (σύγκλιση). Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 44 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) Spder traps (παράδειγμα) Spder traps Yahoo y a m Μια ομάδα σελίδων είναι μια αραχνο-παγίδα spder trap αν δεν υπάρχουν ακμές από την ομάδα σε σελίδες εκτός της ομάδας Οτυχαίοςsurfer παγιδεύεται Amazon M soft y /2 /2 0 a /2 0 0 m 0 /2 Οι συνθήκες που χρειάζονται για το θεώρημα των τυχαίων περιπάτων παύουν να ισχύουν y a = m /2 3/2 3/4 /2 7/4 5/8 3/ Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 45 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 46 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) Επέκταση Μοντέλου Επέκταση Μοντέλου Σε κάθε βήμα, ο τυχαίος surfer έχει δύο δυνατότητες: Με πιθανότητα β, ακολουθεί ένα τυχαίο lnk Με πιθανότητα -β πετάγεται σε κάποια άλλη σελίδα τυχαία Τιμές για το β: Καταφέρνει να βγει από την παγίδα μετά από κάποιες χρονικές στιγμές Αρχικός ορισμός του PageRank για μια σελίδα Α: PR(A) = PR(T)/C(T) PR(Tn)/C(Tn) Ορισμός με τον παράγοντας απόσβεσης d (dampng factor) μεταξύ του 0 και του PR(A) = (-d) + d (PR(T)/C(T) PR(Tn)/C(Tn)) Ώστε το άθροισμα να είναι > -d/n Ο πρώτος παράγοντας με την ίδια πιθανότητα διαλέγω οποιαδήποτε σελίδα Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 47 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 48

9 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 49 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) Παράδειγμα (d=0.8) Μοντέλο Τυχαίου Surfer (φυσική ερμηνεία) Ένας τυχαίος surfer ξεκινά από μια τυχαία σελίδα και συνεχίζει να κάνει clck σε lnks, χωρίς να επιστρέφει σε προηγούμενη σελίδα αλλά τελικά βαριέται και ξεκινά από κάποια άλλη τυχαία σελίδα Το d (ο παράγοντας απόσβεσης) είναι η πιθανότητα σε κάθε σελίδα ο τυχαίος surfer να βαρεθεί και να αρχίσει από κάποια άλλη τυχαία σελίδα Amazon y a = m Yahoo M soft /2 / / / y 7/5 7/5 /5 a 7/5 /5 /5 m /5 7/5 3/ /3 /3 /3 /3 /3 /3 /3 /3 /3 7/ 5/ 2/ Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 50 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) ιατύπωση της επέκτασης με μεταπηδήσεις με τη μορφή πίνακα Έστω Ν σελίδες Έστω σελίδα j, με ένα σύνολο outlnks O(j) M j = / O(j) αν j-> and M j = 0 otherwse Η τυχαία μεταπήδηση είναι ισοδύναμη με το Να προσθέσουμε ένα τυχαίο lnk από το j σε οποιαδήποτε άλλη σελίδα με (-β)/n Ελάττωση της πιθανότητας να ακολουθήσουμε ένα outlnk από / O(j) σε β/ O(j) Ή ισοδύναμα: χρέωσε σε κάθε σελίδα ένα ποσοστό (-β) της τιμής της και κάνε κατανομή αυτού ομοιόμορφα Κατασκευή του ΝxΝ πίνακαα A j = βm j + (-β)/n Ο A είναι στοχαστικός πίνακας Το page rank διάνυσμα r είναι το βασικό ιδιοδιάνυσμα αυτού του πίνακα r = Ar Ισοδύναμα, r είναι statonary dstrbuton των τυχαίων περιπάτων με μεταπηδήσεις (random walk wth teleports) Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 5 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 52 Επεκτάσεις (αδιέξοδα) Επεκτάσεις (αδιέξοδα) Αδιέξοδα Yahoo /2 /2 0 /3 /3 /3 0.8 / /3 /3 /3 0 /2 0 /3 /3 /3 Οι σελίδες χωρίς outlnks για τον τυχαίο surfer Amazon M soft y 7/5 7/5 /5 a 7/5 /5 /5 m /5 7/5 /5 y a = m Μη στοχαστικό! Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 53 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 54

10 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 55 Επεκτάσεις (αδιέξοδα) O Αλγόριθμος PageRank Χειρισμός αδιεξόδων (dead-end) Μεταπήδηση Για αδιέξοδα, ακολούθησε τυχαία μεταπήδηση με πιθανότητα Τροποποίησε τον πίνακα Ψαλίδισε τα αδιέξοδα και αναπροσάρμοσε το γράφο Προ-επεξεργασία τους γράφου για σβήσιμο των αδιεξόδων Πιθανών πολλαπλές επαναλήψεις Υπολογισμός page rank στον ελαττωμένο γράφο Υπολογισμός προσεγγιστικών τιμών για αδιέξοδα μεταφέροντας τις τιμές από τον ελαττωμένο γράφο ΜιασελίδαμπορείναέχειυψηλόPR αν υπάρχουν πολλές σελίδες που δείχνουν σε αυτήν ή όταν κάποιες σελίδες που δείχνουν σε αυτήν έχουν υψηλό PR Και οι δύο περιπτώσεις έχουν σημασία: Πχ στη δεύτερη περίπτωση αν υπάρχει lnk από πχ Yahoo! Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 56 Spamdexng Content spam Lnk spam Google bombng: PageRank συνέχεια Προσθήκη αναφορών που επηρεάζουν άμεσα το PR Lnk farms: Σελίδες που αναφέρονται η μία στην άλλη Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 57 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 58 O Αλγόριθμος PageRank O Αλγόριθμος PageRank Παράδειγμα Αν δούμε το Web ως γράφo, θέλουμε να βρούμε τους σημαντικούς/κεντρικούς κόμβους Με βάση το PageRank: Ένας κόμβος είναι σημαντικός αν συνδέεται με σημαντικούς κόμβους Μια ποσότητα σε κάθε σελίδα (κόμβο) H ποσότητα εξαρτάται από πόσες σελίδες δείχνουν σε αυτήν και μοιράζεται στις σελίδες που δείχνει (αναδρομικός ορισμός) Κάθε κόμβος μια αρχική τιμή PageRank την οποία μοιράζει ισοδύναμα στους κόμβους στους οποίους δείχνει Πχ κάθε ακμή Του κόμβου 2 έχει ½ Του κόμβου 5 έχει κλπ Ισοδύναμα, η πιθανότητα μετάβασης σε κάποιον κόμβο Random walks (τυχαίοι περίπατοι) M o Πίνακας Γειτνίασης (Πίνακας μετάβασης για αλυσίδες Markov) r το διάνυσμα PageRank r = M r Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 59 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 60

11 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 6 O Αλγόριθμος PageRank O Αλγόριθμος PageRank Παράδειγμα Teleport M o Πίνακας Γειτνίασης, r το διάνυσμα PageRank r = M r r είναι το ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή λ = (είναι η μεγαλύτερη ιδιοτιμή, επειδή ο πίνακας είναι column-stochastc) Πίνακας Α A j = β M j + (-β)/n Fly-out probablty r = Ar Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 62 O Αλγόριθμος PageRank Θεματικό PageRank (Topc-Specfc PageRank) Υπολογισμός δημοτικότητας (popularty) για κάποιο θέμα E.g., computer scence, health HITS Bas the random walk Όταν ο τυχαίος περιπατητής teleports, επιλέγει μια σελίδα από ένα σύνολο S σελίδων του παγκόσμιου ιστού S περιέχει μόνο σελίδες που είναι σχετικές με ένα θέμα Πχ., Open Drectory (DMOZ) σελίδες για κάποιο θέμα ( Για κάθε σύνολο teleport S, διαφορετικό διάνυσμα r S Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 63 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 64 Εισαγωγή HITS ορισμοί ΟαλγόριθμοςHITS (Hyperlnk-Induced Topc Search) Προβλήματα με τη χρήση της δομής των συνδέσεων του Web εν αρκεί να δείχνουν πολλές συνδέσεις Μια σύνδεση δε σημαίνει απαραίτητα θετική γνώμη (αναγνώριση για τη σελίδα ) (κάποιες συνδέσεις διαφημίσεις, αλλά navgaton, κλπ) Μια αυθεντία (authorty) για κάποιο θέμα σπάνια θα έχει lnk σε αντίπαλη αυθεντία στον ίδιο τομέα Οι αυθεντικές σελίδες σπάνια είναι περιγραφικές/αντιπροσωπευτικές Για κάθε θέμα: δύο είδη σελίδων Αυθεντική (authorty): Μια σελίδα που είναι αυθεντία σε ένα θέμα και αναγνωρίζεται ως τέτοια από άλλες σελίδες (δηλαδή, υπάρχουν πολλοί σύνδεσμοι σε αυτήν) Κομβικοί (hubs): Μια σελίδα που αναφέρεται σε μια αυθεντική σελίδα Βασική ιδέα: Οι σελίδες που αναφέρονται από άλλες σελίδες συχνά πρέπει να είναι αυθεντίες (Authortes) Οι σελίδες που αναφέρουν πολλές άλλες σελίδες πρέπει να είναι καλά κομβικά σημεία (hubs) Κομβικοί Αυθεντικοί Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 65 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 66

12 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 67 Βασική ιδέα του HITS Καλές αυθεντίες είναι αυτές στις οποίες αναφέρονται καλά κομβικά σημεία Καλά κομβικά σημεία είναι αυτά τα οποία αναφέρονται σε καλές αυθεντίες Αναδρομική έκφραση Σημείωση: Αναθέτει σε κάθε σελίδα δύο τιμές για κάθε θέμα διάνυσμα h (hub) και α (authorty) Το web ως ένας κατευθυνόμενος γράφος Κόμβοι: ιστοσελίδες Ακμή από Α στον Β: η ιστοσελίδα Α έχει έναν υπερ-σύνδεσμο στην ιστοσελίδα Β Ο αλγόριθμος χωρίζεται σε 2 φάσεις: Φάση Ι: (δειγματοληπτικό στάδιο) ένα σύνολο σελίδων που αποτελεί το βασικό σύνολο για κάποιο θέμα Φάση ΙΙ: (επαναληπτικό στάδιο) επεξεργασία του βασικού συνόλου για τον εντοπισμό καλών αυθεντικών και καλών κομβικών ιστοσελίδων Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 68 Φάση Ι: Υπολογισμός βασικού συνόλου Φάση Ι: Υπολογισμός βασικού συνόλου (διεύρυνση του συνόλου ρίζα). Υπολογισμός αρχικού συνόλου: σύνολο-ρίζα Κλασικοί μέθοδοι: πχ ανάκτηση όλων των σελίδων που περιέχουν τις λέξεις κλειδιά (περιμένουμε ότι θα περιέχει (τουλάχιστον) αναφορές προς σχετικές σελίδες) 2. + Σελίδες-σύνδεσμοι: Σελίδα που είτε συμπεριλαμβάνει σύνδεσμο που να αναφέρεται σε έναν κόμβο p στο σύνολο ρίζα (p είναι αυθεντία) είτε Ένας κόμβος p στο σύνολο ρίζα (p είναι κομβικό σημείο) περιέχει σύνδεσμο που αναφέρεται σε αυτήν Βασικό Σύνολο: διεύρυνση του συνόλου-ρίζα ώστε να περιλαμβάνει και τις σελίδες συνδέσμους Βασικές Ιστοσελίδες Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 69 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 70 Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Κάθε βασική σελίδα p δύο τιμές: h p - Συντελεστής Κομβικού Ρόλου (πολλούς δείκτες σε αυθεντικές) a p - Συντελεστής Αυθεντικότητας (πολλοί δείκτες από κομβικές σε αυτήν) Βασική διαφορά από τον Page Rank ύο τιμές ανά σελίδα (αυθεντία κομβικό σημείο) Θεματικά υποσύνολα του web γράφου - ξεκινάμεαπότοβασικό σύνολο Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 7 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 72

13 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 73 Πίνακας Γειτνίασης Αναπαράσταση με πίνακες Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Αρχικοποίηση, p, h p = και α p = Επαναληπτικά, αυξάνεται a p = Σ h q Βασικές σελίδες q που δείχνουν στην p h p = Σα q Βασικές σελίδες q στις οποίες δείχνει η p Έστω το βασικό σύνολο σελίδων {, 2,..., n} Πίνακας Γειτνίασης (adjacency matrx) B: n x n B[, j] = αν η σελίδα περιέχει σύνδεσμο που δείχνει στη σελίδα j Έστω h = <h, h 2,, h n > το διάνυσμα συντελεστών κομβικών ρόλων και α = <α, α 2,..., α n > το διάνυσμα συντελεστών αυθεντικότητας (αντίστοιχο του r vector) Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 74 ιατύπωσημετηνμορφήπίνακα(παράδειγμα) Οι κανόνες ενημέρωσης Αρχικά h = B a η επανάληψη h = B B Τ h = (B B Τ )h 2η επανάληψη h = (B B Τ ) 2 h a = B Τ h a = B T B a = (B T B) a a = (B T B) 2 a Σύγκλιση στα ιδιοδιανύσματα του ΒΒ Τ και Β Τ Β αν κανονικοποιηθούν αρχικά οι συντελεστές Amazon h = BB T h Netscape B = M soft n m a n m a B T = n m a 3 2 B B T = = Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 75 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 76 d 3 d 4 d d A = Πίνακας Γειτνίασης Αρχικές Τιμές: a=h= hd ( ) = ad ( ) d j OUT ( d) ad ( ) = hd ( ) d j IN( d) v v v v T h = Aa; a = A h v v T v T v h = AA h; a = A Aa j j Iterate Normalze: 2 2 ad ( ) = hd ( ) = Προβλήματα Drftng: όταν ένα κομβικό σημείο περιέχει πολλά θέματα Topc hjackng: όταν πολλές σελίδες από το ίδιο web ste δείχνουν στοίδιοδημοφιλέςκόμβο Agan egenvector problems Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 77 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 78

14 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 79 Google: Άλλα στοιχεία Anchor Text Λίγα ακόμη για τις μηχανές αναζήτησης Το κείμενο που υπάρχει στα lnks έχει διαφορετική αντιμετώπιση Οι περισσότερες μηχανές αναζήτησης το συσχέτιζαν με τη σελίδα στην οποία εμφανίζεται Google και με τη σελίδα στην οποία δείχνει Πιο ακριβείς πληροφορίες για τις σελίδες που δείχνουν παρά για τις σελίδες στις οποίες εμφανίζονται Μπορεί να δείχνουν σε σελίδες που δεν έχουν κείμενο αλλά εικόνες, προγράμματα, κλπ Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 80 Most of Google s mplemented n C or C++ for effcency and can run n ether Solars or Lnux. The web crawlng (downloadng of web pages) s done by several dstrbuted crawlers. There s a URLserver that sends lsts of URLs to be fetched to the crawlers. Google: Αρχιτεκτονική Every web page has an assocated ID number called a docid whch s assgned whenever a new URL s parsed out of a web page. The ndexng functon s performed by the ndexer and the sorter. The ndexer reads the repostory, uncompresses the documents, and parses them. document -> a set of word occurrences called hts. Ηts: word, poston n document, an approxmaton of font sze, and captalzaton. The ndexer dstrbutes these hts nto a set of "barrels", creatng a partally sorted forward ndex. Google: Αρχιτεκτονική The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages nto a repostory. Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 8 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 82 Google: Αρχιτεκτονική Google: Αρχιτεκτονική Indexer: It parses out all the lnks n every web page and stores mportant nformaton about them n an anchors fle. Ths fle contans enough nformaton to determne where each lnk ponts from and to, and the text of the lnk. URLresolver relatve URLs -> absolute URLs -> docids. The sorter takes the barrels, whch are sorted by docid and resorts them by wordid to generate the nverted ndex. + lexcon Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 83 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 84

15 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 85 Google: Αρχιτεκτονική The searcher s run by a web server uses the lexcon bult by DumpLexcon together wth the nverted ndex and the PageRanks to answer queres. Παγκόσμιου Ιστού Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 86 Εισαγωγή Εισαγωγή The WWW s huge, wdely dstrbuted, global nformaton servce center for ΥΠΗΡΕΣΙΕΣ - Informaton servces: news, advertsements, consumer nformaton, fnancal management, educaton, government, e-commerce, etc. ΣΥΝ ΕΣΜΟΙ - Hyper-lnk nformaton ΠΛΗΡΟΦΟΡΙΑ ΧΡΗΣΗΣ - Access and usage nformaton WWW provdes rch sources for data mnng Challenges Too huge for effectve data warehousng and data mnng Too complex and heterogeneous: no standards and structure Growng and changng very rapdly Hosts Internet growth Broad dversty of user communtes 0 Sep-69 Sep-72 Sep-75 Only a small porton of the nformaton on the Web s truly relevant or useful 99% of the Web nformaton s useless to 99% of Web users How can we fnd hgh-qualty Web pages on a specfed topc? Sep-78 Sep-8 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 87 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 88 Κατηγορίες ς από το Web από το Web περιεχομένου σελίδων Περιεχομένου αποτελεσμάτων αναζήτησης από το Web ομής Ανίχνευση Γενικών Προτύπων Προσπέλασης Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης Ψάχνουμε για Web access patterns Web structures Regularty and dynamcs of Web contents Προβλήματα The abundance problem: ο αριθμός των σελίδων που συσχετίζονται με έναν όρο μπορεί να είναι πολύ μεγάλος Lmted coverage of the Web: hdden Web sources, majorty of data n DBMS Lmted query nterface based on keyword-orented search Lmted customzaton to ndvdual users Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 89 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 90

16 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 9 Κατηγορίες ς από το Web από το Web Κατηγορίες ς από το Web από το Web Περιεχομένου Web Page Content Mnng Web Page Summarzaton WebLog (Lakshmanan et.al. 996), WebOQL(Mendelzon et.al. 998): Web Structurng query languages; Can dentfy nformaton wthn gven web pages Ahoy! (Etzon et.al. 997):Uses heurstcs to dstngush personal home pages from other web pages ShopBot (Etzon et.al. 997): Looks for product prces wthn web pages αποτελεσμάτων αναζήτησης ομής Ανίχνευση Γενικών Προτύπων Προσπέλασης Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης περιεχομένου σελίδων Περιεχομένου ομής Αποτελεσμάτων Αναζήτησης Search Engne Result Summarzaton Clusterng Search Result (Leousk and Croft, 996, Zamr and Etzon, 997): Ομαδοποίηση των αποτελεσμάτων χρησιμοποιώντας φράσεις στους τίτλους και snppets Ανίχνευση Γενικών Προτύπων Προσπέλασης Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 92 Κατηγορίες ς από το Web Κατηγορίες ς από το Web περιεχομένου σελίδων Περιεχομένου αποτελεσμάτων αναζήτησης από το Web ομής Ανίχνευση Γενικών Προτύπων Προσπέλασης PageRank, HITS Small-world models, Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης Mnng Web log records to dscover user access patterns of Web pages Applcatons εδομένων Χρήσης Target potental customers for electronc commerce Enhance the qualty and delvery of Internet nformaton servces to the end user Improve Web server system performance Identfy potental prme advertsement locatons Web logs provde rch nformaton about Web dynamcs Typcal Web log entry ncludes the URL requested, the IP address from whch the request orgnated, and a tmestamp Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 93 Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 94 Κατηγορίες ς από το Web Τεχνικές ς εδομένων Χρήσης Construct multdmensonal vew on the Weblog database Perform multdmensonal OLAP analyss to fnd the top N users, top N accessed Web pages, most frequently accessed tme perods, etc. Perform data mnng on Weblog records Fnd assocaton patterns, sequental patterns, and trends of Web accessng May need addtonal nformaton,e.g., user browsng sequences of the Web pages n the Web server buffer Conduct studes to Analyze system performance, mprove system desgn by Web cachng, Web page prefetchng, and Web page swappng Δεδομένων: Ακ. Έτος ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 95

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2008-2009 1

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2008-2009 1 Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό Ανάκτηση Κειμένου (εισαγωγικά θέματα) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Εξόρυξη Δεδομένων 2008-2009 1 Ανάκτηση Πληροφορίας Βάσεις

Διαβάστε περισσότερα

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2010-2011 1

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2010-2011 1 Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 1 Ανάκτηση Κειμένου (εισαγωγικά θέματα) Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ

Διαβάστε περισσότερα

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML Θέματα Βάσεις ιαδικτύου Ο αλγόριθμος HITS Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Τι είναι η XML XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης)

Διαβάστε περισσότερα

Μηχανές Αναζήτησης. Εξόρυξη εδοµένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1

Μηχανές Αναζήτησης. Εξόρυξη εδοµένων: Ακ. Έτος ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1 Μηχανές Αναζήτησης Εξόρυξη εδοµένων: Ακ. Έτος 2010-2011 ΑΝΑΛΥΣΗ ΣΥΝ ΕΣΕΩΝ 1 Μηχανές Αναζήτησης Βασισμένες σε ευρετήρια: Αναζητούν σελίδες, τις δεικτοδοτούν και κατασκευάζουν ευρετήρια βασισμένα σε λέξεις

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Ανάκτηση Κειμένου (εισαγωγικά θέματα)

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Ανάκτηση Κειμένου και από τον Παγκόσμιο Ιστό Ανάκτηση Κειμένου (εισαγωγικά θέματα) Δεδομένων: Ακ. Έτος 2006-2007 ΓΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Βάσεις Κειμένων (document

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 13η: 28/04/2014 1 Παράμετροι του μοντέλου PageRank 2 Ηπαράμετροςα(1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #14 Αναζήτηση στο Web Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα Ν. Μ. Σγούρος Τμήμα Ψηφιακών Συστημάτων, Παν. Πειραιώς sgouros@unipi.gr Δομή του WWW Ορισμός Προβλήματος Υποθέτουμε ότι οι πηγές πληροφοριών αναπριστώνται

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 18η: 17/05/2017 1 Η μέθοδος BrowseRank 2 Εισαγωγή Η page importance, που αναπαριστά την αξία μιας σελίδας του Web, είναι παράγων-κλειδί για την

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014 Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining Το Web Mining στοχεύει στην

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου

Διαβάστε περισσότερα

Ο αλγόριθμος PageRank της Google

Ο αλγόριθμος PageRank της Google Ο αλγόριθμος PageRank της Google 1 Η μηχανή αναζήτησης Google Το Google ξεκίνησε σαν μια κολεγιακή εργασία από τον Larry Page και τον Sergey Brin το 1996 με σκοπό την κατασκευή μιας μηχανής αναζήτησης

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό

Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό 5.1 Βασικές Έννοιες Στην ενότητα αυτή παρουσιάζονται ορισµένες βασικές έννοιες σχετικά µε την Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό. Αρχικά δίνεται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

α & β spatial orbitals in

α & β spatial orbitals in The atrx Hartree-Fock equatons The most common method of solvng the Hartree-Fock equatons f the spatal btals s to expand them n terms of known functons, { χ µ } µ= consder the spn-unrestrcted case. We

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

ΗΥ537: Έλεγχος Πόρων και Επίδοση σε Ευρυζωνικά Δίκτυα,

ΗΥ537: Έλεγχος Πόρων και Επίδοση σε Ευρυζωνικά Δίκτυα, ΗΥ537: Έλεγχος Πόρων και Επίδοση σε Ευρυζωνικά Δίκτυα Βασίλειος Σύρης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης Εαρινό εξάμηνο 2008 Economcs Contents The contet The basc model user utlty, rces and

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ Δρ. Κουζαπάς Δημήτριος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Μηχανές Αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες

Διαβάστε περισσότερα

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. ΕΡΓΑΣΙΑ 4 «Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. Στόχος Στόχος της Εργασίας 4 είναι να η εξοικείωση με την αντικειμενοστρέφεια (object oriented programming). Πιο συγκεκριμένα,

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων. ΜΥΕ3: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Ανάλυση Συνδέσμων. Κεφ 2 Τι θα δούμε σήμερα Πως μπορούμε να χρησιμοποιήσουμε το δίκτυο στη διάταξη των αποτελεσμάτων Δεν είναι όλες

Διαβάστε περισσότερα

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου E-commerce Networks & Applications Η διαφήμιση στο Internet Νίκος Κωνσταντίνου Εισαγωγή Ηαπλήδημιουργίαενόςsite δεν είναι πλέον αρκετή Μια επένδυση σε ανάπτυξη και συντήρηση δεν αποδίδει χωρίς διαφήμιση

Διαβάστε περισσότερα

One and two particle density matrices for single determinant HF wavefunctions. (1) = φ 2. )β(1) ( ) ) + β(1)β * β. (1)ρ RHF

One and two particle density matrices for single determinant HF wavefunctions. (1) = φ 2. )β(1) ( ) ) + β(1)β * β. (1)ρ RHF One and two partcle densty matrces for sngle determnant HF wavefunctons One partcle densty matrx Gven the Hartree-Fock wavefuncton ψ (,,3,!, = Âϕ (ϕ (ϕ (3!ϕ ( 3 The electronc energy s ψ H ψ = ϕ ( f ( ϕ

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα. Μοντελοποίηση Μοντέλα I που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα. Ταξινόµηση Μοντέλων I etreval Browsng Κλασικά Μοντέλα Boolean Vector robablstc οµικά Μοντέλα Non-Overlappng Lsts

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-570: Στατιστική Επεξεργασία Σήµατος. ιδάσκων : Α. Μουχτάρης. εύτερη Σειρά Ασκήσεων.

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-570: Στατιστική Επεξεργασία Σήµατος. ιδάσκων : Α. Μουχτάρης. εύτερη Σειρά Ασκήσεων. Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών ΗΥ-570: Στατιστική Επεξεργασία Σήµατος 2015 ιδάσκων : Α. Μουχτάρης εύτερη Σειρά Ασκήσεων Λύσεις Ασκηση 1. 1. Consder the gven expresson for R 1/2 : R 1/2

Διαβάστε περισσότερα

Social Web: lesson #4

Social Web: lesson #4 Social Web: lesson #4 looking for relevant information browsing searching monitoring recommendations Information Retrieval the inverted index Google.com the pagerank algorithm the value of words the price

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων 5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων http://ecourseschemengntuagr/courses/computational_methods_for_engineers/ Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων Γενικά:

Διαβάστε περισσότερα

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων 5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων http://ecourseschemengntuagr/courses/computational_methods_for_engineers/ Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων Γενικά:

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων Εισαγωγή στην επιστήμη των υπολογιστών Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων 1 ομή εδομένων Μια δομή δεδομένων (data structure) χρησιμοποιεί μια συλλογή από σχετικές μεταξύ τους μεταβλητές, οι οποίες

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιο λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους

Διαβάστε περισσότερα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 11η: 09/05/2007 1 Ζητήµατα Μεγάλης-Κλίµακας

Διαβάστε περισσότερα

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

FirstSearch (OCLC) Βασικά χαρακτηριστικά: FirstSearch (OCLC) Η Βιβλιοθήκη & Κέντρο Πληροφόρησης του Πανεπιστημίου Θεσσαλίας έχει εξασφαλίσει online πρόσβαση μέσω της υπηρεσίας FirstSearch της OCLC Online Computer Library Center, Inc. σε 12 βιβλιογραφικές

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη η: 09/0/00 Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Proposal of Terminal Self Location Estimation Method to Consider Wireless Sensor Network Environment

Proposal of Terminal Self Location Estimation Method to Consider Wireless Sensor Network Environment 1 2 2 GPS (SOM) Proposal of Termnal Self Locaton Estmaton Method to Consder Wreless Sensor Network Envronment Shohe OHNO, 1 Naotosh ADACHI 2 and Yasuhsa TAKIZAWA 2 Recently, large scale wreless sensor

Διαβάστε περισσότερα

Μελέτη Περίπτωσης: Random Surfer

Μελέτη Περίπτωσης: Random Surfer Μελέτη Περίπτωσης: Random Surfer Introduction to Programming in Java: An Interdisciplinary Approach Robert Sedgewick and Kevin Wayne Copyright 2008 March 1, 2016 11:10 tt Memex Memex. [Vannevar Bush, 1936]

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση Πίνακες Διασποράς Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση κλειδί k T 0 1 2 3 4 5 6 7 U : χώρος πιθανών κλειδιών Τ : πίνακας μεγέθους

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 14η: 07/05/2014 1 Ευαισθησία του PageRank 2 Ευαισθησία του PageRank: Εισαγωγικά Η ευαισθησία του PageRank μπορεί να αναλυθεί εξετάζοντας ξεχωριστά

Διαβάστε περισσότερα

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ανασκόπηση Προβλήματος και Προκαταρκτικών Λύσεων Bit Διανύσματα Τεχνικές Κατακερματισμού & Συναρτήσεις

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων. ΜΥΕ3: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Ανάλυση Συνδέσμων. Κεφ 2 Τι θα δούμε σήμερα Πως μπορούμε να χρησιμοποιήσουμε το δίκτυο στη διάταξη των αποτελεσμάτων Δεν είναι όλες

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 15η: 12/05/2014 1 Το πρόβλημα PageRank ως γραμμικό σύστημα 2 PageRank ως γραμμικό σύστημα Το πρόβλημα του PageRank μπορεί να γραφεί είτε ως Πρόβλημα

Διαβάστε περισσότερα

Variance of Trait in an Inbred Population. Variance of Trait in an Inbred Population

Variance of Trait in an Inbred Population. Variance of Trait in an Inbred Population Varance of Trat n an Inbred Populaton Varance of Trat n an Inbred Populaton Varance of Trat n an Inbred Populaton Revew of Mean Trat Value n Inbred Populatons We showed n the last lecture that for a populaton

Διαβάστε περισσότερα

Πώς λειτουργεί το Google?

Πώς λειτουργεί το Google? Πώς λειτουργεί το Google? Στα άδυτα του Γίγαντα της Αναζήτησης! Το να ψάξουμε κάτι στο Google είναι κάτι τόσο καθημερινό για τους περισσότερους από εμάς, που το θεωρούμε δεδομένο. Αυτό που ίσως ξεχνάμε

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

8.1 The Nature of Heteroskedasticity 8.2 Using the Least Squares Estimator 8.3 The Generalized Least Squares Estimator 8.

8.1 The Nature of Heteroskedasticity 8.2 Using the Least Squares Estimator 8.3 The Generalized Least Squares Estimator 8. 8.1 The Nature of Heteroskedastcty 8. Usng the Least Squares Estmator 8.3 The Generalzed Least Squares Estmator 8.4 Detectng Heteroskedastcty E( y) = β+β 1 x e = y E( y ) = y β β x 1 y = β+β x + e 1 Fgure

Διαβάστε περισσότερα

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι 5 η Διάλεξη Μάθημα: Τεχνολογίες Διαδικτύου Περιεχόμενα 5 η διάλεξη Μηχανές αναζήτησης Αναζήτηση στο Web Ωραίο το Web και το Internet Μάθαμε

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 9: Εισαγωγή στους Γράφους Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Γράφοι - ορισμοί και υλοποίηση Διάσχιση Γράφων Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διαβάστε περισσότερα

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing)

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ανασκόπηση Προβλήματος και Προκαταρκτικών Λύσεων Bit-Διανύσματα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι 5 η Διάλεξη Μάθημα: Τεχνολογίες Διαδικτύου Περιεχόμενα 5 η διάλεξη Μηχανές αναζήτησης Αναζήτηση στο Web Ωραίο το Web και το Internet Μάθαμε

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

SilverPlatter WebSPIRS 4.1.

SilverPlatter WebSPIRS 4.1. WebSPIRS 4.1. Η υπηρεσία WebSPIRS από τη SilverPlatter αποτελεί ένα φιλικό εργαλείο πρόσβασης και αναζήτησης σε περιεχόμενα βάσεων δεδομένων. Η Βιβλιοθήκη και Κέντρο Πληροφόρησης του Πανεπιστημίου Θεσσαλίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

ΜΕΡΟΣ ΙΙΙ ΜΟΡΙΑΚΟ ΒΑΡΟΣ ΠΟΛΥΜΕΡΩΝ

ΜΕΡΟΣ ΙΙΙ ΜΟΡΙΑΚΟ ΒΑΡΟΣ ΠΟΛΥΜΕΡΩΝ ΜΕΡΟΣ ΙΙΙ ΜΟΡΙΑΚΟ ΒΑΡΟΣ ΠΟΛΥΜΕΡΩΝ ΓΕΝΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΕΠΙΔΡΑΣΗ Μ.Β ΣΤΙΣ ΙΔΙΟΤΗΤΕΣ ΠΟΛΥΜΕΡΩΝ ΜΑΘΗΜΑΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΚΑΤΑΝΟΜΗΣ ΜΟΡΙΑΚΟΥ ΒΑΡΟΥΣ ΣΥΝΑΡΤΗΣΗ ΠΙΘΑΝΟΤΗΤΟΣ (ΔΙΑΦΟΡΙΚΗ) Probablty Densty Functon

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα Ιδιάζουσες τιμές πίνακα Επειδή οι πίνακες που παρουσιάζονται στις εφαρμογές είναι μη τετραγωνικοί, υπάρχει ανάγκη να βρεθεί μία μέθοδος που να «μελετά» τους μη τετραγωνικούς με «μεθόδους και ποσά» που

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.

Διαβάστε περισσότερα