Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός
|
|
- Δημοστρατη Παπάγος
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 17η: 21/05/2014 1
2 ΗμέθοδοςHITS Hypertext Induced Topic Search 2
3 Hypertext Induced Topic Search (HITS) Επινοήθηκε από τον Jon Kleinberg το 1998 Διαφορές των δυο κύριων αλγορίθμων ranking: Ο PageRank είναι query-independent O HITS είναι query-dependent O PageRank παράγει ένα μέτρο σημαντικότητας που χαρακτηρίζει κάθε ιστοσελίδα Ο HITS παράγει δυο τέτοιους αριθμούς Το authority score & τo hub score Ο HITS αναλύει τις σελίδες ως authorities και hubs Μια authority είναι μια σελίδα με πολλούς εισερχόμενους υπερσυνδέσμους Ένα hub είναι μια σελίδα με πολλούς εξερχόμενους υπερσυνδέσμους Οι καλές authorities δείχνονται από καλά hubs, και τα καλά hubs δείχνουν σε καλές authorities 3
4 Hypertext Induced Topic Search (HITS) Ο HITS ενσωματώθηκε στο έργο της IBM CLEVER Αποτέλεσε τη βάση για τη μηχανή αναζήτησης Teoma (αγοράστηκε από την Ask Jeeves, τώρα Ask.com Συνεπώς, κάθε σελίδα i έχει ένα authority score a i και ένα hub score h i Με e ij συμβολίζουμε την ύπαρξη υπερσυνδέσμου από την ιστοσελίδα i στην j Υποθέτουμε ότι αρχικά έχουμε αναθέσει σε κάθε ιστοσελίδα ένα authority score x i και ένα hub score y i Ο HITS υπολογίζει επαναληπτικά τις ποσότητες: 4
5 Hypertext Induced Topic Search (HITS) Έστω ο πίνακας γειτνίασης L ij με στοιχεία ίσα με 1, εάν υπάρχει υπερσύνδεσμος από την ιστοσελίδα i στην j, και ίσα με 0, στην άλλη περίπτωση Οι προηγούμενες επαναληπτικές εξισώσεις μπορούν να γραφούν με τη βοήθεια πινάκων ως εξής: x (k) =L T y (k-1) και y (k) =Lx (k) ΟαρχικόςαλγόριθμοςHITS Αρχικοποίηση του y (0) =e (και άλλες επιλογές αρχικοποίησης είναι πιθανές) Μέχρι να επέλθει σύγκλιση: x (k) =L T y (k-1) y (k) =Lx (k) ++k; Κανονικοποίηση των x (k) και y (k) 5
6 Hypertext Induced Topic Search (HITS) Οι προηγούμενες εξισώσεις μπορούν να απλοποιηθούν στις επόμενες: x (k) =L T Lx (k-1) και y (k) =LL T y (k) Άρα, ορίζουν την επαναληπτική power μέθοδο για τον υπολογισμό των κυρίαρχων ιδιοδιανυσμάτων των πινάκων L T L και LL T Είναι παρόμοια περίπτωση με τον υπολογισμό του PageRank, αλλά χρησιμοποιείται διαφορετικός πίνακας συντελεστών Ο πίνακας L T L λέγεται πίνακας authority, αφού καθορίζει τα authority scores Ο πίνακας LL T λέγεται πίνακας hub, αφού καθορίζει τα hub scores Καιοιδυοπίνακαςείναισυμμετρικοί, θετικοί και semidefinite 6
7 Υλοποίηση του HITS (1/5) Root Set 7
8 Υλοποίηση του HITS (2/5) IN Root Set OUT 8
9 Υλοποίηση του HITS (3/5) IN Root Set OUT 9
10 Υλοποίηση του HITS (4/5) Base Set IN Root Set OUT 10
11 Υλοποίηση του HITS (5/5) Το Root Set βρίσκεται με τη βοήθεια μιας μηχανής αναζήτησης με keyword-search Το Base Set είναι ο Neighborhood Graph Ενσωματώνονται και τεχνικές σημασιολογικής συγγένειας στην επιλογή των σελίδων που θ απαρτίζουν το Base Set Για να μην μεγαλώσει σε τεράστιο μέγεθος το Base Set, ορίζουμε έναν μέγιστο αριθμό κόμβων (με εισερχόμενους/εξερχόμενους) υπερσυνδέσμους για τον κάθε κόμβο του Root Set τους οποίους ενσωματώνουμε στο Base Set Δεν χρειάζεται να υπολογίσουμε το κυρίαρχο ιδιοδιάνυσμα και για τον πίνακα L T L αλλά και για τον LL T, αλλά μόνο για τον ένα πίνακα, αφού ισχύει: y=lx 11
12 Σύγκλιση του HITS (1/6) Ο επαναληπτικός αλγόριθμος για τον υπολογισμό του HITS είναι συνήθως η power μέθοδος πάνω στους πίνακες L T L και LL T Για έναν διαγωνιοποιήσιμο πίνακα B με διακριτές ιδιοτιμές {λ 1,λ 2,,λ k } όπου λ 1 > λ 2 λ 3 λ k η power μέθοδος υπολογίζει επαναληπτικά το εξής: όπου m(x (k) ) είναι σταθερά κανονικοποίησης παραγόμενη από το x (k) Συνήθως, είναι η (προσημασμένη) συνιστώσα με το μέγιστο μέγεθος. Στην περίπτωση αυτή, το m(x (k) ) συγκλίνει στην κυρίαρχη ιδιοτιμή λ 1 και το x (k) στο αντίστοιχο κανονικοποιημένο ιδιοδιάνυσμα 12
13 Σύγκλιση του HITS (2/6) Εάν απαιτείται μόνο το ιδιοδιάνυσμα και όχι και η αντίστοιχη ιδιοτιμή, τότε η σταθερά κανονικοποίησης μπορεί να είναι η m(x (k) ) = x (k) Εάν λ 1 < 0, τότε η m(x (k) ) = x (k) δεν μπορεί να συγκλίνει στην λ 1, αλλά η x (k) συγκλίνει στο ιδιοδιάνυσμα που αντιστοιχεί στην λ 1 Επειδή οι πίνακες L T L και LL T είναι συμμετρικοί, θετικοί, semidefinite και μη-αρνητικοί, οι διακριτές τους ιδιοτιμές {λ 1,λ 2,,λ k } είναι πραγματικοί αριθμοί και μη-αρνητικοί, και ισχύει ότι με λ 1 > λ 2 > λ 3 > > λ k 0 Έτσι, ο HITS με κανονικοποίηση πάντα συγκλίνει Ο ρυθμός σύγκλισης δίνεται από τον ρυθμό με τον οποίο ισχύει ότι [λ 2 (L T L)/λ 1 (L T L)] k 0 13
14 Σύγκλιση του HITS (3/6) Δυστυχώς, δεν μπορούμε να δώσουμε ικανοποιητική προσέγγιση για τον ασυμπτωτικό ρυθμό σύγκλισης του HITS Πολλά πειράματα δείχνουν ότι η διαφορά των πρώτων ιδιοτιμών (λ 1 -λ 2 ) είναι αρκετά μεγάλη, και συνεπώς απαιτούνται μόνο μερικές επαναλήψεις (10-15) για να συγκλίνει Παρά την ταχεία σύγκλιση όμως, υπάρχει πρόβλημα με τη μοναδικότητα των διανυσμάτων authority και hub που προκύπτουν ως λύση με την power μέθοδο, π.χ., για τον L 14
15 Σύγκλιση του HITS (4/6) Έχει δυο διακριτές ιδιοτιμές, τις 2 και 0, οι οποίες έχουν πολλαπλότητα 2 Εάν ξεκινήσουμε με το x (0) = ¼ e T καταλήγουμε στο διάνυσμα authority x ( ) = (1/3 1/3 1/3 0) T Εάν ξεκινήσουμε με το x (0) = (1/4 1/8 1/8 1/2 καταλήγουμε στο διάνυσμα authority x ( ) = (1/2 1/4 1/4 0) T Αιτία του προβλήματος μοναδικότητας είναι η reducibility Θα λέμε ότι ένας πίνακας B είναι reducible εάν υπάρχει πίνακας μετάθεσης Q τέτοιος ώστε (οι X και Z είναι τετραγωνικοί): 15
16 Σύγκλιση του HITS (5/6) Η reducibility ενός πίνακα σημαίνει ότι υπάρχουν καταστάσεις καταβόθρες, ενώ η irreducibility σημαίνει ότι από οποιαδήποτε κατάσταση μπορώ να μεταβώ σε οποιαδήποτε άλλη κατάσταση Το θεώρημα Perron-Frobenious εγγυάται ότι ένας irreducible, μη-αρνητικός πίνακας έχει ένα μοναδικό, κανονικοποιημένο θετικό κυρίαρχο ιδιοδιάνυσμα, το λεγόμενο διάνυσμα Perron Συνεπώς, η reducibility του L T L είναι υπεύθυνη για η σύγκλιση σε περισσότερα του ενός διανύσματα-λύσεις Το ίδιο πρόβλημα αντιμετώπισε και ο πίνακας S στο PageRank, αλλά με μια μετατροπή του πίνακα σε irreducible επιλύθηκε Το ίδιο μπορεί να γίνει και με τον HITS 16
17 Σύγκλιση του HITS (6/6) Αντί για τον αρχικό πίνακα authority, χρησιμοποιούμε τον πίνακα ξl T L + (1-ξ)/n ee T Όμοια για τον πίνακα hub Αυτός ο τροποποιημένος HITS, λέγεται Exponential HITS Τέλος, ανεξάρτητα από το εάν η κυρίαρχη ιδιοτιμή του πίνακα επανάληψης B είναι απλή ή πολλαπλή, ησύγκλισησεέναμη- μηδενικό διάνυσμα εξαρτάται από εάν το αρχικό διάνυσμα x (0) δεν βρίσκεται στην εμβέλεια του (Β-λ 1 Ι) Εάν το x (0) παράγεται τυχαία, τότε με (σχεδόν) βεβαιότητα δεν θα υφίσταται το πρόβλημα 17
18 Παράδειγμα εφαρμογής του HITS (1/4) Έστω ότι, σε απάντηση ενός ερωτήματος σε μια παραδοσιακή keyword-based μηχανή αναζήτησης, επιστρέφονται οι ιστοσελίδες που αντιστοιχούν στους κόμβους 1 και
19 Παράδειγμα εφαρμογής του HITS (2/4) Τα κανονικοποιημένα κύρια ιδιοδιανύσματα με τα authority και hub scores είναι: x T = ( ) y T = ( ) 19
20 Παράδειγμα εφαρμογής του HITS (3/4) Μπορεί να συμβούν δυο τύπων ισοπαλίες Στις τιμές 0 Μπορεί να αποφευχθούν με την primitivity τροποποίηση Στις θετικές τιμές αυτές είναι σπάνιες σε μεγάλους θετικά-ορισμένους πίνακες μπορούν να επιλυθούν με FCFS Authority ranking = ( ) Hub ranking = ( ) Για λόγους σύγκρισης, υπολογίζουμε ξανά τα διανύσματα authority και hub, αλλά χρησιμοποιώντας τον irreducible πίνακα ξl T L + (1-ξ)/n ee T ως πίνακα authority και τον irreducible πίνακα ξll T + (1-ξ)/n ee T ως πίνακα hub 20
21 Παράδειγμα εφαρμογής του HITS (4/4) Για ξ=0.95, έχουμε x T = ( ) y T = ( ) Στο παράδειγμα αυτό, η μετατροπή τους σε irreducible πίνακες δεν άλλαξε το ranking, ούτε το authority ούτε το hub ranking Όμως, απέφυγε τις ισοπαλίες στο 0 21
22 Πλεονεκτήματα/Μειονεκτήματα του HITS Παρουσιάζει δυο λίστες στο χρήστη Authoritative σελίδες, για εις βάθος αναζήτηση σε κάποιο αντικείμενο Hub σελίδες, δηλ., portal σελίδες, για αναζήτηση σε εύρος Λύνει ένα μικρό πρόβλημα, σε μέγεθος πινάκων Είναι query-dependent Σε run-time, δηλ., για κάθε ερώτημα του χρήστη, χτίσιμο του Base Set, και εύρεση ενός ιδιοδιανύσματος Μπορεί να γίνει query-independent, δηλ., να εκτελεστεί πάνω σε όλο το γράφημα του Web Είναι πολύ επιρρεπής σε spamming Με προσθήκη συνδέσμων από/προς την ιστοσελίδα μας Φυσικά, είναι ευκολότερο να αυξήσουμε το hub score της ιστοσελίδας μας, αλλά εξ αιτίας της αλληλεξάρτησής τους μπορεί να αυξηθεί και το authority score ως αποτέλεσμα της αύξησης του hub score 22
23 Πλεονεκτήματα/Μειονεκτήματα του HITS Παρουσιάζει το φαινόμενο topic drift Κατά το χτίσιμο του Base Set, είναι πιθανό ότι μια πολύ authoritative σελίδα, αλλά εκτός αντικειμένου της αναζήτησης, να εμφανιστεί στο Base Set επειδή έχει σύνδεσμο από/προς κάποια σελίδα του Root Set Αυτή η σελίδα μπορεί να έχει τόσο βάρος, ώστε αυτή και όλες οι γειτονικές της να εμφανίζονται στην κορυφή της λίστας των αποτελεσμάτων, με συνέπεια η λίστα των αποτελεσμάτων να κυριαρχηθεί από σελίδες εκτός του ζητούμενου αντικειμένου Το πρόβλημα μπορεί να αντιμετωπιστεί εάν ζυγίσουμε τα hub και authority scores τωνσελίδωνμεβάσητη σχετικότητά της κάθε σελίδας ως προς το αντικείμενο της αναζήτησης, δηλ., αντί για τον δυαδικό πίνακα L, να έχουμε κάτι ανάλογο με τον πίνακα του intelligent surfer 23
24 Σχέση του HITS με τη Βιβλιομετρία (1/2) Co-citation: Δυο σελίδες δέχονται υπερσύνδεσμο από την ίδια σελίδα Ο πίνακας authority L T L σχετίζεται με την έννοια του co-citation Ranking με βάση το inlink παρέχει αξιοπρεπή προσέγγιση του HITS authority Co-reference: Δυο σελίδες έχουν υπερσύνδεσμο προς την ίδια σελίδα Ο πίνακας hub LL T σχετίζεται με την έννοια του co-reference Ranking με βάση το outlink παρέχει αξιοπρεπή προσέγγιση του HITS hub 24
25 Σχέση του HITS με τη Βιβλιομετρία (2/2) D in : διαγώνιος πίνακας με το indegree τωνκόμβωνκαιc cit οπίνακαςcocitation Το στοιχείο (3,3) δείχνει ότι ο κόμβος 3 έχει indegree 2 Το στοιχείο (4,3) δείχνει ότι οι κόμβοι 4 και 3 δεν έχουν κοινό inlink D out : διαγώνιος πίνακας με το outdegree τωνκόμβωνκαιc ref ο πίνακας coreference Το στοιχείο (1,2) δείχνει ότι οι κόμβοι 1 και 2 έχουν 1 κοινό σύνδεσμο (προς τον κόμβο 3) Το στοιχείο (4,2) δείχνει ότι οι κόμβοι 4 και 2 δεν έχουν κοινό σύνδεσμο προς κάποιο κόμβο 25
26 Query-independent HITS (1/4) Ο query-independent αλγόριθμος HITS Αρχικοποίηση του x (0) =e/n (και άλλες επιλογές αρχικοποίησης είναι πιθανές) Μέχρι να επέλθει σύγκλιση: x (k) = ξl T Lx (k-1) + (1-ξ)/n e x (k) = x (k) / x (k) 1 y (k) = ξll T y (k-1) + (1-ξ)/n e y (k) = y (k) / y (k) 1 ++k; Θέτουμε x = x (k) και y = y (k) Συγκλίνει στα μοναδικά θετικά διανύσματα hub και authority, ανεξάρτητα από τη reducibility του πίνακα Ο L είναι ο πίνακας γειτνίασης όλου του Web γραφήματος 26
27 Query-independent HITS (2/4) Μέθοδος HITS Modified HITS Random surfer PageRank Intelligent surfer PageRank Πολλαπλασιασμοί 0 0 n nnz(h) Προσθέσεις 2nnz(L) 4nnz(L) + 2n nnz(l) + n nnz(h) + n ΘΕΩΡΗΜΑ. Έστω ότι Μ = είναι ο τροποποιημένος πίνακας authority. Έστω ότι λ 1 λ 2 λ n είναι οι ιδιοτιμές του L T L και γ 1 γ 2. γ n είναιοιιδιοτιμέςτουm. Τότε ισχύει η σχέση: γ 1 αλ 1 γ 2 αλ 2. γ n αλ n Υπάρχουν scalars β i 0, β i =1, ώστε γ i =ξλ i +(1-ξ)β i 27
28 Query-independent HITS (3/4) Τα όρια γ 2 /γ 1 παράγονται εξετάζοντας ακραία συμπεριφορά Στην καλύτερη περίπτωση, η τροποποίηση του L T L αυξάνει μόνο το λ 2 σε μέγιστη τιμή λ 2 +1-ξ (δηλ., β 2 =1, β i =0, i 2) Στη χειρότερη περίπτωση, το λ 1 αυξάνει σε μέγιστη τιμή λ 1 +1-ξ (δηλ., β 1 =1, β i =0, i 1) Στην πράξη, πολλά β i αυξάνουν ταυτόχρονα, αλλά η σχέση β i =1 εγγυάται ότι το αποτέλεσμα δεν έχει δραματικές επιπτώσεις, όπως στις δυο ακραίες περιπτώσεις Μέθοδος Σύγκλιση HITS λ 2 /λ 1 Modified HITS (ξλ 2 )/(ξλ 1 +1-ξ) γ 2 /γ 1 λ 2 /λ 1 (1-ξ)/(ξλ 1 ) Random surfer PageRank α Intelligent surfer PageRank α 28
29 Query-independent HITS (4/4) Ανεξάρτητα από τις ακριβείς τιμές των β i, το ξ επιλέγεται συνήθως κοντά στο 1, οπότε γ 2 /γ 1 λ 2 /λ 1 Έτσι ο ασυμπτωτικός ρυθμός σύγκλισης του HITS και του τροποποιημένου HITS είναι ο ίδιος Πειράματα έχουν δείξει ότι λ 2 /λ 1 < 0.5, το οποίο είναι πολύ μικρότερο του α=0.85 του PageRank Με περίπου διπλάσιο κόστος ανά επανάληψη, ο queryindependent-hits απαιτεί λιγότερο από ¼ των επαναλήψεων του PageRank και παράγει 2 διανύσματα στο χρήστη 29
30 Επιτάχυνση του HITS Ο Kleinberg χρησιμοποίησε την power μέθοδο για τον υπολογισμό των κυρίαρχων δεξιών ιδιοδιανυσμάτων των πινάκων L T L και LL T Οι πίνακες του HITS είναι πολύ μικροί σε σχέση με τους αντίστοιχους του PageRank, και κατά πάσα πιθανότητα, χρησιμοποιούνται τεχνικές που είναι memory-intensive για τον υπολογισμό των δυο πινάκων του HITS, π.χ., Lanczos Για τον query-dependent HITS δεν υπάρχει έρευνα σχετική με μεθόδους επιτάχυνσης Για τον query-independent HITS μπορούν να χρησιμοποιηθούν οι ίδιες τεχνικές που έχουμε συζητήσει για τον PageRank 30
31 Ευαισθησία του HITS ΘΕΩΡΗΜΑ. Έστω Ε ο πίνακας διαταραχής, ώστε Ĺ T Ĺ = L T L + E. Όταν η λ 1 είναι απλή, τότε sin (x,x ) E 2 /(λ 1 -λ 2 ) Συνεπώς, εάν το χάσμα ιδιοδιανυσμάτων είναι μεγάλο, τότε ο πίνακας authority δεν είναι ευαίσθητος σε μικρές αλλαγές στο Web γράφημα 31
32 ΗμέθοδοςSALSA Stochastic Approach for Link Structure Analysis 32
33 Ομοιότητες SALSA με HITS και PageRank Επινοήθηκε από τους Ronny Lempel και Shlomo Moran το 2000 Συνδυασμός HITS και PageRank Ο SALSA χρησιμοποιεί authority και hub score Ο SALSA δημιουργεί ένα neighborhood graph χρησιμοποιώντας authority και hub ιστοσελίδες και υπερσυνδέσμους 33
34 Διαφορές SALSA με HITS και PageRank ΗμέθοδοςSALSA δημιουργεί ένα διμερές γράφημα (bipartite graph) των σελίδων authority και hub στο neighborhood γράφημα Το ένα σύνολο περιέχει τις hub σελίδες Το άλλο σύνολο περιέχει τις authority σελίδες Μια σελίδα μπορεί να περιέχεται και στα δυο σύνολα 34
35 Neighborhood Graph Ν
36 Διμερές γράφημα G του Neighborhood Graph N 36
37 Markov αλυσίδες Από το διμερές γράφημα G σχηματίζονται δυο πίνακες Μια hub Markov chain με πίνακα H Μια authority Markov chain με πίνακα A Οι πίνακες H και A μπορεί να παραχθούν από τον πίνακα γειτνίασης (adjacency matrix) L που έχουμε δει στον υπολογισμό του HITS και του PageRank Ο HITS χρησιμοποιεί τον unweighted matrix L Ο PageRank χρησιμοποιεί τη row-weighted έκδοση του πίνακα L SALSA χρησιμοποιεί row και column weighting 37
38 Πώς υπολογίζονται οι H και A; Έστω ότι L r είναι ο L με κάθε μη-μηδενική γραμμή του να διαιρείται με το άθροισμά της Έστω ότι L c είναι ο L με κάθε μη-μηδενική στήλη του να διαιρείται με το άθροισμά της 38
39 Παράδειγμα των L r και L c 39
40 Οι πίνακες H και A Ο πίνακας H, SALSA hub matrix, αποτελείται από τις μη-μηδενικές γραμμές και στήλες του L r L c T Ο πίνακας A, SALSA authority matrix, αποτελείται από τις μη-μηδενικές γραμμές και στήλες του πίνακα L ct L r 40
41 Οι πίνακες L r L c T και L ct L r 41
42 Οι πίνακες H και A 42
43 Ιδιοδιανύσματα Av = λv v T A= λ v T Αριθμητικός υπολογισμός: Power μέθοδος 43
44 Η power μέθοδος X k+1 = AX k X k+1t = X kt A Συγκλίνει στο κυρίαρχο ιδιοδιάνυσμα (dominant eigenvector), δηλ., σ αυτό που αντιστοιχεί στην κυρίαρχη ιδιοτιμή ( λ = 1). 44
45 Η power μέθοδος Οι πίνακες H και A πρέπει να είναι irreducible, ώστε να συγκλίνει η power μέθοδος σε ένα unique eigenvector, ξεκινώντας από κάποια αρχική τιμή Εάν το neighborhood γράφημα G είναι συνδεδεμένο (connected), τότε ο H και ο A είναι irreducible Εάν το G δεν είναι συνδεδεμένο, τότε η εκτέλεση της power μεθόδου στον H και A δεν θα έχει ως αποτέλεσμα τη σύγκλιση σε ένα μοναδικό κυρίαρχο ιδιοδιάνυσμα 45
46 Στο παράδειγμα το G δεν είναι συνδεδεμένο Είναι προφανές ότι το γράφημα δεν είναι συνδεδεμένο, αφού η σελίδα 2 στο σύνολο hub συνδέεται μόνο με τη σελίδα 1 στο σύνολο authority, και αντίστροφα Οι H και A είναι reducible και επομένως περιέχουν multiple irreducible connected components 46
47 Connected Components Ο πίνακας H περιέχει δυο connected components, C = {2} και D = {1, 3, 6, 10} Ο πίνακας A περιέχει δυο connected components, E = {1} και F = {3, 5, 6} 47
48 Cutting και Pasting. Μέρος I Εκτελούμε την power method σε κάθε συνιστώσα των H και A 48
49 Cutting και Pasting. Μέρος II Ενώνουμε τις δυο συνιστώσες για κάθε πίνακα Πρέπει να πολλαπλασιάσουμε κάθε στοιχείο του διανύσματος με το κατάλληλο weight H: A: SALSA hub ranking: 1/6 2 3/10 HITS hub ranking: 1 3/6/ SALSA authority ranking: 6 1/3 5 HITS hub ranking: /10 49
50 Πλεονεκτήματα/Μειονεκτήματα του Δεν εμφανίζει το φαινόμενο topic drift, όπως ο HITS Παρέχει authority και hub scores Χειρίζεται το spamming καλύτερα από ότι ο HITS, αλλά όχι τόσο καλά όσο ο PageRank Είναι query-dependent 50
51 ΗμέθοδοςBrowseRank 51
52 Introduction Page importance, which represents the value of an individual page on the web, is a key factor for web search, because for contemporary search engines, the crawling, indexing, and ranking are usually guided by this measure Currently, page importance is calculated by using the link graph of the web and such a process is called link analysis Well known link analysis algorithms include HITS and PageRank 52
53 Google s PageRank PageRank employs a discrete-time Markov process on the web link graph to compute page importance, which in fact simulates a random walk along the hyperlinks on the web of a web surfer PageRank limitations The link graph, which PageRank relies on, is not a very reliable data source, because hyperlinks on the web can be easily added or deleted by web content creators PageRank only models a random walk on the link graph, but does not take into consideration the lengths of time which the web surfer spends on the web pages during the random walk 53
54 User Browsing Graph Can find a better data source than the link graph? Utilize the user browsing graph, generated from user behavior data User behavior data can be recorded by Internet browsers at web clients and collected at a web server 54
55 Continuous-time Markov chain What kind of algorithm we should use to leverage the new data source? The use of a discrete-time Markov process would not be sufficient Define a continuous-time Markov process as the model on the user browsing graph Assume the process to be time-homogenous The stationary probability distribution of the process can be used to define the importance of web pages Employ BrowseRank, to efficiently compute the stationary probability distribution of the continuous-time Markov process Make use of an additive noise model to represent the observations with regard to the Markov process and to conduct an unbiased and consistent estimation of the parameters in the process Adopt an embedded Markov chain based technology to speed up the calculation of the stationary distribution. 55
56 User Behavior Data The user behavior data can be recorded and represented in triples consisting of <URL, TIME, TYPE> From the data extract transitions of users from page to page and the time spent by users on the pages as follows: Session segmentation (break by: time rule & type rule) URL pair construction Reset probability estimation Staying time extraction 56
57 Staying time extraction For each URL pair, we use the difference between the time of the second page and that of the first page as the observed staying time on the first page For the last page in a session, we use the following heuristics to decide its observed staying time If the session is segmented by the time rule, we randomly (!?) sample a time from the distribution of observed staying time of pages in all the records and take it as the observed staying time If the session is segmented by the type rule, we use the difference between the time of the last page in the session and that of the first page of the next session (INPUT page) as the staying time 57
58 Building a user browsing graph Each vertex in the graph represents a URL in the user behavior data, associated with reset probability, and staying time as metadata Each directed edge represents the transition between two vertices, associated with the number of transitions as its weight In other words, the user browsing graph is a weighted graph with vertices containing metadata and edges containing weights 58
59 Assumptions Independence of users and sessions The browsing processes of different users in different sessions are independent. In other words, we treat web browsing as a stochastic process, with the data observed in each session by a user as an I.I.D. sample of this process Markov property The page that a user will visit next only depends on the current page, and is independent of the pages she visited previously This assumption is also a basic assumption in PageRank Time-homogeneity The browsing behaviors of users (e.g. transitions and staying time) do not depend on time points. Although this assumption is not necessarily true in practice, it is mainly for technical convenience This assumption is also a basic assumption in PageRank 59
60 Continuous-time Markov Model Suppose there is a web surfer walking through all the webpages We use X s to denote the page which the surfer is visiting at time s, s>0 Then, with the aforementioned three assumptions, the process X = {X s, s 0} forms a continuous-time time-homogenous Markov process Let p ij (t) denotes the transition probability from page i to page j for time interval t in this process (also referred to as time increment in statistics) One can prove that there is a stationary probability distribution π, which is unique and independent of t, associated with P(t) = [p ij (t)] NΧN, such that for any t > 0 π = πp(t) The i th entry of the distribution π stands for the ratio of the time the surfer spends on the i th page over the time she spends on all the pages when time interval t goes to infinity In this regard, this distribution π can be a measure of page importance 60
61 Mechanics In order to compute this stationary probability distribution, we need to estimate the probability in every entry of the matrix P(t) In practice, this matrix is usually difficult to obtain, because it is hard to get the information for all possible time intervals To tackle this problem, a novel algorithm is proposed which is based on the transition rate matrix The transition rate matrix is defined as the derivative of P(t) when t goes to 0, if it exists Q = P (0) We call the matrix Q = (q ij ) NXN the Q-matrix 61
62 The Q-matrix When the state space is finite, then there is a one-to-one correspondence between the Q-matrix and P(t), and INF< q ii < +INF and SUM j q ij = 0 Due to this correspondence, one also uses Q-Process to represent the original continuous-time Markov process, that is, the browsing process X = {X s, s 0} defined before is a Q-Process because of the finite state space Advantages of using the Q-matrix The parameters in the Q-matrix can be effectively estimated from the data Based on the Q-matrix, there is an efficient way of computing the stationary probability distribution of P(t) The so-called EMC is a discrete-time Markov process featured by a transition probability matrix with zero values in all its diagonal positions and -q ij /q ii in the offdiagonal positions 62
63 The Theorem Note that the process Y is a discrete-time Markov chain, so its stationary probability distribution π can be calculated by many simple and efficient methods such as the power method Next we will explain how to estimate the parameters in the Q-matrix, or equivalently parameter q ii and the transition probabilities -q ij /q ii (-q ij /q ii > 0, since q ii < 0) 63
64 Estimation of q ii For a Q-Process, the staying time T i on the i th vertex is governed by an exponential distribution parameterized by q ii : P(Ti > t) = exp(q ii t) This implies that we can estimate q ii from large numbers of observations on the staying time in the user behavior data This task is non-trivial because the observations in the user behavior data usually contain noise due to Internet connection speed, page size, page structure, and other factors, i.e., the observed values do not completely satisfy the exponential distribution We suppose that Z is the combination of real staying time T i and noise U, i.e., Z = U + T i 64
65 Estimation of Transition Probability in EMC Transition probabilities in the EMC describe the pure transitions of the surfer on the user browsing graph Estimation of them can be based on the observed transitions between pages in the user behavior data It can also be related to the green traffic in the data We use the following method to integrate these two kinds of information for the estimation 65
66 Estimation of Transition Probability in EMC 66
67 Estimation of Transition Probability in EMC The intuitive explanation of the above transition is as follows: When the surfer walks on the user browsing graph, she may go ahead along the edges with the probability α, or choose to restart from a new page with the probability (1- α) The selection of the new page is determined by the reset probability One advantage of using (8) for estimation is that the estimation will not be biased by the limited number of observed transitions. The other advantage is that the corresponding EMC is primitive, and thus has a unique stationary distribution Therefore, we can use the power method to calculate this stationary distribution in an efficient manner. 67
68 The BrowseRank algorithm 68
69 Top-20 Websites by 3 algorithms 69
70 Results 1 70
71 Results 2 71
72 Spam: Δεν είναι μόνο για τα inboxes 72
73 Link Spam Farms Spamming: Παραπλάνηση των μηχανών αναζήτησης για να αποκτηθεί υψηλότερη διάταξη (ranking) για κάποιες σελίδες (ή ιστοτόπους) απ αυτή που πραγματικά αξίζουν. Τεχνικές Spamming Hiding Term Link Content hiding Cloaking Redirection 73
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 14η: 30/05/2007 1 Η µέθοδος HITS Η µέθοδος
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 14η: 30/05/2007 1 Η µέθοδος HITS Η µέθοδος
Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 18η: 17/05/2017 1 Η μέθοδος BrowseRank 2 Εισαγωγή Η page importance, που αναπαριστά την αξία μιας σελίδας του Web, είναι παράγων-κλειδί για την
Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ
Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηπιορ Καηζαπόρ Διάλεξη 16η: 10/05/2017 1 Η μέθοδορ HITS Hypertext Induced Topic Search 2 Hypertext Induced Topic Search (HITS) Επινοήθηκε από τον Jon Kleinberg το 1998
Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 17η: 23/05/2016 1 Spamming PageRank 2 (Link Spam Farms) Spamming: Παξαπιάλεζε ησλ κεραλώλ αλαδήηεζεο γηα λα απνθηεζεί πςειόηεξε δηάηαμε (ranking)
EE512: Error Control Coding
EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3
SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions
SCHOOL OF MATHEMATICAL SCIENCES GLMA Linear Mathematics 00- Examination Solutions. (a) i. ( + 5i)( i) = (6 + 5) + (5 )i = + i. Real part is, imaginary part is. (b) ii. + 5i i ( + 5i)( + i) = ( i)( + i)
Statistical Inference I Locally most powerful tests
Statistical Inference I Locally most powerful tests Shirsendu Mukherjee Department of Statistics, Asutosh College, Kolkata, India. shirsendu st@yahoo.co.in So far we have treated the testing of one-sided
6.3 Forecasting ARMA processes
122 CHAPTER 6. ARMA MODELS 6.3 Forecasting ARMA processes The purpose of forecasting is to predict future values of a TS based on the data collected to the present. In this section we will discuss a linear
Other Test Constructions: Likelihood Ratio & Bayes Tests
Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :
CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS
CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =
Fractional Colorings and Zykov Products of graphs
Fractional Colorings and Zykov Products of graphs Who? Nichole Schimanski When? July 27, 2011 Graphs A graph, G, consists of a vertex set, V (G), and an edge set, E(G). V (G) is any finite set E(G) is
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου
C.S. 430 Assignment 6, Sample Solutions
C.S. 430 Assignment 6, Sample Solutions Paul Liu November 15, 2007 Note that these are sample solutions only; in many cases there were many acceptable answers. 1 Reynolds Problem 10.1 1.1 Normal-order
Example Sheet 3 Solutions
Example Sheet 3 Solutions. i Regular Sturm-Liouville. ii Singular Sturm-Liouville mixed boundary conditions. iii Not Sturm-Liouville ODE is not in Sturm-Liouville form. iv Regular Sturm-Liouville note
Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in
Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in : tail in X, head in A nowhere-zero Γ-flow is a Γ-circulation such that
ST5224: Advanced Statistical Theory II
ST5224: Advanced Statistical Theory II 2014/2015: Semester II Tutorial 7 1. Let X be a sample from a population P and consider testing hypotheses H 0 : P = P 0 versus H 1 : P = P 1, where P j is a known
Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)
Phys460.nb 81 ψ n (t) is still the (same) eigenstate of H But for tdependent H. The answer is NO. 5.5.5. Solution for the tdependent Schrodinger s equation If we assume that at time t 0, the electron starts
HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:
HOMEWORK 4 Problem a For the fast loading case, we want to derive the relationship between P zz and λ z. We know that the nominal stress is expressed as: P zz = ψ λ z where λ z = λ λ z. Therefore, applying
Εισαγωγή στην ανάλυση συνδέσμων
Εισαγωγή στην ανάλυση συνδέσμων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μαρία Χαλκίδη Why link analysis? Why link analysis? The web is not just a collection of documents its hyperlinks are important!
Chapter 6: Systems of Linear Differential. be continuous functions on the interval
Chapter 6: Systems of Linear Differential Equations Let a (t), a 2 (t),..., a nn (t), b (t), b 2 (t),..., b n (t) be continuous functions on the interval I. The system of n first-order differential equations
Section 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
Every set of first-order formulas is equivalent to an independent set
Every set of first-order formulas is equivalent to an independent set May 6, 2008 Abstract A set of first-order formulas, whatever the cardinality of the set of symbols, is equivalent to an independent
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή
2 Composition. Invertible Mappings
Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,
Approximation of distance between locations on earth given by latitude and longitude
Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth
Homework 3 Solutions
Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For
Solution Series 9. i=1 x i and i=1 x i.
Lecturer: Prof. Dr. Mete SONER Coordinator: Yilin WANG Solution Series 9 Q1. Let α, β >, the p.d.f. of a beta distribution with parameters α and β is { Γ(α+β) Γ(α)Γ(β) f(x α, β) xα 1 (1 x) β 1 for < x
5.4 The Poisson Distribution.
The worst thing you can do about a situation is nothing. Sr. O Shea Jackson 5.4 The Poisson Distribution. Description of the Poisson Distribution Discrete probability distribution. The random variable
derivation of the Laplacian from rectangular to spherical coordinates
derivation of the Laplacian from rectangular to spherical coordinates swapnizzle 03-03- :5:43 We begin by recognizing the familiar conversion from rectangular to spherical coordinates (note that φ is used
Instruction Execution Times
1 C Execution Times InThisAppendix... Introduction DL330 Execution Times DL330P Execution Times DL340 Execution Times C-2 Execution Times Introduction Data Registers This appendix contains several tables
Finite Field Problems: Solutions
Finite Field Problems: Solutions 1. Let f = x 2 +1 Z 11 [x] and let F = Z 11 [x]/(f), a field. Let Solution: F =11 2 = 121, so F = 121 1 = 120. The possible orders are the divisors of 120. Solution: The
Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit
Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit Ting Zhang Stanford May 11, 2001 Stanford, 5/11/2001 1 Outline Ordinal Classification Ordinal Addition Ordinal Multiplication Ordinal
Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3
Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 1 State vector space and the dual space Space of wavefunctions The space of wavefunctions is the set of all
Lecture 2. Soundness and completeness of propositional logic
Lecture 2 Soundness and completeness of propositional logic February 9, 2004 1 Overview Review of natural deduction. Soundness and completeness. Semantics of propositional formulas. Soundness proof. Completeness
Concrete Mathematics Exercises from 30 September 2016
Concrete Mathematics Exercises from 30 September 2016 Silvio Capobianco Exercise 1.7 Let H(n) = J(n + 1) J(n). Equation (1.8) tells us that H(2n) = 2, and H(2n+1) = J(2n+2) J(2n+1) = (2J(n+1) 1) (2J(n)+1)
4.6 Autoregressive Moving Average Model ARMA(1,1)
84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this
Numerical Analysis FMN011
Numerical Analysis FMN011 Carmen Arévalo Lund University carmen@maths.lth.se Lecture 12 Periodic data A function g has period P if g(x + P ) = g(x) Model: Trigonometric polynomial of order M T M (x) =
The Probabilistic Method - Probabilistic Techniques. Lecture 7: The Janson Inequality
The Probabilistic Method - Probabilistic Techniques Lecture 7: The Janson Inequality Sotiris Nikoletseas Associate Professor Computer Engineering and Informatics Department 2014-2015 Sotiris Nikoletseas,
Matrices and Determinants
Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z
Math221: HW# 1 solutions
Math: HW# solutions Andy Royston October, 5 7.5.7, 3 rd Ed. We have a n = b n = a = fxdx = xdx =, x cos nxdx = x sin nx n sin nxdx n = cos nx n = n n, x sin nxdx = x cos nx n + cos nxdx n cos n = + sin
CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS
CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS EXERCISE 01 Page 545 1. Use matrices to solve: 3x + 4y x + 5y + 7 3x + 4y x + 5y 7 Hence, 3 4 x 0 5 y 7 The inverse of 3 4 5 is: 1 5 4 1 5 4 15 8 3
Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 13η: 28/04/2014 1 Παράμετροι του μοντέλου PageRank 2 Ηπαράμετροςα(1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή
Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.
Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο The time integral of a force is referred to as impulse, is determined by and is obtained from: Newton s 2 nd Law of motion states that the action
A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics
A Bonus-Malus System as a Markov Set-Chain Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics Contents 1. Markov set-chain 2. Model of bonus-malus system 3. Example 4. Conclusions
Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics
Fourier Series MATH 211, Calculus II J. Robert Buchanan Department of Mathematics Spring 2018 Introduction Not all functions can be represented by Taylor series. f (k) (c) A Taylor series f (x) = (x c)
the total number of electrons passing through the lamp.
1. A 12 V 36 W lamp is lit to normal brightness using a 12 V car battery of negligible internal resistance. The lamp is switched on for one hour (3600 s). For the time of 1 hour, calculate (i) the energy
TMA4115 Matematikk 3
TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet
k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +
Chapter 3. Fuzzy Arithmetic 3- Fuzzy arithmetic: ~Addition(+) and subtraction (-): Let A = [a and B = [b, b in R If x [a and y [b, b than x+y [a +b +b Symbolically,we write A(+)B = [a (+)[b, b = [a +b
Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1
Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 A Brief History of Sampling Research 1915 - Edmund Taylor Whittaker (1873-1956) devised a
Areas and Lengths in Polar Coordinates
Kiryl Tsishchanka Areas and Lengths in Polar Coordinates In this section we develop the formula for the area of a region whose boundary is given by a polar equation. We need to use the formula for the
Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 14η: 07/05/2014 1 Ευαισθησία του PageRank 2 Ευαισθησία του PageRank: Εισαγωγικά Η ευαισθησία του PageRank μπορεί να αναλυθεί εξετάζοντας ξεχωριστά
The Simply Typed Lambda Calculus
Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις
Congruence Classes of Invertible Matrices of Order 3 over F 2
International Journal of Algebra, Vol. 8, 24, no. 5, 239-246 HIKARI Ltd, www.m-hikari.com http://dx.doi.org/.2988/ija.24.422 Congruence Classes of Invertible Matrices of Order 3 over F 2 Ligong An and
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
Chapter 6: Systems of Linear Differential. be continuous functions on the interval
Chapter 6: Systems of Linear Differential Equations Let a (t), a 2 (t),..., a nn (t), b (t), b 2 (t),..., b n (t) be continuous functions on the interval I. The system of n first-order differential equations
Areas and Lengths in Polar Coordinates
Kiryl Tsishchanka Areas and Lengths in Polar Coordinates In this section we develop the formula for the area of a region whose boundary is given by a polar equation. We need to use the formula for the
On a four-dimensional hyperbolic manifold with finite volume
BULETINUL ACADEMIEI DE ŞTIINŢE A REPUBLICII MOLDOVA. MATEMATICA Numbers 2(72) 3(73), 2013, Pages 80 89 ISSN 1024 7696 On a four-dimensional hyperbolic manifold with finite volume I.S.Gutsul Abstract. In
Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013
Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering
Reminders: linear functions
Reminders: linear functions Let U and V be vector spaces over the same field F. Definition A function f : U V is linear if for every u 1, u 2 U, f (u 1 + u 2 ) = f (u 1 ) + f (u 2 ), and for every u U
Solutions to Exercise Sheet 5
Solutions to Eercise Sheet 5 jacques@ucsd.edu. Let X and Y be random variables with joint pdf f(, y) = 3y( + y) where and y. Determine each of the following probabilities. Solutions. a. P (X ). b. P (X
Μηχανική Μάθηση Hypothesis Testing
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider
Lecture 34 Bootstrap confidence intervals
Lecture 34 Bootstrap confidence intervals Confidence Intervals θ: an unknown parameter of interest We want to find limits θ and θ such that Gt = P nˆθ θ t If G 1 1 α is known, then P θ θ = P θ θ = 1 α
Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.
Bayesian statistics DS GA 1002 Probability and Statistics for Data Science http://www.cims.nyu.edu/~cfgranda/pages/dsga1002_fall17 Carlos Fernandez-Granda Frequentist vs Bayesian statistics In frequentist
Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.
Exercises 0 More exercises are available in Elementary Differential Equations. If you have a problem to solve any of them, feel free to come to office hour. Problem Find a fundamental matrix of the given
3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β
3.4 SUM AND DIFFERENCE FORMULAS Page Theorem cos(αβ cos α cos β -sin α cos(α-β cos α cos β sin α NOTE: cos(αβ cos α cos β cos(α-β cos α -cos β Proof of cos(α-β cos α cos β sin α Let s use a unit circle
Srednicki Chapter 55
Srednicki Chapter 55 QFT Problems & Solutions A. George August 3, 03 Srednicki 55.. Use equations 55.3-55.0 and A i, A j ] = Π i, Π j ] = 0 (at equal times) to verify equations 55.-55.3. This is our third
Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.
B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs
Démographie spatiale/spatial Demography
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ Démographie spatiale/spatial Demography Session 1: Introduction to spatial demography Basic concepts Michail Agorastakis Department of Planning & Regional Development Άδειες Χρήσης
Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1
Eon : Fall 8 Suggested Solutions to Problem Set 8 Email questions or omments to Dan Fetter Problem. Let X be a salar with density f(x, θ) (θx + θ) [ x ] with θ. (a) Find the most powerful level α test
Potential Dividers. 46 minutes. 46 marks. Page 1 of 11
Potential Dividers 46 minutes 46 marks Page 1 of 11 Q1. In the circuit shown in the figure below, the battery, of negligible internal resistance, has an emf of 30 V. The pd across the lamp is 6.0 V and
Tridiagonal matrices. Gérard MEURANT. October, 2008
Tridiagonal matrices Gérard MEURANT October, 2008 1 Similarity 2 Cholesy factorizations 3 Eigenvalues 4 Inverse Similarity Let α 1 ω 1 β 1 α 2 ω 2 T =......... β 2 α 1 ω 1 β 1 α and β i ω i, i = 1,...,
Section 7.6 Double and Half Angle Formulas
09 Section 7. Double and Half Angle Fmulas To derive the double-angles fmulas, we will use the sum of two angles fmulas that we developed in the last section. We will let α θ and β θ: cos(θ) cos(θ + θ)
ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011
Διάρκεια Διαγωνισμού: 3 ώρες Απαντήστε όλες τις ερωτήσεις Μέγιστο Βάρος (20 Μονάδες) Δίνεται ένα σύνολο από N σφαιρίδια τα οποία δεν έχουν όλα το ίδιο βάρος μεταξύ τους και ένα κουτί που αντέχει μέχρι
Lecture 13 - Root Space Decomposition II
Lecture 13 - Root Space Decomposition II October 18, 2012 1 Review First let us recall the situation. Let g be a simple algebra, with maximal toral subalgebra h (which we are calling a CSA, or Cartan Subalgebra).
The challenges of non-stable predicates
The challenges of non-stable predicates Consider a non-stable predicate Φ encoding, say, a safety property. We want to determine whether Φ holds for our program. The challenges of non-stable predicates
b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!
MTH U341 urface Integrals, tokes theorem, the divergence theorem To be turned in Wed., Dec. 1. 1. Let be the sphere of radius a, x 2 + y 2 + z 2 a 2. a. Use spherical coordinates (with ρ a) to parametrize.
Pg The perimeter is P = 3x The area of a triangle is. where b is the base, h is the height. In our case b = x, then the area is
Pg. 9. The perimeter is P = The area of a triangle is A = bh where b is the base, h is the height 0 h= btan 60 = b = b In our case b =, then the area is A = = 0. By Pythagorean theorem a + a = d a a =
Problem Set 3: Solutions
CMPSCI 69GG Applied Information Theory Fall 006 Problem Set 3: Solutions. [Cover and Thomas 7.] a Define the following notation, C I p xx; Y max X; Y C I p xx; Ỹ max I X; Ỹ We would like to show that C
Strain gauge and rosettes
Strain gauge and rosettes Introduction A strain gauge is a device which is used to measure strain (deformation) on an object subjected to forces. Strain can be measured using various types of devices classified
Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 15η: 12/05/2014 1 Το πρόβλημα PageRank ως γραμμικό σύστημα 2 PageRank ως γραμμικό σύστημα Το πρόβλημα του PageRank μπορεί να γραφεί είτε ως Πρόβλημα
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται
New bounds for spherical two-distance sets and equiangular lines
New bounds for spherical two-distance sets and equiangular lines Michigan State University Oct 8-31, 016 Anhui University Definition If X = {x 1, x,, x N } S n 1 (unit sphere in R n ) and x i, x j = a
Part III - Pricing A Down-And-Out Call Option
Part III - Pricing A Down-And-Out Call Option Gary Schurman MBE, CFA March 202 In Part I we examined the reflection principle and a scaled random walk in discrete time and then extended the reflection
Second Order Partial Differential Equations
Chapter 7 Second Order Partial Differential Equations 7.1 Introduction A second order linear PDE in two independent variables (x, y Ω can be written as A(x, y u x + B(x, y u xy + C(x, y u u u + D(x, y
6.1. Dirac Equation. Hamiltonian. Dirac Eq.
6.1. Dirac Equation Ref: M.Kaku, Quantum Field Theory, Oxford Univ Press (1993) η μν = η μν = diag(1, -1, -1, -1) p 0 = p 0 p = p i = -p i p μ p μ = p 0 p 0 + p i p i = E c 2 - p 2 = (m c) 2 H = c p 2
Space-Time Symmetries
Chapter Space-Time Symmetries In classical fiel theory any continuous symmetry of the action generates a conserve current by Noether's proceure. If the Lagrangian is not invariant but only shifts by a
Estimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University
Estimation for ARMA Processes with Stable Noise Matt Calder & Richard A. Davis Colorado State University rdavis@stat.colostate.edu 1 ARMA processes with stable noise Review of M-estimation Examples of
Homework 8 Model Solution Section
MATH 004 Homework Solution Homework 8 Model Solution Section 14.5 14.6. 14.5. Use the Chain Rule to find dz where z cosx + 4y), x 5t 4, y 1 t. dz dx + dy y sinx + 4y)0t + 4) sinx + 4y) 1t ) 0t + 4t ) sinx
Inverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- -----------------
Inverse trigonometric functions & General Solution of Trigonometric Equations. 1. Sin ( ) = a) b) c) d) Ans b. Solution : Method 1. Ans a: 17 > 1 a) is rejected. w.k.t Sin ( sin ) = d is rejected. If sin
PARTIAL NOTES for 6.1 Trigonometric Identities
PARTIAL NOTES for 6.1 Trigonometric Identities tanθ = sinθ cosθ cotθ = cosθ sinθ BASIC IDENTITIES cscθ = 1 sinθ secθ = 1 cosθ cotθ = 1 tanθ PYTHAGOREAN IDENTITIES sin θ + cos θ =1 tan θ +1= sec θ 1 + cot
Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2)
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2) Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών NP-Completeness (2) x 1 x 1 x 2 x 2 x 3 x 3 x 4 x 4 12 22 32 11 13 21
Ανάκτηση Πληροφορίας
Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 11η: 09/05/2007 1 Ζητήµατα Μεγάλης-Κλίµακας
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Οικονομία Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών Τέλος Ενότητας Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί
[1] P Q. Fig. 3.1
1 (a) Define resistance....... [1] (b) The smallest conductor within a computer processing chip can be represented as a rectangular block that is one atom high, four atoms wide and twenty atoms long. One
Durbin-Levinson recursive method
Durbin-Levinson recursive method A recursive method for computing ϕ n is useful because it avoids inverting large matrices; when new data are acquired, one can update predictions, instead of starting again
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη η: 09/0/00 Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης