Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ενηµέρωση του διανύσµατος PageRank. Η εξέλιξη του Web

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

EE512: Error Control Coding

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

2 Composition. Invertible Mappings

Approximation of distance between locations on earth given by latitude and longitude

Section 8.3 Trigonometric Equations

Finite Field Problems: Solutions

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

derivation of the Laplacian from rectangular to spherical coordinates

Fractional Colorings and Zykov Products of graphs

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Statistical Inference I Locally most powerful tests

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Other Test Constructions: Likelihood Ratio & Bayes Tests

Section 7.6 Double and Half Angle Formulas

the total number of electrons passing through the lamp.

Srednicki Chapter 55

Math221: HW# 1 solutions

C.S. 430 Assignment 6, Sample Solutions

The challenges of non-stable predicates

Section 9.2 Polar Equations and Graphs

4.6 Autoregressive Moving Average Model ARMA(1,1)

Business English. Ενότητα # 9: Financial Planning. Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

TMA4115 Matematikk 3

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

Code Breaker. TEACHER s NOTES

Every set of first-order formulas is equivalent to an independent set

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Homework 3 Solutions

ST5224: Advanced Statistical Theory II

Concrete Mathematics Exercises from 30 September 2016

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

The Simply Typed Lambda Calculus

6.3 Forecasting ARMA processes

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in

Math 6 SL Probability Distributions Practice Test Mark Scheme

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Matrices and Determinants

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Example Sheet 3 Solutions

Block Ciphers Modes. Ramki Thurimella

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Solutions to Exercise Sheet 5

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

On a four-dimensional hyperbolic manifold with finite volume

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Πτυχιακή Εργασία Η ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΤΩΝ ΑΣΘΕΝΩΝ ΜΕ ΣΤΗΘΑΓΧΗ

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

Numerical Analysis FMN011

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ. ιπλωµατική Εργασία. της ΘΕΟ ΟΣΟΠΟΥΛΟΥ ΕΛΕΝΗΣ ΜΣ:5411

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

Second Order RLC Filters

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Partial Trace and Partial Transpose

Solution Series 9. i=1 x i and i=1 x i.

Reminders: linear functions

SUPERPOSITION, MEASUREMENT, NORMALIZATION, EXPECTATION VALUES. Reading: QM course packet Ch 5 up to 5.6

ΑΚΑ ΗΜΙΑ ΕΜΠΟΡΙΚΟΥ ΝΑΥΤΙΚΟΥ ΜΑΚΕ ΟΝΙΑΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

Instruction Execution Times

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

Problem Set 9 Solutions. θ + 1. θ 2 + cotθ ( ) sinθ e iφ is an eigenfunction of the ˆ L 2 operator. / θ 2. φ 2. sin 2 θ φ 2. ( ) = e iφ. = e iφ cosθ.

Example of the Baum-Welch Algorithm

Commutative Monoids in Intuitionistic Fuzzy Sets

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

Assalamu `alaikum wr. wb.

Terabyte Technology Ltd

CE 530 Molecular Simulation

Inverse trigonometric functions & General Solution of Trigonometric Equations

PARTIAL NOTES for 6.1 Trigonometric Identities

Κατανοώντας και στηρίζοντας τα παιδιά που πενθούν στο σχολικό πλαίσιο

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

Homework 8 Model Solution Section

Εισαγωγή στην ανάλυση συνδέσμων

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

1. Αφετηρία από στάση χωρίς κριτή (self start όπου πινακίδα εκκίνησης) 5 λεπτά µετά την αφετηρία σας από το TC1B KALO LIVADI OUT

Congruence Classes of Invertible Matrices of Order 3 over F 2

Bounding Nonsplitting Enumeration Degrees

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 13η: 23/05/2007 1

Ενηµέρωση του διανύσµατος PageRank 2

Η εξέλιξη του Web Φεβρουάριος 17 µέχρι Ιούνιος 24, 1999 Επίσκεψη σε 270 ιστοτόπους Αναγνωρίστηκαν 400 ιστοτόποι µε το υψηλότερο PageRank Συλλέχθηκαν 720,000 ιστοσελίδες 3,000 σελίδες από κάθε τόπο καθηµερινά Εκκίνηση από την ρίζα, επίσκεψη κατά πλάτος Εκτέλεση µόνο 9pm - 6am, 10 seconds µεταξύ αιτήσεων σε κάθε ιστοτόπο 3

Πόσο συχνά αλλάζει µια ιστοσελίδα; Παράδειγµα: 50 επισκέψεις σε σελίδα, 5 αλλαγές µέσο διάστηµα αλλαγής = 50/5 = 10 ηµέρες Είναι ορθή η προσέγγιση? αλλαγές 1 ηµέρα Επίσκεψη σε σελίδα 4

Μέσο διάστηµα αλλαγής(1/2) Ποσοστό ιστοσελίδων 5

Μέσο διάστηµα αλλαγής(2/2) 6

Ενηµέρωση του διανύσµατος PageRank Κατά πάσα πιθανότητα το διάνυσµα PageRank ενηµερώνεται κάθε µήνα Λαµβάνει χώρα το Google Dance Χιλιάδες σελίδες προστίθενται ή αφαιρούνται κάθε µήνα Αλλάζει το µέγεθος του πίνακα Google Χιλιάδες υπερσύνδεσµοι προστίθενται ή αφαιρούνται κάθε µήνα Αλλάζει η συνδεσµολογία Το προηγούµενο διάνυσµα είναιτοφ Τ =(φ 1,φ 2,, φ m ) για τον πίνακα Q mxm Το ανανεωµένο διάνυσµα θαείναιτοπ Τ =(π 1,π 2,, π n ) για τον πίνακα G nxn 7

Τα 2 ζητήµατα ενηµέρωσης Το link-updating πρόβληµα Το page-updating πρόβληµα Το δεύτερο είναι σαφώς πιο δύσκολο Το 1980 επιλύθηκε επακριβώς το link-updating πρόβληµα υστυχώς, η λύση απαιτεί οι ενηµερώσεις να γίνονται κατά µια γραµµή κάθεφορά Βασίζονται στη γνωστή σχέση των Sherman-Morrison Το επόµενο θεώρηµα περιγράφει τη λύση για την περίπτωση του PageRank Εάν κάθε γραµµή ανανεώνεται, τότε απαιτούνται O(n 3 ) πράξεις µε αριθµούς κινητής υποδιαστολής 8

Google & Link-updating πρόβληµα Έστω Q ο πίνακας µεταβάσεων, και έστω ότι ανανεώνεται η i-οστή γραµµή q T του Q και παράγεται η γραµµή g T = q T -δ Τ του πίνακα G. Εάν φ Τ και π Τ είναι τα διανύσµατα PageRank και εάν A=I-Q, τότε π Τ = φ Τ - ε Τ όπου: Για να χειριστούµε πολλαπλές ανανεώσεις γραµµών, πρέπει να εφαρµόζουµε τησχέσηαυτήµια γραµµή κάθε φορά, που σηµαίνει ότι πρέπει να ανανεώνουµε σειριακά τον group inverse. Η σχέση για την ανανέωση του (I-Q) # σε (I-G) # είναι: 9

Σχόλια Παρόλο που υπάρχουν και άλλες λύσεις, όλες είναι παραλλαγές της βασική ιδέας των Sherman-Morrison Είναι όλες πολύ αργές O(n 3 ) Εφαρµόζονται µόνο για το link-update πρόβληµα εν υπάρχουν θεωρητικά ή πρακτικά αποτελέσµατα για το page-update πρόβληµα 10

Επανεκκίνηση της power µεθόδου (1/3) Με µια πρώτη µατιά, ίσως η επανεκτέλεση της power µεθόδου είναι η µοναδική εναλλακτική λύση Ας ξεκινήσουµε µε το απλούστερο σχετικά link-update πρόβληµα Εάν υποθέσουµε, όπως και πριν, ότι έχουµε υπολογίσει το φ Τ και θέλουµε ναβρούµε τονέοδιάνυσµα PageRank π Τ στον ανανεωµένο πίνακα Google G, εάν χρησιµοποιήσουµε τοδιάνυσµα φ Τ ως π (0)Τ ίσως πετύχουµε ταχύτερη σύγκλιση, δηλαδή λιγότερες επαναλήψεις Σε κάποια έκταση, η διαίσθηση αυτή είναι αληθής, αλλά κάπως πιο σύνθετη 11

Επανεκκίνηση της power µεθόδου (2/3) Οασυµπτωτικός ρυθµός σύγκλισης εξαρτάται από την υποκυρίαρχη ιδιοτιµή λ 2, και ισχύει R = -log 10 λ 2 Οασυµπτωτικός ρυθµός σύγκλισης ποιοτικά µας πληροφορεί για τον αριθµό των ψηφίων ακρίβειας που επιτυγχάνεται σε κάθε επανάληψη της power µεθόδου Για να ποσοτικοποιήσουµε το όφελος από τη χρήση του φ Τ ως π (0)Τ, έστω ότι το φ Τ µας δίνει ένα ψηφίο ακρίβειας Γιαναεπιτύχουµε τελικά 12 ψηφία ακρίβειας, αφού απαιτούνται 1/R επαναλήψεις για να κερδίσουµε ένα ψηφίο ακρίβειας, αντιλαµβανόµαστε ότι χρειάζονται περίπου 11/R επαναλήψεις Εάν ξεκινούσαµε απότηναρχή, θα χρειαζόµασταν 12/R επαναλήψεις, δηλαδή κερδίσαµε ~8% 12

Επανεκκίνηση της power µεθόδου (3/3) Για παράδειγµα, εάν είχαµε λ 2 =0.85, και επιθυµούσαµε 12 ψηφία ακρίβειας, και η χρήση του φ Τ ως π (0)Τ µας έδινε το πρώτο ψηφίο ακρίβειας, τότε µε βάση τη σχέση του R, θα απαιτούνται 156 επαναλήψεις, µόλις 16 λιγότερες από αυτές που θα απαιτούνταν ένα ξεκινούσαµε απόένατυχαίοπ (0)Τ Συνεπώς, χρησιµοποιώντας µια τέτοια τεχνική ενηµέρωσης του PageRank διανύσµατος δεν είναι βιώσιµη τεχνική, αφού δεν παρέχει σηµαντικό όφελος Στοίδιοσυµπέρασµα καταλήγουµε και εάν εφαρµόσουµε την ίδια τεχνική ενηµέρωσης στο pageupdate πρόβληµα 13

Οαλγόριθµος TrustRank Τίτλος: Combating Web Spam with TrustRank Συγγραφείς: Zoltan Gyongyi Hector Garcia-Molina Jan Pedersen Έτος: 2004 Αντικείµενο: This paper presented the first attempt to formalizing the problem of combating Web Spam and introduced a comprehensive solution to assist in the detection of Web Spam 14

Εισαγωγικά Web Spam: The term web Spam refers to hyperlinked pages on the World Wide Web that are created with the intention of misleading search engines Techniques of Web Spam: By adding the thousands of keywords to home page, so that a search engine will index the key words and return the bogus site as an answer to queries on that keywords Creating a large number of bogus web pages, all pointing to a single target page. Since many search engines ranks the pages with the consideration on incoming links 15

Εισαγωγικά Issues with Web Spam Its hard to check if pages has the contents related to the keywords listed at its main page or they are just inserted for Web Spam. Inter linking websites may represent useful relations between the sites, or they may have been created to boost the rank of each other s pages. Not an easy task for computer to categories web pages due to the large number of web pages. 16

Εισαγωγικά Στη συνέχεια: Formalize the problem of Web Spam and Spam detection algorithms Define metrics for assessing the efficacy of detection algorithms Present schemes for selecting seed sets of pages to be manually evaluate Introduce the TrustRank algorithms for determining the likelihood that pages are reputable(not Spam) Discuss results of an extensive evaluation based on 31 million sites crawled by the Alta Vista search engine 17

Εισαγωγικά 1. Web Model 2. Page Rank 18

Εισαγωγικά 1. Web Model Web is modeled as a graph G=(V,E), Consisting of a set V of N pages (vertices) and a set E of directed links (Edges) that connect pages. Multiple hyperlink between two pages p and q, is collapsed into a single link(p,q) E In-degree, number of inlinks of a page p, is l(p) Out-degree, number of outlinks of a page p, is ω(p) Pages without outlinks are referred to as nonreferencing pages Pages without inlinks are referred to as unreferenced pages Pages that are both unreferenced and non-referencing at the same time are referred as isolated pages 19

Εισαγωγικά Page 1 is unrefernced page Page 4 is non-referncing page 20

Εισαγωγικά Transposition matrix, T: Inverse Transposition matrix, U: 21

Εισαγωγικά PageRank PageRank is a well known algorithm that uses link information to assign global importance scores to all pages on the web. The intuition behind PageRank is that a web page is important, if several other important web pages point to it. The PageRank score r(p) of a page p is defined as: where α is a decay factor. 22

Οαλγόριθµος TrustRank (1/9) 1. Assessing Trust 2. Computing Trust 3. The TrustRank Algorithm 23

Οαλγόριθµος TrustRank (2/9) 1.Assessing Trust Determination of initial set of pages as if it is a Web Spam or not, requires human evaluation. A notion is introduced as human checking a page for spam by a binary oracle function O over all pages p V: Oracle invocations are expensive and time consuming. Thus, our objective is to call function O on selective pages. 24

Οαλγόριθµος TrustRank (3/9) To discover good pages without invoking the oracle function on the entire web, it was made an important empirical observation that Good pages seldom points to bad ones Spam pages can, and in fact often do, link to good pages 25

Οαλγόριθµος TrustRank (4/9) Threshold Trust Property If a page p receives a score above δ then we know that it is good. Otherwise, we cannot tell anything about p. Where, T(p) is a Ideal Trust Property 26

Οαλγόριθµος TrustRank (5/9) 2. Computing Trust There is a limited budget L, of function O invocation. The subsets of good and bad seed pages by δ+ and δ-, respectively. The remaining pages are not checked by the human expert, we assign them a trust score of ½ to signal out lack of information 27

Οαλγόριθµος TrustRank (6/9) Trust Propagation As we are not sure that pages reachable from good seeds are indeed good The further away we are from good seed pages, the less certain we are that a page is good. Trust Attenuation Trust Dampening 28

Οαλγόριθµος TrustRank (7/9) Trust Splitting 29

Οαλγόριθµος TrustRank (8/9) 30

Οαλγόριθµος TrustRank (9/9) Step 1. S = [0.08, 0.13, 0.08, 0.10, 0.09, 0.06, 0.02] Step 2. σ = [2, 4, 5, 1, 3, 6, 7] Step 3. Invoke Oracle function on the L first pages, e.g., for L=3 we have this set s={2, 4, 5} Step 4. d = [0, 1/2, 0, 1/2, 0, 0, 0] Step 5. Evaluate the TrustRank score on whole set, with vector d replacing the original uniform 31

Επιλέγοντας Seed Set 1. Inverse PageRank We could select select seed pages based on the number of outlinks Inverse PageRank is a heuristic, that is works well in practice 2. High PageRank As high PageRank pages are likely to point to other high-pagerank pages, then good trust scores will also be propagated to pages that are likely to be at the top of result sets 32

Πειραµατικά αποτελέσµατα (1/6) In August 2003, using the complete set of pages crawled and indexed by the Alta Vista search engine, they group several billion pages into 31,003,946 sites The first author of this paper played the role of the oracle After conducting experiments to compare the inverse PageRank and the high PageRank seed selection schemes, Inverse PageRank was selected With the help of major web directories, out of top 25,000 websites, they selected 7,900 Oracle is called on top 1250, and selected 178 sites as good seeds 33

Πειραµατικά αποτελέσµατα (2/6) PageRank Versus TrustRank 34

Πειραµατικά αποτελέσµατα (3/6) PageRank Versus TrustRank PageRank algorithm does not incorporate any knowledge about the quality of a site, nor does it explicitly penalize badness. Where as, TrustRank is meant to differentiate good and bad sites. Almost no spam in top 5 TrustRank buckets, while it is surprising that almost 20% of the second PageRank bucket is bad. Spam is highest in PageRank buckets 9 and 10, while corresponding TrustRank buckets 9 has different values. 35

Πειραµατικά αποτελέσµατα (4/6) Other Strategies to evaluate results: 1.Pairwise Orderedness 2.Precision and Recall 36

Πειραµατικά αποτελέσµατα (5/6) 1. Pairwise Orderedness Pairwise Orderedness is related to ordered trust property, which tell us that what fraction of the pairs of website (p,q), for which T(Threshold Trust Property) does not make mistake. TrustRank constantly outperforms both the ignorant function and PageRank. 37

Πειραµατικά αποτελέσµατα (6/6) 2. Precision and Recall Precision:- It is the fraction of good among all pages in the set X that have a trust score above the average trust score. Recall:- It is the ratio between the number of good pages with a trust score above average trust score and the total number of good pages in the set X. 38

Συµπεράσµατα Search engines combat Web Spam with a variety of ad hoc, often proprietary techniques. Paper presented a solution to assist in the detection of web Spam with the help of Trust Rank. Results shows that presented solution can effectively identify a significant number of strongly reputable (non-spam) pages. Trust Rank can be used either separately to filter the index, or in combination with PageRank and other metrics to rank search results. 39

Περιορισµός Although, TrustRank guarantees that top-scored sites are good one, and has better result then PageRank, TrustRank is unable to effectively separate low-scored good sites from bad one, due to the lack of distinguishing features (inlinks) of the sites. 40

Περαιτέρω βελτιώσεις Explore the interplay between dampening and splitting for trust propagation. Instead of selecting the entire seed set at once, an iterative process could be implemented to reconsider the pages that oracle should evaluate next, based on the previous outcome of oracle results, after oracle has evaluated some pages. 41

Spam: εν είναι µόνο για τα inboxes 42

Link Spam Farms Spamming: Παραπλάνηση των µηχανών αναζήτησης για να αποκτηθεί υψηλότερη διάταξη (ranking) για κάποιες σελίδες (ή ιστοτόπους) απ αυτή που πραγµατικά αξίζουν. Τεχνικές Spamming Hiding Term Link Content hiding Cloaking Redirection 43

Οαλγόριθµος PageRank c: η σταθερά damping T: ο πίνακας µεταβάσεων Ν: συνολικός αριθµός σελίδων του Web 1 N : διάνυσµα πουόλαταστοιχείατουείναιίσαµε 1 Στην ουσία, αυτή η έκφραση οδηγεί σε διατύπωση του προβλήµατος PageRank ως γραµµικό σύστηµα 44

Υποθέσεις: Spam Farm για εξύψωση µιας σελίδας (1/4) Κάθε σελίδα της φάρµας δείχνει µόνο προς τη µια και µοναδική σελίδα-στόχο, τηςοποίαςο spammer θέλει ν αυξήσει το PageRank. Αυτή ησελίδαείναι µέρος της φάρµας Ηφάρµα αποτελείται από δεδοµένο αριθµό k σελίδων, λόγω κόστους συντήρησης, ή πόρων Είναι πιθανό, εκτός των σελίδων της φάρµας, ο spammer να κατορθώσει να αποκτήσει συνδέσµους προς τη σελίδα που θέλει και διαµέσου έγκριτων πηγών, π.χ., από Web directory, ήαπόunmoderated bulletin boards. Αυτούς τους συνδέσµους θα τους ονοµάζουµε hijacked links και το PageRank που φτάνει στη φάρµα διαµέσου αυτών θα καλείται leakage λ Ενώ ο spammer έχει πλήρη έλεγχο των σελίδων της φάρµας, δεν έχει τον πλήρη έλεγχο των σελίδων που περιέχουν τους hijacked links 45

Spam Farm για εξύψωση µιας σελίδας (2/4) ΘΕΩΡΗΜΑ. Η τιµή PageRank p 0 της σελίδας-στόχος του προηγούµενου σχήµατος είναι: ΑΠΟ ΕΙΞΗ. Σύµφωνα µε την προηγούµενη διατύπωση του PageRank, η τιµή PageRank των σελίδων της φάρµας είναι: Αντικαθιστώντας την τιµή τωνp i, έχουµε: 46

Spam Farm για εξύψωση µιας σελίδας (3/4) Βέλτιστη δοµή τηςφάρµας. Έστω ότι µε p και λ συµβολίζουµε ταδιανύσµατα που αντιπροσωπεύουν τις τιµές PageRank και του leakage των σελίδων της φάρµας: Τότε η εξίσωση του PageRank για τις σελίδες της φάρµας είναι: ΘΕΩΡΗΜΑ. Ητιµή PageRank p 0 της σελίδας-στόχος του προηγούµενου σχήµατος είναι µέγιστη εάν e=1 k, 1 kf=1, G=0 kxk και λ 0 =λ (=λ 0 +λ 1 +λ 2 + ) και λ i =0 i=1,,k 47

Spam Farm για εξύψωση µιας σελίδας (4/4) Μ άλλα λόγια, η δοµή τηςφάρµας είναι βέλτιστη, εάν: Όλες οι boosting σελίδες δείχνουν και δείχνονται από τη σελίδα-στόχο (e=1 k ) εν υπάρχουν σύνδεσµοι µεταξύ των boosting σέλίδων (G=0 kxk ) Η σελίδα-στόχος δείχνει σε µερικές ή όλες τις boosting σελίδες (1 kf=1) Όλοι οι hijacked σύνδεσµοι δείχνουν στη σελίδα-στόχο (λ 0 =λκαι λ i =0 i=1,,k) 48

Συµµαχίες link spam farms: υο φάρµες Η µία φάρµα έχειk boosting σελίδες και η άλλη έχει m boosting σελίδες Χωρίς να συνδέονται οι φάρµες µεταξύ τους, η µέγιστη τµή τηςσελίδας-στόχος είναι: Εάν κάνουµε την συνδεσµολογία των δυο farms µε τον τρόπο που φαίνεται στο πιο πάνω σχήµα, τότε: Συνεπώς, κερδίζει ο spammer που έχει τις λιγότερες σελίδες στη φάρµα του! 49

Συµµαχίες link spam farms: υο φάρµες Εάν εκτελέσουµε τη διπλανή συνδεσµολογία, τότε p 0 = q 0 και: Άρα ωφελούνται και οι δυο, κατά ποσά ανάλογα του µεγέθους της άλλης φάρµας, που είναι το ζητούµενο για τους spammers: 50

Συµµαχίες link spam farms: ακτύλιοι Εάν έχουµε F φάρµες, και συµβολίσουµε µε t i την τιµή PageRank της σελίδας-στόχου κάθε φάρµας και µε b i τον αριθµό των boosting σελίδων κάθε φάρµας, τότε το PageRank score τηςπρώτηςσελίδας-στόχου θα είναι: Γενικά, η τιµή PageRank της i-οστής σελίδας-στόχου θα είναι: 51

Συµµαχίες link spam farms: Κλίκες Εάν συµβολίσουµε µε t i την τιµή PageRank της σελίδας-στόχου κάθε φάρµας και µε b i τον αριθµό των boosting σελίδων κάθε φάρµας, τότε το PageRank score τηςπρώτηςσελίδας-στόχου θα είναι: Γενικά, η τιµή PageRank της i-οστής σελίδας-στόχου θα είναι: 52

Ζητήµατα στη δοµή τωνlink spam farms Πότε έχει νόηµα νασυµµετάσχει µια νέα φάρµα σεµια ήδη υπάρχουσα συµµαχία; Πόσες σελίδες πρέπει να έχει η νέα φάρµα, ώστε να ωφελήσει και τις υπάρχουσες φάρµες; Πότε έχει νόηµα νααποχωρήσειµια φάρµα απόµια συµµαχία στην οποία συµµετέχει; Υπάρχει κάποιος critical αριθµός κόµβων, πέρα από τον οποίο είναι καλύτερα η φάρµαναυπάρχει µόνη της; Αφού οι βέλτιστες δοµές των link spam farms είναι εύκολα ανιχνεύσιµες από τις µηχανές αναζήτησης, είναι πιθανό ότι οι spammers θα δηµιουργήσουν ακανόνιστες δοµές που όµως θα µοιάζουν µε τις βέλτιστες; Πώς τις ανιχνεύουµε αυτές; 53