HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching ΙΙΙ

Σχετικά έγγραφα
HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching

Web Searching ΙΙ Τεχνικές Ανάλυσης Συνδέσμων (Link Analysis Techniques)

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching

Solutions 3. February 2, Apply composite Simpson s rule with m = 1, 2, 4 panels to approximate the integrals:

Oscillatory integrals

Solutions_3. 1 Exercise Exercise January 26, 2017

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Εθνικό Μετσόβιο Πολυτεχνείο. Thales Workshop, 1-3 July 2015.

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

2 Composition. Invertible Mappings

(a,b) Let s review the general definitions of trig functions first. (See back cover of your book) sin θ = b/r cos θ = a/r tan θ = b/a, a 0

Example 1: THE ELECTRIC DIPOLE

Optimal Placing of Crop Circles in a Rectangle

Matrix Hartree-Fock Equations for a Closed Shell System

derivation of the Laplacian from rectangular to spherical coordinates

Physics 505 Fall 2005 Practice Midterm Solutions. The midterm will be a 120 minute open book, open notes exam. Do all three problems.

Analytical Expression for Hessian

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Approximation of distance between locations on earth given by latitude and longitude

To find the relationships between the coefficients in the original equation and the roots, we have to use a different technique.

Example Sheet 3 Solutions

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

Space Physics (I) [AP-3044] Lecture 1 by Ling-Hsiao Lyu Oct Lecture 1. Dipole Magnetic Field and Equations of Magnetic Field Lines

CHAPTER (2) Electric Charges, Electric Charge Densities and Electric Field Intensity

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Section 8.3 Trigonometric Equations

Instruction Execution Times

Section 9.2 Polar Equations and Graphs

EE512: Error Control Coding

PhysicsAndMathsTutor.com

Finite Field Problems: Solutions

Laplace s Equation in Spherical Polar Coördinates

The Simply Typed Lambda Calculus

Section 7.6 Double and Half Angle Formulas

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

[ ] ( l) ( ) Option 2. Option 3. Option 4. Correct Answer 1. Explanation n. Q. No to n terms = ( 10-1 ) 3

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Assalamu `alaikum wr. wb.

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Block Ciphers Modes. Ramki Thurimella

Math221: HW# 1 solutions

Problem Set 3: Solutions

C.S. 430 Assignment 6, Sample Solutions

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Fractional Colorings and Zykov Products of graphs

Math 6 SL Probability Distributions Practice Test Mark Scheme

Synthetic Aperture Radar Processing

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

Inverse trigonometric functions & General Solution of Trigonometric Equations

Slide 1 of 18 Tensors in Mathematica 9: Built-In Capabilities. George E. Hrabovsky MAST

Reminders: linear functions

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

If ABC is any oblique triangle with sides a, b, and c, the following equations are valid. 2bc. (a) a 2 b 2 c 2 2bc cos A or cos A b2 c 2 a 2.

Edexcel FP3. Hyperbolic Functions. PhysicsAndMathsTutor.com

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Areas and Lengths in Polar Coordinates

CHAPTER-III HYPERBOLIC HSU-STRUCTURE METRIC MANIFOLD. Estelar

Chapter 3: Ordinal Numbers

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Matrices and Determinants

Every set of first-order formulas is equivalent to an independent set

w o = R 1 p. (1) R = p =. = 1

Edexcel FP3. Hyperbolic Functions. PhysicsAndMathsTutor.com

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Statistical Inference I Locally most powerful tests

( ) 2 and compare to M.

Example of the Baum-Welch Algorithm

From the finite to the transfinite: Λµ-terms and streams

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

Areas and Lengths in Polar Coordinates

Congruence Classes of Invertible Matrices of Order 3 over F 2

ST5224: Advanced Statistical Theory II

Démographie spatiale/spatial Demography

Strain gauge and rosettes

6.3 Forecasting ARMA processes

The challenges of non-stable predicates

Υλοποίηση Δικτυακών Υποδομών και Υπηρεσιών: OSPF Cost

Special edition of the Technical Chamber of Greece on Video Conference Services on the Internet, 2000 NUTWBCAM

I Feel Pretty VOIX. MARIA et Trois Filles - N 12. BERNSTEIN Leonard Adaptation F. Pissaloux. ι œ. % α α α œ % α α α œ. œ œ œ. œ œ œ œ. œ œ. œ œ ƒ.

Notes on the Open Economy

Fourier Series. constant. The ;east value of T>0 is called the period of f(x). f(x) is well defined and single valued periodic function

Tridiagonal matrices. Gérard MEURANT. October, 2008

How to register an account with the Hellenic Community of Sheffield.

2. Let H 1 and H 2 be Hilbert spaces and let T : H 1 H 2 be a bounded linear operator. Prove that [T (H 1 )] = N (T ). (6p)

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

Right Rear Door. Let's now finish the door hinge saga with the right rear door

CYTA Cloud Server Set Up Instructions

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Lecture 5: Numerical Integration

CRASH COURSE IN PRECALCULUS

Similarly, we may define hyperbolic functions cosh α and sinh α from the unit hyperbola

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

Bounding Nonsplitting Enumeration Degrees

Tutorial Note - Week 09 - Solution

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 8 HΥ63 - Συστήματα Ανάκτησης Πληροφοριών Infomtion Retievl IR Systems Web Seching ΙΙΙ Web Spm Pge Identifiction Εντοπισμός «Παραπλανητικών» Ιστοσελίδων Γιάννης Τζίτζικας άλ ιάλεξη : Ημερομηνία : Bsed on Z. Gyongyi, H. Gci-Molin, J. Pedesen, Compting Web Spm with Tust Rnk, SIGMOD CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Κίνητρο Υπάρχουν πολλές ιστοσελίδες και καθημερινά δημιουργούνται νέες οι οποίες χρησιμοποιούν διάφορα τεχνάσματα ώστε να εξαπατήσουν τις μηχανές αναζήτησης και να λάβουν βαθμό π.χ. PgeRnk υψηλότερο από αυτό που «αξίζουν», και άρα να εμφανίζονται σε υψηλές θέσεις στα αποτελέσματα επερωτήσεων. Ο εντοπισμός των σπαμ σελίδων από ανθρώπους είναι εφικτός αλλά αυτό θα ήταν εξαιρετικά χρονοβόρο και ακριβό για μεγάλο πλήθος σελίδων Ανάγκη για αυτόματες ή ημιαυτόματες τεχνικές διαχωρισμού των «καλών» σελίδων από τις «κακές» CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Web Spm Ορισμός: διασυνδεδεμένες σελίδες δημιουργημένες για παραπλάνηση των μηχανών αναζήτησης Παραδείγματα ponogphy site pge tht contins thousnds of keywods which e mde invisible to humns by djusting ccodingly the colo scheme sech engine will include this pge in the esults of uey tht contins some of these keywods cetion of lge numbe of bogus web pges, ll pointing to single tget pge tht pge will hve high in-degee sech engine will nk high this pge CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Μια Ταξινομία των Τρόπων Παραπλάνησης Μηχανών Αναζήτησης Πηγή Web Spm Txonomy http://iweb.cse.lehigh.edu/5/gyongyi.pdf CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7

Repetition of one o few specific tems. Τhey chieve incesed elevnce fo document with espect to smll numbe of uey tems. Dumping of lge numbe of unelted tems, often even entie dictionies. They chive mking cetin pge elevnt to mny diffeent ueies. Effective ginst ueies tht include eltively e, obscue tems: fo such ueies, it is pobble tht only couple of pges e elevnt, so even spm pge with low elevnce/impotnce would ppe mong the top esults. Weving of spm tems into copied contents. spmmes duplicte text copo e.g.,news ticles vilble on the Web nd inset spm tems into them t ndom positions. Effective if the topic of the oiginl el text ws so e tht only smll numbe of elevnt pges exist. Phse stitching: they glue togethe sentences o phses, possibly fom diffeent souces; the spm pge might then show up fo ueies on ny of the topics of the oiginl sentences. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8 URL spm. Some sech engines lso bek down the URL of pge into set of tems tht e used to detemine the elevnce of the pge. To exploit this, spmmes sometimes cete long URLs tht include seuences of spm tems. Fo instnce, one could encounte spm URLs like: buy-cnon-ebel-d-lens-cse.cmesx.com, buy-nikon-d-d7-lens-cse.cmesx.com, Some spmmes even go to the extent of setting up DNS seve tht esolves ny host nme within domin. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9

Spm Hiding Techniues Hidden text Hidden link CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Spm Hiding Techniues > Cloking Given URL, spm web seves etun one specic HTML document to egul web bowse, while they etun diffeent document to web cwle. How? Spmmes cn mintin list of IP ddesses used by sech engines, nd identify web cwles bsed on thei mtching IPs. b A web seve cn identify the ppliction euesting document bsed on the use-gent field in the HTTP euest messge,e.g. e g GET /db pges/membes.html HTTP/. Host: www-db.stnfod.edu Use-Agent: Mozill/. comptible; MSIE 6.; Windows NT 5. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Αντιμετώπιση Κλασσικός τρόπος αντιμετώπισης Οι εταιρίες που διατηρούν μηχανές αναζήτησης προσλαμβάνουν προσωπικό «ειδικευμένο» στον εντοπισμό σπαμ. Το προσωπικό αυτό συνεχώς σαρώνει τον ιστό για τον εντοπισμό «κακόβουλων» σελίδων. Αν μια παραπλανητική σελίδα ή site εντοπιστεί, τότε η μηχανή παύει να την ευρετηριάζει μπαίνει στη μαύρη λίστα του ερπυστή και διαγράφεται από το ευρετήριο της μηχανής. Πολύ δαπανηρή και αργή διαδικασία CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Μια ημιαυτόματη προσέγγιση Επιλογή ενός μικρού συνόλου από σελίδες σπόρους seed pges για αξιολόγηση από ειδικούς expets Μετά τη χειρονακτική επιλογή των αξιόπιστων σελίδων σπόρων, η δομή του γράφου του Ιστού μπορεί να αξιοποιηθεί προκειμένου να ανακαλύψουμε άλλες σελίδες που πιθανώς είναι επίσης καλές. Ζητήματα: Πως να επιλέξουμε το σύνολο των σπόρων seed selection; Πως να ανακαλύψουμε τις καλές σελίδες; CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3

Εμπειρική Παρατήρηση: απομόνωση των καλών σελίδων Appoximte isoltion of the good set 3 κακόβουλη Εμπειρική παρατήρηση: 5 6 7 8 κανονική Οι καλές σελίδες σπάνια δείχνουν σε κακές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Εμπειρική Παρατήρηση: απομόνωση των καλών σελίδων Εξαιρέσεις 3 5 6 7 8 the cetos of good pges cn sometimes by «ticked» nd dd links to bd pges. Exmples: Unmodeted messge bods whee spmmes post messges tht include links to thei spm pges Honey pots pges tht contin some useful esouce but hve hidden links to thei spm pges the honey pot ttcts people to point to it CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5

Αποτίμηση Εμπιστοσύνης μέσω μιας «μαντικής» συνάρτησης Assessing Tust: Ocle Function We cn fomlize the notion of humn checking pge by biny «ocle» function O, ove ll pges p in W. O p if p is bd if p is good Ocle invoctions e expensive e nd time consuming. We do not wnt to cll the ocle function fo ll pges. Ou objective is to be selective, i.e. to sk humn expet to evlute only some of the pges CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6 Συνάρτηση Εμπιστοσύνης Tust Function To evlute pges without elying on O, we will estimte the likehood tht given pge p is good. To this end we will intoduce tust functions. Tust function yields vlues between bd nd good Στην ουσία θέλουμε από την συνάρτηση O που έχει πεδίο ορισμού τις σελίδες σπόρους, να ορίσουμε μια συνάρτηση εμπιστοσύνης T η οποία να έχει πεδίο ορισμού το σύνολο όλων των σελίδων. Άρα από την να ορίσουμε μια Ο: S [,] T: W [,] όπου W: the set of ll pges S: the set of seed pges S W, και S << W δηλαδή το S είναι πολύ μικρότερο του W CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7

Συνάρτηση Εμπιστοσύνης Tust Function Idelly, fo ny p, Tp should give us the pobbility tht p is good Idel Tust Popety ITP Tp P[ Op] // δηλαδή Tp πιθανότητα η μαντική συνάρτηση να μας δώσει difficult to chieve even if T is not vey ccute we could exploit it to ode pges by thei likehood of being good Desied Tust Popety elxtion of ITP Tp < T P[ Op] < P[ O] Tp T P[ Op] P[ O] Theshold Tust Popety nothe elxtion of ITP Tp > δ Op CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8 Υπολογισμός Εμπιστοσύνης: The ignont tust function The ignont tust function T We cn select t ndom seed set S of L pges nd cll the ocle on its elements. Let S+ be the good pges nd S- the bd ones. Since the emining pges e not checked we cn mk them with /. We cn cll this ignont tust function T T p O p / if p S othewise CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9

Διάδοση Εμπιστοσύνης Tust Popgtion We cn exploit the empiicl obsevtion «Good pges seldom point to bd ones», nd ssign scoe to ll pges tht e echble fom pge in S+ in M o fewe steps. Tust Function T M : T M O p p / if if p S p S nd S othewise + : M p The nottion --M p mens : thee is pth of mximum length M fom to p The bigge M the futhe we e fom good pges, the less cetin we e tht pge is good CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Εξασθένηση Εμπιστοσύνης Tust Attenution Tust dmpening β β β β 3 β Tβ T T3β Tust dmpening ssign scoe β < to pges echble t step ssign the scoe β*β to pges echble t step, nd so on pges with multiple inlinks: mximum scoe o vege scoe CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Εξασθένηση Εμπιστοσύνης Tust Attenution Tust splitting Tust splitting T T / /3 / /3 /3 3 T35/6 5/ 5/ motivtion: the ce with which people dd links to thei pges in often invesely popotionl to the numbe of links on the pge if pge p hs tust scoe Tp nd it points to outp pges, ech of them will eceive scoe fction Tp/ outp fom p the ctul scoe of pge will be the sum of the scoe fctions eceived though its inlinks We could combine tust dmpening nd splitting CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Ο Αλγόριθμος TustRnk In TustRnk we will combine tust dmpening nd splitting: in ech itetion, the tust scoe of node is split mong its neighbos nd dmpened by fcto of dmpened by fcto of b We will compute TustRnk scoes using bised PgeRnk lgoithm the ocle-povided scoes eplce the unifom distibution In PgeRnk we wee using the unifom distibution to expess the ndom jumps of the ndom sufe CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3

Επανάληψη: PgeRnk 3 M Adjcency mtix M Tnsition mtix T j y M p if out M p if p T, /,, Tnsition mtix T / T / The PgeRnk scoe Rp of pge is defined s + R R + p in N out p R CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete The euivlent mtix eution: N N R T R + Επανάληψη: PgeRnk 3 N N R T R + / + 3 / 3 + + 3/ 3 + + / / 3/ / 3 3/ 3 + + / 3/ / 3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5

Επανάληψη: Ο Αλγόριθμος PgeRnk function PgeRnk Input T: tnsition mtix, N: numbe of pges, b : decy fcto fo bised PgeRnk, M b : numbe of bised PgeRnk itetions output t* : PgeRnk scoes 3 d /Ν * N // initil iti scoe fo ll pges is /Ν 5 t* d fo i to M b do // evlutes PgeRnk scoes t* b T t* + - b d etun t* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6 Ο Αλγόριθμος TustRnk function TustRnk Input T: tnsition mtix, N: numbe of pges, L: limit of ocle invoctions, b : decy fcto fo bised PgeRnk, M b : numbe of bised PgeRnk itetions output t* : TustRnk scoes s SelectSeed // seed-desibility: etuns vecto. // E.g. sp is the desibility fo pge p σ Rnk{,,N}, s // odes in decesing ode of s-vlue ll pges 3 d N // initil scoe fo ll pges is fo i to L do // invokes ocle function on the most desible pges if Oσi then dσi d : d / d // nomlize sttic distibution scoe to sum up to 5 t* d fo i to M b do // evlutes TustRnk scoes using bised PgeRnk t* b T t* + - b d // note tht d eplces the unifom distibution etun t* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7

Ο Αλγόριθμος TustRnk Remks: function TustRnk Input T: tnsition mtix, N: numbe of pges, L: limit of ocle invoctions, Step 5 implements pticul vesion of tust dmpening nd splitting: in b : decy fcto fo bised PgeRnk, M b : numbe of bised PgeRnk itetions ech itetion, the tust scoe of node is split mong its neighbos nd output t* : TustRnk scoes dmpened by fcto of b s SelectSeed // seed-desibility: etuns vecto. // E.g. sp is the desibility fo pge p The good seed pges hve no longe scoe of, howeve they still hve σ Rnk{,,N}, s // odes in decesing ode of s-vlue ll pges the highest scoes 3 d N // initil scoe fo ll pges is fo i to L do // invokes ocle function on the most desible pges if Oσi then dσi d : d / d // nomlize sttic distibution scoe to sum up to 5 t* d fo i to M b do // evlutes TustRnk scoes using bised PgeRnk t* b T t* + - b d // note tht d eplces the unifom distibution etun t* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8 Επιλέγοντας σπόρους Selecting Seeds s SelectSeed // seed-desibility: etuns vecto. // E.g. sp is the desibility fo pge p σ Rnk{,,N}, s // odes in decesing ode of s-vlue ll pges Πιθανές Στρατηγικές α Rndom selection β High PgeRnk Επιλέγουμε τις σελίδες με υψηλό PgeRnk σκορ διότι αυτές οι σελίδες συχνά εμφανίζονται στην κορυφή των απαντήσεων γ Invese PgeRnk 3 5 Although 5 hs the highest PgeRnk it is not good seed CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9

Selecting Seeds: γ Invese PgeRnk επειδή η εμπιστοσύνη διαχέεται από τις καλές σελίδες, είναι λογικό να επιλέξουμε εκείνες τις σελίδες από τις οποίες μπορούμε να φτάσουμε σε πολλές άλλες άρα μια ιδέα είναι να επιλέξουμε τις σελίδες με πολλά outlinks Επιλογή των p, p, p5 3 5 6 γενίκευση: επιλέγουμε τις σελίδες που δείχνουν σε πολλές σελίδες οι οποίες με τη σειρά τους δείχνουν σε πολλές σελίδες, κ.ο.κ Επιλογή της p 7 8 Τρόπος: Αφού η σπουδαιότητα μιας σελίδας εξαρτάται από τα outlinks της και όχι από τα inlinks της, μπορούμε να χρησιμοποιήσουμε την PgeRnk αντιστρέφοντας την φορά των ακμών 3 5 6 7 8 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Πειραματική Αξιολόγηση Expeimentl Evlution

Expeimentl Evlution Expeiments on the complete set of pges cwled nd indexed by AltVist Aug. 3 To educe computtionl cost: wok t the level of web sites insted of web pges gouping of the billions of pges into 3 millions sites websitea points to websiteb if one o moe pges fom websitea point to one o moe pges of websiteb So t most tli link my stt tfom website A nd point tto website B Obsevtions /3 of the websites e unefeenced So TustRnk cnnot diffeentite between them becuse they ll hve inp Howeve they e low scoed nywy e.g. by PgeRnk so they do not ppe high in nswes CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Expeimentl Evlution: Seed Selection s SelectSeed σ Rnk{,,N}, s 3 d N fo i to L do if Oσi then dσi Seed Set Selection Invese PgeRnk pplied on the gph of websites woked bette thn High PgeRnk fo the seed selection pocess Pmetes: :.85, itetions: With itetions the eltive odeing stbilized Mnul inspection of the top 5 sites i.e. S 5 Fom these only 78 wee used s good seeds, i.e. S+ 78 sites CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 33

Expeimentl Evlution: Evlution Smple To test the effectiveness of TustRnk we need Refeence Collection e.g. something like TREC A smple set X of sites ws selected nd evluted mnully, i.e. the ocle function ws invoked i.e. peson inspected them nd decided whethe they e spm o not The Smple set X ws not selected t ndom. Recll tht we e minly inteetested in spm pges tht ppe high in nswes The following smple selection method ws followed: Genete list of sites in decesing ode of thei PgeRnk scoes Segment them into buckets so tht the sum of the scoes in ech bcket euls 5% of the totl PgeRnk scoe bcket 86, bcket 665,, bcket 5 millions pges select 5 sites t ndom fom ech bucket * 5 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Expeimentl Evlution: Evlution Smple The esults of the mnul evlution ocle invoction of the pges in the smple set of sites: CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 35

This collection i.e. the set X ws used fo evluting TustRnk vesus PgeRnk Evlution Results: Comping PgeRnk with TustRnk Good sites Reputblewhite, dvetisement gy, webogniztion dk gy Notice tht ccoding to TustRnk the fist bucket tht compises 86 sites hs only eputble sites. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 37

Evlution Results: Comping PgeRnk with TustRnk Bd sites TustRnk is esonble spm detection tool CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 38 Μέτρα Αξιολόγησης της Συνάρτησης Εμπιστοσύνης Evlution Metics fo the Tust Function Assume smple set X of web pges fo which we cn invoke both T nd O Web X CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 39

Μέτρα Αξιολόγησης της Συνάρτησης Εμπιστοσύνης: Pecision nd Recll We could evlute tust function T on the bsis of n ocle function O. To this end we need to define ppopite mesues. We cn define two mesues clled pecision nd ecll nlogous to the clssicl mesues of Lectue bsed on the theshold tust popety: { p X T p > δ nd O p } pec T, O { X T > δ } X { p X T p > δ nd O p } ec T, O { X O } CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Μέτρα Αξιολόγησης της Συνάρτησης Εμπιστοσύνης: Pecision & Recll: Πειραματική Αξιολόγηση δ: such tht to septe bckets CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Μέτρα Αξιολόγησης της Συνάρτησης Εμπιστοσύνης: Piwise Odeedness We cn genete fom the set X set P of pis nd we cn compute the fction of the pis fo which T did not mke mistke. X Web P X x X The following metic cn signl violtion of the odeed tust popety if T p T nd O p < O I T, O, p, if T p T nd O p > O othewise piod T, O, P P I T, O, p, p, P P PiodT,O,P dto P if T does not mke ny mistke PiodT,O,P if T mkes lwys mistkes CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Μέτρα Αξιολόγησης της Συνάρτησης Εμπιστοσύνης: Piwise Odeedness: Πειραματική Αξιολόγηση CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3

Συμπεράσματα TustRnk cn effectively filte out spm fom significnt fction of the Web, bsed on good seed set of less thn sites Σύνοψη Με αντιστροφή της φοράς των συνδέσμων και εφαρμογή του PgeRnk μπορούμε να προσδιορίζουμε ένα σύνολο που αξίζει αξιολόγηση από άνθρωπο στην ουσία διαβαθμίζουμε τις σελίδες ως προς την αξία τους για χρήση στο δείγμα χειρονακτικής αξιολόγησης Ο αξιολογητής αποφαίνεται για την ποιότητα της κάθε σελίδας του δείγματος. Εκμεταλλευόμαστε την παραπάνω αξιολόγηση μέσω του TustRnk ο οποίος είναι στην ουσία ένας Bised Pge Rnk η πιθανότητα τυχαίων αλμάτων είναι μεγαλύτερη προς τις καλές σελίδες CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Refeences Z. Gyongyi, H. Gci-Molin, J. Pedesen, Compting Web Spm with Tust Rnk, SIGMOD See lso Zoltn Gyongyi, Hecto Gci-Molin,Web Spm Txonomy http://iweb.cse.lehigh.edu/5/gyongyi.pdf CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5