11. Βασικές Αρχές Αναζήτησης στον Ιστό

Σχετικά έγγραφα
Information Retrieval

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

interactivecommunication Search Marketing White Paper Φεβρουάριος , Cybertechnics Ltd. All rights reserved.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Information Retrieval

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Web characteristics. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

12. Σταχυολόγηση Ιστού

Ανάκτηση Πληροφορίας

Web search basics. Content. History Web Size Spam Link Analysis. Ανάκτηση Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Ανάκτηση Πληροφορίας

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Πώς λειτουργεί το Google?

(SEO) - Ανοίγοντας τους ορίζοντες τις ΜΜΕ Ελληνικής τουριστικής επιχείρησης στο ιαδίκτυο

Ανάκτηση Πληροφορίας

SilverPlatter WebSPIRS 4.1.

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Ανάκτηση Πληροφορίας

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Βελτίωση της θέσης της ιστοσελίδας στις μηχανές αναζήτησης

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Παρακολούθηση και βελτιστοποίηση της επισκεψιμότητας ενός δικτυακού τόπου

Βασικές Έννοιες Web Εφαρμογών

«Μεσολαβητές διασύνδεσης ηλεκτρονικών πηγών πληροφόρησης»

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

Website review lalemou.com

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Other Test Constructions: Likelihood Ratio & Bayes Tests

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) ADVANCED σχεδιασμός ιστοσελίδας ΕΚΔΟΣΗ 1.0. Σόλωνος 108,Τηλ Φαξ

Ανάκτηση Πληροφορίας

Τεχνικές Εξόρυξης Δεδομένων

Οικονομική Προσφορά Προώθηση ιστοσελίδας

ΤΕΧΝΟΛΟΓΙΑ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ. Internet Software Consortium

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Search Engine Marketing

Information Retrieval

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

ICOP - ΥΠΗΡΕΣΙΕΣ - INTERNET WEBMARKETING ΠΡΟΣΦΟΡΑ ΣΥΣΤΗΜΑΤΑ ΦΙΛΟΞΕΝΙΑΣ

Στάδιο Εκτέλεσης

Search Engine Optimization (SEO) Τεχνικές βελτίωσης κατάταξης ιστοσελίδων για τις μηχανές αναζήτησης

ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO

Βασίλης Πλαχούρας. Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης. Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003

Ανάκτηση Πληροφορίας

Στρατηγική ανάπτυξη δικτυακού κόμβου

Ανάκτηση Πληροφορίας

Γαβαλάς Δαμιανός

Πνευµατικά ικαιώµατα

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Αξιολόγηση Πλατφόρµων Ηλεκτρονικού Καταστήµατος Ανοικτού Κώδικα και Μελέτη Περίπτωσης Ανάπτυξης Εικονικού Ηλεκτρονικού Καταστήµατος

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

SEO ΓΙΑ ΜΙΑ ΘΕΣΗ ΣΤHΝ GOOGLE

Web and HTTP. Βασικά Συστατικά: Web Server Web Browser HTTP Protocol

ΠΡΟΤΑΣΗ-ΑΝΑΘΕΣΗ ΕΡΓΟΥ ΠΟΥ ΑΦΟΡΑ ΣΤΗΝ ΑΝΑΠΤΥΞΗ WEB SITE ΓΙΑ ΤΗΝ ΕΤΑΙΡΕΙΑ ΣΑΣ ESHOP

ICOP - ΥΠΗΡΕΣΙΕΣ - INTERNET WEBSOLUTIONS ΠΡΟΤΑΣΗ-ΑΝΑΘΕΣΗ ΕΡΓΟΥ

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 19, 20: Web. Μηχανές αναζήτησης.

ΔΗ Μ Ι Ο ΥΡ Γ Ι Α W I K I με τ η χρήση τ η ς υπ ηρεσίας h t t p : / id ot.com /

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

substructure similarity search using features in graph databases

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

ΠΛΗΡΗΣ ΛΙΣΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ E-COMMERCE

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Τεχνολογίες Παγκόσμιου Ιστού. 1η διάλεξη

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Δυναμικός Κατακερματισμός

Δειγματοληψία στην Ερευνα. Ετος

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ηλεκτρονικό Εμπόριο (E-Commerce) Διδάσκων: Δρ. Νικόλαος Παναγιώτου Marketing

Πληροφορική Τμήμα Σχεδιασμού & Τεχνολογίας Ξύλου & Επίπλου Αντώνιος Καραγεώργος Ευανθία Τσιλιχρήστου. Μάθημα 5 ο Τεχνολογίες Διαδικτύου: HTML I

Ηλεκτρονικό εμπόριο. HE5 Ηλεκτρονικό κατάστημα Σχεδιασμός και λειτουργίες

Digital Marketing Services

Transcript:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 11. Βασικές Αρχές Αναζήτησης στον Ιστό Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Σύντομη Ιστορική Αναδρομή Πρώτες μηχανές αναζήτησης που στηρίζονται σε λέξεις-κλειδιά, περίπου 1995-1997 Altavista, Excite, Infoseek, Inktomi, Lycos Paid search ranking: Goto (εξελίχθηκε στην Overture.com Yahoo!) Η κατάταξη εξαρτάται από το πόσο πληρώνεις ημοπρασία για λέξεις-κλειδιά: η λέξη casino ήταν ακριβή! May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

Πρώτη Γενιά Διαφημίσεων: Goto (1996) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

Σύντομη Ιστορική Αναδρομή 1998+: Κατάταξη με ανάλυση υπερσυνδέσμων (πρωτοπόρος η Google) Αντικατέστησε όλες τις πρώτες μηχανές, εκτός της Inktomi Πολύ καλή εμπειρία χρήστη σε αναζήτηση ενός επιχειρηματικού μοντέλου Στο μεταξύ τα ετήσια έσοδα της Goto/Overture πλησίαζαν τα $1 billion Αποτέλεσμα: η Google πρόσθεσε πληρωμένες διαφημίσεις στο πλάι, ανεξαρτήτως των αποτελεσμάτων αναζήτησης Η Yahoo ακολούθησε άμεσα, αποκτώντας τις Overture (για πληρωμένες καταχωρήσεις) και Inktomi (για αναζήτηση) 2005+: η Google κερδίζει μεγάλο κομμάτι στο χώρο της αναζήτησης, κυριαρχώντας στην Ευρώπη και είναι πολύ δυνατή στη Β.Αμερική 2009: οι Yahoo! και Microsoft προτείνουν την προσφορά συνδυασμού πληρωμής με αποτελέσματα αναζήτησης May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4

Paid Search Ads Algorithmic results. 5 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

Κεφάλαιο 19.4.1 Βασικές Έννοιες Αναζήτησης στον Ιστό User Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Web Results 1-10 of about 7,310,000 for miele. (0.12 seconds) Web spider Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele.... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System... www.miele.com/ - 20k - Cached - Similar pages Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit...ein Leben lang.... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE... www.miele.at/ - 3k - Cached - Similar pages Search Indexer The Web Indexes Ad indexes May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

Ανάγκες Χρηστών Κεφάλαιο 19.4.1 Ανάγκη [Brod02, RL04] Informational want to learn about something (~40% / 65%) Low hemoglobin Navigational want to go to that page (~25% / 15%) United Airlines Transactional want to do something (web-mediated) (~35% / 20%) Access a service Downloads Shop Gray areas Find a good hub Exploratory search see what s there Seattle weather Mars surface images Canon S410 Car rental Brasil May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

Πόσο Ψάχνουν οι Χρήστες για να Βρουν Αποτελέσματα; (Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

Εμπειρική Αξιολόγηση Αποτελεσμάτων από Χρήστες Η ποιότητα των ιστοσελίδων ποικίλει πάρα πολύ Η συνάφεια δεν αρκεί για την αξιολόγηση Άλλοι επιθυμητοί δείκτες ποιότητας (non IR!!) Περιεχόμενο: Trustworthy, diverse, non-duplicated, well maintained Αναγνωσιμότητα ιστοσελίδας: εμφάνιση σωστά και γρήγορα Χωρίς εκνευριστικά στοιχεία: pop-ups, κτλ. Precision vs. recall Στον Ιστό, η ανάκληση (recall) σπάνια μας ενδιαφέρει Τι μας ενδιαφέρει Precision at 1; Precision above the fold (πάνω από τη μέση); Περιεκτικότητα (Comprehensiveness) πρέπει να μπορούμε να αντιμετωπίζουμε δύσκολα ερωτήματα Η ανάκληση είναι σημαντική μόνο όταν το πλήθος των σελίδων που ταιριάζουν είναι μικρό Οι εμπειρίες των χρηστών μπορεί να μην είναι επιστημονικές, αλλά είναι σημαντικές όταν πρόκειται για μεγάλο αριθμό χρηστών May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

Εμπειρική Αξιολόγηση Μηχανών Αναζήτησης από Χρήστες Συνάφεια και εγκυρότητα αποτελεσμάτων ιεπαφή χρήστη (UI) Απλή, όχι ακατάστατη, ανεκτική σε λάθη Εμπιστοσύνη τα αποτελέσματα είναι αντικειμενικά Κάλυψη θεμάτων για πολύσημα ερωτήματα Παροχή εργαλείων προ/μετα-επεξεργασίας Εξομάλυνση λαθών χρήστη (auto spell check, search assist, ) Ρητά: Search within results, more like this, refine... Προληπτικά: related searches Αντιμετώπιση ιδιοσυγκρασιών Λεξικό εξειδικευμένο για τον Παγκόσμιο Ιστό Επιδρά στο stemming, spell-check, κτλ. ιευθύνσεις σελίδων πληκτρολογούνται στο κουτί αναζήτησης May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

Κεφάλαιο 19.2 Η Συλλογή Εγγράφων του Παγκόσμιου Ιστού Ο Παγκόσμιος Ιστός Έλλειψη σχεδίασης/συντονισμού Κατανεμημένη δημιουργία περιεχομένου, διασύνδεση, εκδημοκρατισμός δημοσίευσης Το περιεχόμενο περιλαμβάνει αλήθεια, ψέμματα, παλιά πληροφορία, αντιφάσεις Αδόμητο (text, html, ), ημι-δομημένο (XML, annotated photos), δομημένο (Databases) Μεγαλύτερη κλίμακα από προηγούμενες συλλογές κειμένων Μέγεθος επιβράδυνση από το αρχικό volume doubling every few months αλλά αυξάνεται συνεχώς Το περιεχόμενο μπορεί να δημιουργείται δυναμικά (dynamically generated) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11

SPAM (SEARCH ENGINE OPTIMIZATION) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

Το Πρόβλημα με τις Πληρωμένες Διαφημίσεις Κοστίζουν. Ποια είναι η εναλλακτική; Βελτιστοποίηση Αναζήτησης (Search Engine Optimization): Tuning της ιστοσελίδας σου για να κατατάσσεται υψηλά σε αποτελέσματα αλγοριθμικής αναζήτησης για επιλεγμένα ερωτήματα Εναλλακτικά, πληρωμή για τοποθέτηση Έτσι, ουσιαστικά είναι μια διαδικασία διαφήμισης (marketing) Παρέχεται από εταιρείες, webmasters και συμβούλους ( Search engine optimizers ) για τους πελάτες τους Κάποιες υπηρεσίες είναι απόλυτα νόμιμες, άλλες καθόλου Κεφάλαιο 19.2.2 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

Κεφάλαιο 19.2.2 Search Engine Optimization (Spam) Κίνητρα Εμπορικά, πολιτικά, θρησκευτικά, lobbies Η προβολή χρηματοδοτείται από τον διαφημιστικό προϋπολογισμό Πάροχοι Contractors (Search Engine Optimizers) for lobbies, companies Web masters Hosting services Forums Π.χ., Web master world ( www.webmasterworld.com ) Κόλπα για συγκεκριμένες μηχανές αναζήτησης Συζητήσεις για ακαδημαϊκά άρθρα May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

Απλούστερες Μορφές Κεφάλαιο 19.2.2 Οι μηχανές αναζήτησης πρώτης γενιάς στηρίζονται στο tf/idf Οι κορυφαίες σελίδες για το ερώτημα maui resort ήταν αυτές που περιέχουν τα περισσότερα maui και resort Οι SEOs ανταποκρίθηκαν με συχνή επανάληψη επιλεγμένων όρων Π.χ., maui resort maui resort maui resort Συχνά, ο χρωματισμός των όρων ήταν ίδιος με το φόντο της ιστοσελίδας Οι επαναλαμβανόμενοι όροι ευρετηριάζονται από τους crawlers Όμως είναι αόρατοι στο ανθρώπινο μάτι μέσω του browser Η συχνότητα εμφάνισης όρων από μόνη της δεν είναι αξιόπιστη σαν σημάδι ΑΠ May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

Παραλλαγές του Keyword Stuffing Κεφάλαιο 19.2.2 Παραπλανητικά meta-tags, υπερβολική επανάληψη Κρυμμένο κείμενο με χρώματα, style sheet tricks, κτλ. Meta-Tags = London hotels, hotel, holiday inn, hilton, discount, booking, reservation, sex, mp3, britney spears, viagra, May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16

Απόκρυψη (Cloaking) Κεφάλαιο 19.2.2 Παρέχουν παραπλανητικό περιεχόμενο στο μηχανισμό σταχυολόγησης (search engine spider) της μηχανής αναζήτησης DNS cloaking: Αλλαγή IP διεύθυνσης. Μίμηση. Is this a Search Engine spider? N Y SPAM Real Doc May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

Κι Άλλες Τεχνικές Παραπλανητικού Περιεχομένου (Spam) Σελίδες ιόδου (Doorway pages) Σελίδες με κείμενο και μετα-δεδομένα προσεκτικά επιλεγμένα ώστε να κατατάσσεται υψηλά για συγκεκριμένα ερωτήματα και ανακατευθύνουν σε άλλες σελίδες με εμπορικό περιεχόμενο Παραχάραξη Συνδέσμων (Link spamming) Κοινότητες που έχουν πολλούς συνδέσμους η μία προς την άλλη, κρυφά links Domain flooding: πολλά domains που δείχνουν ή ανακατευθύνουν σε μία σελίδα στόχο Robots Κεφάλαιο 19.2.2 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

Ο Πόλεμος Εναντίον του Spam Quality signals - Prefer authoritative pages based on: Votes from authors (linkage signals) Votes from users (usage signals) Policing of URL submissions Anti robot test Limits on meta-keywords Robust link analysis Ignore statistically implausible linkage (or text) Use link analysis to detect spammers (guilt by association) Spam recognition by machine learning Training set based on known spam Family friendly filters Linguistic analysis, general classification techniques, etc. For images: flesh tone detectors, source text analysis, etc. Editorial intervention Blacklists Top queries audited Complaints addressed Suspect pattern detection May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

Κι Άλλα για Spam Οι μηχανές αναζήτησης έχουν πολιτικές για τις πρακτικές των SEO που ανέχονται/μπλοκάρουν http://help.yahoo.com/help/us/ysearch/index.html http://www.google.com/intl/en/webmasters/ Ανταγωνιστική ανάκτηση πληροφοριών (Adversarial IR): μια αέναη (τεχνική) διαμάχη μεταξύ των SEO και των μηχανών αναζήτησης Έρευνητικά αποτελέσματα http://airweb.cse.lehigh.edu/ May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

ΤΟ ΜΕΓΕΘΟΣ ΤΟΥ ΙΣΤΟΥ May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

Πόσο Μεγάλος είναι ο Ιστός; Κεφάλαιο 19.5 Θέματα Ο Ιστός είναι πραγματικά άπειρος υναμικό περιεχόμενο, π.χ., calendars Soft 404: www.yahoo.com/<anything> είναι έγκυρη σελίδα Ο στατικός ιστός περιέχει συντακτικά διπλότυπα (syntactic duplication), κυρίως λόγω mirroring (~30%) Κάποιοι servers σπάνια συνδέονται Ποιος νοιάζεται? Τα ΜΜΕ, και συνεπώς οι χρήστες Η σχεδίαση μηχανών αναζήτησης Η πολιτική σταχυολόγησης της μηχανής. Επηρεάζει την ανάκληση May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

Τι Μπορούμε να Μετρήσουμε; Κεφάλαιο 19.5 Το σχετικό μέγεθος των μηχανών αναζήτησης Η έννοια της ευρετηρίασης μιας σελίδας είναι ακόμη καλά ορισμένη Ήδη υπάρχουν προβλήματα Επέκταση εγγράφων: π.χ., μηχανές ευρετηριάζουν σελίδες που δεν έχουν σταχυολογηθεί ακόμη, ευρετηριάζοντας το anchortext Περιορισμοί εγγράφων: Όλες οι μηχανές αναζήτησης περιορίζουν το τι ευρετηριάζουν (τις πρώτες n λέξεις, μόνο σχετικές λέξεις, κτλ.) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

Νέος Ορισμός Κεφάλαιο 19.5 Ο στατικός ευρετηριασμένος Ιστός είναι ό,τι ευρετηριάζουν οι μηχανές αναζήτησης Το IQ είναι ό,τι μετρούν τα IQ tests ιαφορετικές μηχανές έχουν διαφορετικές παραμέτρους max url depth, max count/host, anti-spam rules, priority rules, κτλ. ιαφορετικές μηχανές ευρετηριάζουν διαφορετικά πράγματα κάτω από το ίδιο URL: frames, meta-keywords, document restrictions, document extensions,... May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

Σχετικό Μέγεθος Τομής (Overlap) για Δύο Μηχανές Αναζήτησης Α και Β Κεφάλαιο 19.5 ειγματοληψία URLs τυχαία από A Έλεγχος εάν υπάρχει στο Β και αντίστροφα A B A B = (1/2) * Size A A B = (1/6) * Size B (1/2)*Size A = (1/6)*Size B Size A / Size B = (1/6)/(1/2) = 1/3 Κάθε May 30, 2016έλεγχος περιλαμβάνει: Ανάκτηση Πληροφοριών,6ο (i) Εξάμηνο Sampling (ii) Checking25

Δειγματοληψία URLs Κεφάλαιο 19.5 Ιδανική στρατηγική: ημιουργία τυχαίου URL και έλεγχος εάν περιλαμβάνεται σε κάθε ευρετήριο Πρόβλημα: ύσκολο να βρούμε τυχαία URLs! Αρκεί να βρούμε ένα τυχαίο URL από αυτά που περιέχονται σε μια μηχανή αναζήτησης Προσέγγιση 1: ημιουργία τυχαίου URL που να περιέχεται σε μια μηχανή αναζήτησης Αρκεί για τον υπολογισμό του σχετικού μεγέθους Προσέγγιση 2: Random walks / IP addresses Θεωρητικά: μπορεί να δώσει πραγματική εκτίμηση του μεγέθους του Ιστού (αντίθετα με τα σχετικά μεγέθη των ευρετηρίων) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

Στατιστικές Μέθοδοι Κεφάλαιο 19.5 Προσέγγιση 1 Random queries Random searches Προσέγγιση 2 Random IP addresses Random walks May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

Κεφάλαιο 19.5 Τυχαία URLs από Τυχαία Ερωτήματα ημιουργία random query: Πώς; Λεξικό: 400,000+ λέξεις από ένα web crawl Conjunctive Queries: w 1 and w 2 π.χ., vocalists AND rsi Πάρε 100 αποτελέσματα URLs από την A Επέλεξε ένα τυχαίο URL ως υποψήφιο για έλεγχο ύπαρξης στη B Not an English dictionary Αυτή η κατανομή παράγει ένα πιθανοτικό βαρος (probability weight) W(p) για κάθε σελίδα May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

Query Based Checking Κεφάλαιο 19.5 Strong Query για τον έλεγχο εάν μια μηχανή B περιέχει ένα έγγραφο D: Download D. Πάρε τη λίστα λέξεων του D. Χρησιμοποίησε 8 λέξεις του D χαμηλής συχνότητας σαν AND query στη B Έλεγξε εάν το D υπάρχει στο αποτέλεσμα Προβλήματα: Σχεδόν διπλότυπες σελίδες (Near duplicates) Frames Redirects Engine time-outs Is 8-word query good enough? May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

Πλεονεκτήματα και Μειονεκτήματα Στατιστικά σωστή με το παραγόμενο βάρος Μεροληψία λόγω των τυχαίων ερωτημάτων: Query Bias: Μεροληπτεί υπέρ των μεγαλύτερων εγγράφων Ranking Bias: Λύση: χρήση συζευκτικών ερωτημάτων και ανάκτηση όλων Checking Bias: ιπλότυπα, σελίδες με φτωχό περιεχόμενο παραλείπονται Document or query restriction bias: Η μηχανή αναζήτησης δε χειρίζεται σωστά μεγάλα ερωτήματα (8 λέξεων) Malicious Bias: Άρνηση της μηχανής να απαντήσει Operational Problems: ιακοπές στη σύνδεση (Time-outs), αποτυχίες, ασυνέπειες μηχανών αναζήτησης, αλλαγές στα ευρετήρια Κεφάλαιο 19.5 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

Κεφάλαιο 19.5 Τυχαίες Αναζητήσεις (Random Searches) Επιλογή τωχαίων αναζητήσεων (random searches) που εξάγονται από κάποιο τοπικό log [Lawrence & Giles 97] ή δημιουργία random searches [Notess] Χρήση μόνο ερωτημάτων με μικρά αποτελέσματα Καταμέτρηση κανονικοποιημένων URLs στα αποτελέσματα Χρήση στατιστικών May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

Πλεονεκτήματα και Μειονεκτήματα Κεφάλαιο 19.5 Πλεονέκτημα Ίσως είναι πιο κοντά στην ανθρώπινη αντίληψη της κάλυψης (human perception of coverage) Ζητήματα Τα δείγματα παρουσιάζουν συσχετίσεις (correlations) με την πηγή του log ιπλότυπα Τεχνικά στατιστικά προβλήματα (πρέπει να έχουμε μη μηδενικά αποτελέσματα, ο μέσος όρος δεν είναι στατιστικά σωστός) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

Τυχαίες Αναζητήσεις Κεφάλαιο 19.5 575 & 1050 queries από τα NEC RI employee logs 6 Engines το 1998, 11 το 1999 Υλοποίηση: Περιορίστηκε σε ερωτήματα με < 600 συνολικά αποτελέσματα Μετρήθηκαν τα URLs από κάθε μηχανή αφού επιβεβαιώθηκε το ότι ταιριάζουν με το ερώτημα Υπολογίστηκε ο λόγος μεγέθους και τομή για κάθε ερώτημα (size ratio & overlap for individual queries) Εκτιμήθηκε ο λόγος μεγέθους του ευρετηρίου και τομή παίρνοντας το μέσο όρο όλων των ερωτημάτων May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

Κεφάλαιο 19.5 Queries from Lawrence and Giles study adaptive access control neighborhood preservation topographic hamiltonian structures right linear grammar pulse width modulation neural unbalanced prior probabilities ranked assignment method internet explorer favourites importing karvel thornber zili liu softmax activation function bose multidimensional system theory gamma mlp dvi2pdf john oliensis rieke spikes exploring neural video watermarking counterpropagation network fat shattering dimension abelson amorphous computing May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

Τυχαίες IP Διευθύνσεις Κεφάλαιο 19.5 ημιουργία τυχαίων IP διευθύνσεων Εύρεση ενός web server στη συγκεκριμένη διεύθυνση Εφόσον υπάρχει κάποιος Συλλογή όλων των σελίδων του server Από αυτές, επέλεξε μια σελίδα τυχαία May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35

Τυχαίες IP Διευθύνσεις Κεφάλαιο 19.5 HTTP αιτήσεις προς τυχαίες IP διευθύνσεις Αγνοούνται: κενές ή απαιτούν αυθεντικοποίηση ή εξαιρούνται [Lawr99] Εκτίμηση 2.8 million IP διευθύνσεων που τρέχουν crawlable web servers (16 million συνολικά) από την παρατήρηση 2500 servers OCLC με χρήση IP δειγματοληψίας βρήκε 8.7 M hosts το 2001 Netcraft [Netc02] βρήκε 37.2 million hosts τον Ιούλιο 2002 [Lawr99] έκανε crawl σε 2500 servers και υπολόγισε με παρεμβολή (extrapolation) Εκτιμώμενο μέγεθος Ιστού: 800 million pages Εκτιμώμενη χρήση metadata descriptors: Meta tags (keywords, description) σε 34% των home pages, Dublin core metadata σε 0.3% May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

Πλεονεκτήματα και Μειονεκτήματα Πλεονεκτήματα Ορθά στατιστικά Ανεξάρτητο των crawling strategies Μειονεκτήματα Κεφάλαιο 19.5 ε χειρίζεται το θέμα των διπλότυπων Πολλοί hosts μπορεί να μοιράζονται μια IP ή να μη δέχονται αιτήσεις εν υπάρχουν εγγυήσεις ότι όλες οι σελίδες συνδέονται με την root page Π.χ.: σελίδες υπαλλήλων Ο εκθετικός νόμος (Power law) για #pages/hosts μεροληπτεί υπέρ των sites με λίγες σελίδες Όμως αυτή η μεροληψία μπορεί να ποσοτικοποιηθεί ΕΑΝ καταλαβαίνουμε την υποκείμενη κατανομή Μπορεί να επηρεαστεί από spamming (πολλαπλές IP s για τον ίδιο server για την αποφυγή IP block) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

Τυχαίοι Περίπατοι (Random Walks) Κεφάλαιο 19.5 Θεωρούν τον Ιστό σαν κατευθυνόμενο γράφο (directed graph) Κάνουν έναν τυχαίο περίπατο στο γράφο Περιλαμβάνει διάφορους κανόνες αλμάτων ( jump ) πίσω σε σελίδες που έχουν επισκεφθεί εν κολλάνε σε spider traps! Μπορούν να ακολουθήσουν όλα τα links! Συγκλίνει σε μια stationary distribution Πρέπει να υποθέσουμε ότι ο γράφος είναι πεπερασμένος και ανεξάρτητος του περίπατου Οι συνθήκες δεν ικανοποιούνται (cookie crumbs, flooding) Ο χρόνος που απαιτείται για σύγκλιση είναι άγνωστος ειγματοληψία από stationary distribution του περίπατου Χρήση της μεθόδου strong query για έλεγχο κάλυψης από μηχανές αναζήτησης May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

Πλεονεκτήματα και Μειονεκτήματα Κεφάλαιο 19.5 Πλεονεκτήματα Στατιστικά ορθή μέθοδος, τουλάχιστον θεωρητικά! Θα μπορούσε να δουλέψει ακόμη και για Ιστό άπειρου μεγέθους (υποθέτοντας ότι θα συγκλίνει) για ορισμένες μέτρικες Μειονεκτήματα Η λίστα των σημείων εκκίνησης (seeds) είναι ένα πρόβλημα Η πρακτική προσέγγιση μπορεί να μην είναι έγκυρη Μη-ομοιόμορφη κατανομή Υπόκειται σε link spamming May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

Συμπεράσματα Κεφάλαιο 19.5 Καμία λύση δειγματοληψίας δεν είναι τέλεια Υπάρχουν πολλές νέες ιδέες......όμως το πρόβλημα ολοένα και δυσκολεύει Οι ποσοτικές μελέτες είναι συναρπαστικές και αποτελούν ένα καλό ερευνητικό πρόβλημα May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

DUPLICATE DETECTION May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

Διπλότυπα Έγγραφα Κεφάλαιο 19.6 Ο Ιστός είναι γεμάτος με διπλότυπο περιεχόμενο Αυστηρός εντοπισμός διπλότυπων = ακριβές ταίριασμα εν είναι τόσο κοινό Όμως υπάρχουν πάρα πολλές περιπτώσεις σελίδων που είναι σχεδόν διπλότυπες (near duplicates) Π.χ., η last-modified date είναι η μοναδική διαφορά μεταξύ δύο αντίγραφων της ίδιας σελίδας May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

Κεφάλαιο 19.6 Duplicate/Near-Duplicate Detection Duplication: Η αναγνώριση ακριβών αντιγράφων μπορεί να εντοπιστεί με αποτυπώματα (fingerprints) Near-Duplication: Approximate match Επισκόπηση Υπολογισμός συντακτικής ομοιότητας με ένα μέτρο editdistance Χρηση κατωφλιού ομοιότητας (similarity threshold) για εντοπισμό σχεδόν διπλότυπων σελίδων Π.χ., Ομοιότητα > 80% => Τα έγγραφα είναι near duplicates εν ισχύει η μεταβατική ιδιότητα, όμως μερικές φορές χρησιμοποιείται μεταβατικά May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

Υπολογισμός Ομοιότητας Κεφάλαιο 19.6 Χαρακτηριστικά: Τμήματα ενός εγγράφου (φυσικά ή τεχνητά σημεία διαχωρισμού) Shingles (Word N-Grams) a rose is a rose is a rose a_rose_is_a rose_is_a_rose is_a_rose_is a_rose_is_a Μέτρο Ομοιότητας μεταξύ δύο εγγράφων (= sets of shingles) Jaccard coefficient: Size_of_Intersection / Size_of_Union May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

Shingles + Τομή Συνόλων Κεφάλαιο 19.6 Ο υπολογισμός της ακριβούς τομής των shingles ανάμεσα σε όλα τα ζεύγη εγγράφων είναι απαγορευτικά ακριβός Προσεγγίζεται με χρήση ενός έξυπνα επιλεγμένου υποσυνόλου shingles από καθένα (ένα σκαρίφημα sketch) Εκτιμάται (size_of_intersection / size_of_union) για ένα μικρό sketch Doc A Doc B Shingle set A Shingle set B Sketch A Sketch B Jaccard May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45

Σκαρίφημα Εγγράφου Κεφάλαιο 19.6 ημιουργία ενός sketch vector (μεγέθους ~200) για κάθε έγγραφο Έγγραφα που έχουν t (π.χ. 80%) κοινά στοιχεία στους πίνακες (sketch vectors) θεωρούνται near duplicates Για κάθε έγγραφο D, sketch D [ i ] ορίζεται ως: Έστω f αντιστοιχίζει όλα τα δυνατά shingles στο διάστημα 0..2 m -1 (π.χ., f = fingerprinting) Έστω i μια τυχαία μετάθεση (random permutation) στο 0..2 m - 1 Επέλεξε MIN { i (f(s))} για όλα τα shingles s του D May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46

Κεφάλαιο 19.6 Υπολογισμός του Sketch[i] για το Doc1 Document 1 2 64 2 64 2 64 2 64 Start with 64-bit f(shingles) Permute on the number line with i Pick the min value May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47

Έλεγχος εάν Doc1.Sketch[i] = Doc2.Sketch[i] Κεφάλαιο 19.6 Document 1 Document 2 2 64 2 64 2 64 2 64 2 64 2 64 A 2 64 B 2 64 Είναι αυτά ίσα; Έλεγχος για 200 τυχαίες μεταθέσεις:,, 200 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 48

Όμως... Κεφάλαιο 19.6 Document 1 Document 2 2 64 2 64 2 64 2 64 A 2 64 2 64 B 2 64 2 64 A = B εάν και μόνο εάν το shingle με τη MIN τιμή στην ένωση των Doc1 και Doc2 είναι κοινό και για τα δύο (δηλ. Βρίσκεται στην τομή) Ισχυρισμός: Αυτό συμβαίνει με πιθανότητα: Size_of_intersection / Size_of_union May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 49

Κεφάλαιο 19.6 Ομοιότητα Συνόλων C i, C j Jaccard(C i,c j ) C C i i C C j j Θεωρούμε τα σύνολα σαν στήλες ενός πίνακα A. Μία γραμμή για κάθε στοιχείο. a ij = 1 δηλώνει παρουσία του στοιχείου i στο σύνολο j Παράδειγμα C 1 C 2 0 1 1 0 1 1 Jaccard(C 1,C 2 ) = 2/5 = 0.4 0 0 1 1 0 1 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 50

Βασική Παρατήρηση Κεφάλαιο 19.6 Για τις στήλες C i, C j, τέσσερις τύποι γραμμών C i C j A 1 1 B 1 0 C 0 1 D 0 0 Συμβολισμός: A = # of rows of type A Ισχυρισμός Jaccard(C i,c j A ) A B C May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 51

Όλα τα Ζεύγη Signatures Κεφάλαιο 19.6 Τώρα έχουμε μια πολύ αποδοτική μέθοδο εκτίμησης της Jaccard coefficient για ένα ζεύγος από έγγραφα Όμως πρέπει ακόμη να υπολογίσουμε N 2 coefficients όπου N το πλήθος των ιστοσελίδων Ακόμη είναι αργό Μία λύση: locality sensitive hashing (LSH) Άλλη λύση: ταξινόμηση (Henzinger 2006) May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 52

Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαιο 19 May 30, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 53