Natural Scieces ad Computer Sciece Η «επιστήμη του Ιστού» (Web Sciece) A relatioships that was chages by the Web s developmet: Natural Scieces (Φυσικές Επιστήμες): aalytic scieces that seek to discover the laws that gover observed Computer Sciece - Iformatics: primarily a sythetic sciece, i which we develop theoretical costructs, algorithms ad systems (software ad hardware) i order to achieve expected behaviours (calculatios ad performace) i computig machies The World-Wide Web: Is a pheomeo that eeds to be aalysed ad possibly discover the laws that determie its evolutio ad behavior Is a ivetio that eeds to be implemeted optimally so that we ca guaratee its future developmet. 2 Uderstadig the Web The mechaism of success A set of protocols that ca be studied for their characteristics ad... a set of applicatios that ca be aalysed for their algorithmic characteristics ad performace what else? Social iteractios created by/ supported from the Web lead to ew requiremets for the Web applicatios, which, i their tur, affect the requiremets for the Web s ifrastructures However, the Web was ot implemeted followig the traditioal lifecycle of software applicatio developmet: Specify (Προδιαγράφω ), Desig (Σχεδιάζω) Build (Κατασκευάζω) Test (Ελέγχω) 3 "Web Sciece: A Iterdiscipliary Approach to Uderstadig the Web." James Hedler, Nigel Shadbolt, Wedy Hall, Tim Berers-Lee, ad Daiel Weitzer. Commuicatios of the ACM. Vol. 51, No. 7, July 2008. pp. 60-69. 4
A difficult marriage: iphoe κ. ΑΤΤ From Mosaic to Google Mosaic: the first popular Web browser (circa 1992) - a example of a micro -system >1M dowloads i the first year Other examples: Youtube, Flickr, Facebook From micro to macro -system Bad Coectio: Iside the iphoe Network Meltdow, Fred Vogelstei. Wired August 2010 Millios of users Differet aalysis New eeds (e.g. search) Examples: Search spam Better searchig techiques 5 6 What is eeded? New approaches to uderstad how we desig etwork-cetric systems that produced expected results Traditioally: we desig ad implemet i the micro, hopig for the best But: how do we kow if we have built the right fuctioality so that we ca get the expected results i the macro scale? How do we predict possible side-effects ad the emergig characteristics i the macro -scale? "Web Sciece: A Iterdiscipliary Approach to Uderstadig the Web." James Hedler, Nigel Shadbolt, Wedy Hall, Tim Berers-Lee, ad Daiel Weitzer. Commuicatios of the ACM. Vol. 51, No. 7, July 2008. pp. 60-69. Success or failure of a Web applicatio might be iflueced by elemets of social iteractio betwee users through the applicatio: uderstadig the Web, required, beyod the aalysis of techical aspects, the uderstadig of the social dyamics that develop i a cotext of millios of users. 8
The study of the Web Micro-scale: Architecture Protocols Algorithms Macro-scale: Oe of the greatest achievemets of IT with the greatest impact i the history of Computig so far - a force that trasformed huma society i commuicatio ecoomic activity goverace ad politics Media but also, humas themselves. 9 Modellig the Web
Web s Data Model The Web graph Directed graph (Κατευθυνόμενος γράφος) where odes (κόμβοι) are documets/files/resources ad the edges are liks (ζεύξεις) Static page Hyperlik My home page Searchig Educatio Uiversity of Wiscosi home page Search for faculty Joh Smith Submit Hyperlik Search Lik Yahoo Fid iformatio about trais Submit Professor Joh Smith s home page My Courses My Research Dyamic page Search Lik Static pages Idex of material o trais Hyperlik Descriptio of a specific trai 13 Nodes - static web pages (~1 billio, circa 2009) Edges - static liks (Ακμές / στατικές ζεύξεις / υπερσύνδεσμοι) ~ 10 billio Sparse graph (αραιός): ~ 7 edges/page o average Some questios: Is it a coected graph? (συνεκτικός γράφος) - ca we always traverse the graph, goig from oe radom ode to aother? Ca the kowledge of the lik structure (η γνώση της συνδεσμολογίας των ζεύξεων) improve the effectiveess of search? If we follow the chage of the graph over time, what coclusios ca we derive about the processes of web cotet creatio? A. Broder, R. Kumar, et al. Graph structure i the web. 9th WWW Coferece, 2000. http://www9.org/w9cdrom/160/160.html 14 Revisitig graph termiology Strogly coected compoet/scc (Ισχυρή Συνεκτική Συνιστώσα) A maximal subgraph of a directed graph such that pair of odes (u, v) there is a directed path (κατευθυνόμενο μονοπάτι) from u to v ad a directed path from v to u. Weakly coected compoet/wcc (Ασθενής Συνεκτική Συνιστώσα) A maximal subgraph of a directed graph such that pair of odes (u, v) there is a udirected path (μη-κατευθυνόμενο μονοπάτι) from u to v ad a directed path from v to u. Computig WCC και SCC of a graph ca be doe with algorithms of liear complexity. Graph Diameter (Διάμετρος του γράφου): The legth of ay loger shorter path betwee ay two odes of the graph, or else the logest umber of odes that we eed to traverse i order to go from oe ode to aother, igorig backtracks, shortcuts or loops. What is the diameter of this graph? Κ Ι 1 Α Θ 6 Β Η 5 Γ Ζ 3 Δ Ε 15 EΠΛ425
The problem of scalig The problem of accessibility Ένας τυπικός αλγόριθμος υπολογισμού της διαμέτρου ενός γράφου χρειάζεται O(N x E) βήματα για να τερματίσει. Για τον ιστό: ~(webpages x liks) Για 1 δισ ιστοσελίδες, 10 δισ ζεύξεις και περίπου 0.1 μsec/ βήμα, θα χρειαστούν 1δισ δευτερόλεπτα, δηλαδή 10 εκατομύρια ημέρες.. Η σάρωση του Ιστού από την AltaVista τον Μάιο 1999 έδωσε: 220 εκατομύρια ιστοσελίδες (μετά την αφαίρεση αντιγράφων) Ένα τεράστιο WCC με ~186 εκατομύρια ιστοσελίδες Ένα τεράστιο SCC με ~56 εκατομύρια ιστοσελίδες Το αμέσως επόμενο SCC είχε ~156 K ιστοσελίδες Ανεξάρτητες σαρώσεις έδωσαν παρόμοια αποτελέσματα 17 Πόσες ιστοσελίδες είναι προσβάσιμες από μια τυχαία ιστοσελίδα; Ξεκίνα από μια τυχαία ιστοσελίδα Βρες τους γείτονές της και βάλε τους στη λίστα Επανέλαβε τη διαδικασία για κάθε γείτονα, αποφεύγοντας τους βρόχους και τα αδιέξοδα Υπολόγισε τον αριθμό των προσβάσιμων ιστοσελίδων σαν συνάρτηση της απόστασης d από την αρχική ιστοσελίδα. Πειραματισμός: ξεκινώντας από 1000 τυχαίες ιστοσελίδες, κατασκευάστε για την κάθε μιά το BFS δένδρο της. Παρατήρηση: Κάποιες αναζητήσεις «πεθαίνουν» γρήγορα Κάποιες άλλες μας οδηγούν σε «συνδυαστική έκρηξη» (combiatorial explosio), φθάνοντας σε 100 εκατομύρια ιστοσελίδες. 18 Ανατομία του Παγκόσμιου Ιστού Τυχαιότητα; Κατανομή εισερχομένων ακμών Κατανομή εξερχομένων ακμών Χαρακτηριστικά κόμβων Υπάρχουν κάποιοι κόμβοι πιό κεντρικοί από άλλους Δυναμική συμπεριφορά Power laws, scale-free behavior A. Broder, R. Kumar, et al. Graph structure i the web. 9th WWW Coferece, 2000. 19