Περιεχόμενα. Εξόρυξη γνώσης από δεδομένα στον Παγκόσμιο Ιστό

Σχετικά έγγραφα

Τεχνικές Εξόρυξης Δεδομένων

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Web. Web p OutDegree(p) log 7 1/OutDegree(p) A New Difinition of Subjective Distance between Web Pages

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ερευνητική+Ομάδα+Τεχνολογιών+ Διαδικτύου+

Ανάκτηση Πληροφορίας

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

User Behavior Analysis for a Large2scale Search Engine

ΔΙΑΣΥΝΔΕΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΙΣΤΟΣΕΛΙΔΩΝ ΣΕ ΕΝΙΑΙΟ ΠΕΡΙΒΑΛΛΟΝ: ΕΦΑΡΜΟΓΗ ΣΤΟΝ ΙΣΤΟΤΟΠΟ ΤΗΣ ΣΧΟΛΗΣ ΧΗΜΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΕΜΠ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Πώς λειτουργεί το Google?

2. Real Web time personalization

Τα είδη των ιστοσελίδων. Web Sites E-commerce Sites CMS & Blog Sites CMS Flash Facebook Layouts Tumblr Themes

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΠΜΣ «ΠΛΗΡΟΦΟΡΙΚΗ & ΕΠΙΚΟΙΝΩΝΙΕΣ» OSWINDS RESEARCH GROUP

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΠΜΣ «ΠΛΗΡΟΦΟΡΙΚΗ & ΕΠΙΚΟΙΝΩΝΙΕς» OSWINDS RESEARCH GROUP

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Ανάκτηση Πληροφορίας Εισαγωγή

Twitter 6. DEIM Forum 2014 A Twitter,,, Wikipedia, Explicit Semantic Analysis,

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Οι διαδικασίες ενος CMS είναι σχεδιασμένες για να:

Ανάκτηση πολυμεσικού περιεχομένου

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

Εξατομίκευση (Personalization) Τεχνολογίες & Υπηρεσίες (ΙΙ)

Ανάκτηση Πληροφορίας

Αναζήτηση στο ιαδίκτυο

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πληροφοριακά Συστήματα Διοίκησης

Αναζήτηση και ανάκτηση δεδοµένων από το διαδίκτυο, προσωποποιηµένη παρουσίαση πληροφορίας και προτυποποίηση χρηστών.

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΔΙΑΔΙΚΤΥΑΚΗ ΠΡΟΒΟΛΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

Automatic extraction of bibliography with machine learning

Περιεχόμενα. Αντί προλόγου Πώς να χρησιμοποιήσετε το βιβλίο Κεφάλαιο 1: Πώς δημιουργώ το Προφίλ μου στο Facebook;...

Ως Διαδίκτυο (Internet) ορίζεται το παγκόσμιο (διεθνές) δίκτυο ηλεκτρονικών υπολογιστών (international network).

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Ο αλγόριθμος PageRank της Google

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

substructure similarity search using features in graph databases

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Επερωτήσεις σύζευξης με κατάταξη

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Διαχείριση Πολιτισμικών Δεδομένων

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

ΤΕΧΝΙΚΕΣ ΓΙΑ ΠΡΟΣΑΡΜΟΣΤΙΚΗ ΚΑΙ ΠΡΟΣΩΠΟΠΟΙΗΜΕΝΗ ΠΡΟΣΒΑΣΗ ΣΕ ΙΣΤΟΣΕΛΙΔΕΣ

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Ανάκτηση Πληροφορίας

Online Social Networks: Posts that can save lives. Sotiria Giannitsari April 2016

Social Web: lesson #4

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Opinion Mining and Sentiment analysis

Προτεινόμενες Διπλωματικές Εργασίες 2009

Αναζήτηση Πληροφοριών στο Διαδίκτυο

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Eρευνητική εργασία Β Λυκείου με θέμα: Κοινωνικά δίκτυα στην εκπαίδευση, νέα εργαλεία, νέες προοπτικές, νέες προκλήσεις

ΠΡΟΣΚΛΗΣΗ ΕΚΔΗΛΩΣΗΣ ΕΝΔΙΑΦΕΡΟΝΤΟΣ ΠΡΟΣ ΕΝΔΙΑΦΕΡΟΜΕΝΟΥΣ ΠΡΟΜΗΘΕΥΤΕΣ

PServer. Θεωρία & Εφαρμογές. Δημήτριος Βογιατζής, dimitrv@iit.demokritos.gr Γεώργιος Παλιούρας, paliourg@iit.demokritos.gr

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

Πρωτόκολλα Επικοινωνίας και Τείχος Προστασίας

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σχεδίαση και Ανάπτυξη Ιστότοπων

Ηλεκτρονικό εμπόριο. HE5 Ηλεκτρονικό κατάστημα Σχεδιασμός και λειτουργίες

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015

ΟΙ ΙΣΤΟΤΟΠΟΙ Q&A. Αποτελούν συνεργατικές προσεγγίσεις για την αναζήτηση πληροφοριών

Ανάκτηση πληροφορίας

Transcript:

Εξόρυξη γνώσης από δεδομένα στον Παγκόσμιο Ιστό *Εικόνα του Διαδικτύου όπως εκτίθεται στο Μουσείο Σύγχρονης Τέχνης της Νέας Υόρκης (San Diego Supercomputer Center) Ηρακλής Βαρλάμης varlamis@aueb.gr Περιεχόμενα Εξόρυξη γνώσης Παγκόσμιος Ιστός Εξόρυξη γνώσης από τα δεδομένα του Ιστού Σχετιζόμενα επιστημονικά πεδία Κατηγορίες εξόρυξης γνώσης από τον Ιστό Νέα δεδομένα στην εξόρυξη γνώσης από τον Ιστό Συμπεράσματα - κατευθύνσεις

Εξόρυξη γνώσης Επεξεργάζομαι τη διαθέσιμη πληροφορία και δημιουργώ γνώση Έχει μικρή σημασία να βρω κάτι που είναι ήδη γνωστό Έχει μεγάλη σημασία να βρω "νέα γνώση" Σημαντικότερες τεχνικές Κατηγοριοποίηση - classification (σε προκαθορισμένες κατηγορίες) Συσταδοποίηση clustering (σε άγνωστες μέχρι πριν ομάδες) Κανόνες συσχέτισης association rules (μεταξύ γεγονότων, αντικειμένων, κλπ) Ακολουθιακοί κανόνες, ανίχνευση απόκλισης, οπτικοποίηση κ.ά. H διαδικασία εξόρυξης γνώσης Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, Ramasamy Uthurusamy: 4 Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press 1996

Παγκόσμιος ιστός Περιεχόμενο Στατικό: Ιστοσελίδες Κείμενο Σύνδεσμοι Εκατομμύρια υπολογιστές συνδεδεμένοι με διάφορα μέσα διαθέτουν Δισεκατομμύρια σελίδες (πολλές φορές επαναλαμβάνονται) Από διαφορετικούς συγγραφείς, σε διάφορα θέματα Διαφορετικές δομές, από αδόμητα κείμενα μέχρι πλήρως δομημένες σελίδες Πολύς θόρυβος που "κρύβει" την πολύτιμη γνώση 5 Εξόρυξη γνώσης στον ιστό Παράγω γνώση, άγνωστη μέχρι πρότινος, από τις πληροφορίες του ιστού Εξατομικεύω τις πληροφορίες, λαμβάνοντας υπόψη τις προτιμήσεις του χρήστη σε περιεχόμενο και τρόπο παρουσίασης Μαθαίνω τις προτιμήσεις του χρήστη αναλύοντας τη συμπεριφορά του Εκτιμώ τι θα ζητήσει ο χρήστης (πληροφοριακή ανάγκη) Προσφέρω περιεχόμενο στο χρήστη πριν ακόμη το ζητήσει 6

Web mining (ορισμός) Η εξόρυξη γνώσης στον Παγκόσμιο Ιστό είναι η διαδικασία κατά την οποία επεξεργαζόμαστε δεδομένα του ιστού και ανακαλύπτουμε γνώση που μπορεί να φανεί χρήσιμη και που μέχρι τώρα δεν ήταν γνωστή Ανάλογα με τα δεδομένα που επεξεργαζόμαστε έχουμε τις ακόλουθες κατηγορίες εξόρυξης γνώσης Το περιεχόμενο των ιστοσελίδων: Web Content Mining: Οι υπερσύνδεσμοι: Web Structure Mining Τα στοιχεία ανάγνωσης των ιστοσελίδων: Web Usage Mining 7 Επιμέρους βήματα Εύρεση πηγών δεδομένων Συλλογή ιστοσελίδων Επιλογή πληροφοριών/προ-επεξεργασία Εντοπισμός συγκεκριμένων πληροφοριών από τις ιστοσελίδες της συλλογής (π.χ. σύνδεσμοι) Γενίκευση Ανακάλυψη γενικευμένων προτύπων, που ισχύουν για πολλά διαφορετικά web sites Ερμηνεία Επικύρωση και ερμηνεία των προτύπων που βρέθηκαν 8

Συσχετίσεις με άλλα επιστημονικά πεδία Ανάκτηση πληροφορίας: Ανάκτηση σχετικών κειμένων Δεν πρέπει να συγχέεται με την ανάκτηση πληροφορίας αν και τεχνικές εξόρυξης γνώσης χρησιμοποιούνται σε συστήματα ανάκτησης πληροφορίας Εξαγωγή πληροφορίας: ανάκτηση συγκεκριμένων στοιχείων από τα κείμενα Τεχνικές εξαγωγής πληροφορίας μπορεί να χρησιμοποιηθούν στη φάση της προ-επεξεργασίας Μηχανική μάθηση: ανάπτυξη αλγορίθμων που εκπαιδεύουν τον υπολογιστή να αναγνωρίζει συγκεκριμένα πρότυπα Πολλές εφαρμογές μηχανικής μάθησης εφαρμόζονται στον ιστό ή χρησιμοποιούνται για εξόρυξη γνώσης 9 Ανάκτηση πληροφορίας Πληροφοριακή ανάγκη: ο χρήστης διατυπώνει μια ερώτηση Το σύστημα ανάκτησης βρίσκει τις ιστοσελίδες που απαντούν την ερώτηση Στόχοι Μεγάλη ανάκληση: Ναβρωόλατιςσχετικέςσελίδες, όσες απαντούν στην ερώτησή μου Μεγάλη ακρίβεια: Να ανακτήσω όσο το δυνατό περισσότερες σχετικές σελίδες και όσο το δυνατό λιγότερες άσχετες 10

Υπάρχουσες λύσεις Μηχανές αναζήτησης: συγκεντρώνουν όλες τις ιστοσελίδες του ιστού, ψάχνουν στα περιεχόμενά τους για τις λέξεις που ζητούν οι χρήστες Σελίδεςπουδενπεριέχουντιςλέξειςαναζήτησηςχάνονται Εκτενείς λίστες αποτελεσμάτων και αποσπασματικές περιγραφές Τα περιεχόμενα μιας σελίδας δεν είναι πάντοτε αξιόπιστα Κατάλογοι διευθύνσεων: χειροκίνητα συγκεντρώνουν και οργανώνουν χρήσιμες διευθύνσεις του ιστού Ποιοτικότερα αποτελέσματα (καλύτερη ακρίβεια) Η χειροκίνητη διαδικασία είναι πολύ αργή Πολλές διευθύνσεις δεν καταλογογραφούνται και δεν θα έρθουν ποτέ ως απάντηση (χειρότερη ανάκληση) 11 Δυσκολίες Αφθονία περιεχομένου => Αυξημένος θόρυβος Μειωμένη ποιότητα περιεχομένου Έλλειψη αξιοπιστίας Πώς θα εντοπίσω τις σελίδες που με ενδιαφέρουν; Πώς ξέρω ότι έχω βρει μια «καλή» πηγή; Γιατί μια «καλή» πηγή για μένα να είναι «καλή» πηγή για όλους; 12

Κατηγορίες εξόρυξης Web Content Mining: Το περιεχόμενο των ιστοσελίδων Web Structure Mining: Οι υπερσύνδεσμοι Web Usage Mining: Τα στοιχεία ανάγνωσης των ιστοσελίδων 13 Εξόρυξη από τα περιεχόμενα Στόχος: ανακάλυψη χρήσιμης πληροφορίας από τα περιεχόμενα των ιστοσελίδων Εύρεση των σημαντικότερων κειμένων σε μια συλλογή ή των σημαντικότερων στοιχείων σε ένα κείμενο Εύρεση περιεχομένου που ταιριάζει στις προτιμήσεις του χρήστη Ομαδοποίηση/κατηγοριοποίηση λέξεων και κειμένων Εξάγουμε δεδομένα από διαφορετικά sites και τα αντιπαραθέτουμε (π.χ. τι λένε οι εφημερίδες μιας ημέρας;) Παρακολούθηση περιεχομένου σε βάθος χρόνου (νέες τάσεις στο περιεχόμενο) 14

Τύποι περιεχομένου Αδόμητα (π.χ. οι ειδήσεις του Reuters): bag of words, τα κείμενα είναι σημεία στον πολυδιάστατο χώρο των λέξεων, ομαδοποίηση λέξεων με χρήση λεξικού/γραμματικής Ημι-δομημένα HTML(π.χ. τα πρωτοσέλιδα των εφημερίδων): ορισμένα μέρη των κειμένων είναι πιο σημαντικά από άλλα (τίτλοι, επικεφαλίδες κλπ.) Δομημένα Σελίδες που παράγονται δυναμικά (π.χ. οι τιμοκατάλογοι προϊόντων): Τα περιεχόμενα των σελίδων βρίσκονταν αρχικά σε πίνακες, ανιχνεύουμε τη δομή των σελίδων, εξάγουμε ορισμένα περιεχόμενα και τα βάζουμε σε πίνακες πριν τα επεξεργαστούμε Πολυμεσικά δεδομένα (π.χ. οι φωτογραφίες του flickr): Το περιεχόμενο των εικόνων, των βίντεο κλπ είναι πολύ δύσκολο να αναλυθεί, εκτός αν αυτές συνοδεύονται από λεκτικές περιγραφές 15 Εξαγωγή περιεχομένων Παράδειγμα: Ανάκτηση πληροφορίας τιμοκαταλόγων από διαφορετικά site και σύγκριση Ανάγκη δημιουργίας "αναγνωστών" (wrappers) για κάθε site Αντιστοίχιση δεδομένων και αποθήκευση σε ενιαία δομή Εξόρυξη γνώσης Προβλήματα Κρυμμένος ιστός (hidden ή deep web): οι ιστοσελίδες δημιουργούνται ως απάντηση σε μια ερώτηση η δομή ενός site αλλάζει δεν έχουμε περιγραφική πληροφορία 16

Ολοκλήρωση πληροφορίας Τα δεδομένα που έρχονται από διαφορετικές πηγές έχουν συνήθως διαφορετικό σχήμα διαφορετική σημασιολογία Προεπεξεργασία με χρήση γλωσσολογικών τεχνικών (tokenization, stemming, stopword removal, weighting) Ταίριασμα σε ενιαίο σχήμα Bing Liu, ACL-2007 Tutorial, Prague, June 24, 2007 "From Web Content Mining to Natural Language Processing" 17 Σύνθεση πληροφορίας Παροχή "πλήρους" πληροφορίας Μπορούμε να δημιουργήσουμε ένα "βιβλίο" για κάποιο θέμα χρησιμοποιώντας τον Παγκόσμιο Ιστό; Ιεράρχηση αποτελεσμάτων: Γενικές κατηγορίες, υποκατηγορίες,, σελίδες, παράγραφοι Αποφυγή επαναλήψεων: Υπολογισμός ομοιότητας μεταξύ αποτελεσμάτων, δύο πολύ όμοια στοιχεία πληροφορίας συγχωνεύονται σε ένα 18

Βήματα Προετοιμασία Συλλογή σελίδων (crawling) Προεπεξεργασία Εξαγωγή χαρακτηριστικών Απεικόνιση στο χώρο των χαρακτηριστικών Επεξεργασία Συσταδοποίηση/Κατηγοριοποίηση (εκπαίδευση κατηγοριοποιητή με γνωστό περιεχόμενο) πολιτικά αθλητικά Ερμηνεία διεθνή Χαρακτηρισμός συστάδων Οργάνωση κατηγοριών κλπ 19 Αναφορές Wrappers William W. Cohen, Matthew Hurst, Lee S. Jensen: A flexible learning system for wrapping tables and lists in HTML documents. 232-241 WWW 2002 Liu, B and Zhai, Y. "NET - A System for Extracting Web Data from Flat and Nested Data Records." WISE-05, 2005 K. Wang and H. Lui, Discovering Typical Structures of Documents: A Road Map Approach, in Proceedings of the ACM SIGIR Symposium oninformation Retrieval, 1998. Text processing Bing Liu, Web Data Mining. Exploring Hyperlinks, Contents and Usage Data, Springer 2006 O. Etzioni, The World Wide Web: Quagmire or Gold Mine, in Communications of the ACM, 39(11):65-68, 1996 20

Δεδομένα Web Content Mining: Το περιεχόμενο των ιστοσελίδων Web Structure Mining: Οι υπερσύνδεσμοι Web Usage Mining: Τα στοιχεία ανάγνωσης των ιστοσελίδων 21 Εξόρυξη από τους συνδέσμους Μας ενδιαφέρει η δομή μεταξύ των ιστοσελίδων (τοπολογία) και όχι η εσωτερική τους δομή Έχει εμπνευστεί από την ανάλυση των κοινωνικών δικτύων και την ανάλυση αναφορών Στις μέρες μας τα κοινωνικά δίκτυα μεταφέρονται στις εφαρμογές του Web (blogs, forums κλπ) Εφαρμογές Εύρεση σημαντικών κόμβων (Kleinberg: hubs authorities) Εύρεση "κεντρικών" κόμβων (π.χ. PageRank Google) Εύρεση μικρο-κοινοτήτων στο Web Μέτρηση της πληρότητας ενός web site Εύρεση της δομής του Web, αλλαγή δομής με το χρόνο 22

Σημαντικοί κόμβοι Kleinberg: Οι βαθμοί πηγαίου κόμβου (Hub) και αυθεντίας (Authority) καθορίζουν τη χρησιμότητα μιας ιστοσελίδας Σελίδες με πολλούς εξερχόμενους συνδέσμους καλά Hubs Σελίδες με πολλούς εισερχόμενους συνδέσμους καλά Authorities (σημεία αναφοράς σε ένα θέμα) HITS: Hyperlink Induced Topic Search Κάθε σελίδα Α έχει ένα βαθμό hub που είναι το άθροισμα όλων των βαθμών authority των σελίδων t A που δείχνει Κάθε σελίδα Α έχει ένα βαθμό authority που είναι το άθροισμα όλων των βαθμών hub των σελίδων s A που τη δείχνουν Οι βαθμοί hub και authority κάθε σελίδας σε μια συλλογή ιστοσελίδων σταθεροποιούνται μετά από πολλές επαναλήψεις 23 Page Rank Μια από τις παραμέτρους αξιολόγησης των αποτελεσμάτων του Google Βασίζεται στον HITS Βρίσκει ένα ενιαίο βαθμό για κάθε σελίδα (το PageRank score της) Θεωρεί ότι ο χρήστης του Ιστού, ενδέχεται απρόσμενα να αλλάξει σελίδα, χωρίς να ακολουθήσει κάποιο σύνδεσμο r u ( 1 ) r / n i j i Συνεπώς, μόνο ένα μέρος (85%) από το βαθμό αυτό η σελίδα το μοιράζει σε όσες σελίδες δείχνει Το PageRank score κάθε σελίδας σταθεροποιείται μετά από ορισμένες επαναλήψεις j j 24

Βήματα Προετοιμασία Συλλογή σελίδων (crawling) Προεπεξεργασία (Εξαγωγή συνδέσμων Δημιουργία γράφου) Επεξεργασία Ανάλυση γράφου αυθεντία Ομάδα 1 Ερμηνεία Χαρακτηρισμός κόμβων Ιεράρχηση κόμβων Ομάδα 2 1 2 3 4 5 6 7 25 8 9 Η δομή του Web Τα αποτελέσματα της έρευνας των Broder et al. (2000) σε 200 εκατομ. URL από το Altavista Bow tie theory: Μόνο το 40% των σελίδων του ιστού συνδέονται στενά μεταξύ τους, οι υπόλοιπες είτε δείχνουν μόνο, είτε δείχνονται μόνο, είτε είναι ασύνδετες Rich get richer. Σελίδες με πολλούς συνδέσμους παίρνουν πολλές αναφορές 26

Ψάχνοντας για ομάδες Kumar et al.: Ο ιστός περιέχει μερικές χιλιάδες πυρήνες κοινοτήτων Οι πυρήνες διαμορφώνονται συνήθως με θεματικά κριτήρια Bill Honda Hubs Hillary BMW Authorities Al GM Web Communities 27 Κοινότητες σελίδων Flake et al 2000 Συλλογές σελίδων όπου κάθε μια έχει πολύ περισσότερους συνδέσμους προς τις σελίδες της συλλογής παρά προς άλλες σελίδες Μοντέλο μέγιστης ροής (Maximal-flow) Ανίχνευση υπο-γράφων στο γράφο του Ιστού 28

Αναφορές A. Broder et al, Graph Structure in the Web. In the Proc. 9th WWW Conference 2000 J.M. Kleinberg Authoritative Sources in Hyperlinked Environment, In Proc. Of Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. Sergey Brin and Lawrence Page: The anatomy of a large-scale hypertextual web search engine. In Proc. Of WWW, pages 107 117, Brisbane, Australia, 1998. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins, Trawling the web for emerging cyber-communities, Computer Networks 31(11-16): 1481-1493 (1999) P. Desikan, J. Srivastava, V. Kumar, P.-N. Tan, Hyperlink Analysis Techniques & Applications, Army High Performance Computing Center Technical Report, 2002. G.W. Flake, S. Lawrence, C.L. Giles, Efficient identification of Web Communities. Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 2000. pp 150-160. 29 Δεδομένα Web Content Mining: Το περιεχόμενο των ιστοσελίδων Web Structure Mining: Οι υπερσύνδεσμοι Web Usage Mining: Τα στοιχεία ανάγνωσης των ιστοσελίδων 30

Εξόρυξη από δεδομένα χρήσης Στόχοι: Πρόβλεψη της συμπεριφοράς των χρηστών Καθοδήγηση και παροχή προτάσεων Βελτίωση στην απόδοση των χρηστών Διαφορετικά αρχεία δεδομένων χρήσης Δεδομένα πελατών: εγγεγραμμένοι χρήστες Δεδομένα proxy: ανώνυμοι χρήστες, πολλά site Web server data: ανώνυμοι χρήστες, ένα site Δύο προσεγγίσεις Μεταφορά των δεδομένων χρήσης σε μια ΒΔ πριν τη χρήση τεχνικών εξόρυξης Απευθείας επεξεργασία των δεδομένων χρήσης 31 H δομή ενός αρχείου καταγραφής 32

Βήματα Προετοιμασία Συλλογή log files Date Time user Source IP Target IP Item Browser 2/1/8 10:59:02-15.22.22.1 99.42.6.2 index.htm IExplorer 2/1/8 10:59:07 b52 47.88.39.4 99.42.6.2 photos.htm IExplorer 2/1/8 11:00:21-15.22.22.1 99.42.6.2 sports.htm IExplorer 2/1/8 11:00:12 b52 47.88.39.4 99.42.6.2 news.htm IExplorer Προεπεξεργασία Καθαρισμός log files Ομαδοποίηση ανά session και χρήστη Date: 2/1/8 USER: 15.22.22.1 HITS: Date: 2/1/8 Time Item USER: b52 10:59:02 HITS: index.htm 11:00:21 Time sports.htm Item 10:59:07 photos.htm 11:00:12 news.htm Επεξεργασία Ομαδοποίηση προτύπων Συχνά πρότυπα -photos.htm, news.htm : support 50% - sports.htm, politics.htm, finance.htm : support 70% Ερμηνεία Κανόνες συσχέτισης sports.htm & politics.htm finance.htm : confidence 30% sports.htm & finance.htm politics.htm : confidence 80% Δυναμικό προφίλ (clickstream) sports.htm finance.htm Αξιοποίηση Πρόταση: 33 politics.htm Κατηγορίες προσεγγίσεων Προσωποποιημένη: Μαθαίνει το προφίλ του χρήστη Το προφίλ του χρήστη αλλάζει με το χρόνο Οι χρήστες ενδιαφέρονται για υπηρεσίες που μαθαίνουν τις ανάγκες και προτιμήσεις τους αυτόματα Απρόσωπη: Μαθαίνει τα πρότυπα περιήγησης του χρήστη Οι πάροχοι πληροφοριών ενδιαφέρονται σε τεχνικές που βελτιώνουν την αποτελεσματικότητα του δικτυακού τόπου ή που ωθούν τους χρήστες προς τους σκοπούς του δικτυακού τόπου 34

Εξατομίκευση στο Web Βελτίωση της σχεδίασης και χρηστικότητας των δικτυακών τόπων Υποστήριξη των χρηστών στην αναζήτηση πληροφορίας στο δικτυακό τόπο Οι απρόσωπες αναζητήσεις λαμβάνουν πλέον υπόψη τους τα ενδιαφέροντα των χρηστών Αύξηση της εμπιστοσύνης των πελατών και στης συχνότητας επίσκεψης Μετατροπή των επισκεπτών σε πελάτες Αύξησητωνσυνδυασμένωναγορώνπροϊόντων 35 Δυσκολίες Μεγάλος όγκος δεδομένων και ανάγκη για ακριβείς και άμεσες προτάσεις Εντοπισμός και αποφυγή δεδομένων ανάγνωσης από μηχανές (crawlers, bots) Ταυτοποίηση χρηστών, εύρεση συνεδριών κλπ, όταν τα δεδομένα μοιράζονται/κρύβονται σε διάφορους υπολογιστές (caching και proxy servers) Χρησιμοποιούνται τεχνικές έμμεσης ταυτοποίησης: π.χ. Cookies Ανωνυμία ή εξατομίκευση; Ευελιξία: τα ενδιαφέροντα των χρηστών αλλάζουν Τα δεδομένα προφίλ δεν αρκούν μιας και δεν ενημερώνονται συχνά Χρησιμοποιείται γνώση πεδίου όπως: ομαδοποίηση με βάση το περιεχόμενο που διαβάζουν, συνεργατικό φιλτράρισμα 36

Αναφορές Agrawal R. and Srikant R. (2000). Privacy-preserving data mining, In Proc. of the ACM SIGMOD Conference on Management of Data, Dallas, Texas, 439-450. Berendt B., Bamshad M, Spiliopoulou M., and Wiltshire J. (2001). Measuring the accuracy of sessionizers for web usage analysis, In Workshop on Web Mining, at the First SIAM International Conference on Data Mining, 7-14. Mobasher, B., Cooley, R., and Srivastava, J. (2000). Automatic personalization based on web usage mining, Commuunications of the. ACM, 43(8) 142 151. Eirinaki M., Vazirgiannis M. (2003). Web mining for web personalization. ACM Transactions On Internet Technology (TOIT), 3(1), 1-27. Joachims T. (2002). Optimizing search engines using clickthrough data. In Proc. of the 8th ACM SIGKDD Conference, 133-142. 37 Τι αλλάζει στο Web 2.0

Εξόρυξη στο Web 2.0 Δυναμικό περιεχόμενο: Τα περιεχόμενα των ιστοσελίδων αλλάζουν διαρκώς (τα πρωτοσέλιδα των ειδησεογραφικών δικτυακών τόπων, τα ιστολόγια - blogs κλπ), ρεύματα δεδομένων Το περιεχόμενο προωθείται στους χρήστες (RSS feeds) Πολυδιάστατο περιεχόμενο: Το περιεχόμενο παράγεται και σχολιάζεται από τους χρήστες Η σημασία του αλλάζει εντός μιας σελίδας (άρθρα και σχόλια) Τα περιεχόμενα συνοδεύονται από χρονική σφραγίδα Οι εικόνες συνοδεύονται από ετικέτες που καθορίζουν οι χρήστες 39 Εξόρυξη στο Web 2.0 Συνεργατική γνώση: Οι εφαρμογές του Web 2.0 στηρίζονται στην ιδέα της συνεργατικότητας Η ανάλυση περιεχομένου (tagsonomies), συνδέσμων (citation analysis, cliques detection) και δεδομένων χρήσης (collaborative filtering) γίνεται στον ίδιο άξονα Σημασιολογικός ιστός: Τα δεδομένα συνοδεύονται από μεταδεδομένα που εξηγούν καλύτερα τη σημασία τους, οι λέξεις μετατρέπονται σε έννοιες και οι διαδικασίες εξόρυξης γνώσης προσαρμόζονται ανάλογα 40

Παράδειγμα Εξόρυξη γνώμης/συναισθημάτων Δύο βασικοί τύποι πληροφορίας στον Ιστό Γεγονότα και Γνώμες Οι μηχανές αναζήτησης ψάχνουν για γεγονότα (όλα θεωρούνται αληθή) και τα σχετίζουν με κάποια θέματα Οι μηχανές αναζήτησης δεν ψάχνουν για γνώμες Οι γνώμες εκφράζονται δύσκολα με 1-2 λέξεις Οι υπάρχουσες προσεγγίσεις δεν αρκούν Υπάρχουν οι καθολικές γνώμες και οι γνώμες των "φίλων" μας Εφαρμογές: Αξιολόγηση προϊόντων για τις βιομηχανίες, συμβουλευτική στην αγορά προϊόντων για τους χρήστες, διαφημίσεις (ανάλογα με τη γνώμη για το προϊόν, αλλάζει και η διαφήμιση), υποκειμενική βαθμονόμηση αποτελεσμάτων 41 Προσέγγιση Εκπαίδευση του συστήματος να ανιχνεύει συναισθήματα και γνώμες Συσχέτιση λέξεων με γνώμη (χρήση λεξικών) Ομοιότητα μεταξύ κειμένων (φράσεων) Συσχέτιση συναισθημάτων και εξωτερικών γεγονότων, θεματολογίας και γεγονότων 42

Αναφορές Xiaowen Ding, Bing Liu and Philip S. Yu. "A Holistic Lexicon-Based Appraoch to Opinion Mining.. WSDM-2008, Stanford University, Stanford, California, USA. Bo Pang and Lillian Lee, Opinion mining and sentiment analysis, in Foundations and Trends in Information Retrieval 2(1-2), pp. 1 135, 2008. Turney, P.D. (2002), Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02) A. Kritikopoulos, M. Sideri, I.Varlamis. BLOGRANK: Ranking weblogs based on connectivity and similarity features. 2nd International Workshop on Advanced Architectures and Algorithms for Internet Delivery and Applications (AAA-IDeA), Pisa, Italy, 2006. I. Varlamis, V. Vassalos, A. Palaios. A tool for monitoring the evolution of interests in the blogosphere, ICDE workshop on Data Engineering for Blogs, Social Media, and Web 2.0, Mexico, 2008 43 Συμπεράσματα Διαφορετικοί στόχοι μεταξύ επιστημονικών πεδίων: Εξόρυξης γνώσης, εξαγωγής πληροφορίας, ανάκτησης πληροφορίας, μηχανικής μάθησης Βασικές τεχνικές εξόρυξης γνώσης: κατηγοριοποίηση, συσταδοποίηση, κανόνες συσχέτισης Τρεις βασικές κατηγορίες εξόρυξης: από Περιεχόμενο, Δομή και Χρήση Αλλαγές που επιφέρει το Web 2.0: περισσότερα δεδομένα από τους χρήστες, πολυδιάστατα δεδομένα, συνεργατική χρήση, σημασιολογία 44

Θέματα προς διερεύνηση Χρήση σημασιολογίας Συνδυασμός δύο ή και περισσότερων κατηγοριών web mining Μελέτη της πορείας του web με το χρόνο Πώς επηρεάζεται το web από συγκεκριμένα γεγονότα Ιδιωτικότητα Το Web ως κοινωνικό δίκτυο Το Web ως παίγνιο 45 Αναφορές R. Kosala, H. Blockeel, Web Mining Research: A Survey, in SIGKDD Explorations 2(1), ACM, July 2000. S. Madria, S.S. Bhowmick, W.K. Ng, E.-P. Lim, Research Issues in Web Data Mining, in Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK1999, pp 303-312. M. Spiliopoulou, Data Mining for the Web, Proceedings of the Symposium on Principles of Knowledge Discovery in Databases (PKDD), 1999. Bing Liu, Web Content Mining, WWW-2005 Tutorial. Jaideep Srivastava: Web Mining - Accomplishments & Future Directions (PAKDD 2003 Tutorial) 46

Ευχαριστώ! Ερωτήσεις; 47