Εξόρυξη γνώσης από δεδομένα στον Παγκόσμιο Ιστό *Εικόνα του Διαδικτύου όπως εκτίθεται στο Μουσείο Σύγχρονης Τέχνης της Νέας Υόρκης (San Diego Supercomputer Center) Ηρακλής Βαρλάμης varlamis@aueb.gr Περιεχόμενα Εξόρυξη γνώσης Παγκόσμιος Ιστός Εξόρυξη γνώσης από τα δεδομένα του Ιστού Σχετιζόμενα επιστημονικά πεδία Κατηγορίες εξόρυξης γνώσης από τον Ιστό Νέα δεδομένα στην εξόρυξη γνώσης από τον Ιστό Συμπεράσματα - κατευθύνσεις
Εξόρυξη γνώσης Επεξεργάζομαι τη διαθέσιμη πληροφορία και δημιουργώ γνώση Έχει μικρή σημασία να βρω κάτι που είναι ήδη γνωστό Έχει μεγάλη σημασία να βρω "νέα γνώση" Σημαντικότερες τεχνικές Κατηγοριοποίηση - classification (σε προκαθορισμένες κατηγορίες) Συσταδοποίηση clustering (σε άγνωστες μέχρι πριν ομάδες) Κανόνες συσχέτισης association rules (μεταξύ γεγονότων, αντικειμένων, κλπ) Ακολουθιακοί κανόνες, ανίχνευση απόκλισης, οπτικοποίηση κ.ά. H διαδικασία εξόρυξης γνώσης Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, Ramasamy Uthurusamy: 4 Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press 1996
Παγκόσμιος ιστός Περιεχόμενο Στατικό: Ιστοσελίδες Κείμενο Σύνδεσμοι Εκατομμύρια υπολογιστές συνδεδεμένοι με διάφορα μέσα διαθέτουν Δισεκατομμύρια σελίδες (πολλές φορές επαναλαμβάνονται) Από διαφορετικούς συγγραφείς, σε διάφορα θέματα Διαφορετικές δομές, από αδόμητα κείμενα μέχρι πλήρως δομημένες σελίδες Πολύς θόρυβος που "κρύβει" την πολύτιμη γνώση 5 Εξόρυξη γνώσης στον ιστό Παράγω γνώση, άγνωστη μέχρι πρότινος, από τις πληροφορίες του ιστού Εξατομικεύω τις πληροφορίες, λαμβάνοντας υπόψη τις προτιμήσεις του χρήστη σε περιεχόμενο και τρόπο παρουσίασης Μαθαίνω τις προτιμήσεις του χρήστη αναλύοντας τη συμπεριφορά του Εκτιμώ τι θα ζητήσει ο χρήστης (πληροφοριακή ανάγκη) Προσφέρω περιεχόμενο στο χρήστη πριν ακόμη το ζητήσει 6
Web mining (ορισμός) Η εξόρυξη γνώσης στον Παγκόσμιο Ιστό είναι η διαδικασία κατά την οποία επεξεργαζόμαστε δεδομένα του ιστού και ανακαλύπτουμε γνώση που μπορεί να φανεί χρήσιμη και που μέχρι τώρα δεν ήταν γνωστή Ανάλογα με τα δεδομένα που επεξεργαζόμαστε έχουμε τις ακόλουθες κατηγορίες εξόρυξης γνώσης Το περιεχόμενο των ιστοσελίδων: Web Content Mining: Οι υπερσύνδεσμοι: Web Structure Mining Τα στοιχεία ανάγνωσης των ιστοσελίδων: Web Usage Mining 7 Επιμέρους βήματα Εύρεση πηγών δεδομένων Συλλογή ιστοσελίδων Επιλογή πληροφοριών/προ-επεξεργασία Εντοπισμός συγκεκριμένων πληροφοριών από τις ιστοσελίδες της συλλογής (π.χ. σύνδεσμοι) Γενίκευση Ανακάλυψη γενικευμένων προτύπων, που ισχύουν για πολλά διαφορετικά web sites Ερμηνεία Επικύρωση και ερμηνεία των προτύπων που βρέθηκαν 8
Συσχετίσεις με άλλα επιστημονικά πεδία Ανάκτηση πληροφορίας: Ανάκτηση σχετικών κειμένων Δεν πρέπει να συγχέεται με την ανάκτηση πληροφορίας αν και τεχνικές εξόρυξης γνώσης χρησιμοποιούνται σε συστήματα ανάκτησης πληροφορίας Εξαγωγή πληροφορίας: ανάκτηση συγκεκριμένων στοιχείων από τα κείμενα Τεχνικές εξαγωγής πληροφορίας μπορεί να χρησιμοποιηθούν στη φάση της προ-επεξεργασίας Μηχανική μάθηση: ανάπτυξη αλγορίθμων που εκπαιδεύουν τον υπολογιστή να αναγνωρίζει συγκεκριμένα πρότυπα Πολλές εφαρμογές μηχανικής μάθησης εφαρμόζονται στον ιστό ή χρησιμοποιούνται για εξόρυξη γνώσης 9 Ανάκτηση πληροφορίας Πληροφοριακή ανάγκη: ο χρήστης διατυπώνει μια ερώτηση Το σύστημα ανάκτησης βρίσκει τις ιστοσελίδες που απαντούν την ερώτηση Στόχοι Μεγάλη ανάκληση: Ναβρωόλατιςσχετικέςσελίδες, όσες απαντούν στην ερώτησή μου Μεγάλη ακρίβεια: Να ανακτήσω όσο το δυνατό περισσότερες σχετικές σελίδες και όσο το δυνατό λιγότερες άσχετες 10
Υπάρχουσες λύσεις Μηχανές αναζήτησης: συγκεντρώνουν όλες τις ιστοσελίδες του ιστού, ψάχνουν στα περιεχόμενά τους για τις λέξεις που ζητούν οι χρήστες Σελίδεςπουδενπεριέχουντιςλέξειςαναζήτησηςχάνονται Εκτενείς λίστες αποτελεσμάτων και αποσπασματικές περιγραφές Τα περιεχόμενα μιας σελίδας δεν είναι πάντοτε αξιόπιστα Κατάλογοι διευθύνσεων: χειροκίνητα συγκεντρώνουν και οργανώνουν χρήσιμες διευθύνσεις του ιστού Ποιοτικότερα αποτελέσματα (καλύτερη ακρίβεια) Η χειροκίνητη διαδικασία είναι πολύ αργή Πολλές διευθύνσεις δεν καταλογογραφούνται και δεν θα έρθουν ποτέ ως απάντηση (χειρότερη ανάκληση) 11 Δυσκολίες Αφθονία περιεχομένου => Αυξημένος θόρυβος Μειωμένη ποιότητα περιεχομένου Έλλειψη αξιοπιστίας Πώς θα εντοπίσω τις σελίδες που με ενδιαφέρουν; Πώς ξέρω ότι έχω βρει μια «καλή» πηγή; Γιατί μια «καλή» πηγή για μένα να είναι «καλή» πηγή για όλους; 12
Κατηγορίες εξόρυξης Web Content Mining: Το περιεχόμενο των ιστοσελίδων Web Structure Mining: Οι υπερσύνδεσμοι Web Usage Mining: Τα στοιχεία ανάγνωσης των ιστοσελίδων 13 Εξόρυξη από τα περιεχόμενα Στόχος: ανακάλυψη χρήσιμης πληροφορίας από τα περιεχόμενα των ιστοσελίδων Εύρεση των σημαντικότερων κειμένων σε μια συλλογή ή των σημαντικότερων στοιχείων σε ένα κείμενο Εύρεση περιεχομένου που ταιριάζει στις προτιμήσεις του χρήστη Ομαδοποίηση/κατηγοριοποίηση λέξεων και κειμένων Εξάγουμε δεδομένα από διαφορετικά sites και τα αντιπαραθέτουμε (π.χ. τι λένε οι εφημερίδες μιας ημέρας;) Παρακολούθηση περιεχομένου σε βάθος χρόνου (νέες τάσεις στο περιεχόμενο) 14
Τύποι περιεχομένου Αδόμητα (π.χ. οι ειδήσεις του Reuters): bag of words, τα κείμενα είναι σημεία στον πολυδιάστατο χώρο των λέξεων, ομαδοποίηση λέξεων με χρήση λεξικού/γραμματικής Ημι-δομημένα HTML(π.χ. τα πρωτοσέλιδα των εφημερίδων): ορισμένα μέρη των κειμένων είναι πιο σημαντικά από άλλα (τίτλοι, επικεφαλίδες κλπ.) Δομημένα Σελίδες που παράγονται δυναμικά (π.χ. οι τιμοκατάλογοι προϊόντων): Τα περιεχόμενα των σελίδων βρίσκονταν αρχικά σε πίνακες, ανιχνεύουμε τη δομή των σελίδων, εξάγουμε ορισμένα περιεχόμενα και τα βάζουμε σε πίνακες πριν τα επεξεργαστούμε Πολυμεσικά δεδομένα (π.χ. οι φωτογραφίες του flickr): Το περιεχόμενο των εικόνων, των βίντεο κλπ είναι πολύ δύσκολο να αναλυθεί, εκτός αν αυτές συνοδεύονται από λεκτικές περιγραφές 15 Εξαγωγή περιεχομένων Παράδειγμα: Ανάκτηση πληροφορίας τιμοκαταλόγων από διαφορετικά site και σύγκριση Ανάγκη δημιουργίας "αναγνωστών" (wrappers) για κάθε site Αντιστοίχιση δεδομένων και αποθήκευση σε ενιαία δομή Εξόρυξη γνώσης Προβλήματα Κρυμμένος ιστός (hidden ή deep web): οι ιστοσελίδες δημιουργούνται ως απάντηση σε μια ερώτηση η δομή ενός site αλλάζει δεν έχουμε περιγραφική πληροφορία 16
Ολοκλήρωση πληροφορίας Τα δεδομένα που έρχονται από διαφορετικές πηγές έχουν συνήθως διαφορετικό σχήμα διαφορετική σημασιολογία Προεπεξεργασία με χρήση γλωσσολογικών τεχνικών (tokenization, stemming, stopword removal, weighting) Ταίριασμα σε ενιαίο σχήμα Bing Liu, ACL-2007 Tutorial, Prague, June 24, 2007 "From Web Content Mining to Natural Language Processing" 17 Σύνθεση πληροφορίας Παροχή "πλήρους" πληροφορίας Μπορούμε να δημιουργήσουμε ένα "βιβλίο" για κάποιο θέμα χρησιμοποιώντας τον Παγκόσμιο Ιστό; Ιεράρχηση αποτελεσμάτων: Γενικές κατηγορίες, υποκατηγορίες,, σελίδες, παράγραφοι Αποφυγή επαναλήψεων: Υπολογισμός ομοιότητας μεταξύ αποτελεσμάτων, δύο πολύ όμοια στοιχεία πληροφορίας συγχωνεύονται σε ένα 18
Βήματα Προετοιμασία Συλλογή σελίδων (crawling) Προεπεξεργασία Εξαγωγή χαρακτηριστικών Απεικόνιση στο χώρο των χαρακτηριστικών Επεξεργασία Συσταδοποίηση/Κατηγοριοποίηση (εκπαίδευση κατηγοριοποιητή με γνωστό περιεχόμενο) πολιτικά αθλητικά Ερμηνεία διεθνή Χαρακτηρισμός συστάδων Οργάνωση κατηγοριών κλπ 19 Αναφορές Wrappers William W. Cohen, Matthew Hurst, Lee S. Jensen: A flexible learning system for wrapping tables and lists in HTML documents. 232-241 WWW 2002 Liu, B and Zhai, Y. "NET - A System for Extracting Web Data from Flat and Nested Data Records." WISE-05, 2005 K. Wang and H. Lui, Discovering Typical Structures of Documents: A Road Map Approach, in Proceedings of the ACM SIGIR Symposium oninformation Retrieval, 1998. Text processing Bing Liu, Web Data Mining. Exploring Hyperlinks, Contents and Usage Data, Springer 2006 O. Etzioni, The World Wide Web: Quagmire or Gold Mine, in Communications of the ACM, 39(11):65-68, 1996 20
Δεδομένα Web Content Mining: Το περιεχόμενο των ιστοσελίδων Web Structure Mining: Οι υπερσύνδεσμοι Web Usage Mining: Τα στοιχεία ανάγνωσης των ιστοσελίδων 21 Εξόρυξη από τους συνδέσμους Μας ενδιαφέρει η δομή μεταξύ των ιστοσελίδων (τοπολογία) και όχι η εσωτερική τους δομή Έχει εμπνευστεί από την ανάλυση των κοινωνικών δικτύων και την ανάλυση αναφορών Στις μέρες μας τα κοινωνικά δίκτυα μεταφέρονται στις εφαρμογές του Web (blogs, forums κλπ) Εφαρμογές Εύρεση σημαντικών κόμβων (Kleinberg: hubs authorities) Εύρεση "κεντρικών" κόμβων (π.χ. PageRank Google) Εύρεση μικρο-κοινοτήτων στο Web Μέτρηση της πληρότητας ενός web site Εύρεση της δομής του Web, αλλαγή δομής με το χρόνο 22
Σημαντικοί κόμβοι Kleinberg: Οι βαθμοί πηγαίου κόμβου (Hub) και αυθεντίας (Authority) καθορίζουν τη χρησιμότητα μιας ιστοσελίδας Σελίδες με πολλούς εξερχόμενους συνδέσμους καλά Hubs Σελίδες με πολλούς εισερχόμενους συνδέσμους καλά Authorities (σημεία αναφοράς σε ένα θέμα) HITS: Hyperlink Induced Topic Search Κάθε σελίδα Α έχει ένα βαθμό hub που είναι το άθροισμα όλων των βαθμών authority των σελίδων t A που δείχνει Κάθε σελίδα Α έχει ένα βαθμό authority που είναι το άθροισμα όλων των βαθμών hub των σελίδων s A που τη δείχνουν Οι βαθμοί hub και authority κάθε σελίδας σε μια συλλογή ιστοσελίδων σταθεροποιούνται μετά από πολλές επαναλήψεις 23 Page Rank Μια από τις παραμέτρους αξιολόγησης των αποτελεσμάτων του Google Βασίζεται στον HITS Βρίσκει ένα ενιαίο βαθμό για κάθε σελίδα (το PageRank score της) Θεωρεί ότι ο χρήστης του Ιστού, ενδέχεται απρόσμενα να αλλάξει σελίδα, χωρίς να ακολουθήσει κάποιο σύνδεσμο r u ( 1 ) r / n i j i Συνεπώς, μόνο ένα μέρος (85%) από το βαθμό αυτό η σελίδα το μοιράζει σε όσες σελίδες δείχνει Το PageRank score κάθε σελίδας σταθεροποιείται μετά από ορισμένες επαναλήψεις j j 24
Βήματα Προετοιμασία Συλλογή σελίδων (crawling) Προεπεξεργασία (Εξαγωγή συνδέσμων Δημιουργία γράφου) Επεξεργασία Ανάλυση γράφου αυθεντία Ομάδα 1 Ερμηνεία Χαρακτηρισμός κόμβων Ιεράρχηση κόμβων Ομάδα 2 1 2 3 4 5 6 7 25 8 9 Η δομή του Web Τα αποτελέσματα της έρευνας των Broder et al. (2000) σε 200 εκατομ. URL από το Altavista Bow tie theory: Μόνο το 40% των σελίδων του ιστού συνδέονται στενά μεταξύ τους, οι υπόλοιπες είτε δείχνουν μόνο, είτε δείχνονται μόνο, είτε είναι ασύνδετες Rich get richer. Σελίδες με πολλούς συνδέσμους παίρνουν πολλές αναφορές 26
Ψάχνοντας για ομάδες Kumar et al.: Ο ιστός περιέχει μερικές χιλιάδες πυρήνες κοινοτήτων Οι πυρήνες διαμορφώνονται συνήθως με θεματικά κριτήρια Bill Honda Hubs Hillary BMW Authorities Al GM Web Communities 27 Κοινότητες σελίδων Flake et al 2000 Συλλογές σελίδων όπου κάθε μια έχει πολύ περισσότερους συνδέσμους προς τις σελίδες της συλλογής παρά προς άλλες σελίδες Μοντέλο μέγιστης ροής (Maximal-flow) Ανίχνευση υπο-γράφων στο γράφο του Ιστού 28
Αναφορές A. Broder et al, Graph Structure in the Web. In the Proc. 9th WWW Conference 2000 J.M. Kleinberg Authoritative Sources in Hyperlinked Environment, In Proc. Of Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. Sergey Brin and Lawrence Page: The anatomy of a large-scale hypertextual web search engine. In Proc. Of WWW, pages 107 117, Brisbane, Australia, 1998. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins, Trawling the web for emerging cyber-communities, Computer Networks 31(11-16): 1481-1493 (1999) P. Desikan, J. Srivastava, V. Kumar, P.-N. Tan, Hyperlink Analysis Techniques & Applications, Army High Performance Computing Center Technical Report, 2002. G.W. Flake, S. Lawrence, C.L. Giles, Efficient identification of Web Communities. Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 2000. pp 150-160. 29 Δεδομένα Web Content Mining: Το περιεχόμενο των ιστοσελίδων Web Structure Mining: Οι υπερσύνδεσμοι Web Usage Mining: Τα στοιχεία ανάγνωσης των ιστοσελίδων 30
Εξόρυξη από δεδομένα χρήσης Στόχοι: Πρόβλεψη της συμπεριφοράς των χρηστών Καθοδήγηση και παροχή προτάσεων Βελτίωση στην απόδοση των χρηστών Διαφορετικά αρχεία δεδομένων χρήσης Δεδομένα πελατών: εγγεγραμμένοι χρήστες Δεδομένα proxy: ανώνυμοι χρήστες, πολλά site Web server data: ανώνυμοι χρήστες, ένα site Δύο προσεγγίσεις Μεταφορά των δεδομένων χρήσης σε μια ΒΔ πριν τη χρήση τεχνικών εξόρυξης Απευθείας επεξεργασία των δεδομένων χρήσης 31 H δομή ενός αρχείου καταγραφής 32
Βήματα Προετοιμασία Συλλογή log files Date Time user Source IP Target IP Item Browser 2/1/8 10:59:02-15.22.22.1 99.42.6.2 index.htm IExplorer 2/1/8 10:59:07 b52 47.88.39.4 99.42.6.2 photos.htm IExplorer 2/1/8 11:00:21-15.22.22.1 99.42.6.2 sports.htm IExplorer 2/1/8 11:00:12 b52 47.88.39.4 99.42.6.2 news.htm IExplorer Προεπεξεργασία Καθαρισμός log files Ομαδοποίηση ανά session και χρήστη Date: 2/1/8 USER: 15.22.22.1 HITS: Date: 2/1/8 Time Item USER: b52 10:59:02 HITS: index.htm 11:00:21 Time sports.htm Item 10:59:07 photos.htm 11:00:12 news.htm Επεξεργασία Ομαδοποίηση προτύπων Συχνά πρότυπα -photos.htm, news.htm : support 50% - sports.htm, politics.htm, finance.htm : support 70% Ερμηνεία Κανόνες συσχέτισης sports.htm & politics.htm finance.htm : confidence 30% sports.htm & finance.htm politics.htm : confidence 80% Δυναμικό προφίλ (clickstream) sports.htm finance.htm Αξιοποίηση Πρόταση: 33 politics.htm Κατηγορίες προσεγγίσεων Προσωποποιημένη: Μαθαίνει το προφίλ του χρήστη Το προφίλ του χρήστη αλλάζει με το χρόνο Οι χρήστες ενδιαφέρονται για υπηρεσίες που μαθαίνουν τις ανάγκες και προτιμήσεις τους αυτόματα Απρόσωπη: Μαθαίνει τα πρότυπα περιήγησης του χρήστη Οι πάροχοι πληροφοριών ενδιαφέρονται σε τεχνικές που βελτιώνουν την αποτελεσματικότητα του δικτυακού τόπου ή που ωθούν τους χρήστες προς τους σκοπούς του δικτυακού τόπου 34
Εξατομίκευση στο Web Βελτίωση της σχεδίασης και χρηστικότητας των δικτυακών τόπων Υποστήριξη των χρηστών στην αναζήτηση πληροφορίας στο δικτυακό τόπο Οι απρόσωπες αναζητήσεις λαμβάνουν πλέον υπόψη τους τα ενδιαφέροντα των χρηστών Αύξηση της εμπιστοσύνης των πελατών και στης συχνότητας επίσκεψης Μετατροπή των επισκεπτών σε πελάτες Αύξησητωνσυνδυασμένωναγορώνπροϊόντων 35 Δυσκολίες Μεγάλος όγκος δεδομένων και ανάγκη για ακριβείς και άμεσες προτάσεις Εντοπισμός και αποφυγή δεδομένων ανάγνωσης από μηχανές (crawlers, bots) Ταυτοποίηση χρηστών, εύρεση συνεδριών κλπ, όταν τα δεδομένα μοιράζονται/κρύβονται σε διάφορους υπολογιστές (caching και proxy servers) Χρησιμοποιούνται τεχνικές έμμεσης ταυτοποίησης: π.χ. Cookies Ανωνυμία ή εξατομίκευση; Ευελιξία: τα ενδιαφέροντα των χρηστών αλλάζουν Τα δεδομένα προφίλ δεν αρκούν μιας και δεν ενημερώνονται συχνά Χρησιμοποιείται γνώση πεδίου όπως: ομαδοποίηση με βάση το περιεχόμενο που διαβάζουν, συνεργατικό φιλτράρισμα 36
Αναφορές Agrawal R. and Srikant R. (2000). Privacy-preserving data mining, In Proc. of the ACM SIGMOD Conference on Management of Data, Dallas, Texas, 439-450. Berendt B., Bamshad M, Spiliopoulou M., and Wiltshire J. (2001). Measuring the accuracy of sessionizers for web usage analysis, In Workshop on Web Mining, at the First SIAM International Conference on Data Mining, 7-14. Mobasher, B., Cooley, R., and Srivastava, J. (2000). Automatic personalization based on web usage mining, Commuunications of the. ACM, 43(8) 142 151. Eirinaki M., Vazirgiannis M. (2003). Web mining for web personalization. ACM Transactions On Internet Technology (TOIT), 3(1), 1-27. Joachims T. (2002). Optimizing search engines using clickthrough data. In Proc. of the 8th ACM SIGKDD Conference, 133-142. 37 Τι αλλάζει στο Web 2.0
Εξόρυξη στο Web 2.0 Δυναμικό περιεχόμενο: Τα περιεχόμενα των ιστοσελίδων αλλάζουν διαρκώς (τα πρωτοσέλιδα των ειδησεογραφικών δικτυακών τόπων, τα ιστολόγια - blogs κλπ), ρεύματα δεδομένων Το περιεχόμενο προωθείται στους χρήστες (RSS feeds) Πολυδιάστατο περιεχόμενο: Το περιεχόμενο παράγεται και σχολιάζεται από τους χρήστες Η σημασία του αλλάζει εντός μιας σελίδας (άρθρα και σχόλια) Τα περιεχόμενα συνοδεύονται από χρονική σφραγίδα Οι εικόνες συνοδεύονται από ετικέτες που καθορίζουν οι χρήστες 39 Εξόρυξη στο Web 2.0 Συνεργατική γνώση: Οι εφαρμογές του Web 2.0 στηρίζονται στην ιδέα της συνεργατικότητας Η ανάλυση περιεχομένου (tagsonomies), συνδέσμων (citation analysis, cliques detection) και δεδομένων χρήσης (collaborative filtering) γίνεται στον ίδιο άξονα Σημασιολογικός ιστός: Τα δεδομένα συνοδεύονται από μεταδεδομένα που εξηγούν καλύτερα τη σημασία τους, οι λέξεις μετατρέπονται σε έννοιες και οι διαδικασίες εξόρυξης γνώσης προσαρμόζονται ανάλογα 40
Παράδειγμα Εξόρυξη γνώμης/συναισθημάτων Δύο βασικοί τύποι πληροφορίας στον Ιστό Γεγονότα και Γνώμες Οι μηχανές αναζήτησης ψάχνουν για γεγονότα (όλα θεωρούνται αληθή) και τα σχετίζουν με κάποια θέματα Οι μηχανές αναζήτησης δεν ψάχνουν για γνώμες Οι γνώμες εκφράζονται δύσκολα με 1-2 λέξεις Οι υπάρχουσες προσεγγίσεις δεν αρκούν Υπάρχουν οι καθολικές γνώμες και οι γνώμες των "φίλων" μας Εφαρμογές: Αξιολόγηση προϊόντων για τις βιομηχανίες, συμβουλευτική στην αγορά προϊόντων για τους χρήστες, διαφημίσεις (ανάλογα με τη γνώμη για το προϊόν, αλλάζει και η διαφήμιση), υποκειμενική βαθμονόμηση αποτελεσμάτων 41 Προσέγγιση Εκπαίδευση του συστήματος να ανιχνεύει συναισθήματα και γνώμες Συσχέτιση λέξεων με γνώμη (χρήση λεξικών) Ομοιότητα μεταξύ κειμένων (φράσεων) Συσχέτιση συναισθημάτων και εξωτερικών γεγονότων, θεματολογίας και γεγονότων 42
Αναφορές Xiaowen Ding, Bing Liu and Philip S. Yu. "A Holistic Lexicon-Based Appraoch to Opinion Mining.. WSDM-2008, Stanford University, Stanford, California, USA. Bo Pang and Lillian Lee, Opinion mining and sentiment analysis, in Foundations and Trends in Information Retrieval 2(1-2), pp. 1 135, 2008. Turney, P.D. (2002), Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02) A. Kritikopoulos, M. Sideri, I.Varlamis. BLOGRANK: Ranking weblogs based on connectivity and similarity features. 2nd International Workshop on Advanced Architectures and Algorithms for Internet Delivery and Applications (AAA-IDeA), Pisa, Italy, 2006. I. Varlamis, V. Vassalos, A. Palaios. A tool for monitoring the evolution of interests in the blogosphere, ICDE workshop on Data Engineering for Blogs, Social Media, and Web 2.0, Mexico, 2008 43 Συμπεράσματα Διαφορετικοί στόχοι μεταξύ επιστημονικών πεδίων: Εξόρυξης γνώσης, εξαγωγής πληροφορίας, ανάκτησης πληροφορίας, μηχανικής μάθησης Βασικές τεχνικές εξόρυξης γνώσης: κατηγοριοποίηση, συσταδοποίηση, κανόνες συσχέτισης Τρεις βασικές κατηγορίες εξόρυξης: από Περιεχόμενο, Δομή και Χρήση Αλλαγές που επιφέρει το Web 2.0: περισσότερα δεδομένα από τους χρήστες, πολυδιάστατα δεδομένα, συνεργατική χρήση, σημασιολογία 44
Θέματα προς διερεύνηση Χρήση σημασιολογίας Συνδυασμός δύο ή και περισσότερων κατηγοριών web mining Μελέτη της πορείας του web με το χρόνο Πώς επηρεάζεται το web από συγκεκριμένα γεγονότα Ιδιωτικότητα Το Web ως κοινωνικό δίκτυο Το Web ως παίγνιο 45 Αναφορές R. Kosala, H. Blockeel, Web Mining Research: A Survey, in SIGKDD Explorations 2(1), ACM, July 2000. S. Madria, S.S. Bhowmick, W.K. Ng, E.-P. Lim, Research Issues in Web Data Mining, in Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK1999, pp 303-312. M. Spiliopoulou, Data Mining for the Web, Proceedings of the Symposium on Principles of Knowledge Discovery in Databases (PKDD), 1999. Bing Liu, Web Content Mining, WWW-2005 Tutorial. Jaideep Srivastava: Web Mining - Accomplishments & Future Directions (PAKDD 2003 Tutorial) 46
Ευχαριστώ! Ερωτήσεις; 47