Εξόρυξη νώσης από εδοµένα (data mining) Ε.Κ.Ε.Φ.Ε. ηµόκριτος Ινστ. Πληροφορικής και Τηλεπικοινωνιών εώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Τι είναι εξόρυξη γνώσης Τεχνολογία αιχµής για: την αποτελεσµατικότερη ανάλυση των δεδοµένων και την αποκάλυψη νέων σχέσεων π.χ. πρότυπα συµπεριφοράς πελατών. Στοχεύει στην υποστήριξη στρατηγικών αποφάσεων. Χρησιµοποιεί τεχνικές: µηχανικής µάθησης (machine learning) επαγωγικής εξαγωγής συµπερασµάτων (inductive inference) διαχείρισης µεγάλων και ετερογενών βάσεων δεδοµένων.
Τι ΕΝ είναι εξόρυξη γνώσης εδοµένα (π.χ. βάση πελατών) Ανάκτηση πληροφορίας Εξόρυξη νώσης Πληροφορία (π.χ. αναφορά πωλήσεων) νώση (π.χ. αγοραστικά µοντέλα)
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Χρήση πληροφοριών από κάρτες πελατών σε πολυκαταστήµατα ύο παραδείγµατα: Πρόταση αγορών σε προσωπικό επίπεδο, για κάθε επίσκεψη Στοχευόµενη διαφήµιση για τις εορταστικές περιόδους.
Πρόταση αγορών Κατά την είσοδο του στο κατάστηµα, ο πελάτης Χ, εισάγει την κάρτα του σε µηχάνηµα που εκτυπώνει έναν προσωπικό κατάλογο προτεινοµένων προϊόντων. Η σύνταξη της προσωπικής πρότασης αγορών, βασίζεται στην ανάλυση της αγοραστικής συµπεριφοράς του πελάτη Χ και τη συσχέτιση του µε µία οµάδα οµοίων πελατών. Αυτό επιτυγχάνεται µε τις τεχνικές εξόρυξης, για οµαδοποίηση πελατών (customer clustering).
Στοχευόµενη διαφήµιση Η ανάλυση αγορών δείχνει ότι: οι οικογένειες µε ενήλικα παιδιά, που διαµένουν στα Βόρεια Προάστεια, ξοδεύουν περί τα 50 Ευρώ σε ποτά και παρεµφερή είδη µέσα στο εκέµβρη, πριν τα Χριστούγεννα. Η Χριστουγεννιάτικη διαφηµιστική εκστρατία στα Βόρεια Προάστεια µπορεί να στοχεύει σ αυτούς τους πελάτες. Η ανάλυση αυτή επιτυγχάνεται µε τη χρήση τεχνικών εξόρυξης για οµαδοποίηση πελατών και συσχέτιση προϊόντων.
Υποστήριξη λήψης αποφάσεων σε ασφαλιστικές εταιρείες ύο παραδείγµατα: Αποκάλυψη απάτης (fraud detection) Εκτίµηση κινδύνου (risk assessment)
Αποκάλυψη απάτης Πρόβληµα: Απόκρυψη χρήσης αυτοκινήτου από νεαρό οδηγό. Στόχος: Υπολογισµός της πιθανότητας να υπάρχει νεαρός οδηγός, ο οποίος δεν δηλώνεται για κάθε νέο ασφαλιστήριο. Λύση: Κατασκευή µοντέλου ταξινόµησης νέων ασφαλιστηρίων µε βάση προσωπικά στοιχεία για τον κύριο ασφαλισµένο, τα υπόλοιπα µέλη της οικογένειας, καθώς και δηµογραφικά στοιχεία. Αυτό επιτυγχάνεται µε τις τεχνικές εξόρυξης, για κατηγοριοποίηση (classification).
Εκτίµηση κινδύνου Στόχος: Καθορισµός οµάδων πελατών σε διάφορα επίπεδα κινδύνου και χαρακτηρισµός των οµάδων µε βάση προσωπικά και δηµογραφικά χαρακτηριστικά των οµάδων. Λύση: ηµιουργία µοντέλων για οµάδες πελατών που ανήκουν σε διαφορετικά επίπεδα κινδύνου. Η ανάλυση αυτή επιτυγχάνεται µε τη χρήση τεχνικών εξόρυξης για οµαδοποίηση (clustering).
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
ιαδικασία εξόρυξης γνώσης Κατανόηση προβλήµατος Επιλογή και διαµόρφωση δεδοµένων τεχνικός κύκλος κύκλος εφαρµογής Μάθηση Παρουσίαση και αξιολόγηση αποτελεσµάτων Εφαρµογή
Είδη και τεχνικές µάθησης Υπό επίβλεψη Κατηγοριοποίηση (classification) decision trees & rules, multi-layer layer perceptrons,, logistic regression Πρόβλεψη (prediction) regression trees, multi-layer layer perceptrons,, time-series analysis Οµαδοποίηση (clustering) Χωρίς επίβλεψη conceptual clustering, self-organising maps, statistical clustering Συσχέτιση (associations) association rules, association networks
Ν ΝΑΙ Προσεγγίσεις µοντελοποίησης ηλικία>30 Συµβολικές έντρα Αποφάσεων Ο Ε οικ. κατ. ΟΧΙ Α Τ Α φύλο Κανόνες Συσχέτισης (Ηλικία<=30) & (Οικ( Οικ:Τ) -> > (Φύλο( Φύλο:) (Ηλικία<=30) & (Οικ( Οικ:Π) -> > (Φύλο( Φύλο:) ΟΧΙ ΟΧΙ ΝΑΙ... Αριθµητικές/Στατιστικές Νευρωνικά δίκτυα Στατιστικοί ταξινοµητές ν ο Φύλο ΝΑΙ ΟΧΙ Φ Η Ε Α Τ ΑΠ ΧΟ ΧΑ Α 20 25 30 Ηλικία
έντρα Αποφάσεων Ηλικία 27 40 25 32 35 38 26 30 Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι 3 2 3 3 Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ
έντρα Αποφάσεων Ηλικία 27 40 25 32 35 38 26 30 Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι 0 1 1 Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ
έντρα Αποφάσεων Ηλικία 27 40 25 32 35 38 26 30 Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι 0 0 1 Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ
έντρα Αποφάσεων Οικογ. κατ. Έγγαµος Με τέκνα Άγαµος Ηλικία>=30 ΟΧΙ Φύλο Ναι Οχι Α ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ
Κανόνες συσχέτισης Ηλικία Οικογ. Κατ. Φύλο Περιοχή <=30 (27) Άγαµος Α Αγ. Παρ. 30-40 (40) Άγαµος Χαλάνδρι <=30 (25) Έγγαµος Χολαργός 30-40 (32) Με τέκνα Α Χαλάνδρι 30-40 (35) Έγγαµος Α Αγ. Παρ. 30-40 (38) Έγγαµος Χολαργός <=30 (26) Με τέκνα Αγ. Παρ. <=30 (30) Με τέκνα Χαλάνδρι
Κανόνες συσχέτισης Φύλο: Ηλικία: : <= 30 Ηλικία: : 30-40 Οικ. κατ.: Έγγαµος Οικ. κατ.: Με τέκνα Φύλο: Α Περιοχή: Αγ. Παρ. Περιοχή: Χαλάνδρι Περιοχή: Χολαργός Οικ. κατ.: Άγαµος Στήριξη 0,625 0,5 0,5 0,375 0,375 0,375 0,375 0,375 0,25 0,25 (Φ: ) ) & (Η:( : <= 30) (Φ: ) ) & (Η:( : 30-40) (Φ: ) ) & (Η:( : 30-40)... Στήριξη 0,375 0,25 0,25 Ηλικία: : <= 30 & Οικ. κατ.: (Με( τέκνα ή Έγγαµος) -> Φύλο: Στήριξη: : 0,375 Βεβαιότητα: : 1,0
Οµαδοποίηση Ηλικία <=30 (27) 30-40 (40) <=30 (25) 30-40 (32) 30-40 (35) 30-40 (38) <=30 (26) <=30 (30) Οικογ. Κατ. Άγαµος Άγαµος Έγγαµος Με τέκνα Έγγαµος Έγγαµος Με τέκνα Με τέκνα Φύλο Α Α Α Περιοχή Αγ. Παρ. Χαλάνδρι Χολαργός Χαλάνδρι Αγ. Παρ. Χολαργός Αγ. Παρ. Χαλάνδρι Οµάδα 3 3 1 2 2 2 1 1
Οµαδοποίηση Οµάδα 1: Φύλο:, Ηλικία: : <= 30, Οικ. κατ.: (Με( τέκνα ή Έγγαµος), Περιοχή: : (Αγ( Αγ. Παρ ή Χολαργός) Οµάδα 2: Ηλικία: : 30-40, Οικ. κατ.: (Με( τέκνα ή Έγγαµος), Περιοχή: : (Αγ( Αγ. Παρ ή Χαλάνδρι) Οµάδα 3: Οικ. κατ.: Άγαµος, Περιοχή: : (Αγ( Αγ. Παρ. ή Χαλάνδρι)
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Ενδιαφέροντα Χαρακτηριστικά του Παγκόσµιου Ιστού Πληθώρα δεδοµένων: : 1 τάξη µεγέθους περισσότερα από τις µεγάλες βάσεις δεδοµένων. Κατανεµηµένη και όχι καλά ορισµένη δοµή. Ταχύτατη µεταβολή της πληροφορίας. Απαιτούνται έξυπνα εργαλεία πρόσβασης στην πληροφορία.
Είδη δεδοµένων στον Ιστό Πρωτογενή δεδοµένα (περιεχόµενο και δοµή του Ιστού): Κυρίως κείµενο, µε αυξανόµενες ποσότητες πολυµεσικού υλικού, εντολές µορφοποίησης (mark-up) up), και υπερ-σύνδεσµοι (hyperlinks). Υποστηρικτικές Β.. (µόνο έµµεσα προσβάσιµες). ευτερογενή δεδοµένα (χρήση του Ιστού): Αρχεία καταγραφής σε εξυπηρετητές (Web servers) και διαµεσολαβητές (Web proxies). εδοµένα πλοήγησης από τους πελάτες (Web clients).
Εξόρυξη γνώσης από τον Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Κυρίως εξόρυξη από αδόµητα και ηµιδοµηµένα κειµενικά δεδοµένα. Εξόρυξη γνώσης από τη δοµή του Ιστού Εντοπισµός προτύπων στη διασύνδεση των ιστοσελίδων. Εξόρυξη γνώσης από τη χρήση του Ιστού Κυρίως εξόρυξη από αρχεία καταγραφής σε εξυπηρετητές.
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Εφαρµογές εξόρυξης από τα περιεχόµενα του Ιστού Εκµάθηση ταξινοµητών εγγράφων (text classification) Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων. ηµιουργία εννοιολογικών ιεραρχιών (ontology learning) Καθορισµός των κατηγοριών του Yahoo! ή του Google. Εκµάθηση κανόνων για εξαγωγή πληροφορίας από ιστοσελίδες (wrapper induction) Περιληπτική παρουσίαση στοιχείων για προϊόντα.
Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων Πηγή: ιαφηµίσεις, που αποστέλλονται µαζικά σε χιλιάδες παραλήπτες. Εκτίµηση: > 50% 5 της εισερχόµενης αλληλογραφίας σε επιχειρησιακά δίκτυα. Προβλήµατα που δηµιουργεί: Χάσιµο χρόνου και υπολογιστικών πόρων. Οικονοµικό κόστος για dial-up συνδέσεις. Έκθεση σε ενοχλητικό περιεχόµενο.
Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων Φιλτράρισµα: κατηγοριοποίηση µηνυµάτων σε επιθυµητά και µη. Υπάρχοντα συστήµατα: «µαύρες λίστες» αποστολέων και λέξεις κλειδιά. Ανάγκη για προσαρµοζόµενα ευφυή συστήµατα φιλτραρίσµατος. Η νέα προσέγγιση: εξόρυξη γνώσης από µηνύµατα των δύο κατηγοριών.
Φιλτράρισµα ανεπιθύµητων ηλεκτρονικών µηνυµάτων ιαδικασία 1. Συλλογή δεδοµένων για τις δύο κατηγορίες µηνυµάτων. 2. λωσσική προεπεξεργασία: αφαίρεση κοινών λέξεων και εύρεση ληµµάτων. 3. Αναπαράσταση των µηνυµάτων ως διανύσµατα στον χώρο των λέξεων. 4. Στατιστική επιλογή χαρακτηριστικών. 5. Εκµάθηση φίλτρου (π.χ. δέντρου αποφάσεων). 6. Ενσωµάτωση του φίλτρου στον εξυπηρετητή.
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Εφαρµογές εξόρυξης από τη δοµή του Ιστού Βελτίωση της ακρίβειας αναζήτησης πληροφορίας. Αξιολόγηση σηµαντικότητας των ιστοσελίδων µε βάση τους υπερ-συνδέσµους από και προς αυτές (π.χ. Google). ηµιουργία θεµατικά-εστιασµένων εστιασµένων εργαλείων συλλογής ιστοσελίδων (crawlers, spiders). Αξιολόγηση ενδιαφέροντος των υπερ-συνδέσµων σε µία σελίδα. οµική ανάλυση και βελτίωση της δοµής ενός ιστιακού τόπου.
Βελτίωση της ακρίβειας αναζήτησης πληροφορίας Σελίδες που «δείχνονται» από πολλές άλλες, περιέχουν χρήσιµη πληροφορία (authorities). Σελίδες που δείχνουν σε πολλά authorities είναι καλά σηµεία εκκίνησης για την πλοήγηση (hubs). HITS: Επαναληπτικός αλγόριθµος υπολογισµού βαρών hubs και authorities.
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Εφαρµογές εξόρυξης από τη χρήση του Ιστού Εξατοµικευµένη ανάκτηση και εξαγωγή πληροφορίας. Φιλτράρισµα της ανακτόµενης πληροφορίας µε βάση τα ενδιαφέροντα του χρήστη. υναµικοί (εξατοµικευµένοι) ιστιακοί τόποι. Κανόνες συσχέτισης ιστοσελίδων µε βάση τους χρήστες που τις επισκέπτονται. Κατηγοριοποίηση πελατών και στοχευόµενη διαφήµιση. ηµιουργία οµάδων πελατών µε κοινή αγοραστική συµπεριφορά.
Εξατοµικευµένο φιλτράρισµα πληροφορίας πηγές εξυπηρετητής παραλήπτες
Συνεργατικό φιλτράρισµα πληροφορίας Φιλτράρισµα µε βάση τις επιλογές οµάδων µε κοινά ενδιαφέροντα. Τεχνικές φιλτραρίσµατος µε χρήση αποµνηµόνευσης (memory-based Collaborative Filtering). Τεχνικές φιλτραρίσµατος µε βάση µοντέλα κοινοτήτων (model-based Collaborative Filtering).
Φιλτράρισµα µε αποµνηµόνευση 1 αθλητικά 0 πολιτικά 1
Φιλτράρισµα µε κοινότητες 1 αθλητικά 0 πολιτικά 1
Περιεχόµενα Τι είναι εξόρυξη γνώσης από δεδοµένα Παραδείγµατα εφαρµογών Τεχνολογία εξόρυξης γνώσης Εξόρυξη γνώσης από τον Παγκόσµιο Ιστό Εξόρυξη γνώσης από τα περιεχόµενα του Ιστού Εξόρυξη γνώσης από τη δοµή του Ιστού Εξόρυξη γνώσης από τη χρήση του Ιστού Συµπεράσµατα
Συµπεράσµατα Τα δεδοµένα κρύβουν πολύτιµη γνώση. Ευφυείς µέθοδοι είναι απαραίτητες για την εξόρυξη αυτής της γνώσης. Η µηχανική µάθηση, ενταγµένη στη διαδικασία της εξόρυξης γνώσης από δεδοµένα, παρέχει ικανοποιητική λύση.
Ανοιχτά θέµατα Κλιµάκωση των µεθόδων σε τεράστιους όγκους δεδοµένων (βλ. Παγκόσµιο Ιστό). Επαυξητικές µέθοδοι µάθησης (incremental learning) για αντιµετώπιση της δυναµικότητας (βλ. Παγκόσµιο Ιστό). Ενσωµάτωση µεθόδων εξόρυξης γνώσης σε ολοκληρωµένα συστήµατα. Καλύτερες µέθοδοι εξόρυξης γνώσης από γράφους (βλ. Παγκόσµιο Ιστό). Προστασία των προσωπικών δεδοµένων σε εξατοµικευµένα συστήµατα.
4 ο Πανελλήνιο Συνέδριο Τεχνητής Νοηµοσύνης (ΣΕΤΝ 06) Ηράκλειο, Κρήτη, Μάιο 2006 Ελληνική Εταιρεία Τεχνητής Νοηµοσύνης (ΕΕΤΝ) Πανεπιστήµιο Κρήτης Ίδρυµα Τεχνολογίας και Έρευνας 18 ο Ευρωπαϊκό Συνέδριο Τεχνητής Νοηµοσύνης (ECAI 08) Πανεπιστήµιο Πατρών, 21-25 Ιουλίου 2008 Ελληνική Εταιρεία Τεχνητής Νοηµοσύνης (ΕΕΤΝ) Πανεπιστήµιο Πατρών