ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 8/4/203 5 ο εξόρυξη πληροφορίας
Ανακάλυψη γνώσης 2 Web and NLP 23/4/203
Ορολογία 3 Data Mining Διαδικασία ανακάλυψης γνώσης μέσω της αναζήτησης προτύπων πληροφορίας στα δεδομένα Το βήμα ανάλυσης της διαδικασίας "Knowledge Discovery in Databases", ή αλλιώς KDD Knowledge Discovery Διαδικασία που αξιοποιεί τεχνικές data mining για εξόρυξη γνώσης σύμφωνα με προκαθορισμένες μετρικές
Πρότυπα 4 Το πρότυπο (pattern) είναι μια δήλωση για μια πιθανοτική κατανομή Πρότυπο = αξιόπιστο δείγμα τάσεων, πράξεων ή άλλων παρατηρούμενων χαρακτηριστικών ενός ανθρώπου, μιας ομάδας, ενός οργανισμού, κτλ.
Χρησιμότητα Προτύπων 5 Προβλέψεις ή κατηγοριοποιήσεις νέων δεδομένων Ερμηνεία διαθέσιμων δεδομένων Εξαγωγή περιλήψεων για το περιεχόμενο βάσεων δεδομένων και υποστήριξη λήψης αποφάσεων Γραφική αναπαράσταση πληροφορίας
Ορισμός 6 Διαδικασία ημι-αυτόματης ανάλυσης μεγάλου όγκου δεδομένων για ανίχνευση προτύπων που είναι: Έγκυρα: ισχύουν με κάποια βεβαιότητα και για νέα δεδομένα Καινούρια: μη-προφανή για το σύστημα Χρήσιμα: επιτρέπουν ενέργειες Κατανοητά: μπορούν να ερμηνευθούν από ανθρώπους Διαδικασία γνωστή και ως Knowledge Discovery in Databases (KDD)
Data Mining σε τι είδους data; 7 RBDMS Data Warehouses Transactional DB Advanced DB Systems Object relational Spatial and Temporal Time-Series Multimedia Text Heterogeneous WWW Structure - 3D Anatomy Function D Signal Metadata Annotation GeneFilter Comparison Report GeneFilter Name: GeneFilter Name O2# 8-20-99adjfinal N2#finaladj INTENSITIES RAW NORMALIZED ORF NAME GENE NAME CHRM F G R YAL00C TFC3 A 2 2.03 7.38 YBL080C PET2 2 A 3 53.2 YBR54C RPB5 2 A 4 79.26 78.5 YCL044C 3 A 5 53.22 44.66
Γιατί χρειαζόμαστε data mining; 8 Μεγάλος όγκος δεδομένων για παραδοσιακές προσεγγίσεις ανάλυσης: Τεράστιος αριθμός αρχείων (08 02 bytes) Πολυδιάστατα δεδομένα ( 02 04 γνωρίσματα) Πώς θα διερευνήσουμε εκατομμύρια αρχεία και εκατοντάδες πεδία για να εντοπίσουμε πρότυπα; Web and NLP 23/4/203
Γιατί χρειαζόμαστε data mining; 9 Αξιοποίηση διαθέσιμων δεδομένων Μικρό ποσοστό (5% -0%) των δεδομένων αναλύεται Δεδομένα που δεν αναλύονται συλλέγονται μήπως και χρειαστούν μελλοντικά Ο ρυθμός ανάπτυξης των δεδομένων αποκλείει την παραδοσιακή χειρωνατική επεξεργασία Web and NLP 23/4/203
Γιατί χρειαζόμαστε data mining; 0 Όσο αυξάνεται η πληροφορία τόσο ελαττώνεται η δυνατότητα υποστήριξης λήψης αποφάσεων με παραδοσιακές γλώσσες ερωτημάτων Βρες όλες τις περιπτώσεις απάτης Βρες όσους είναι πιθανό να αγοράσουν Ford Βρες όλα τα έγγραφα που ενδιαφέρουν το χρήστη Α (Latitude, Longitude) 2 QUERY RESULT (Latitude, Longitude)
Data Mining Εφαρμογές
Εφαρμογές data mining 2 Ανάλυση αγορών (Market analysis) Ανάλυση και διαχείριση κινδύνου Fraud / outliers detection Text mining Stream data mining Ανάλυση DNA και βιο-δεδομένων
Ανάλυση Αγορών 3 Πηγές πληροφοριών Συναλλαγές πιστωτικών καρτών, κουπόνια, κτλ Target marketing Ομάδες πελατών με κοινά γνωρίσματα (π.χ. αγορές, εισόδημα) Cross-market analysis Συσχετίσεις μεταξύ πωλήσεων και προβλέψεις Προφίλ πελατών Ποιοι πελάτες αγοράζουν ποια προϊόντα Ανάλυση απαιτήσεων πεταλών Ποια τα καλύτερα προϊόντα για κάθε πελάτη Πρόβλεψη στοιχείων για προσέλκυση νέων πελατών
Fraud Detection 5 Προσεγγίσεις: Ομαδοποίηση και μοντελοποίηση frauds, ανάλυση outliers Εφαρμογές: Υγεία, εμπόριο, πιστωτικές κάρτες, τηλεπικοινωνίες Ξέπλημα χρήματος, ύποπτες οικονομικές συναλλαγές Ιατρική περίθαλψη Ασθενείς, γιατροί, αναφορές Συσχετιζόμενες ιατρικές εξετάσεις Τηλεπικοινωνίες Μοντέλο κλήσης: προορισμός κλήσης, διάρκεια, ώρα, μέρα. Ανάλυση προτύπων που αποκλίνουν από την αναμενόμενη νόρμα Εμπόριο Αναλυτές εκτιμούν πως το 38% του εμπορίου παρακμάζει λόγω ανέντιμων εργοδοτών Αντι-τρομοκρατική
KDD διαδικασία 6 Κατανόηση πεδίου εφαρμογής Σχετική προγενέστερη γνώση, κριτήρια επιτυχίας, περιορισμοί, ορολογία... Δημιουργία δεδομένων στόχου Συλλογή αρχικών δεδομένων, περιγραφή, μεταβλητές υποκειμένων, ποιότητα δεδομένων Προεπεξεργασία, καθαρισμός δεδομένων Απομάκρυνση θορύβου, outliers, χρονική ακολουθία πληροφορίας, γνωστές τάσεις Μείωση δεδομένων και προβολή Επιλογή υποσυνόλου γνωρισμάτων, δημιουργία γνωρισμάτων, συναθροίσεις Precision Farming Filter
KDD διαδικασία 7 Επιλογή εργασίας Κατηγοριοποίηση, ανίχνευση απόκλισης, ανάλυση links Επιλογή data mining προσέγγισης Data mining για εξαγωγή προτύπων και/ή μοντέλων Ερμηνεία και αξιολόγηση προτύπων και/ή μοντέλων Συγχώνευση της γνώσης που ανακαλύφθηκε
8 Ανακάλυψη γνώσης
Απαιτούμενη προσπάθεια 9 Τα βέλη δείχνουν την κατεύθυνση διοχέτευσης της προσπάθειας
Market Basket Analysis Association Rules
Ορισμός market basket analysis 2 Ανάλυση Πελατών Πληροφορία για τις αγορές του πελάτη για να βρει το προφίλ του και γιατί πραγματοποιεί αυτές τις αγορές Ανάλυση προϊόντων Πληροφορία για το ποια προϊόντα αγοράζονται μαζί και ποια είναι πιο πιθανό να αγοραστούν
Το καλάθι αγορών 22? Πού να τοποθετούνται τα απορρυπαντικά για να αυξηθούν οι πωλήσεις;? Αγοράζουμε καθαριστικό τζαμιών όταν έχουμε πάρει απορρυπανικό πιάτων και χυμό;? Συνήθως αγοράζουμε αναψυκτικά και μπανάνες μαζί; Έχει σημασία η μάρκα αναψυκτικού; Πόσο επηρεάζουν οι άλλοι τις αγορές μας;
Κανόνες Συσχέτισης 23 Για την ανάλυση του καλαθιού αγορών και την εξόρυξη δεδομένων χρησιμοποιούμε κανόνες συσχέτισης Έστω Μια βάση δεδομένων με συναλλαγές Κάθε συναλλαγή περιέχει ένα σύνολο αντικειμένων Βρες όλους τους κανόνες XY που συσχετίζουν την παρουσία ενός συνόλου αντικειμένων X με ένα άλλο σύνολο αντικειμένων Y Παράδειγμα: όταν ο πελάτης αγοράζει ψωμί και βούτυρο αγοράζει και γάλα σε 85% των περιπτώσεων +
Και τα αποτελέσματα; 24 Εύκολο να κατανοήσουμε τους κανόνες συσχέτισης όμως τα αποτελέσματα όχι πάντα έγκυρα Χρήσιμο: τις Παρασκευές οι πελάτες των supermarkets ψωνίζουν πάνες και μπύρες μαζί Προφανές: οι πελάτες που συνάπτουν συμβόλαια συντήρησης είναι πιθανό να αγοράσουν ηλεκτρικές συσκευές Ανεξήγητο: συνήθως αγοράζουμε ηλεκτρικούς λαμπτήρες από ένα πολυκατάστημα που μόλις άνοιξε
Ας δούμε πώς δουλεύει... 25 Grocery Point-of-Sale Transactions Customer 2 3 4 5 Items Orange Juice, Soda Milk, Orange Juice, Window Cleaner Orange Juice, Detergent Orange Juice, Detergent, Soda Window Cleaner, Soda Co-Occurrence of Products OJ OJ 4 Window Cleaner Milk Soda 2 Detergent Window Cleaner Milk Soda Detergent 2 0 0 0 2 0 3 0 0 2
Ας δούμε πώς δουλεύει... 26 Ο πίνακας συνεμφάνισης περιέχει απλά πρότυπα Χυμός και αναψυκτικά: μεγάλη πιθανότητα να αγοραστούν μαζί Καθαριστικά δεν αγοράζονται μαζί με γάλα Το γάλα δεν αγοράζεται ποτέ μαζί με αναψυκτικά Οι απλές παρατηρήσεις είναι παραδείγματα συσχετίσεων και συνάγουν κανόνες του τύπου: ΑΝ ο πελάτης αγοράσει αναψυκτικό ΤΟΤΕ θα αγοράσει και χυμό OJ Window Cleaner Milk Soda Detergent OJ 2 0 Window Cleaner Milk Soda Detergent 4 2 0 0 2 0 3 0 0 2
Πόσο καλά είναι τα αποτελέσματα; 27 2 από τις 5 συναλλαγές αφορούν σε αναψυκτικά και χυμό. Αυτές επιβεβαιώνουν τον κανόνα κατά 40% Εφόσον και οι 2 συναλλαγές για αναψυκτικά περιέχουν και χυμό υπάρχει μεγάλη σιγουριά για τον κανόνα. Κάθε συναλλαγή που περιέχει αναψυκτικό έχει και χυμό. Άρα, ο κανόνας: ΑΝ αναψυκτικό TΟΤΕ χυμός έχει σιγουριά 00%.
Πόσο καλοί είναι οι κανόνες; 28 Ένας κανόνας πρέπει να έχει την ελάχιστη εμπιστοσύνη που δηλώνει ο χρήστης και 2 3 έχει 90% εμπιστοσύνη αν όταν ο πελάτης αγόρασε τα και 2, στο 90% των περιπτώσεων αγόρασε και το 3 Ένας κανόνας πρέπει να έχει την ελάχιστη υποστήριξη που δηλώνει ο χρήστης και 2 3 πρέπει να ισχύει σε κάποιο ελάχιστο ποσοστό συναλλαγών για να έχει κάποια αξία
Σιγουριά και Υποστήριξη 29 Transaction ID # 2 3 4 Items {, 2, 3 } {,3 } {,4 } { 2, 5, 6 } Για ελάχιστη υποστήριξη = 50% = 2 συναλλαγές Και ελάχιστη εμπιστοσύνη = 50% Frequent One Item Set { } { 2 } { 3 } { 4 } Frequent Two Item Set {,2 } {,3 } {,4 } { 2,3 } Support 75 % 50 % 50 % 25 % Support 25 % 50 % 25 % 25 % Για τον κανόνα 3: Υποστήριξη = Υποστήριξη ({,3}) = 50% εμπιστοσύνη ( 3) = Υποστήριξη ({,3})/ Υποστήριξη ({}) = 66% εμπιστοσύνη (3 )= εμπιστοσύνη ({,3})/ εμπιστοσύνη ({3}) = 00%
Βασική διεργασία 30 Επιλογή σωστού συνόλου δεδομένων Ταξινομίες Δημιουργία κανόνων ΑΝ συνθήκη ΤΟΤΕ αποτέλεσμα Άρνηση Αντιμετώπιση προβλημάτων από μεγάλο όγκο προϊόντων με Pruning Ελάχιστης Υποστήριξης
Επιλέγοντας τα σωστά δεδομένα 3 Partial Product Taxonomy General Frozen Yogurt Frozen Desserts Frozen Foods Frozen Vegetables Frozen Dinners Ice Frozen Cream Fruit Bars Peas Carrots Mixed Other Specific Chocolate Strawberry Vanilla Rocky Road Cherry Garcia Other
Pruning ελάχιστης υποστήριξης / δημιουργία κανόνων 32 Scan Database Find Pairings Find Level of Support Transaction ID # Items Itemset Support Itemset Support {, 3, 4 } { } 2 { 2 } 3 2 { 2, 3, 5 } { 2 } 3 { 3 } 3 3 {, 2, 3, 5 } { 3 } 3 { 5 } 3 4 { 2, 5 } { 4 } { 5 } 3 Scan Database Find Pairings Find Level of Support Itemset Itemset Support Itemset Support { 2 } { 2, 3 } 2 { 2, 5 } 3 { 3 } { 5 } { 2, 5 } { 3, 5 } 3 2 Δύο κανόνες με μέγιστη υποστήριξη για δύο σύνολα αντικειμένων: 2 5 και 52
Πλεονεκτήματα market basket ανάλυσης 33 Κατανοητά αποτελέσματα Υποστήριξη μη κατευθυνόμενης εξόρυξη δεδομένων Κατάλληλη για μεταβλητού μεγέθους δεδομένα Εύκολος ο υπολογισμός των κανόνων
Μειονεκτήματα market basket ανάλυσης 34 Εκθετικά αυξανόμενος αλγόριθμος Δύσκολος ο καθορισμός του βέλτιστου αριθμού αντικειμένων Αναποτελεσματική για σπάνια αντικείμενα
Data Mining Εκμάθηση δέντρων απόφασης
Παράδειγμα 36 Web and NLP 23/4/203
Εκμάθηση δέντρων απόφασης 37 Εκκίνηση με την πληροφορία του κόμβου ρίζας Επιλογή γνωρίσματος και διενέργεια λογικού ελέγχου στο γνώρισμα Διακλάδωση για κάθε αποτέλεσμα ελέγχου, μετακίνηση του υποσυνόλου παραδειγμάτων που ικανοποιούν το αποτέλεσμα στον αντίστοιχο κόμβοπαιδί Αναδρομή για κάθε κόμβο-παιδί Κανόνας τερματισμού ορίζει πότε θα δηλωθεί ένας κόμβος ως φύλλο Διαδικασία αναζήτησης ένα-βήμα-μπροστά, χωρίς backtracking Βασικά Βήματα Καθορισμός λογικών ελέγχων Επιλογή μετρικής για τα γνωρίσματα
Δέντρα απόφασης 38 Κατηγοριοποιητές Εμφανίσεις (unlabeled παραδείγματα): αναπαρίστανται ως διανύσαματα γνωρισμάτων Εσωτερικοί κόμβοι: Έλεγχοι για τις τιμές των γνωρισμάτων Τυπικός: έλεγχος ισότητας (π.χ., Wind =? ) Ανισότητα και άλλοι έλεγχοι είναι δυνατοί Κλαδιά: Τιμές γνωρισμάτων Ένα-προς-ένα αντιστοίχιση (π.χ., Wind = Strong, Wind = Light ) Φύλλα: κατηγοριοποιήσεις (Class Labels)
Δέντρο απόφασης: Play Tennis 39 Outlook? Sunny Overcast Rain Humidity? Yes Wind? High Normal Strong Light No Yes No Yes
Δέντρα απόφασης και όρια αποφάσεων 40 Πώς κάνουμε Visualize τα δέντρα απόφασης; Παράδειγμα: διαρούμε τον χώρο των εμφανίσεων σε τετράγωνα παράλληλα στον άξονα y 7 + + No x < 3? Yes 5 y > 7? y < 5? - + - - No Yes + + No Yes x <? 3 x No Yes + - Πάνω από δύο μεταβλητές;
Πλεονεκτήματα Δέντρων Απόφασης 4 Παράγουν κατανοητά αποτελέσματα Κατηγοριοποιούν με μικρή υπολογιστική πολυπλοκότητα Χειρίζονται συνεχείς και κατηγορικές μεταβλητές Υποδηλώνουν ποια γνωρίσματα είναι τα πιο σημαντικά για πρόβλεψη ή κατηγοριοποίηση
Μειονεκτήματα Δέντρων Απόφασης 42 Επιρρεπή σε λάθη όταν έχουμε πολλές κλάσεις Ο γρήγορος διαμοιρασμός των δεδομένων οδηγεί σε δραστική μείωση της ποιότητας των γνωρισμάτων που επιλέγονται Προβλήματα με μη-τετράγωνες περιοχές
...στο επόμενο μάθημα 43 Opinion mining
Ερωτήσεις 44 Ευχαριστώ!!! Acknowledgement: Slides Σοφία Στάμου Peter Bajcsy