Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική Ευφυΐα Εξόρυξη Γνώσης Case study: EL Nino Εξόρυξη γνώσης στον SS 2005 Demos Νέες τάσεις 2 1
Αλλαγές στον SQL Server 2005 SQL Server Database Engine Ενσωµάτωση του.net Web Services Πλήρης υποστήριξη XML SQL Server Business Intelligence OLAP Data Mining (προσθήκη αλγορίθµων) BI Development (ASSL, AMO, ADOMD.NET) 3 SQL Server 2005 Data Mining 4 2
SQL Server 2005 Data Mining 5 Επιχειρηµατική Ευφυΐα Επιχειρηµατική Ευφυΐα (Business Intelligence) Τεχνολογίες και εφαρµογές για συλλογή, αποθήκευση, ανάλυση και επεξεργασία επιχειρησιακών δεδοµένων µε στόχο την υποστήριξη αποφάσεων Περιλαµβάνει (µεταξύ άλλων): Συστήµατα Υποστήριξης Αποφάσεων Στατιστική Ανάλυση Οπτικοποίηση Αποθήκες δεδοµένων και OLAP Εξόρυξη Γνώσης 6 3
Ανακάλυψη και Εξόρυξη Γνώσης Η ανακάλυψη γνώσης από δεδοµένα (Knowledge Discovery in Data KDD) είναι η µη τετριµµένη διαδικασία εύρεσης έγκυρων, πρωτότυπων, πιθανώς χρήσιµων και οπωσδήποτε κατανοητών προτύπων (patterns) µέσα στα δεδοµένα Η εξόρυξη γνώσης από δεδοµένα (Data Mining) είναι η χρήση αλγορίθµων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται µε τη διαδικασία KDD 7 ιαδικασία ανακάλυψης γνώσης 8 4
Η µεθοδολογία CRISP-DM Κατανόηση της περιοχής (business) Κατανόηση των δεδοµένων Προετοιµασία δεδοµένων Μοντελοποίηση Αξιολόγηση Εγκατάσταση 9 Ρόλοι στην εξόρυξη γνώσης Making Decisions Decision Makers Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 10 5
Εργασίες εξόρυξης γνώσης Κανόνες Συσχέτισης Κατηγοριοποίηση / Πρόβλεψη έντρα απόφασης, νευρωνικά δίκτυα, Bayesian κατηγοριοποίηση Συσταδοποίηση Ιεραρχικοί, διαµεραστικοί, µε βάση την πυκνότητα Yes NO Refund No MarSt Single, Divorced Married TaxInc < 80K > 80K NO NO YES 11 Κανόνες Συσχέτισης (Association rules) Ορισµός: X Y όπου X,Y I και X Y = ø Το X ονοµάζεται LHS (left-hand side) ή antecedent (προηγούµενο) ή head (κεφαλή) του κανόνα Το Y ονοµάζεται RHS (right-hand side) ή consequent (επακόλουθο) ή body (σώµα) του κανόνα Υποστήριξη (support) του AR (s) X Y: το ποσοστό των δοσοληψιών που περιέχουν το X Y ή αλλιώς η πιθανότητα P(X Y) Εµπιστοσύνη (confidence) του AR (α) X Y: η αναλογία του πλήθους των δοσοληψιών που περιέχουν το X Y ως προς το πλήθος των δοσοληψιών που περιέχουν το X. ή αλλιώς, η εξαρτηµένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) Αλγόριθµοι στον SQL Server 2005 Association rules Decision Trees (small catalogs) 12 6
Κατηγοριοποίηση (Classification) Ορισµός: Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές Εποπτευόµενη µάθηση Επόπτευση: Τα δεδοµένα εκπαίδευσης συνοδεύονται από ετικέτες για την κλάση µε την οποία ανήκει το καθένα Τα νέα δεδοµένα κατηγοριοποιούνται µε βάση τη γνώση που µας παρέχουν τα δεδοµένα εκπαίδευσης Αλγόριθµοι στον SQL Server 2005 Decision Trees Naïve Bayes Neural Nets 13 Συσταδοποίηση (Clustering) Ορισµός: Η εύρεση συστάδων για τις οποίες για κάθε εγγραφή που περιλαµβάνουν, η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες Μη εποπτευόµενη µάθηση ε γνωρίζουµε τις κλάση στην οποία ανήκουν τα δεδοµένα εκπαίδευσης Μας δίνεται ένα σύνολο µετρήσεων, παρατηρήσεων κλπ. µε στόχο να ανακαλύψουµε κλάσεις ή οµάδες µέσα στα δεδοµένα Αλγόριθµοι στον SQL Server 2005 Clustering Sequence Clustering 14 7
Το πρόβληµά µας El Nino Περιλαµβάνει δεδοµένα (ωκεανογραφικά, ατµοσφαιρικά) για την κατανόηση του φαινοµένου El Nino. Τα δεδοµένα προέρχονται από σηµαδούρες που είναι τοποθετηµένες στον Ειρηνικό Ωκεανό. 15 Το πρόβληµά µας El Nino Χαρακτηριστικά του dataset: Γνωρίσµατα (Attributes) Κωδικός παρατήρησης (Obs) Ηµεροµηνία παρατήρησης (year, month, day, date) Γεωγραφικό πλάτος (latitude) Γεωγραφικό µήκος (longitude) Παράλληλοι??? άνεµοι (zonal winds) west<0, east>0 Μεσηµβρινοί??? άνεµοι (meridional winds) south<0, north>0 Υγρασία (relative humidity) Θερµοκρασία αέρα (air temperature) Θερµοκρασία στην επιφάνεια της θάλασσας (sea surface temperature) Αρχικά δεδοµένα (data) 178.080 εγγραφές UCI KDD Archive: http://kdd.ics.uci.edu/summary.data.type.html 16 8
Προεπεξεργασία Ελλιπείς τιµές ιαγραφή ελλιπών τιµών Συνεχή γνωρίσµατα ιακριτοποίηση ορισµάτων, δηλ. ορισµός περιοχών τιµών Γνωρίσµατα: άνεµοι, θερµοκρασίες, υγρασία Πως ορίζουµε τις περιοχές? Ο απλούστερος τρόπος: γνωρίζω εκ των προτέρων τις κατηγορίες, π.χ. για τον µισθό, την ηλικία κ.ο.κ. Ένας άλλος τρόπος: οµοιόµορφη κατανοµή εγγραφών σε κάθε περιοχή, δηλαδή προσπαθούµε να φτιάξουµε περιοχές µε παρόµοιο φόρτο όσον αφορά στο πόσες εγγραφές τους αντιστοιχούν. Σε κάθε περίπτωση πρέπει µετά την διακριτοποίηση να αντιστοιχίσουµε τις «πραγµατικές» τιµές των παρατηρήσεων στην διακριτή κατηγορία πού ορίσαµε. 17 Εξόρυξη γνώσης, αλλά πού; Στα σχεσιακά δεδοµένα (+) Πιο ευέλικτο (-) Πιθανότατα απαιτείται διακριτοποίηση τιµών Στον κύβο (+) υνατότητα χρήσης των ιεραρχιών (+) υνατότητα χρήσης πολύπλοκων MDX expressions (-) Μικρή ευελιξία 18 9
Lat, Long διακριτοποίηση Ορισµός 6 κατηγοριών µε βάση το γεωγραφικό µήκος και πλάτος 19 ιακριτοποίηση ανέµων Ορισµός κατηγοριών µε βάση τους ανέµους για τους παράλληλους ανέµους zonal Winds (west<0, east>0) (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία Ορισµός κατηγοριών µε βάση τους µεσηµβρινούς ανέµους meridian Winds (south<0, north>0) (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία 20 10
ιακριτοποίηση θερµοκρασίας 6 κατηγορίες θερµοκρασίας µε βάση τον αριθµό των παρατηρήσεων σε κάθε κατηγορία (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία Οι κατηγορίες αυτές ισχύουν τόσο για την θερµοκρασία αέρα όσο και για την θερµοκρασία στην επιφάνεια της θάλασσας 21 ιακριτοποίηση υγρασίας 5 κατηγορίες υγρασίας µε βάση τον αριθµό των παρατηρήσεων σε κάθε κατηγορία (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία 22 11
Αντιστοίχιση τιµών στις διακριτές τιµές Ενηµερώνουµε τις διακριτές τιµές των γνωρισµάτων των µετρήσεων µε τις τιµές των κατηγοριών των γνωρισµάτων έτσι όπως τις ορίσαµε πριν 23 Η Α (σχεσιακή µορφή) 24 12
Ορισµός κύβου ιαστάσεις (διακριτοποιηµένες τιµές) Ηµεροµηνία Τοποθεσία Θερµοκρασία αέρα Θερµοκρασία στην επιφάνεια της θάλασσας Μεσηµβρινοί άνεµοι Παράλληλοι άνεµοι Υγρασία Πεδία (πάνω στα οποία θα ορίσω µέτρα) Τιµή θερµοκρασίας αέρα Τιµή θερµοκρασίας στην επιφάνεια της θάλασσας Τιµή παράλληλων ανέµων Τιµή µεσηµβρινών ανέµων Υγρασία # µετρήσεων 25 Το µοντέλο του κύβου 26 13
Οι διαστάσεις τα µέτρα του κύβου 27 DM στον SS 2005 (1) Βήµα 1: επιλογή συνόλου δεδοµένων (view σε σχεσιακά δεδοµένα) Βήµα 2: Επιλογή µοντέλων (AR, DT) Πρόβλεψη: Υγρασία Γνωρίσµατα εισόδου: διακριτοποιηµένες τιµές των υπολοίπων γνωρισµάτων 28 14
DM στον SS 2005 (1) Βήµα 3: Επισκόπηση µοντέλων (decision trees) 29 DM στον SS 2005 (1) Βήµα 3: Επισκόπηση µοντέλων (itemsets & association rules) itemsets rules 30 15
DM στον SS 2005 (1) Βήµα 3: Επισκόπηση µοντέλων (dependency network σε association rules) 31 DM στον SS 2005 (1) Βήµα 4: Σύγκριση µοντέλων 32 16
DM στον SS 2005 (2) Βήµα 1: επιλογή συνόλου δεδοµένων (κύβος) Βήµα 2: Επιλογή µοντέλων (Microsoft Clustering) Πρόβλεψη: Ελάχιστη τιµή θερµοκρασίας αέρα Γνωρίσµατα εισόδου: όνοµα ωκεανού και συνεχείς τιµές των υπολοίπων γνωρισµάτων 33 DM στον SS 2005 (2) Βήµα 3: Επισκόπηση του µοντέλου Cluster diagram 34 17
DM στον SS 2005 (2) Βήµα 3: Επισκόπηση του µοντέλου Cluster characteristics 35 DEMOS 36 18
Νέες τάσεις Πρόβληµα Οι σηµερινές BI τεχνικές απευθύνονται σε στρατηγικό και τακτικό επίπεδο λήψης αποφάσεων Επεξεργάζονται ιστορική πληροφορία Οι ανάγκες που παρουσιάζονται σε επιχειρησιακό επίπεδο είναι διαφορετικές Ανάγκη για Real-time γνώση Πρόταση Ενσωµάτωση τεχνολογιών: Business Process Management και Business Intelligence Πιθανή λύση Business Performance Management (BPM) µε κύρια ιδέα: όχι µόνο δεδοµένα αλλά και δείκτες απόδοσης, workflow logs µπορούν να αναλυθούν ώστε να βρεθούν τάσεις και πρότυπα 37 Νέες τάσεις: o Retail-Miner BPM στο λιανεµπόριο Business & Customer Intelligence ιαχείριση επίδοσης επίσης sequence analysis using RFID Indoor positioning systems (IPS) για προσωποποιηµένες, real-time προσφορές 38 19
Ευχαριστώ. Ερωτήσεις? 39 20