Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Σχετικά έγγραφα
Εξόρυξη Γνώσης από εδοµένα (Data Mining)

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Τεχνικές Εξόρυξης Δεδομένων

Εξόρυξη Γνώσης - το εργαλείο WEKA

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Διδάσκοντες: Μαρία Χαλκίδη

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

CYPDIS BI Platform. ών Υπηρεσιών

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

Αποθήκες και Εξόρυξη Δεδομένων

Απαλλακτικές εργασίες στα πλαίσια του µαθήµατος «Αποθήκες εδοµένων & Εξόρυξη Γνώσης» Άνοιξη 2008

Εξόρυξη Γνώσης από Δεδομένα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

Business Development, SAP Hellas 01/12/2007

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Big Data/Business Intelligence

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Η επιστήμη της αστυνομίας σε ψηφιακά περιβάλλοντα. Η περίπτωση του SMF/QlikView

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

and Intelligent Systems Group LPIS Group).

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Οργάνωση Γεωγραφικών. πληροφοριών

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΟΛΟΚΛΗΡΩΜΕΝΟ ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΝΑΥΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΟΠΣ-ΝΕ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

INFORMATION MANAGEMENT

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Εισαγωγή στα Πληροφοριακά Συστήματα

Προτεινόμενες Διπλωματικές Εργασίες 2009

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

Χρονοδιάγραµµα ΙΑΡΚΕΙΑ (µήνες) Ε 1 Ε 2 Ε 3 Ε 4 Ε 5 Ε 6 Ε 7 Ε 8

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Το πρόγραμμα είναι εγκεκριμένο από το Υπουργείο Παιδείας και Θρησκευμάτων, Πολιτισμού και Αθλητισμού (Αρ / Ε5 ΦΕΚ 764/ ) και λειτουργεί

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

Ότι δεν μετριέται, δεν βελτιώνεται. Peter Drucker

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Ανάκτηση Πληροφορίας

Εξόρυξη Δεδομένων Data Mining

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΤΕΧΝΙΚΕΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΕ ΕΡΩΤΗΜΑΤΟΛΟΓΙΑ ΤΑ ΟΠΟΙΑ ΑΞΙΟΛΟΓΟΥΝ ΤΗΝ ΠΟΙΟΤΗΤΑ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ

ΚΑΤΑΛΟΓΟΣ ΕΚΠΑΙΔΕΥΣΗΣ

ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Τι είναι πληροφοριακό σύστημα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Προτεινόμενες Διπλωματικές Εργασίες 2008

Πρόγραμμα Σεμιναρίων Φεβρουαρίου - Ιουλίου

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

«ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ

Οδηγός εφαρµογής τεχνικών Επιχειρηµατικής Ευφυΐας στις Ελληνικές Ακαδηµαϊκές Βιβλιοθήκες

Αναζήτηση Γνώσης σε Βάσεις Δεδομένων

ΜΕΤΕΩΡΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ: ΕΦΑΡΜΟΓΕΣ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΕΠΙΔΡΑΣΗ ΤΗΣ ΔΙΑΜΟΡΦΩΣΗΣ ΤΗΣ ΕΙΣΟΔΟΥ ΣΤΗΝ ΑΠΟΔΟΣΗ ΤΟΥΣ

ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Ανάπτυξη Πληροφοριακών Συστηµάτων Επισκόπηση Π.Σ. & τεχνικές για Ανάλυση και Ανάπτυξη. πληροφοριακών συστηµάτων

UML. Γενικά χαρακτηριστικά Στοιχεία µοντέλων Συσχετίσεις. Παραδείγματα

Ανάλυση και Σχεδιασµός Πληροφοριακών Συστηµάτων

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Διαχείριση Πληροφοριακών Συστημάτων

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Προγράμματα Κατάρτισης από την ITMC A.E.

Transcript:

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική Ευφυΐα Εξόρυξη Γνώσης Case study: EL Nino Εξόρυξη γνώσης στον SS 2005 Demos Νέες τάσεις 2 1

Αλλαγές στον SQL Server 2005 SQL Server Database Engine Ενσωµάτωση του.net Web Services Πλήρης υποστήριξη XML SQL Server Business Intelligence OLAP Data Mining (προσθήκη αλγορίθµων) BI Development (ASSL, AMO, ADOMD.NET) 3 SQL Server 2005 Data Mining 4 2

SQL Server 2005 Data Mining 5 Επιχειρηµατική Ευφυΐα Επιχειρηµατική Ευφυΐα (Business Intelligence) Τεχνολογίες και εφαρµογές για συλλογή, αποθήκευση, ανάλυση και επεξεργασία επιχειρησιακών δεδοµένων µε στόχο την υποστήριξη αποφάσεων Περιλαµβάνει (µεταξύ άλλων): Συστήµατα Υποστήριξης Αποφάσεων Στατιστική Ανάλυση Οπτικοποίηση Αποθήκες δεδοµένων και OLAP Εξόρυξη Γνώσης 6 3

Ανακάλυψη και Εξόρυξη Γνώσης Η ανακάλυψη γνώσης από δεδοµένα (Knowledge Discovery in Data KDD) είναι η µη τετριµµένη διαδικασία εύρεσης έγκυρων, πρωτότυπων, πιθανώς χρήσιµων και οπωσδήποτε κατανοητών προτύπων (patterns) µέσα στα δεδοµένα Η εξόρυξη γνώσης από δεδοµένα (Data Mining) είναι η χρήση αλγορίθµων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται µε τη διαδικασία KDD 7 ιαδικασία ανακάλυψης γνώσης 8 4

Η µεθοδολογία CRISP-DM Κατανόηση της περιοχής (business) Κατανόηση των δεδοµένων Προετοιµασία δεδοµένων Μοντελοποίηση Αξιολόγηση Εγκατάσταση 9 Ρόλοι στην εξόρυξη γνώσης Making Decisions Decision Makers Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 10 5

Εργασίες εξόρυξης γνώσης Κανόνες Συσχέτισης Κατηγοριοποίηση / Πρόβλεψη έντρα απόφασης, νευρωνικά δίκτυα, Bayesian κατηγοριοποίηση Συσταδοποίηση Ιεραρχικοί, διαµεραστικοί, µε βάση την πυκνότητα Yes NO Refund No MarSt Single, Divorced Married TaxInc < 80K > 80K NO NO YES 11 Κανόνες Συσχέτισης (Association rules) Ορισµός: X Y όπου X,Y I και X Y = ø Το X ονοµάζεται LHS (left-hand side) ή antecedent (προηγούµενο) ή head (κεφαλή) του κανόνα Το Y ονοµάζεται RHS (right-hand side) ή consequent (επακόλουθο) ή body (σώµα) του κανόνα Υποστήριξη (support) του AR (s) X Y: το ποσοστό των δοσοληψιών που περιέχουν το X Y ή αλλιώς η πιθανότητα P(X Y) Εµπιστοσύνη (confidence) του AR (α) X Y: η αναλογία του πλήθους των δοσοληψιών που περιέχουν το X Y ως προς το πλήθος των δοσοληψιών που περιέχουν το X. ή αλλιώς, η εξαρτηµένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) Αλγόριθµοι στον SQL Server 2005 Association rules Decision Trees (small catalogs) 12 6

Κατηγοριοποίηση (Classification) Ορισµός: Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές Εποπτευόµενη µάθηση Επόπτευση: Τα δεδοµένα εκπαίδευσης συνοδεύονται από ετικέτες για την κλάση µε την οποία ανήκει το καθένα Τα νέα δεδοµένα κατηγοριοποιούνται µε βάση τη γνώση που µας παρέχουν τα δεδοµένα εκπαίδευσης Αλγόριθµοι στον SQL Server 2005 Decision Trees Naïve Bayes Neural Nets 13 Συσταδοποίηση (Clustering) Ορισµός: Η εύρεση συστάδων για τις οποίες για κάθε εγγραφή που περιλαµβάνουν, η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες Μη εποπτευόµενη µάθηση ε γνωρίζουµε τις κλάση στην οποία ανήκουν τα δεδοµένα εκπαίδευσης Μας δίνεται ένα σύνολο µετρήσεων, παρατηρήσεων κλπ. µε στόχο να ανακαλύψουµε κλάσεις ή οµάδες µέσα στα δεδοµένα Αλγόριθµοι στον SQL Server 2005 Clustering Sequence Clustering 14 7

Το πρόβληµά µας El Nino Περιλαµβάνει δεδοµένα (ωκεανογραφικά, ατµοσφαιρικά) για την κατανόηση του φαινοµένου El Nino. Τα δεδοµένα προέρχονται από σηµαδούρες που είναι τοποθετηµένες στον Ειρηνικό Ωκεανό. 15 Το πρόβληµά µας El Nino Χαρακτηριστικά του dataset: Γνωρίσµατα (Attributes) Κωδικός παρατήρησης (Obs) Ηµεροµηνία παρατήρησης (year, month, day, date) Γεωγραφικό πλάτος (latitude) Γεωγραφικό µήκος (longitude) Παράλληλοι??? άνεµοι (zonal winds) west<0, east>0 Μεσηµβρινοί??? άνεµοι (meridional winds) south<0, north>0 Υγρασία (relative humidity) Θερµοκρασία αέρα (air temperature) Θερµοκρασία στην επιφάνεια της θάλασσας (sea surface temperature) Αρχικά δεδοµένα (data) 178.080 εγγραφές UCI KDD Archive: http://kdd.ics.uci.edu/summary.data.type.html 16 8

Προεπεξεργασία Ελλιπείς τιµές ιαγραφή ελλιπών τιµών Συνεχή γνωρίσµατα ιακριτοποίηση ορισµάτων, δηλ. ορισµός περιοχών τιµών Γνωρίσµατα: άνεµοι, θερµοκρασίες, υγρασία Πως ορίζουµε τις περιοχές? Ο απλούστερος τρόπος: γνωρίζω εκ των προτέρων τις κατηγορίες, π.χ. για τον µισθό, την ηλικία κ.ο.κ. Ένας άλλος τρόπος: οµοιόµορφη κατανοµή εγγραφών σε κάθε περιοχή, δηλαδή προσπαθούµε να φτιάξουµε περιοχές µε παρόµοιο φόρτο όσον αφορά στο πόσες εγγραφές τους αντιστοιχούν. Σε κάθε περίπτωση πρέπει µετά την διακριτοποίηση να αντιστοιχίσουµε τις «πραγµατικές» τιµές των παρατηρήσεων στην διακριτή κατηγορία πού ορίσαµε. 17 Εξόρυξη γνώσης, αλλά πού; Στα σχεσιακά δεδοµένα (+) Πιο ευέλικτο (-) Πιθανότατα απαιτείται διακριτοποίηση τιµών Στον κύβο (+) υνατότητα χρήσης των ιεραρχιών (+) υνατότητα χρήσης πολύπλοκων MDX expressions (-) Μικρή ευελιξία 18 9

Lat, Long διακριτοποίηση Ορισµός 6 κατηγοριών µε βάση το γεωγραφικό µήκος και πλάτος 19 ιακριτοποίηση ανέµων Ορισµός κατηγοριών µε βάση τους ανέµους για τους παράλληλους ανέµους zonal Winds (west<0, east>0) (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία Ορισµός κατηγοριών µε βάση τους µεσηµβρινούς ανέµους meridian Winds (south<0, north>0) (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία 20 10

ιακριτοποίηση θερµοκρασίας 6 κατηγορίες θερµοκρασίας µε βάση τον αριθµό των παρατηρήσεων σε κάθε κατηγορία (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία Οι κατηγορίες αυτές ισχύουν τόσο για την θερµοκρασία αέρα όσο και για την θερµοκρασία στην επιφάνεια της θάλασσας 21 ιακριτοποίηση υγρασίας 5 κατηγορίες υγρασίας µε βάση τον αριθµό των παρατηρήσεων σε κάθε κατηγορία (Περίπου) Ισοµερής κατανοµή παρατηρήσεων σε κάθε κατηγορία 22 11

Αντιστοίχιση τιµών στις διακριτές τιµές Ενηµερώνουµε τις διακριτές τιµές των γνωρισµάτων των µετρήσεων µε τις τιµές των κατηγοριών των γνωρισµάτων έτσι όπως τις ορίσαµε πριν 23 Η Α (σχεσιακή µορφή) 24 12

Ορισµός κύβου ιαστάσεις (διακριτοποιηµένες τιµές) Ηµεροµηνία Τοποθεσία Θερµοκρασία αέρα Θερµοκρασία στην επιφάνεια της θάλασσας Μεσηµβρινοί άνεµοι Παράλληλοι άνεµοι Υγρασία Πεδία (πάνω στα οποία θα ορίσω µέτρα) Τιµή θερµοκρασίας αέρα Τιµή θερµοκρασίας στην επιφάνεια της θάλασσας Τιµή παράλληλων ανέµων Τιµή µεσηµβρινών ανέµων Υγρασία # µετρήσεων 25 Το µοντέλο του κύβου 26 13

Οι διαστάσεις τα µέτρα του κύβου 27 DM στον SS 2005 (1) Βήµα 1: επιλογή συνόλου δεδοµένων (view σε σχεσιακά δεδοµένα) Βήµα 2: Επιλογή µοντέλων (AR, DT) Πρόβλεψη: Υγρασία Γνωρίσµατα εισόδου: διακριτοποιηµένες τιµές των υπολοίπων γνωρισµάτων 28 14

DM στον SS 2005 (1) Βήµα 3: Επισκόπηση µοντέλων (decision trees) 29 DM στον SS 2005 (1) Βήµα 3: Επισκόπηση µοντέλων (itemsets & association rules) itemsets rules 30 15

DM στον SS 2005 (1) Βήµα 3: Επισκόπηση µοντέλων (dependency network σε association rules) 31 DM στον SS 2005 (1) Βήµα 4: Σύγκριση µοντέλων 32 16

DM στον SS 2005 (2) Βήµα 1: επιλογή συνόλου δεδοµένων (κύβος) Βήµα 2: Επιλογή µοντέλων (Microsoft Clustering) Πρόβλεψη: Ελάχιστη τιµή θερµοκρασίας αέρα Γνωρίσµατα εισόδου: όνοµα ωκεανού και συνεχείς τιµές των υπολοίπων γνωρισµάτων 33 DM στον SS 2005 (2) Βήµα 3: Επισκόπηση του µοντέλου Cluster diagram 34 17

DM στον SS 2005 (2) Βήµα 3: Επισκόπηση του µοντέλου Cluster characteristics 35 DEMOS 36 18

Νέες τάσεις Πρόβληµα Οι σηµερινές BI τεχνικές απευθύνονται σε στρατηγικό και τακτικό επίπεδο λήψης αποφάσεων Επεξεργάζονται ιστορική πληροφορία Οι ανάγκες που παρουσιάζονται σε επιχειρησιακό επίπεδο είναι διαφορετικές Ανάγκη για Real-time γνώση Πρόταση Ενσωµάτωση τεχνολογιών: Business Process Management και Business Intelligence Πιθανή λύση Business Performance Management (BPM) µε κύρια ιδέα: όχι µόνο δεδοµένα αλλά και δείκτες απόδοσης, workflow logs µπορούν να αναλυθούν ώστε να βρεθούν τάσεις και πρότυπα 37 Νέες τάσεις: o Retail-Miner BPM στο λιανεµπόριο Business & Customer Intelligence ιαχείριση επίδοσης επίσης sequence analysis using RFID Indoor positioning systems (IPS) για προσωποποιηµένες, real-time προσφορές 38 19

Ευχαριστώ. Ερωτήσεις? 39 20