Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Σχετικά έγγραφα
Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Διδάσκοντες: Μαρία Χαλκίδη

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Άμεση Αναλυτική Επεξεργασία (OLAP)

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Ανάκτηση Πληροφορίας. Φροντιστήριο 4

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Business Development, SAP Hellas 01/12/2007

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Άμεση Αναλυτική Επεξεργασία (OLAP)

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Εξόρυξη Δεδομένων Data Mining

Big Data/Business Intelligence

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Προεπεξεργασία εδοµένων

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

14Ιαν Νοε

Πληροφοριακά Συστήματα Διοίκησης

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πληροφοριακά Συστήματα Διοίκησης

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

Εξόρυξη Γνώσης από εδοµένα (data mining)

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πληροφοριακά Συστήματα Διοίκησης

Τεχνικές Εξόρυξης Δεδομένων

Εισαγωγή στις Αποθήκες εδομένων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Εµβάθυνση στις έννοιες: Ανάλυση, β) Εξαγωγή Αναφορών (Enterprise Reporting & Online Analytical Processing / OLAP). Παραδείγµατα.

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Information Technology for Business

Advanced Analytics Software Training.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Ευφυή Συστήματα και Εξόρυξη Δεδομένων. Προεπεξεργασία Δεδομένων

Τι είναι πληροφοριακό σύστημα

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

Ανάκτηση Πληροφορίας

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Data Cube. Μ.Χατζόπουλος 1

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Συνεργατική Λήψη Αποφάσεων. Υποστήριξη στη Συνεργατική. Αποφάσεων. ιάρθρωση ενότητας. Η προτεινόµενη προσέγγιση. γνώσης και επιχειρηµατολογίας

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

Πληροφοριακά Συστήµατα

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας

Το εσωτερικό ενός Σ Β

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Διακριτικές Συναρτήσεις

Αναλυτικές λειτουργίες ΣΓΠ

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

Εισαγωγή στις Αποθήκες εδομένων

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Εισαγωγή στα Πληροφοριακά Συστήματα

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Business Intelligence Tools Avecon, data mining techniques online analytical processing OLAP Avecon Εξοικονόμηση κόστους: DataMATRIX3

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Ανάπτυξη Πληροφοριακών Συστηµάτων Επισκόπηση Π.Σ. & τεχνικές για Ανάλυση και Ανάπτυξη. πληροφοριακών συστηµάτων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

Συστήματα Πληροφοριών Διοίκησης

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Οδηγός εφαρµογής τεχνικών Επιχειρηµατικής Ευφυΐας στις Ελληνικές Ακαδηµαϊκές Βιβλιοθήκες

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

Ένα σύνολο αλληλοσχετιζόμενων συστημάτων που συλλέγουν, επεξεργάζονται, αποθηκεύουν και διανέμουν πληροφορίες

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Transcript:

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db version: 2007-06-05 πληµµύρα από δεδοµένα Παράγονται όλο και περισσότερα δεδοµένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστηµονικά δεδοµένα: αστρονοµικά, βιολογικά κλπ. Κείµενα στο web κ.α. Αποθηκεύονται όλο και περισσότερα δεδοµένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά Σ Β για µεγάλες Β 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 1

Παραδείγµατα Το ευρωπαϊκό Very Long Baseline Interferometry (VLBI) διαθέτει 16 τηλεσκόπια, καθένα από τα οποία παράγει 1 Gigabit/second αστρονοµικά δεδοµένα σε συνόδους παρατήρησης των 25 ηµερών η αποθήκευση και ανάλυση τέτοιου όγκου δεδοµένων είναι πρόβληµα Ο τηλεπικοινωνιακός κολοσός AT&T χειρίζεται δισεκατοµµύρια κλήσεις / µέρα τόσο µεγάλος είναι ο όγκος των δεδοµένων που αυτά δεν αποθηκεύονται η ανάλυση γίνεται «στον αέρα» (on the fly) Η Β της επιχείρησης λιανεµπορίου Wal-Mart είναι της τάξης των 24 Tbytes Το UC Berkeley έκανε την εκτίµηση ότι µέσα στο 2002 παρήχθησαν 5 Exa-bytes (5 εκατοµµύρια TBytes) δεδοµένων!!! 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Τάσεις ανάπτυξης Ονόµος του Moore Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 µήνες Ο νόµος της αποθήκευσης Τα δεδοµένα που αποθηκεύονται διπλασιάζονται κάθε 9 µήνες Κατά συνέπεια... πολύ λίγα από αυτά τα δεδοµένα µπορεί να κοιτάξει (και να αναλύσει) οάνθρωπος processing storage 1987 1990 1993 1996 1999 2002 2005 2008 2011 2014 Άρα χρειάζεται η ανακάλυψη γνώσης µέσα από τα δεδοµένα (Knowledge Discovery in Data - KDD) για να δώσει νόηµα και χρήση στα δεδοµένα 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 2

Περιεχόµενα Εισαγωγή στη διαδικασία «Ανακάλυψης Γνώσης από εδοµένα» Ορισµός, βασικέςτεχνικέςεξόρυξηςγνώσης(data mining) Αποθήκες δεδοµένων Κύβοι, λειτουργίες πολυδιάστατης ανάλυσης δεδοµένων (OLAP) Η διαδικασία της προπαρασκευής δεδοµένων Καθαρισµός, µετασχηµατισµός, µείωση δεδοµένων 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περιεχόµενα Εισαγωγή στη διαδικασία «Ανακάλυψης Γνώσης από εδοµένα» Ορισµός, βασικέςτεχνικέςεξόρυξηςγνώσης(data mining) Αποθήκες δεδοµένων Κύβοι, λειτουργίες πολυδιάστατης ανάλυσης δεδοµένων (OLAP) Η διαδικασία της προπαρασκευής δεδοµένων Καθαρισµός, µετασχηµατισµός, µείωση δεδοµένων 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 3

Ορισµός της διαδικασίας KDD Η ανακάλυψη γνώσης από δεδοµένα (Knowledge Discovery in Data KDD) είναι η µη τετριµµένη διαδικασία εύρεσης έγκυρων, πρωτότυπων, πιθανώς χρήσιµων και οπωσδήποτε κατανοητών προτύπων (patterns) µέσα στα δεδοµένα. Τι δεν είναι data mining επεξεργασία ερωτήσεων βάσεων δεδοµένων χρήση προγρµµάτων µηχανικής µάθησης ή στατιστικής Εναλλακτικές µεταφράσεις του όρου data mining: «εξόρυξη δεδοµένων» «εξόρυξη γνώσης από δεδοµένα» «όρυξη δεδοµένων» 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχετικά επιστηµονικά πεδία Τεχνητή Νοηµοσύνη (Μηχανική Μάθηση) Οπτικοποίηση Πληροφορίας Ανακάλυψη Γνώσης από εδοµένα (KDD) Στατιστική Βάσεις εδοµένων 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 4

ιαδικασία ανακάλυψης γνώσης Ολοκλήρωση Ερµηνεία & Αξιολόγηση Knowledge Πρωτογενή δεδοµένα Επιλογή & καθαρισµός Αποθήκη εδοµένων (data warehouse) Μετασχηµατισµός Εξόρυξη Γνώσης (Data Mining Μετ/να εδοµένα δεδοµένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Γνώση Κατανόηση 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εξόρυξη γνώσης από δεδοµένα Data mining (ένας ευρύς ορισµός): Η διαδικασία ηµιαυτόµατης ανάλυσης µεγάλων Β µε στόχο την εύρεση χρήσιµης πληροφορίας «γνώσης» π.χ.: «καλύτεροι πελάτες είναι αυτοί µε σπουδέςµεταπτυχιακού επιπέδου (ανεξαρτήτως ύψους εισοδήµατος) ή αυτοίµε υψηλά εισοδήµατα (ανεξαρτήτως επιπέδου σπουδών) Παράδειγµα αναπαράστασης: δέντρο απόφασης (decision tree) Πώς θα προκύψει ένα τέτοιο πρότυπο (pattern) από µια µεγάλη Β ; 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 5

Παράδειγµα Decision Tree 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εφαρµογές Data Mining Market analysis and management target marketing, customer relation management, market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection and management αλλά και... Intelligent query answering Text / Web mining (news group, email, documents) 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 6

Τι δεδοµένα αναλύουµε table data - fixed # of columns time series text - free-form transactions (association rules) anonymized data spatial data (2D 3-D) email web clickstream links or networks images / video XML data web content music / audio 34.0% 33.0% 28.3% 25.5% 14.2% 10.4% 8.5% 8.5% 7.5% 6.6% 5.7% 4.7% 70.8% Source: www.kdnuggets.com (Jul. 2006) 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Βήµατα εξόρυξης γνώσης µεθοδολογία CRISP-DM Business understanding Data understanding Data preparation Modeling Evaluation Deployment 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 7

Τεχνικές DM Supervised learning (Classification / Prediction) Decision Trees, Neural Nets, Bayesian classification Unsupervised learning (Clustering) Hierarchical, partitional, density-based Association rule mining κ.α. Refund Yes No MarSt NO Single, Divorced TaxInc < 80K > 80K YES NO Married NO 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση (Classification) Ταξινόµηση, Πρόβλεψη Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές Προσεγγίσεις: στατιστικές µέθοδοι δένδρα αποφάσεων νευρωνικά δίκτυα... 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 8

Κατηγοριοποίηση (Classification) έντρα Αποφάσεων (decision trees) Y 3 if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue 2 5 X 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Συσταδοποίηση (Clustering) Οµαδοποίηση Εύρεση µιας φυσικής οµαδοποίησης των δεδοµένων, χωρίς προκαθορισµό τωνοµάδων C 1 C 2 C 3 C 4 Οµαδοποίηση βάσει απόστασης (Εκλείδειας ή άλλης) στατιστικής κατανοµής... 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 9

Εξόρυξη κανόνων συσχετίσεων Εύρεση ταυτόχρονων εµφανίσεων δεδοµένων (άρα, πιθανήςσυσχέτισηςήεξάρτησης) µέσα σε ένα «καλάθι» δεδοµένων 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση χρονολογικών σειρών Μπορούµε ναβρούµε τάσεις(κύκλους, εποχιακές συµπεριφορές) και να κάνουµε εκτίµηση µελλοντικών τιµών 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 10

Οι πιο δηµοφιλείς τεχνικές DM Decision Trees/Rules Regression Clustering Statistics (descriptive) Visualization Association rules Sequence / Time series analysis Neural Nets SVM Bayesian 62.6% 51.2% 50.2% 46.3% 32.5% 26.1% 17.2% 17.2% 15.8% 15.8% Source: www.kdnuggets.com (Mar. 2007) 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης "Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Making Decisions Managing Director Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 11

Case Study -1 απευθείας προώθηση προϊόντων & CRM Οι εταιρείες που κάνουν απευθείας προώθηση προϊόντων (direct marketing) χρησιµοποιούν µοντέλα και τεχνικές εξόρυξης γνώσης Η µοντελοποίηση είναι πιο εφικτή από την αλλαγή συµπεριφοράς του πελάτη Πετυχηµένη ιστορία (success story) Ο τηλεπικοινωνιακός παροχέας Verizon Wireless µείωσε τη «διαρροή πελατών» (churn) από 2% σε 1.5% 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Case Study -2 Ασφάλεια και ανίχνευση απάτης Ανίχνευση απάτης (Fraud Detection) σε αγορές µε πιστωτικές κάρτες Ξέπλυµα χρήµατος Απάτη στην τηλεφωνία AT&T, Bell Atlantic, British Telecom/MCI Καταπολέµηση τροµοκρατίας... 24 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 12

Data Mining και ιδιωτικό απόρρητο TIA: Terrorism (πρώην Total) Information Awareness Program Επιστηµονικό πρόγραµµα χρηµατοδοτούµενο από το Υπουργείο Άµυνας των ΗΠΑ διακόπηκε από το Κογκρέσο µερικές από τις λειτουργίες του µεταφέρθηκαν στις υπηρεσίες πληροφοριών CAPPS II φωτογράφηση όλων των επιβατών των αεροµεταφορών έχει προκαλέσει αντιδράσεις (από επιβάτες, εταιρείες, κυβερνήσεις) Οι τεχνικές Data Mining αναζητούν πρότυπα, όχι ανθρώπους! Υπάρχουν τεχνικές λύσεις που µπορούν να περιορίσουν την πρόσβαση σε προσωπικά δεδοµένα Αντικατάσταση ευαίσθητων δεδοµένων µε ανώνυµους κωδικούς (data anonymization) Κατανεµηµένα δεδοµένα κατανεµηµένος υπολογισµός (distributed data mining) 25 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ερευνητικά προβλήµατα... Scaling up for huge data 41% Mining text 29% Automating data cleaning 27% Dealing with cost-sensitive data 26% Mining data streams 18% Mining links and networks 17% Unified theory of DM 16% DM for biological problems 14% DM with privacy 8.9% Mining images 7.1% DM for security applications 5.4% Distributed (multi-agent) DM 3.6% Source: www.kdnuggets.com (Nov. 2005) 26 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 13

Περιεχόµενα Εισαγωγή στη διαδικασία «Ανακάλυψης Γνώσης από εδοµένα» Ορισµός, βασικέςτεχνικέςεξόρυξηςγνώσης(data mining) Αποθήκες δεδοµένων Κύβοι, λειτουργίες πολυδιάστατης ανάλυσης δεδοµένων (OLAP) Η διαδικασία της προπαρασκευής δεδοµένων Καθαρισµός, µετασχηµατισµός, µείωση δεδοµένων 27 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης "Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 28 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 14

Μεθοδολογία OLAP βήµατα αναλυτικής διαδικασίας: από την αναζήτηση και µεταφορά των δεδοµένων έως την τελική διάθεση των αποτελεσµάτων της ανάλυσης Source: SPSS 29 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αποθήκες εδοµένων Ορισµός (κατά W. Inmon): Οι Αποθήκες εδοµένων (data warehouses) αποτελούν day ID day month quarter year salesman ID dept dept desc div div desc day ID product ID salesman ID location ID quantity turnover product ID description type type description location ID zip code state city θεµατο-κεντρικά (subject-oriented), συγκεντρωµένα (integrated), µε χρονική διάσταση (time-variable), µη ευµετάβλητα (non-volatile) συστήµατα διαχείρισης πληροφοριακών δεδοµένων για την υποστήριξη των διαδικασιών λήψης αποφάσεων Πληροφοριακά δεδοµένα: υποστηρίζουν άλλες (πέρα των καθηµερινών) λειτουργίες της επιχείρησης, όπως σχεδιασµό και πρόβλεψη. 30 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 15

Περισσότερα για τον ορισµό τωνα Θεµατο-κεντρικά: Οργανώνονται γύρω από συγκεκριµένα θέµατα, όπως πελάτες, προϊόντα, πωλήσεις. εν συµπεριλαµβάνουν πλευρές (δεδοµένα) των θεµάτων που δεν συνεισφέρουν στη διαδικασία λήψης αποφάσεων Συγκεντρωµένα:... Κατασκευάζονται µε συγκέντρωση πολλαπλών, πιθανώς ετερογενών πηγών δεδοµένων (σχεσιακές Β, αρχεία κ.α.) Εφαρµόζονται τεχνικές καθαρισµού και ολοκλήρωσης δεδοµένων (για την εξασφάλιση συνέπειας) 31 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περισσότερα για τον ορισµό τωνα Με χρονική διάσταση: Ο χρονικός ορίζοντας στις Α είναι ευρύτερος αυτού των Β (ιστορική πληροφορία π.χ. γιατατελευταία5-10 έτη) Η έννοια του χρόνου είναι αναπόσπαστο τµήµα µιας Α Μη ευµετάβλητα: Οι Α αποθηκεύονται ξεχωριστά από τις (επιχειρησιακές) Β. εν υπάρχει η έννοια της τροποποίησης δεδοµένων (άρα δεν υπάρχουν θέµατα επεξεργασίας συναλλαγών, ανάνηψης, ελέγχου συνδροµικότητας). Υπάρχει µόνο η λειτουργία φόρτωσης δεδοµένων είτε πλήρως (full loading) είτε αυξητικά (incremental loading) 32 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 16

Αρχιτεκτονική Α other sources Metadata Monitor & Integrator OLAP Server Operational DBs Extract Transform Load Refresh Data Warehouse Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 33 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Από τους πίνακες στους κύβους Product Ο κύβος δεδοµένων κρατά συνοπτικές πληροφορίες για κάποιο τµήµα της εµπλεκόµενης πληροφορίας day ID day month quarter year day ID product ID location ID Έστω το σχήµα Β : day (day_id, day, month, quarter, year) product (product_id, description, type, type_description) location (location_id, zip code, state, city) sales (day_id, product_id, location_id, units_sold, price) Day Sales (fact table) quantity turnover product ID description type type description Location location ID zip code state city ηεντολήsql που τροφοδοτεί τον κεντρικό πίνακα (fact table) της Α είναι: SELECT s.day_id, s.product_id, s.location_id, sum(s.units_sold) AS quantity, sum(s.units_sold * s.price) AS turnover FROM day d, product p, location l, sales s WHERE s.day_id = d.day_id and s.product_id = p.product_id and s.location_id = l.location_id GROUP BY s.day_id, s.product_id, s.location_id 34 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 17

Πολυδιάστατο µοντέλο δεδοµένων Το πολυδιάστατο µοντέλο δεδοµένων απεικονίζει τα δεδοµένα σε µορφή κύβου Ένας κύβος δεδοµένων επιτρέπει τη µοντελοποίηση και θεώρηση των δεδοµένων σε πολλαπλές διαστάσεις. Το σχήµα αποτελείται από: Πίνακες διαστάσεων (dimension tables) µε πληροφορία για τις διαστάσεις του κύβου Πίνακες γεγονότων (fact tables) µε µέτρα και κλειδιά προς τους σχετιζόµενους πίνακες διαστάσεων 35 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Όψη κύβου δεδοµένων Product all 123 150 200 Πωλήσεις (µέση τιµή, πωληθείσαποσότητακοκ.) Date προϊόντος 123 στο Dallas την 3/1/05 2005-01-01 2005-01-02 2005-01-03... all Dallas Houston Seattle Location all 36 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 18

Λογικό Σχήµα Α Μοντελοποίηση Α : µέτρα και διαστάσεις Σχήµα αστέρα(star schema): ένας πίνακας γεγονότων στο κέντρο που περιβάλλεται από πίνακες διαστάσεων Σχήµα χιονονιφάδας(snowflake schema): βελτίωση του σχήµατος αστέρα, µεκάποιαδιάστασηναείναικανονικοποιηµένη σε σύνολο µικρότερων πινάκων διαστάσεων Αστερισµοί γεγονότων (fact constellations): περισσότεροι του ενός πίνακες γεγονότων που µοιράζονται από κοινού πίνακες διαστάσεων µπορεί να θεωρηθεί και ως συλλογή σχηµάτων αστέρων γι αυτό και εναλλακτικά ονοµάζεται σχήµα γαλαξία. 37 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχήµα αστέρα Product Day day ID day month quarter year Sales (fact table) day ID product ID location ID quantity turnover product ID description type type description Location location ID zip code state city 38 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 19

Σχήµα χιονονιφάδας Day day ID day month quarter year Sales (fact table) day ID product ID location ID quantity turnover Product product ID description type Location location ID zip code Product Types type type description Zip codes zip code state city 39 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αστερισµός γεγονότων Sales (fact table) day ID product ID location ID quantity Shipping (fact table) Product product ID description type Day day ID day month quarter year turnover Location location ID zip code day ID product ID shipper ID from-location to-location shipping-cost units-shipped Shipper shipper ID name type 40 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 20

123 00-1 150 200 sum Date 00-2 00-3 00-4 sum Dallas Houston Seattle Βασικές λειτουργίες OLAP: Location Αναλυτική επεξεργασία δεδοµένων (Online Analytical Processing OLAP): παρέχει πιο πολύπλοκες ερωτήσεις απ ότι η επεξεργασία συναλλαγών (OLTP). Pr od uc t Αναλυτική επεξεργασία δεδοµένων sum Συσσώρευση (roll-up) Ένα κελί Εµβάθυνση (drill-down) Πολλά κελιά Τεµαχισµός (slice) Κοµµάτιασµα (dice) 41 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κοµµάτιασµα (dice): εξέταση υποκύβου µε επιλογή δύο ή περισσοτέρων διαστάσεων. 123 00-1 150 200 sum Date 00-2 00-3 00-4 sum Dallas Houston Seattle Location Τεµαχισµός (slice): εξέταση υποκύβου µε επιλογή µίας διάστασης. Pr od uc t Βασικές λειτουργίες OLAP sum Συσσώρευση (roll-up): πιο γενική διάσταση (άνοδος στην ιεραρχία) Εµβάθυνση (drill-down): πιο λεπτοµερής διάσταση (κάθοδος στην ιεραρχία) 42 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 21

Αρχιτεκτονικές OLAP Servers Relational OLAP (ROLAP) ένα σχεσιακό DBMS αποθεκεύει και διαχειρίζεται τα δεδοµένα του warehouse ένα OLAP middle ware υποστηρίζει τις λειτουργίες OLAP εκµεταλλεύεται τις δυνατότητες του DBMS (βελτιστοποίηση κλπ.) κλιµακώνεται καλά Multidimensional OLAP (MOLAP) µηχανή αποθήκευσης πολυδιάστατων δεδοµένων βαζισµένη σε arrays (τεχνικές αραιών µητρών - sparse matrix techniques) γρήγορη δεικτοδότηση πάνω στις (προ-υπολογισµένες) συνόψεις Hybrid OLAP (HOLAP) ευέλικτο σχήµα, σχεσιακό στο χαµηλό επίπεδο και πίνακες στο υψηλό επίπεδο 43 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Η ανάγκη για συντήρηση Α... ξεχωριστής από τη Β Θέµατα επίδοσης των δύο συστηµάτων Σ Β ρυθµισµένο να έχει καλές επιδόσεις σε OLTP: µέθοδοι προσπέλασης, ευρετήρια, έλεγχος συνδροµικότητας, ανάνηψη Α ρυθµισµένη να έχει καλές επιδόσεις σε OLAP: σύνθετες λειτουργίες OLAP, πολυδιάστατη θεώρηση δεδοµένων. ιαφορετικές λειτουργίες πάνω σε διαφορετικά δεδοµένα: Ιστορικά δεδοµένα: Οι αποφάσεις των στελεχών εµπλέκουν δεδοµένα του παρελθόντος, οι Β συντηρούν δεδοµένα του παρόντος Συγκέντρωση δεδοµένων: Οι Α απαιτούν συγκεντρωτικά πληροφορία (συναθροίσεις, συνόψεις) από δεδοµένα που προέρχονται από ετερογενείς πηγές Β 44 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 22

Εργασία Κατεβάστε από το site του µαθήµατος και διαβάστε τις εργασίες S. Chaudhuri et al.: Database technology for decision support systems. IEEE Computer, Dec. 2001, pp. 48-55. R. J. Brachman et al.: Mining business databases. Communications of the ACM, Nov. 1996, pp. 42-48. Γράψτε σε 2-3 σελίδες τις ιδέες σας πάνω στα εξής: 1. Τόσο τα συστήµατα OLAP / Data Warehousing όσο και τα εργαλεία Data Mining κάνουν ανάλυση των δεδοµένων µιας επιχείρησης ή οργανισµού. Όµως a. Ποιες οι βασικές διαφορές τους; b. Τι µπορεί να κάνει το ένα που δεν µπορεί να κάνει το άλλο; 2. Ποια από τα ζητήµατα µε τα οποία καταπιάνεται η εργασία σας τράβηξαν περισσότερο το ενδιαφέρον και γιατί; (2-3 ζητήµατα το πολύ) Παράδοση: σε 2 εβδοµάδες από σήµερα 45 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περιεχόµενα Εισαγωγή στη διαδικασία «Ανακάλυψης Γνώσης από εδοµένα» Ορισµός, βασικέςτεχνικέςεξόρυξηςγνώσης(data mining) Αποθήκες δεδοµένων Κύβοι, λειτουργίες πολυδιάστατης ανάλυσης δεδοµένων (OLAP) Η διαδικασία της προπαρασκευής δεδοµένων Καθαρισµός, µετασχηµατισµός, µείωση δεδοµένων 46 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 23

Προπαρασκευή δεδοµένων... Γιατί? Τα δεδοµένα στον πραγµατικό κόσµο είναι«βρώµικα» ελλιπή: έλλειψη τιµών χαρακτηριστικών, έλλειψη ενδιαφερόντων χαρακτηριστικών, µόνο αθροιστικά δεδοµένα λανθασµένα: που περιέχουν λάθη ή outliers ασυνεπή: που περιέχουν ασυµφωνίες σε κωδικούς και ονόµατα Κακή ποιότητα στα δεδοµένα κακή ποιότητα στην εξόρυξη γνώσης! Ποιοτικές αποφάσεις πρέπει να βασίζονται σε ποιοτικά δεδοµένα Οι Α χρειάζονται συνεπή ολοκλήρωση ποιοτικών δεδοµένων 47 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εργασίες Προπαρασκευής εδοµένων Καθαρισµός δεδοµένων Συµπλήρωση ελλιπών τιµών, εντοπισµός θορύβου, επίλυση ασυνεπειών Μετασχηµατισµός δεδοµένων Εξοµάλυνση, κανονικοποίηση τιµών Μείωση δεδοµένων Μείωση διαστάσεων (χαρακτηριστικών), µείωση πλήθους δεδοµένων ιακριτοποίηση δεδοµένων Από συνεχείς σε διακριτές τιµές ή διαστήµατα τιµών 48 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 24

Ελλιπή δεδοµένα Τα δεδοµένα µπορεί να µην είναι πάντοτε διαθέσιµα Π.χ., πολλέςεγγραφέςδενέχουντιµή για αρκετά χαρακτηριστικά, όπως το εισόδηµα ενόςπελάτη Ελλιπή δεδοµένα µπορεί να υπάρχουν για διάφορους λόγους: Μηχανική βλάβη ιαγραφή λόγω ασυνέπειας µε άλλα καταγεγραµµένα δεδοµένα Καθόλου εισαγωγή λόγω διαφωνίας ή επειδή θεωρήθηκαν ασήµαντα Συχνάχρειάζεταινασυµπεράνουµε τα ελλιπή δεδοµένα 49 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πώς διαχειριζόµαστε ελλιπή δεδοµένα Αγνοούµε την εγγραφή συνήθως όταν λείπει η κλάση (αν υποθέσουµε ότι κάνουµε κατηγοριοποίηση - αναποτελεσµατική όταν το ποσοστό των τιµών που λείπουν ανά χαρακτηριστικό ποικίλει αρκετά) Συµπληρώνουµε την τιµή χειρωνακτικά Κουραστικό µη πρακτικό! Χρήση µίας γενικής σταθεράς για να συµπληρώσουµε την τιµή π.χ., άγνωστο Χρήση της µέσης τιµής του χαρακτηριστικού Χρήση της µέσης τιµής του χαρακτηριστικού για όλα τα δείγµατα που ανήκουνστηνίδιακλάση: εξυπνότερο! Χρήση της πιο «πιθανής» τιµής: εξαγωγή συµπεράσµατος µέσω Bayesian formula ή δένδρων απόφασης 50 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 25

Λανθασµένα δεδοµένα ( θόρυβος ) Θόρυβος: τυχαίο λάθος ή απόκλιση από µία µετρηµένη µεταβλητή Λανθασµένες τιµές χαρακτηριστικών µπορεί να οφείλονται σε Ελαττωµατικά όργανα συλλογής δεδοµένων Προβλήµατα κατά την εισαγωγή Προβλήµατα κατά τη µετάδοση των δεδοµένων Τεχνολογικοί περιορισµοί Ασυνέπεια στην συµφωνηµένη ονοµατολογία Άλλα προβλήµατα δεδοµένων που απαιτούν καθαρισµό ιπλές εγγραφές Ατελή δεδοµένα Ασυνεπή δεδοµένα 51 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πώς διαχειριζόµαστε λανθασµένα δεδοµένα Συσταδοποίηση (clustering) Ανακάλυψη και αφαίρεση των «µη φυσιολογικών» δεδοµένων (outliers) Παλινδρόµηση (regression) Εξοµάλυνση µέσω προσαρµογής των δεδοµένων σε συναρτήσεις παλινδρόµησης... και άλλες: Μέθοδος τοποθέτησης σε κουτιά bins (Binning method) Συνδυασµένη επιθεώρηση από υπολογιστή και άνθρωπο... 52 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 26

Ανάλυση συστάδων και εντοπισµός outliers Με συσταδοποίηση (µε χρήση ειδικών τεχνικών), οµαδοποιούµε τα δεδοµένα ανακαλύπτοντας ταυτόχρονα και outliers 53 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παλινδρόµηση Ψάχνουµε την πιο αντιπροσωπευτική συνάρτηση για τα δεδοµένα µας Γραµµική Παλινδρόµηση Y = α + β X Τα δεδοµένα µοντελοποιούνται ώστε να ανήκουν σε ευθεία γραµµή Αναζητούµε δύοπαραµέτρους, α και β X 1 Π.χ. µε τηµέθοδο των ελάχιστων τετραγώνων (least squares) Τα outliers είναι αυτά που απέχουν «πολύ» από την τιµή που προκύπτει από τη συνάρτηση παλινδρόµησης Y 1 Y 1 y y = x + 1 x 54 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 27

Μετασχηµατισµός δεδοµένων Εξοµάλυνση: αφαίρεση θορύβου από δεδοµένα Κανονικοποίηση: κλιµάκωση σε ένα µικρότερο, καθορισµένο εύρος τιµών min-max κανονικοποίηση z-score κανονικοποίηση κανονικοποίηση µε δεκαδική κλιµάκωση Κατασκευή χαρακτηριστικών Νέα χαρακτηριστικά δηµιουργούνται από τα ήδη υπάρχοντα 55 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανονικοποίηση δεδοµένων min-max κανονικοποίηση v mina v ' = ( new_ maxa new_ mina) + new_ min maxa mina A z-score κανονικοποίηση v ' = v mean std Dev A A κανονικοποίηση µε δεκαδικήκλιµάκωση στο (-1.. +1) v v'= όπου j ο µικρότερος ακέραιος για τον οποίο max( v' )<1 j 10 56 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 28

Στρατηγικές Μείωσης δεδοµένων Οι Α αποθηκεύουν terabytes δεδοµένων: Πολύπλοκη ανάλυση δεδοµένων µπορεί να διαρκέσει πολύ χρόνο για όλο τον όγκο των δεδοµένων Μείωση δεδοµένων Με είσοδο µία µειωµένη αναπαράσταση του συνόλου δεδοµένων πολύ µικρότερη σε όγκο παράγονται τα ίδια (ή σχεδόν τα ίδια) αναλυτικά αποτελέσµατα Στρατηγικές µείωσης Μείωση διαστάσεων (χαρακτηριστικών) Μείωση πλήθους δεδοµένων κ.α. 57 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Μείωση διαστάσεων Επιλογή χαρακτηριστικών (π.χ., επιλογή υποσυνόλου χαρακτηριστικών): Επιλογή ελάχιστου συνόλου χαρακτηριστικών τέτοια ώστε η κατανοµή πιθανότητας των διαφορετικών κλάσεων δεδοµένων των τιµών για αυτά τα χαρακτηριστικά είναι το δυνατόν εγγύτερα στην αρχική κατανοµή δοσµένων των τιµών όλων των χαρακτηριστικών Ευριστικές µέθοδοι: Επαγωγή µε δένδρα απόφασης(decision-tree induction) Ανάλυση κυρίων συνιστωσών (principal components analysis PCA) 58 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 29

Παράδειγµα επαγωγής µε Α Αρχικό σύνολο χαρακτηριστικών: {A1, A2, A3, A4, A5, A6} A4? A1? A6? Class 1 Class 2 Class 1 Class 2 Τα χαρακτηριστικά Α2, Α3, Α5 δεν εµπλέκονται στο Α, άρα απαλείφονται Μειωµένοσύνολοχαρακτηριστικών: {A1, A4, A6} 59 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Μείωση πλήθους δεδοµένων Παραµετρικές µέθοδοι Υποθέτουµε ότι τα δεδοµένα ακολουθούν κάποιο µοντέλο, υπολογίζουµε τιςπαραµέτρους του µοντέλου, αποθηκεύουµε µόνο τις παραµέτρους, και αποβάλλουµε τα δεδοµένα (εκτός πιθανών outliers) Μη-παραµετρικές µέθοδοι εν υποθέτουν µοντέλα Βασικές τεχνικές: ιστογράµµατα, συσταδοποίηση, δειγµατοληψία 60 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 30

Ιστογράµµατα Μία δηµοφιλής τεχνική µείωσης δεδοµένων ιαµερισµός των δεδοµένων σε «κάδους» και αποθήκευση µέσου όρου κάθε «κάδου» 40 35 30 25 20 15 10 5 0 10000 30000 50000 70000 90000 61 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης ειγµατοληψία Επιλογή ενός αντιπροσωπευτικού υποσυνόλου των δεδοµένων Ηαπλήτυχαίαδειγµατοληψία µπορεί να έχει χαµηλή απόδοση µετην παρουσία ασύµµετρων δεδοµένων ιαστρωµατωµένη δειγµατοληψία: Προσέγγιση του ποσοστού κάθε κλάσης (ή υπο-πληθυσµού ενδιαφέροντος) σε όλητηβ Αρχικά δεδοµένα ιαστρωµατωµένο δείγµα 62 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 31

ιακριτοποίηση Τρεις τύποι χαρακτηριστικών: Ονοµαστικά (nominal)-τιµές από µη διατεταγµένο σύνολο χρώµα, όνοµα,... ιατεταγµένα (Ordinal) - τιµές από διατεταγµένο σύνολο βαθµολογία (Α Β Γ), ικανοποίηση (υψηλή µέτρια χαµηλή),... Συνεχή (Continuous) πραγµατικοί αριθµοί βάρος, ύψος, µισθός, ηλικία,... ιακριτοποίηση : ιαχωρισµός του εύρους τιµών συνεχών χαρακτηριστικών σε διαστήµατα Γιατί; µείωση χώρου δεδοµένων, προετοιµασία για περαιτέρω ανάλυση 63 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης ιακριτοποίηση για αριθµητικά δεδοµένα Χρησιµοποιούνται µέθοδοι που έχουµε ήδηµελετήσει Binning Ιστογράµµατα Συσταδοποίηση... αλλά και άλλες µέθοδοι ιακριτοποίηση βασισµένη στην εντροπία Κατάτµηση µε φυσικό διαµερισµό 64 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 32

Σύνοψη ενότητας Η διαδικασία Ανακάλυψης Γνώσης από τα εδοµένα (KDD) αποτελεί ισχυρό εργαλείο στη στρατηγική των οργανισµών και τη λήψη αποφάσεων Οι βασικοί µηχανισµοί KDD είναι: ηπολυδιάστατηανάλυσηδεδοµένων (OLAP) πάνω σε κύβους όψεις Αποθήκων εδοµένων και η εξόρυξη γνώσης από δεδοµένα (data mining) Ανάλυση συστάδων, κατηγοριοποίηση, ανακάλυψη συσχετίσεων κλπ. Βασικό προαπαιτούµενο της διαδικασίας KDD αποτελεί η προπαρασκευή δεδοµένων Καθαρισµός, µετασχηµατισµός, µείωση και διακριτοποίηση δεδοµένων 65 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 33