Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή



Σχετικά έγγραφα
ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Ανάκτηση Πληροφορίας. Φροντιστήριο 4

Διδάσκοντες: Μαρία Χαλκίδη

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Big Data/Business Intelligence

Business Development, SAP Hellas 01/12/2007

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Εξόρυξη Δεδομένων Data Mining

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Απαλλακτικές εργασίες στα πλαίσια του µαθήµατος «Αποθήκες εδοµένων & Εξόρυξη Γνώσης» Άνοιξη 2008

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Πληροφοριακά Συστήματα Διοίκησης

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Advanced Analytics Software Training.

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

ΠΕΡΙΛΗΨΕΙΣ ΕΡΓΑΣΙΩΝ 4 Ο ΦΟΙΤΗΤΙΚΟ ΣΥΝΕΔΡΙΟ ΕΕΕE ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ: ΕΥΚΑΙΡΙΕΣ ΚΑΙ ΠΡΟΚΛΗΣΕΙΣ ΜΕΣΑ ΣΤΗΝ ΚΡΙΣΗ ΔΙΟΡΓΑΝΩΣΗ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Πληροφοριακά Συστήματα Διοίκησης

Προτεινόμενες Διπλωματικές Εργασίες 2009

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Εξόρυξη Γνώσης - το εργαλείο WEKA

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Πληροφοριακά Συστήματα Διοίκησης

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Τεχνικές Εξόρυξης Δεδομένων

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

DATA QUALITY & ANALYTICS DRIVING BUSINESS GROWTH AT YDROGIOS. Θάνος Αγγελόπουλος

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου - Δεκεμβρίου

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Πρόγραμμα Σεμιναρίων Φεβρουαρίου - Ιουλίου

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

Ανάκτηση Πληροφορίας

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου Δεκεμβρίου

Τι είναι πληροφοριακό σύστημα

ΠΠΜ 512: Ανάλυση Κινδύνου για Πολιτικούς Μηχανικούς και Μηχανικούς Περιβάλλοντος

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

ΠΡΟΓΡΑΜΜΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΣΕΜΙΝΑΡΙΩΝ ΙΑΝΟΥΑΡΙΟΣ 2016 ΙΟΥΛΙΟΣ 2016

Πρόγραμμα Σεμιναρίων Φεβρουαρίου - Ιουλίου

Η κατεύθυνση "Πληροφοριακά Συστήµατα"

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου - Δεκεμβρίου

BUSINESS SOFTWARE DIVISION

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Test Data Management in Practice

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Ανάλυση και Σχεδιασµός Πληροφοριακών Συστηµάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

ΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ

Ανάλυση εδοµένων, Big Data και Ευκαιρίες στη Σύγχρονη Εποχή

Εισαγωγή στα Πληροφοριακά Συστήματα

Το πρόγραμμα είναι εγκεκριμένο από το Υπουργείο Παιδείας και Θρησκευμάτων, Πολιτισμού και Αθλητισμού (Αρ / Ε5 ΦΕΚ 764/ ) και λειτουργεί

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

ΚΑΤΑΛΟΓΟΣ ΕΚΠΑΙΔΕΥΣΗΣ

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Τεχνολογικές λύσεις για ποιοτικό & αποτελεσματικό CRM. Γιάννης Τόλης, Strategy & Business Development Director, CQS A.E.

Προγράμματα Κατάρτισης από την ITMC A.E.

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Μεταπτυχιακή Εργασία Διαχείριση Επιχειρησιακών Διαδικασιών με τη χρήση Τεχνολογίας BPMN

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

ΕΦΗΜΕΡΙ Α ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

GDPR : Περιστατικά Παραβίασης Προσωπικών Δεδομένων 8 μήνες μετά

Σύστημα έρευνας ικανοποίησης πελατών «Business in a Box»

ΠΠΜ 512: Ανάλυση Κινδύνου για Πολιτικούς Μηχανικούς και Μηχανικούς Περιβάλλοντος

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

Transcript:

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db πληµµύρα από δεδοµένα Παράγονται όλο και περισσότερα δεδοµένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστηµονικά δεδοµένα: αστρονοµικά, βιολογικά κλπ. Κείµενα στο web κ.α. Αποθηκεύονται όλο και περισσότερα δεδοµένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά Σ Β για µεγάλες Β 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.1

Παραδείγµατα Το ευρωπαϊκό Very Long Baseline Interferometry (VLBI) διαθέτει 16 τηλεσκόπια, καθένα από τα οποία παράγει 1 Gigabit/second αστρονοµικά δεδοµένα σε συνόδους παρατήρησης των 25 ηµερών η αποθήκευση και ανάλυση τέτοιου όγκου δεδοµένων είναι πρόβληµα Ο τηλεπικοινωνιακός κολοσός AT&T χειρίζεται δισεκατοµµύρια κλήσεις / µέρα τόσο µεγάλος είναι ο όγκος των δεδοµένων που αυτά δεν αποθηκεύονται η ανάλυση γίνεται «στον αέρα» (on the fly) Η Β της επιχείρησης λιανεµπορίου Wal-Mart είναι της τάξης των 24 Tbytes Το UC Berkeley έκανε την εκτίµηση ότι µέσα στο 2002 παρήχθησαν 5 Exa-bytes (5 εκατοµµύρια TBytes) δεδοµένων!!! 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Τάσεις ανάπτυξης Ονόµος του Moore Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 µήνες Ο νόµος της αποθήκευσης Τα δεδοµένα που αποθηκεύονται διπλασιάζονται κάθε 9 µήνες Κατά συνέπεια... πολύ λίγα από αυτά τα δεδοµένα µπορεί να κοιτάξει (και να αναλύσει) οάνθρωπος processing storage 1987 1990 1993 1996 1999 2002 2005 2008 2011 2014 Άρα χρειάζεται η ανακάλυψη γνώσης µέσα από τα δεδοµένα (Knowledge Discovery in Data - KDD) για να δώσει νόηµα και χρήση στα δεδοµένα 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.2

Ορισµός της διαδικασίας KDD Η ανακάλυψη γνώσης από δεδοµένα (Knowledge Discovery in Data KDD) είναι η µη τετριµµένη διαδικασία εύρεσης έγκυρων, πρωτότυπων, πιθανώς χρήσιµων και οπωσδήποτε κατανοητών προτύπων (patterns) µέσα στα δεδοµένα. Τι δεν είναι data mining επεξεργασία ερωτήσεων βάσεων δεδοµένων χρήση προγρµµάτων µηχανικής µάθησης ή στατιστικής Εναλλακτικές µεταφράσεις του όρου data mining: «εξόρυξη δεδοµένων» «εξόρυξη γνώσης από δεδοµένα» «όρυξη δεδοµένων» 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχετικά επιστηµονικά πεδία Τεχνητή Νοηµοσύνη (Μηχανική Μάθηση) Οπτικοποίηση Πληροφορίας Ανακάλυψη Γνώσης από εδοµένα (KDD) Στατιστική Βάσεις εδοµένων 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.3

ιαδικασία ανακάλυψης γνώσης Ολοκλήρωση Ερµηνεία & Αξιολόγηση Knowledge Πρωτογενή δεδοµένα Επιλογή & καθαρισµός Αποθήκη εδοµένων (data warehouse) Μετασχηµατισµός Εξόρυξη Γνώσης (Data Mining Μετ/να εδοµένα δεδοµένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Γνώση Κατανόηση 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εξόρυξη γνώσης από δεδοµένα Data mining (ένας ευρύς ορισµός): Η διαδικασία ηµιαυτόµατης ανάλυσης µεγάλων Β µε στόχο την εύρεση χρήσιµης πληροφορίας «γνώσης» π.χ.: «καλύτεροι πελάτες είναι αυτοί µε σπουδέςµεταπτυχιακού επιπέδου (ανεξαρτήτως ύψους εισοδήµατος) ή αυτοίµε υψηλά εισοδήµατα (ανεξαρτήτως επιπέδου σπουδών) Παράδειγµα αναπαράστασης: δέντρο απόφασης (decision tree) Πώς θα προκύψει ένα τέτοιο πρότυπο (pattern) από µια µεγάλη Β ; 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.4

Παράδειγµα Decision Tree 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εφαρµογές Data Mining Market analysis and management target marketing, customer relation management, market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection and management αλλά και... Intelligent query answering Text / Web mining (news group, email, documents) 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.5

Τι δεδοµένα αναλύουµε tabular data 82% time series 40% text, free-form 33% transactional data 30% web click stream 17% spatial data (2-D, 3-D) 16% web content 15% email 13% XML data 13% links or networks 11% anonymized data 11% multimedia 6% Source: www.kdnuggets.com (Sep. 2005) 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Βήµατα εξόρυξης γνώσης µεθοδολογία CRISP-DM Business understanding Data understanding Data preparation Modeling Evaluation Deployment 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.6

Τεχνικές DM Supervised learning (Classification / Prediction) Decision Trees, Neural Nets, Bayesian classification Unsupervised learning (Clustering) Hierarchical, partitional, density-based Association rule mining κ.α. Refund Yes No MarSt NO Single, Divorced TaxInc < 80K > 80K YES NO Married NO 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση (Classification) Ταξινόµηση, Πρόβλεψη Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές Προσεγγίσεις: στατιστικές µέθοδοι δένδρα αποφάσεων νευρωνικά δίκτυα... 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.7

Κατηγοριοποίηση (Classification) έντρα Αποφάσεων (decision trees) Y 3 if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue 2 5 X 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Συσταδοποίηση (Clustering) Οµαδοποίηση Εύρεση µιας φυσικής οµαδοποίησης των δεδοµένων, χωρίς προκαθορισµό τωνοµάδων C 1 C 2 C 3 C 4 Οµαδοποίηση βάσει απόστασης (Εκλείδειας ή άλλης) στατιστικής κατανοµής... 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.8

Εξόρυξη κανόνων συσχετίσεων Εύρεση ταυτόχρονων εµφανίσεων δεδοµένων (άρα, πιθανήςσυσχέτισηςήεξάρτησης) µέσα σε ένα «καλάθι» δεδοµένων 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση χρονολογικών σειρών Μπορούµε ναβρούµε τάσεις(κύκλους, εποχιακές συµπεριφορές) και να κάνουµε εκτίµηση µελλοντικών τιµών 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.9

Οι πιο δηµοφιλείς τεχνικές DM Decision Trees/Rules Clustering Regression Statistics Association rules Visualization SVM Neural Nets Sequence/Time series analysis Bayesian Nearest Neighbor 51.1% 39.8% 38.1% 36.4% 30.7% 21.6% 17.6% 17.6% 13.6% 13.6% 11.4% Source: www.kdnuggets.com (Apr. 2006) 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης "Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Making Decisions Managing Director Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.10

Case Study -1 απευθείας προώθηση προϊόντων & CRM Οι εταιρείες που κάνουν απευθείας προώθηση προϊόντων (direct marketing) χρησιµοποιούν µοντέλα και τεχνικές εξόρυξης γνώσης Η µοντελοποίηση είναι πιο εφικτή από την αλλαγή συµπεριφοράς του πελάτη Πετυχηµένη ιστορία (success story) Ο τηλεπικοινωνιακός παροχέας Verizon Wireless µείωσε τη «διαρροή πελατών» (churn) από 2% σε 1.5% 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Case Study -2 Ασφάλεια και ανίχνευση απάτης Ανίχνευση απάτης (Fraud Detection) σε αγορές µε πιστωτικές κάρτες Ξέπλυµα χρήµατος Απάτη στην τηλεφωνία AT&T, Bell Atlantic, British Telecom/MCI Καταπολέµηση τροµοκρατίας... 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.11

Data Mining και ιδιωτικό απόρρητο TIA: Terrorism (πρώην Total) Information Awareness Program Επιστηµονικό πρόγραµµα χρηµατοδοτούµενο από το Υπουργείο Άµυνας των ΗΠΑ διακόπηκε από το Κογκρέσο µερικές από τις λειτουργίες του µεταφέρθηκαν στις υπηρεσίες πληροφοριών CAPPS II φωτογράφηση όλων των επιβατών των αεροµεταφορών έχει προκαλέσει αντιδράσεις (από επιβάτες, εταιρείες, κυβερνήσεις) Οι τεχνικές Data Mining αναζητούν πρότυπα, όχι ανθρώπους! Υπάρχουν τεχνικές λύσεις που µπορούν να περιορίσουν την πρόσβαση σε προσωπικά δεδοµένα Αντικατάσταση ευαίσθητων δεδοµένων µε ανώνυµους κωδικούς (data anonymization) Κατανεµηµένα δεδοµένα κατανεµηµένος υπολογισµός (distributed data mining) 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ερευνητικά προβλήµατα... Scaling up for huge data 41% Mining text 29% Automating data cleaning 27% Dealing with cost-sensitive data 26% Mining data streams 18% Mining links and networks 17% Unified theory of DM 16% DM for biological problems 14% DM with privacy 8.9% Mining images 7.1% DM for security applications 5.4% Distributed (multi-agent) DM 3.6% Source: www.kdnuggets.com (Nov. 2005) 24 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.12

Στοιχεία µαθήµατος ιδάσκοντες Γιάννης Θεοδωρίδης (κεντρικό κτήριο, γρ. 501) Νίκος Πελέκης (κτήριο Ζέας, εργαστήριο 3 ου ορόφου) Βοηθοί Βαγγέλης Κοτσιφάκος, Γεράσιµος Μαρκέτος, Ειρήνη Ντούτση ιδακτική ύλη µαθήµατος Βιβλίο «Data Mining: Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης από εδοµένα» της M.H. Dunham (http://isl.cs.unipi.gr/dmbook) ιαφάνειες διδάσκοντα (http://isl.cs.unipi.gr/db/courses/dwdm) 25 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εργαλεία KDD Microsoft SQL Server 2005 BI Solutions SQL Server 2005 provides many new and enhanced business intelligence (BI) features designed to give you a competitive advantage. These advantages include integrating multiple data sources with Integration Services; enriching data and building complex business analytics with Analysis Services; and writing, managing, and delivering rich reports with Reporting Services WEKA Data Mining software http://www.microsoft.com/sql/solutions/bi Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization http://www.cs.waikato.ac.nz/ml/weka 26 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.13

Εργασίες 1 η εργασία: ανάπτυξη ενός DW και εφαρµογή τεχνικών DM πάνω σε πραγµατικά δεδοµένα σε οµάδες των 2 ατόµων, υποχρεωτική συµµετοχή 40% στον τελικό βαθµό 2 η εργασία: σχεδίαση και υλοποίηση εφαρµογής BI ατοµική, προαιρετική, απαλλακτική της γραπτής εξέτασης συµµετοχή 60% στον τελικό βαθµό (και πιθανά κάποιες) βιβλιογραφικές εργασίες: µελέτη ερευνητικών άρθρων και συγγραφή αναφοράς ατοµικές, υποχρεωτικές bonus στον τελικό βαθµό 27 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Καλό εξάµηνο! 28 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1.14