ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Σχετικά έγγραφα
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Ανάκτηση Πληροφορίας. Φροντιστήριο 4

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Διδάσκοντες: Μαρία Χαλκίδη

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εξόρυξη Δεδομένων Data Mining

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Business Development, SAP Hellas 01/12/2007

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Advanced Analytics Software Training.

Big Data/Business Intelligence

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πληροφοριακά Συστήματα Διοίκησης

Εξόρυξη Γνώσης από εδοµένα (data mining)

Πληροφοριακά Συστήματα Διοίκησης

Τεχνικές Εξόρυξης Δεδομένων

Τι είναι πληροφοριακό σύστημα

Πληροφοριακά Συστήματα Διοίκησης

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

ΠΡΟΓΡΑΜΜΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΣΕΜΙΝΑΡΙΩΝ ΙΑΝΟΥΑΡΙΟΣ 2016 ΙΟΥΛΙΟΣ 2016

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Προτεινόμενες Διπλωματικές Εργασίες 2009

Εισαγωγή στα Πληροφοριακά Συστήματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

DATA QUALITY & ANALYTICS DRIVING BUSINESS GROWTH AT YDROGIOS. Θάνος Αγγελόπουλος

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Ανάκτηση Πληροφορίας

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Ένα σύνολο αλληλοσχετιζόμενων συστημάτων που συλλέγουν, επεξεργάζονται, αποθηκεύουν και διανέμουν πληροφορίες

Business Intelligence Tools Avecon, data mining techniques online analytical processing OLAP Avecon Εξοικονόμηση κόστους: DataMATRIX3

Τεχνολογικές λύσεις για ποιοτικό & αποτελεσματικό CRM. Γιάννης Τόλης, Strategy & Business Development Director, CQS A.E.

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Ευφυΐας (Business Intelligence)

ΕΦΗΜΕΡΙ Α ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Η επιστήμη της αστυνομίας σε ψηφιακά περιβάλλοντα. Η περίπτωση του SMF/QlikView

ΠΡΟΓΡΑΜΜΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΣΕΜΙΝΑΡΙΩΝ Μάρτιος 2005 Σεπτέµβριος

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Το πρόγραμμα είναι εγκεκριμένο από το Υπουργείο Παιδείας και Θρησκευμάτων, Πολιτισμού και Αθλητισμού (Αρ / Ε5 ΦΕΚ 764/ ) και λειτουργεί

Εξόρυξη Γνώσης - το εργαλείο WEKA

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ανάλυση της αποχώρησης των συνδρομητών μιας τηλεφωνικής εταιρίας με το λογισμικό 8Ρ88 Clementine. Ειρήνη Κάλφα. N odes ΝΟΕΜΒΡΙΟΣ 2012

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Ανάλυση και Σχεδιασµός Πληροφοριακών Συστηµάτων

Αναζήτηση Γνώσης σε Βάσεις Δεδομένων

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

Συνεργατική Λήψη Αποφάσεων. Υποστήριξη στη Συνεργατική. Αποφάσεων. ιάρθρωση ενότητας. Η προτεινόµενη προσέγγιση. γνώσης και επιχειρηµατολογίας

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Προγράμματα Κατάρτισης από την ITMC A.E.

Οδηγός εφαρµογής τεχνικών Επιχειρηµατικής Ευφυΐας στις Ελληνικές Ακαδηµαϊκές Βιβλιοθήκες

ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ

ΠΠΜ 512: Ανάλυση Κινδύνου για Πολιτικούς Μηχανικούς και Μηχανικούς Περιβάλλοντος

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

Συστήματα Διαχείρισης Πελατειακών Σχέσεων

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Πληροφορική 2. Τεχνητή νοημοσύνη

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΠΕΡΙΛΗΨΕΙΣ ΕΡΓΑΣΙΩΝ 4 Ο ΦΟΙΤΗΤΙΚΟ ΣΥΝΕΔΡΙΟ ΕΕΕE ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ: ΕΥΚΑΙΡΙΕΣ ΚΑΙ ΠΡΟΚΛΗΣΕΙΣ ΜΕΣΑ ΣΤΗΝ ΚΡΙΣΗ ΔΙΟΡΓΑΝΩΣΗ

Transcript:

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm πληµµύρα από δεδοµένα Παράγονται όλο και περισσότερα δεδοµένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστηµονικά δεδοµένα: αστρονοµικά, βιολογικά κλπ. Κείµενα στο web κ.α. Αποθηκεύονται όλο και περισσότερα δεδοµένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά Σ Β για µεγάλες Β 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Παραδείγµατα Το ευρωπαϊκό Very Long Baseline Interferometry (VLBI) διαθέτει 16 τηλεσκόπια, καθένα από τα οποία παράγει 1 Gigabit/second αστρονοµικά δεδοµένα σε συνόδους παρατήρησης των 25 ηµερών η αποθήκευση και ανάλυση τέτοιου όγκου δεδοµένων είναι πρόβληµα Ο τηλεπικοινωνιακός κολοσός AT&T χειρίζεται δισεκατοµµύρια κλήσεις / µέρα τόσο µεγάλος είναι ο όγκος των δεδοµένων που αυτά δεν αποθηκεύονται η ανάλυση γίνεται «στον αέρα» (on the fly) Η Β της επιχείρησης λιανεµπορίου Wal-Mart είναι της τάξης των 24 Tbytes Το UC Berkeley έκανε την εκτίµηση ότι µέσα στο 2002 παρήχθησαν 5 Exa-bytes (5 εκατοµµύρια TBytes) δεδοµένων!!! 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Τάσεις ανάπτυξης Ονόµος του Moore Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 µήνες Ο νόµος της αποθήκευσης Τα δεδοµένα που αποθηκεύονται διπλασιάζονται κάθε 9 µήνες Κατά συνέπεια... πολύ λίγα από αυτά τα δεδοµένα µπορεί να κοιτάξει (και να αναλύσει) οάνθρωπος processing storage 1987 1990 1993 1996 1999 2002 2005 2008 2011 2014 Άρα χρειάζεται η ανακάλυψη γνώσης µέσα από τα δεδοµένα (Knowledge Discovery in Data - KDD) για να δώσει νόηµα και χρήση στα δεδοµένα 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Ορισµός της Ανακάλυψης Γνώσης από εδοµένα Η ανακάλυψη γνώσης από δεδοµένα (Knowledge Discovery in Data KDD) είναι η µη τετριµµένη διαδικασία εύρεσης έγκυρων, πρωτότυπων, πιθανώς χρήσιµων και οπωσδήποτε κατανοητών προτύπων (patterns) µέσα στα δεδοµένα. Τι δεν είναι data mining επεξεργασία ερωτήσεων βάσεων δεδοµένων χρήση προγρµµάτων µηχανικής µάθησης ή στατιστικής Εναλλακτικές µεταφράσεις του όρου data mining: «εξόρυξη δεδοµένων» «εξόρυξη γνώσης από δεδοµένα» «όρυξη δεδοµένων» 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σχετικά επιστηµονικά πεδία Τεχνητή Νοηµοσύνη (Μηχανική Μάθηση) Οπτικοποίηση Πληροφορίας Ανακάλυψη Γνώσης από εδοµένα (KDD) Στατιστική Βάσεις εδοµένων 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

ιαδικασία ανακάλυψης γνώσης Ολοκλήρωση Ερµηνεία & Αξιολόγηση Knowledge Πρωτογενή δεδοµένα Αποθήκη εδοµένων (data warehouse) Επιλογή & καθαρισµός Μετασχηµατισµός Εξόρυξη Γνώσης (Data Mining Μετ/να εδοµένα δεδοµένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Γνώση Κατανόηση 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Εφαρµογές Data Mining Market analysis and management target marketing, customer relation management, market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection and management αλλά και... Intelligent query answering Text / Web mining (news group, email, documents) 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Τι δεδοµένα αναλύουµε tabular data 82% time series 40% text, free-form 33% transactional data 30% web click stream 17% spatial data (2-D, 3-D) 16% web content 15% email 13% XML data 13% links or networks 11% anonymized data 11% multimedia 6% Source: www.kdnuggets.com (Sep. 2005) 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Βήµατα εξόρυξης γνώσης µεθοδολογία CRISP-DM Business understanding Data understanding Data preparation Modeling Evaluation Deployment 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Τεχνικές DM Association rule mining Classification / Prediction Decision Trees, Neural Nets, Bayesian classification Clustering Hierarchical, partitional, densitybased Yes Refund No NO MarSt Single, Divorced TaxInc < 80K > 80K Married NO NO YES 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση (Classification) Ταξινόµηση, Πρόβλεψη Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές Προσεγγίσεις: Στατιστική, ένδρα αποφάσεων, Νευρωνικά ίκτυα,... 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Κατηγοριοποίηση µε Γραµµική Παλινδρόµηση (linear regression) Γραµµική παλινδρόµηση w 0 + w 1 x + w 2 y >= 0 Η παλινδρόµηση υπολογίζει τα βάρη wi από τα δεδοµένα έτσι ώστε να ελαχιστοποιήσει το τετραγωνικό σφάλµα προσαρµογής των δεδοµένων στο µοντέλο Καθόλου ευέλικτη τεχνική 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση µε ένδρα Αποφάσεων (Decision Trees) Y if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue 3 2 5 X 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Κατηγοριοποίηση µε Νευρωνικά ίκτυα (Neural Nets) Μπορούν να επιλέξουν πιο σύνθετες περιοχές Μπορούν να είναι πιο ακριβή Μπορεί να προκύψει υπερ-προσαρµογή (over fitting) των δεδοµένων να βρεθούν πρότυπα στον (τυχαίο) θόρυβο 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Συσταδοποίηση (Clustering) Οµαδοποίηση Εύρεση µιας φυσικής οµαδοποίησης των δεδοµένων, χωρίς προκαθορισµό τωνοµάδων 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Εξόρυξη κανόνων συσχετίσεων (Association rule mining) Εύρεση ταυτόχρονων εµφανίσεων δεδοµένων (άρα, πιθανήςσυσχέτισηςήεξάρτησης) µέσα σε ένα «καλάθι» δεδοµένων 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ανάλυση χρονολογικών σειρών Μπορούµε ναβρούµε τάσεις(κύκλους, εποχιακές συµπεριφορές) και να κάνουµε εκτίµηση µελλοντικών τιµών 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

"Πυραµίδα" Επιχειρηµατικής Ευφυίας (Business Intelligence BI) Υποστήριξη επιχειρηµατικών αποφάσεων Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Case Study: απευθείας προώθηση προϊόντων & CRM Οι εταιρείες που κάνουν απευθείας προώθηση προϊόντων (direct marketing) χρησιµοποιούν µοντέλα και τεχνικές εξόρυξης γνώσης Η µοντελοποίηση είναι πιο εφικτή από την αλλαγή συµπεριφοράς του πελάτη Πετυχηµένη ιστορία (success story) Ο τηλεπικοινωνιακός παροχέας Verizon Wireless µείωσε τη «διαρροή πελατών» (churn) από 2% σε 1.5% 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Case Study: Ασφάλεια και ανίχνευση απάτης Ανίχνευση απάτης (Fraud Detection) σε αγορές µε πιστωτικές κάρτες Ξέπλυµα χρήµατος Απάτη στην τηλεφωνία AT&T, Bell Atlantic, British Telecom/MCI Καταπολέµηση τροµοκρατίας... 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Data Mining και Ιδιωτικό απόρρητο: αντίφαση (;) TIA: Terrorism (πρώην Total) Information Awareness Program Επιστηµονικό πρόγραµα χρηµατοδοτούµενο από το Υπουργείο Άµυνας των ΗΠΑ διακόπηκε από το Κογκρέσο µερικές από τις λειτουργίες του µεταφέρθηκαν στις υπηρεσίες πληροφοριών CAPPS II φωτογράφηση όλων των επιβατών των αεροµεταφορών έχει προκαλέσει αντιδράσεις (από επιβάτες, εταιρείες, κυβερνήσεις) Οι τεχνικές Data Mining αναζητούν πρότυπα, όχι ανθρώπους! Υπάρχουν τεχνικές λύσεις που µπορούν να περιορίσουν την πρόσβαση σε προσωπικά δεδοµένα Αντικατάσταση ευαίσθητων δεδοµένων µε ανώνυµους κωδικούς (data anonymization) Κατανεµηµένα δεδοµένα κατανεµηµένος υπολογισµός (distributed data mining) 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης

Ερευνητικά προβλήµατα... Scaling up for huge data 41% Mining text 29% Automating data cleaning 27% Dealing with cost-sensitive data 26% Mining data streams 18% Mining links and networks 17% Unified theory of DM 16% DM for biological problems 14% DM with privacy 8.9% Mining images 7.1% DM for security applications 5.4% Distributed (multi-agent) DM 3.6% Source: www.kdnuggets.com (Nov. 2005) 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης