Εξόρυξη Δεδομένων. Εισαγωγή

Σχετικά έγγραφα
Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Πληροφοριακά Συστήματα Διοίκησης

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Τεχνικές Εξόρυξης Δεδομένων

Διδάσκοντες: Μαρία Χαλκίδη

Εισαγωγή στην Επιστήµη Δεδοµένων

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Πληροφοριακά Συστήματα Διοίκησης

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Πληροφοριακά Συστήματα Διοίκησης

Εισαγωγή στο Μάρκετινγκ

Προτεινόμενες Διπλωματικές Εργασίες 2009

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εξόρυξη Δεδομένων Data Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΘΕΜΑ : ΤΕΧΝΟΛΟΓΙΚΗ ΕΡΕΥΝΑ. ΔΙΑΡΚΕΙΑ: 1 περίοδος

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 1. Εισαγωγή

Analyzing audio impact. Θοδωρής Γιαννακόπουλος

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Εξόρυξη Γνώσης από εδοµένα (data mining)

1. Εισαγωγή στο CRM. Λεωνίδας Ανθόπουλος Αναπληρωτής Καθηγητής

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Που πάνε τα στοιχεία (data) μας; Κίνδυνοι από τρίτους φορείς

Εισαγωγική Παρουσίαση

Προτεινόμενες Διπλωματικές Εργασίες 2008

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Διαφήμιση στα Κοινωνικά Δίκτυα

ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΧΡΟΝΟΣΕΙΡΕΣ. Διαχείριση Πληροφοριών

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Πληροφοριακά Συστήματα Διοίκησης

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Πληροφοριακά Συστήματα Διοίκησης

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Διακριτικές Συναρτήσεις

Ευφυής Προγραμματισμός

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Εισαγωγή στις Τεχνολογίες της

Ανάκτηση Πληροφορίας

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σύγχρονες τάσεις στην προώθηση γαλακτοκομικών προϊόντων στις διεθνείς αγορές. Ανδρέας Χαρδαλούπας marketing manager Ελασσόνα 2018

INTERNET MARKETING Πώς Να Το Εκμεταλλευτείς Αποτελεσματικά Για Να Φέρεις Μία Σταθερή Ροή Πελατών. MakeMoneyOnline.gr!

Ανάκτηση Πληροφορίας. Φροντιστήριο 4

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

DIGITAL MARKETING. ΠΩΣ τα αξιοποιείτε και ΠΟΙΟΣ τα λειτουργεί;

1 η ΕΝΟΤΗΤΑ. Δημιουργώντας εισόδημα online. Internet Μια αγορά συνεχιζόμενης ανάπτυξης. Πλεονεκτήματα

Big Data/Business Intelligence

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Κεφάλαιο 1: Εισαγωγή στην Εξόρυξη Δεδομένων

Ονομάζομαι Βασιλάκος Γιάννης και είμαι Αντιπρόεδρος και Διευθύνων. Σύμβουλος της Κωτσόβολος, εταιρίας του Ομίλου Dixons Carphone με

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Δέντρα Απόφασης (Decision(

V. Τμηματοποίηση Καταναλωτικής Αγοράς Η έννοια της τμηματοποίησης (κατάτμησης)

...Χτίζοντας την Επικοινωνία του Μέλλοντος

Διεθνές εξαγωγικό Μάρκετινγκ Ενότητα 7η: Έρευνα Μάρκετινγκ και Πληροφοριακά Συστήματα

Επερωτήσεις σύζευξης με κατάταξη

Ενότητα 2: Ενθάρρυνση προς ηλικιωμένους για μάθηση της τεχνολογίας

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Εξόρυξη γνώσης από δεδομένα δικτύου υπολογιστών: Συστήματα ανίχνευσης εισβολής.

Μάρκετινγκ. Ενότητα 8: Το Προϊόν

Antonis Stamatopoulos Commercial Director. AI Attacks & Incident Lifecycle Management

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Στην Εποχή των Μεγάλων Δεδοµένων (Big Data)

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

Περιεχόμενο του μαθήματος

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Cloud Computing & Data Management (Υπολογιστικά Νέφη & Διαχείριση Δεδομένων)

Transcript:

Εξόρυξη Δεδομένων Εισαγωγή

Γενικές Πληροφορίες Διδάσκων Ιωάννης Κωνσταντίνου (ikons@cslab.ece.ntua.gr) Θεωρία Παρασκευή 17:00 20:00 Δικτυακός τόπος μαθήματος http://eclass.uth.gr/eclass/courses/infs181/

Γιατί εξόρυξη δεδομένων? Εμπορική Σκοπιά Πολλά δεδομένα συλλέγονται και αποθηκεύονται Δεδομένα web, e-commerce Αγορές σε καταστήματα/ super market Τραπεζικές Δοσοληψίες/ πιστωτικές κάρτες Φτηνότεροι και πιο αποτελεσματικοί υπολογιστές Αυξημένος ανταγωνισμός Ανάγκη για καλύτερες υπηρεσίας για ένα συγκεκριμένο θέμα (πχ. in Customer Relationship Management)

Γιατί εξόρυξη δεδομένων? Επιστημονική άποψη Δεδομένα συλλέγονται και αποθηκεύονται με τεράστιες ταχύτητες (GB/ώρα) Σένσορες δορυφόρων Τηλεσκόπια που σκανάρουν τον ουρανό microarrays generating gene expression data Επιστημονικές εξομοιώσεις που παράγουν TB από δεδομένα Παραδοσιακές τεχνικές δεν είναι αρκετές για raw δεδομένα («ακατέργαστα» δεδομένα) Η εξόρυξη δεδομένων μπορεί να βοηθήσει τους επιστήμονες Να κατηγοριοποιήσουν και να τεμαχίσουν τα δεδομένα Να σχηματίσουν υποθέσεις

Εξόρυξη μεγάλου όγκου δεδομένων - Κίνητρο Υπάρχει «κρυμμένη» πληροφορία στα δεδομένα που δεν είναι εύκολα αντιληπτή Αναλυτές μπορεί να χρειαστούν εβδομάδες για να βρουν χρήσιμη πληροφορία Πολλά δεδομένα δεν αναλύονται καθόλου 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 The Data Gap Total new disk (TB) since 1995 1,000,000 500,000 0 Number of analysts 1995 1996 1997 1998 1999 From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications

Big Data Facts (1) 90% των σημερινών δεδομένων δημιουργήθηκαν τα τελευταία 2 χρόνια Νόμος του Moore: Διπλασιασμός δεδομένων κάθε 18 μήνες YouTube: 13 εκατ. ώρες και 700 δις αναπαραγωγές το 2010, 48h/min -> 8years/day upload Facebook: 20TB/ημέρα zipped, 1B shares/day CERN/LHC: 40TB/μέρα (15PB/έτος)

Big Data Facts (2) By 2015, 4.4M new Big Data IT jobs By 2018, a shortage of 190K big-data experts and 1.5M analysts Bad/poor data costs US 600B $/year For a Fortune 1000 company, a 10% increase on data usability -> 2B USD increase

Τι είναι η εξόρυξη δεδομένων? Πολλοί ορισμοί Μη τετριμμένη εξαγωγή έμμεσων, προηγουμένως άγνωστων και δυνητικά χρήσιμων πληροφοριών από δεδομένα Εξερεύνηση & ανάλυση, με αυτόματο ή ημι-αυτόματο τρόπο μεγάλων ποσοτήτων δεδομένων προκειμένου να ανακαλυφθούν μοτίβα με νόημα

Εξόρυξη δεδομένων Αλλά για να εξαχθεί γνώση, τα δεδομένα πρέπει να: Αποθηκευτούν Διαχειριστούν και Αναλυθούν αυτό το μάθημα Εξόρυξη δεδομένων Big Data Προγνωστική Ανάλυση Data Science J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org 9

Καλά νέα: Ζήτηση για Εξόρυξη δεδομένων J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org 10

Τι (δεν) είναι εξόρυξη δεδομένων? Τι δεν είναι εξόρυξη δεδομένων? Αναζήτηση τηλεφωνικού αριθμού σε ένα κατάλογο Αναζήτηση στο google για Amazon Τι είναι εξόρυξη δεδομένων? Ορισμένα ονόματα είναι πιο συχνά σε ορισμένες περιοχές της Ελλάδας (-όπουλος για Πελλοπόνησο, -ακης για Κρήτη, κλπ) «Γκρουπάρισμα» παρόμοιων κειμένων που επιστρέφονται από μια μηχανή αναζήτησης ανάλογα με το περιεχόμενό τους (e.g. Amazon rainforest, Amazon.com,)

Προέλευση της Εξόρυξης δεδομένων Χρησιμοποιεί ιδέες από μηχανική μάθηση τεχνητή νοημοσύνη (machine learning/ai), αναγνώριση προτύπων (pattern recognition), στατιστική και βάσεις δεδομένων Παραδοσιακές τεχνικές μπορεί να μην εφαρμόζονται εξαιτίας Μέγεθος δεδομένων Μέγεθος διαστάσεων (High dimensionality of data) Ετερογενή κατανεμημένη φύση δεδομένων Statistics/ AI Data Mining Database systems Machine Learning/ Pattern Recognition

Μέθοδοι εξόρυξης δεδομένων Μέθοδοι πρόγνωσης (προγνωστικοί-predictive) Χρησιμοποίησε γνωστές μεταβλητές για να προβλέψεις άγνωστες ή μελλοντικές τιμές από άλλες μεταβλητές Μέθοδοι περιγραφής (περιγραφικοί-descriptive) Βρες μοτίβα που μπορούν να ερμηνευτούν εύκολα από ανθρώπους τα οποία περιγράφουν τα δεδομένα From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

«Νόημα» των αποτελεσμάτων Ένα ρίσκο με την «Εξόρυξη δεδομένων» είναι ότι ο αναλυτής μπορεί να ανακαλύψει μοτίβα που δεν έχουν νόημα Οι στατιστικοί ονομάζουν αυτό το φαινόμενο σαν Bonferroni s principle: Σε γενικές γραμμές, αν ψάξεις σε περισσότερα μέρη από όσα τα δεδομένα σου υποστηρίζουν/επιτρέπουν, τότε είσαι καταδικασμένος να βρεις «ανοησίες» J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org 14

«Νόημα» των αποτελεσμάτων Παράδειγμα: Θέλουμε να βρούμε (ασυσχέτιστα) άτομα που τουλάχιστον δυο φορές έχουν μείνει στο ίδιο ξενοδοχείο την ίδια μέρα Παρακολουθήσαμε 10 9 άτομα 1,000 μέρες Κάθε άτομο μένει σε ξενοδοχείο πχ το 1% του χρόνου του (1 μέρα κάθε 100) Τα ξενοδοχεία μπορούν να φιλοξενήσουν πχ 100 άτομα (πχ 10 5 ξενοδοχεία) Εάν ο κάθε ένας συμπεριφέρεται με τυχαίο τρόπο (π.χ., κανένας τρομοκράτης) η εξόρυξη δεδομένων θα ανακαλύψει τίποτα? Εκτιμώμενος αριθμός «ύποπτων» ζευγών ανθρώπων: 250,000 πολλοί συνδυασμοί για έλεγχο χρειάζονται επιπλέον στοιχεία για να εντοπίσουμε «ύποπτα» ζεύγη ανθρώπων με κάποιο πιο αποδοτικό τρόπο J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org

Τι παίζει ρόλο όταν ασχολούμαστε με δεδομένα? Usage Quality Context Streaming Scalability J. Leskovec, A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org

Μέθοδοι Εξόρυξης δεδομένων... Κατηγοριοποίηση (Classification) [Predictive] Συσταδοποίηση (Clustering) [Descriptive] Ανάλυση συσχέτισης (Association Rule Discovery) [Descriptive] Ανακάλυψη ακολουθιακών μοτίβων (Sequential Pattern Discovery) [Descriptive] (Παλινδρόμηση) Regression [Predictive] Ανίχνευση ανωμαλιών (Deviation Detection) [Predictive]

Κατηγοριοποίηση: Ορισμός Δοθείσας μιας συλλογής εγγραφών (σύνολο εκπαίδευσης - training set ) Κάθε εγγραφή περιέχει ένα σετ από ιδιότητες- attributes. Μια από τις ιδιότητες είναι η κλάση (class). Βρες ένα μοντέλο για την ιδιότητα κλάση σαν συνάρτηση των τιμών των άλλων ιδιοτήτων. Στόχος: Goal: Νέες άγνωστες εγγραφές πρέπει να ανατίθενται με μια κλάση όσο πιο σωστά γίνεται. Ένα σύνολο εκπαίδευσης (test set) χρησιμοποιείται για να υπολογίσει την ακρίβεια του μοντέλου. Συνήθως τα δεδομένα χωρίζονται σε σύνολα εκπαίδευσης και δοκιμής. Το σύνολο εκπαίδευσης δημιουργεί το μοντέλο και το σύνολο δοκιμής (test set) ελέγχει την αποτελεσματικότητα του μοντέλου.

10 10 Παράδειγμα κατηγοριοποίησης Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No No Single 75K? 2 No Married 100K No Yes Married 50K? 3 No Single 70K No No Married 150K? 4 Yes Married 120K No Yes Divorced 90K? 5 No Divorced 95K Yes No Single 40K? 6 No Married 60K No 7 Yes Divorced 220K No No Married 80K? Test Set 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Set Learn Classifier Model

Κατηγοριοποίηση: Εφαρμογή 1 Στοχευμένη διαφήμιση (Direct Marketing) Στόχος: Μείωση του κόστους αλληλογραφίας στοχεύοντας σε ένα σετ αγοραστών που είναι πιθανόν να αγοράσουν ένα νέο κινητό Προσέγγιση: Χρησιμοποίηση δεδομένων από παρόμοιο παλιότερο προϊόν Γνωρίζουμε ποιοι πελάτες αποφάσισαν να αγοράσουν και ποιοι όχι. Η πληροφορία {buy, don t buy} σχηματίζει την (ιδιότητακλάση class attribute). Συλλογή δημογραφικών πληροφοριών, life-style και αλληλεπιδράσεις με την εταιρία σχετικά με τους πελάτες Είδος επιχείρησης, τόπος διαμονής, εισόδημα, κλπ. Χρησιμοποίησε αυτή την πληροφορία σαν ιδιότητες εισόδου για την εκμάθηση ενός μοντέλου κατηγοριοποιητή. From [Berry & Linoff] Data Mining Techniques, 1997

Κατηγοριοποίηση: Εφαρμογή 2 Εντοπισμός απάτης (Fraud Detection) Στόχος: Πρόβλεψη περιπτώσεων απάτης σε συναλλαγές πιστωτικών καρτών. Προσέγγιση: Χρησιμοποίησε συναλλαγές καρτών και πληροφορίες των κατόχων τους σαν ιδιότητες. Πότε κάποιος αγοράζει, τι αγοράζει, πόσο συχνά πληρώνει στην ώρα του, κλπ. Ονομάτισε παλιότερες συναλλαγές σαν «απάτη» ή «μη απάτη». Αυτό σχηματίζει την ιδιότητα κλάση. Δημιούργησε ένα μοντέλο για την κλάση των συναλλαγών. Χρησιμοποίησε αυτό το μοντέλο για να εντοπίσεις απάτες παρατηρώντας τρέχουσες συναλλαγές σε έναν λογαριασμό.

Κατηγοριοποίηση: Εφαρμογή 3 Customer Attrition/Churn: Στόχος: Πρόβλεψη εάν ένας πελάτης θα «φύγει» σε μια άλλη εταιρία Προσέγγιση: Χρησιμοποίησε δεδομένα συναλλαγών παλιών και νέων πελατών για τον εντοπισμό ιδιοτήτων Πόσο συχνά ένας πελάτης κάνει κλήσεις, που καλεί, ποια ώρα της ημέρας καλεί πιο συχνά, την οικονομική του κατάσταση, εάν είναι παντρεμένος, κλπ. Ονομάτισε (label) τους πελάτες σαν «πιστούς» ή «άπιστους». Υπολόγισε ένα μοντέλο για την «πίστη». From [Berry & Linoff] Data Mining Techniques, 1997

Κατηγοριοποίηση: Εφαρμογή 4 Sky Survey Cataloging Στόχος: Να προβλέψουμε την κλάση (άστρο ή γαλαξίας) αντικειμένων ειδικά οπτικά αχνών, βασιζόμενοι σε υπάρχουσες εικόνες από αστεροσκοπεία (from Palomar Observatory). 3000 εικόνες με 23,040 x 23,040 pixels ανά εικόνα. Μεθοδολογία: Τεμαχισμός της εικόνας Μέτρηση των ιδιοτήτων της εικόνας (χαρακτηριστικά-features) 40 ανά αντικείμενο. Μοντελοποίηση της κλάσης με βάση αυτά τα χαρακτηριστικά. Success Story: Βρέθηκαν 16 νέοι high red-shift quasars, ορισμένοι σχηματισμοί από τους πιο μακρινούς και δύσκολο να εντοπιστούν! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

Κατηγοριοποιώντας γαλαξίες Courtesy: http://aps.umn.edu Early Κλάση: Stages of Formation Intermediate Ιδιότητες: Χαρακτηριστικά της εικόνας, Characteristics of light waves received, etc. Late Μέγεθος δεδομένων: 72 εκ. άστρα, 20 εκ. γαλαξίες Object Catalog: 9 GB Image Database: 150 GB

Συσταδοποίηση (Clustering) Ορισμός Δοθέντος ενός πλήθους σημείων, το καθένα από τα οποία έχει ένα σετ ιδιοτήτων και ένα μετρικό «ομοιότητας» μεταξύ των σημείων, εντόπισε συστάδες έτσι ώστε Σημεία που ανήκουν στην ίδια συστάδα είναι πιο «όμοια» μεταξύ τους Σημεία που ανήκουν σε διαφορετικές συστάδες είναι λιγότερο «όμοια» μεταξύ τους Μετρικά ομοιότητας: Ευκλείδεια απόσταση σε περίπτωση συνεχών μεταβλητών. Άλλα μετρικά ανάλογα το πρόβλημα.

Απεικονίζοντας την συσταδοποίηση Συσταδοποίηση με βάση την Ευκλείδεια απόσταση σε 3 διαστάσεις (3-D). Intracluster distances are minimized Intercluster distances are maximized

Συσταδοποίηση: Εφαρμογή 1 Τμηματοποίηση αγοράς: Στόχος: Χώρισε την αγορά σε διακριτά υποσύνολα πελατών όπου το κάθε υποσύνολο μπορεί δυνητικά να επιλεχθεί σαν ένας στόχος αγοράς με σκοπό την προσέγγισή του σε μια συγκεκριμένη στρατηγική marketing. Προσέγγιση: Συλλογή διαφορετικών ιδιοτήτων πελατών με βάση γεωγραφικές ή life-style πληροφορίες Εύρεση συστάδων παρόμοιων πελατών Μέτρηση της ποιότητας της συσταδοποίησης παρακολουθώντας τα μοτίβα αγορών των πελατών που ανήκουν στην ίδια συστάδα σε σχέση με διαφορετική.

Συσταδοποίηση: Εφαρμογή 1 Συσταδοποίηση εγγράφων (πχ google news): Στόχος: Εύρεση γκρουπ κειμένων που είναι μεταξύ τους παρόμοια σε σχέση με τις πιο σημαντικές λέξεις (όρους) που παρουσιάζονται σε αυτά. Προσέγγιση: Εντοπισμός συχνά εμφανιζόμενων όρων σε κάθε κείμενο. Δημιουργία ενός μετρικού ομοιότητας βασισμένο στην συχνότητα εμφάνισης των διαφορετικών όρων. Χρησιμοποίησέ το για συσταδοποίηση. Όφελος: Τεχνικές IR (information retrieval) μπορούν να χρησιμοποιήσουν τις συστάδες για να συσχετίσουν νέα έγγραφα ή όρους αναζήτησης σε συσταδοποιημένα έγγραφα.

Απεικονίζοντας την συσταδοποίηση εγγράφων Σημεία συσταδοποίησης: 3204 Άρθρα των Los Angeles Times. Μετρικό ομοιότητας: Πόσες λέξεις είναι κοινές στα κείμενα αυτά (μετά από την αφαίρεση ορισμένων) Category Total Correctly Articles Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278

Συσταδοποίηση δεδομένων μετοχών S&P 500 Καθημερινή παρακολούθηση κινήσεων μετοχών Σημεία συσταδοποίησης: Stock-{UP/DOWN} Μετρικό ομοιότητας: Δυο σημεία είναι πιο όμοια εάν τα γεγονότα που τα περιγράφουν συχνά τυχαίνουν ταυτόχρονα την ίδια μέρα Χρησιμοποίηση ανάλυσης κανόνων συσχετίσεων Discovered Clusters 1 Applied-Matl-DOW N,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-dow N,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N, Sun-DOW N Apple-Co mp-dow N,Autodesk-DOWN,DEC-DOWN, ADV-M icro-device-down,andrew-corp-down, 2 Co mputer-assoc-down,circuit-city-down, Co mpaq-down, EM C-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN 3 4 Fannie-Mae-DOWN,Fed-Ho me-loan-dow N, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlu mberger-up Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP

Εξόρυξη κανόνων συσχέτισης (Association Rule Discovery): Ορισμός Δοθέντος ενός σετ εγγραφών που περιέχουν έναν αριθμό από αντικείμενα από μια συλλογή, Δημιούργησε κανόνες εξαρτήσεων που θα προβλέπουν την ύπαρξη ενός αντικειμένου με βάση την ύπαρξη άλλων αντικειμένων. TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Κανόνες που ανακαλύφθηκαν: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Εξόρυξη κανόνων συσχέτισης: Εφαρμογή 1 Διαφήμιση και προώθηση πωλήσεων: Έστω ότι ανακαλύφθηκε ο κανόνας ότι {Bagels, } --> {Potato Chips} Potato Chips as consequent => Μπορεί να χρησιμοποιηθεί για να αποφασιστεί τι πρέπει να γίνει για να αυξηθούν οι πωλήσεις του. Bagels in the antecedent => Μπορεί να χρησιμοποιηθεί για να αποφασιστεί τι θα επηρεαστεί εάν το κατάστημα σταματήσει να πουλάει bagels. Bagels in antecedent and Potato chips in consequent => Μπορεί να χρησιμοποιηθεί για να αποφασιστεί τι προϊόντα μπορούν να πουληθούν μαζί με bagels για να προωθήσουν την πώληση potato chips!

Εξόρυξη κανόνων συσχέτισης: Εφαρμογή 2 Διαχείριση προϊόντων ραφιού Super Market Στόχος: Να εντοπιστούν αντικείμενα που αγοράζονται μαζί από αρκετά πολλούς πελάτες. Προσέγγιση:Επεξεργασία των point-of-sale δεδομένων που συγκεντρώνονται από τα ταμεία των SM για την εξαγωγή συσχετίσεων μεταξύ αντικειμένων. Ένας κλασσικός κανόνας-- Εάν ένας πελάτης αγοράσει πάνες και γάλα (diaper and milk) τότε είναι πολύ πιθανό να αγοράσει και μπύρες. Επομένως, μην σας φανεί παράξενο εάν βρίσκετε εξάδες από μπύρες δίπλα από pampers!

Εξόρυξη κανόνων συσχέτισης: Εφαρμογή 3 Διαχείριση αποθεμάτων ανταλλακτικών: Στόχος: Μια εταιρία ανταλλακτικών θέλει να κατανοήσει την φύση των αλλαγών που χρειάζονται τα προϊόντα της και να έχει τα οχήματα συντήρησης εφοδιασμένα με τα σωστά ανταλλακτικά με σκοπό την μείωση των διαδρομών προς τους πελάτες της. Μεθοδολογία: Επεξεργασία των δεδομένων στα εργαλεία και ανταλλακτικά των προηγούμενων επισκευών σε διαφορετικές τοποθεσίες με σκοπό την ανακάλυψη επαναλαμβανόμενων μοτίβων.

Εξόρυξη ακολουθιακών μοτίβων: Ορισμός Δοθέντος ενός σετ από αντικείμενα, όπου το κάθε αντικείμενο σχετίζεται με το δικό του χρονοδιάγραμμα γεγονότων, ανακάλυψε κανόνες που προβλέπουν ισχυρές ακολουθιακές συσχετίσεις μεταξύ διαφορετικών γεγονότων. (A B) (C) (D E) Οι κανόνες σχηματίζονται πρώτα ανακαλύπτοντας τα μοτίβα. Η εμφάνιση των γεγονότων γενικά εξαρτάται από χρονικά περιθώρια (A B) (C) (D E) <= xg >ng <= ws <= ms

Εξόρυξη ακολουθιακών μοτίβων: Παραδείγματα Σε αρχεία καταγραφής τηλεπικοινωνιακών alarm logs, (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) Σε ακολουθίες δοσοληψιών point-of-sale Computer Bookstore: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Athletic Apparel Store: (Shoes) (Racket, Racketball) --> (Sports_Jacket)

Παλινδρόμηση (Regression) Πρόγνωση μιας τιμής μιας συνεχούς μεταβλητής με βάση τιμές άλλων μεταβλητών, υποθέτοντας ένα γραμμικό (ή μη) μοντέλο συσχέτισης. Εφαρμογή σε στατιστική, νευρωνικά δίκτυα Παραδείγματα: Πρόγνωση μεγέθους πωλήσεων ενός νέου προϊόντος με βάση τα διαφημιστικά έξοδα. Πρόγνωση της ταχύτητας του ανέμου σαν συνάρτηση της θερμοκρασίας, υγρασίας, ατμοσφαιρικής πίεσης, κλπ. Πρόγνωση της χρονοσειράς των δεικτών τιμών μετοχών.

Εντοπισμός παρεκκλίσεων/ανωμαλιών Εντοπισμό σημαντικών παρεκκλίσεων από «συνηθισμένη» συμπεριφορά Εφαρμογές: Εντοπισμός απάτης πιστωτικών καρτών Εντοπισμό δικτυακών επιθέσεων (ddos attacks) Τυπική ημερήσια κίνηση σε επίπεδο πανεπιστημίου 100 εκ. συνδέσεις.

Προκλήσεις εξόρυξης δεδομένων Κλιμακωσιμότητα (Scalability) Μέγεθος διαστάσεων (Dimensionality) Περίπλοκα και ετερογενή δεδομένα (Complex and Heterogeneous Data) Ποιότητα δεδομένων Σε ποιον ανήκουν τα δεδομένα? Διατήρηση ανωνυμίας Δεδομένα ροών (Streaming Data)

Μεγάλα Δεδομένα (Big Data) 5 Vs: Volume Velocity Variety Veracity Value

Big Data Application Use Cases Retail Monitoring social media to get preferences, customer behavior, product perception, etc. Banking/Insurance Risk management, fraud detection, etc. Manufacturing Maintenance and repair, supply chain management, etc. Advertising/Marketing Responsiveness to campaigns, etc. Government Publicizing data Media Personalization, archiving, etc. Telecommunications Failure prevention, etc.

Big Data Sources Social networks Public web information Data Warehouse appliances Monitoring How to deal with this big amount of data? Distributed applications -> Scalability

Source: Wikipedia (IBM Roadrunner)

divide and conquer Εργασία Partition w 1 w 2 w 3 worker worker worker r 1 r 2 r 3 Αποτέλεσμα Combine

Προκλήσεις παραλληλοποίησης Πως αναθέτουμε μονάδες εργασίας σε workers? Αν έχουμε περισσότερες μονάδες εργασίας από workers? Εάν οι workers χρειαστεί να μοιραστούν ενδιάμεσα ημιτελή δεδομένα? Πως συνοψίζουμε τέτοιου είδους ενδιάμεσα δεδομένα? Πως ξέρουμε ότι όλοι οι workers τελειώσανε? Τι γίνεται εάν κάποιοι workers διακοπήκανε?