The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

Σχετικά έγγραφα
ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Συστήματα Επιχειρηματικής Ευφυίας

Τεχνικές Εξόρυξης Δεδομένων

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Διδάσκοντες: Μαρία Χαλκίδη

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Εξόρυξη Δεδομένων. Βελτιστοποίηση Συστημάτων & Υδροπληροφορική. Χρήστος Μακρόπουλος & Ανδρέας Ευστρατιάδης

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Ανάκτηση Πληροφορίας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Εξόρυξη Γνώσης από εδοµένα (data mining)

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Εξόρυξη Δεδομένων. Εισαγωγή

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Ευφυής Προγραμματισμός

Ζητήματα ηήμ με τα δεδομένα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Εξόρυξη Δεδομένων Data Mining

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Επεξεργασία Ερωτήσεων

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Ανάκτηση πολυμεσικού περιεχομένου

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στα Πληροφοριακά Συστήματα

Προεπεξεργασία εδοµένων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Big Data/Business Intelligence

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

Επεξεργασία Ερωτήσεων

Πληροφοριακά Συστήματα Διοίκησης

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Βάσεις Δεδομένων ΙΙ. Ενότητα 13: Εισαγωγή στην Εξόρυξης Δεδομένων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Υπερπροσαρμογή (Overfitting) (1)

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Transcript:

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Τι είναι η Γιατί; Συχνά υπάρχει πληροφορία «κρυμμένη» στα δεδομένα που δεν είναι προφανής Οι ανθρώπινοι αναλυτές μπορεί να χρειάζονται εβδομάδες για να ανακαλύψουν χρήσιμη πληροφορία Πολλά δεδομένα δεν αναλύονται ποτέ (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες συλλογές από δεδομένα και να εξάγουμε χρήσιμες πληροφορίες από αυτά 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 The Data Gap Total new disk (TB) since 1995 1,000,000 500,000 0 Number of analysts 1995 1996 1997 1998 1999 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 3 From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 4 Γιατί (από εμπορική πλευρά) Πολλά δεδομένα συγκεντρώνονται και εισάγονται σε αποθήκες δεδομένων Web δεδομένα, e-εμπόριο Αγορές σε πολύκαταστήματα/αλυσίδες Συναλλαγές με τράπεζες/πιστωτικές κάρτες Οι υπολογιστές γίνονται φτηνότεροι και πιο ισχυροί Μεγάλος ανταγωνισμός Παροχή καλύτερων, προσωπικών υπηρεσιών σε κάποιο πεδίο (fraud detection, targeting marketing) Γιατί (από επιστημονική πλευρά) Τα δεδομένα συλλέγονται και αποθηκεύονται σε τρομερές ταχύτητες enormous speeds (GB/hour) Απομακρυσμένοι αισθητήρες (remote sensors) σε δορυφόρους Τηλεσκόπια στον ουρανό Microarrays που παράγουν γονιδιακά δεδομένα Επιστημονικές προσομοιώσεις που παράγουν terabytes δεδομένων Η εξόρυξη δεδομένων μπορεί να βοηθήσει τους επιστήμονες Στην κατηγοριοποίηση και την τμηματοποίηση των δεδομένων Στην ιατύπωση Υποθέσεων Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 5 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 6

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 7 Παραδείγματα εδομένων Τι είναι η Κυβερνητικά: IRS (εφορία), δημογραφικά δεδομένα, Είδη/Τεχνικές Εξόρυξης εδομένων (συνοπτικά) Μεγάλες εταιρίες WALMART: 20M συναλλαγές την ημέρα MOBIL: 100 TB γεωλογικά σύνολα δεδομένων AT&T 300 M κλήσεις την ημέρα Εταιρίες πιστωτικών κρατών Επιστημονικά NASA, EOS project: 50 GB την ώρα εδομένα για το περιβάλλον «Κοινωνικά» -Ατομικά Νέα, ψηφιακές κάμερες, YouTube Ομαδοποίηση (συσταδοποίηση) clustering χωρίζουμεταδεδομένασεομάδεςαπό«όμοια» σύνολα Κανόνες συσχέτισης (Association rule mining) βρίσκουμε συσχετίσεις ανάμεσα στα δεδομένα, πχ ποια δεδομένα εμφανίζονται συχνά μαζί σε συναλλαγές Κατηγοριοποίηση (Classification) κατηγοριοποιούμε τα δεδομένα τοποθετώντας τα σε μια (ή περισσότερες) από δοσμένες κατηγορίες Είδη με βάση τα δεδομένα στα οποία γίνεται η εξόρυξη Εξόρυξη στο διαδίκτυο μηχανές αναζήτησης ενδιαφέρουσες (σημαντικές) σελίδες με βάση τους συνδέσμους Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 8 Τι είναι η (Ορισμός) Πολύ μεγάλα σύνολα δεδομένων (data sets) (1) η διαδικασία ανακάλυψης (discovery) προτύπων (patterns) που πριν δεν ήταν γνωστά, ισχύουν, είναι πιθανών χρήσιμα και είναι κατανοητά (2) η ανάλυση τους για να βρούμε μη αναμενόμενες σχέσεις ανάμεσά στα δεδομένα καθώς και να τα συνοψίσουμε με νέους τρόπους που είναι κατανοητοί και χρήσιμοι στους χρήστες Παραδείγματα: αγορές από πολυκαταστήματα, προσπελάσεις ιστοσελίδων, πακέτα στο δίκτυο, αποτελέσματα επιστημονικών πειραμάτων, κίνηση μετοχών, βιολογικά δεδομένα κλπ Τι δεν είναι Αναζήτηση ενός αριθμού τηλεφώνου στον τηλεφωνικό κατάλογο Ερώτηση σε μια μηχανή αναζήτησης πληροφορία για το Amazon Τι είναι η Τι είναι Ορισμένα ονόματα είναι πιο συχνά σε κάποιες τοποθεσίες στις ΗΠΑ (πχ O Brien, O Rurke, O Reilly στην περιοχή της Βοστώνης) Ομαδοποίηση όμοιων κειμένων που επιστρέφει μια μηχανή αναζήτησης με βάση τα συμφραζόμενα (πχ δάσος Amazon, Amazon.com,) Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 9 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 10 Οι «ρίζες» της Εξόρυξης εδομένων Οι «ρίζες» της Εξόρυξης εδομένων Και λίγη ιστορία Και λίγη ιστορία Σε σχέση με την ιστορία των Βάσεων εδομένων, η είναι πολύ νέα 1960 και νωρίτερα Συλλογή - Επεξεργασία Αρχείων 1970 αρχές του 1980 Ιεραρχικά και δικτυακά μοντέλα Σχεσιακά συστήματα βάσεων δεδομένων Εξελιγμένα Συστήματα Βάσεων (μέσα 1980 σήμερα) Νέα μοντέλα (αντικειμενο-σχεσιακό, επεκτεταμένα σχεσιακά κλπ) Εξελιγμένη Ανάλυση Αποθήκες και Εξόρυξη (1990 σήμερα) Διαδικτυακές Βάσεις 1990 σήμερα IR (Ανάκτηση Πληροφορίας) + ΒΔ Εργαλεία μοντελοποίησης (Ο/Σ κλπ) Μέθοδοι ευρετηριοποίησης (Β-δέντρα, κατακερματισμός, κλπ) Γλώσσες επερωτήσεων SQL, κλπ Διεπαφές χρήστη (πχ φόρμες και αναφορές) Νέες εφαρμογές και τύποι δεδομένων (χρονικά, χωρικά, χρονοχωρικά, δεδομένα από αισθητήρες, συνεχή, κλπ) Επεξεργασία και βελτιστοποίηση ερωτήσεων Συναλλαγές, ανάκαμψη από σφάλματα, έλεγχος συγχρονικότητας OLTP (on-line analytical processing) Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 11 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 12

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 13 Οι «ρίζες» της Εξόρυξης εδομένων Κάποιες Πηγές Σχετικές Κοινότητες Στατιστική Εξόρυξη Βάσεις ΤΝ/ Μηχανική Μάθηση Πρέπει να αντιμετωπίσει: Το τεράστιο μέγεθος των δεδομένων Το μεγάλο αριθμό διαστάσεων Την μη ομοιογενή και την κατανεμημένη φύση των δεδομένων Η προσέγγιση στο μάθημα θα είναι σε αλγορίθμους/δομές και μεγάλα σύνολα δεδομένων από την πλευρά των συστημάτων λογισμικού 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD 95-98) Journal of Data Mining and Knowledge Discovery (1997) ACM SIGKDD conferences since 1998 and SIGKDD Explorations More conferences on data mining PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. ACM Transactions on KDD starting in 2007 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 14 KDD Συνέδρια ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD) Κάποιες Πηγές Σχετικές Κοινότητες Άλλα Σχετικά Συνέδρια ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Περιοδικά Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία Εξόρυξη Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 15 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 16 Ανακάλυψη Γνώσης (Knowledge Discovery) ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning Καθαρισμός εδομένων Data Integration Ενοποίηση εδομένων Data Transformation Μετασχηματισμοί εδομένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Προ-επεξεργασία δεδομένων - Καθαρισμός Τα δεδομένα στο πραγματικό κόσμο είναι «βρώμικα» Ελλειπή -incomplete: μπορεί να λείπουν κάποιες τιμές γνωρισμάτων (να μην καταγράφηκαν, να καταγράφηκαν λανθασμένα λόγω μη συνεννόησης ή λανθασμένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσματα (που να μην θεωρήθηκαν σημαντικά ή να μην ήταν διαθέσιμα), ή να περιέχουν μόνο συναθροιστικά (aggregate) δεδομένα Συμπλήρωση των γνωρισμάτων και τιμών που λείπουν Με θόρυβο -noisy: περιέχουν λάθη ή outliers (περιθωριακές τιμές - τιμές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιμών και απομάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιμα ιόρθωση ασυνεπών τιμών Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 17 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 18

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 19 Προ-επεξεργασία δεδομένων Προ-επεξεργασία δεδομένων Επιλογή εδομένων και Γνωρισμάτων και εφαρμογή κατάλληλων Μετασχηματισμών Συνάθροιση Aggregation: συνδυασμούς δεδομένων από πολλές πηγές Sampling δειγματοληψία: χρήση αντιπροσωπευτικού δείγματος των δεδομένων για βελτίωση της απόδοσης Dimensionality reduction Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδομένων γίνονται δυσκολότερες με την αύξηση της διάστασης των δεδομένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδομένα γίνονται πολύ αραιά) Τεχνικές της γραμμικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο με μικρότερο αριθμό διαστάσεων Discretization (μετασχηματιμός σε μια διακριτή τιμή) ή binarization (μετασχηματισμός σε δυαδική τιμή) Variable transformation μετασχηματισμοί των τιμών των μεταβλητών Πχ Κανονικοποίηση Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 20 Ανακάλυψη Γνώσης (Knowledge Discovery) Αρχιτεκτονική του Συστήματος Προ-επεξεργασία Γραφικές Επαφές Χρήστη Εκτίμηση Προτύπων Οπτικοποίηση Παρουσίαση των αποτελεσμάτων Μηχανή Εξόρυξης ΒΔ Εξυπηρέτητης Βάσης ή Αποθήκης Καθαρισμός, Ενοποίηση και Επιλογή Αποθήκη World-Wide Web Άλλα Σύνολα Βάση Γνώσης Που είναι τα δεδομένα (διασύνδεση με Σ Β ) Βάση Γνώσης Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 21 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 22 Αποθήκες εδομένων Πολλαπλές Πηγές Αποθήκες εδομένων Αποθήκη δεδομένων είναι μια συλλογή από δεδομένα που συλλέγονται από διάφορες πηγές δεδομένων, αποθηκεύονται με βάση ένα κοινό σχήμα (συνήθως) σε έναν κόμβο Αποθήκη Εργαλεία Ανάλυσης και Ερωτήσεων ExtractTransformLoad διαδικασίες τα δεδομένα παίρνονται από τις βάσεις, μετασχηματίζονται και φορτώνονται στην αποθήκη Οι μετασχηματισμοί μπορεί να είναι επιλογές συγκεκριμένων πεδίων και τιμών, αλλαγή μονάδων μέτρησης, καθαρισμός, κλπ Περιοδική ενημέρωση της αποθήκης Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 23 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 24

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 25 Αποθήκες εδομένων Συνήθως ακολουθείται ένα πολύ-διάστατο σχήμα, όπου κάθε διάσταση αντιστοιχεί και σε ένα γνώρισμα (ή σύνολο) γνωρισμάτων του σχήματος και κάθε κελί σε μια μέτρηση 3-διαστάσεις Διεύθυνση (πόλεις) Χρόνος (τετράμηνα) Είδος προϊόντος Κελί: αντίστοιχες πωλήσεις (συνήθως μέτρηση, κάποια συναθροιστική τιμή) Αποθήκες εδομένων Το φυσικό σχήμα είναι συνήθως ένας πολυδιάστατος κύβος Roll-up - Διεύθυνση Υποστηρίζουν OLAP (online analytical processing) λειτουργίες σε διαφορετικά επίπεδα λεπτομέρειας Drill-down και roll-up Drill-down - Χρόνος Περισσότερα στο μάθημα Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 26 Για το μάθημα Increasing potential to support business decisions Λήψη Αποφάσεων Παρουσίαση Τεχνικές Οπτικοποίησης Εξόρυξη Ανακάλυψη Πληροφορίας Data Exploration Στατιστικές περιλήψεις, Ερωτήσεις (OLAP) Τελικός Χρήστης Business Analyst Data Analyst Προ-επεξεργασία&Ενοποίηση, Αποθήκες Πηγές DBA Διαχειριστής Χαρτιά, Αρχεία, Web έγγραφα, Επιστημονικά Πειράματα, Συστήματα Βάσεων ΒΔ Ιστοσελίδα http://www.cs.uoi.gr/~pitoura/courses/dm Βιβλία Υπάρχουν 2 ελληνικά Μ. Βαζιργιάννης και Μ. Χαλκίδη, Εξόρυξη Γνώσης από Βάσεις. Τυποθήτω, Νοέμβριος 2003 M. H. Dunham, Data Mining, Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης από Δεδομένα. Επιμέλεια Ελληνικής Έκδοσης: Β. Βερύκιος και Γ. Θεοδωρίδης. Εκδόσεις Νέων Τεχνολογιών, 2004. Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 27 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 28 2 «κλασικά» βιβλία στα αγγλικά Για το μάθημα Για το μάθημα P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Addison Wesley, 2006 2 σύνολα ασκήσεων (κάποιες θεωρητικές και προγραμματιστικές ασκήσεις) 50% J. Han and M. Kamber. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006 Τελικό διαγώνισμα (πιθανό) 50% Αρκεί το υλικό στις διαφάνειες Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 29 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 30

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 31 εδομένα (data) Βασικοί Όροι Ένα σύνολο από στοιχεία (γεγονότα) D συνήθως αποθηκευμένα σε μια βάση δεδομένων Γνωρίσματα (attributes) Ένα πεδίο ενός στοιχείου i στο D Πρότυπο (pattern) Μια έκφραση Ε σε μια γλώσσα L που περιγράφει ένα υποσύνολο των δεδομένων του D Βαθμός ενδιαφέροντος (Interestingness) Μια συνάρτηση Ι D,L που απεικονίζει μια έκφραση Ε της L σε ένα πεδίο μετρήσεων M Βασικοί Όροι Το έργο της εξόρυξης δεδομένων (data mining task) οσμένου του συνόλου δεδομένων D, μιας γλώσσας γεγονότων L, μια συνάρτησης βαθμού ενδιαφέροντος I D,L και ενός κατωφλίου c, Βρες αποδοτικά την έκφραση Ε τέτοια ώστε I D,L (E) > C Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 32 Για το μάθημα Πως χρησιμοποιείται 1. Κατανόηση του προβλήματος 2. Χρήση τεχνικών εξόρυξης δεδομένων για να πάρουμε πληροφορία από τα δεδομένα Στη συνέχεια σήμερα, θα δούμε τα βασικά θέματα που θα μας απασχολήσουν Λειτουργικότητα/Είδη Εξόρυξης Τι είδους πρότυπα μπορούν να εξορυχθούν Τεχνική/Μέθοδος για να πετύχουμε αυτήν την εξόρυξη 3. Χρήση αυτής της πληροφορίας 4. Μέτρηση των αποτελεσμάτων Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 33 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 34 Είδη/Μέθοδοι για Είδη/Μέθοδοι για (συνοπτικά) 1. Ταξινόμηση - Classification: εκμάθηση μια συνάρτησης κατασκευή ενός μοντέλου που απεικονίζει ένα στοιχείο σε μια από ένα σύνολο από προκαθορισμένες κλάσεις 2. Συσταδοποίηση -Clustering: εύρεση ενός συνόλου από ομάδες με όμοια στοιχεία 3. Εύρεση Συχνών Προτύπων, Εξαρτήσεων και Συσχετίσεων Dependencies and associations: εύρεση σημαντικών/συχνών εξαρτήσεων μεταξύ γνωρισμάτων 5. Συνοψίσεις - Summarization: εύρεση μιας συνοπτικής περιγραφής του συνόλου δεδομένων ή ενός υποσυνόλου του 6. Αλλα Predictive Methods Μέθοδοι πρόβλεψης Χρήση κάποιων μεταβλητών για να προβλέψουν άγνωστες ή μελλοντικές τιμές κάποιων άλλων μεταβλητών Descriptive Methods - Περιγραφικοί Μέθοδοι Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδομένα τις ιδιότητες τους Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 35 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 36

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 37 10 10 10 10 Ταξινόμηση [Predictive] Συσταδοποίηση [Descriptive] Είδη/Μέθοδοι για Εύρεση Κανόνων Συσχέτισης [Descriptive] Sequential Pattern Discovery [Descriptive] Regression Συνοψίσεις [Predictive] ένα συνοπτικό μοντέλο για τα δεδομένα (πχ μια συνάρτηση) Deviation/Anomaly Detection [Predictive] outlier analysis (στατιστικοί έλεγχοι για σπάνια σημεία), evolution analysis (πχ ανάλυση χρονοσειρών πχ μετοχές) κλπ Ταξινόμηση Ορισμός οθέντος ενός συνόλου από εγγραφές (σύνολο εκπαίδευσης - training set ) Κάθε εγγραφή έχει ένα σύνολο από γνωρίσματα, ένα από αυτά είναι η κλάση (ή κατηγορία) Εύρεση ενός μοντέλου για το γνώρισμα της κλάσης ως συνάρτηση της τιμής των άλλων γνωρισμάτων. Στόχος: να αναθέτει σε εγγραφές που δεν έχουμε δει μια κλάση με την μεγαλύτερη δυνατή ακρίβεια Για να χαρακτηρίσουμε την ακρίβεια του μοντέλου χρησιμοποιούμε ένα σύνολο ελέγχου (test set) Συνήθως, το δοθέν σύνολο δεδομένο χωρίζεται σε ένα σύνολο εκπαίδευσης και σε ένα σύνολο ελέγχου το πρώτο χρησιμοποιείται για την κατασκευή του μοντέλου και το δεύτερο για τον έλεγχο του Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 38 Ταξινόμηση Ταξινόμηση Γνωρίσματα Tid Refund Marital Status Taxable Income Cheat ΚΛΑΣΗ Παράδειγμα Refund Marital Status Taxable Income Cheat Tid Home Owner Marital Status Taxable Income Default ΚΛΑΣΗ Παράδειγμα Μοντέλου: έντρο Απόφασης Decision tree 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Σύνολο Ελέγχου 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes Yes HO TaxInc No Single, Divorced MarSt < 80K > 80K Married 9 No Married 75K No 10 No Single 90K Yes Σύνολο Εκπαίδευσης Εκμάθηση Ταξινόμησης Μοντέλο 9 No Married 75K No 10 No Single 90K Yes YES Πως μοιάζει το μοντέλο; Σύνολο Εκπαίδευσης Μοντέλο: Δέντρο Απόφασης Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 39 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 40 Ταξινόμηση Ταξινόμηση Tid Home Owner Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Default 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes ΚΛΑΣΗ Married MarSt Yes Single, Divorced HO No TaxInc < 80K > 80K YES Για τα ίδια δεδομένα μπορεί να υπάρχουν παραπάνω από ένα δέντρα απόφασης (μοντέλα) Regression analysis ανάλυση παλινδρόμισης: στατιστική εκμάθηση μια συνάρτησης που απεικονίζει ένα στοιχείο σε μια πραγματική τιμή, χρήση για αριθμητικές προβλέψεις Ανάλυση σχετικότητας (relevance analysis): ποια γνωρίσματα επηρεάζουν την ταξινόμηση Άλλα είδη μοντέλων πλην των έντρων Απόφασης, νευρωνικά δίκτυα, κ-ποιο κοντινοί γείτονες, support vector machines κλπ Στο μάθημα θα δούμε μόνο τα δέντρα απόφασης (αναλυτικά) + δομές για κοντινότερους γείτονες (πιθανόν) Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 41 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 42

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 43 Ταξινόμηση: Εφαρμογή 1 Ταξινόμηση: Εφαρμογή 2 Direct Marketing Στόχος: Μείωση των ταχυδρομικών εξόδων για την αποστολή διαφημιστικών με τη στοχοποίηση targeting του συνόλου των πελατών που είναι πιο πιθανόν να αγοράσουν ένα κινητό τηλέφωνο Προσέγγιση: Χρησιμοποίηση των δεδομένων από ένα παρόμοιο προϊόν που βγήκε στην αγορά πρόσφατα Για αυτό το προϊόν ξέρουμε ποιοι αποφάσισαν να το αγοράσουν και ποιοι όχι -> γνώρισμα της κλάσης {buy, don t buy}. Συλλογή ποικίλων δημογραφικών δεδομένων κλπ για αυτούς τους πελάτες Χρήση αυτής της πληροφορίας ως τα γνωρίσματα για την εκμάθηση ενός μοντέλου ταξινόμησης. Fraud Detection Αναγνώριση Απάτης σε Πιστωτικές Κάρτες Στόχος: Να βρούμε ποιες συναλλαγές μιας πιστωτικής κάρτας δεν είναι από τον ιδιοκτήτη της Προσέγγιση: Χρησιμοποίηση των δεδομένων από προηγούμενες συναλλαγές μα αυτήν την κάρτα και πληροφορίες για τον κάτοχο της (τι αγοράζει, πότε, από πού, πόσο συχνά πληρώνει) Χαρακτηρισμός κάθε προηγούμενης συναλλαγής ως απάτη ήόχι-> γνώρισμα της κλάσης {fraud, fair}. Χρήση αυτής της πληροφορίας ως τα γνωρίσματα για την εκμάθηση ενός μοντέλου ταξινόμησης. Χρήση του μοντέλου για τον χαρακτηρισμό μελλοντικών συναλλαγών Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 44 Customer Attrition Ταξινόμηση: Εφαρμογή 3 Στόχος: Να εκτιμήσουμε να ένας πελάτης θα προτιμήσει μια ανταγωνιστική εταιρεία Προσέγγιση: Χρησιμοποίηση των δεδομένων από παλιές και νέες συναλλαγές πελατών (πόσο συχνά τηλεφωνούν, που πότε, την οικονομική του κατάσταση, την οικογενειακή του κατάσταση κλπ) Ταξινόμηση Γαλαξιών Αρχικό Κλάση: Στάδιο δημιουργίας Ενδιάμεσο Ταξινόμηση: Εφαρμογή 4 Courtesy: http://aps.umn.edu Γνωρίσματα: Χαρακτηριστικά της εικόνας, Χαρακτηριστικά του κυμάτων φωτός που ελήφθησαν, κλπ. Προχωρημένο Χαρακτηρισμός κάθε πελάτη ως πιστού ή όχι -> γνώρισμα της κλάσης {loyal, disloyal}. Χρήση αυτής της πληροφορίας ως τα γνωρίσματα για την εκμάθηση ενός μοντέλου ταξινόμησης. Μέγεθος : 72 εκατ. άστρα, 20 εκατ. γαλαξίες Object Catalog: 9 GB Image Database: 150 GB Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 45 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 46 Συσταδοποίηση οθέντων Ορισμός Ενός συνόλου από σημεία που το καθένα έχει κάποια γνωρίσματα Μιας μέτρηση ομοιότητας μεταξύ τους Παράδειγμα Οι Οιαποστάσεις μέσα μέσαστη στησυστάδα Οι Οιαποστάσεις ανάμεσα ελαχιστοποιούνται στις στιςσυστάδες μεγιστοποιούνται Εύρεση συστάδων (clusters) τέτοιων ώστε: Τα σημεία σε μία συστάδα είναι πιο όμοια μεταξύ τους Τα σημεία σε διαφορετικές συστάδες είναι λιγότερα όμοια μεταξύ τους Σε αντίθεση με την ταξινόμηση, οι συστάδες δεν είναι γνωστές από πριν Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 47 3-διάστατα σημεία, ευκλείδεια απόσταση Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 48

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 49 Συσταδοποίηση: Εφαρμογή 1 Συσταδοποίηση: Εφαρμογή 2 Market Segmentation Στόχος: Χωρισμός των καταναλωτών σε ομάδες έτσι ώστε τα μέλη κάθε ομάδας να είναι ο στόχος για μια συγκεκριμένη πολιτική marketing Προσέγγιση: Συγκέντρωση διαφορετικών γνωρισμάτων για τους καταναλωτές Ορισμός «ομοιότητας» ανάμεσα στους πελάτες ημιουργία ομάδων με όμοιους πελάτες Μέτρηση της ποιότητας της ομαδοποίησης (πχ παρατηρώντας τις αγοραστικές συνήθειες στην ίδια ομάδα και ανάμεσα σε διαφορετικές ομάδες) Συσταδοποίηση Εγγράφων Στόχος: Εύρεση ομάδων από έγγραφα που είναι όμοια μεταξύ τους με βάση τους σημαντικούς όρους που εμφανίζονται σε αυτά Προσέγγιση: Εύρεση για κάθε έγγραφο των όρων που εμφανίζονται συχνά σε αυτό. Μέτρηση ομοιότητας με βάση τη συχνότητα των διαφορετικών όρων, Χρήση της για τη δημιουργία συστάδων Όφελος: Μέθοδοι Ανάκτησης Πληροφορία (Information Retrieval) μπορεί να χρησιμοποιήσουν τις συστάδες για να συσχετίσουν έναν καινούργιο έγγραφο ή έναν όρο αναζήτησης με τα έγγραφα κάθε συστάδας Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 50 Συσταδοποίηση: Εφαρμογή 2 Συσταδοποίηση Σημεία: 3204 Άρθρα των Los Angeles Times. Μέτρηση Ομοιότητας: Πόσες κοινές λέξεις έχουν Στο μάθημα Category Total Correctly Articles Placed Financial 555 364 Foreign 341 260 Θα δούμε ενδιαφέροντες τρόπους να ορίσουμε ομοιότητα/απόσταση και τους θεμελιώδεις (και απλούς) αλγορίθμους συσταδοποίησης National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 51 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 52 Ορισμός (συχνών στοιχειοσυνόλων) Κανόνες Συσχέτισης οθέντος Ενός συνόλου από εγγραφές που η κάθε μία έχει έναν αριθμό από στοιχεία από κάποιο δοσμένο σύνολο Εύρεση κανόνων εξάρτησης που προβλέπουν την παρουσία ενός στοιχείου με βάση την παρουσία άλλων στοιχείων Για marketing και προώθηση πωλήσεων: Κανόνες Συσχέτισης: Εφαρμογή 1 Έστω ότι ο κανόνας που ανακαλύφθηκε είναι ο: {Bagels, } --> {Potato Chips} Potato Chips στα δεξιά του κανόνα => Τι πρέπει να γίνει για να αυξηθούν οι πωλήσεις. TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Κανόνες που πουβρέθηκαν: {Milk} {Milk}--> -->{Coke} {Diaper, Milk} Milk} --> -->{Beer} Bagels στα αριστερά => Μπορεί να χρησιμοποιηθεί για να εκτιμηθεί ποια προϊόντα θα επηρεαστούν αν πχ ένα μαγαζί σταματήσει να τα πουλάει. Bagels στα αριστερά and Potato chips στα δεξιά => Ποια προιόντα πρέπει να πουληθούν μαζί με Bagels για την προώθηση των Potato chips! Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 53 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 54

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 55 Κανόνες Συσχέτισης: Εφαρμογή 2 Εύρεση Ακολουθιακών Προτύπων Πωςθαφτιάξουμεταράφιασταsuper-markets! «θρυλικός» κανόνας -- Αν ο καταναλωτής αγοράσει πάνες, πολύ πιθανών να αγοράσει και μπύρα! Στις ΗΠΑ, Πέμπτη και Σάββατο, άντρες που αγοράζουν πάνες αγοράζουν και μπύρα Ακολουθιακές εξαρτήσεις: μας ενδιαφέρει η σειρά εμφάνισης των στοιχείων (γεγονότων) Παραδείγματα Ακολουθία από προσπελάσεις σελίδων στο διαδίκτυο Ακολουθία στο δανεισμό βιβλίων από μια βιβλιοθήκη Ακολουθία πακέτων που οδήγησαν σε επίθεση σε κάποιον υπολογιστή Σε χωρικά δεδομένα, πχ δεδομένα από την κίνηση ενός αυτοκινήτου Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 56 Στο μάθημα Θα μελετήσουμε ένα διάσημο αλγόριθμο τoν a-priori Κανόνες Συσχέτισης Και έναν ενδιαφέρον αλγόριθμο (FPGrowth) βασισμένο σε tries Και πιθανών την εφαρμογή του a-priori σε γραφήματα Εκμάθηση του πεδίου εφαρμογής Σχετική προηγούμενη γνώση και τους στόχους της εφαρμογής ημιουργία του συνόλου δεδομένων: data selection Καθαρισμός και προ-επεξεργασία των δεδομένων: (έως και 60% της συνολικής προσπάθειας) Ελάττωση δεδομένων και μετασχηματισμοί Χρήσιμα χαρακτηριστικά, ελάττωση διαστάσεων κλπ Επιλογή λειτουργίας εξόρυξης δεδομένων πχ, συσταδοποίηση, ταξινόμηση, κλπ Επιλογή του αλγορίθμου εξόρυξης δεδομένων : αναζήτηση προτύπων ενδιαφέροντος Εκτίμηση προτύπων και αναπαράσταση γνώσης Η γενική εικόνα οπτικοποίηση, μετασχηματισμοί, απομάκρυνση περιττών προτύπων, κλπ Χρήση της γνώσης Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 57 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 58 Εκτίμηση ενδιαφέροντος Χαρακτηρισμό του «ενδιαφέροντος» ενός προτύπου: (1) Εύκολα κατανοητό (2) Να ισχύει σε δεδομένα ελέγχου ή σε νέα δεδομένα με κάποιο βαθμό βεβαιότητας (3) Πιθανών χρήσιμο (4) Νέα πληροφορία Υπάρχουν υποκειμενικά (αναμενόμενα και μη αναμενόμενα) και αντικειμενικά κριτήρια Κάποιες τιμές κατωφλίου Πληρότητα (όλα τα ενδιαφέροντα πρότυπα) Βελτιστοποίηση (μόνο τα ενδιαφέροντα πρότυπα) ιάφορες τεχνικές (πχ ομαδοποίηση, ταξινόμηση) και ιαφορετικά δεδομένα ομή ιστοσελίδων (συνδέσεις) Web logs ανάλυση κοινοτήτων στο web Web mining Στο μάθημα θα δούμε κάποια γενικά στοιχεία και δυο διάσημους αλγόριθμους πίσω από τις μηχανές αναζήτησης Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 59 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 60

Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 61 DMQL Υπάρχει σχετικό λογισμικό Κάτι αντίστοιχο ενός Σ Β ; Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 62 DMQL OLEDB για DM (Microsoft 2000) και πιο πρόσφατα DMX (Microsoft SQLServer 2005) Βασισμένη σε OLE, OLE DB, OLE DB για OLAP, C# Συνδυασμός Σ Β, Αποθηκών και εξόρυξης δεδομένων DMML (Data Mining Mark-up Language) από την DMG (www.dmg.org) Οι 10 καλύτεροι αλγόριθμοι Ε (ICDM 2006) #1: C4.5 (61 votes) ταξινόμηση (δέντρο απόφασης) #2: K-Means (60 votes) - συσταδοποίηση #3: SVM (58 votes) ταξινόμηση (support vector machine) #4: Apriori (52 votes) κανόνες συσχέτισης #5: EM (48 votes) στατιστική, συσταδοποίηση (expectation maximization) #6: PageRank (46 votes) ιστοσελίδες #7: AdaBoost (45 votes) μετα-ταξινομητής #7: knn (45 votes) συσταδοποίηση (κοντινότερος γείτονας) #7: Naive Bayes (45 votes) στατιστική, ταξινόμηση #10: CART (34 votes) ταξινόμηση (δέντρο απόφασης) Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 63 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 64 ΣΥΝΟΨΗ: Τι θα καλύψουμε στο μάθημα (με τη σειρά) Ομαδοποίηση (συσταδοποίηση) Κανόνες Συσχέτισης Κατηγοριοποίηση (δέντρα απόφασης) Γραφήματα (πιθανών) Παγκόσμιο Ιστό HITS, PageRank ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ ΜΑΘΗΜΑ ΕΠΟΜΕΝΗΣ ΕΒΔΟΜΑΔΑΣ Συσταδοποίηση + είδη δεδομένων και αποστάσεις (ομοιότητα) ΠΟΤΕ; Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 65 Εξόρυξη : Ακ. Έτος 2007-2008 ΕΙΣΑΓΩΓΗ 66