ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

Σχετικά έγγραφα
The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Συστήματα Επιχειρηματικής Ευφυίας

Τεχνικές Εξόρυξης Δεδομένων

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Διδάσκοντες: Μαρία Χαλκίδη

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Εξόρυξη Δεδομένων. Βελτιστοποίηση Συστημάτων & Υδροπληροφορική. Χρήστος Μακρόπουλος & Ανδρέας Ευστρατιάδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Ανάκτηση Πληροφορίας

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Εξόρυξη Γνώσης από εδοµένα (data mining)

Ζητήματα ηήμ με τα δεδομένα

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Ευφυής Προγραμματισμός

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Δεδομένων. Εισαγωγή

ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Εισαγωγή στα Πληροφοριακά Συστήματα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Ανάκτηση πολυμεσικού περιεχομένου

Επεξεργασία Ερωτήσεων

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Εξόρυξη Δεδομένων Data Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Πληροφοριακά Συστήματα Διοίκησης

Big Data/Business Intelligence

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Βάσεις Δεδομένων ΙΙ. Ενότητα 13: Εισαγωγή στην Εξόρυξης Δεδομένων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Προεπεξεργασία εδοµένων

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Επεξεργασία Ερωτήσεων

ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

Διδάσκουσα: Χάλκου Χαρά,

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

Διπλωματική Εργασία. Της Δέσποινας Α. Πλώτα. Επιβλέπων Καθηγητής: Βασίλειος Βουτσινάς

Υπερπροσαρμογή (Overfitting) (1)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Transcript:

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εξόρυξη Δεδομένων 2008-2009 1

Εισαγωγή Τι είναι η Εξόρυξη εδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες συλλογές από δεδομένα και να εξάγουμε χρήσιμες πληροφορίες από αυτά Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 3 Εισαγωγή Γιατί; Συχνά υπάρχει πληροφορία «κρυμμένη» στα δεδομένα που δεν είναι προφανής Οι ανθρώπινοι αναλυτές μπορεί να χρειάζονται εβδομάδες για να ανακαλύψουν χρήσιμη πληροφορία Πολλά δεδομένα δεν αναλύονται ποτέ 4,000,000 3,500,000 3,000,000 2,500,000 The Data Gap 2,000,000 1,500,000 Total new disk (TB) since 1995 1,000,000 500,000 0 Number of analysts 1995 1996 1997 1998 1999 From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 4 Εξόρυξη Δεδομένων 2008-2009 2

Εισαγωγή Γιατί Εξόρυξη εδομένων (από εμπορική πλευρά) Πολλά δεδομένα συγκεντρώνονται και εισάγονται σε αποθήκες δεδομένων Web δεδομένα, e-εμπόριο Αγορές σε πολύκαταστήματα/αλυσίδες Συναλλαγές με τράπεζες/πιστωτικές κάρτες Οι υπολογιστές γίνονται φτηνότεροι και πιο ισχυροί Μεγάλος ανταγωνισμός Παροχή καλύτερων, προσωπικών υπηρεσιών σε κάποιο πεδίο (fraud detection, targeting marketing) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 5 Γιατί Εξόρυξη εδομένων (από επιστημονική πλευρά) Εισαγωγή Τα δεδομένα συλλέγονται και αποθηκεύονται σε τρομερές ταχύτητες enormous speeds (GB/hour) Απομακρυσμένοι αισθητήρες (remote sensors) σε δορυφόρους Τηλεσκόπια στον ουρανό Microarrays που παράγουν γονιδιακά δεδομένα Επιστημονικές προσομοιώσεις που παράγουν terabytes δεδομένων Η εξόρυξη δεδομένων μπορεί να βοηθήσει τους επιστήμονες Στην κατηγοριοποίηση και την τμηματοποίηση των δεδομένων Στην ιατύπωση Υποθέσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 6 Εξόρυξη Δεδομένων 2008-2009 3

Εισαγωγή Παραδείγματα εδομένων Κυβερνητικά: IRS (εφορία), δημογραφικά δεδομένα, Μεγάλες εταιρίες WALMART: 20M συναλλαγές την ημέρα MOBIL: 100 TB γεωλογικά σύνολα δεδομένων AT&T 300 M κλήσεις την ημέρα Εταιρίες πιστωτικών κρατών Επιστημονικά NASA, EOS project: 50 GB την ώρα εδομένα για το περιβάλλον «Κοινωνικά» -Ατομικά Νέα, ψηφιακές κάμερες, YouTube Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 7 Τι είναι η Εξόρυξη εδομένων Είδη/Τεχνικές Εξόρυξης εδομένων (συνοπτικά) Ομαδοποίηση (συσταδοποίηση) clustering χωρίζουμε τα δεδομένα σε ομάδες από «όμοια» σύνολα Κανόνες συσχέτισης (Association rule mining) βρίσκουμε συσχετίσεις ανάμεσα στα δεδομένα, πχ ποια δεδομένα εμφανίζονται συχνά μαζί σε συναλλαγές Κατηγοριοποίηση (Classification) κατηγοριοποιούμε τα δεδομένα τοποθετώντας τα σε μια (ή περισσότερες) από έναν αριθμό από δοσμένες κατηγορίες Είδη με βάση τα δεδομένα στα οποία γίνεται η εξόρυξη Εξόρυξη στο διαδίκτυο μηχανές αναζήτησης ενδιαφέρουσες (σημαντικές) σελίδες με βάση τους συνδέσμους Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 8 Εξόρυξη Δεδομένων 2008-2009 4

Τι είναι η Εξόρυξη εδομένων Εξόρυξη εδομένων (Ορισμός) Πολύ μεγάλα σύνολα δεδομένων (data sets) (1) η διαδικασία ανακάλυψης (discovery) προτύπων (patterns) που πριν δεν ήταν γνωστά, ισχύουν, είναι πιθανών χρήσιμα και είναι κατανοητά (2) η ανάλυση τους για να βρούμε μη αναμενόμενες σχέσεις ανάμεσα στα δεδομένα καθώς και να τα συνοψίσουμε με νέους τρόπους που είναι κατανοητοί και χρήσιμοι στους χρήστες Παραδείγματα: αγορές από πολυκαταστήματα, προσπελάσεις ιστοσελίδων, πακέτα στο δίκτυο, αποτελέσματα επιστημονικών πειραμάτων, κίνηση μετοχών, βιολογικά δεδομένα κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 9 Τι δεν είναι Τι είναι η Εξόρυξη εδομένων Αναζήτηση ενός αριθμού τηλεφώνου στον τηλεφωνικό κατάλογο Ερώτηση σε μια μηχανή αναζήτησης πληροφορία για το Amazon Τι είναι Ορισμένα ονόματα είναι πιο συχνά σε κάποιες τοποθεσίες στις ΗΠΑ (πχ O Brien, O Rurke, O Reilly στην περιοχή της Βοστώνης, κατάληξη «ακης» στην Κρήτη) Ομαδοποίησηόμοιωνκειμένωνπου επιστρέφει μια μηχανή αναζήτησης με βάση τα συμφραζόμενα (πχ δάσος Amazon, Amazon.com,) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 10 Εξόρυξη Δεδομένων 2008-2009 5

Και λίγη ιστορία Οι «ρίζες» της Εξόρυξης εδομένων Σε σχέση με την ιστορία των Βάσεων εδομένων, η Εξόρυξη εδομένων είναι πολύ νέα 1960 και νωρίτερα Συλλογή Δεδομένων - Επεξεργασία Αρχείων 1970 αρχές του 1980 Ιεραρχικά και δικτυακά μοντέλα Σχεσιακά συστήματα βάσεων δεδομένων Εργαλεία μοντελοποίησης (Ο/Σκλπ) Μέθοδοι ευρετηριοποίησης (Β-δέντρα, κατακερματισμός, κλπ) Γλώσσες επερωτήσεων SQL, κλπ Διεπαφές χρήστη (πχ φόρμες και αναφορές) Επεξεργασία και βελτιστοποίηση ερωτήσεων Συναλλαγές, ανάκαμψη από σφάλματα, έλεγχος συγχρονικότητας OLTP (on-line analytical processing) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 11 Και λίγη ιστορία Οι «ρίζες» της Εξόρυξης εδομένων Εξελιγμένα Συστήματα Βάσεων Δεδομένων (μέσα 1980 σήμερα) Νέα μοντέλα (αντικειμενο-σχεσιακό, επεκτεταμένα σχεσιακά κλπ) Εξελιγμένη Ανάλυση Δεδομένων Αποθήκες Δεδομένων και Εξόρυξη (1990 σήμερα) Διαδικτυακές Βάσεις Δεδομένων 1990 σήμερα IR (Ανάκτηση Πληροφορίας) + ΒΔ Νέες εφαρμογές και τύποι δεδομένων (χρονικά, χωρικά, χρονοχωρικά, δεδομένα από αισθητήρες, συνεχή, κλπ) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 12 Εξόρυξη Δεδομένων 2008-2009 6

Οι «ρίζες» της Εξόρυξης εδομένων Στατιστική Εξόρυξη Δεδομένων Βάσεις Δεδομένων ΤΝ/ Μηχανική Μάθηση Πρέπει να αντιμετωπίσει: Το τεράστιο μέγεθος των δεδομένων Το μεγάλο αριθμό διαστάσεων Την μη ομοιογενή και την κατανεμημένη φύση των δεδομένων Η προσέγγιση στο μάθημα θα είναι σε αλγορίθμους/δομές και μεγάλα σύνολα δεδομένων από την πλευρά των συστημάτων λογισμικού Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 13 Κάποιες Πηγές Σχετικές Κοινότητες 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD 95-98) Journal of Data Mining and Knowledge Discovery (1997) ACM SIGKDD conferences since 1998 and SIGKDD Explorations More conferences on data mining PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. ACM Transactions on KDD started in 2007 Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 14 Εξόρυξη Δεδομένων 2008-2009 7

Κάποιες Πηγές Σχετικές Κοινότητες KDD Συνέδρια ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD) Άλλα Σχετικά Συνέδρια ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Περιοδικά Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 15 Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία Εξόρυξη Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 16 Εξόρυξη Δεδομένων 2008-2009 8

Ανακάλυψη Γνώσης (Knowledge Discovery) ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning Καθαρισμός εδομένων Data Integration Ενοποίηση εδομένων Data Transformation Μετασχηματισμοί εδομένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 17 Προ-επεξεργασία δεδομένων - Καθαρισμός Τα δεδομένα στο πραγματικό κόσμο είναι «βρώμικα» Ελλειπή - incomplete: μπορεί να λείπουν κάποιες τιμές γνωρισμάτων (να μην καταγράφηκαν, να καταγράφηκαν λανθασμένα λόγω μη συνεννόησης ή λανθασμένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσματα (που να μην θεωρήθηκαν σημαντικά ή να μην ήταν διαθέσιμα), ή να περιέχουν μόνο συναθροιστικά (aggregate) δεδομένα Συμπλήρωση των γνωρισμάτων και τιμών που λείπουν Με θόρυβο -noisy: περιέχουν λάθη ή outliers (περιθωριακές τιμές - τιμές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιμών και απομάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιμα ιόρθωση ασυνεπών τιμών Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 18 Εξόρυξη Δεδομένων 2008-2009 9

Προ-επεξεργασία δεδομένων Επιλογή εδομένων και Γνωρισμάτων και εφαρμογή κατάλληλων Μετασχηματισμών Συνάθροιση Aggregation: συνδυασμούς δεδομένων από πολλές πηγές Sampling δειγματοληψία: χρήση αντιπροσωπευτικού δείγματος των δεδομένων για βελτίωση της απόδοσης Dimensionality reduction μείωση διαστάσεων - Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδομένων γίνονται δυσκολότερες με την αύξηση της διάστασης των δεδομένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδομένα γίνονται πολύ αραιά) Τεχνικές της γραμμικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο με μικρότερο αριθμό διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 19 Προ-επεξεργασία δεδομένων Discretization (μετασχηματιμός σε μια διακριτή τιμή) ή binarization (μετασχηματισμός σε δυαδική τιμή) Variable transformation μετασχηματισμοί των τιμών των μεταβλητών Πχ Κανονικοποίηση Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 20 Εξόρυξη Δεδομένων 2008-2009 10

Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία Οπτικοποίηση Παρουσίαση των αποτελεσμάτων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 21 Αρχιτεκτονική του Συστήματος ΓραφικέςΕπαφέςΧρήστη Εκτίμηση Προτύπων Μηχανή Εξόρυξης Δεδομένων ΒΔ Εξυπηρετητής Βάσης Δεδομένων ή Αποθήκης Δεδομένων Καθαρισμός, Ενοποίηση και Επιλογή Αποθήκη Δεδομένων World-Wide Web Άλλα Σύνολα Δεδομένων Βάση Γνώσης Που είναι τα δεδομένα (διασύνδεση με Σ Β ) Βάση Γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 22 Εξόρυξη Δεδομένων 2008-2009 11

Αποθήκες εδομένων Αποθήκη δεδομένων είναι μια συλλογή από δεδομένα που συλλέγονται από διάφορες πηγές δεδομένων, αποθηκεύονται με βάση ένα κοινό σχήμα (συνήθως) σε έναν κόμβο ExtractTransformLoad διαδικασίες τα δεδομένα παίρνονται από τις βάσεις, μετασχηματίζονται και φορτώνονται στην αποθήκη Οι μετασχηματισμοί μπορεί να είναι επιλογές συγκεκριμένων πεδίων και τιμών, αλλαγή μονάδων μέτρησης, καθαρισμός, κλπ Περιοδική ενημέρωση της αποθήκης Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 23 Πολλαπλές Πηγές Αποθήκες εδομένων Αποθήκη Εργαλεία Ανάλυσης και Ερωτήσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 24 Εξόρυξη Δεδομένων 2008-2009 12

Αποθήκες εδομένων Συνήθως ακολουθείται ένα πολύ-διάστατο σχήμα, όπου κάθε διάσταση αντιστοιχεί και σε ένα γνώρισμα (ή σύνολο) γνωρισμάτων του σχήματος και κάθε κελί σε μια μέτρηση Το φυσικό σχήμα είναι συνήθως ένας πολυδιάστατος κύβος Υποστηρίζουν OLAP (online analytical processing) λειτουργίες σε διαφορετικά επίπεδα λεπτομέρειας Drill-down και roll-up Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 25 3-διαστάσεις Διεύθυνση (πόλεις) Χρόνος (τετράμηνα) Είδος προϊόντος Κελί: αντίστοιχες πωλήσεις (συνήθως μέτρηση, κάποια συναθροιστική τιμή) Αποθήκες εδομένων Roll-up - Διεύθυνση Drill-down - Χρόνος Περισσότερα στο μάθημα Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 26 Εξόρυξη Δεδομένων 2008-2009 13

Δυναμικό για την υποστήριξη επιχειρησιακών αποφάσεων Λήψη Αποφάσεων Τελικός Χρήστης Παρουσίαση Δεδομένων Τεχνικές Οπτικοποίησης Εξόρυξη Δεδομένων Ανακάλυψη Πληροφορίας Business Analyst Data Analyst Data Exploration Στατιστικές περιλήψεις, Ερωτήσεις (OLAP) Προ-επεξεργασία&Ενοποίηση Δεδομένων, Αποθήκες DBA Πηγές Δεδομένων Διαχειριστής ΒΔ Χαρτιά, Αρχεία, Web έγγραφα, Επιστημονικά Πειράματα, Συστήματα Βάσεων Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 27 Ιστοσελίδα Για το μάθημα http://www.cs.uoi.gr/~pitoura/courses/dm Βιβλία Υπάρχουν 2 ελληνικά Μ. Βαζιργιάννης και Μ. Χαλκίδη, Εξόρυξη Γνώσης από Βάσεις Δεδομένων. Τυποθήτω, Νοέμβριος 2003 M. H. Dunham, Data Mining, Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης από Δεδομένα. Επιμέλεια Ελληνικής Έκδοσης: Β. Βερύκιος και Γ. Θεοδωρίδης. Εκδόσεις Νέων Τεχνολογιών, 2004. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 28 Εξόρυξη Δεδομένων 2008-2009 14

2 «κλασικά» βιβλία στα αγγλικά Για το μάθημα P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Addison Wesley, 2006 J. Han and M. Kamber. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006 Αρκεί το υλικό στις διαφάνειες Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 29 Για το μάθημα 3 σύνολα ασκήσεων (κάποιες θεωρητικές και προγραμματιστικές ασκήσεις) 50% ή 100% Τελικό διαγώνισμα (πιθανό) 50% Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 30 Εξόρυξη Δεδομένων 2008-2009 15

Εξόρυξη εδομένων Πως χρησιμοποιείται 1. Κατανόηση του προβλήματος 2. Χρήση τεχνικών εξόρυξης δεδομένων για να πάρουμε πληροφορία από τα δεδομένα 3. Χρήση αυτής της πληροφορίας 4. Μέτρηση των αποτελεσμάτων Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 31 Για το μάθημα Λειτουργικότητα/Είδη Εξόρυξης Τι είδους πρότυπα μπορούν να εξορυχθούν Τεχνική/Μέθοδος για να πετύχουμε αυτήν την εξόρυξη Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 32 Εξόρυξη Δεδομένων 2008-2009 16

Είδη/Μέθοδοι για Εξόρυξη εδομένων (συνοπτικά) 1. Ταξινόμηση - Classification: εκμάθηση μια συνάρτησης κατασκευή ενός μοντέλου που απεικονίζει ένα στοιχείο σε μια από ένα σύνολο από προκαθορισμένες κλάσεις 2. Συσταδοποίηση -Clustering: εύρεση ενός συνόλου από ομάδες με όμοια στοιχεία 3. Εύρεση Συχνών Προτύπων, Εξαρτήσεων και Συσχετίσεων Dependencies and associations: εύρεση σημαντικών/συχνών εξαρτήσεων μεταξύ γνωρισμάτων 5. Συνοψίσεις -Summarization: εύρεση μιας συνοπτικής περιγραφής του συνόλου δεδομένων ή ενός υποσυνόλου του 6. Αλλα Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 33 Είδη/Μέθοδοι για Εξόρυξη εδομένων Predictive Methods Μέθοδοι πρόβλεψης Χρήση κάποιων μεταβλητών για να προβλέψουν άγνωστες ή μελλοντικές τιμές κάποιων άλλων μεταβλητών Descriptive Methods - Περιγραφικοί Μέθοδοι Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδομένα τις ιδιότητες τους Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 34 Εξόρυξη Δεδομένων 2008-2009 17

Είδη/Μέθοδοι για Εξόρυξη εδομένων Ταξινόμηση [Predictive] Συσταδοποίηση [Descriptive] Εύρεση Κανόνων Συσχέτισης [Descriptive] Sequential Pattern Discovery [Descriptive] Regression Συνοψίσεις [Predictive] ένα συνοπτικό μοντέλο για τα δεδομένα (πχ μια συνάρτηση) Deviation/Anomaly Detection [Predictive] outlier analysis (στατιστικοί έλεγχοι για σπάνια σημεία), evolution analysis (πχ ανάλυση χρονοσειρών πχ μετοχές) κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 35 Ταξινόμηση Ορισμός οθέντος ενός συνόλου από εγγραφές (σύνολο εκπαίδευσης - training set ) Κάθε εγγραφή έχει ένα σύνολο από γνωρίσματα, ένα από αυτά είναι η κλάση (ή κατηγορία) Εύρεση ενός μοντέλου για το γνώρισμα της κλάσης ως συνάρτηση της τιμής των άλλων γνωρισμάτων. Στόχος: να αναθέτει σε εγγραφές που δεν έχουμε δει μια κλάση με την μεγαλύτερη δυνατή ακρίβεια Για να χαρακτηρίσουμε την ακρίβεια του μοντέλου χρησιμοποιούμε ένα σύνολο ελέγχου (test set) Συνήθως, το δοθέν σύνολο δεδομένο χωρίζεται σε ένα σύνολο εκπαίδευσης και σε ένα σύνολο ελέγχου το πρώτο χρησιμοποιείται για την κατασκευή του μοντέλου και το δεύτερο για τον έλεγχο του Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 36 Εξόρυξη Δεδομένων 2008-2009 18

10 10 10 Ταξινόμηση Γνωρίσματα ΚΛΑΣΗ Παράδειγμα Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Σύνολο Εκπαίδευσης Εκμάθηση Ταξινόμησης Σύνολο Ελέγχου Μοντέλο Πως μοιάζει το μοντέλο; Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 37 Ταξινόμηση Tid Home Owner Marital Status Taxable Income Default ΚΛΑΣΗ Παράδειγμα Μοντέλου: έντρο Απόφασης Decision tree 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes HO Yes No NO MarSt Single, Divorced TaxInc < 80K > 80K NO YES Married NO Σύνολο Εκπαίδευσης Μοντέλο: Δέντρο Απόφασης Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 38 Εξόρυξη Δεδομένων 2008-2009 19

10 Ταξινόμηση Tid Home Owner Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Default 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes ΚΛΑΣΗ Married NO MarSt Yes NO Single, Divorced HO NO No TaxInc < 80K > 80K YES Για τα ίδια δεδομένα μπορεί να υπάρχουν παραπάνω από ένα δέντρα απόφασης (μοντέλα) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 39 Ταξινόμηση Regression analysis ανάλυση παλινδρόμισης: στατιστική εκμάθηση μια συνάρτησης που απεικονίζει ένα στοιχείο σε μια πραγματική τιμή, χρήση για αριθμητικές προβλέψεις Ανάλυση σχετικότητας (relevance analysis): ποια γνωρίσματα επηρεάζουν την ταξινόμηση Άλλα είδη μοντέλων πλην των έντρων Απόφασης, νευρωνικά δίκτυα, κ-ποιο κοντινοί γείτονες, support vector machines κλπ Στο μάθημα θα δούμε μόνο τα δέντρα απόφασης (αναλυτικά) + δομές για κοντινότερους γείτονες (πιθανόν) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 40 Εξόρυξη Δεδομένων 2008-2009 20

Ταξινόμηση: Εφαρμογή 1 Direct Marketing Στόχος: Μείωση των ταχυδρομικών εξόδων για την αποστολή διαφημιστικών με τη στοχοποίηση targeting του συνόλου των πελατών που είναι πιο πιθανόν να αγοράσουν ένα κινητό τηλέφωνο Προσέγγιση: Χρησιμοποίηση των δεδομένων από ένα παρόμοιο προϊόν που βγήκε στην αγορά πρόσφατα Για αυτό το προϊόν ξέρουμε ποιοι αποφάσισαν να το αγοράσουν και ποιοι όχι -> γνώρισμα της κλάσης {buy, don t buy}. Συλλογή ποικίλων δημογραφικών δεδομένων κλπ για αυτούς τους πελάτες Χρήση αυτής της πληροφορίας ως τα γνωρίσματα για την εκμάθηση ενός μοντέλου ταξινόμησης. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 41 Ταξινόμηση: Εφαρμογή 2 Fraud Detection Αναγνώριση Απάτης σε Πιστωτικές Κάρτες Στόχος: Να βρούμε ποιες συναλλαγές μιας πιστωτικής κάρτας δεν είναι από τον ιδιοκτήτη της Προσέγγιση: Χρησιμοποίηση των δεδομένων από προηγούμενες συναλλαγές με αυτήν την κάρτα και πληροφορίες για τον κάτοχο της (τι αγοράζει, πότε, από πού, πόσο συχνά πληρώνει) Χαρακτηρισμός κάθε προηγούμενης συναλλαγής ως απάτη ήόχι-> γνώρισμα της κλάσης {fraud, fair}. Χρήση αυτής της πληροφορίας ως τα γνωρίσματα για την εκμάθηση ενός μοντέλου ταξινόμησης. Χρήση του μοντέλου για τον χαρακτηρισμό μελλοντικών συναλλαγών Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 42 Εξόρυξη Δεδομένων 2008-2009 21

Ταξινόμηση: Εφαρμογή 3 Customer Attrition Στόχος: Να εκτιμήσουμε να ένας πελάτης θα προτιμήσει μια ανταγωνιστική εταιρεία Προσέγγιση: Χρησιμοποίηση των δεδομένων από παλιές και νέες συναλλαγές πελατών (πόσο συχνά τηλεφωνούν, που πότε, την οικονομική του κατάσταση, την οικογενειακή του κατάσταση κλπ) Χαρακτηρισμός κάθε πελάτη ως πιστού ή όχι -> γνώρισμα της κλάσης {loyal, disloyal}. Χρήση αυτής της πληροφορίας ως τα γνωρίσματα για την εκμάθηση ενός μοντέλου ταξινόμησης. Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 43 Ταξινόμηση: Εφαρμογή 4 Ταξινόμηση Γαλαξιών Courtesy: http://aps.umn.edu Αρχικό Κλάση: Στάδιο δημιουργίας Ενδιάμεσο Γνωρίσματα: Χαρακτηριστικά της εικόνας, Χαρακτηριστικά του κυμάτων φωτός που ελήφθησαν, κλπ. Προχωρημένο Μέγεθος Δεδομένων: 72 εκατ. άστρα, 20 εκατ. γαλαξίες Object Catalog: 9 GB Image Database: 150 GB Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 44 Εξόρυξη Δεδομένων 2008-2009 22

Συσταδοποίηση Ορισμός οθέντων Ενός συνόλου από σημεία που το καθένα έχει κάποια γνωρίσματα Μιας μέτρηση ομοιότητας μεταξύ τους Εύρεση συστάδων (clusters) τέτοιων ώστε: Τα σημεία σε μία συστάδα είναι πιο όμοια μεταξύ τους Τα σημεία σε διαφορετικές συστάδες είναι λιγότερα όμοια μεταξύ τους Σε αντίθεση με την ταξινόμηση, οι συστάδες δεν είναι γνωστές από πριν Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 45 Παράδειγμα Οι Οιαποστάσεις μέσα μέσαστη στησυστάδα ελαχιστοποιούνται Οι Οιαποστάσεις ανάμεσα στις στιςσυστάδες μεγιστοποιούνται 3-διάστατα σημεία, ευκλείδεια απόσταση Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 46 Εξόρυξη Δεδομένων 2008-2009 23

Συσταδοποίηση: Εφαρμογή 1 Market Segmentation Στόχος: Χωρισμός των καταναλωτών σε ομάδες έτσι ώστε τα μέλη κάθε ομάδας να είναι ο στόχος για μια συγκεκριμένη πολιτική marketing Προσέγγιση: Συγκέντρωση διαφορετικών γνωρισμάτων για τους καταναλωτές Ορισμός «ομοιότητας» ανάμεσα στους πελάτες ημιουργία ομάδων με όμοιους πελάτες Μέτρηση της ποιότητας της ομαδοποίησης (πχ παρατηρώντας τις αγοραστικές συνήθειες στην ίδια ομάδα και ανάμεσα σε διαφορετικές ομάδες) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 47 Συσταδοποίηση: Εφαρμογή 2 Συσταδοποίηση Εγγράφων Στόχος: Εύρεση ομάδων από έγγραφα που είναι όμοια μεταξύ τους με βάση τους σημαντικούς όρους που εμφανίζονται σε αυτά Προσέγγιση: Εύρεση για κάθε έγγραφο των όρων που εμφανίζονται συχνά σε αυτό. Μέτρηση ομοιότητας με βάση τη συχνότητα των διαφορετικών όρων, Χρήση της για τη δημιουργία συστάδων Όφελος: Μέθοδοι Ανάκτησης Πληροφορία (Information Retrieval) μπορεί να χρησιμοποιήσουν τις συστάδες για να συσχετίσουν έναν καινούργιο έγγραφο ή έναν όρο αναζήτησης με τα έγγραφα κάθε συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 48 Εξόρυξη Δεδομένων 2008-2009 24

Συσταδοποίηση: Εφαρμογή 2 Σημεία: 3204 Άρθρα των Los Angeles Times. Μέτρηση Ομοιότητας: Πόσες κοινές λέξεις έχουν Category Total Correctly Articles Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278 Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 49 Συσταδοποίηση Στο μάθημα Θα δούμε ενδιαφέροντες τρόπους να ορίσουμε ομοιότητα/απόσταση και τους θεμελιώδεις αλγορίθμους συσταδοποίησης Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 50 Εξόρυξη Δεδομένων 2008-2009 25

οθέντος Ορισμός (συχνών στοιχειοσυνόλων) Κανόνες Συσχέτισης Ενός συνόλου από εγγραφές που η κάθε μία έχει έναν αριθμό από στοιχεία από κάποιο δοσμένο σύνολο Εύρεση κανόνων εξάρτησης που προβλέπουν την παρουσία ενός στοιχείου με βάση την παρουσία άλλων στοιχείων TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Κανόνες που πουβρέθηκαν: {Milk} --> -->{Coke} {Diaper, Milk} Milk} --> -->{Beer} Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 51 Κανόνες Συσχέτισης: Εφαρμογή 1 Για marketing και προώθηση πωλήσεων: Έστω ότι ο κανόνας που ανακαλύφθηκε είναι ο: {Bagels, } --> {Potato Chips} Potato Chips στα δεξιά του κανόνα => Τι πρέπει να γίνει για να αυξηθούν οι πωλήσεις. Bagels στα αριστερά => Μπορεί να χρησιμοποιηθεί για να εκτιμηθεί ποια προϊόντα θα επηρεαστούν αν πχ ένα μαγαζί σταματήσει να τα πουλάει. Bagels στα αριστερά and Potato chips στα δεξιά => Ποια προϊόντα πρέπει να πουληθούν μαζί με Bagels για την προώθηση των Potato chips! Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 52 Εξόρυξη Δεδομένων 2008-2009 26

Κανόνες Συσχέτισης: Εφαρμογή 2 Πως θα φτιάξουμε τα ράφια στα super-markets! «θρυλικός» κανόνας -- Αν ο καταναλωτής αγοράσει πάνες, πολύ πιθανών να αγοράσει και μπύρα! Στις ΗΠΑ, Πέμπτη και Σάββατο, άντρες που αγοράζουν πάνες αγοράζουν και μπύρα Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 53 Εύρεση Ακολουθιακών Προτύπων Ακολουθιακές εξαρτήσεις: μας ενδιαφέρει η σειρά εμφάνισης των στοιχείων (γεγονότων) Παραδείγματα Ακολουθία από προσπελάσεις σελίδων στο διαδίκτυο Ακολουθία στο δανεισμό βιβλίων από μια βιβλιοθήκη Ακολουθία πακέτων που οδήγησαν σε επίθεση σε κάποιον υπολογιστή Σε χωρικά δεδομένα, πχ δεδομένα από την κίνηση ενός αυτοκινήτου Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 54 Εξόρυξη Δεδομένων 2008-2009 27

Κανόνες Συσχέτισης Στο μάθημα Θα μελετήσουμε ένα διάσημο αλγόριθμο τoν a-priori Και έναν ενδιαφέρον αλγόριθμο (FPGrowth) βασισμένο σε tries Και πιθανών την εφαρμογή του a-priori σε γραφήματα Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 55 Αποθήκες εδομένων Αποθήκη δεδομένων είναι μια συλλογή από δεδομένα που συλλέγονται από διάφορες πηγές δεδομένων, αποθηκεύονται με βάση ένα κοινό σχήμα (συνήθως) σε έναν κόμβο Στο μάθημα: Το βασικό μοντέλο Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 56 Εξόρυξη Δεδομένων 2008-2009 28

Εκμάθηση του πεδίου εφαρμογής Σχετική προηγούμενη γνώση και τους στόχους της εφαρμογής ημιουργία του συνόλου δεδομένων: data selection Καθαρισμός και προ-επεξεργασία των δεδομένων: (έως και 60% της συνολικής προσπάθειας) Ελάττωση δεδομένων και μετασχηματισμοί Χρήσιμα χαρακτηριστικά, ελάττωση διαστάσεων κλπ Επιλογή λειτουργίας εξόρυξης δεδομένων πχ, συσταδοποίηση, ταξινόμηση, κλπ Επιλογή του αλγορίθμου εξόρυξης δεδομένων Εξόρυξη εδομένων: αναζήτηση προτύπων ενδιαφέροντος Εκτίμηση προτύπων και αναπαράσταση γνώσης Η γενική εικόνα οπτικοποίηση, μετασχηματισμοί, απομάκρυνση περιττών προτύπων, κλπ Χρήση της γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 57 Εκτίμηση ενδιαφέροντος Χαρακτηρισμό του «ενδιαφέροντος» ενός προτύπου: (1) Εύκολα κατανοητό (2) Να ισχύει σε δεδομένα ελέγχου ή σε νέα δεδομένα με κάποιο βαθμό βεβαιότητας (3) Πιθανών χρήσιμο (4) Νέα πληροφορία Υπάρχουν υποκειμενικά (αναμενόμενα και μη αναμενόμενα) και αντικειμενικά κριτήρια Κάποιες τιμές κατωφλίου Πληρότητα (όλα τα ενδιαφέροντα πρότυπα) Βελτιστοποίηση (μόνο τα ενδιαφέροντα πρότυπα) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 58 Εξόρυξη Δεδομένων 2008-2009 29

Web mining ιάφορες τεχνικές (πχ ομαδοποίηση, ταξινόμηση) και ιαφορετικά δεδομένα ομή ιστοσελίδων (συνδέσεις) Web logs ανάλυση κοινοτήτων στο web Στο μάθημα θα δούμε κάποια γενικά στοιχεία και δυο διάσημους αλγόριθμους πίσω από τις μηχανές αναζήτησης (PageRank,HITS) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 59 Εξόρυξη εδομένων Οι 10 καλύτεροι αλγόριθμοι Ε (ICDM 2006) #1: C4.5 (61 votes) ταξινόμηση (δέντρο απόφασης) #2: K-Means (60 votes) - συσταδοποίηση #3: SVM (58 votes) ταξινόμηση (support vector machine) #4: Apriori (52 votes) κανόνες συσχέτισης #5: EM (48 votes) στατιστική, συσταδοποίηση (expectation maximization) #6: PageRank (46 votes) ιστοσελίδες #7: AdaBoost (45 votes) μετα-ταξινομητής #7: knn (45 votes) συσταδοποίηση (κοντινότερος γείτονας) #7: Naive Bayes (45 votes) στατιστική, ταξινόμηση #10: CART (34 votes) ταξινόμηση (δέντρο απόφασης) Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 60 Εξόρυξη Δεδομένων 2008-2009 30

Εξόρυξη εδομένων ΣΥΝΟΨΗ: Τι θα καλύψουμε στο μάθημα (με τη σειρά) Ομαδοποίηση (συσταδοποίηση) Κανόνες Συσχέτισης Κατηγοριοποίηση (δέντρα απόφασης) Παγκόσμιο Ιστό HITS, PageRank Αποθήκες εδομένων?? Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 61 Εξόρυξη εδομένων ΜΑΘΗΜΑ ΕΠΟΜΕΝΗΣ ΕΒΔΟΜΑΔΑΣ Συσταδοποίηση Εξόρυξη Δεδομένων: Ακ. Έτος 2008-2009 ΕΙΣΑΓΩΓΗ 62 Εξόρυξη Δεδομένων 2008-2009 31