Κλασσικά Βιβλία Αναφοράς



Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Ανάλυση Συσχέτισης IΙ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Ο Αλγόριθμος FP-Growth

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Δέντρα Απόφασης (Decision(

Αναγνώριση Προτύπων Ι

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Επεξεργασία Ερωτήσεων

Τεχνικές Εξόρυξης Δεδομένων

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Σχεδίαση και Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Επεξεργασία Ερωτήσεων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Αλγόριθμοι και Πολυπλοκότητα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Υπερπροσαρμογή (Overfitting) (1)

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Δυναμικός Προγραμματισμός

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1

Ταξινόμηση με συγχώνευση Merge Sort

Αναγνώριση Προτύπων Ι

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1

Ζητήματα ηήμ με τα δεδομένα

Εισαγωγή στην Ανάλυση Αλγορίθμων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Περιεχόμενα. Περιεχόμενα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Διακριτικές Συναρτήσεις

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Αναγνώριση Προτύπων Ι

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πληροφορική 2. Αλγόριθμοι

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Επεξεργασία Ερωτήσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Εισόδημα Κατανάλωση

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αποθήκες και Εξόρυξη Δεδομένων

ΕΠΙΤΡΟΠΗ ΔΙΑΓΩΝΙΣΜΩΝ 27 η Ελληνική Μαθηματική Ολυμπιάδα "Ο Αρχιμήδης" ΣΑΒΒΑΤΟ, 27 ΦΕΒΡΟΥΑΡΙΟΥ 2010

Το εσωτερικό ενός Σ Β

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Δυναμικός Προγραμματισμός

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

υναμικός Προγραμματισμός

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Ομαδοποίηση Ι (Clustering)

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

Transcript:

Εξόρυξη Δεδομένων

Κλασσικά Βιβλία Αναφοράς Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001 Principles of Data Mining-Hand, Manila and Smyth. MIT Press, 2001. The Elements of Statistical Learning-Data Mining, Inference and Prediction, Springer, 2001.

Ο όρος εξόρυξη δεδομένων αναφέρεται στην εξόρυξη ή την ανακάλυψη νέων πληροφοριών με την μορφή κανόνων ή προτύπων από πηγές δεδομένων. Γιαναείναιπρακτικά χρήσιμες αυτές οι πληροφορίες πρέπει να έχουν εξαχθεί από μεγάλες βάσεις δεδομένων και αρχεία. Η εξόρυξη δεδομένων χρησιμοποιεί τεχνικές από την μηχανική μάθηση, την στατιστική, τα νευρωνικά δίκτυα κοκ. Οι αποθήκες δεδομένων μπορούν να χρησιμοποιηθούν για να υποστηρίξουν την εξόρυξη δεδομένων.

Η εξόρυξη δεδομένων αποτελεί τμήμα της διαδικασίας ανακάλυψης γνώσης από βάσεις δεδομένων (KDD- Knowledge Discovery in Databases). Η διαδικασία αυτή αποτελείται από 6 φάσεις: επιλογή δεδομένων, καθαρισμό, εμπλουτισμό, μετατροπή ή κωδικοποίηση, εξόρυξη, και δημιουργία αναφορών.

Ανακάλυψη γνώσης από βάσεις δεδομένων Πραγματικότητα Απαιτήσεις για «έξυπνα» εργαλεία Ανακαλύπτουν νέα γνώση μέσα από γνωστά δεδομένα Απαιτούν καμία ή μικρή καθοδήγηση από τον χρήστη Χειρίζονται μεγάλους όγκους δεδομένων

Εργαλεία εξόρυξης δεδομένων Εργαλεία Εργαλεία Εργαλεία επεξεργασίας πολυδιάστατης εξόρυξης δεδομένων ανάλυσης δεδομένων OLAP server OLAP server Αποθήκη δεδομένων Φόρτωση/ Ανανέωση Μετασχημ/σμός Εξαγωγή Data mart Data mart Επιχειρησιακά δεδομένα

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ Ανακάλυψη νέων (κρυμμένων) προτύπων και μοντέλων (patterns, models), κανόνες συσχέτισης, ιεραρχίες κατηγοριοποίησης, ομαδοποίηση με (ημι-) αυτόματο και αποδοτικό τρόπο για την περιγραφή των δεδομένων μίας μεγάλης βάσης και την πρόβλεψη και εξήγηση νέων δεδομένων.

Ανακάλυψη γνώσης είναι η διαδικασία εντοπισμού έγκυρων, εν δυνάμει χρήσιμων και κατανοητών πρότυπων (patterns) σε δεδομένα.

Δεδομένα είναι ένα σύνολο F από γεγονότα. Πρότυπο (pattern) είναι μια έκφραση Ε σε μια γλώσσα L που περιγράφει ένα υποσύνολο F E του F. Διαδικασία:Συνήθως πολλών βημάτων, που περιλαμβάνει προετοιμασία των δεδομένων, αναζήτηση προτύπων, και εκλέπτυνση με επανάληψη. Εγκυρότητα:Τα πρότυπα που ανακαλύπτονται πρέπει να ισχύουν και σε νέα δεδομένα με κάποιο βαθμό εμπιστοσύνης. Χρήσιμες:Τα πρότυπα θα πρέπει να οδηγούν σε κάποιες χρήσιμες δράσεις, που εκτιμούνται από κάποια συνάρτηση. Κατανοητά:Πρέπει να είναι πρότυπα κατανοητά από ανθρώπους.

Στόχοι της Εξόρυξης Δεδομένων και Ανακάλυψης Γνώσης Πρόβλεψη-Η εξόρυξη δεδομένων μπορεί να δείξει την συμπεριφορά κάποιων γνωρισμάτων των δεδομένων στο μέλλον Ταυτοποίηση-Οι μορφές των δεδομένων μπορούν να χρησιμοποιηθούν για να προσδιορισθεί η ύπαρξη ενός προϊόντος, ενός γεγονότος, ημιας δραστηριότητας Ταξινόμηση-Η εξόρυξη δεδομένων μπορεί να διαμερίσει τα δεδομένα ώστε να μπορούν να προσδιορισθούν διαφορετικές κλάσεις ή κατηγορίες με βάση συνδυασμούς παραμέτρων

Στόχοι της Εξόρυξης Δεδομένων και Ανακάλυψης Γνώσης (2) Βελτιστοποίηση Ένας ενδεχόμενος στόχος της εξόρυξης δεδομένων μπορεί να είναι η βελτιστοποίηση της χρήσης μέσων όπως ο χρόνος, ο χώρος, το χρήμα, ή τα υλικά και η μεγιστοποίηση των μεταβλητών εξόδου όπως οι πωλήσεις ή τα κέρδη δοθέντων κάποιων περιορισμών. Σαν τέτοιος, αυτός ο στόχος της εξόρυξης δεδομένων προσομοιάζει την αντικειμενική συνάρτηση που χρησιμοποιείται στα προβλήματα επιχειρησιακής έρευνας που αντιμετωπίζει βελτιστοποιήσεις υπό περιορισμούς.

Τύποι Γνώσης που Ανακαλύπτονται κατά την Εξόρυξη Δεδομένων Κανόνες Συσχέτισης Οι κανόνες αυτοί σχετίζουν την ύπαρξη ενός συνόλου προϊόντων με διάστημα τιμών ενός άλλου συνόλου μεταβλητών. Ιεραρχίες Ταξινόμησης Ο στόχος είναι ξεκινώντας από ένα υπάρχον σύνολο γεγονότων ή δοσοληψιών να δημιουργηθεί μια ιεραρχία κλάσεων. Ακολουθιακά πρότυπα Αναζητείται μια ακολουθία ενεργειών ή γεγονότων. Πρότυπα σε χρονοσειρές Μπορεί να εντοπισθούν ομοιότητες στις θέσεις χρονοσειρών. Κατηγοριοποίηση και κατάτμηση Ένα σύνολο γεγονότων ή αντικειμένων μπορεί να διαμερισθεί σε σύνολα παρόμοιων στοιχείων.

Χαρακτηριστικά ενός Συστήματος Εξόρυξης Δεδομένων Διαχείριση Διαφορετικών Τύπων Δεδομένων Αποδοτικότητα των αλγόριθμων εξόρυξης Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων της εξόρυξης. Παρουσίαση σε υψηλό επίπεδο των αιτημάτων και των αποτελεσμάτων από την διαδικασία εξόρυξης Διαδραστική εξόρυξη γνώσης σε διαφορετικά επίπεδα αφαίρεσης. Εξόρυξη Πληροφοριών από διαφορετικές πηγές δεδομένων Προστασία και ασφάλεια δεδομένων.

Τρόποι Ταξινόμησης των Τεχνικών Εξόρυξης Είδη βάσεων δεδομένων με τις οποίες συνεργάζονται (σχεσιακές, αντικειμενοστρεφείς, ετερογενείς, Internet κλπ). Το είδος της γνώσης που εξάγουν (κανόνες συσχέτισης, κανόνες χαρακτηρισμού, κανόνες ταξινόμησης, ) Είδος των τεχνικών που χρησιμοποιούν (αυτόνομη εξόρυξη, εξόρυξη καθοδηγούμενη από δεδομένα, εξόρυξη καθοδηγούμενη από επερωτήσεις).

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ Στατιστική ανάλυση Μηχανική Μάθηση Ο ρόλος του χώρου των Βάσεων Δεδομένων Κλιμάκωση και εξέλιξη υπαρχόντων αλγορίθμων για χειρισμό μεγάλου όγκου δεδομένων Δουλειά σε όλες τις διαδικασίες εξόρυξης Βάσεις δεδομένων Συνολική αντιμετώπιση κοινών προβλημάτων Κατασκευή SQL-aware συστημάτων επεξεργασίας δεδομένων στους αλγόριθμους εξόρυξης δεδομένων Εξέλιξη των ΣΔΒΔ για αποδοτικότερη υποστήριξη μεθόδων εξόρυξης δεδομένων Πχ: ενσωμάτωση data mining primitives

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Βάση Δεδομένων Κάθε Έναν Έναδείγματουπληθυσμούγιατιςοντότητεςτουοποίου πληθυσμό οντότητα ο οποίος έχει Νέχει ομάδες: m ιδιότητες: G 1, G 2, G Α 1, Α Ν 2, Α m γνωρίζουμε σε ποια ομάδα ανήκουν Κατηγοριοποίηση Ανάπτυξη προφίλ για κάθε γνωστή ομάδα Εύρεση όλων (Ν) των οντοτήτων που ανήκουν σε μία δοσμένη ομάδα

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Παράδειγμα: ποιοι πελάτες είναι θετικοί αποδέκτες σε διαφημιστικά φυλλάδια Οι πελάτες χωρίζονται σε θετικούς αποδέκτες και στους άλλους Ιδιότητες κάθε πελάτη: Όνομα, ηλικία, επάγγελμα, κλπ Δεδομένα για πελάτες που απάντησαν σε παλιότερες καμπάνιες Κατηγοριοποίηση Προφίλ θετικών αποδεκτών: (Ηλικία>25 και <55) και μισθός>240000 και Περιοχή=Ν.Προάστεια Εφαρμογή του προφίλ για εύρεση όλων των πελατών για αποστολή νέου υλικού

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Άλλα παραδείγματα εφαρμογών: -Oργάνωση διαφημιστικής καμπάνιας - Πολιτική πίστωσης - Επέκταση επιχειρησιακών δραστηριοτήτων

Κατηγοριοποίηση (Classification) Κατηγοριοποίηση είναι η διαδικασία εκμάθησης ενός μοντέλου που περιγράφει διαφορετικές κλάσεις δεδομένων. Οι κλάσεις έχουν προκαθορισθεί. Αυτή η διαδικασία λέγεται επιβλεπόμενη μάθηση (supervised learning). Μόλις δημιουργηθεί, μπορεί να χρησιμοποιηθεί για ταξινόμηση νέων δεδομένων. Το πρώτο βήμα, επιτυγχάνεται με χρήση ενός συνόλου δεδομένων που έχουν ήδη ταξινομηθεί. Κάθε εγγραφή στα δεδομένα αυτά περιέχει ένα γνώρισμα, που ονομάζεται γνώρισμα κλάσης που δείχνει σε ποια κλάση ανήκει η εγγραφή. Το μοντέλο που παράγεται συνήθως έχει την μορφή δένδρου αποφάσεων ή συνόλου κανόνων. Το μοντέλο θέλουμε να προβλέπει την σωστή κλάση στην οποία ανήκουν νέα δεδομένα.

Διαδικασία δύο βημάτων Δημιουργία του μοντέλου:περιγράφει προκαθορισμένες κλάσεις. Θεωρούμε ότι κάθε πλειάδα ανήκει σε μια προκαθορισμένη κλάση Το σύνολο των πλειάδων που χρησιμοποιούνται για την δημιουργία του μοντέλου αποτελεί το σύνολο εκγύμνασης Το μοντέλο παριστάνεται σαν κανόνες, δένδρο αποφάσεων ή μαθηματικός τύπος Χρήση του μοντέλου για ταξινόμηση μελλοντικών ή άγνωστων δεδομένων Εκτίμηση της ακρίβειας του μοντέλου Συγκρίνεται η γνωστή κλάση δείγματος ελέγχου με αυτή που προκύπτει απότομοντέλο Ακρίβεια είναι το ποσοστό του δείγματος ελέγχου που ταξινομείται σωστά από το μοντέλο Το σύνολο ελέγχου είναι ανεξάρτητο από αυτό της εκμάθησης. Αν η ακρίβεια είναι αποδεκτή χρησιμοποιείται για ταξινόμηση άγνωστων δεδομένων

Αλγόριθμοι Κατηγοριοποίησης Δεδομένα Εκμάθησης Όνομα Βαθμίδα ΧρΠρουπ Μόνμος Κώστας Προϊστάμενος 3 ΟΧΙ Πέτρος Προϊστάμενος 7 ΝΑΙ Άννα Διευθυντής 2 ΝΑΙ Ηλίας Τμηματάρχης 7 ΝΑΙ Ελένη Προϊστάμενος 6 ΟΧΙ Πάνος Τμηματάρχης 3 ΟΧΙ Μοντέλο If Διευθυντής or ΧρΠρουπ>6 then Μόνιμος=ΝΑΙ

Μοντέλο Δεδομένα Ελέγχου Άγνωστα Δεδομένα

Υπάρχουν πολλά μοντέλα κατηγοριοποίησης Ταξινόμηση με δένδρα αποφάσεων Ταξινόμηση Bayes Νευρωνικά δίκτυα Support Vector Machines (SVM) Ταξινομήσεις που βασίζονται σε συσχετίσεις Άλλες μέθοδοι (KNN, Boosting, Bagging κλπ)

Αποτίμηση των Μεθόδων Κατηγοριοποίησης Προβλεπόμενη Ακρίβεια Ταχύτητα και κλιμάκωση Χρόνος Δημιουργίας του μοντέλου Χρόνος Χρήσης Σταθερότητα Διαχείριση θορύβου και χαμένων τιμών Δυνατότητα ερμηνείας Κατανόηση της δομής του μοντέλου Ποιότητα των κανόνων Μέγεθος του δένδρου αποφάσεων Πληρότητα των κανόνων

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Προσεγγίσεις κατηγοριοποίησης: Καθορισμός ενός μετρικού χώρου και υπολογισμός των οντοτήτων που ανήκουν σε μία ομάδα με μέτρο την εγγύτητα: πχ: k-nearest neighbor Προβολή του χώρου σε περιοχές αποφάσεων: πχ: δέντρα αποφάσεων, νευρωνικά δίκτυα Προτάσεις από τον χώρο των βάσεων για κλιμακούμενους αλγορίθμους: SPRINT

Αλγόριθμοι Κατηγοριοποίησης Δεδομένα Εκμάθησης Όνομα Βαθμίδα ΧρΠρουπ Μόνμος Κώστας Προϊστάμενος 3 ΟΧΙ Πέτρος Προϊστάμενος 7 ΝΑΙ Άννα Διευθυντής 2 ΝΑΙ Ηλίας Τμηματάρχης 7 ΝΑΙ Ελένη Προϊστάμενος 6 ΟΧΙ Πάνος Τμηματάρχης 3 ΟΧΙ Μοντέλο If Διευθυντής or ΧρΠρουπ>6 then Μόνιμος=ΝΑΙ

Αλγόριθμος για την επαγωγή δένδρου αποφάσεων Βασικός Αλγόριθμος (Άπληστος) Το δένδρο κατασκευάζεται με αναδρομικό top-down διαίρει και βασίλευε τρόπο Στηναρχήόλαταπαραδείγματαστηρίζα Κατηγορικά Γνωρίσματα (αν είναι συνεχή γίνονται διακριτά Διαμερίζονται με βάση επιλεγμένα γνωρίσματα Τα γνωρίσματα επιλέγονται ευριστικά ή με στατιστικά μέτρα (πληροφοριακό κέρδος) Συνθήκες Τερματισμού των διαμερίσεων Όλα τα δείγματα ενός κόμβου ανήκουν στην ίδια κλάση Δεν υπάρχουν γνωρίσματα για περαιτέρω διαμέριση (για την ταξινόμηση του κόμβου χρησιμοποιείται πλειοψηφία ψήφων) Τελειώνει το δείγμα

Αλγόριθμος Decision Tree Induction Είσοδος: Σύνολο εγγραφών εκπαίδευσης R 1,R 2, R m και ένα σύνολο γνωρισμάτων A 1,A 2, A n. Έξοδος:Δένδρο Αποφάσεων Procedure Build_tree(records, Attributes); begin create a node N; If all Records belong to the same class, C then return N as a leaf node with class label C; If Attributes is empty then return N as a leaf node with class label C, such that the majority of Records belong to it; Select attribute A i (with the highest information gain) from Attributes; Label node N with A i ;

Αλγόριθμος Decision Tree Induction (Συν.) for each known value, V j of A i do begin Add a branch from node N for the condition A i =V j ; S j =subset of records where A i =V j ; If S j is empty then add a leaf, L, with class label C, such that the majority of Records belong to it Return L else add the node returned by Build_tree(S j,attributes-a i ); end; end;

Τι σημαίνει πληροφοριακό κέρδος (Information Gain); Σαν μέτρο του πληροφοριακού κέρδους χρησιμοποιούμε την εντροπία. Οι αναμενόμενες πληροφορίες για την ταξινόμηση δεδομένων εκμάθησης από δείγματα, όταν το γνώρισμα κλάσης έχει n τιμές (v 1,v 2,,v n ) και S i είναι το πλήθος των δειγμάτων που ανήκουν στην κλάση με ετικέτα v i δίδεται από τον τύπο: I(S 1,S2,...Sn) = - pilog2p n i= 1 Όπου p i είναι η πιθανότητα ένα τυχαίο δείγμα να ανήκει στην κλάση v i. Μια εκτίμηση της τιμής p i είναι s i /s. i

Το γνώρισμα Α με τιμές {v 1,,v m } διαμερίζει το δείγμα σε υποσύνολα S 1,S 2, S m όπου όσα ανήκουν στο S i έχουν μια τιμή του v i του Α. Κάθε S i μπορεί να περιέχει δείγματα που ανήκουν σε οποιαδήποτε κλάση. Το πλήθος των S i ανήκουν στην κλάση j συμβολίζεται σαν s ij. Η εντροπία σε σχέση με χρήση του γνωρίσματος Α σαν γνωρίσματος ελέγχου ορίζεται: n Sj1 +... Sjn E( A) = * I( Sj1, Sj2,... S S j= 1 Το I(s j1, s jn ) μπορεί να ορισθεί χρησιμοποιώντας τον τύπο για το I(s 1, s n ) αντικαθιστώντας το p i με το p ji όπου p ji =s ji /s. Το κέρδος ορίζεται σαν Gain(A)=I(s 1, s n )-E(A) jn )

Εγγαμος Μισθος Υπ_Λογ Ηλικία Μπορεί Δαν οχι >=50Κ <5Κ >=25 ναι ναι >=50Κ >=5Κ >=25 ναι ναι 20Κ 50Κ <5Κ <25 οχι οχι <20Κ >=5Κ <265 οχι οχι <20Κ <5Κ >=25 οχι ναι 20Κ 50Κ >=5Κ >=25 ναι I(3,3)=-0.5log 2 0.5-0.5log 2 0.5=1 Έγγαμος=ναι s 11 =2, s 21 =1 I(s 11,s 12 )=0.92 Έγγαμος=οχι s 12 =1, s 22 =2 I(s 12,s 22 )=0.92 Επομένως E(Εγγαμος)=3/6 I(s 11,s 12 )+3/6 I(s 12,s 22 )=0.92 Και κέρδος 1-0.92=0.08

Όμοια Ε(Μισθος)=0.33 και Gain(Μισθος)=0.67 E(ΥπΛογ)=0.82 και Gain(ΥπΛογ)=0.18 Ε(Ηλικια)=0.81 και Gain(Ηλικια)=0.19

ΕΓΓΑΜΟΣ ναι οχι ΜΙΣΘΟΣ ΥΠΟΛ_ΛΟΓ <20Κ Χαμηλού ρίσκου >=20Κ <50Κ Μεγάλου ρίσκου Υψηλού ρίσκου >=50Κ <5Κ >=5Κ Χαμηλού ρίσκου ΗΛΙΚΙΑ <25 >=25 Μεσαίου ρίσκου Υψηλού ρίσκου

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Βάση Δεδομένων Έναν πληθυσμό Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α 1, Α 2, Α m Ομαδοποίηση Διαχωρισμός του πληθυσμού σε ομάδες Για κάθε ομάδα, εύρεση του προφίλ των οντοτήτων που ανήκουν σε αυτή

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Παράδειγμα: μία βάση με δημογραφικά στοιχεία Κάθε οντότητα έχει ιδιότητες: ηλικία, οικονομική κατάσταση, περιοχή, μόρφωση Ομαδοποίηση Διαχωρισμός του πληθυσμού σε επίπεδα μόρφωσης Με βάση την ηλικία και την οικονομικά κατάσταση

Ομαδοποίηση τα παρόμοια στην ίδια ομάδα Μεμονωμένα σημεία (outliers) Ομάδα 2 Ομάδα 1

Τα σημεία που είναι σε ομάδα πρέπει Στην ίδια ομάδα αυτά που μοιάζουν Τα διαφορετικά σε διαφορετικές ομάδες Οι ομάδες δεν είναι προκαθορισμένες (μη επιβλεπόμενη εκμάθηση)

Απαιτήσεις για τις Ομάδες Δυνατότητα αντιμετώπισης διαφορετικών τύπων γνωρισμάτων Ανακάλυψη συστάδων οποιουδήποτε σχήματος Αντιμετώπιση θορύβου στα δεδομένα Πολλές διαστάσεις Ευστάθεια σε σχέση με το μέγεθος των δεδομένων Ενσωμάτωση περιορισμών που εισάγει ο χρήστης Δυνατότητα ανακάλυψης όλων των κρυμμένων προτύπων.

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Άλλα παραδείγματα εφαρμογών: Εξερεύνηση δεδομένων Targeted Marketing Ταξινόμηση Εγγράφων Ταξινόμηση ακολουθιών γονιδιώματος

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Προσεγγίσεις ομαδοποίησης: 1. Distance-based: k-means, HAC (Hierarchical Agglomerative Clustering) 2. Model-based: Expectation-Maximization(EM) 3. Partition-based: 4. Ιεραρχικές Μέθοδοι Προτάσεις από τον χώρο των βάσεων για κλιμακούμενους αλγορίθμους: DBSCAN, CLARANS

Για δεδομένα που χωράνε στη μνήμη Λέγεται και object-by variable δομή Πίνακας δεδομένων n αντικείμενα με p μεταβλητές x x... x 11 21 n1... x... x... x 1 j 2 j nj... x... x... x 1p 2 p np

Πίνακας διαφορετικότητας (dissimilarity matrix) Προσέγγιση αντικειμένων d ij μη ομοιότητα αντικειμένων Μη αρνητική Είναι κοντά όσο πλησιάζει το 0 0... d 21 d 31...... d n1 0... d d 32 n2... 0... d n,n-1 0

Θέλουμε μεγάλη ομοιότητα (ανάλογα με κάποιο μέτρο ομοιότητας) εντός των κλάσεων και μικρή μεταξύ των κλάσεων. (Συνήθως οι ομάδες είναι ξένες μεταξύ τους). Ένα χαρακτηριστικό στοιχείο είναι η συνάρτηση ομοιότητας που χρησιμοποιείται. Όταν τα δεδομένα είναι αριθμητικά μπορεί να χρησιμοποιηθεί μια συνάρτηση που βασίζεται στην απόσταση.

Συνάρτηση Ομοιότητας Ευκλείδεια Απόσταση απόσταση 2 2 2 ( rj; rk) = rj1 rk 1 + rj2 rk 2 +... + rjn rkn Όσο μικρότερη είναι η απόσταση τόσο μεγαλώνει η ομοιότητα. Ένας κλασσικός αλγόριθμος είναι αυτός των k μέσων (k means)

Γενικευμένη απόσταση είναι η απόσταση Minkowski q q q q d(i, j) = x i1 - x j1 + x i2 - x j2 +... + x in - x jn Ηοποίαγιαq=2 είναι η Ευκλείδεια ενώ για q=1 είναι η Manhattan απόσταση Απόσταση με βάρη: d(i, j) = q w 1 q q q xi1 - x j1 + w 2 x i2 - x j2 +... + wn xin - x jn

Ιδιότητες της απόστασης Minkowski Μη αρνητική d(i,j) 0 d(i,i)=0 Συμμετρική: d(i,j)=d(j,i) Τριγωνική ανισότητα: d(i,j) d(i,k)+d(k,j)

Κατηγορίες αλγορίθμων για δημιουργία συστάδων Αλγόριθμοι διαμέρισης: Διαμερίζονται τα αντικείμενα σε k συστάδες. Με επανάληψη επανατοποθετούνται τα αντικείμενα ώστε να δημιουργηθούν καλλίτερες συστάδες. Ιεραρχικοί αλγόριθμοι: Δύο προσεγγίσεις 1)κάθε αντικείμενο είναι μια κλάση και γίνεται συνένωση των κλάσεων για δημιουργία μεγαλυτέρων ή 2)όλα τα αντικείμενα θεωρούνται μια κλάση και διασπώνται σε μικρότερες. Μέθοδοι που βασίζονται στην πυκνότητα:συναρτήσεις πυκνότητας Μέθοδοι που βασίζονται σε πλέγματα:ποσοτικοποιείται ο χώρος των αντικειμένων σε μια δομή πλέγματος Με βάση μοντέλο:χρησιμοποίηση ενός μοντέλου για να βρεθεί η καλλίτερη προσέγγιση των δεδομένων

Αλγόριθμοι διαμέρισης Διαμερίζονται τα k αντικείμενα σε k συστάδες με βελτιστοποίηση του κριτηρίου που επιλέγεται για την διαμέριση. Γιαναβρεθείτοκαθολικόβέλτιστοπρέπειναεξετασθούνόλεςοι διαμερίσεις, οι πιθανές διαμερίσεις είναι k n -(k-1) n - -1 που είναι πάρα πολλές. Ευριστικές μέθοδοι: K-means δηλαδή μια συστάδα παριστάνεται με το κέντρο της ή k metoids δηλαδή κάθε συστάδα παριστάνεται απόένααντικείμενοτης

Σκιαγράφηση του k means Αυθαίρετη επιλογή k αντικειμένων σαν τα αρχικά κέντρα των συστάδων. Μεταφορά ενός αντικειμένου στη συστάδα που το προσεγγίζει περισσότερο με βάση την μέση τιμή των αντικειμένων στη συστάδα. Ενημέρωση των μέσων τιμών των συστάδων.

K means αλγόριθμος Είσοδος: μια βάση δεδομένων D με m εγγραφές r 1,r 2, r m και ένα επιθυμητό πλήθος συστάδων k Έξοδος:ένα σύνολο από k ομάδες που ελαχιστοποιούν το κριτήριο του τετραγωνικού λάθους begin Τυχαία επιλογή των k εγγραφών σαν κέντρων των k συστάδων Repeat Κάθε εγγραφή r i τοποθετείται σε μια συστάδα έτσι που η απόσταση μεταξύ της r i και του κέντρου της συστάδας να είναι η μικρότερη από τις k συστάδες Υπολογίζεται ξανά το κέντρο για κάθε συστάδα με βάση τις εγγραφές που περιέχει Μέχρι να μην υπάρχει αλλαγή end;

Η συνθήκη τερματισμού συνήθως είναι το κριτήριο του τετραγωνικού λάθους. Για τις συστάδες C 1,C 2,,C k με μέσους m 1,m 2,,m k το λάθος ορίζεται: Λάθος = k i= 1 r C j απόσταση(r i j,m i ) 2

Ο μέσος για μια ομάδα, C i, με n εγγραφές m διαστάσεων είναι το διάνυσμα: = i j i j C r jm C r ji i r n r n C 1..., 1

ID Ηλικια Προυπηρεσία 1 30 5 2 50 25 3 50 15 4 25 5 5 30 10 6 55 25 Έστω ότι θέλουμε 2 συστάδες και ας υποθέσουμε ότι ξεκινάμε με το 3 (C 1 ) και το 6 (C 2 ) για κέντρα. Το 1 απέχει 22.4 από το C 1 και 32.0 από το C 2. Επομένως πάει στο C 1. Το 2 απέχει 10.0 και 5.0 αντίστοιχα και επομένως πάει στο C 2 Όμοια το 4 απέχει 25.5 από το C 1 και 36.6 από το C 2 και επομένως πάει στο C 1. Τέλος το 5 απέχει 20.6 από το C 1 και 29.2 από το C 2 και επομένως πάει στο C 1.

Πλεονεκτήματα και Μειονεκτήματα του k means Έχει σχετικά καλή απόδοση Ο(tkn) (n αντικείμενα, k ομάδες και t επαναλήψεις k,t <<n. Συνήθωςβρίσκειένατοπικόβέλτιστο. Μπορεί να εφαρμοσθεί μόνο όταν ορίζεται ο μέσος (τι γίνεται όταν έχουμε κατηγορικά δεδομένα). Πρέπει να ορισθεί το πλήθος των ομάδων Δεν αντιμετωπίζει δεδομένα με θόρυβο Δεν βρίσκει μη κυρτές ομάδες.

Υπολογισμός των κέντρων (όταν οι οντότητες i I εμφανίζονται σαν γραμμές y i R n ) Το κέντρο βάρους y(s)=σ i S y i / S Οι συντελεστές της εξίσωσης γραμμικής παλινδρόμησης μιας μεταβλητής σε σχέση με τις άλλες (στο S)

Υπολογισμός των κέντρων (όταν τα δεδομένα παριστάνονται με τον πίνακα ανομοιότητας ) Μια οντότητα i I που ελαχιστοποιεί την συνολική ανομοιότητα d(i, S)=Σ j S d ij / S ή d(i,s)=max j S d ij ή d(i,s)=min j S d ij

Παραλλαγές του k means Παραλλαγές σε Επιλογή των αρχικών K Υπολογισμοί σε διαφορά Στρατηγικές στον υπολογισμό του μέσου των συστάδων Κατηγορικά δεδομένα Χρήση mode αντί για mean (το πιο συχνό) Ανάμειξη κατηγορικών και αριθμητικών δεδομένων

Παραλλαγές του k means Παραλλαγές στην επιλογή των αρχικών k μέσων Στη στρατηγική υπολογισμού του μέσου της συστάδας. Για αντιμετώπιση κατηγορικών δεδομένων.

Ιεραρχικές Μέθοδοι AGNES Αρχικά κάθε αντικείμενο είναι μια ομάδα. Βήμαβήμα συγχωνεύονται οι ομάδες DIANA (Divisive Analysis) Αρχικά όλα τα αντικείμενα είναι μια ομάδα. Βήμα-βήμα διασπώνται οι ομάδες

Ιεραρχικές Μέθοδοι Δύσκολο να βρεθούν τα σημεία διάσπασης/συγχώνευσης Δεν έχουν καλή απόδοση Ο(n 2 ) Ενοποίηση ιεραρχικών με άλλες τεχνικές

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Βάση Δεδομένων Μία βάση δοσοληψιών: Τ1, Τ2, Κάθε δοσοληψία αφορά μία λίστα αντικειμένων (τιμών) Εύρεση συσχετίσεων X Y Εύρεση συσχετίσεων μεταξύ αντικειμένων μίας δοσοληψίας

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Εύρεση συσχετίσεων με βάση: Εμπιστοσύνη (confidence) c: Στις c% των περιπτώσεων που υπάρχει το Χ τότε υπάρχει και το Υ Στήριξη (support) s : Ο κανόνας υποστηρίζεται από το s% των συνολικών δοσοληψιών

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Παράδειγμα: ποια προϊόντα αγοράζουν μαζί οι πελάτες ενός καταστήματος (>60%) Μία βάση δοσοληψιών: Τ1, Τ2, Κάθε δοσοληψία αφορά ένα καλάθι αγαθών Εύρεση συσχετίσεων Ψωμί Βούτυρο (70%)

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Άλλα παραδείγματα εφαρμογών: Σχεδιασμός των προμηθειών ενός σούπερ μάρκετ Σχεδιασμός καταλόγου Οργάνωση καταστήματος

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Αλγόριθμοι: Apriori Βασική ιδέα: Διάσπαση του προβλήματος σε δύο υποπροβλήματα Εύρεση όλων των συνδυασμών των αντικειμένων που υπάρχουν σε ποσοστό δοσοληψιών μεγαλύτερο του ποσοστού στήριξης. Χρήση των συνδυασμών για παραγωγή κανόνων. Αν για παράδειγμα ΑΒΓΔ και ΑΒ είναι τέτοιοι συνδυασμοί, υπολογίζουμε το r=support(abγδ)/support(ab). Αν το r>confidence τότε ισχύει ο κανόνας ΑΒ ΓΔ

Εξόρυξη Κανόνων Συσχέτισης Ένας κανόνας συσχέτισης είναι της μορφής X Y όπου τα X={x 1, x 2,, x n } και Y={y 1, y 2,, y m } είναι σύνολα αντικειμένων, με τα x i και y j να είναι διακριτά αντικείμενα για κάθε i και j. Η συσχέτιση αυτή λέει ότι αν ένας πελάτης αγοράζει το X είναι πιθανό να αγοράσει και το Y επίσης. Γενικά κάθε κανόνας συσχέτισης έχει την μορφή LHS (αριστερό μέλος) RHS (δεξιό μέλος), όπου τα LHS και RHS είναι σύνολα αντικειμένων. Το LHS RHS λέγεται σύνολο αντικειμένων.

Εξόρυξη Κανόνων Συσχέτισης Η στήριξη του κανόνα LHS RHS είναι το ποσοστό των δοσοληψιών που περιλαμβάνουν όλα τα αντικείμενα της ένωσης LHS RHS. Δηλαδή η στήριξη είναι το ποσοστό των δοσοληψιών που περιέχουν όλα τα αντικείμενα του συνόλου. Αν η στήριξη είναι χαμηλή αυτό συνεπάγεται ότι δεν υπάρχει σαφής ένδειξη ότι τα αντικείμενα LHS RHS εμφανίζονται μαζί.

Κωδικός Δοσοληψ. Ώρα Προϊόντα 102 06:35 γάλα, ψωμί, βουτήματα, χυμός 792 07:38 γάλα, χυμός 1130 08:05 γάλα, αυγά 1735 08:40 ψωμί, βουτήματα, καφές Στήριξη {γάλα.,χυμός} 50% Στήριξη {ψωμί.,χυμός} 25%

Εμπιστοσύνη Η εμπιστοσύνη του κανόνα συσχέτισης LHS RHS είναι το ποσοστό των δοσοληψιών που περιλαμβάνουν επίσης το RHS. Ένας άλλος όρος για την εμπιστοσύνη είναι η ισχύς του κανόνα Εμπιστοσύνη γάλα χυμός 66.7% Εμπιστοσύνη ψωμί χυμός 50%

Ο στόχος της εξόρυξης κανόνων συσχέτισης, είναι η δημιουργία όλων των πιθανών κανόνων που ξεπερνούν κάποια όρια στήριξης και εμπιστοσύνης. Το πρόβλημα χωρίζεται σε δύο υποπροβλήματα: α)δημιουργία όλων των συνόλων αντικειμένων που ξεπερνούν το όριο. Τα σύνολα αυτά ονομάζονται μεγάλα (ήσυχνά). Μεγάλα εννοούμε με μεγάλη στήριξη β)για κάθε μεγάλο σύνολο, δημιουργούνται δημιουργούνται όλοι οι κανόνες με ελάχιστη εμπιστοσύνη: για ένα μεγάλο σύνολο αντικειμένων X και Y X, έστω Z=X-Y τότε αν στήριξη(x)/στήριξη(z)> ελάχιστη εμπιστοσύνη, ο κανόνας Z=>Y (δηλαδή X-Y Y) είναι ένας έγκυρος κανόνας

Η εύρεση όλων των μεγάλων συνόλων αντικειμένων με τις τιμές στήριξης είναι ένα δύσκολο πρόβλημα. Για βελτίωση των αλγορίθμων για εύρεση των κανόνων συσχέτισης χρησιμοποιούνται οι ιδιότητες: Ένα υποσύνολο ενός μεγάλου συνόλου αντικειμένων πρέπει να είναι επίσης μεγάλο (downward closure) Αντίστροφα, ένα υπερσύνολο ενός μικρού συνόλου αντικειμένων είναι επίσης μικρό. (antimonotonicity)

Apriori Αλγόριθμος για εύρεση συχνών συνόλων Είσοδος: βάση δεδομένων από m δοσοληψίες D, και ελάχιστη στήρξη mins (ποσοστό του m). Έξοδος: συχνά σύνολα L 1, L 2, L k Υπολογισμός support(i j )=count(i j )/m για κάθε αντικείμενο. Το υποσύνολο των στοιχείων i j με support(i j ) >mins αποτελεί το L1. k=1 Δημιουργία των υποψηφίων k+1 C k+1 γίνεται με συνδυασμό των μελών των L k που έχουν k-1 κοινά στοιχεία. Θεωρούμε σαν στοιχεία του C k+1 αυτά τα k+1 έτσι που κάθε υποσύνολο μεγέθους k εμφανίζεται στο L k. Υπολογίζεται η στήριξη αυτών και επιλέγονται μόνο εκείνα με στήριξη >mins Αν το είναι L k+1 είναι κενό τοτε τερματίζεται διαφορετικά επανάληψη με k=k+1.

Ο apriori αλγόριθμος C k : υποψήφιο υποσύνολο αντικειμένων μεγέθους k L k : συχνό υποσύνολο αντικειμένων μεγέθους k L 1 ={συχνά αντικείμενα} for (k=1; L k!= ; k++1} do C k+1 υποψήφια που δημιουργήθηκαν από το L k για κάθε δοσοληψία t στη βάση δεδομένων αύξησε τον μετρητή όλων των υποψήφιων στο C k+1 που περιέχονται στο t L k+1 : τα υποψήφια του C k+1 k L k ;

Προβλήματα Πολλαπλά περάσματα της βάσης δεδομένων δοσοληψιών Τεράστιος Αριθμός υποψηφίων Τεράστιος όγκος εργασίας για καταμέτρηση των υποψηφίων

Βελτίωση του apriori Ελάττωση του πλήθους των περασμάτων της βάσης δεδομένων των δοσοληψιών Συρρίκνωση του πλήθους των υποψηφίων Διευκόλυνση στο μέτρημα των υποψηφίων.

Ελαχιστοποίηση του πλήθους των περασμάτων ABCD ABC ABD ACD BCD AB AC BC AD BD CD Μόλις τα A και D βγουν συχνά μπορεί να αρχίσει το AD Μόλις βγουν όλα τα υποσύνολα 2 του BCD μπορεί να αρχίσει το μέτρημα του BCD Δοσοληψίες A A B C D A priori {}

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Ένα σύνολο ακολουθιών: C1, C2, Κάθε ακολουθία C είναι μία λίστα δοσοληψιών: C(Τ1, Τ2, ) ΚάθεδοσοληψίαΤαφοράμίαλίστααντικειμένων(τιμών): Τ(i 1, i 2, ) Εύρεση ακολουθιακών προτύπων Ένα ακολουθιακό πρότυπο είναι μία λίστα συνόλων: (s1,s2,.) Κάθε σύνολο s περιέχει κάποια αντικείμενα από μία δοσοληψία: s=(i k, i l,..) Τα σύνολα είναι διατεταγμένα μέσα στηλίσταμεβάσητηχρονικήδιάταξη των δοσοληψιών Εύρεση ακολουθιακών προτύπων με βάση ένα ελάχιστο στήριξης (support) ως προς τις ακολουθίες

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Παράδειγμα: τι είδους αγορές κάνουν οι πελάτες ενός εκδοτικού οίκου; Κάθε πελάτης αντιπροσωπεύεται από μία ακολουθία αγορών Κάθε αγορά (δοσοληψία) αφορά ένα σύνολο βιβλίων Εύρεση ακολουθιακών προτύπων Ένα ακολουθιακό πρότυπο είναι: { («Πόλεμος και Ειρήνη»), («Ιστορικά», «Απομνημονεύματα») } με ποσοστό στήριξης 55%

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Άλλα παραδείγματα εφαρμογών: Εμπορικές εφαρμογές με στόχο την ικανοποίηση των πελατών Έρευνα στην ιατρική

Τι σημαίνει εξόρυξη ακολουθιακών προτύπων; Δοθέντος ενός συνόλου ακολουθιών να βρεθεί το πήρες σύνολο των συχνών υποακακολουθιών. Μια ακολουθιακή βάση Μια ακολουθία : < (ef) (ab) (df) c b > SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Μια καταχώρηση μπορεί να περιέχει ένα σύνολο στοιχείων. Τα στοιχεία δεν είναι ταξινομημένα. <a(bc)dc> είναι μια υποακολουθία της <a(abc)(ac)d(cf)> Δοθείσης μιας ελάχιστης στήριξης min_sup =2, το <(ab)c> είναι ένα ακολουθιακό πρότυπο

Προβλήματα με την εξόρυξη ακολουθιακών προτύπων Τοπλήθοςτωνακολουθιακώνπροτύπωνπουμπορείνα κρύβονται σε μια βάση δεδομένων είναι τεράστιο. Ένας αλγόριθμος εξόρυξης θα πρέπει:1)να βρίσκει όλα τα ακολουθιακά πρότυπα με ελάχιστη στήριξη, 2)να είναι αποτελεσματικός (ελάχιστα περάσματα της βάσης δεδομένων)και 3) να μπορεί να ενσωματώνει περιορισμούς που επιβάλλει ο χρήστης.

Βασική ιδιότητα ακολουθιακών προτύπων (apriori) Αν μια ακολουθία S δεν είναι συχνή τότε οι υπέρακολουθίες της S δεν είναι συχνές. ID Ακολουθία 10 <(bd),c,b,(ac)> 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(bc)(ce)d> 50 <a(bd)bcb(ade)> Αν το <hb> δεν είναι συχνό τότε δεν είναι και τα <hab> και <(ah)b>. Υποθέτοντας ελάχιστη στήριξη 2

Βασικός Αλγόριθμος με προτεραιότητα πλάτους (Breadth First) L=1 (while result L!=null) Δημιουργία των υποψήφιων Περικοπή (prune) Έλεγχος L=L+1

Εύρεση ακολουθιακών προτύπων μήκους 1 Αρχικοί υποψήφιοι: όλες οι ακολουθίες μήκους 1 <a>, <b>, <c>, <d>, <e>, <f>, <g>, <h> Σάρωση της βάσης δεδομένων μια φορά, υπολογισμός της στήριξης για τα υποψήφια min_sup =2 Seq. ID 10 20 30 40 50 Ακολουθία <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)> Υποψ Στηρ <a> 3 <b> 5 <c> 4 <d> 3 <e> 3 <f> 2 <g> 1 <h> 1

<(bd)cba> <abba> <(bd)bc> Δεν ξεπερνούν το κατώφλι Δεν βρίσκονται στην βάση Πέρασμα 3 υποψ. 46 μεγέθους 3 19 20 δεν είναι στη βάση <abb> <aab> <aba> <baa> <bab> Πέρασμα 2 υποψ. 51 μεγέθους 2 19 10 δεν είναι στη βάση Πέρασμα 1 υποψ. 8 μένουν 6 <aa> <ab> <af> <ba> <bb> <ff> <(ab)> <(ef)> <a> <b> <c> <d> <e> <f> <g> <h> ID Ακολουθία 10 <(bd),c,b,(ac)> 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(bc)(ce)d> 50 <a(bd)bcb(ade)>

Δημιουργία υποψηφίων μήκους-2 51 υποψήφια μεγέθους-2 <a> <b> <c> <d> <e> <f> <a> <aa> <ab> <ac> <ad> <ae> <af> <b> <ba> <bb> <bc> <bd> <be> <bf> <c> <ca> <cb> <cc> <cd> <ce> <cf> <d> <da> <db> <dc> <dd> <de> <df> <e> <ea> <eb> <ec> <ed> <ee> <ef> <f> <fa> <fb> <fc> <fd> <fe> <ff> <a> <b> <c> <d> <e> <f> <a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)> <b> <(bc)> <(bd)> <(be)> <(bf)> <c> <(cd)> <(ce)> <(cf)> <d> <(de)> <(df)> <e> <(ef)> <f> Χωρίς την Apriori ιδιότητα, 8*8+8*7/2=92 υποψήφια Ο Apriori περικόπτει 44.57% υποψήφια

Ανάπτυξη Προτύπου (prefixspan) Προθεματική (Prefix) και μεταθεματική (Suffix) προνολές τα <a>, <aa>, <a(ab)> and <a(abc)> είναι prefixes της ακολουθίας <a(abc)(ac)d(cf)> Όταν δίδεται η ακολουθία <a(abc)(ac)d(cf)> Prefix <a> <aa> <ab> Suffix (με βάση την Prefix προβολή) <(abc)(ac)d(cf)> <(_bc)(ac)d(cf)> <(_c)(ac)d(cf)>

Παράδειγμα Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Παράδειγμα ( min_sup=2): Prefix <a> <b> <c> <d> <e> <f> Sequential Patterns <a>,<aa>,<ab><a(bc)>,<a(bc)a>,<aba>,<abc>,<(ab)>,<(ab)c>,<(a b)d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af> <b>, <ba>, <bc>, <(bc)>, <(bc)a>, <bd>, <bdc>,<bf> <c>, <ca>, <cb>, <cc> <d>,<db>,<dc>, <dcb> <e>,<ea>,<eab>,<eac>,<eacb>,<eb>,<ebc>,<ec>,<ecb>,<ef>,<efb >,<efc>,<efcb> <f>,<fb>,<fbc>, <fc>, <fcb>

PrefixSpan Βήμα 1: Εύρεση των ακολουθιακών προτύπων μήκους 1 <a>:4, <b>:4, <c>:4, <d>:3, <e>:3, <f>:3 Βήμα 2: Διαχωρισμός του χώρου αναζήτησης έξη υποσύνολα σύμφωνα με τα έξη προθέματα; στήριξη πρότυπο Βήμα 3: Βρες τα υποσύνολα των ακολουθιακών προτύπων; Κατασκευή των αντίστοιχων προβολών της βάσης και αναδρομική εξόρυξη κάθεμιας.

Παράδειγμα Sequence_id Sequence Projected(suffix) databases 10 <a(abc)(ac)d(cf)> <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> <(ef)(ab)(df)cb> 40 <eg(af)cbc> <eg(af)cbc> Prefix Projected(suffix) databases Sequential Patterns <a> <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b)(df)cb>, <(_f)cbc> <a>,<aa>,<ab><a(bc)>,<a(bc)a>, <aba>,<abc>,<(ab)>,<(ab)c>,<(ab )d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af>

Παράδειγμα Εύρεση των ακολουθιακών προτύπων με πρόθεμα <a>: 1. Σάρωση της βάσης S. Προβάλλονται οι ακολουθίες στην S που περιέχουν <a> για να σχηματισθεί η <a>-προβολή. 2. Σάρωση της <a>-προβολής δίνει 6 ακολουθιακά πρότυπα μήκους-2 με πρόθεμα το <a> : <a>:2, <b>:4, <(_b)>:2, <c>:4, <d>:2, <f>:2 <aa>:2, <ab>:4, <(ab)>:2, <ac>:4, <ad>:2, <af>:2 3. Αναδρομικά, μπορούν να διαμερισθούν τα ακολουθιακά πρότυπα με πρόθεμα το <a> σε 6 υποσύνολα. Κατασκευάζονται οι αντίστοιχες προβολέςκαι γίνεται εξόρυξη στην κάθεμια. δηλ. η <aa>-προβολή έχει δύο ακολουθίες : <(_bc)(ac)d(cf)> και <(_e)>.

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Βάση Δεδομένων Μία βάση χρονικών ακολουθιών Ομαδοποίηση χρονικών ακολουθιών t Ομαδοποίηση χρονικών ακολουθιών (time-series clustering) Εύρεση παρόμοιων ακολουθιών ή ακολουθιών που μοιάζουν με μία δοσμένη

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ Κατηγοριοποίηση (classification) Ομαδοποίηση (Clustering) Κανόνες συσχέτισης (association rules) Ακολουθιακά πρότυπα (sequential patterns) Παραδείγματα εφαρμογών: Εύρεση προμηθειών με παρόμοιες κινήσεις Παρακολούθηση πορείας ανταγωνιστών Ομαδοποίηση χρονικών ακολουθιών (time-series clustering)

Οι βασικές δομές πολλών βιολογιών (μικρο)μορίων είναι ακολουθίες γραμμάτων παρά την 3D δομή τους. Ηπρωτεΐνη έχει20 αμινοξέα. Το DNA έχει ένα αλφάβητο από 4 βάσεις {A, T, G, C} Το RNA έχει ένα αλφάβητο {A, U, G, C} Κείμενα Ημερολόγια δοσοληψιών Ακολουθίες σημάτων Δομικές ομοιότητες σε επίπεδο ακολουθίας συχνά δείχνουν ψηλή μεγάλη πιθανότητα να σχετίζονται λειτουργικά/σημασιολογικά.

Περιγραφή του Προβλήματος Η ομαδοποίηση που βασίζεται σε δομικά χαρακτηριστικά μπορεί να αποτελέσει ισχυρό εργαλείο για διαχωρισμό ακολουθιών σε διαφορετικές λειτουργικές κατηγορίες. Ο στόχος είναι να δημιουργηθεί μια ομαδοποίηση ακολουθιών ώστε οι ακολουθίες σε κάθε ομάδα να έχουν κοινά χαρακτηριστικά. Το αποτέλεσμα μπορεί να αποκαλύψει άγνωστες δομικές και λειτουργικές κατηγορίες που μπορεί να οδηγήσουν σε καλύτερη κατανόηση του χώρου. Πρόκληση: πως μετριέται η δομική ομοιότητα?

Μέτρα Ομοιότητας Απόσταση στοιχείων: Υπολογιστικά ασύμφορη είναι καλή για την βέλτιστη σειρά ενώ αγνοεί άλλες τοπικές που συχνά αντιπροσωπεύουν σημαντικά χαρακτηριστικά κοινά σε ζεύγη ακολουθιών. Προσέγγιση που βασίζεται σε q-gram : Αγνοεί την ακολουθιακή συσχέτιση (π.χ., διάταξη, εξάρτηση, κλπ.) μεταξύ των q-grams Κρυμμένο μοντέλο Markov: Αντιλαμβάνεται μερικές συσχετίσεις και στατιστικές χαμηλής τάξης Ευάλωτο σε θόρυβο και κακές τιμές παραμέτρων Υπολογιστικά μη αποτελεσματικό

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ Προϊόν BusinessMiner (Business Objects) DBMiner(SFU) Kepler (GMD) Mineset (SGI) IND (Nasa) Intelligent Miner (IBM) Brute (Univ. of Washington) MSBN (Microsoft) Διαδικασία Πρόβλεψη, Κατηγοριοποίηση, Συσχετίσεις Κατηγοριοποίηση, Πρόβλεψη, Συσχετίσεις, Ομαδοποίηση Κατηγοριοποίηση, Πρόβλεψη Κατηγοριοποίηση, Συσχετίσεις Πρόβλεψη, Συσχετίσεις

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ Υλοποίηση συνδυασμών διαδικασιών Off-line επεξεργασία δεδομένων Έλλειψη ολοκλήρωσης με την τεχνολογία των βάσεων Βελτίωση διασύνδεσης με τον χρήστη

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ ΣΥΝΟΨΗ Τομέας εξελισσόμενος Ερευνητικό και εμπορικό ενδιαφέρον Ολοκλήρωση προσεγγίσεων από διαφορετικούς τομείς

Εξόρυξη Δεδομένων (Data Mining) OΡΙΣΜΟΣ ΤΕΧΝΟΛΟΓΙΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΡΓΑΛΕΙΑ ΣΥΝΟΨΗ Αναγνώριση νέων διαδικασιών εξόρυξης Εύρεση αρχιτεκτονικής για την εξόρυξη δεδομένων Προσαρμογή αλγορίθμων για μεγάλες βάσεις Ολοκλήρωση με συστήματα βάσεων δεδομένων Επέκταση συστημάτων βάσεων δεδομένων Βελτίωση εργαλείων Ανάπτυξη γλωσσών εξόρυξης