14Ιαν Νοε

Σχετικά έγγραφα
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

(training data) (test data)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Άμεση Αναλυτική Επεξεργασία (OLAP)

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση

Ευφυής Προγραμματισμός

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Data Cube. Μ.Χατζόπουλος 1

Εισαγωγή στις Αποθήκες εδομένων

Υπερπροσαρμογή (Overfitting) (1)

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Επισκόπηση περιοχής. Γιάννης Θεοδωρίδης

Ευφυής Προγραμματισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Εισαγωγή στις Αποθήκες εδοµένων

Εισαγωγή στις Αποθήκες εδομένων

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, ίαυλος ιαφάνεια 29-1

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Σχεδίαση & Ανάλυση Αλγορίθμων

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

11.1. Θεωρητικό υπόβαθρο για τους κύβους δεδομένων και την πολυδιάστατη ανάλυση

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Ομαδοποίηση Ι (Clustering)

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Σχεδίαση και Ανάλυση Αλγορίθμων

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

Ασκήσεις μελέτης της 16 ης διάλεξης

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Αποθήκες εδομένων και Εξόρυξη εδομένων:

6. ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

4.3. Γραµµικοί ταξινοµητές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Επεξεργασία Ερωτήσεων

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

7. ΣΥΣΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

2 ο Σύνολο Ασκήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ομαδοποίηση ΙΙ (Clustering)

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Βάσεις Δεδομένων (Ε) Εισαγωγή στην υλοποίηση σχεσιακών βάσεων δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Περιεχόµενα. 1 Εισαγωγή στις οµές εδοµένων 3. 2 Στοίβα (Stack) 5

Heapsort Using Multiple Heaps

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Απλοποιεί τα γεγονότα έτσι ώστε να περιγράφει τι έχει γίνει και όχι πως έχει γίνει.

Διδάσκουσα: Χάλκου Χαρά,

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Transcript:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Επανάληψη Γιάννης Θεοδωρίδης, Νίκος Πελέκης Εργαστήριο Πληροφοριακών Συστηµάτων http://infolab.cs.unipi.gr 14Ιαν. 10 Αποθήκες εδοµένων 05Νοε. 08.1

Από τις Β στις Α Μια αποθήκη δεδοµένων κρατά συνοπτική πληροφορία για κάποιο υποσύνολο των (επιχειρησιακών) δεδοµένων Product Time time ID day_of_week month quarter year Sales (fact table) time ID product ID location ID quantity turnover product ID description type type description Location location ID zip code city state Μια Α ορίζεται πάνω στα δεδοµένα µιας (επιχειρησιακής) Β και η πλήρωσή της γίνεται µε κατάλληλη διαδικασία φόρτωσης «διαστάσεις» (dimensions) της Α : οι πίνακες Time, Product, Location «µετρήσιµα µεγέθη» (measures) της Α : οι συναθροιστικές τιµές quantity, turnover ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Όψη κύβου δεδοµένων ιεραρχίες Location State City Albany NY New York Dallas TX Houston San CA Jose 11 1 15 9 5 0 5 15 1 9 1 0 15 5 1 15 1 0 9 5 0 1/10 /10 /10 Time Μετρήσιµο µέγεθος: στα υποκαταστήµατα της πόλης Albany (που βρίσκεται στηνπολιτεία NY) πωλήθηκαν 15 χιλιάδες προϊόντα από τον κωδικό 100 (που ανήκειστοντύπο CellPhone )στις 1/10. 1001 100 100 CellPhone 001 00 Pager Product_ID Type ιεραρχίες Product 4 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.

Παράδειγµα φόρτωσης Α Παράδειγµα Β : product (product_id, description, type, type_description) location (location_id, zip code, city, state) sales-transaction (timestamp, product_id, location_id, units_sold, unit_price) Operational DBs Extract Transform Load Refresh Data Warehouse Παράδειγµα ETL: INSERT INTO sales ( SELECT date(timestamp) AS time_id, product_id, location_id, sum(units_sold) AS quantity, sum(units_sold*unit_price) AS turnover FROM sales-transaction GROUP BY time_id, product_id, location_id HAVING quantity > 0 ) Παράδειγµα Α : product (product_id, description, type, type_description) location (location_id, zip code, state, city) time (time_id, day_of_week, month, quarter, year) sales (time_id, product_id, location_id, quantity, turnover) 5 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Σχήµα χιονονιφάδας Product Time time ID day_of_week month quarter year Sales (fact table) time ID product ID location ID quantity turnover product ID description type Location location ID zip code Product Types type type description Zip codes zip code city state 6 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.

Βασικές λειτουργίες OLAP Συσσώρευση (roll-up): άνοδος στο lattice των κυβοειδών (µε αφαίρεση διάστασης) ή άνοδος στην ιεραρχία µιας διάστασης Εµβάθυνση (drill-down): το αντίστροφο της λειτουργίας roll-up TX Quantity (in 1000 s) TX Quantity (in 1000 s) Dallas Houston Dallas Houston Jan 0 8 Q1 78 90 Roll Up Q 98 94 008 Q 4 87 Dimension: time (month quarter) Q1 Feb 6 0 Mar Apr 0 8 Q May 6 0 Q4 56 91 Jun 4 6 7 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Βασικές λειτουργίες OLAP (συν.) Τεµαχισµός (slice) και Κοµµάτιασµα (dice): εξέταση υποσυνόλου του κύβου µε επιβολή φίλτρων σε κάποιες διαστάσεις Quantity (in 1000 s) TX Dallas Houston Slice Q1 78 90 008 (any product) Q 45 67 Q 4 87 product.type = CellPhone Q4 56 91 Quantity (in 1000 s) Dallas TX Houston 008 (CellPhones only) Q1 5 76 Q 5 57 Q 0 40 Q4 48 80 8 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.4

Βασικές λειτουργίες OLAP (συν.) Περιστροφή (pivot): εµφάνιση κύβου από διαφορετική οπτική γωνία Product Quantity (in 1000 s) CellPhone Pager 1001 100 100 001 00 Time TX Dallas Houston 0 45 1 4 8 0 1 Location Pivot Time Location Product Quantity (in 1000 s) TX Dallas Houston Q1 78 90 008 (any product) Q 45 67 Q 4 87 Q4 9 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 56 91 Θέµα 1 Θεωρήστε την Αποθήκη εδοµένων (Α ) της διοργανώτριας αρχής του πρωταθλήµατος καλαθοσφαίρισης στην οποία καταγράφονται στατιστικά στοιχεία για τους καλαθοσφαιριστές που αγωνίζονται. Ενδεικτικοί άξονες ανάλυσης είναι προσωπικά στοιχεία των αθλητών (η ηλικία, το ύψος, ο τόπος προέλευσης κλπ.) και αθλητικά στοιχεία (όπως οι θέσεις στις οποίες αγωνίζεται, τα λεπτά συµµετοχής σε κάθε θέση, οι πόντοι που έχει σηµειώσει, τα κοψίµατα, τα rebounds κλπ.). (α) Σχεδιάστε ένα ενδεικτικό σχήµα αστέρα που να µοντελοποιεί την παραπάνω Α. (β) Με βάση το παραπάνω σχήµα, δώστε από ένα παράδειγµα για τις λειτουργίες Rollup και Slice και τη συγκεκριµένη ανάλυση που εκτελούν. 10 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.5

.6 Κατηγοριοποίηση (classification) εκ. 08 1 1 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης true high mild rain false normal hot overcast true high mild overcast true normal mild sunny false normal mild rain false normal cool sunny false high mild sunny true normal cool overcast true normal cool rain false normal cool rain false high mild rain false high hot overcast true high hot sunny false high hot sunny Play? Windy Humidity Temp. Outlook Παράδειγµα: πρόγνωση καιρού 5/14 5 9/14 9 Play /5 /5 /9 6/9 6 True False True False Windy 1/5 4/5 1 4 6/9 /9 6 rmal High rmal High Humidity 1/5 /5 /5 1 /9 4/9 /9 4 Cool /5 /9 Rainy Mild Hot Cool Mild Hot Temperature 0/5 4/9 Overcast /5 /9 Sunny Rainy 0 4 Overcast Sunny Outlook dataset πιθανότητες εµφάνισης

Παράδειγµα: πρόγνωση καιρού (συν.) Sunny Overcast Rainy Sunny Overcast Rainy Outlook 4 /9 4/9 /9 0 /5 0/5 /5 Temperature Hot Mild Cool Hot Mild Cool 4 /9 4/9 /9 1 /5 /5 1/5 High rmal High rmal Humidity 6 /9 6/9 4 1 4/5 1/5 False True False True Windy 6 6/9 /5 /9 /5 Play 9 5 9/14 5/14 Μια νέα ηµέρα: Outlook Sunny Temp. Cool Humidity High Windy True Play? Πιθανοφάνειες για τις δύο κλάσεις yes : /9 /9 /9 /9 9/14 = 0.005 no : /5 1/5 4/5 /5 5/14 = 0.006 Πιθανότητες (µετά την κανονικοποίηση): P( yes ) = 0.005 / (0.005 + 0.006) = 0.05 P( no ) = 0.006 / (0.005 + 0.006) = 0.795 1 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Ο κανόνας του Bayes Η πιθανότητα να συµβεί ένα γεγονός H δοθείσης µιας µαρτυρίας E : Pr[ E H ]Pr[ H ] Pr[ H E] = Pr[ E] A priori πιθανότητα του H : Η πιθανότητα του γεγονότος χωρίς την επίκληση της µαρτυρίας A posteriori πιθανότητα του H : Pr[H ] Pr[ H E] Η πιθανότητα του γεγονότος µε την επίκληση της µαρτυρίας 14 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.7

Κατηγοριοποίηση Naïve Bayes Εκµάθηση κατηγοριοποίησης: ποια η πιθανότητα µιας κλάσης δοθείσης µιας µαρτυρίας; Η µαρτυρία E είναι η εγγραφή στη Β Το γεγονός H είναι η κλάση της εγγραφής Απλοϊκή (naïve) παραδοχή: η µαρτυρία διαιρείται σε µέρη (όσο και τα γνωρίσµατα) που είναι ανεξάρτητα µεταξύ τους Pr[ H E] = Pr[ E 1 H]Pr[ E H] Pr[ E Pr[ E] n H]Pr[ H] 15 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα πρόγνωσης καιρού Outlook Sunny Temp. Cool Πιθανότητα να συµβεί ένα γεγονός (δηλ. Play = yes ) δοθείσηςτηςµαρτυρίας E (δηλ. Outlook = Sunny and Temp. = Cool and Humidity = High and Windy = True ) Humidity High Windy True Play Pr[ yes E] = Pr[ Outlook = Sunny yes]? µαρτυρία E Pr[ Temperatur e= Cool yes] Pr[ Humidity=High yes] Pr[ Windy= True yes] Pr[ yes] /9 /9 /9 / 9 9/14 = Pr[ E] 0 /14 16 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.8

Αλγόριθµος ID ηµιουργεί Α µε χρήση στοιχείων από τη θεωρία πληροφορίας (εντροπία) Επιλέγει για διάσπαση το γνώρισµα µε το µεγαλύτερο κέρδος πληροφορίας (information gain): Gain ( D, S) = H( D) P( D ) H( ) s i= 1 i D i H(D) η εντροπία του D (πριν το διαχωρισµό) H(D i ) η εντροπία των επιµέρους D i (µετά το διαχωρισµό) Όσο µεγαλύτερη είναι η µείωση (το «άλµα» προς το 0), τόσο µεγαλύτερο είναι το κέρδος Gain(D,S) 17 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα ID H ( p1, p,..., ps) = s i= 1 p i log 1 p i Αρχική κατάσταση εντροπίας: H(D) = 4/15 log(15/4) + 8/15 log(15/8) + /15 log(15/) = 0.484 Κέρδος αν γίνει διάσπαση στο gender: Gender= F : H(D 1 ) = /9 log(9/) + 6/9 log(9/6) = 0.764 Gender= M : H(D ) = 1/6 log(6/1) + /6 log(6/) + /6 log(6/) = 0.49 Weighted sum = (9/15)(0.764) + (6/15)(0.49) = 0.415 Gain = 0.484 0.415 = 0.0969 Κέρδος αν γίνει διάσπαση στο height: Τµηµατοποίηση: (0, 1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9,.0], (.0, ) Weighted sum = 0 + 0 +... + (/15)(0.01) = 0.0401 Name Gender Height Output1 Kristina F 1.6m Short Jim M m Tall Maggie F 1.9m Medium Martha F 1.88m Medium Stephanie F 1.7m Short Bob M 1.85m Medium Kathy F 1.6m Short Dave M 1.7m Short Worth M.m Tall Steven M.1m Tall Debbie F 1.8m Medium Todd M 1.95m Medium Kim F 1.9m Medium Amy F 1.8m Medium Wynette F 1.75m Medium Gain: 0.484 0.0401 = 0.98 επιλέγουµε να γίνει διάσπαση ως προς height 18 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.9

Αλγόριθµος C4.5 Ο αλγόριθµος ID µεροληπτεί υπέρ των γνωρισµάτων µε µεγάλο αριθµό διαιρέσεων Ο αλγόριθµος C4.5 αποτελεί βελτιωµένη εκδοχή του ID. Συνάρτηση καταλληλότητας: GainRatio ( D, S) ( D, S) Gain = D 1 H,..., D D D s Πλεονεκτήµατα: Καλύτερη διαχείριση ελλιπών / συνεχών δεδοµένων Αποφυγή υπερπροσαρµογής 19 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Θέµα Έστω το διπλανό σύνολο δεδοµένων. Να κατασκευάσετε δέντρο απόφασης χρησιµοποιώντας τον αλγόριθµο ID και θεωρώντας ως σύνολο δεδοµένων εκπαίδευσης (training set) τις δοσοληψίες t1-t8 και στη συνέχεια να βρείτε την απόδοση του δένδρου που κατασκευάσατε θεωρώντας ως σύνολο δεδοµένων ελέγχου (testing set) τις δοσοληψίες t9-t11. (δίδονται οι λογάριθµοι µε βάση το που ίσως σας χρειαστούν: log(5/)=1.5, log(5/)=0.75, log(4/)=0.4, log=1.585, log(/)=0.59) Trans. A1 A Class t 1 Y N + t N Y - t N N + t 4 Y Y + t 5 N N + t 6 Y N - t 7 N Y - t 8 N Y - t 9 Y Y + t 10 N Y - t 11 N N + 0 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.10

Συσταδοποίηση (clustering) εκ. 08 Συσταδοποίηση K-Means εδοµένης µίας συστάδας K i ={t i1, t i,, t im }, ο µέσος της συστάδας είναι m i = (1/m)(t i1 + + t im ) Ο µέσος της συστάδας ταυτίζεται µε το κέντρο βάρους (centroid) Βασική ιδέα: Τυχαία επιλέγεται το αρχικό σύνολο των µέσων των συστάδων Επαναληπτικά, τα στοιχεία µετακινούνται µεταξύ των συστάδων µέχρι να επιτύχουµε ισορροπία Μειονεκτήµατα: ο αριθµός k του πλήθους των συστάδων είναι προκαθορισµένος η ποιότητα του αποτελέσµατος επηρεάζεται από την αρχική επιλογή των µέσων ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.11

Παράδειγµα K-Means (σε 1 διάσταση) ίνεται: {, 4, 10, 1,, 0, 0, 11, 5}, k= Τυχαία επιλέγουµε µέσους, έστω m 1 =, m =4 1 η επανάληψη: K 1 ={, }, K ={4, 10, 1, 0, 0, 11, 5}, m 1 =.5, m =16 η επανάληψη: K 1 ={,, 4}, K ={10, 1, 0, 0, 11, 5}, m 1 =, m =18 η επανάληψη: K 1 ={,, 4, 10}, K ={1, 0, 0, 11, 5}, m 1 =4.75, m =19.6 4 η επανάληψη: K 1 ={,, 4, 10, 11, 1}, K ={0, 0, 5}, m 1 =7, m =5 5 η επανάληψη: δεν αλλάζει τίποτα. Τέλος ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα K-Means (σε διαστάσεις) Τυχαία επιλογή τριών (k=) αρχικών κέντρων Y k 1 k k X 4 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.1

Παράδειγµα K-means, 1 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k k X 5 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα K-means, 1 η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k 1 k k k k X 6 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.1

Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k k X 7 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα K-means, η επανάληψη τρία στοιχεία αλλάζουν cluster Y k k 1 k X 8 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.14

Παράδειγµα K-means, η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k k X 9 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k k εν αλλάζει τίποτα Άρα, τέλος! X 0 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.15

Θέµα Αν θεωρήσουµε ότι κάθε καλαθοσφαιριστής στην παραπάνω Β /Α αποτελεί ένα διάνυσµα σε έναν πολυδιάστατο χώρο µε διαστάσεις τα χαρακτηριστικά που καταγράφουµε γι αυτούς, τότε µπορούµε να εκτελέσουµε τεχνικές συσταδοποίησης για να βρούµε πιθανά προφίλ καλαθοσφαιριστών. Σχηµατίστε ένα δικό σας παράδειγµα µε 6 καλαθοσφαιριστές (κ1, κ, κ, κ4, κ5, κ6) και αριθµητικές διαστάσεις: ηλικία και λεπτά συµµετοχής. Πάνω στο παράδειγµα αυτό, τρέξτε τον αλγόριθµο k-means δύο φορές, για k= και k=. Κατόπιν, συγκρίνετε τα δύο αποτελέσµατα συσταδοποίησης. 1 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Θέµα εδοµένων των πέντε - διάστατων σηµείων x1.. x5 και υποθέτοντας ότι k = και ότι αρχικά τα σηµεία-σπόροι (seeds) είναι τα x1 (για το 1ο cluster) και x5 (για το ο cluster), να εφαρµόσετε τον αλγόριθµο συσταδοποίησης k-means µέχρι αυτός να συγκλίνει (δηλαδή, οι συστάδες να µην αλλάζουν) χρησιµοποιώντας Ευκλείδεια απόσταση. Να παραθέσετε όλα τα βήµατα του αλγορίθµου. A 1 A x 1 0 x 0 0 x 1.5 0 x 4 5 0 x 5 5 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.16

Εξόρυξη Κανόνων Συσχετίσεων εκ. 08 Παράδειγµα (συν.) 4 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.17

Apriori Συχνό ονοµάζεται το itemset που έχει υποστήριξη πάνω από ένα κατώφλι Παράδειγµα (κατώφλι = 40%): {Beer} {Bread} {PeanutButter} {Bread, PeanutButter} Η ιδιότητα των συχνών itemsets: Κάθε υποσύνολο ενός συχνού itemset είναι συχνό. Αντιθέτως, αν ένα itemset δεν είναι συχνό, κανένα από τα υπερσύνολά του δεν µπορεί να είναι συχνό. 5 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα Apriori (συν.) s=0% α = 50% 6 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.18

Θέµα Αν θεωρήσουµε ότι κάθε καλαθοσφαιριστής στην παραπάνω Β /Α σχηµατίζει ένα καλάθι µέσα στο οποίο βρίσκονται όλες οι θέσεις στις οποίες έχει αγωνιστεί κατά καιρούς, τότε θα µπορούσαµε να εκτελέσουµε τεχνικές εξόρυξης συχνών στοιχειοσυνόλων για να βρούµε ποιες θέσεις εµφανίζονται συχνά µαζί στην αθλητική ζωή ενός καλαθοσφαιριστή. Σχηµατίστε ένα δικό σας παράδειγµα µε 6 καλαθοσφαιριστές (κ1, κ, κ, κ4, κ5, κ6) και διαφορετικές θέσεις (θ1, θ, θ) όπου οι θέσεις στις οποίες έχει αγωνιστεί ο καθένας είναι δική σας επιλογή. Πάνω στο παράδειγµα αυτό, τρέξτε τον αλγόριθµο Apriori και βρείτε τα συχνά στοιχειοσύνολα µε βάση το κατώφλι minsupport = 40%. 7 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Θέµα Έστω το διπλανό σύνολο δοσοληψιών (καλαθιών). Με χρήση του αλγορίθµου Apriori, να βρείτε τους κανόνες συσχέτισης που προκύπτουν από αυτό το σύνολο για minsupport = 0% και minconfidence = 50%. Σε κάθε βήµα του αλγορίθµου, να δείξετε τα επιµέρους αποτελέσµατα που προκύπτουν. Trans. Items t 1 a, b, d t a, d t a, d, e t 4 c, d c, e t 5 8 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης.19