Εξόρυξη Δεδομένων. Βελτιστοποίηση Συστημάτων & Υδροπληροφορική. Χρήστος Μακρόπουλος & Ανδρέας Ευστρατιάδης

Σχετικά έγγραφα
Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Section 8.3 Trigonometric Equations

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

The Simply Typed Lambda Calculus

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

2 Composition. Invertible Mappings

Statistical Inference I Locally most powerful tests

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Partial Differential Equations in Biology The boundary element method. March 26, 2013

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

EE512: Error Control Coding

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Second Order RLC Filters

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

PARTIAL NOTES for 6.1 Trigonometric Identities

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Approximation of distance between locations on earth given by latitude and longitude

CRASH COURSE IN PRECALCULUS

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Inverse trigonometric functions & General Solution of Trigonometric Equations

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Other Test Constructions: Likelihood Ratio & Bayes Tests

C.S. 430 Assignment 6, Sample Solutions

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Fractional Colorings and Zykov Products of graphs

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Math 6 SL Probability Distributions Practice Test Mark Scheme

ΑΚΑ ΗΜΙΑ ΕΜΠΟΡΙΚΟΥ ΝΑΥΤΙΚΟΥ ΜΑΚΕ ΟΝΙΑΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Homework 3 Solutions

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Numerical Analysis FMN011

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Strain gauge and rosettes

Second Order Partial Differential Equations

Math221: HW# 1 solutions

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Example Sheet 3 Solutions

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

TMA4115 Matematikk 3

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

ΔΙΑΜΟΡΦΩΣΗ ΣΧΟΛΙΚΩΝ ΧΩΡΩΝ: ΒΑΖΟΥΜΕ ΤΟ ΠΡΑΣΙΝΟ ΣΤΗ ΖΩΗ ΜΑΣ!

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Assalamu `alaikum wr. wb.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Matrices and Determinants

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems

Code Breaker. TEACHER s NOTES

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

Προσομοίωση BP με το Bizagi Modeler

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

derivation of the Laplacian from rectangular to spherical coordinates

Διακριτικές Συναρτήσεις

Lecture 2. Soundness and completeness of propositional logic

Srednicki Chapter 55

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Πτυχιακή Εργασι α «Εκτι μήσή τής ποιο τήτας εικο νων με τήν χρή σή τεχνήτων νευρωνικων δικτυ ων»

Predicting the Choice of Contraceptive Method using Classification

If we restrict the domain of y = sin x to [ π, π ], the restrict function. y = sin x, π 2 x π 2

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

Démographie spatiale/spatial Demography

Transcript:

Βελτιστοποίηση Συστημάτων & Υδροπληροφορική Εξόρυξη Δεδομένων Χρήστος Μακρόπουλος & Ανδρέας Ευστρατιάδης Τομέας Υδατικών Πόρων και Περιβάλλοντος Εθνικό Μετσόβιο Πολυτεχνείο 1

Γιατί εξόρυξη; Τεχνικές ανάλυσης πολύ μεγάλων συνόλων δεδομένων με σκοπό την εξαγωγή νέα γνώσης Δεδομένα συλλέγονται και αποθηκεύονται σε μεγάλες ταχύτητες (GB/Min) Απομακρυσμένοι αισθητήρες Τηλεσκόπια (exoplanets!) Προσομοιώσεις που παράγουν terabytes δεδομένων Η εξόρυξη δεδομένων μπορεί να βοηθήσει: Στην κατηγοριοποίηση και την τμηματοποίηση των δεδομένων Στην διατύπωση υποθέσεων

Όλο και περισσότερη σύνθεση πληροφορίας PLC / instrument sys SCADA D A T A LIMS (lab data) Asset management Social media / CS Environmental data INFO?

Παραδείγματα Έξυπνοι μετρητές κατανάλωσης νερού Συμμετοχικά παρατηρητήρια νερού Συχνότητα μέτρησης 10 sec X 1-2 εκ. μετρητές..

Ανακαλύπτοντας γνώση κρυμμένη μέσα στα δεδομένα Wolfram alpha: facebook report http://tagcrowd.com/

Ένας Ορισμός.. Για πολύ μεγάλα σύνολα δεδομένων : η διαδικασία ανακάλυψης (discovery) προτύπων (patterns) που πριν δεν ήταν γνωστά, η ανάλυση τους για να βρούμε μη αναμενόμενες σχέσεις ανάμεσα στα δεδομένα (causality?) και να τα συνοψίσουμε με νέους τρόπους (πχ. κανόνες) που είναι κατανοητοί και χρήσιμοι. Με άλλα λόγια ψάχνουμε για συσχετίσεις και σκεφτόμαστε αν αυτές μεταφράζονται σε αιτιότητα. Με προσοχή...

Προσοχή: συσχέτιση αιτιότητα

Μια διεπιφάνεια Όχι πραγματικά κάτι απόλυτα διαφορετικό. Ένας νέος τρόπος χρήσης γνωστών εργαλείων (ANN, Stats, BBF). Data-Driven Στατιστική Εξόρυξη Δεδομένων Βάσεις Δεδομένων Μηχανική Μάθηση

Εργαλεία... Case Based Reasoning; Rule Extraction (Fuzzy Inference); Artificial Neural Networks; Support Vector Machines; Principal Component Analysis; Bayesian Inference, Bayesian Belief Networks; Statistics (incl. Stochastics); Multiple Liner Regression; Decision Trees; Factor Analysis; Survival Analysis; Graph-based mining; Symbolic Regression, Evolutionary Polynomial Regression, Wavelets but also SBO-Optimisation

Είδη/Μέθοδοι Εξόρυξης Δεδομένων 1. Ταξινόμηση - Classification: κατασκευή ενός μοντέλου που αντιστοιχεί ένα στοιχείο σε ένα σύνολο από (προκαθορισμένες) κλάσεις (mapping) 2. Συσταδοποίηση - Clustering: εύρεση ενός συνόλου από ομάδες με όμοια στοιχεία 3. Εύρεση Συχνών Προτύπων, Εξαρτήσεων και Συσχετίσεων Dependencies and associations: εύρεση σημαντικών/συχνών εξαρτήσεων μεταξύ γνωρισμάτων 4. Συνοψίσεις - Summarization: εύρεση μιας συνοπτικής περιγραφής του συνόλου δεδομένων ή ενός υποσυνόλου του

Ταξινόμηση: Classification Δοθέντος ενός συνόλου από εγγραφές (σύνολο εκπαίδευσης - training set) με κάθε εγγραφή να έχει ένα σύνολο από γνωρίσματα (attributes), ένα από τα οποία να είναι η κλάση (class) Εύρεση ενός μοντέλου για το γνώρισμα της κλάσης ως συνάρτηση της τιμής των άλλων γνωρισμάτων. Στόχος: να αναθέτει το μοντέλο εγγραφές που δεν έχουμε δει σε μια από τις γνωστές μας κλάσεις με την μεγαλύτερη δυνατή ακρίβεια. Διαδικασία: Συνήθως, το σύνολο δεδομένων χωρίζεται σε ένα σύνολο εκπαίδευσης και σε ένα σύνολο ελέγχου το πρώτο χρησιμοποιείται για την κατασκευή του μοντέλου και το δεύτερο για τον έλεγχο του.

10 10 Παράδειγμα Γνωρίσματα ΚΛΑΣΗ Tid Home Owner Marital Status Taxable Income Cheat Home Owner Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Σύνολο Ελέγχου 9 No Married 75K No 10 No Single 90K Yes Σύνολο Εκπαίδευσης Εκμάθηση Ταξινόμησης Μοντέλο

10 ΚΛΑΣΗ Παράδειγμα Μοντέλου: Δέντρο Απόφασης Decision tree Tid Home Owner Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No Yes HO No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes NO MarSt Single, Divorced TaxInc < 80K > 80K Married NO 9 No Married 75K No 10 No Single 90K Yes NO YES Σύνολο Εκπαίδευσης

10 Εναλλακτικό παράδειγμα Μοντέλου: Δέντρο Απόφασης Decision tree Tid Home Owner Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No Cheat Married NO MarSt Yes NO Single, Divorced HO No TaxInc 4 Yes Married 120K No < 80K > 80K 5 No Divorced 95K Yes 6 No Married 60K No NO YES 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Για τα ίδια δεδομένα μπορεί να υπάρχουν παραπάνω από ένα δέντρα απόφασης (μοντέλα)

Παράδειγμα: Decision Trees load ionosphere t = classregtree (X, Y) view(t) Or load fisheriris Ionosphere dataset from the UCI machine learning repository*. This radar data was collected by a system in Goose Bay, Labrador. Α system of an array of high-frequency antennas. "Good" radar returns are those showing evidence of some type of structure in the ionosphere. "Bad" returns are those that do not; their signals pass through the ionosphere. X is a 351x34 real-valued matrix of predictors. Y is a categorical response: "b" for bad radar returns and "g" for good radar returns. *http://archive.ics.uci.edu/ml/datasets/ionosphere

Παράδειγμα Φτιάξτε ένα δικό σας σετ (με δεδομένο decision tree) και βάλτε το matlab να το «ανακαλύψει» Tip: To generate n random numbers within a given [a b]: x=a+ (b-a).*rand(n,1)

Harvey and McBean, 2014

Παράδειγμα Ταξινόμηση με Νευρωνικά (nnstart>nprtool) Για τα δεδομένα fisheriris και πάλι Διαφορά; Έχει σημασία;

Συσταδοποίηση (clustering) Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται 3-διάστατα σημεία, ευκλείδια απόσταση 19

Είδη Συστάδων Καλώς διαχωρισμένες συστάδες Συστάδες βασισμένες σε κέντρο Συνεχής (contiguous) συστάδες Συστάδες βασισμένες σε πυκνότητα Βασισμένα σε ιδιότητες ή έννοιες Περιγράφονται από μια αντικειμενική συνάρτηση (Objective Function) 20

Πότε μια συσταδοποίηση είναι καλή Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες τι είναι όμως ομοιότητα; 21

«Ομοιότητα» Η εγγύτητα των σημείων υπολογίζεται με βάση κάποια απόσταση που εξαρτάται από το είδος των σημείων (πχ. Ευκλείδεια απόσταση) Επειδή η απόσταση υπολογίζεται συχνά o υπολογισμός της πρέπει να είναι σχετικά απλός Το κεντρικό σημείο είναι (συνήθως) το μέσο των σημείων της συστάδας (το οποίο μπορεί να μην είναι ένα από τα δεδομένα εισόδου) 22

23 Κριτήρια Ομοιότητας: Απόσταση... ), ( 1 2 2 1 1 n n j x i x j x i x j x i x j i L Manhattan )... ( ), ( 2 2 2 2 2 1 1 n n j x i x j x i x j x i x j i d Ευκλείδεια απόσταση

Ορισμός Απόστασης 3 2 1 0 p1 Παράδειγμα p2 p3 p4 0 1 2 3 4 5 6 Πίνακας Δεδομένων point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 Πίνακας Απόστασης 24

Πόσες Ομάδες? 4 ομάδες 2 ομάδες 6 ομάδες 25

Ακραία Σημεία & Θόρυβος Outlier (ακραίο σημείο) τιμές που είναι εξαιρέσεις ως προς τα συνηθισμένες ή αναμενόμενες τιμές (domain knowledge!) συστάδα outliers 26

Συστάδες βασισμένες σε κέντρο ή πρότυπο Μια συστάδα είναι ένα σύνολο από στοιχεία τέτοιο ώστε κάθε στοιχείο της ομάδας είναι πιο κοντά σε (ή πιο όμοιο με) το «κέντρο» ή πρότυπο της ομάδας από ότι με το κέντρο οποιασδήποτε άλλης ομάδας. Το κέντρο της ομάδας είναι συχνά centroid, ο μέσος όρος των σημείων της συστάδας, ή medoid, το πιο «αντιπροσωπευτικό» σημείο της συστάδας

Η βασική διαδικασία clustering: K-means Διαχωριστικός αλγόριθμος Κάθε συστάδα συσχετίζεται με ένα κεντρικό σημείο (centroid) Κάθε σημείο ανατίθεται στη συστάδα με το κοντινότερο κεντρικό σημείο Ο αριθμός των ομάδων, Κ, είναι είσοδος στον αλγόριθμο 28

K-means: Βασικός Αλγόριθμος 1: Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία (συνήθως τυχαία) 2: Repeat 3: Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επαν-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν 29

Κ = 3 συστάδες K-means: Βασικός Αλγόριθμος Αρχικά σημεία k 1, k 2, k 3 30

K-means: Βασικός Αλγόριθμος Τα σημεία ανατίθενται στο πιο γειτονικό από τα 3 αρχικά σημεία 31

K-means: Βασικός Αλγόριθμος Επανυπολογισμός του κέντρου (κέντρου βάρους) κάθε συστάδας (cluster) Πως υπολογίζουμε το κέντρο βάρους ν σημείων; 32

Νέα ανάθεση των σημείων Νέα κέντρα βάρους K-means: Βασικός Αλγόριθμος 33

K-means: Βασικός Αλγόριθμος Αν δεν αλλάζει τίποτα -> ΤΕΛΟΣ 34

K-means: Επιλογή αρχικών σημείων Αν υπάρχουν K «πραγματικές συστάδες» η πιθανότητα να επιλέξουμε ένα κέντρο από κάθε συστάδα είναι μικρή, συγκεκριμένα αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε: Για παράδειγμα, αν Κ = 10, η πιθανότητα είναι = 10!/1010 = 0.00036 35

K-medoid Διαλέγει ένα αντιπροσωπευτικό σημείο από τα δεδομένα και ελαχιστοποιεί την απόσταση από αυτό Medoid: το πιο κεντρικό σημείο της συστάδας (αντί να χρησιμοποιεί το mean) Μπορεί να εφαρμοστεί σε δεδομένα οποιουδήποτε τύπου (πχ και για κατηγορικά δεδομένα) 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 36

K-means: Βασικός Αλγόριθμος Παράδειγμα 2 4 10 12 3 20 30 11 15 Έστω k = 2, και αρχικά επιλέγουμε το 3 και το 4 37

K-Means Clustering στο Matlab Syntax: IDX = kmeans(x,k) ή [IDX,C] = kmeans(x,k) kmeans uses a two-phase iterative algorithm to minimize the sum of point-to-centroid distances, summed over all k clusters: The first phase uses batch updates, where each iteration consists of reassigning points to their nearest cluster centroid, all at once, followed by recalculation of cluster centroids. This phase occasionally does not converge to solution that is a local minimum, that is, a partition of the data where moving any single point to a different cluster increases the total sum of distances. This is more likely for small data sets. The batch phase is fast, but potentially only approximates a solution as a starting point for the second phase.

K-Means Clustering στο Matlab The second phase uses online updates, where points are individually reassigned if doing so will reduce the sum of distances, and cluster centroids are recomputed after each reassignment. Each iteration during the second phase consists of one pass though all the points. The second phase will converge to a local minimum, although there may be other local minima with lower total sum of distances. The problem of finding the global minimum can only be solved in general by an exhaustive (or clever, or lucky) choice of starting points, but using several replicates with random starting points typically results in a solution that is a global minimum.

Παράδειγμα x=[1,2,3,4,10,11,12,13] [idx,ctrs]=kmeans(x,2)

Παράδειγμα

Διαγράμματα Voronoi Υδρολογία σταθμησμένες μετρήσεις σταθμών

Βιβλιογραφία Οι διαφάνειες είναι βασισμένες στους: P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Rogkakos, D., Department of CS, University of Epirus, Lecture Notes Matlab 2011a Online Documentation, www.mathworks.com