ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,



Σχετικά έγγραφα
Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση Ι (Clustering)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Βιοστατιστική ΒΙΟ-309

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Βιοστατιστική ΒΙΟ-309

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Βιοστατιστική ΒΙΟ-309

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ << ΧΡΗΣΗ ΥΒΡΙΔΙΚΩΝ ΕΞΕΛΙΚΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΕ ON LINE ΠΡΟΒΛΗΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ >>

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Ο αλγόριθμος πρέπει να τηρεί κάποια κριτήρια

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

Αναγνώριση Προτύπων Ι

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Έρευνα Μάρκετινγκ Ενότητα 5

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος.

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

Διδακτική Παρέμβαση Τάξη Σχολείο Δημοτικό ΠΑΛΑΙΟΥ ΑΓΙΟΝΕΡΙΟΥ Ονοματεπώνυμο Ημερομηνία: Τίτλος Δραστηριότητας: Διάρκεια: 1 διδακτική ώρα

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Πληροφορική 2. Δομές δεδομένων και αρχείων

ιαµέριση - Partitioning

Πληροφοριακά Συστήματα Διοίκησης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Διδάσκουσα: Χάλκου Χαρά,

Συμπίεση Δεδομένων

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

z = c 1 x 1 + c 2 x c n x n

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Ανάλυση κατά Συστάδες. Cluster analysis

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Α Ν Α Λ Τ Η Α Λ Γ Ο Ρ Ι Θ Μ Ω Ν Κ Ε Υ Α Λ Α Ι Ο 5. Πως υπολογίζεται ο χρόνος εκτέλεσης ενός αλγορίθμου;

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

Αναγνώριση Προτύπων Ι

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Το μοντέλο Perceptron

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Επαναληπτικές Διαδικασίες

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΕΚΠΑΙΔΕΥΤΗΡΙΑ ΝΕΑ ΠΑΙΔΕΙΑ

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Ζητήματα ηήμ με τα δεδομένα

4.3. Γραµµικοί ταξινοµητές

Αναγνώριση Προτύπων Ι

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Σχεδίαση και Ανάλυση Αλγορίθμων

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

5.1. Προσδοκώμενα αποτελέσματα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. 1 ο ΚΕΦΑΛΑΙΟ

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Αλγόριθμος Ομαδοποίησης

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Προσεγγιστικοί Αλγόριθμοι

ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018

I student. Μεθοδολογική προσέγγιση και απαιτήσεις για την ανάπτυξη των αλγορίθμων δρομολόγησης Χρυσοχόου Ευαγγελία Επιστημονικός Συνεργάτης ΙΜΕΤ

Transcript:

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα (Τα αποθηκευμένα δεδομένα σχεδόν κάθε 3 χρόνια διπλασιάζονται), Πληροφορία μη επεξεργασμένη, Πολλαπλά οφέλη από την κατηγοριοποίησή τους. Ανάλυση Δεδομένων Η ανάλυση δεδομένων αποτελεί την βάση σε πολλές εφαρμογές: Πληροφορική, Ανάλυση προτύπων, Λήψη αποφάσεων, Μηχανική εκμάθηση, Εξόρυξη δεδομένων, Ανάκτηση κειμένων, Μηχανική, Οικονομία, Βιολογία, Φαρμακευτική, 3

Ανάλυση Δεδομένων H εξαντλητική ανάλυση και επεξεργασία μεγάλου όγκου δεδομένων είναι ΑΔΥΝΑΤΗ ΚΛΕΙΔΙ: ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ (data clustering) 4 Τεχνικές Εξόρυξης Δεδομένων Κλασικές: Στατιστική, Γειτονιά, Ομαδοποίηση. Άλλες (μελλοντικές?) Δένδρα αποφάσεων, Νευρωνικά δίκτυα,... 5 Ομαδοποίηση Δεδομένων Διαχωρισμός ενός συνόλου δεδομένων σε διαφορετικές μη αλληλεπικαλυπτόμενες ομάδες δεδομένων όπου τα μέλη της κάθε ομάδας είναι περισσότερο «ομοειδή» από μέλη που ανήκουν σε διαφορετικές ομάδες. Ομοειδή δεδομένα: Σε σχέση με κάποιο μέτρο ομοιότητας (αρκετά δύσκολο να εντοπισθεί σωστά) Ακατέργαστα Δεδομένα Αλγόριθμοι Ομαδοποίησης Ομαδοποιημένα Δεδομένα

Ομαδοποίηση Δεδομένων 5 5 5 7 7 7 7 Y-Axis Y-Axis 3 4 3 4 3 3 4 4 -Axis -Axis 7 Ορισμοί Ένας ορισμός Ομάδας (Cluster) είναι ότι είναι μια συλλογή από όμοια αντικείμενα που έχουν μαζευτεί ή συγκεντρωθεί μαζί. Ο Everitt δίνει μεταξύ άλλων τους εξής ορισμούς της Ομάδας: Ομάδα είναι το σύνολο των οντοτήτων που είναι όμοιες, και οντότητες από διαφορετικά σύνολα δεν είναι όμοιες, Ομάδα είναι μια συσσωμάτωση σημείων του πεδίου αναφοράς τέτοια ώστε η απόσταση κάθε δυο σημείων της Ομάδας να είναι μικρότερη από την απόσταση μεταξύ κάθε σημείου της Ομάδας και οποιουδήποτε άλλου σημείου, Οι ομάδες μπορούν να περιγραφούν ως συνδεδεμένες περιοχές ενός πολυδιάστατου χώρου, που περιέχουν σχετικά υψηλή πυκνότητα σημείων και που είναι χωρισμένες μεταξύ τους με περιοχές, η πυκνότητα των οποίων είναι σχετικά μικρότερη. 8 Αλγόριθμοι Ομαδοποίησης Επιλογή χαρακτηριστικών (ιδιοτήτων), Αναπαράσταση δεδομένων (μπορεί να περιλαμβάνει νέα χαρακτηριστικά ή να απαλείφει κάποια ή να ομαλοποιεί κάποια άλλα), Ορισμός του μέτρου ομοιότητας (similarity), Ομαδοποίηση (εφαρμογή μεθόδου). 9

Αλγόριθμοι Ομαδοποίησης Οι αλγόριθμοι ομαδοποίησης προσπαθούν να ανακαλύψουν φυσικές ομάδες αντικειμένων (δεδομένων) βασισμένες στις ιδιότητες των αντικειμένων και σε κάποιο μέτρο ομοιότητας. Επιπλέον βρίσκουν και το κεντροειδές (centroid) της κάθε ομάδας δεδομένων. Για να προσδιορισθεί το κατά πόσο ένα αντικείμενο ανήκει σε μία ομάδα πρέπει να υπολογισθεί η απόστασή του από το κεντροειδές της ομάδας. Ανάλυση Δεδομένων Κάθε αντικείμενο (δεδομένο) χαρακτηρίζεται από τις ιδιότητές του, Θηλαστικό ή όχι, αριθμός άκρων, Ταχύτητα CPU, Χωρητικότητα μνήμης, Λειτουργικό Σύστημα, Φύλλο, Είδος εργασίας, Ηλικιακή ομάδα, Τα δεδομένα μπορούν να αναπαρασταθούν σαν σημεία ενός Ν διάστατου χώρου, Το σύνολο των ιδιοτήτων Διάσταση του χώρου. Ανάλυση Δεδομένων Ανομοιότητα σημείων: Απόσταση σημείων. Στον Ευκλείδειο χώρο διαστάσεων: c b a ( a b ) c = a + b c = + Π Υ Θ Α Γ Ο Ρ Α Σ

ΓραφικήΑναπαράστασηΔεδομένων(3 d) Τρίτη ιδιότητα, x3 Δεύτερη ιδιότητα, x Q x(p) P x3(p) (x(q)-x(p)) x(p) x(q) Πρώτη ιδιότητα, x 3 Απόσταση Σημείων, Κεντροειδές Η πιο συνηθισμένη απόσταση δύο σημείων i, j λαμβάνεται από την Ευκλείδεια μετρική (3-d χώρος): d ( i, j) = ( xi x j ) + ( yi y j ) + ( zi z j ) Το κεντροειδές υπολογίζεται έτσι ώστε η κάθε του ιδιότητα (χαρακτηριστικό) να είναι η μέση τιμή των αντίστοιχων ιδιοτήτων των σημείων που ανήκουν στην ομάδα. 4 Μέτρηση Απόστασης (μη Ευκλείδειες μετρικές) Απόσταση κατά Minkowski: q q q d ( i, j) = q ( x x + x x +... + x x ) p p i j i j i j όπου i = (x i, x i,, x ip ) και j = (x j, x j,, x jp ) είναι δύο p-διάστατα αντικείμενα, και q θετικός ακέραιος (για q= Ευκλείδεια μετρική) Για q= απόσταση Manhattan: d( i, j) = x x + x x +... + x x i j i j ip jp 5

Η Κατάρα της Διάστασης Στα πολυδιάστατα αντικείμενα είναι δυνατόν το χαρακτηριστικό μίας διάστασης να υπερισχύει όλων των άλλων και να οδηγεί σε «κακές» ομάδες. Παράδειγμα: Ιδιότητες υπολογιστή Ταχύτητα CPU (,., 3, 4, 4,, ) Μνήμη (, 8,,, 5, ) Λειτουργικό σύστημα (=Linux, =Windows) Ενώ δύο υπολογιστές με μνήμη 8 και διαφέρουν σ αυτό το χαρακτηριστικό 4 μονάδες εάν είχαν διαφορετικά Λ.Σ. θα διέφεραν. Το Λ.Σ. όμως είναι πιο σημαντικό!!!! Η Κατάρα της Διάστασης Επομένως είναι απαραίτητη η χρήση και άλλων τρόπων υπολογισμού αποστάσεων ή ΔΙΑΦΟΡΟΠΟΙΗΣΗ των χαρακτηριστικών (ιδιοτήτων) ήκαι ΟΜΑΛΟΠΟΙΗΣΗ. Τέσσερεις βασικές κατηγορίες: Interval scaled, Ratio scaled, ΟνομαστικόήΜηταξινομήσιμο(nominal), Ταξινομήσιμο (ordinal). 7 Το Κριτήριο Του Τετραγωνικού Λάθους Η πιο ευρέως διαδεδομένη στρατηγική διαμεριστικής ομαδοποίησης βασίζεται στο κριτήριο του τετραγωνικού λάθους (Square error criterion). Ο γενικός στόχος είναι η απόκτηση εκείνης της διαμέρισης όπου, για έναν σταθερόαριθμόομάδων, να ελαχιστοποιεί το τετραγωνικό λάθος. Αποσκοπεί στο να δημιουργήσει τις k ομάδες όσο το δυνατόν περισσότερο συμπαγείς και ξεχωριστές. E = k N i i= j= x c ij το j σημείο του i cluster, N i πλήθος σημείων του i cluster, c i κεντροειδές του i cluster, Το Ε υποδηλώνει το πόσο μακριά είναι διεσπαρμένα τα σημεία σε σχέση με τα κέντρα των ομάδων που ανήκουν, Το ζητούμενο είναι η ελαχιστοποίηση του Ε. ij i 5//9

ΟΜΑΛΟΠΟΙΗΣΗ (NORMALIZATION) Μετατόπιση στη δεκαδική κλίμακα(decimal scaling): v' ( i) = v( i) n Ομαλοποίηση μεγίστουελαχίστου(min-max normalization): Ομαλοποίηση με τυπική απόκλιση(standard deviation normalization): v( i) min( v) v'( i) = max( v) min( v) v( i) mean( v) v'( i) = sd( v) 5//9 Κατηγοριοποίηση Δεδομένων Interval scaled Αν για ένα χαρακτηριστικό, η διαφορά μεταξύ δυο τιμών έχει νόημα ενώ ο λόγος τους δεν έχει, τότε το χαρακτηριστικό αυτό ανήκει στην κατηγορία αυτή. Ένα τυπικό παράδειγμα είναι το μέγεθος της RAM ενός HY. Αν παραδείγματος χάριν ένας ΗΥ έχει 8 GB και ένας άλλος GB Τότε έχει νόημα να πούμε ότι δεύτερος έχει 8 GB περισσότερα από τον πρώτο. Από την άλλη μεριά όμως δεν έχει νόημα να πούμε ότι ο δεύτερος έχει διπλάσια μνήμη από τον πρώτο.

Ratio scaled Αν ο λόγος μεταξύ δυο τιμών ενός χαρακτηριστικού έχει νόημα τότε το χαρακτηριστικό ανήκει στην κατηγορία αυτή. Ένα παράδειγμα είναι το βάρος ενός ανθρώπου, αφού έχει νόημα να πούμε πως ένα άτομο που ζυγίζει κιλά είναι δυο φορές βαρύτερο από ένα άτομο που ζυγίζει 5 κιλά. Θα πρέπει να σημειωθεί ένα ratio scaled χαρακτηριστικό περιλαμβάνει όλες τις ιδιότητες ενός interval scaled. Ονομαστικό ή Μη ταξινομήσιμο (nominal) Οι τιμές των χαρακτηριστικών της κλίμακας αυτής χαρακτηρίζουν κωδικοποιημένες καταστάσεις. Παράδειγμα: Ένα χαρακτηριστικό που αντιστοιχεί στο φύλο ενός ανθρώπου. Οι πιθανές τιμές του χαρακτηριστικού αυτού είναι δύο: αρσενικό και θηλυκό. Θα μπορούσαμε δηλαδή να κωδικοποιήσουμε την τιμή αρσενικό με τον αριθμό και την τιμή θηλυκό στο. Είναι φανερό ότι οποιαδήποτε ποσοτική σύγκριση μεταξύ των τιμών ενός nominal χαρακτηριστικού δεν έχει κανένα νόημα. Επίσης είναι εντελώς προφανές η διάταξη των τιμών τέτοιου είδους χαρακτηριστικών δεν έχει απολύτως καμία σημασία. 3 Ταξινομήσιμο (ordinal) Στην κατηγορία αυτή ανήκουν χαρακτηριστικά των οποίων η διάταξη των τιμών τους έχει νόημα. Παράδειγμα: Μια μεταβλητή που χαρακτηρίζει την επίδοση ενός μαθητή σε κάποιο μάθημα. Οι πιθανές τιμές του χαρακτηριστικού αυτού είναι 4, 3,, και αντιστοιχούν στις βαθμολογίες «άριστα», «πολύ καλά», «καλά» και «όχι καλά». Προφανώς αυτές οι τιμές μπορούν να διαταχθούν σε μια σειρά, όπως παραπάνω, η οποία να έχει νόημα. Ωστόσο η διαφορά μεταξύ δυο τέτοιων τιμών δεν έχει καμιά ποσοτική σημασία, αφού μια τέτοια σύγκριση δεν έχει νόημα. 4

Επιλογή Αλγόριθμου Σε σχέση με: Τρόπο που σχηματίζονται οι ομάδες, Την δομή που έχουν τα προς επεξεργασία δεδομένα, Την ευαισθησία στις μεταβολές των δεδομένων, Το μέτρο σύγκρισης των δεδομένων, Την αξιοποίηση σε κάποια εκ των προτέρω γνώση επάνω στα δεδομένα, Κατηγορίες αλγόριθμων: Exclusive Non exclusive, Supervised Non Supervised. 5 Ομαδοποίηση Κοντινότερου Γείτονα Έχει παρατηρηθεί ότι σε μία ομάδα τα δεδομένα είναι συνήθως κοντά μεταξύ τους, Επαναληπτική μέθοδος η οποία τοποθετεί το κάθε σημείο δεδομένο στην ομάδα που είναι πιο κοντά της. Ο πιο γνωστός αλγόριθμος: K-mean clustering O αλγόριθμος k-means clustering Το πιο σημαντικό σημείο είναι το k!!! Δηλαδή, σε πόσες ομάδες πρέπει να διαχωριστεί το σύνολο των σημείων για την καλύτερη διαχείριση των δεδομένων.. Επιλογή του k. Επιλογή k σημείων (τυχαίων?) σαν κεντροειδή 3. Εύρεσητωναποστάσεωνόλωντων σημείων από όλα τα κεντροειδή, 4. Υπολογισμός των νέων k κεντροειδών, 5. Επανάληψη με το βήμα <> μέχρι να μην γίνει καμία άλλη μετακίνηση σημείων. 7

K-means clustering Παράδειγμα 9 8 7 5 4 3 3 4 5 7 8 9 9 8 7 5 4 3 3 4 5 7 8 9 9 8 7 5 4 3 3 4 5 7 8 9 9 8 7 5 4 3 3 4 5 7 8 9 K-means clustering Αρχικοποίηση: επιλογή σημείων για κεντροειδή Βήμα : Επαναπροσδιορισμός κεντροειδών και ομάδων Βήμα (τελικό): Επαναπροσδιορισμός Κεντροειδών και ομάδων 9 K-means clustering Κεντροειδή (centroids) 3

Παράδειγμα k Means Ζητείται να ομαδοποιηθούν τα στοιχεία αυτά σε δύο clusters Γίνεται τυχαία επιλογή των σημείων που θα αποτελέσουν τα αρχικά κέντρα των clusters. 5//9 Παράδειγμα k Means επιλέγουμε την ομάδα στην οποία ανήκει το κάθε στοιχείο, με μοναδικό κριτήριο από ποιο κέντρο έχει την μικρότερη απόσταση Cluster A(,) B(,) C(4,3) D(5,4) Group Group 5//9 Παράδειγμα k Means υπολογίζουμε τις καινούριες συντεταγμένες των κέντρων των clusters βάση των νέων δεδομένων C=(,) C=(+4+5)/3),(+3+4)/3) =(/3,8/3) 5//9

Παράδειγμα k Means Υπολογίζουμε τις αποστάσεις όλων των σημείων από τα νέα κέντρα και επιλέγουμε την ομάδα στην οποία ανήκει το κάθε στοιχείο, με κριτήριο το κέντρο από το οποίο έχει τη μικρότερη απόσταση Cluster A(,) B(,) C(4,3) D(5,4) Group Group 5//9 Παράδειγμα k Means υπολογίζουμε τις καινούριες συντεταγμένες των κέντρων των clusters βάσει των νέων δεδομένων C=((+)/),((+)/)=(.5,) C=((4+5)/),((3+4)/)=(4.5,3.5 ) 5//9 Παράδειγμα k Means Υπολογίζουμε τις αποστάσεις όλων των σημείων από τα νέα κέντρα και επιλέγουμε την ομάδα στην οποία ανήκει το κάθε στοιχείο Cluster A(,) B(,) C(4,3) D(5,4) Group Group 5//9

Παράδειγμα k Means Παρατηρούμε ότι κανένα στοιχείο δεν άλλαξε Group Άρα ο αλγόριθμος τερματίζει Τα τελικά αποτελέσματα έχουν ως εξής: Στοιχείο A(,) B(,) C(4,3) D(5,4) Clustering result Group Group Group Group 5//9 K-means: Πλεονεκτήματα / Μειονεκτήματα Πλεονεκτήματα: Σχετικά γρήγορος. Πολυπλοκότητα: O(tkn), όπου n είναι # δεδομένων, k είναι # ομάδων, και t είναι # επαναλήψεων. Συνήθως k, t << n. Συνήθως βρίσκει τοπικά βέλτιστα. Ολικά βέλτιστα βρίσκονται με χρήση ευρεστικών μεθόδων όπως simulating annealing ή genetic algorithms. Μειονεκτήματα: Πρέπει το k είναι γνωστό, Τι γίνεται στην περίπτωση κατηγοριοποιημένων δεδομένων? 38 Agglomerative Αλγόριθμος Ομαδοποίησης (Ιεραρχικός) Δεδομένων ενός συνόλου Ν σημείων και του αντίστοιχου πίνακα ΝxN αποστάσεων:. Αρχικά δημιουργία Ν ομάδων (όσα και τα σημεία),. Εύρεση του πιο κοντινού ζευγαριού ομάδων και ενοποίησή τους σε μία νέα ομάδα ο # των ομάδων τώρα είναι Ν, 3. Υπολογισμός των αποστάσεων μεταξύ της νέας ομάδας με όλων τις ήδη υπάρχουσες ομάδες, 4. Επανάληψη των βημάτων <> και <3> μέχρι να υπάρχει πλέον μία ομάδα (Ν αντικειμένων). Αυτή η μέθοδος δεν απαιτεί να είναι γνωστός εκ των προτέρω οαριθμόςτωνομάδωνk. Ηδιαδικασίαμπορείναδιακοπεί στο k βήμα ώστε να δημιουργηθούν k ομάδες. 39

Agglomerative Clustering Πλεονεκτήματα: Δεν απαιτείται να είναι γνωστό το k. Μειονεκτήματα: Δεν απαιτείται να είναι γνωστό το k αλλά χρειάζεται κάποιο κριτήριο τερματισμού, Πολυπλοκότητα O(N ), Δεν μπορεί να αναιρέσει κάποια ομάδα που έχει ήδη δημιουργηθεί. 4 Agglomerative Clustering, Παράδειγμα 4 Agglomerative Clustering, Παράδειγμα 4

K-means clustering Κεντροειδή (centroids) 43 Σύγκριση Αλγορίθμων K-Means Κεντροειδή. 47. 5,33 3. 9,8 4. 8, 5. 97 # σημείων ανά ομάδα.. 3. 7 4. 5 5. Agglomerative Κεντροειδή. 49,75. 58,5 3. 9,5 4. 83,75 5. 97 # σημείων ανά ομάδα. 3. 4 3. 7 4. 5 5. 44 ΥΛΟΠΟΙΗΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ K MEANS ΣΕ ΒΙΟΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ (Α ΕΦΑΡΜΟΓΗ) Διαθέτουμε ένα δείγμα ζώων προς ομαδοποίηση με τα εξής χαρακτηριστικά (features) για το κάθε ζώο: Θηλαστικό (, ) = ναι, είναι θηλαστικό = όχι, δεν είναι θηλαστικό Πετάει (, ) =ναι, πετάει = όχι, δεν πετάει Αριθμός ποδιών (,, 4) 5//9

ΔΕΔΟΜΕΝΑ. Σκύλος (,, 4). Γάτα (,, 4) 3. Γεράκι (,, ) 4. Αετός (,, ) 5. Φίδι (,, ). Σαύρα (,, 4) 7. Λιοντάρι (,, 4) 8. Κροκόδειλος (,, 4) 9. Περιστέρι (,, ). Χελώνα (,, 4). Τίγρης (,, 4). Λύκος (,, 4) 3. Χελιδόνι (,, ) 4. Παπαγάλος (,, ) 5. Αλιγάτορας (,, 4). Ιγκουάνα (,, 4) 7. Σκίουρος (,, 4) 8. Καναρίνι (,, ) 9. Ελάφι (,, 4). Κουκουβάγια (,, ). Χαμαιλέων (,, 4) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=: Cluster==>, Centroid =.54. 4. Aktina:.54 Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =..88.75 Aktina:.9 Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=3: Cluster==>, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =..88.75 Aktina:.9 Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5//9

ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=4: Cluster==>, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =... Aktina:. Points:( ) Cluster==>, Centroid =... Aktina:. Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) Cluster==>3, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) 5//9 Β ΕΦΑΡΜΟΓΗ Στο ίδιο σύνολο δεδομένων προσθέτουμε δύο ακόμη χαρακτηριστικά στα ήδη τρία υπάρχοντα. Θηλαστικό (, ) = ναι, είναι θηλαστικό = όχι, δεν είναι θηλαστικό Πετάει (, ) =ναι, πετάει = όχι, δεν πετάει Αριθμός ποδιών (,, 4) Θερμόαιμο-ψυχρόαιμο (, ) = θερμόαιμο = ψυχρόαιμο Σαρκοφάγο-φυτοφάγο (, ) = σαρκοφάγο = φυτοφάγο 5//9 ΔΕΔΟΜΕΝΑ. Σκύλος (,, 4,, ). Γάτα (,, 4,, ) 3. Γεράκι (,,,, ) 4. Αετός (,,,, ) 5. Φίδι (,,,, ). Σαύρα (,, 4,, ) 7. Λιοντάρι (,, 4,, ) 8. Κροκόδειλος (,, 4,, ) 9. Περιστέρι (,,,, ). Χελώνα (,, 4,, ). Τίγρης (,, 4,, ). Λύκος (,, 4,, ) 3. Χελιδόνι (,,,, ) 4. Παπαγάλος (,,,, ) 5. Αλιγάτορας (,, 4,, ). Ιγκουάνα (,, 4,, ) 7. Σκίουρος (,, 4,, ) 8. Καναρίνι (,,,, ) 9. Ελάφι (,, 4,, ). Κουκουβάγια (,,,, ). Χαμαιλέων (,, 4,, ) 5//9

ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=3: Cluster==>, Centroid =.. 4...7 Aktina:.7 Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =..88.75.88.3 Aktina:.8 Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Cluster==>, Centroid =.. 4...7 Aktina:.7 Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) 5//9 ΟΜΑΛΟΠΟΙΗΣΗ Ομαλοποιούμε τις μεταβλητές κάθε δείγματος, που αντιστοιχούν στον αριθμό των ποδιών, μεταφέροντας στους στο πεδίο τιμών [,], χρησιμοποιώντας τη μέθοδο ελαχίστου-μεγίστου (min-max normalization): (x x min )/(x max x min ) 5//9 ΔΕΔΟΜΕΝΑ. Σκύλος (,,.,, ). Γάτα (,,.,, ) 3. Γεράκι (,,.5,, ) 4. Αετός (,,.5,, ) 5. Φίδι (,,.,, ). Σαύρα (,,.,, ) 7. Λιοντάρι (,,.,, ) 8. Κροκόδειλος (,,.,, ) 9. Περιστέρι (,,.5,, ). Χελώνα (,,.,, ). Τίγρης (,,.,, ). Λύκος (,,.,, ) 3. Χελιδόνι (,,.5,, ) 4. Παπαγάλος (,,.5,, ) 5. Αλιγάτορας (,,.,, ). Ιγκουάνα (,,.,, ) 7. Σκίουρος (,,.,, ) 8. Καναρίνι (,,.,, ) 9. Ελάφι (,,.,, ). Κουκουβάγια (,,.5,, ). Χαμαιλέων (,,.,, ) 5//9

ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΛΟΠΟΙΗΣΗΣ Για k=4: Cluster==>, Centroid =..... Aktina:. Points:(..... ) (..... ) (..... ) (..... ) (..... ) Cluster==>, Centroid =.....57 Aktina:.57 Points:(...5.. ) (...5.. ) (...5.. ) (...5.. ) (...5.. ) (...5.. ) (...5.. ) Cluster==>, Centroid =...8..7 Aktina:.9 Points:(..... ) (..... ) (..... ) (..... ) (..... ) (..... ) (..... ) Cluster==>3, Centroid =..... Aktina:. Points:(..... ) (..... ) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΛΟΠΟΙΗΣΗΣ Για k=: Cluster==>, Centroid =..... Aktina:. Points:(..... ) (..... ) (..... ) (..... ) (..... ) Cluster==>, Centroid =...5.. Aktina:. Points:(...5.. ) (...5.. ) (...5.. ) (...5.. ) Cluster==>, Centroid =...8.. Aktina:.8 Points:(..... ) (..... ) (..... ) (..... ) (..... ) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΛΟΠΟΙΗΣΗΣ Για k=: Cluster==>3, Centroid =..... Aktina:. Points:(..... ) (..... ) Cluster==>4, Centroid =...5.. Aktina:. Points:(...5.. ) (...5.. ) (...5.. ) Cluster==>5, Centroid =..... Aktina:. Points:(..... ) (..... ) 5//9

Βιβλιογραφία. V. Faber, Clustering and the Continuous k-means Algorithm, Los Alamos Science, vol., pp. 38-44, 994.. A. K. Jain, and R. C. Dubes, Algorithms for Clustering Data, Prentice Hall, 988. 3. B. Κωστίου, Αλγόριθμοι Κατηγοριοποίησης Βιολογικών Δεδομένων, Πτυχιακή Εργασία, ΤΕΙ Λάρισας, Τμήμα Τεχν. Πληρ. & Τηλεπ., 9. Άσκηση Αλγοριθμικήανάπτυξηκαιυλοποίησητωνδύο αλγορίθμων (k-means & agglomerative) σε κάποια γλώσσα προγραμματισμού. Είσοδος Ν=3 δεδομένων (ΠΡΟΣΟΧΗ: πρέπει να είναι διαφορετικά) στο διάστημα [,] και δημιουργία: 3 ομάδων, 4 ομάδων, 5 ομάδων. Σύγκριση των δύο μεθόδων: Σε σχέση με το χρόνο εκτέλεσης, Σε σχέση με τα περιεχόμενα σημεία στις k-ομάδες καθώς επίσης και των αντίστοιχων κεντροειδών. 59