Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;



Σχετικά έγγραφα
Οι ιοί και οι ιογενείς λοιμώξεις του αναπνευστικού συστήματος στα παιδιά

ΣΥΓΚΡΙΣΗ ΣΥΜΒΑΤΙΚΗΣ ΚΑΙ ΜΗΧΑΝΟΠΟΙΗΜΕΝΗΣ ΜΕΘΟΔΟΥ ΣΠΟΡΑΣ ΚΑΙ ΜΕΤΑΦΥΤΕΥΣΗΣ ΣΠΟΡΟΦΥΤΩΝ ΛΑΧΑΝΙΚΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΓΕΝΙΚΩΝ ΚΑΙ ΕΙΔΙΚΩΝ ΟΡΩΝ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ «ΑΣΦΑΛΩΣ ΚΑΤΟΙΚΕΙΝ» ΚΟΙΝΟΧΡΗΣΤΟΙ ΧΩΡΟΙ

11. Προϋπολογισμός Προϋπολογισμός και αποδοτικότητα δημοσίων υπηρεσιών: υφιστάμενη κατάσταση

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΑΡΙΘΜΟΣ ΜΕΛΕΤΗΣ: 58/ 2014 ΝΟΜΟΣ ΘΕΣΠΡΩΤΙΑΣ ΔΗΜΟΣ ΗΓΟΥΜΕΝΙΤΣΑΣ Δ/ΝΣΗ ΤΕΧΝΙΚΩΝ ΥΠΗΡΕΣΙΩΝ ΜΕΛΕΤΗ

Βασικές Έννοιες και Μέθοδοι της Οικονομικής Επιστήμης - Οικονομία (< οίκος + νέμω): Διαχείριση των Υποθέσεων ενός Νοικοκυριού - Γενικός Ορισμός: Μια

Χρηματοδότηση των Συλλόγων στην εποχή της κρίσης

Γνωρίζω, Αγαπώ & Φροντίζω το Σώμα μου

Συνοπτική Παρουσίαση. Ελλάδα

ΑΣΦΑΛΙΣΗ ΑΥΤΟΚΙΝΗΤΟΥ

Ασφάλεια στις εργασίες κοπής μετάλλων

Βασικά σημεία διάλεξης

Δασικά Οικοσυστήματα και Τεχνικά Έργα

ενεργοί πολίτες για τη Μήλο οι θέσεις μας Υποψηφιότητα Αντώνη Καβαλιέρου δημοτικές εκλογές

ΕΛΕΥΘΕΡΟΤΥΠΙΑ - 24/11/2007

ΚΩΔΙΚΑΣ ΔΕΟΝΤΟΛΟΓΙΑΣ

ΜΗ ΤΥΠΙΚΟΤΗΤΑ ΚΑΙ ΜΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ ΣΤΙΣ ΑΓΟΡΕΣ

Πρακτικό 6/2012 της συνεδρίασης της Επιτροπής Ποιότητας Ζωής, του Δήμου Λήμνου, της 4ης Μαΐου 2012.

ΦΟΡΟΛΟΓΙΚΟ ΠΛΑΙΣΙΟ ΤΡΟΧΟΠΕΔΗ ΣΤΗΝ ΑΝΑΚΑΜΨΗ. Γιάννης Περρωτής, Αντιπρόεδρος Σ.Ε.Α.ΑΚ.

Η ΔΙΑΘΕΜΑΤΙΚΗ ΤΗΣ ΔΙΑΘΕΜΑΤΙΚΗΣ

Σχολικός εκφοβισµός και γονείς

1. Εισαγωγή. 2. Καταπολέμηση της φοροδιαφυγής

Ατομικό ιστορικό νηπίου

ΠΡΟΒΛΗΜΑΤΑ ΤΗΣ ΔΗΜΟΣΙΑΣ ΖΩΗΣ, ΜΙΑ ΨΥΧΑΝΑΛΥΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

ΚΕΦ. 1 Η ΛΟΓΙΣΤΙΚΗ ΚΑΙ Η ΣΗΜΑΣΙΑ ΤΗΣ ΣΤΙΣ ΕΠΙΧΕΙΡΗΣΕΙΣ

Το συνέδριο σας πραγματοποιείται σε μια εξαιρετικά δύσκολη συγκυρία για τον τόπο, την οικονομία της χώρας, την κοινωνία και τον κόσμο της εργασίας.

Η Αγορά Ηλεκτρικής Ενέργειας στην Κύπρο έχει οργανωθεί σε τομείς που υπόκεινται στις ακόλουθες ρυθμίσεις:

«Ειρήνη» Σημειώσεις για εκπαιδευτικούς

Το ολοκαύτωμα της Κάσου

θεωρητική και εθνογραφική τεκμηρίωση ορίων και σχέσεων των μουσικών δικτύων του σύγχρονου πανηγυριού

Μαρτυρία Νίκου Ιωάννου (Ψωμά)

ΕΦΑΡΜΟΣΜΕΝΗ ΗΘΙΚΗ. Ενότητα 3: Το παράδειγμα της Τρέισι Λάτιμερ (συνέχεια) Παρούσης Μιχαήλ. Τμήμα Φιλοσοφίας

Μια «γριά» νέα. Εύα Παπώτη

* Από την αγγλική λέξη «boss», αφεντικό. ** «Core houses» στο πρωτότυπο, μικρά ισόγεια σπίτια ανθεκτικής κατασκευής με πρόβλεψη επέκτασης. (Σ.τ.Ε.

Α. ΙΣΤΟΡΙΚΑ ΓΕΓΟΝΟΝΤΑ

289 ον Σύστημα Αεροπροσκόπων Αγίας Φύλας ΟΜΑΔΑ ΠΡΟΣΚΟΠΩΝ ΕΓΧΕΙΡΙΔΙΟ ΑΡΧΑΡΙΟΥ ΠΡΟΣΚΟΠΟΥ

ΚΩ ΙΚΑΣ ΕΟΝΤΟΛΟΓΙΑΣ ΤΗΣ ΕΤΑΙΡΕΙΑΣ ΜΕ ΤΗΝ ΕΠΩΝΥΜΙΑ «ΠΑΠΟΥΤΣΑΝΗΣ ΑΝΩΝΥΜΗ ΒΙΟΜΗΧΑΝΙΚΗ ΚΑΙ ΕΜΠΟΡΙΚΗ ΕΤΑΙΡΕΙΑ ΚΑΤΑΝΑΛΩΤΙΚΩΝ ΑΓΑΘΩΝ»

ΣΥΣΤΗΜΑ ΔΙΑΓΝΩΣΗΣ ΑΝΑΓΚΩΝ ΑΓΟΡΑΣ ΕΡΓΑΣΙΑΣ ΔΙΑΓΝΩΣΗ ΑΝΑΓΚΩΝ ΣΕ ΠΕΡΙΦΕΡΕΙΑΚΟ ΕΠΙΠΕΔΟ

αρχαιολόγος- μουσειολόγος- ξεναγός, ΜΑ

(ΜΕ ΤΑ ΔΥΟ ΜΕΙΟΝΕΚΤΗΜΑΤΑ)

Θερινά ΔΕΝ 2011 "ακολουθώντας τη ροή" - η ματιά μου

ΠΑΙΔΑΓΩΓΙΚΗ ΣΧΟΛΗ (ΦΛΩΡΙΝΑ) ΤΜΗΜΑ ΝΗΠΙΑΓΩΓΩΝ ΕΡΓΑΣΤΗΡΙΟ ΔΙΔΑΚΤΙΚΗΣ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΠΑΡΑΓΩΓΗΣ ΔΙΔΑΚΤΙΚΟΥ ΥΛΙΚΟΥ

Αναλυτικές οδηγίες διακοπής καπνίσματος βήμα προς βήμα

3. Βιτσιλάκη Χ., Γουβιάς Δ. (2007). ΣΧΟΛΕΙΟ ΚΑΙ ΔΟΥΛΕΙΑ: Μία εμπειρική διερεύνηση της εφηβικής απασχόλησης. Αθήνα (εκδόσεις Gutenberg ).

Ημερίδα με Θέμα Η ΠΡΟΑΓΩΓΗ ΤΗΣ ΣΩΜΑΤΙΚΗΣ ΥΓΕΙΑΣ ΤΩΝ ΠΑΙΔΙΩΝ ΩΣ ΔΙΑΧΡΟΝΙΚΟ ΑΙΤΗΜΑ:

Πρόγραμμα Σπουδών για το "Νέο Σχολείο"

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΟΙΚΟΝΟΜΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Συνωμοσία Πυρήνων της Φωτιάς - Πυρήνας Αντάρτικου Πόλης

ΑΤΕΙ ΚΑΛΑΜΑΤΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΑΣ ΓΕΩΠΟΝΙΑΣ ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΓΕΩΡΓΙΚΩΝ ΠΡΟΪΟΝΤΩΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο

Κεφάλαιο Πέμπτο Εθνοπολιτισμική Ζωή και Εμπειρίες Ελληνικότητας των Ελληνοαυστραλών Εφήβων

Έρευνα Καταναλωτικής Εμπιστοσύνης

Το Βαρόμετρο του Παρατηρητηρίου: Ποιότητα των Δημόσιων Υπηρεσιών προς Επιχειρήσεις

ΣΥΜΜΟΡΦΩΣΗ ΜΕ ΤΙΣ ΝΕΕΣ ΠΟΛΙΤΙΚΕΣ ΕΡΓΑΣΙΑΣ ΠΕΡΙΛΗΨΗ

Πρακτικό εργαλείο. για την ταυτοποίηση πρώτου επιπέδου των θυμάτων παράνομης διακίνησης και εμπορίας. τη σεξουαλική εκμετάλλευση

Σε ποιες κατηγορίες μειώνεται η σύνταξη από 1/1/2009 (σε εφαρμογή του Ν.3655/2008)

ΜΗΝΙΑΙΟ ΕΛΤΙΟ ΙΟΥΝΙΟΥ 2007

Μαρία-Στεφανία-Γιάννης 1 ο Πρότυπο Πειραματικό Δημοτικό Σχολείο Θεσσαλονίκης Ε2 Π.Τ.Δ.Ε.-Α.Π.Θ

Θεματική Ενότητα: ΠΑΙΔΕΙΑ ΠΟΛΙΤΙΣΜΟΣ - ΑΘΛΗΤΙΣΜΟΣ

Κατερίνα Παναγοπούλου: Δημιουργώντας κοινωνικό κεφάλαιο την εποχή της κρίσης

Εκδήλωση-Συζήτηση. για τις φυλακές και τους κρατούμενους αγωνιστές. όσο υπαρχουν φυλακές κανείς δεν είναι ελεύθερος. Εισήγηση

8 Μάρτη. Η βία κατά των γυναικών

Μηνιαία οικολογική Εφημερίδα Οκτώβριος 2011 Φύλλο 98 Τιμή φύλλου 0,01. Παράθυρο σε ένα σκοτεινό δωμάτιο

ΕΝΗΜΕΡΩΤΙΚΟ ΈΓΓΡΑΦΟ Σ.Ε.Ε.Δ.Δ.Ε. ΟΙ ΕΠΙΒΑΡΥΝΣΕΙΣ ΤΟΥ ΝΕΟΥ ΦΟΡΟΛΟΓΙΚΟΥ

Β.Ι.ΛΕΝΙΝ: ΓΙΑ ΤΟΝ ΜΑΡΞ ΚΑΙ ΤΟΝ ΜΑΡΞΙΣΜΟ

ΔΕΛΤΙΟ ΤΥΠΟΥ. Ελλείψεις στο φορολογικό νομοσχέδιο. Σοβαρές ελλείψεις στη νέα μορφή του φορολογικού νομοσχεδίου

Στεκόμαστε αλληλέγγυοι σ όσους, ατομικά ή συλλογικά επανακτούν αυτά που νόμιμα μας κλέβουν οι εξουσιαστές.

ΕΝΗΜΕΡΩΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΑΝΑΒΑΣΕΩΝ - ΕΚΔΗΛΩΣΕΩΝ

Ερώτηση 1. Ποια είναι η μόνη παρηγοριά σου, στη ζωή και στο θάνατο;

ΕΚΦΡΑΣΗ-ΕΚΘΕΣΗ Β ΛΥΚΕΙΟΥ 1 ο Λύκειο Καισαριανής ΕΠΑΓΓΕΛΜΑ: Κείμενα Προβληματισμού

Θεµατικές ενότητες: παρεµβάσεις και ενδεικτικές υποθέσεις. 1. Οικονοµική πολιτική. Παρεµβάσεις οικονοµικού χαρακτήρα

ΟΡΟΙ ΚΑΙ ΠΡΟΫΠΟΘΕΣΕΙΣ

Ευρετήριο πινάκων. Ασκήσεις και υπομνήματα

ΣΥΝΤΟΝΙΣΤΕΣ ΟΜΑΔΑΣ PROJECT ΑΝΘΡΩΠΙΣΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ: ΟΜΑΔΑ PROJECT ΑΝΘΡΩΠΙΣΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ:

ΤΙΤΛΟΣ ΒΙΒΛΙΟΥ: Συνδικαλιστική εκπαίδευση, Συλλογικές συμβάσεις, Συλλογικές διαπραγματεύσεις.

*Απόσπασμα από το βιβλίο των Σέργιου Δημητριάδη και Αλεξίας Μ. Τζωρτζάκη, ΜΑΡΚΕΤΙΝΓΚ, Αρχές, Στρατηγικές, Εφαρμογές, εκδόσεις Rosili, Αθήνα, 2010.

Δρ.ΠΟΛΥΚΑΡΠΟΣ ΕΥΡΙΠΙΔΟΥ

Ο «ΕΚΑΛΟΓΟΣ» ΤΟΥ ΚΑΛΟΥ ΥΠΟΨΗΦΙΟΥ

Απόφαση του Δ.Σ. για το προσχέδιο του νόμου για την Ανώτατη Εκπαίδευση

109(Ι)/2014 ΝΟΜΟΣ ΠΟΥ ΠΡΟΝΟΕΙ ΓΙΑ ΤΟ ΕΛΑΧΙΣΤΟ ΕΓΓΥΗΜΕΝΟ ΕΙΣΟΔΗΜΑ ΚΑΙ ΓΕΝΙΚΟΤΕΡΑ ΠΕΡΙ ΚΟΙΝΩΝΙΚΩΝ ΠΑΡΟΧΩΝ ΤΟΥ 2014 ΚΑΤΑΤΑΞΗ ΑΡΘΡΩΝ

ΠΑΓΚΥΠΡΙΑ ΟΡΓΑΝΩΣΗ ΕΛΛΗΝΩΝ ΔΑΣΚΑΛΩΝ (ΠΟΕΔ) ΤΑΚΤΙΚΗ ΠΑΓΚΥΠΡΙΑ ΣΥΝΔΙΑΣΚΕΨΗ ΓΕΝΙΚΩΝ ΑΝΤΙΠΡΟΣΩΠΩΝ ΛΟΓΟΔΟΣΙΑ ΤΟΥ Δ.Σ. ΓΙΑ ΣΧΟΛΙΚΟ ΕΤΟΣ

Δαλιάνη Δήμητρα Λίζας Δημήτρης Μπακομήτρου Ελευθερία Ντουφεξιάδης Βαγγέλης

ΑΙΤΙΟΛΟΓΙΚΗ ΕΚΘΕΣΗ. στο σχέδιο νόμου «Συγκέντρωση και αδειοδότηση επιχειρήσεων Μέσων Ενημέρωσης και άλλες διατάξεις» Προς τη Βουλή των Ελλήνων

ΣΥΜΒΑΣΗ ΓΙΑ ΤΗΝ ΥΠΗΡΕΣΙΑ ΚΑΤΑΓΡΑΦΗΣ ΤΩΝ ΕΡΓΩΝ ΚΑΙ ΤΩΝ ΠΕΡΙΟΥΣΙΑΚΩΝ ΣΤΟΙΧΕΙΩΝ ΤΟΥ ΗΜΟΥ ΣΤΗΝ ΙΠΠΟΚΡΑΤΕΙΟ ΠΟΛΙΤΕΙΑ. ΠΕΡΙΕΧΟΜΕΝΑ

ΗΜΟΣ ΛΕΜΕΣΟΥ ΟΙΚΟΝΟΜΙΚΟ ΤΜΗΜΑ ΟΡΟΙ ΙΑΓΩΝΙΣΜΟΥ ΓΙΑ ΤΗΝ ΕΠΙΛΟΓΗ ΑΝΑ ΟΧΟΥ ΜΕ ΣΥΝΟΠΤΙΚΕΣ ΙΑ ΙΚΑΣΙΕΣ ΚΑΙ ΚΡΙΤΗΡΙΟ ΕΠΙΛΟΓΗΣ ΤΗΝ ΧΑΜΗΛΟΤΕΡΗ ΠΡΟΣΦΟΡΑ

Παραμυθιά Τάξη Α Μάστορα Έλλη

ΟΡΓΑΝΩΣΗ ΕΝΟΤΗΤΩΝ Α ΤΑΞΗΣ ΕΝΟΤΗΤΑ 3

Ο αθλητισμός εμπνέεται από την ειρήνη. Η ειρήνη εμπνέεται από τον αθλητισμό.

Τοποθέτηση Δημάρχου Γ. Πατούλη. για τεχνικό πρόγραμμα 2010

ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Οι 21 όροι του Λένιν

ΘΕΣΕΙΣ ΠΡΟΤΑΣΕΙΣ ΠΡΟΤΕΡΑΙΟΤΗΤΕΣ

Συνεταιριστική Οικονομία

Καθηγητές στο μικροσκόπιο, ιδιώτες στην έρευνα. Ο νέος νόμος-πλαίσιο για τα πανεπιστήμια. Εφημερίδα: ΤΟ ΒΗΜΑ Ρεπορτάζ: ΜΑΡΝΥ ΠΑΠΑΜΑΤΘΑΙΟΥ

Γιάννης Υφαντής ΓΚΆΤΣΟΣ Ο ΠΕΛΑΣΓΙΚΌΣ. Οι ποιητές

στο πλαίσιο του έργου ΣΥΜΒΟΥΛΟΣ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΥΛΟΠΟΙΗΣΗΣ (ON GOING) ΤΟΥ ΕΠΙΧΕΙΡΗΣΙΑΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ «ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΟΥ ΔΥΝΑΜΙΚΟΥ»

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Πρώτες βοήθειες και αντιλήψεις του πληθυσμού στους Νομούς Χανίων, Ηρακλείου, Λασιθίου και Μεσσηνίας

289 ον Σύστημα Αεροπροσκόπων Αγίας Φύλας ΟΜΑΔΑ ΠΡΟΣΚΟΠΩΝ ΕΓΧΕΙΡΙΔΙΟ ΧΑΛΚΙΝΟΥ ΤΡΙΦΥΛΛΟΥ

Σοφία Γιουρούκου, Ψυχολόγος Συνθετική Ψυχοθεραπεύτρια

Transcript:

Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση Ι Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 3-διάστατα σημεία, ευκλείδεια απόσταση Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Εφαρμογές Εφαρμογές ομαδοποίηση γονιδίων και πρωτεϊνών που έχουν την ίδια λειτουργία, χαρακτηριστικά ασθενειών μετοχών με παρόμοια διακύμανση τιμών, ομαδοποίηση weblog για εύρεση παρόμοιων προτύπων προσπέλασης, ομαδοποίηση σχετιζόμενων αρχείων για browsing, ομαδοποίηση κειμένων κλπ 3 4 Discovered Clusters Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Industry Group Technology-DOWN Technology-DOWN Financial-DOWN Oil-UP Κατανόηση Stand-alone εφαρμογή/εργαλείο οπτικοποίηση, συμπεράσματα για την κατανομή Βήμα Προεπεξεργασίας Περίληψη: Ελάττωση του μεγέθους μεγάλων συνόλων χρήση αντιπροσωπευτικών σημείων από κάθε συστάδα πρωτότυπα (prototypes), Συμπίεση ή Αποδοτική κατασκευή ευρετηρίων εύρεση κοντινότερου γείτονα κλπ πελάτες με παρόμοια συμπεριφορά Συσταδοποίηση επιπέδου βροχής (precipitation) στην Αυστραλία! Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 3 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4 Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα Πότε μια συσταδοποίηση είναι καλή; Μια μέθοδος συσταδοποίησης είναι καλή αν παράγει συστάδες καλής ποιότητας Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες Η ποιότητα εξαρτάται από τη Μέτρηση ομοιότητας και Μέθοδο υλοποίησης της συσταδοποίησης Τι σημαίνει απόσταση/ομοιότητα; Είδη συσταδοποίησης Ένα βασικό αλγόριθμο συσταδοποίησης (k-means) Πρώτα, ας δούμε λίγο τι μπορεί να είναι τα δεδομένα Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 0 0 Συλλογή από αντικείμενα - δεδομένα. Τα δεδομένα έχουν γνωρίσματα. Ένα γνώρισμα (attribute) είναι μια ιδιότητα ή χαρακτηριστικό του αντικειμένου Για παράδειγμα: χρώμα ματιών, θερμοκρασία, γεωγραφικές συντεταγμένες κλπ. Μια συλλογή από γνωρίσματα περιγράφει ένα αντικείμενο Γνωρίσματα Tid Refund Marital Status Taxable Income Yes Single 5K No No Married 00K No 3 No Single 70K No ιάσταση αναφέρεται στον αριθμό των 4 Yes Married 0K No γνωρισμάτων 5 No Divorced 95K Yes Αντικείμενα 6 No Married 60K No Αντικείμενο (δεδομένο) πλειάδα 7 Yes Divorced 0K No Συνήθως, τέτοια σύνολα πλειάδων αποθηκευμένα σε απλά αρχεία ή σε σχεσιακές βάσεις δεδομένων Cheat 8 No Single 85K Yes 9 No Married 75K No 0 No Single 90K Yes Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8 Κάθε γνώρισμα παίρνει τιμές από ένα πεδίο. Οι τιμές μπορεί να είναι αριθμοί η σύμβολα Το ίδιο γνώρισμα μπορεί να παίρνει διαφορετικές τιμές, πχ όταν διαφέρει η μονάδα μέτρησης Η θερμοκρασία μπορεί να μετριέται σε Κελσίου και Φαρενάιτ ιαφορετικά γνωρίσματα τιμές από το ίδιο πεδίο τιμών Ορολογία Ένα αντικείμενο λέγεται και εγγραφή (record), σημείο (point), οντότητα entity, δείγμα (sample), περίπτωση (case), ή στιγμιότυπο (instance). Το γνώρισμα λέγεται και field (πεδίο), χαρακτηριστικό (characteristic) μεταβλητή (variable), feature Εγγραφές Πίνακες Κείμενα Συναλλαγές Γραφήματα Παγκόσμιος Ιστός -World Wide Web Μοριακές ομές ιατάξεις Χωρικά εδομένα Χρονικά εδομένα Ακολουθίες Γενετικές Ακολουθίες Τι άλλα δεδομένα έχουμε; Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0 Εγγραφές Πίνακες Όπως είδαμε, στη γενική περίπτωση - συλλογή από εγγραφές με προκαθορισμένο αριθμό γνωρισμάτων Tid Refund Marital Status Taxable Income Yes Single 5K No No Married 00K No 3 No Single 70K No 4 Yes Married 0K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 0K No 8 No Single 85K Yes 9 No Married 75K No 0 No Single 90K Yes Αν στις εγγραφές τα γνωρίσματα παίρνουν αριθμητικές τιμές τότε τα αντικείμενα μπορεί να τα θεωρήσουμε και ως σημεία σε πολύ-διάστατο χώρο Και ως n x m πίνακα, n αντικείμενα, m γνωρίσματα Projection of x Load 0.3.65 Projection of y load 5.7 6.5 Distance 5. 6. Load.7. Thickness.. Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 3 Έγγραφα Κάθε έγγραφο, έναδιάνυσμαόρων Τόσες διαστάσεις όσοι οι όροι Τιμή σε κάθε διάσταση είναι ίσος με το πλήθος τω εμφανίσεων του αντίστοιχου όρου στο κείμενο Συναλλαγές Κάθε εγγραφή περιέχει ένα σύνολο από στοιχεία : αγορές από κατάστημα, όπου κάθε συναλλαγή είναι το σύνολο των προϊόντων που αγοράστηκαν σε μια επίσκεψη σε ένα μαγαζί team coach pla y ball score game wi n lost timeout season TID Items Bread, Coke, Milk Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4 Γραφήματα Ακολουθίες Συναλλαγών 5 5 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers Γεγονότα Γενικό γράφημα Μια HTML σελίδα Στοιχείο της ακολουθίας Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6 ιατάξεις ιατάξεις Genomic sequence data GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG Χωρο-χρονικά εδομένα Μέση Μηνιαία Θερμοκρασία Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Είδη Γνωρισμάτων Η συσταδοποίηση είναι δυνατή σε όλες αυτές τις κατηγορίες δεδομένων Σημασία έχει η έννοια της ομοιότητας ιαφορετικές μέθοδοι/είδη συσταδοποίσης πιο κατάλληλες για καθεμία κατηγορία Κάποια θέματα που μας απασχολούν Πολλές διαστάσεις (curse of dimensionality) Αραιά δεδομένα (sparsity) μας ενδιαφέρουν μόνο ορισμένες τιμές Ακρίβεια τιμών (resolution) Ας δούμε τα βασικά είδη γνωρισμάτων για δεδομένα τύπου εγγραφών Το είδος των γνωρισμάτων εξαρτάται από τι ιδιότητες έχει: Κατηγορικά ιακριτότητα, Distinctness: = ιάταξη - Order: < > Αριθμητικά Προσθετική- Addition: + - Πολλαπλασιαστική - Multiplication: * / Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0 Είδη Γνωρισμάτων Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά Τύπος Δεδομένου Nominal Περιγραφή Οι τιμές είναι απλώς διαφορετικά ονόματα (αναγνωριστικά) με αρκετή πληροφορία ώστε να γίνει διάκριση ανάμεσα τους (=, ) (καιοιδυαδικέςμεταβλητές0 ) Διάταξη - Ordinal Οι τιμές περιέχουν πληροφορία διάταξης (<, >) Διαστήματος - Interval Έχει σημασία η διαφορά μεταξύ δύο τιμών, υπάρχει μονάδα μέτρησης (+, - ) Ratio Έχει σημασία και ο λόγος μεταξύ δύο τιμών (*, /) Παραδείγματα ταχυδρομικός κωδικός, αριθμός ταυτότητας, χρώμα ματιών, φύλο Ποιότητα υλικού (καλή, πιο καλή, άριστη), βαθμοί:{καλών, λίαν καλώς, άριστα}, αριθμοί στις διευθύνσεις Θερμοκρασία σε Celsius ή Fahrenheit Νομισματικές ποσότητες, ηλικία, θερμοκρασία σε Kelvin, ηλικία, μήκος 5 A B 7 C 8 3 D 0 4 E 5 5 Διαφορετικοί τρόποι να μετρήσουμε το μήκος Ο τρόπος στα αριστερά μόνο διάταξη οτρόπος στα δεξιά και προσθετικός Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Είδη Γνωρισμάτων Nominal Ordinal Μετασχηματισμοί Οποιοσδήποτε ένα-προς-ένα απεικόνιση (πχ permutation) Αλλαγή τιμών που να διατηρεί την διάταξη πχ νέα_τιμή = f(παλιά_τιμή) όπου f μονότονη συνάρτηση. Πχ δεν έχει διαφορά αν ξαναδώσουμε από την αρχή αριθμούς ταυτότητας ή διαβατηρίου Έναγνώρισμαγιαδιαβάθμιση μπορεί να είναι {C, B, A} ή {,, 3} ή { 0.5,, 0}. Απόσταση και Ομοιότητα Interval νέα_τιμή =a * παλιά_τιμή + b όπου a και b σταθερές Εξαρτάται από που είναι τι μηδέν και το μέγεθος της μονάδας (πχ μεταξύ Fahrenheit και Celsius) Ratio νέα_τιμή = a * παλιά_τιμή, όπου a σταθερά Μήκος σε μέτρα ή πόδια Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 3 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Κριτήρια Ομοιότητας -Απόσταση Κριτήρια Ομοιότητας -Απόσταση Ομοιότητα Μια αριθμητική μέτρηση για το πόσο όμοια είναι δυο αντικείμενα Μεγαλύτερη όσο πιο όμοια είναι τα αντικείμενα μεταξύ τους Συχνά τιμές στο [0, ] Μη Ομοιότητα (dissimilarity) Μια αριθμητική μέτρηση για το πόσο διαφορετικά είναι δυο αντικείμενα Μικρότερη όσο ποιο όμοια είναι τα αντικείμενα μεταξύ τους Ηελάχιστητιμήείναισυνήθως0 (όταν τα ίδια), αλλά το πάνω όρο διαφέρει Η ομοιότητα-μη ομοιότητα μεταξύ δύο αντικειμένων μετριέται συνήθως βάση μιας συνάρτησης απόστασης ανάμεσα στα αντικείμενα Εξαρτάται από το είδος των δεδομένων, δηλαδή από το είδος των γνωρισμάτων τους Γειτονικότητα (Proximity) αναφέρεται είτε στην ομοιότητα είτε στην μη ομοιότητα Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6 Κριτήρια Ομοιότητας Κριτήρια Ομοιότητας Συναρτήσεις απόστασης (distance functions) Συχνές ιδιότητες:. d(i, j) 0. d(i, i) = 0 (ανακλαστική) 3. d(i, j) = d(j, i) (συμμετρική) 4. d(i, j) d(i, h) + d(h, j) (τριγωνική ανισότητα) Γνωστές ιδιότητες για την ομοιότητα: s(p, q) = (ή μέγιστη ομοιότητα) μόνο αν p = q. s(p, q) = s(q, p) για κάθε p και q. (Συμμετρία) Όταν ισχύουν και οι 4, η συνάρτηση απόστασης ονομάζεται και μετρική απόστασης (distance metric) Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8 Μετασχηματισμοί Αν θέλουμε να έχουμε τιμές ομοιότητας (απόστασης) στο [0, ] Αν οι τιμές μας στο [min_s, max_s] ([min_d, max_d]) Απλός μετασχηματισμός (x min_s) / (max_s min_s) Μετασχηματισμοί Από ομοιότητα -> απόσταση Γενικά μπορούμε να χρησιμοποιήσουμε οποιαδήποτε μονότονα φθήνουσα συνάρτηση για τον μετασχηματισμό d = s, -s s = - d Τι γίνεται αν [0, ] Χρήση μη γραμμικού μετασχηματισμού πχ d/+d Αλλά χάνεται πληροφορία μεγέθους (scale distortion) Πχ 0, 0.5,, 0, 00, 000 0, 0.33, 0.67, 0.90, 0.99, 0.999 s = /+d, e -d, (d min_d)/(max_d min_d) Πχ απόσταση 0,, 0, 00 0 - -0-00 0.5 0.09 0.0 0.37 0.00 0.00 0.99 0.00 0.00 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 30

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 3 Πίνακας Απόστασης (ανομοιότητας) Πίνακας Γειτονικότητας Contingency Matrix n x n πίνακας One mode Αν συμμετρική, d(i, j) = d(j, i) Πίνακας Απόστασης Συχνά, αφού υπολογιστεί η απόσταση, χρησιμοποιούμε όχι τα αρχικά αντικείμενα αλλά έναν πίνακα με τις αποστάσεις Γνωρίσματα (διαστάσεις) Πίνακας δεδομένων x... x f... x p (two modes-οι............... γραμμές και οι στήλες Σημεία x... x... x αφορούν διαφορετικές (δεδομένα) i if ip οντότητες)............... n-σημεία διάστασης p x... x... x n nf np Σημεία 0 d(,) d(3, ) : d ( n,) 0 d (3,) : d ( n,) 0 :... Σημεία... 0 Κριτήρια Ομοιότητας -Απόσταση Πως ορίζεται η απόσταση ανάμεσα σε πολύ-διάστατα δεδομένα; Εξαρτάται από τις τιμές των γνωρισμάτων Ας δούμε πρώτα μεταβλητή Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 3 Κριτήρια Ομοιότητας Απόσταση Κριτήρια Ομοιότητας -Απόσταση Έστω p και q γνωρίσματα δυο αντικειμένων Απόσταση (μη ομοιότητα) Ομοιότητα Τι γίνεται αν έχουμε παραπάνω από ένα γνωρίσματα; s = - d Γενικά για αριθμητικά δεδομένα (αλλά μπορεί να επεκταθεί) n διαφορετικές τιμές Ομοιότητα και απόσταση για απλές μεταβλητές Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 33 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 34 d( i, j) = Έστω δυο μεταβλητές i και j με n γγνωρίσματα x ik και x jk i = (x i, x i,, x in ) and j = (x j, x j,, x jn ) Ο πιο συνηθισμένος τρόπος Ευκλείδεια απόσταση: ( x x + x x +... + x x ) i j i j in jn 3 p p3 p4 p 0 0 3 4 5 6 Πίνακας Δεδομένων point x y p 0 p 0 p3 3 p4 5 Είναι μετρική απόστασης p p p3 p4 p 0.88 3.6 5.099 p.88 0.44 3.6 p3 3.6.44 0 p4 5.099 3.6 0 Πίνακας Απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 35 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 36

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 37 Έστω δυο μεταβλητές i και j με n γγνωρίσματα x ik και x jk i = (x i, x i,, x in ) and j = (x j, x j,, x jn ) Manhattan ή city-block L ( i, j) = x x + x x +... + x x i j i j in jn Είναι μετρική απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 38 Έστω δυο μεταβλητές i και j με n γγνωρίσματα x ik και x jk i = (x i, x i,, x in ) and j = (x j, x j,, x jn ) Minkowski: p p p / p L p ( i, j) = x x + x x +... + x x i j i j in jn Είναι μετρική απόστασης r =. City block (Manhattan, taxicab, L norm). Hamming distance, όταν δυαδικά διανύσματα = αριθμός bits που διαφέρουν r =. Ευκλείδεια απόσταση r. supremum (L max norm, L norm) απόσταση. Η μέγιστη απόσταση μεταξύ οποιουδήποτε γνωρίσματος (διάστασης) των δυο διανυσμάτων Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 39 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 40 3 p p3 p4 p 0 0 3 4 5 6 point x y p 0 p 0 p3 3 p4 5 L p p p3 p4 p 0 4 4 6 p 4 0 4 p3 4 0 p4 6 4 0 L p p p3 p4 p 0.88 3.6 5.099 p.88 0.44 3.6 p3 3.6.44 0 p4 5.099 3.6 0 L p p p3 p4 p 0 3 5 p 0 3 p3 3 0 p4 5 3 0 Πίνακες Απόστασης Συχνά, Βάρη πχ για Ευκλείδεια απόσταση: d( i, j) = ( w x x + w x x +... + w x x ) i j i j n in jn Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 43 Μεταβλητές ιαστήματος υαδικές Μεταβλητές Standardization Μέση απόλυτη απόκλιση (mean absolute deviation) s = ( x m x m... x m ) f n + + + f f f f nf f όπου n m = (x + x +... + f f f x nf ). d(i, j) = αν i = j και 0 αλλιώς Συχνά δεδομένα με μόνο δυαδικά γνωρίσματα (δυαδικά διανύσματα) Συμμετρικές (τιμές 0 και έχουν την ίδια σημασία) Invariant ομοιότητα z-score x m if f z = if s f Μη συμμετρικές (η συμφωνίαστο πιο σημαντική πχ όταν το σηματοδοτεί την ύπαρξη κάποιας ασθένειας) Non-invariant (Jaccard) Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 44 Μεταξύ δύο αντικειμένων i και j με δυαδικά γνωρίσματα M 0 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει M 0 = ο αριθμός των γνωρισμάτων που το i έχει τιμή και το j έχει 0 M 00 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει 0 M = ο αριθμός των γνωρισμάτων που το i έχει τιμή και το j έχει ΟΜΟΙΟΤΗΤΑ Απλό ταίριασμα συμμετρικές μεταβλητές SMC = αριθμός ταιριασμάτων / αριθμός γνωρισμάτων = (M + M 00 ) / (M 0 + M 0 + M + M 00 ) J = αριθμός ταιριασμάτων / αριθμό μη μηδενικών γνωρισμάτων = (M ) / (M 0 + M 0 + M ) Συντελεστής Jaccard Jaccard Coefficient μη συμμετρικές μεταβλητές (διαφορετική σημασία στην τιμή και στην τιμή 0) p = 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 0 0 M 0 = M 0 = M 00 = 7 M = 0 SMC = (M + M 00 )/(M 0 + M 0 + M + M 00 ) = (0+7) / (++0+7) = 0.7 J = (M ) / (M 0 + M 0 + M ) = 0 / ( + + 0) = 0 J = #(p BAND q) / #(p BOR Q) Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 45 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 46 Contigency πίνακας για δυαδικά δεδομένα Μέτρηση απόστασης για συμμετρικές δυαδικές μεταβλητές συμμετρική-ομοιότητα Μέτρηση απόστασης για μη συμμετρικές δυαδικές μεταβλητές Jaccard coefficient Αντικείμενο i d ( i, j) = 0 Αντικείμενο j 0 Μ Μ 0 Μ 0 Μ 00 Μ 0 + Μ 0 Μ + Μ 0 + Μ 0 + Μ 00 Μ d ( i, j ) = 0 + Μ 0 Μ + Μ 0 + Μ 0 Μ sim Jaccard ( i, j ) = Μ + Μ 0 + Μ 0 τα γνωρίσματα μη συμμετρικά Έστω Y-P να αντιστοιχούν στο και το Ν στο 0 Name Gender Fever Cough Test- Test- Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N 0 + d ( jack, mary ) = = 0. 33 + 0 + + d ( jack, jim ) = = 0. 67 + + + d ( jim, mary ) = = 0. 75 + + Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 47 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 48

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 49 Ομοιότητα συνημίτονου (cosine similarity) Κατηγορικές Μεταβλητές χωρίς ιάταξη (nominal) Γενίκευση των δυαδικών μεταβλητών (γνωρισμάτων) όπου μπορούν να πάρουν παραπάνω από τιμές, πχ κόκκινο, πράσινο, κίτρινο η Μέθοδος: Απλό ταίριασμα m: # ταιριάσματα, p: συνολικός # μεταβλητών d ( i, j ) = p p m η Μέθοδος: Χρήση πολλών δυαδικών μεταβλητών Μία για κάθε μία από τις μ τιμές Αν d and d είναι διανύσματα κειμένου cos( d, d ) = (d d ) / d d, όπου εσωτερικό γινόμενο d το μήκος του d. : d = 3 0 5 0 0 0 0 0 d = 0 0 0 0 0 0 0 Θέλουμε μια απόσταση που να αγνοεί τα 0 (όπως η Jaccard) αλλά να δουλεύει και για μη δυαδικά δεδομένα Επίσης, αγνοεί το μήκος των διανυσμάτων d d = 3* + *0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + * + 0*0 + 0* = 5 d = (3*3+*+0*0+5*5+0*0+0*0+0*0+*+0*0+0*0) 0.5 = (4) 0.5 = 6.48 d = (*+0*0+0*0+0*0+0*0+0*0+0*0+*+0*0+*) 0.5 = (6) 0.5 =.45 cos( d, d ) =.350 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 50 Ομοιότητα συνημίτονου (cosine similarity) Είδη Συσταδοποίησης Γεωμετρική ερμηνεία Ομοιότητα, όταν η γωνία 0 που σημαίνει ότι τα x και y ίδια (αν εξαιρέσεις το μήκος τους) Ομοιότητα 0, όταν η γωνία 90 (κανένα κοινό όρο) Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Ασάφεια Γενικές Απαιτήσεις Πόσες Ομάδες? ομάδες 6 ομάδες 4 ομάδες Scalability στον αριθμό σημείων και διαστάσεων Να υποστηρίζει διαφορετικούς τύπους δεδομένων Να υποστηρίζει συστάδες με διαφορετικά σχήματα (συνήθως, «σφαίρες») Να είναι εύκολο να δώσουμε τιμές στις παραμέτρους εισόδου (αριθμό συστάδων, μέγεθος κλπ) Να μην εξαρτάται από τη σειρά επεξεργασίας των σημείων εισόδου Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 53 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 54

Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 55 Γενικές Απαιτήσεις Είδη συσταδοποίησης Αντιμετώπιση θορύβου και outliers Μια συσταδοποίηση είναι ένα σύνολο από συστάδες Βασική διάκριση ανάμεσα στο ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από ομάδες συστάδα outliers Outlier (ακραίο σημείο) τιμές που είναι εξαιρέσεις ως προς τα συνηθισμένες ή αναμενόμενες τιμές ιαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non-overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering Ένα σύνολο από εμφωλευμένες (nested) ομάδες Επιτρέπουμε σε μια συστάδα να έχει υποσυστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 56 ιαχωριστική και Ιεραρχική Συσταδοποίηση ιαχωριστική και Ιεραρχική Συσταδοποίηση p p3 p4 Διαχωριστική Συσταδοποίηση p Αρχικά Σημεία p p3 p4 p Ιεραρχική Συσταδοποίηση p p p3 p4 Παραδοσιακό Δένδρο-γράμμα (Dendrogram) Φύλλα: απλά σημεία ή απλές συστάδες Ως ακολουθία διαχωριστικών Να «κόψουμε» το δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 57 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 58 Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Αλγόριθμοι Συσταδοποίησης Θα δούμε ανάμεσα σε άλλους τους: K-means και παραλλαγές Ιεραρχική Συσταδοποίηση Συσταδοποίηση με βάση την Πυκνότητα (DBSCAN) BIRCH (δεδομένα στο δίσκο!) Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 59 Εξόρυξη Δεδομένων: Ακ. Έτος 007-008 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 60