Μάκθςθ Κατανομϊν Πικανότθτασ και Ομαδοποίθςθ

Σχετικά έγγραφα
Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium V

Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη

Τα Δίκτυα Perceptron και ADALINE. Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Η θεωρία τησ ςτατιςτικήσ ςε ερωτήςεισ-απαντήςεισ Μέροσ 1 ον (έωσ ομαδοποίηςη δεδομένων)

Πόςο εκτατό μπορεί να είναι ζνα μη εκτατό νήμα και πόςο φυςικό. μπορεί να είναι ζνα μηχανικό ςτερεό. Συνιςταμζνη δφναμη versus «κατανεμημζνησ» δφναμησ

Χεμπιανά μοντζλα μάκθςθσ. Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

ςυςτιματα γραμμικϊν εξιςϊςεων

Στατιςτικά Μοντζλα και ο Κανόνασ του Bayes

Δείκτεσ Διαχείριςθ Μνιμθσ. Βαγγζλθσ Οικονόμου Διάλεξθ 8

Το Δίκτυο Multi-Layer Perceptron και ο Κανόνασ Back-Propagation. Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

ΘΥ101: Ειςαγωγι ςτθν Πλθροφορικι

Γενικά Μαθηματικά ΙΙ

x n D 2 ENCODER m - σε n (m 2 n ) x 1 Παραδείγματα κωδικοποιθτϊν είναι ο κωδικοποιθτισ οκταδικοφ ςε δυαδικό και ο κωδικοποιθτισ BCD ςε δυαδικό.

Ένα πρόβλθμα γραμμικοφ προγραμματιςμοφ βρίςκεται ςτθν κανονικι μορφι όταν:

Προχωρθμζνα Θζματα Συςτθμάτων Ελζγχου

Η γλώςςα προγραμματιςμού C

Στατιςτικζσ δοκιμζσ. Συνεχι δεδομζνα. Γεωργία Σαλαντι

ΜΑΘΗΜΑΣΙΚΑ Γ ΓΕΝΙΚΗ ( ΑΠΟ ΘΕΜΑΣΑ ΛΤΚΕΙΩΝ ) ΕΡΩΣΗΕΙ ΩΣΟΤ ΛΑΘΟΤ ΑΝΑΛΤΗ

ΚΥΠΡΙΑΚΗ ΜΑΘΗΜΑΤΙΚΗ ΕΤΑΙΡΕΙΑ

Γενικά Μαθηματικά ΙΙ

Παράςταςη ακεραίων ςτο ςυςτημα ςυμπλήρωμα ωσ προσ 2

ΧΕΔΙΑΜΟ ΠΡΟΪΟΝΣΩΝ ΜΕ Η/Τ

Αναφορά Εργαςίασ Nim Game

Διάδοση θερμότητας σε μία διάσταση

P, τότε: P και το μζςο πλικοσ των εμφανίςεων του γεγονότοσ ςτθ μονάδα του. X t το πλικοσ των εμφανίςεων του γεγονότοσ ςτο διάςτθμα. 0, t.

ΑΝΣΙΣΡΟΦΗ ΤΝΑΡΣΗΗ. f y x y f A αντιςτοιχίηεται ςτο μοναδικό x A για το οποίο. Παρατθριςεισ Ιδιότθτεσ τθσ αντίςτροφθσ ςυνάρτθςθσ 1. Η. f A τθσ f.

Ειςαγωγι ςτθν Αςαφι Λογικι

17. Πολυδιάςτατοι πίνακεσ

Μθχανζσ Διανυςμάτων Υποςτιριξθσ Support Vector Machines. Κϊςτασ Διαμαντάρασ Τμιμα Ρλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium I

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο του Άβακα

ΕΡΓΑΣΗΡΙΑΚΗ ΑΚΗΗ 4.1

3 θ διάλεξθ Επανάλθψθ, Επιςκόπθςθ των βαςικϊν γνϊςεων τθσ Ψθφιακισ Σχεδίαςθσ

GNSS Solutions guide. 1. Create new Project

Ανάπτυξη Εφαρμογών Σε Προγραμματιςτικό Περιβάλλον

Ειδικά Θζματα Βάςεων Δεδομζνων

Δια-γενεακι κινθτικότθτα

1η προαιρετική εργαςία για το μάθημα «Αναγνώριςη προτύπων»

1 ο ΜΑΘΗΜΑ Κεφάλαιο 1, Παράγραφοι 1.1, 1.2 ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Γεωργικός Πειραματισμός ΙΙ

ΡΟΓΑΜΜΑΤΙΣΤΙΚΟ ΡΕΙΒΑΛΛΟΝ MICRO WORLDS PRO

Τεχνικζσ Ανάλυςησ Διοικητικών Αποφάςεων

Πολυπλέκτες. 0 x 0 F = S x 0 + Sx 1 1 x 1

ΟΝΟΜΑΣΟΛΟΓΙΑ ΠΑΡΑΜΕΣΡΩΝ ΓΙΑ ΠΡΟΑΡΜΟΜΕΝΕ ΑΝΑΦΟΡΕ. παραμζτρου> (Εμφανίηεται ςαν Caption ςτθν φόρμα των φίλτρων).

Πειραματικι Ψυχολογία (ΨΧ66)

ΜΑ270: ΑΡΙΘΜΗΣΙΚΗ ΑΝΑΛΤΗ Ι Χειμερινό εξάμθνο , Διδάςκων: Γιώργοσ Γεωργίου ΕΝΔΙΑΜΕΗ ΕΞΕΣΑΗ, Διάρκεια: 2 ώρεσ 21 Νοεμβρίου, 2009

Γενικά Μαθηματικά ΙΙ

ΦΥΕ 14 ΑΚΑΔ. ΕΤΟΣ Η ΕΡΓΑΣΙΑ. Ημερομηνία παράδοςησ: 12 Νοεμβρίου (Όλεσ οι αςκιςεισ βακμολογοφνται ιςοτίμωσ με 10 μονάδεσ θ κάκε μία)

Απλι Γραμμικι Παλινδρόμθςθ

Δομζσ Δεδομζνων. Αναηιτθςθ και Ταξινόμθςθ Διάλεξθ 3

Ρρογραμματιςμόσ Μεκόδων Επίλυςθσ Ρροβλθμάτων. 18. Αλφαριθμητικά. Ιωάννθσ Κατάκθσ. ΕΡΛ 032: Ρρογραμματιςμόσ Μεκόδων Επίλυςθσ Ρροβλθμάτων

Επιχειρηςιακή Ζρευνα και εφαρμογζσ με την χρήςη του λογιςμικοφ R

Γεωργικός Πειραματισμός ΙΙ ΑΥΞΗΜΕΝΑ ΣΧΕΔΙΑ

Θεςιακά ςυςτιματα αρίκμθςθσ

Δομθμζνοσ Προγραμματιςμόσ. Βαγγζλθσ Οικονόμου Εργαςτιριο 9

5 ΜΕΘΟΔΟΙ - ΠΑΡΑΜΕΤΡΟΙ

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΣΗ ΝΟΗΛΕΤΣΙΚΗ. Φιλιοποφλου Ειρινθ

Αςφάλεια και Προςταςία Δεδομζνων

Βάςεισ Δεδομζνων Ι. Ενότητα 12: Κανονικοποίηςη. Δρ. Τςιμπίρθσ Αλκιβιάδθσ Τμιμα Μθχανικών Πλθροφορικισ ΤΕ

ΗΥ101: Ειςαγωγι ςτθν Πλθροφορικι

ΛΕΙΤΟΥΓΙΚΆ ΣΥΣΤΉΜΑΤΑ. 5 ο Εργαςτιριο Ειςαγωγι ςτθ Γραμμι Εντολϊν

ΑΞΙΟΛΟΓΗΣΗ ΕΚΠΑΙΔΕΥΤΙΚΟΥ

ΝΕΤΡΩΝΙΚΑ ΔΙΚΣΤΑ - ΔΟΜΕ ΔΕΔΟΜΕΝΩΝ

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

3 ο ΜΑΘΗΜΑ ΑΡΙΘΜΗΣΙΚΑ ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΣΡΑ Ι ΣΑ ΜΕΣΡΑ ΚΕΝΣΡΙΚΗ ΣΑΗ

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Περιφέρειες)

Η άςκθςθ αποτελεί τροποποιθμζνθ εκδοχι του κζματοσ φυςικισ, τθσ Ευρωπαϊκισ Ολυμπιάδασ Φυςικών Επιςτθμών 2009_επιμζλεια κζματοσ: Κώςτασ Παπαμιχάλθσ

Μάρκετινγκ V Κοινωνικό Μάρκετινγκ. Πόπη Σουρμαΐδου. Σεμινάριο: Αναπτφςςοντασ μια κοινωνική επιχείρηςη

Άπειρεσ κροφςεισ. Τθ χρονικι ςτιγμι. t, ο δακτφλιοσ ςυγκροφεται με τον τοίχο με ταχφτθτα (κζντρου μάηασ) μζτρου

ΚΥΚΛΩΜΑΤΑ VLSI. Ασκήσεις Ι. Γ. Τσιατούχας. Πανεπιςτιμιο Ιωαννίνων. Τμιμα Μθχανικϊν Η/Υ και Πλθροφορικισ 8/11/18

ΜΑ032: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Εαρινό εξάμηνο , Διδάςκων: Γιώργοσ Γεωργίου ΕΝΔΙΑΜΕΗ ΕΞΕΣΑΗ, 21 Μαρτίου, 2012 Διάρκεια: 2 ώρεσ

Υπολογιςτική πολυπλοκότητα αλγορίθμων γραμμικοφ προγραμματιςμοφ

Δομζσ Αφαιρετικότθτα ςτα Δεδομζνα

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Παράςταςη ςυμπλήρωμα ωσ προσ 1

ΠΡΟΦΟΡΑ ΖΗΣΗΗ ΚΡΑΣΘΚΗ ΠΑΡΕΜΒΑΗ

Δ ιαγώνιςμα ς το μάθημα Ανάπτυξη Εφαρμογών ςε Προγ ραμματιςτικό Περιβάλ λον

16. Πίνακεσ και Συναρτήςεισ

ΑΝΑΠΣΤΞΘ ΕΦΑΡΜΟΓΩΝ Ε ΠΡΟΓΡΑΜΜΑΣΙΣΙΚΟ ΠΕΡΙΒΑΛΛΟΝ 3 ο ΓΕΝΙΚΟ ΛΤΚΕΙΟ Ν. ΜΤΡΝΘ- ΕΠΙΜΕΛΕΙΑ: ΠΤΡΙΔΑΚΘ Λ.

Στα προθγοφμενα δφο εργαςτιρια είδαμε τθ δομι απόφαςθσ (ι επιλογισ ι ελζγχου ροισ). Ασ κυμθκοφμε:

Δομζσ Δεδομζνων Πίνακεσ

Εφδοξοσ+ Συνδεκείτε ςτθν Εφαρμογι Φοιτθτϊν και μεταβείτε ςτθ ςελίδα «Ανταλλαγι Βιβλίων (Εφδοξοσ+)».

Πρόςβαςη και δήλωςη μαθημάτων ςτον Εφδοξο

ΕΦΑΡΜΟΓΖσ ΒΆΕΩΝ ΔΕΔΟΜΖΝΩΝ ΚΑΙ ΔΙΑΔΙΚΣΥΟΤ. Ειρινθ Φιλιοποφλου

Γράφοι. Δομζσ Δεδομζνων Διάλεξθ 9

Διαδικαςία Προγράμματοσ Ωρομζτρθςθσ. (v.1.0.7)

8 τριγωνομετρία. βαςικζσ ζννοιεσ. γ ςφω. εφω και γ. κεφάλαιο

Γενικά Μαθηματικά ΙΙ

Αυτόνομοι Πράκτορες. Αναφορά Εργασίας Εξαμήνου. Το αστέρι του Aibo και τα κόκαλα του

Μεθολογία αςκιςεων αραίωςησ και ανάμειξησ διαλυμάτων (με τθν ίδια δ. ουςία).

ΕΡΓΑΣΗΡΙΟ ΕΦΑΡΜΟΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο τησ Αριθμογραμμήσ

Η πολικι ευκυγράμμιςθ με διολίςκθςθ με τθν χριςθ του software PHD2 ςασ εξαςφαλίηει μια γριγορθ και ακριβισ πολικι ευκυγράμμιςθ τθσ ςτιριξισ ςασ.

Μάθημα 9 ο ΤΕΧΝΙΚΕΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΙΚΟΝΙΚΗΣ ΜΝΗΜΗΣ

Δίκτυα Υπολογιςτϊν 2-Rooftop Networking Project

Κάκε δικαίωμα ςυνδζεται με τα άλλα και είναι όλα το ίδιο ςθμαντκά.

Ρ Ο Σ Ο Σ Τ Ι Κ Ε Σ Μ Ε Θ Ο Δ Ο Ι ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΡΙΧΕΙΗΣΕΩΝ ΚΑΤΕΥΘΥΝΣΗ ΤΟΥΙΣΤΙΚΩΝ ΕΡΙΧΕΙΗΣΕΩΝ & ΕΡΙΧΕΙΗΣΕΩΝ ΦΙΛΟΞΕΝΕΙΑΣ

Πανελλαδικε σ Εξετα ςεισ Γ Τα ξησ Ημερη ςιου και Δ Τα ξησ Εςπερινου Γενικου Λυκει ου

1. Αν θ ςυνάρτθςθ είναι ΠΟΛΤΩΝΤΜΙΚΗ τότε το πεδίο οριςμοφ είναι το διότι για κάκε x θ f(x) δίνει πραγματικό αρικμό.

Μθχανικι Μάκθςθ Μάκθμα 1 Βαςικζσ ζννοιεσ

Transcript:

Μάκθςθ Κατανομϊν Πικανότθτασ και Ομαδοποίθςθ Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ 1

Μάκθςθ κατανομισ πικανότθτασ Σε όλθ τθν ανάλυςθ μζχρι τϊρα ζγινε ςιωπθρά θ παραδοχι ότι γνωρίηουμε τθν κατανομι πικανότθτασ P(x C i ) για κάκε κλάςθ C i. Πρακτικά όμωσ, ςυχνά, αυτό δεν ιςχφει. Συνικωσ διακζτουμε μόνο δείγματα x 1, x 2,, x από τα οποία πρζπει να «εκτιμιςουμε» (βλ. να «μάκουμε») τθ ςυνάρτθςθ P(x C i ). Αντιμετωπίηουμε, δθλαδι, το γενικότερο πρόβλθμα τθσ εκτίμθςθσ μιασ κατανομισ πικανότθτασ. Αν το x παίρνει μόνο διακριτζσ τιμζσ τότε θ εκτίμθςι μασ είναι ςχετικά εφκολθ: P x = a C i = a a = το πλικοσ των δειγμάτων όπου x = a, = το ςυνολικό πλικοσ των δειγμάτων Μεγαλφτερο ενδιαφζρον ζχει το πρόβλθμα όταν το x μπορεί να πάρει ςυνεχείσ τιμζσ. 2

Η μζκοδοσ του ιςτογράμματοσ Ασ δοφμε κατ αρχιν τθν απλι περίπτωςθ όπου επικυμοφμε να εκτιμιςουμε τθν κατανομι μιασ απλισ μεταβλθτισ x (όχι διάνυςμα x). Μέθοδοσ του ιςτογράμματοσ (histogram): Χωρίηουμε το διάςτθμα [ Μ,Μ] όπου παίρνει τιμζσ το x ςε Β ίςα τμιματα που καλοφνται κελιά. Το μζγεκοσ του κάκε κελιοφ είναι V=2Μ/Β. Μετράμε πόςα δείγματα i πζφτουν ςε κάκε κελί. Η ακολουκία Κ 1,..., Κ Β λζγεται ιςτόγραμμα. Η εκτίμθςι μασ για τθν πυκνότθτα πικανότθτασ μζςα ςτο κελί i είναι ςτακερι και ίςθ με p i = i V Πλεονεκτιματα τθσ μεκόδου: Απλότθτα Δεν απαιτείται να υποκζςουμε ότι θ κατανομι ανικει ςε κάποια οικογζνεια κατανομϊν (πχ. τισ Γκαουςςιανζσ, ι άλλεσ) 3

Η μζκοδοσ του ιςτογράμματοσ Μειονεκτιματα Μθ ςυνεχείσ τιμζσ. Όχι ομαλι μετάβαςθ από κελί ςε κελί Κακι ποιότθτα εκτίμθςθσ Εξάρτθςθ από το πλάτοσ των κελιϊν. Δεσ παραδείγματα Ιςτόγραμμα κανονικισ κατανομισ από =2000 δείγματα. = ιςτόγραμμα = κανονικι κατανομι 4

Η μζκοδοσ του ιςτογράμματοσ 5

Η μζκοδοσ των παρακφρων Συλλζγουμε δείγματα x 1, x 2,, x Για κάκε δείγμα x i τοποκετοφμε μια ςυνάρτθςθ που καλείται «παράκυρο», πχ. τθν Γκαουςςιανι, κεντραριςμζνθ ςτο ςθμείο αυτό και με πλάτοσ h (αυκαίρετο), δθλαδι Συνολικά θ εκτίμθςι μασ για τθν κατανομι πικανότθτασ είναι p x = 1 w i x = 1 h 2π exp (x x i) 2 2h 2 i=1 w i x = Αν τα δείγματα είναι διανφςματα x 1, x 2,, x τότε απλϊσ 1 h 2π i=1 exp (x x i) 2 2h 2 w i x = 1 h 2π exp x x i 2 2h 2 6

Η μζκοδοσ των παρακφρων Για κάκε δείγμα x(k) βάηουμε ζνα Γκαουςςιανό παράκυρο κεντραριςμζνο ςτο δείγμα αυτό. Στο τζλοσ αφοφ βάλουμε όλα τα παράκυρα για όλα τα δείγματα, θ εκτίμθςι μασ είναι ο μζςοσ όροσ, δθλαδι ακροίηουμε όλα τα παράκυρα και διαιροφμε δια Κ (το πλικοσ των δειγμάτων και των παρακφρων επίςθσ). Το πλάτοσ των παρακφρων h είναι αυκαίρετο και το ορίηει ο χριςτθσ. Παίηει ςθμαντικό ρόλο ςτθν ποιότθτα τθσ εκτίμθςθσ και τθν ομαλότθτα τθσ καμπφλθσ εκτίμθςθσ. Δεσ παραδείγματα 7

Η μζκοδοσ των παρακφρων h=0,01 h=0,04 = Εκτίμηςη = Πραγματική κατανομή Όςο μεγαλϊνει το h τόςο πιο ομαλι είναι θ καμπφλθ εκτίμθςθσ. h=0,1 8 Μειονζκτθμα: Δυςκολία εντοπιςμοφ του βζλτιςτου h.

Αν θ κατανομι είναι Γκαουςςιανι... Αν γνωρίηουμε εκ των προτζρων ότι θ κατανομι είναι Γκαουςςιανι τότε τα πράγματα είναι αρκετά απλά: μποροφμε να εκτιμιςουμε όλεσ τισ παραμζτρουσ τθσ κατανομισ, δθλαδι τθ μζςθ τιμι και τθ διαςπορά, μζςα από τα δείγματα. Αν x: αρικμόσ: Κατανομι: Εκτίμθςθ μζςθσ τιμισ: Εκτίμθςθ διαςποράσ: p x = 1 (x μ)2 exp 2πσ2 2σ 2 μ = 1 σ 2 = 1 i=1 i=1 x(k) (x k μ ) 2 9

Αν θ κατανομι είναι Γκαουςςιανι... Αν x: διάνυςμα διάςταςθσ n: Κατανομι: p x = Εκτίμθςθ μζςθσ τιμισ: Εκτίμθςθ πίνακα διαςποράσ: 1 (2π det (Σ)) exp 1 2 (x μ)τ Σ 1 (x μ) μ = 1 Σ = 1 Βαςικό μειονζκτθμα: ςυνικωσ δεν γνωρίηουμε εκ των προτζρων το είδοσ τθσ κατανομισ. Αν το γνωρίηαμε, τότε υπάρχουν αντίςτοιχεσ φόρμουλεσ εκτίμθςθσ των παραμζτρων για όλεσ τισ γνωςτζσ κατανομζσ (Gauss, Poisson, Bernoulli, Εκκετικι, Rayleigh, Βιτα, Γάμμα, Maxwell, Δυωνυμικι, κλπ) i=1 i=1 x(k) (x k μ)(x k μ) T 10

Αν θ κατανομι είναι μίγμα Γκαουςςιανϊν... 1 Διάςταςθ: Η κατανομι είναι το άκροιςμα m Γκαουςςιανϊν κατανομϊν. Κάκε κατανομι ζχει το δικό τθσ κζντρο μ i και τθ δικι τθσ διαςπορά ς i2. Κάκε κατανομι από τισ m περιγράφει μια ομάδα (cluster) προτφπων G i m p x = P(G i ) i=1 1 σ i 2π exp (x μ i) 2 2 2σ i P(x G i ) 11

Ο αλγόρικμοσ Expectation Maximization (EM) για 1 διάςταςθ Αρχικοποίθςθ: P G 1 = = P G m = 1 m, μ i = τυχαία, σ 1 = = σ m = 1 (πχ. ) Για κάκε επανάλθψθ e=1,,max { Για κάκε πρότυπο k=1,, { Για κάκε ομάδα i=1,,m { } } Για κάκε ομάδα i=1,,m { P G i x k = μ i = k=1 k=1 1 σ 2π exp (x k μ i) 2 2 P(G 2σ i ) i m j =1 P G i x k x k P G i x k 1 σ 2π exp (x k μ j ) 2 2 P(G 2σ j ) j k=1 P G i x k (x k μ i) 2 σ i 2 = 1 2 k=1 P G i x k } } P G i = 1 k=1 P G i x k 12

Ο αλγόρικμοσ EM Επαναλθπτικόσ αλγόρικμοσ. Εκτιμά (μακαίνει) όλο και καλφτερα τισ παραμζτρουσ P(G i ), μ i, και ς i 2 όςο προχωροφν οι επαναλιψεισ. Δυςτυχϊσ δεν υπάρχει εγγυθμζνθ ςφγκλιςθ ςτισ ςωςτζσ παραμζτρουσ. Μερικζσ φορζσ ο αλγόρικμοσ κάνει λάκοσ. Προχποκζτει ότι γνωρίηουμε το πλικοσ m των Ομάδων. Η αρχικοποίθςθ παίηει ςθμαντικό ρόλο 13

14 Αν θ κατανομι είναι μίγμα Γκαουςςιανϊν... 2 Διαςτάςεισ: Η κατανομι είναι το άκροιςμα m Γκαουςςιανϊν κατανομϊν. Κάκε κατανομι ζχει το δικό τθσ κζντρο μ i και πίνακα διαςποράσ Σ = ς i2 Ι. Κάκε κατανομι από τισ m περιγράφει μια ομάδα προτφπων G i (cluster) m p x = P(G i ) i=1 1 2 2πσ exp x μ i 2 2 i 2σ i P(x G i )

Ο αλγόρικμοσ EM για 2 διαςτάςεισ Αρχικοποίθςθ: P G 1 = = P G m = 1 m, μ i = τυχαία, σ 1 = = σ m = 1 (πχ. ) Για κάκε επανάλθψθ e=1,,max { Για κάκε πρότυπο k=1,, { Για κάκε ομάδα i=1,,m { } } Για κάκε ομάδα i=1,,m { P G i x k = μ i = k=1 k=1 1 2 2πσ exp x k μ 2 i 2 P(G i 2σ i ) i m j =1 P G i x k x k P G i x k 1 2 2πσ exp x k μ j 2 P(G j 2σ j ) j k=1 P G i x k x k μ i 2 2 σ i 2 = 1 2 k=1 P G i x k } } P G i = 1 k=1 P G i x k 15

Ο αλγόρικμοσ EM για 2 διαςτάςεισ Αρχικοποίθςθ: P G 1 = = P G m = 1 m, μ i = τυχαία, σ 1 = = σ m = τυχαία Για κάκε πρότυπο k=1,, { P G i x k = } Για κάκε ομάδα i=1,,m { μ i = k=1 k=1 1 2 2πσ exp x k μ 2 i 2 P(G i 2σ i ) i m j =1 P G i x k x k P G i x k 1 2 2πσ exp x k μ j 2 P(G j 2σ j ) j k=1 P G i x k x k μ i 2 2 } σ i 2 = 1 2 P G i = 1 k=1 k=1 P G i x k P G i x k 16

Άςκθςθ-3 Υλοποιιςτε τον αλγόρικμο EM για μια διάςταςθ ςε MATALB Χρθςιμοποιιςτε το ακόλουκο <link> ςετ δεδομζνων και τρζξτε τον αλγόρικμο Προαιρετικά: Υλοποιιςτε τον αλγόρικμο EM για δφο διαςτάςεισ ςε MATLAB Χρθςιμοποιιςτε το ακόλουκο <link> ςετ δεδομζνων και τρζξτε τον αλγόρικμο 17

Γιατί ειναι ςθμαντικά τα μίγματα Γκαουςςιανϊν; Αποδεικνφεται ότι με ακροίςματα Γκαουςςιανϊν μποροφμε να προςεγγίςουμε οποιαδιποτε ςυνάρτθςθ κατανομισ με όςθ ακρίβεια κζλουμε! Αρκεί να ζχουμε πολλζσ Γκαουςςιανζσ... Πόςεσ Γκαουςςιανζσ ομάδεσ απαιτοφνται ; Ποια είναι θ τιμι του m ; Η απάντθςθ δεν είναι εφκολθ (και βαςικά άγνωςτθ!) Μειονεκτιματα: Ο αλγόρικμοσ EM απαιτεί τθ γνϊςθ του m. Πάντωσ αν χρθςιμοποιιςουμε αρκετά μεγάλο m ζχουμε καλι πικανότθτα να προςεγγίςουμε οποιαδιποτε ςυνάρτθςθ κατανομισ. Ο αλγόρικμοσ EM μπορεί να μθν βρεί τθν καλφτερθ δυνατι λφςθ αλλά κάτι κοντά ςε αυτι... Θζμα τιμϊν αρχικοποίθςθσ. Ποιεσ τιμζσ να δϊςω;;; 18

Ομαδοποίθςθ (Clustering) Στθ γενικι περίπτωςθ μια κατανομι αποτελείται από μια ι περιςςότερεσ μικρότερεσ ομάδεσ κατανομϊν οι οποίεσ μπορεί να είναι Γκαουςςιανζσ, αλλά μπορεί και όχι. Το πρόβλθμα τθσ ομαδοποίηςησ (clustering) αφορά ςτον εντοπιςμό των ομάδων (κζντρα, διαςπορζσ, κλπ) αλλά και ςτθν απόφαςθ για κάκε πρότυπο ςε ποια ομάδα ανικει. Αν οι κατανομζσ των ομάδων είναι γνωςτζσ, δθλαδι όλεσ οι ομάδεσ ακολουκοφν, πχ. τθν κατανομι Poisson, τότε μποροφμε να εφαρμόςουμε τον αλγόρικμο EM (εφαρμόηεται για οποιαδιποτε κατανομι ομάδων, όχι μόνο για Γκαουςςιανζσ ομάδεσ, αλλά δεν κα μποφμε ςε λεπτομζρειεσ...) Τι γίνεται όμωσ αν δεν γνωρίηουμε τισ κατανομζσ των ομάδων; 19

Ο αλγόρικμοσ Κ-μζςων (-means) Ο αλγόρικμοσ αυτόσ δεν υποκζτει κάποια ςυγκεκριμζνθ ςυνάρτθςθ κατανομισ. Θεωρεί γνωςτό το πλικοσ m των ομάδων (clusters). Θεωρεί ότι κάκε ομάδα G i αντιπροςωπεφεται από ζνα κεντρικό ςθμείο c i (κζντρο) 1. Κάκε πρότυπο x k ανικει ςτθν ομάδα G i τθσ οποίασ το κζντρο βρίςκεται πιο κοντά ςτο x k 2. Το κζντρο c i είναι ο μζςοσ όρων των προτφπων που ανικουν ςτθν ομάδα G i 20

Ο αλγόρικμοσ των Κ-μζςων 21

Ο αλγόρικμοσ Κ-μζςων Δίνονται: Τα πρότυπα x 1, x 2,, x P, το πλικοσ κζντρων Ζξοδοσ: κζντρα c 1, c 2,..., c Αρχικοποίθςε τα c 1,, c ςε τυχαίεσ τιμζσ. Επανζλαβε { Για κάθε πρότυπο i = 1,, P { Βρεσ το κοντινότερο κζντρο c j ςτο x i label(i) j } Για κάθε κζντρο k = 1,, { c k μζςοσ όροσ των x i τα οποία ανικουν ςτθν κλάςθ k, δθλαδι για όςα i: label(i) = k } } Μζχρι να μθν υπάρξει καμία αλλαγι ςτα κζντρα c 1,, c 22

Σφγκλιςθ του αλγορίκμου Δεν υπάρχει εγγυθμζνθ ςφγκλιςθ αλλά ςυνικωσ τα αποτελζςματα είναι καλά ζωσ πολφ καλά. 23

Άςκθςθ-4 Υλοποιιςτε τον αλγόρικμο k-means ςε MATLAB Χρθςιμοποιιςτε το ακόλουκ ςετ δεδομζνων <link> 24