Learning k-modal distributions via testing

Σχετικά έγγραφα
1η Σειρά Γραπτών Ασκήσεων

Πιθανοτικοί Αλγόριθμοι

Δυναμικός Προγραμματισμός

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Μέγιστη Ροή Ελάχιστη Τομή

Ορισµός. Εστω συναρτήσεις: f : N R και g : N R. η f(n) είναι fi( g(n) ) αν υπάρχουν σταθερές C 1, C 2 και n 0, τέτοιες ώστε:

Εισαγωγή Ορισμός Frequency moments

H mèjodoc Sturm. Mˆjhma AkoloujÐec Sturm

Κρυπτογραφία. Έλεγχος πρώτων αριθών-παραγοντοποίηση. Διαφάνειες: Άρης Παγουρτζής Πέτρος Ποτίκας

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

EukleÐdeiec emfuteôseic: ˆnw frˆgmata

υναμικός Προγραμματισμός

Στατιστική Επιχειρήσεων ΙΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

υναμικός Προγραμματισμός

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

Δυναμικός Προγραμματισμός

Κατ οίκον Εργασία 1 Σκελετοί Λύσεων

Τυχαιοκρατικοί Αλγόριθμοι

Προσεγγιστικοί Αλγόριθμοι

Δυναμικός Προγραμματισμός

Προσεγγιστικοί Αλγόριθμοι για NP- ύσκολα Προβλήματα

Approximation Algorithms for the k-median problem

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΜΟΝΟΤΟΝΙΑ ΣΥΝΑΡΤΗΣΗΣ

υναμικός Προγραμματισμός

Σχεδίαση και Ανάλυση Αλγορίθμων

TMHMA OIKONOMIKΩN ΕΠΙΣΤΗΜΩΝ Διαγώνισμα Προόδου Στατιστικής III

Στοιχεία Αλγορίθµων και Πολυπλοκότητας

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Λογισμός 4. Ενότητα 2: Ορισμός του ολοκληρώματος. Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών

x είναι f 1 f 0 f κ λ

Προσεγγιστικοί Αλγόριθμοι

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

Κεφάλαιο 4: Διαφορικός Λογισμός

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΠΑΡΑΔΕΙΓΜΑΤΑ ΘΕΜΑ Β. 2x 1. είναι Τότε έχουμε: » τον χρησιμοποιούμε κυρίως σε θεωρητικές ασκήσεις.

για NP-Δύσκολα Προβλήματα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Μέγιστη ροή. Κατευθυνόμενο γράφημα. Συνάρτηση χωρητικότητας. αφετηρίακός κόμβος. τερματικός κόμβος. Ροή δικτύου. με τις ακόλουθες ιδιότητες

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Συντομότερες ιαδρομές

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Μέθοδος μέγιστης πιθανοφάνειας

Σχεδίαση & Ανάλυση Αλγορίθμων

Ελάχιστο Συνδετικό έντρο

Αλγόριθμοι και Πολυπλοκότητα

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Π

MEM 253. Αριθμητική Λύση ΜΔΕ * * *


Φροντιστήριο 3o. όπου x = max{m N 0 : m x} και N 0 = {0, 1, 2,...} Λύση. Ιδιότητες αθροιστικής: lim F (x) = 0 αφού F (x) = 0 για x < 1.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική. Εκτιμητική

Πρόταση. f(x) ομοιόμορφα συνεχής στο I. δ (ɛ) > 0 : x, ξ I, x ξ < δ (ɛ, ξ) f(x) f(ξ) < ɛ. ɛ > 0, δ > 0 : ΜΗ ομοιόμορφα συνεχής.

ΜΑΘΗΜΑ ΠΡΩΤΟ ΜΑΘΗΜΑΤΙΚΩΝ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ ΑΣΚΗΣΕΙΣ (ΣΥΝΑΡΤΗΣΗ ΚΑΙ ΜΕΛΕΤΗ ΑΥΤΗΣ)

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Κατανεμημένα Συστήματα Ι

Εφαρμοσμένη Στατιστική

Στατιστική Συμπερασματολογία

Συντομότερες ιαδρομές

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΤΕΧΝΟΛΟΓΙΑ, ΚΑΙΝΟΤΟΜΙΑ ΚΑΙ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ 9 Ο εξάμηνο Χημικών Μηχανικών

Στατιστική Συμπερασματολογία

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Διαδικασίες Markov Υπενθύμιση

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Ασυμπτωτικός Συμβολισμός

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

2η Σειρά Γραπτών Ασκήσεων

Στατιστική Επιχειρήσεων ΙΙ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Αλγόριθμοι για αυτόματα

Υπολογιστικά & Διακριτά Μαθηματικά

Άπληστοι Αλγόριθμοι. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Άπληστοι Αλγόριθμοι. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

3. Κατανομές πιθανότητας

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Ανάλυση ευαισθησίας Ανάλυση ρίσκου. Μαυρωτά Γιώργου Αναπλ. Καθηγητή ΕΜΠ

Δ Ι Α Φ Ο Ρ Ι Κ Ο Σ Λ Ο Γ Ι Σ Μ Ο Σ Μονοτονία & Ακρότατα Συνάρτησης

Προσεγγιστικοί Αλγόριθμοι για NP- ύσκολα Προβλήματα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

I 1 I 2 I 3 I 4 I 5 I 6 I 7 I 8 I 9 I 10 I 11

Απειροστικός Λογισμός Ι, χειμερινό εξάμηνο Λύσεις έβδομου φυλλαδίου ασκήσεων.

Υπολογιστικά & Διακριτά Μαθηματικά

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΓΙΩΡΓΟΣ ΚΟΡΩΝΑΚΗΣ. ΑΛΛΑΓΗ ΜΕΤΑΒΛΗΤΗΣ ΣΤΟ ΟΡΙΣΜΕΝΟ ΟΛΟΚΛΗΡΩΜΑ Διδακτική προσέγγιση

Κεφάλαιο 2.4 Matrix Algorithms

Τίτλος Μαθήματος: Θεωρία Γραφημάτων. Ενότητα: Εισαγωγή σε βασικές έννοιες. Διδάσκων: Λέκτορας Xάρης Παπαδόπουλος. Τμήμα: Μαθηματικών

Transcript:

Μάθηση k-τροπικών κατανομών μέσω δοκιμών Learning k-modal distributions via testing Ιωσήφ Μουλίνος Εθνικό Μετσόβιο Πολυτεχνείο 8 Ιουνίου 2017 ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 1 / 20

Επιβλεπόμενη μάθηση Μη επιβλεπόμενη μάθηση ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 2 / 20

Μάθηση κατανομής πιθανότητας Εκτίμηση πυκνότητας πιθανότητας Λαμβάνοντας δείγματα από την κατονομή p εξάγεται υποθετική κατανομή ˆp Με υψηλή πιθανότητα d TV (p, ˆp) ɛ. d TV (p, q) := max S [n] p(s) q(s) = 1 2 p q 1, p(s) = i S p(i), [n] = 1, 2, 3,..., n ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 3 / 20

Πληροφοριοθεωρητικά, για ɛ 1/n Ω(1), η μάθηση μονότονης κατανομής απαιτεί Ω(log(n)/ɛ 3 ) δείγματα [Birgé 1987] Παραθέτοντας k μονότονα διαστήματα μήκους n/k, κάθε αλγόριθμος μάθησης k τροπικής κατανομής στο [n], με ɛ 1/n Ω(1) απαιτεί Ω(klog(n/k)/ɛ 3 ) Ζητούμενο Αλγόριθμος με πολυωνυμικό πλήθος δειγμάτων ως προς τον αριθμό των τρόπων και τον λογάριθμο logn και χρόνο εκτέλεσης poly(k, log n, 1/ɛ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 4 / 20

Αλγόριθμος Birgé p μη αύξουσα κατανομή στο [n]. 1. Διαμέριση του [n] σε I 1,..., I l, l = O(m 1/3 (log n) 2/3 ). Για j [n] και i I i, p f (i) = t I j p(t)/ I j d TV (p f, p) = O(m 1/3 (log n) 2/3 ) 2. Κατανομή p r στο [l] με p r (i) = p(i i ) για i [l] Με τα m δείγματα λαμβάνεται κατανομή ˆp r τ.ω. E[d TV (p r, ˆp r )] = O( l/m) = O((log n/(m + 1)) 1/3 ) (ανισότητα Vapnik-Chervonenkis) 3. Εξάγεται η κατανομή ( ˆp r ) f με στήριγμα το [n] Από βήματα 1 και 2: E[d TV (( ˆp r ) f, p f )] = O( l/m) = O((log n/(m + 1)) 1/3 ) 4. Από βήματα 1 και 3: E[d TV (( ˆp r ) f, p)] = O( l/m) = O((log n/(m + 1)) 1/3 ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 5 / 20

Μάθηση σχεδόν μονότονων κατανομών δ := O((log n/(m + 1)) 1/3 ) Στα βήματα 2 και 3 μαθαίνεται η κατανομή p f σε απόσταση διακύμανσης δ Ισχυρισμός: Αν p είναι τ-κοντά σε μη αύξουσα κατανομή p τότε η p f ικανοποιεί d TV (p f, p) (2τ + δ) Απόδειξη: τ j = p p 1 στο διάστημα I j, τότε l i=1 τ j τ Birgé d TV ((p ) f, p ) = δ άρα d TV ((p ) f, p) = δ + τ (1) Σε κάθε διάστημα I j, p(i j ) p (I j ) 1 τ j και οι p f, (p ) f ομοιόμορφες. d TV (p f, (p ) f ) τ (2) (1),(2), τριγωνική ανισότητα d TV (p f, p) 2τ + δ Ο αλγόριθμος Birgé μαθαίνει σχεδόν μονότονη κατανομή με απόσταση διακύμανσης 2τ + 2δ ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 6 / 20

Μάθηση k-τροπικών κατανομών Αλγόριθμος Birgé σε ( n k) των πιθανών ακρότατων σημείων Καλή δειγματική πολυπλοκότητα, μη αποδοτική χρονική Ω(n k ) Διαμέριση του [n] σε k/ɛ διαστήματα με χονδρικά ɛ/k πιθανότητα το καθένα k μη μονότονα διαστήματα συνολικό σφάλμα O(ɛ) καλή χρονική πολυπλοκότητα poly(k, log n, 1/ɛ) μεγαλύτερη της επιθυμιτής δειγματική, Ω(k/ɛ) φορές Birgé με Ω(log(n)/ɛ 3 ) Ω(k(log(n)/ɛ 4 ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 7 / 20

Αλγόριθμος ελέγχου μονοτονίας k-τροπικής κατανομής Ο αλγόριθμος T (ɛ, δ) (T (ɛ, δ)) χρησιμοποιεί O(log(1/δ)) (k/ɛ 2 ) δείγματα από k-τροπική κατανομή. Απαιτήσεις (Πληρότητα) Εάν η p είναι μη φθίνουσα (μη αύξουσα), τότε ο T (T ) δίνει ναι με πιθανότητα τουλάχιστον 1 δ. (Συνέπεια) Εάν η p είναι ɛ-μακρυά από το να είναι μη αύξουσα (μη φθίνουσα), τότε ο T (T ) δίνει ναι με πιθανότητα τω πολύ δ. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 8 / 20

Ο αλγόριθμος T (ɛ, δ) υλοποιείται επαναλαμβάνοντας τον αλγόριθμο T, O(k/τ 2 ) φορές. Δοκιμαστής T (τ) Είσοδος: τ > 0 δείγματα της k-τροπικής κατανομής q στο [n] 1. Λήψη Θ(k/τ 2 ) δειγμάτων s από την q στο [n] 2. Εάν υπάρχει l [k] και {α i, b i, c i } l i=1 s n, με α i b i < c i < α i+1, i [l 1], τ.ω. l i=1 T (ˆq, α i, b i, c i 1) τ/4 τότε απάντησε όχι, άλλως απάντησε ναι. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 9 / 20

Θεώρημα Ο αλγόριθμος T χρησιμοποιεί O(k/τ 2 ) δείγματα της q, εκτελεί poly(k/τ) logn διφυοπράξεις και ικανοποιεί τις απαιτήσεις πληρότητας και συνέπειας. Λήμμα Εστω q k-τροπική κατανομή στο [n] που είναι τ μακρυά από το να είναι μη φθίνουσα. Υπάρχει l [k] και {α i, b i, c i } l i=1 [n]3l με α i b i < c i < α i+1, i [l 1], τ.ω. l i=1 T (q, α i, b i, c i ) τ/2 Απόδειξη λήμματος με αντιθετοαντιστροφή, μειώνοντας βαθμηδόν κατά 1 την τροπικότητα της κατανομής, κρατώντας το σφάλμα ελεγχόμενο (θυμίζει Myerson ironing). ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 10 / 20

Ελεγχος ύπαρξης τριάδων {α i, b i, c i } l i=1 s n, με α i b i < c i < α i+1, i [l 1], τ.ω. l i=1 T (ˆq, α i, b i, c i 1) τ/4. Με ωμή δύναμη Ω(r k ) logn. Θεωρούμε T (l) = max{ l i=1 T (ˆq, α i, b i, c i 1) {α i, b i, c i } l i=1 s n with α i b i < c i < α i+1, i [l 1]} Με δυναμικό προγραμματισμό ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 11 / 20

1. Δειγματοληψία της p σε r = Θ(1/τ 2 ) θέσεις του στηρίγματος, τ := ɛ/(100k). 2. Διαμέριση του [n] άπληστα σε l διαστήματα με I = {I i } l i=1 1. I := [1, j 1 ] με j 1 := min{j [n] ˆp([1, j]) ɛ 10k } 2. Για i 1 εάν i j=1 I j = [1, j i ] τότε I i+1 := [j i + 1, j i+1 ], όπου εάν ˆp([j i + 1, n]) ɛ/(10k), j i+1 := min{j [n] ˆp([j i + 1, j]) ɛ/(10k)} άλλως, j i+1 := n 3. τ := ɛ/(2000k). Λήψη r = Θ((k 2 /ɛ 3 ) log(1/τ )loglog(1/τ )) δειγμάτων s της p 4. Ταυτόχρονη εκτέλεση των αλγορίθμων T (ɛ, τ ) και T (ɛ, τ ) στις μερικές κατανομές p j i=1 I για j = 1, 2,..., έως i εύρεση I j1 για το οποίο οι T (ɛ, τ ) και T (ɛ, τ ) επιστρέψουν όχι στο p j 1 I i. i=1 I j1 = [α j1, b j1 ] διακρίνονται 2 περιπτώσεις ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 12 / 20

Εάν ˆp[α j1, b j1 ] 2ɛ/(10k), όρισε I j 1 := [α j1, b j1 1] και το b j1 είναι βαρύ σημείο. Εάν ˆp[α j1, b j1 ] < 2ɛ/(10k), όρισε I j 1 := I j1. Ονόμασε το I j 1 αμελητέο διάστημα. Εάν j 1 > 1, όρισε το πρώτο υπερδιάστημα να είναι j 1 1 i=1 I i και θέσε το α 1 {, } σε εάν T επέστρεψε ναι στο p j 1 1 i=1 I i. I i και θέσε α 1 = εάν T επέστρεψε ναι στο p j 1 1 i=1 5. Επανάλαβε το βήμα 4 ξεκινώντας από το επόμενο διάστημα I j1 +1 βρες το αριστερότερο διάστημα I j2 για το οποίο αμφότερα τα T και T επιστρέφουν όχι στο p j 1 I i. i=1 Συνέχισε μέχρί όλα τα διαστήματα ως το I l να έχουν χρησιμοποιηθεί. Εστω S 1,..., S t τα υπερδιαστήματα που λαμβάνονται μέσω της παραπάνω διαδικασίας και α 1,..., α t {, } t η ακολουθία μονοτονίας τους. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 13 / 20

6. Λάβε m = Θ(k log(n/k)/ɛ 3 ) δείγματα s από την p. Για κάθε υπερδιάστημα S i, i [t], τρέξε τον αλγόριθμο A α i στην υπό συνθήκη κατανομή p Si της p, χρησιμοποιώντας δείγματα από το s S i. Εστω p Si η υπόθεση που λαμβάνεται. 7. Δώσε την υπόθεση h = t i=1 ˆp(S i) p Si + j ˆp({b j}) 1 bj ). ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 14 / 20

Ελεγχος υπόθεσης Θεώρημα Υπάρχει αλγόριθμος Ελεγχος-Υπόθεσης p (h 1, h 2, ɛ, δ ) που δεδομένων δύο υποθέσεων h 1, h 2 για την p, παράμετρο ακρίβειας ɛ και παράμετρο εμπιστοσύνης δ, λαμβάνει m = O(log(1/δ )/ɛ 2 ) δείγματα από την p και επιστρέφει υπόθεση h {h 1, h 2 }. Εάν μία εκ των h 1, h 2 έχει d TV (h i, p) ɛ, τότε με πιθανότητα 1 δ η υπόθεση h που επιστρέφει ο αλγόριθμος Ελεγχος-Υπόθεσης έχει d TV (h, p) 6ɛ. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 15 / 20

Απόδειξη W στήριγμα του p, W 1 = W 1 (h 1, h 2 ) := {w W h 1 (w) > h 2 (w)} p 1 = h 1 (W 1 ), q 1 = h 2 (W 1 ) p 1 > q 1 και d TV (h 1, h 2 ) = p 1 q 1 1. αν p 1 q 1 5ɛ ισοπαλία, δώσε κάποιο h i, άλλως 2. m = O( log(1/δ ) ɛ 2 ) δείγματα s 1,...s m από την p, τ = 1 m {i s i W 1 } 3. αν τ > p 1 3 2 ɛ επίστρεψε h 1 νικητή, άλλως 4. αν τ < q 1 + 3 2 ɛ επίστρεψε h 2 νικητή, άλλως 5. ισοπαλία, δώσε κάποιο h i ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 16 / 20

Εάν d TV (p, h 1 ) ɛ αν d TV (p, h 2 ) > 6ɛ πιθανότητα ο h 1 να μην είναι νικητής e mɛ 2 /2 αν d TV (p, h 2 ) > 4ɛ πιθανότητα ο h 2 νικητής e mɛ 2 /2 απόδειξη r = p(w 1 ), τότε r p 1 ɛ Ορίζουμε {Z j } m j=1 δείκτριες τυχαίες συναρτήσεις με Z j = 1 ανν s j W 1, τότε τ = 1 m m j=1 Z j E[τ] = E[Z j ] = r Z j ανεξάρτητες άρα από φράγμα Chernoff Pr[τ r ɛ /2] e mɛ 2 /2 Pr[τ p 1 3ɛ /2] e mɛ 2 /2 αν d TV (p, h 2 ) > 6ɛ, απο τριγ. ανισότητα p 1 q 1 = d TV (h 1, h 2 ) > 5ɛ και θα σταματήσουμε στο βήμα 3 με πιθανότητα > 1 e mɛ 2 /2 αν p 1 q 1 5ɛ ισοπαλία, άλλως p 1 q 1 > 5ɛ και ο h 2 ανακηρύσσεται νικητής με πιθανότητα τω πολύ e mɛ 2 /2 ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 17 / 20

Εστω ότι έχουμε αλγόριθμο που με εμπιστοσύνη 9/10 μαθαίνει την k-τροπική κατανομή με ακρίβεια ɛ. Για να ωθήσουμε την πιθανότητα σε 1 δ, τρέχουμε τον αλγόριθμο O(log(1/δ)) φορές και χρησιμοποιείται ο Ελεγχος-Υπόθεσης σε κατάλληλο διαγωνισμό για επιλογή της κατάλληλης υπόθεσης. Λήμμα Εστω p τυχαία κατανομή επί του W. Εστω D ɛ συλλογή Ν κατανομών στο W τ.ω. υπάρχει q D ɛ με d TV (p, q) ɛ. Τότε υπάρχει αλγόριθμος που χρησιμοποιεί O(ɛ 2 logn log(1/δ)) δείγματα από την p και με πιθανότητα 1 δ εξάγει κατανομή p D ɛ που ικανοποιεί την d TV (p, p ) 6ɛ. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 18 / 20

Εκτελούνται O(log(1/δ)) επαναλήψεις αλγορίθμου μάθησης που παράγει ɛ-ακριβή υπόθεση με πιθανότητα 9/10. Τότε με πιθανότητα αποτυχίας τω πολύ δ/2, τουλάχιστον μία από τις υποθέσεις που παράγονται είναι ɛ κοντά στην πραγματική κατανομή που ικανοποιεί τις προϋποθέσεις του λήμματος. Με O(ɛ 2 logn log(1/δ)) δείγματα μαθαίνουμε με ακρίβεια 6ɛ και εμπιστοσύνη 1 δ/2. Συνολική δειγματική πολυπλοκότητα: O(log(1/δ)) x πολυπλ. αλγ. μάθησης + O(ɛ 2 logn log(1/δ)). ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 19 / 20

Κεντρικό θεώρημα Εστω p οποιαδήποτε άγνωστη κατανομή k τρόπων στο [n]. Υπάρχει αλγόριθμος που χρησιμοποιεί ( k log(n/k) ɛ 3 + k2 log( k ɛ 3 ɛ ) loglog k ɛ ) Õ(log 1 δ ) δείγματα της p, εκτελεί poly(k, log n, 1/ɛ, log(1/δ)) διφυοπράξεις και με πιθανότητα 1 δ δίνει υπόθεση ˆp στο [n] τ.ω. η απόσταση ολικής διακύμανσης μεταξύ των p και ˆp είναι τω πολύ ɛ. (Õ: πολυλογαριθμικός όρος. Π.χ. ως Õ(alogb) συμβολίζεται όρος της μορφής O((alogb) (log(alogb)) c ) ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 20 / 20