Μάθηση k-τροπικών κατανομών μέσω δοκιμών Learning k-modal distributions via testing Ιωσήφ Μουλίνος Εθνικό Μετσόβιο Πολυτεχνείο 8 Ιουνίου 2017 ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 1 / 20
Επιβλεπόμενη μάθηση Μη επιβλεπόμενη μάθηση ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 2 / 20
Μάθηση κατανομής πιθανότητας Εκτίμηση πυκνότητας πιθανότητας Λαμβάνοντας δείγματα από την κατονομή p εξάγεται υποθετική κατανομή ˆp Με υψηλή πιθανότητα d TV (p, ˆp) ɛ. d TV (p, q) := max S [n] p(s) q(s) = 1 2 p q 1, p(s) = i S p(i), [n] = 1, 2, 3,..., n ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 3 / 20
Πληροφοριοθεωρητικά, για ɛ 1/n Ω(1), η μάθηση μονότονης κατανομής απαιτεί Ω(log(n)/ɛ 3 ) δείγματα [Birgé 1987] Παραθέτοντας k μονότονα διαστήματα μήκους n/k, κάθε αλγόριθμος μάθησης k τροπικής κατανομής στο [n], με ɛ 1/n Ω(1) απαιτεί Ω(klog(n/k)/ɛ 3 ) Ζητούμενο Αλγόριθμος με πολυωνυμικό πλήθος δειγμάτων ως προς τον αριθμό των τρόπων και τον λογάριθμο logn και χρόνο εκτέλεσης poly(k, log n, 1/ɛ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 4 / 20
Αλγόριθμος Birgé p μη αύξουσα κατανομή στο [n]. 1. Διαμέριση του [n] σε I 1,..., I l, l = O(m 1/3 (log n) 2/3 ). Για j [n] και i I i, p f (i) = t I j p(t)/ I j d TV (p f, p) = O(m 1/3 (log n) 2/3 ) 2. Κατανομή p r στο [l] με p r (i) = p(i i ) για i [l] Με τα m δείγματα λαμβάνεται κατανομή ˆp r τ.ω. E[d TV (p r, ˆp r )] = O( l/m) = O((log n/(m + 1)) 1/3 ) (ανισότητα Vapnik-Chervonenkis) 3. Εξάγεται η κατανομή ( ˆp r ) f με στήριγμα το [n] Από βήματα 1 και 2: E[d TV (( ˆp r ) f, p f )] = O( l/m) = O((log n/(m + 1)) 1/3 ) 4. Από βήματα 1 και 3: E[d TV (( ˆp r ) f, p)] = O( l/m) = O((log n/(m + 1)) 1/3 ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 5 / 20
Μάθηση σχεδόν μονότονων κατανομών δ := O((log n/(m + 1)) 1/3 ) Στα βήματα 2 και 3 μαθαίνεται η κατανομή p f σε απόσταση διακύμανσης δ Ισχυρισμός: Αν p είναι τ-κοντά σε μη αύξουσα κατανομή p τότε η p f ικανοποιεί d TV (p f, p) (2τ + δ) Απόδειξη: τ j = p p 1 στο διάστημα I j, τότε l i=1 τ j τ Birgé d TV ((p ) f, p ) = δ άρα d TV ((p ) f, p) = δ + τ (1) Σε κάθε διάστημα I j, p(i j ) p (I j ) 1 τ j και οι p f, (p ) f ομοιόμορφες. d TV (p f, (p ) f ) τ (2) (1),(2), τριγωνική ανισότητα d TV (p f, p) 2τ + δ Ο αλγόριθμος Birgé μαθαίνει σχεδόν μονότονη κατανομή με απόσταση διακύμανσης 2τ + 2δ ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 6 / 20
Μάθηση k-τροπικών κατανομών Αλγόριθμος Birgé σε ( n k) των πιθανών ακρότατων σημείων Καλή δειγματική πολυπλοκότητα, μη αποδοτική χρονική Ω(n k ) Διαμέριση του [n] σε k/ɛ διαστήματα με χονδρικά ɛ/k πιθανότητα το καθένα k μη μονότονα διαστήματα συνολικό σφάλμα O(ɛ) καλή χρονική πολυπλοκότητα poly(k, log n, 1/ɛ) μεγαλύτερη της επιθυμιτής δειγματική, Ω(k/ɛ) φορές Birgé με Ω(log(n)/ɛ 3 ) Ω(k(log(n)/ɛ 4 ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 7 / 20
Αλγόριθμος ελέγχου μονοτονίας k-τροπικής κατανομής Ο αλγόριθμος T (ɛ, δ) (T (ɛ, δ)) χρησιμοποιεί O(log(1/δ)) (k/ɛ 2 ) δείγματα από k-τροπική κατανομή. Απαιτήσεις (Πληρότητα) Εάν η p είναι μη φθίνουσα (μη αύξουσα), τότε ο T (T ) δίνει ναι με πιθανότητα τουλάχιστον 1 δ. (Συνέπεια) Εάν η p είναι ɛ-μακρυά από το να είναι μη αύξουσα (μη φθίνουσα), τότε ο T (T ) δίνει ναι με πιθανότητα τω πολύ δ. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 8 / 20
Ο αλγόριθμος T (ɛ, δ) υλοποιείται επαναλαμβάνοντας τον αλγόριθμο T, O(k/τ 2 ) φορές. Δοκιμαστής T (τ) Είσοδος: τ > 0 δείγματα της k-τροπικής κατανομής q στο [n] 1. Λήψη Θ(k/τ 2 ) δειγμάτων s από την q στο [n] 2. Εάν υπάρχει l [k] και {α i, b i, c i } l i=1 s n, με α i b i < c i < α i+1, i [l 1], τ.ω. l i=1 T (ˆq, α i, b i, c i 1) τ/4 τότε απάντησε όχι, άλλως απάντησε ναι. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 9 / 20
Θεώρημα Ο αλγόριθμος T χρησιμοποιεί O(k/τ 2 ) δείγματα της q, εκτελεί poly(k/τ) logn διφυοπράξεις και ικανοποιεί τις απαιτήσεις πληρότητας και συνέπειας. Λήμμα Εστω q k-τροπική κατανομή στο [n] που είναι τ μακρυά από το να είναι μη φθίνουσα. Υπάρχει l [k] και {α i, b i, c i } l i=1 [n]3l με α i b i < c i < α i+1, i [l 1], τ.ω. l i=1 T (q, α i, b i, c i ) τ/2 Απόδειξη λήμματος με αντιθετοαντιστροφή, μειώνοντας βαθμηδόν κατά 1 την τροπικότητα της κατανομής, κρατώντας το σφάλμα ελεγχόμενο (θυμίζει Myerson ironing). ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 10 / 20
Ελεγχος ύπαρξης τριάδων {α i, b i, c i } l i=1 s n, με α i b i < c i < α i+1, i [l 1], τ.ω. l i=1 T (ˆq, α i, b i, c i 1) τ/4. Με ωμή δύναμη Ω(r k ) logn. Θεωρούμε T (l) = max{ l i=1 T (ˆq, α i, b i, c i 1) {α i, b i, c i } l i=1 s n with α i b i < c i < α i+1, i [l 1]} Με δυναμικό προγραμματισμό ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 11 / 20
1. Δειγματοληψία της p σε r = Θ(1/τ 2 ) θέσεις του στηρίγματος, τ := ɛ/(100k). 2. Διαμέριση του [n] άπληστα σε l διαστήματα με I = {I i } l i=1 1. I := [1, j 1 ] με j 1 := min{j [n] ˆp([1, j]) ɛ 10k } 2. Για i 1 εάν i j=1 I j = [1, j i ] τότε I i+1 := [j i + 1, j i+1 ], όπου εάν ˆp([j i + 1, n]) ɛ/(10k), j i+1 := min{j [n] ˆp([j i + 1, j]) ɛ/(10k)} άλλως, j i+1 := n 3. τ := ɛ/(2000k). Λήψη r = Θ((k 2 /ɛ 3 ) log(1/τ )loglog(1/τ )) δειγμάτων s της p 4. Ταυτόχρονη εκτέλεση των αλγορίθμων T (ɛ, τ ) και T (ɛ, τ ) στις μερικές κατανομές p j i=1 I για j = 1, 2,..., έως i εύρεση I j1 για το οποίο οι T (ɛ, τ ) και T (ɛ, τ ) επιστρέψουν όχι στο p j 1 I i. i=1 I j1 = [α j1, b j1 ] διακρίνονται 2 περιπτώσεις ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 12 / 20
Εάν ˆp[α j1, b j1 ] 2ɛ/(10k), όρισε I j 1 := [α j1, b j1 1] και το b j1 είναι βαρύ σημείο. Εάν ˆp[α j1, b j1 ] < 2ɛ/(10k), όρισε I j 1 := I j1. Ονόμασε το I j 1 αμελητέο διάστημα. Εάν j 1 > 1, όρισε το πρώτο υπερδιάστημα να είναι j 1 1 i=1 I i και θέσε το α 1 {, } σε εάν T επέστρεψε ναι στο p j 1 1 i=1 I i. I i και θέσε α 1 = εάν T επέστρεψε ναι στο p j 1 1 i=1 5. Επανάλαβε το βήμα 4 ξεκινώντας από το επόμενο διάστημα I j1 +1 βρες το αριστερότερο διάστημα I j2 για το οποίο αμφότερα τα T και T επιστρέφουν όχι στο p j 1 I i. i=1 Συνέχισε μέχρί όλα τα διαστήματα ως το I l να έχουν χρησιμοποιηθεί. Εστω S 1,..., S t τα υπερδιαστήματα που λαμβάνονται μέσω της παραπάνω διαδικασίας και α 1,..., α t {, } t η ακολουθία μονοτονίας τους. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 13 / 20
6. Λάβε m = Θ(k log(n/k)/ɛ 3 ) δείγματα s από την p. Για κάθε υπερδιάστημα S i, i [t], τρέξε τον αλγόριθμο A α i στην υπό συνθήκη κατανομή p Si της p, χρησιμοποιώντας δείγματα από το s S i. Εστω p Si η υπόθεση που λαμβάνεται. 7. Δώσε την υπόθεση h = t i=1 ˆp(S i) p Si + j ˆp({b j}) 1 bj ). ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 14 / 20
Ελεγχος υπόθεσης Θεώρημα Υπάρχει αλγόριθμος Ελεγχος-Υπόθεσης p (h 1, h 2, ɛ, δ ) που δεδομένων δύο υποθέσεων h 1, h 2 για την p, παράμετρο ακρίβειας ɛ και παράμετρο εμπιστοσύνης δ, λαμβάνει m = O(log(1/δ )/ɛ 2 ) δείγματα από την p και επιστρέφει υπόθεση h {h 1, h 2 }. Εάν μία εκ των h 1, h 2 έχει d TV (h i, p) ɛ, τότε με πιθανότητα 1 δ η υπόθεση h που επιστρέφει ο αλγόριθμος Ελεγχος-Υπόθεσης έχει d TV (h, p) 6ɛ. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 15 / 20
Απόδειξη W στήριγμα του p, W 1 = W 1 (h 1, h 2 ) := {w W h 1 (w) > h 2 (w)} p 1 = h 1 (W 1 ), q 1 = h 2 (W 1 ) p 1 > q 1 και d TV (h 1, h 2 ) = p 1 q 1 1. αν p 1 q 1 5ɛ ισοπαλία, δώσε κάποιο h i, άλλως 2. m = O( log(1/δ ) ɛ 2 ) δείγματα s 1,...s m από την p, τ = 1 m {i s i W 1 } 3. αν τ > p 1 3 2 ɛ επίστρεψε h 1 νικητή, άλλως 4. αν τ < q 1 + 3 2 ɛ επίστρεψε h 2 νικητή, άλλως 5. ισοπαλία, δώσε κάποιο h i ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 16 / 20
Εάν d TV (p, h 1 ) ɛ αν d TV (p, h 2 ) > 6ɛ πιθανότητα ο h 1 να μην είναι νικητής e mɛ 2 /2 αν d TV (p, h 2 ) > 4ɛ πιθανότητα ο h 2 νικητής e mɛ 2 /2 απόδειξη r = p(w 1 ), τότε r p 1 ɛ Ορίζουμε {Z j } m j=1 δείκτριες τυχαίες συναρτήσεις με Z j = 1 ανν s j W 1, τότε τ = 1 m m j=1 Z j E[τ] = E[Z j ] = r Z j ανεξάρτητες άρα από φράγμα Chernoff Pr[τ r ɛ /2] e mɛ 2 /2 Pr[τ p 1 3ɛ /2] e mɛ 2 /2 αν d TV (p, h 2 ) > 6ɛ, απο τριγ. ανισότητα p 1 q 1 = d TV (h 1, h 2 ) > 5ɛ και θα σταματήσουμε στο βήμα 3 με πιθανότητα > 1 e mɛ 2 /2 αν p 1 q 1 5ɛ ισοπαλία, άλλως p 1 q 1 > 5ɛ και ο h 2 ανακηρύσσεται νικητής με πιθανότητα τω πολύ e mɛ 2 /2 ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 17 / 20
Εστω ότι έχουμε αλγόριθμο που με εμπιστοσύνη 9/10 μαθαίνει την k-τροπική κατανομή με ακρίβεια ɛ. Για να ωθήσουμε την πιθανότητα σε 1 δ, τρέχουμε τον αλγόριθμο O(log(1/δ)) φορές και χρησιμοποιείται ο Ελεγχος-Υπόθεσης σε κατάλληλο διαγωνισμό για επιλογή της κατάλληλης υπόθεσης. Λήμμα Εστω p τυχαία κατανομή επί του W. Εστω D ɛ συλλογή Ν κατανομών στο W τ.ω. υπάρχει q D ɛ με d TV (p, q) ɛ. Τότε υπάρχει αλγόριθμος που χρησιμοποιεί O(ɛ 2 logn log(1/δ)) δείγματα από την p και με πιθανότητα 1 δ εξάγει κατανομή p D ɛ που ικανοποιεί την d TV (p, p ) 6ɛ. ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 18 / 20
Εκτελούνται O(log(1/δ)) επαναλήψεις αλγορίθμου μάθησης που παράγει ɛ-ακριβή υπόθεση με πιθανότητα 9/10. Τότε με πιθανότητα αποτυχίας τω πολύ δ/2, τουλάχιστον μία από τις υποθέσεις που παράγονται είναι ɛ κοντά στην πραγματική κατανομή που ικανοποιεί τις προϋποθέσεις του λήμματος. Με O(ɛ 2 logn log(1/δ)) δείγματα μαθαίνουμε με ακρίβεια 6ɛ και εμπιστοσύνη 1 δ/2. Συνολική δειγματική πολυπλοκότητα: O(log(1/δ)) x πολυπλ. αλγ. μάθησης + O(ɛ 2 logn log(1/δ)). ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 19 / 20
Κεντρικό θεώρημα Εστω p οποιαδήποτε άγνωστη κατανομή k τρόπων στο [n]. Υπάρχει αλγόριθμος που χρησιμοποιεί ( k log(n/k) ɛ 3 + k2 log( k ɛ 3 ɛ ) loglog k ɛ ) Õ(log 1 δ ) δείγματα της p, εκτελεί poly(k, log n, 1/ɛ, log(1/δ)) διφυοπράξεις και με πιθανότητα 1 δ δίνει υπόθεση ˆp στο [n] τ.ω. η απόσταση ολικής διακύμανσης μεταξύ των p και ˆp είναι τω πολύ ɛ. (Õ: πολυλογαριθμικός όρος. Π.χ. ως Õ(alogb) συμβολίζεται όρος της μορφής O((alogb) (log(alogb)) c ) ) ΕΜΠ Μάθηση k-τροπικών κατανομών 8 Ιουνίου 2017 20 / 20