למידה חישובית אלי דיין 1.

למידה חישובית אלי דיין <eliyahud@post.tau.ac.il>

תקציר מסמך זה יביא את סיכומי השיעורים מהקורס למידה חישובית, שהועבר על ידי פרופ ישי מנצור בסמסטר א בשנה ל תשע ג.

תוכן עניינים 5 מה זה למידה חישובית? 5 סוגי הבעיות.................................. 5 סוגים של. ML................................2 5.................. Supervised vs. Unsupervised.2. 6........................ Active vs. Passive.2.2 6.............................. Teacher.2.3 6......................... Batch vs. Online.2.4 6 בניית מודל. ML...............................3 7............................ Loss Model.3. 7......................... 0-Loss.3.. 7.................... Quadratic Loss.3..2 7................... Logarithmic Loss.3..3 8......................... הנחות על השערות.3.2 8............................ שיטות הסקה.3.3 8............... הסקה בייסיאנית (Bayes).3.3. 9....................... מודל PAC.3.3.2 9 מודלים מכוונים (Online).................3.3.3 0................................ מבנה הקורס.4 Bayesian Inference 2.................................... מבוא 2.................................. כלל Bayes 2.2............................. דוגמה: זיהוי סרטן 2.3 3 דוגמה: התפלגות נורמלית.......................... 2.4 3 התפלגות נורמלית.......................... 2.4. 3............................ תיאור הבעיה 2.4.2 3 שיטת. ML............................. 2.4.3 4............................ שיטת MAP 2.4.4 5...................... שיטת Posterior Bayes 2.4.5 6........................ Learning a Concept Class 2.5 7........................... דוגמה: Biased Coins 2.6 7............................ חוק Laplace 2.6. 8........................... פונקציות Loss 2.6.2 20................................ Naïve Bayes 2.7 20.................... סיווג בייסיאני: מרחב בינארי 2.7. 2...................... פענוח של Naïve Bayes 2.7.2 2 התפלגות נורמלית.......................... 2.7.3

תוכן עניינים תוכן עניינים 23 מודל ה PAC 3 23................................ מודל ה PAC 3. 23............................ דוגמה אינטואיטיבית 3.2 24........................ מציאת השערה טובה 3.2. 24............................ אופן הלימוד 3.2.2 24........................... מספר הדגימות 3.2.3 26...................... הצגה פורמלית של מודל ה PAC 3.3 26............................... הקדמה 3.3. 26........................ הגדרת מודל ה PAC 3.3.2 27.......................... מחלקות השערות סופיות 3.4 27 המקרה. c t H.......................... 3.4. 27 המקרה. c t / H.......................... 3.4.2 29 דוגמה למידת. Boolean Disjunctions............. 3.4.3 29...................... דוגמה למידת Pairity 3.4.4 30............................... Occam Razor 3.5 30................. אלגוריתמי Occam ומודל ה PAC 3.5. 30................ דוגמה למידת OR של k משתנים 3.5.2 32 מודל Online 4 32.......................... למידה של מפריד לינארי 4. 32 אלגוריתם. Perceptron...................... 4.. 34.................. אלגוריתם Margin Perceptron 4..2 35........................... מודל Margin Bound 4.2 36 האלגוריתם (CON) Consistent.................. 4.2. 36 אלגוריתם חציה (HAL)....................... 4.2.2 36................ הקשר בין Mistake Bound ומודל ה PAC 4.3 37............................... למידה של OR 4.4 37 אלגוריתם. Winnow............................ 4.5 40 Regret Minimization 5 40.................................... מבוא 5. 40......................... המודל האלגוריתמי 5.. 40......................... External Regret 5..2 4 אלגוריתמים................................. 5.2 4.............. אלגוריתם (G) Deterministic Greedy 5.2. 42 אלגוריתם (GR) Randomized Greedy.............. 5.2.2 43 אלגוריתם (RWM) Randomized Weighted Majority..... 5.2.3 45 חסמים תחתונים לאלגוריתמי Online ממושקלים.............. 5.3 5.3. טווח קצר H. T = 2 log................... 45 5.3.2 כתלות בזמן 2 = H....................... 46 46............................ Multi-Arm Bandit 5.4 47...................... אלגוריתם Test & Play 5.4. 48.......... (UCB) Upper אלגוריתם Condence Bound 5.4.2 50 Boosting 6 50 למידה חלשה וחזקה............................. 6. 50 שיפור בפרמטר הבטחון....................... 6.. 52 שיפור בפרמטר הדיוק........................ 6..2 53.............................. בנייה רקורסיבית 6.2 55 אלגוריתם. AdaBoost........................... 6.3 2

תוכן עניינים תוכן עניינים 60 Nearest Neighbor 7 60................................... הקדמה 7. 60 שיטות כלליות................................ 7.2 60....................... מודלים ל Neighbor Nearest 7.3 6.............................. 0- Loss 7.3. 6............................ Bayes Risk 7.3.2 6 מקרה פשוט....................... 7.3.2. 62 המקרה הכללי...................... 7.3.2.2 63...................... שיטת k שכנים קרובים (k-nn) 7.4 63 מקרה פשוט............................. 7.4. 64............................. מקרה כללי 7.4.2 64............................... מדידת המרחק 7.5 64....................... Locality Sensitive Hashing 7.6 65...................... שלב א Amplication 7.6. 66............................... שלב ב 7.6.2 66............................. האלגוריתם 7.6.3 68 VC Dimension 8 8. מודל PAC (חזרה)............................. 68 8.2 מימד. VC................................. 69 8.2. מוטיבציה.............................. 69 8.2.2 הגדרות............................... 69 8.2.3 דוגמאות............................... 70 8.2.3. סיפא על קו....................... 70 8.2.3.2 מפריד לינארי במישור.................. 70 8.2.3.3 מלבנים מקבילים לצירים................ 73 8.2.3.4 מספר סופי של אינטרוולים............... 74 8.2.3.5 פוליגון קונבקסי במישור................ 74 8.2.4 חסם תחתון על גודל הדגימה.................... 74 8.2.5 עוד דוגמאות............................ 75 8.2.5. פונקציית. Pairity................... 75 OR 8.2.5.2 של ליטרלים.................... 76 8.2.5.3 מפריד לינארי במימד. n................ 77 79 מימד VC (המשך) 9 79.................................... חזרה 9. 80 חסמים לגודל הדגימה............................ 9.2 82 סיבוכיות. Radamacker.......................... 9.3 82....................... ממוצעי Radamacker 9.3. 83....................... אי שוויון McDiarmid 9.3.2 84 סיבוכיות. Radamacker...................... 9.3.3 0 שיעור 86 0 שיעור 87 3

תוכן עניינים תוכן עניינים 2 רגרסיה 88 2. הקדמה................................... 88 2.2 רגרסיה לינארית.............................. 89 2.2. חוסר יציבות הפתרון........................ 90 2.3 רגולריזציה................................. 90 90......................... Ridge Regression 2.3. 9......................... Lasso Regression 2.3.2 2.3.3 חסם הכללה ל Regression Ridge (או משהו שדומה לו)..... 9 2.3.4 נקודת מבט בייסיאנית....................... 92 93............................ Logistic Regression 2.4 95 Model Selection 3 95................................... הקדמה 3. 96 דוגמה................................ 3.. 96 המודל................................ 3..2 97..................... Structural Risk Minimization 3.2 99.......................... (CV) Cross Validation 3.3 00................ (MDL) Minimum Description Length 3.4............................ 0 בעזרת MAP 3.4. 4

פרק מה זה למידה חישובית? התחום צמח מתוך תחום הבינה המלאכותיתת ודומה לסטטיסטיקה, מבחינת השאלות ששואלים.. סוגי הבעיות. סיווג.Classication נניח שלכל קלט יש סיווג נכון (ואולי יחיד). נרצה לדעת מהו. לדוגמה: (א) spam סינון דואר זבל. כל הודעה יכולה להיות הודעה אמיתית או הודעת דואר זבל. נרצה לסווג את ההודעה בהתאם. (ב) סרטן (או מציאת מחלות באופן כללי). (ג) כרטיס אשראי האם טרנסאקציה היא לגיטימית? לפסול אותה או לאשר אותה? (ד) דוגמה למקרה בו לקלט מספר סיווגים שונים: נושא המאמר (למשל פוליטיקה, ספורט ועוד). 2. בעיות בקרה. צריך לקבל החלטה שמשפיעה על מה שיהיה הקלט בפעם הבאה. דוגמאות: (א) לשחק משחקים (למשל ארבע בשורה, או שח מט). (ב) רובוטים למשל שליטה על מסוק. 3. מערכות המלצה Collaborative Filter (כמו המלצות לחברים ב Facebook ). בקורס נתמקד בבעיות סיווג. 2.2 סוגים של ML Supervised vs. Unsupervised.2.. a, a 2,..., a n, y מקבלים דוגמאות עם סיווג Supervised Unsupervised אין סיווג. המטרה היא לחלק את הנתונים לקבוצות בעלות דמיון. בקורס נתמקד בבעיות.Supervised שיעור שהתקיים בתאריך 2.0.202. 2 קיצור של.Machine Learning 5

פרק. מה זה למידה חישובית?.3. בניית מודל ML Active vs. Passive.2.2 Passive יש מאגר מידע שמשתמשים בו בצורה פאסיבית. למשל: > data base השערה > חיזוי Active האלגוריתם בוחר את הקלטים שיסווגו. בקורס נתמקד באלגוריתמים שהם.Passive Teacher.2.3 Teacher למידה על ידי מומחה. בקורס לא נתעסק בזה. Batch vs. Online.2.4 Batch כל המידע נתון מראש. Online המידע אינו נתון מראש. האלגוריתם רואה דוגמה, מנחש סיווג, מקבל את הסיווג הנכון, וממשיך לדוגמה הבאה. בקורס נדבר על שתי הגישות..3 בניית מודל ML בכל מודל, נרצה להגדיר את המאפיינים הבאים:. איך הדוגמאות מיוצרות? למעשה, אנו רוצים כאן הנחה לגבי הסביבה. 2. להשוות סיווגים של אלגוריתמים שונים. הרבה שגיאות קטנות לעומת מעט שגיאות גדולות. 3. מיפוי מדוגמה לסיווג (השערה). בהינתן שתי השערות, + ו, וההתפלגויות + D ו D של + ו בהתאמה, נסמן: כמו כן: λ = Pr [+] = Pr [ ] D (x) = λ D + (x) + ( λ) D (x) בהינתן נקודה (y,x), היינו רוצים לענות על השאלה: מה ההסתברות שההשערה + נכונה בהינתן (y,x)? כלומר, היינו רוצים למצוא את [(y.pr +],x) נפתח את הנוסחה: Pr [(x, y) +] Pr [+] p = Pr [+ (x, y)] = Pr [(x, y)] = D + (x, y) λ D (x, y) כאן, אנחנו צריכים לשאול את עצמנו מה המטרה של הסיווג. למשל, אם אנחנו מאתרים סרטן על פי הנתונים של החולה, אז יש חשיבות רבה לסיווג שניתן. אם נחליט שהאיש חולה, נפנה אותו לעוד בדיקות. לעומת זאת, אם נחליט שהאיש בריא, נשחרר אותו. לכן, היינו מעדיפים שבמקרים של ספק נשלח את האיש לבדיקות נוספות. 6

פרק. מה זה למידה חישובית?.3. בניית מודל ML Loss Model.3. 0-Loss.3.. במקרה של סיווג דו ערכי: l (0, ) = = l (, 0) l (0, 0) = 0 = l (, ) l (y, y 2 ) = { 0 y = y 2 y y 2 במקרה הכללי: כלומר, במידה וצדקנו, ההפסד (Loss) שלנו הוא 0. בכל מקרה אחר,. בדוגמה לעיל (עם הסרטן): Pr [+ (x, y)] Pr [ (x, y)] p p p /2 Quadratic Loss.3..2 המודל אמור להביא קירוב טוב ביותר לכל המקרים, מבחינת מרחק. אם ההסתברות הנכונה היא p, ההפסד עבור ההסתברות q הוא: l (q) = p ( q) 2 + ( p) q 2 d l dq = 2p ( q) + 2 ( p) q = 0 p + pq + q pq = 0 p = q כלומר, התשובה הטובה ביותר היא p (כמצופה). Logarithmic Loss.3..3 אם הסיווג הוא +, אז השגיאה תהיה. log q אם הסיווג הוא, אז השגיאה תהיה. log ( q) אם ההסתברות הנכונה היא p, ההפסד עבור ההסתברות q הוא: l (q) = p log q ( p) log ( q) d dq l = p q + p q = 0 p ( q) q ( p) = 0 p = q כלומר, התשובה הטובה ביותר היא p (כמצופה). 7

פרק. מה זה למידה חישובית?.3. בניית מודל ML הערה בכל השגיאות קיבלנו כי התשובה האופטימאלית היא p. אז למה יש סוגים שונים של שגיאות? מכיוון שהשגיאות עוסקות במקרים התת אופטימליים, והם אילו שמעניינים אותנו. f (x) = d α i x i.3.2 הנחות על השערות הנחה מפורשת: או באופן מדוייק יותר, f. (x) + Noise מחלקות השערות: { d } H = α i x i θ כאשר = i α i 0, α ו [ [0,.θ.3.3 שיטות הסקה.3.3. הסקה בייסיאנית (Bayes) ניעזר בהתפלגות prior (המפלה את ה אמונות שלנו). למשל, אם הקלט הוא מדגם } i,x i R d,b i {0, },S = { x i, b ואנחנו מחפשים את (x) f. אזי: Pr [f (x) = S, x] = h H h (x) Pr [f = h S] Pr [f = h S] = Pr [S f = h] Pr [f = h] Pr [S] אותנו [S] Pr לא מעניין, כי זה הנתון שלנו, ולכן אנחנו יכולים להניח כי = [S].Pr לכן: Pr [f = h S] = Pr [S f = h] Pr [f = h] h ML = arg max Pr [S f = h] h H כעת, ישנן שתי שיטות לבחירת h: :Maximum Likelihood. h MAP = arg max Pr [S f = h] Pr [f = h] h H :Maximum Aposteriori.2 8

פרק. מה זה למידה חישובית?.3. בניית מודל ML.3.3.2 מודל PAC H היא מחלקת כמוה גם פונקציית המטרה f אינה ידועה. ההתפלגות D לא ידועה. ההשערות. המטרה שלנו היא למצא h H שתביא למינימום את (h).pr D [h (x) f (x)] = ε בעיה אין לנו את D, אלא רק מדגם S מתוך D. נגדיר: ˆε (h) = S I [h (x) f (x)] x S כאשר [δ] I הוא האינדיקטור של δ, כלומר: { δ I [δ] = 0 δ כעת, אנחנו יכולים למצוא h H שיביא למינימום את (h) εˆ. שאלה מה גודל (h) ε? (h) εˆ בהמשך נבטיח גם חסם הכללה: h H. ε (h) ˆε (h) δ המתודולוגיה הכללית שלנו תהיה:. נבחר h שיביא למינימום את (h).(erm) ˆε 2. נוכיח חסם הכללה. דוגמאות למחלקות השערות. קו ישר על מישור (או n R שמפריד בתוך R). n 2. עץ החלטה. נניח כי H = {f x, f x2,..., f xd },X = {0, } d כאשר = ) n f xi ( x, x 2,..., x דוגמה 3,x i ו ( H ).D Unif נגריל פונקציה (x) f כלשהי.. 2 מה יקרה אם m < /2 log d דוגמאות? ההסתברות ש x m מסווג m דוגמאות נכון: ) (. אם נשאיף,m d d ההסתברות שקיים m xi שמסווג את כל הדוגמאות נכון: 2 נקבל. e בהסתברות קבועה, קיים x i שמסווג את כל הדוגמאות נכון. למעשה, היינו רוצים לחשב את (h),min h εˆ (h)+complexity מכיוון שכאשר הסיבוכיות גדולה מדי, אנחנו נקבל Overtting למדגם, והשגיאה בעולם שמעבר למדגם תהיה גדולה מדי..3.3.3 מודלים מכוונים (Online) בזמן t רואים קלט x, t מוציאים סיווג y, t רואים את הסיווג האמיתי ) t f, x) צוברים הפסד )) t l (y t, f (x וממשיכים. 3 כל הקטע הזה לא ברור בכלל. 9

.4. מבנה הקורס פרק. מה זה למידה חישובית? המטרה להביא למינימום את )) t.l = t l (y t, f (x פתרון נניח כי h, H שעבורה L קטן. כלומר: L (h ) = t l (h (x t ), f (x t )) נרצה: L min L (h ) + R.4 מבנה הקורס מודלים בסיסיים:.Bayes.PAC.Regression אלגוריתמי :Online.Perception.Regret.Boosting :Generalization Bounds.VC-dim.Radamacher אלגוריתמים:.Decission Trees.SVM.Fourier Transform 0

פרק 2 Bayesian Inference 2. מבוא בשיעור זה נציג את מודל ההסקה הבייסיאני Inference).(Bayes המודל משתמש בהתפלגות,prior שמשקפת את האמונות שלנו לגבי ההשערה הנכונה או הסיווג הנכון, ובסוף מקבלים התפלגות,posterior שמשקפת את מה שהתהליך למד. יש 3 דרכים להסקה בייסיאנית:.(Maximum Likelihood (או ML.(Maximum A Posteriori (או MAP.Bayes Posterior Rule 2.2 כלל Bayes Pr [A B] = Pr [B A] Pr [A] Pr [B] (2.2.) איך אנחנו נשתמש בזה? אנחנו נרצה לדעת את ההסתברות שההשערה h היא נכונה בהינתן המדגם,data כלומר את data].pr [h לפי חוק :Bayes Pr [h data] = Pr [data h] Pr [h] Pr [data] נשים לב ש [ data ] Pr הינו בחזקת קבוע, מכיוון שלרוב אין לנו מידע על בחירת המדגמים, ולכן בהרבה מקומות ניתן להשמיט אותו. 2.3 דוגמה: זיהוי סרטן נתונה ערכה לזיהוי של מחלת הסרטן. בהינתן מטופל, הערכה עשוייה להחזיר אחת משתי תשובות: 0 או, המייצגות מטופל בריא או חולה בהתאמה. כמו כן, נתון כי: שיעור שהתקיים בתאריך 28.0.202.

פרק 2. Inference 2.3. Bayesian דוגמה: זיהוי סרטן אם המטופל חולה בסרטן, בסיכוי של 98% הערכה תחזיר עבורו. אם המטופל בריא, בסיכוי של 97% הערכה תחזיר עבורו 0. ההסתברות הכללית לסרטן בקרב האוכלוסייה היא %. היינו רוצים למצוא את הסיכוי שמטופל חולה בסרטן אם הערכה טוענת שהוא חולה, כלומר את ] [Cancer.Pr נפרמל את הנתונים שלנו: Pr [ Cancer] = 98% = 0.98 Pr [0 Cancer] = 97% = 0.97 Pr [Cancer] = % = 0.0 Pr [ Cancer] = Pr [Cancer] = 0.0 = 0.99 כמו כן, נסיק כי: Pr [ Cancer] = Pr [0 Cancer] = 0.97 = 0.03 Pr [] = Pr [ Cancer] Pr [Cancer] + Pr [ Cancer] Pr [ Cancer] = = 0.98 0.0 + 0.03 0.99 = 0.0395 לכן, ולפי כלל :Bayes Pr [Cancer ] = = Pr [ Cancer] Pr [Cancer] = Pr [] 0.98 0.0 = 0.248 = 24.8% 0.0395 באופן מפתיע, אם הערכה מזהה מטופל כחולה בסרטן, בסיכוי של פחות מ 25% הוא אכן חולה, כלומר 3 מתוך 4 מטופלים שהערכה חוזה שהם חולים, הם למעשה בריאים. אם היינו רוצים להיות מדוייקים יותר, יכולנו לבשר לכלל המטופלים שהם בריאים, ואז השגיאה הייתה % בלבד. הסיבה לכך שהשגיאה גדולה מאוד היא ההסתברות לסרטן בקרב כלל האוכלוסייה, שהיא קטנה מאוד % בלבד. 2

פרק 2. Inference 2.4. Bayesian דוגמה: התפלגות נורמלית 2.4 דוגמה: התפלגות נורמלית 2.4. התפלגות נורמלית הגדרה נאמר שמשתנה מקרי (מ מ) Z מתפלג נורמלית 2),N ( µ, σ ונסמן 2) Z N ( µ, σ כאשר התוחלת שלו היא µ, והשונות שלו היא σ. 2 תכונות המ מ 2) :Z N ( µ, σ E [Z] = µ [ Var [Z] = E (Z E [Z]) 2] = = E [ Z 2] E 2 [Z] = = σ 2 Pr [a Z b] = ˆ b a µ x 2πσ 2 e 2 ( σ ) 2 dx 2.4.2 תיאור הבעיה נניח כי (,0) N,µ, σ כלומר µ ו σ הוגרלו מבעוד מועד על ידי מ מ נורמלי סטנדרטי. נתון מ מ (2 Z. N (,µ σ ננסה בעזרת למידה חישובית למצוא את µ ו σ. נניח כי נתונות לנו n דגימות של המ מ.z, z 2,..., z n Z לפי חוק :Bayes Pr [(µ, σ) z, z 2,..., z n ] = Pr [z, z 2,..., z n (µ, σ)] Pr [(µ, σ)] Pr [z, z 2,..., z n ] Pr [z, z 2,..., z n (µ, σ)] = n ( µ z 2πσ 2 e i 2 σ ) 2 Pr [(µ, σ)] = e µ2 /2 e σ2 /2 2π 2π כידוע: כמו כן, נשים לב כי מבחינתנו ] n Pr [z, z 2,..., z הוא קבוע שרק מנרמל את הנוסחה, ולכן נשמיט אותו בחישובים שלנו. 2.4.3 שיטת ML אנחנו מחפשים את ההשערה h, ML שמוגדרת לפי: h ML = arg max Pr [data h] h H 3

פרק 2. Inference 2.4. Bayesian דוגמה: התפלגות נורמלית במקרה שלנו, אנחנו מחפשים את µ ו σ שיביאו למקסימום את (σ L,,µ) שמוגדר על ידי: L (µ, σ) = Pr [z, z 2,..., z n (µ, σ)] = = n ( µ z 2πσ 2 e i 2 σ ) 2 log L (µ, σ) = n ( ) 2 µ 2 zi n log 2π n log σ σ 2 µ log L (µ, σ) = z i µ σ σ = 0 n z i = n µ n log L (µ, σ) = σ σ µ = n n ( ) 2 zi µ n σ σ = 0 n (z i µ) 2 = n σ 2 σ 2 = m z i n (z i µ) 2 נוציא :log נגזור לפי µ: נגזור לפי σ: 2.4.4 שיטת MAP אנחנו מחפשים את ההשערה h, MAP שמוגרת לפי: h MAP = arg max Pr [h D] = h H = arg max h H Pr [D h] Pr [h] Pr [D] הערה מעתה,.D = data במקרה שלנו, אנחנו מחפשים את µ ו σ שיביאו למקסימום את (σ L, MAP,µ) שמוגדר על ידי: L MAP (µ, σ) = n 2πσ 2 e 2 ( z i µ σ ) 2 4 2π e µ2 /2 2π e σ2 /2

Bayesian Inference פרק 2. 2.4. דוגמה: התפלגות נורמלית log L MAP (µ, σ) = נוציא :log n ( ) 2 2 zi µ n µ2 log 2π n log σ σ 2 2 σ2 log 2π 2 n µ log L MAP (µ, σ) = n σ log L MAP (µ, σ) = n z i µ σ 2 µ = 0 (z i µ) 2 σ 3 n σ σ = 0 נגזור לפי µ ו σ : קיבלנו מערכת משוואות על µ ו σ. ננסה לפתור: n ) n z i = µ ( + σ2 n n ) (z i µ) 2 = σ 2 ( + σ2 n 2.4.5 שיטת Posterior Bayes נניח 2 ש ( (η, µ N ו ( (µ, Z N (הנחנו כי =.(σ אזי: Pr [µ] = Pr [z µ] = 2π e 2 (µ η)2 2π e 2 (z µ)2 Pr [µ z] = Pr [z µ] Pr [µ] Pr [z] = ) = α e 2 (µ2 2µη+η 2 ) 2 z 2 2µz+µ2 { = = α exp 2 (2µ 2 2µ (η + z) + η 2 + z 2)} = ( ולפי חוק :Bayes ( = α exp µ η + z ) 2 ( ) η + z 2 2 + η 2 z 2 2 2 }{{} Normalization כאשר α הוא קבוע כלשהו (ניתן לחילוץ מתוך החישוב לעיל). נגדיר כעת: ˆµ = η + z 2 ˆσ 2 = 2 2 זו למעשה האמונה המוקדמת שלנו. 5

Bayesian Inference פרק 2. Learning a Concept Class.2.5 כעת, נוכל להניח כי (2 Z, N,µˆ) σˆ ונוכל להמשיך את התהליך. לחלופין, נניח שהגרלנו 2),µ N ( η, s וש 2).Z N ( µ, σ נוכל להפעיל את התהליך. z = n n על הנתונים z, z 2,..., z n שהוגרלו לפי.Z נסמן: z i כלל ההסקה שלנו יהיה: ˆµ = ˆσ 2 = s η + n 2 σ z 2 s + n 2 σ ( 2 s 2 + n ) σ 2 ˆµ = η + n z + n ˆσ 2 σ 2 = + n נשים לב שעבור ההשערה : σ s: = מבחינה איכותית, µˆ מתקרב יותר ויותר לממוצע, ו σˆ 2 הולך ויורד שזה דבר טבעי ככל שיש יותר נתונים. הערה ראינו כאן שתי אפשרויות: איך עושים את התהליך עבור נקודה אחת, ואיך עושים אותו עבור n נקודות. אולם, אם נעשה n פעמים את התהליך מנקודה לנקודה, נקבל בדיוק את אותה התוצאה שהיינו מקבלים מביצוע התהליך עבור n נקודות ישירות. Learning a Concept Class 2.5 נניח כי H מחלקת השערות, ו H f היא פונקציית המטרה. נניח כי (x),x f היא דוגמה. נשים לב ש { {0, ] = (x) Pr [h עבור h H מסויימת, כי h ידועה לנו מראש, ולכן אנחנו יכולים לבדוק אם = (x) h או = 0 (x).h נסמן: } i,s = { x i, b כאשר } {0, ) i.b i = f (x אזי: { 0 i.b i h (x i ) Pr [S h] = Pr [x, x 2,..., x n ] i.b i = h (x i ) הגדרה נאמר ש H h עקבית אם היא מסווגת את כל הנקודות ב S בצורה נכונה, כלומר. i.b i = h (x i ) נגדיר את H H לפי consistent}.h = {h H h is נסתכל על כל כלל הסקה שיש לנו: יחזיר השערה עקבית כלשהי. יחזיר השערה עקבית עם המשקל הפוסטריורי הגבוה ביותר, כלומר את ההשערה העקבית שהכי האמנו בה. ML MAP 6

פרק.2 Inference.2.6 Bayesian דוגמה: Biased Coins ה support יהיה H ומשקול מחדש. 3 המשקול המחודש יבוצע לפי הנוסחה: B (y) = h (y) Pr [h] Pr [H ] h H Bayes 2.6 דוגמה: Biased Coins נניח כי מטילים מטבע m פעמים, ורואים k הצלחות. רוצים להעריך את ההסתברות p של המטבע. נחשב את p בעזרת :ML ( ) m Pr [(k, m) p] = p k ( p) m k k לאחר חישוב מקבלים כי p. = k m/ איך עושים את זה? מוציאים log ומחלקים ב m, ואז אפשר לגזור. לא נראה כאן את החישוב. 2.6. חוק Laplace נניח התפלגות prior אחידה.(Uniform) כלומר, התפלגות לכל המטבעות האפריות היא אחידה: Pr [(k, m)] = ˆ 0 ˆ 0 ˆ Pr [p θ] = ˆ θ 0 dp = θ נחשב את ההסתברות ל k הצלחות מ m הטלות: Pr [k p] Pr [p] dp = ( ) m = x k ( x) m k dx = 0 k [( ) ] m = xk+ ( x)m k k k + 0 ˆ ( ) m + xk+ 0 k k + ( x)m k (m k) dx = ˆ ( ) m = x k+ ( x) m k+ dx = k + = 0 Pr [k + p] Pr [p] dp = Pr [(k +, m)] ( n k נשים לב שהשתמשנו כאן במעברים בזהות הבאה: ) n k ( ) n k + = k + 3 למשל, אם } 4 H = {h, h 2, h 3, h וכן: i/0 i 4. Pr [h i ] =. נניח כי } 3.H = {h 2, h נצטרך למשקל מחדש את h 2 ו,h 3 כך ש = ] 3.Pr [h 2 ] + Pr [h 7

פרק.2 Inference.2.6 Bayesian דוגמה: Biased Coins נשים לב: Pr [(k, m)] = = ˆ 0 p k ( p) m k dp = ( m k ) m + E [p (k, m)] = = ˆ 0 ˆ 0 p Pr [(k, n) p] Pr [p] dp = Pr [(k, m)] p pk ( p) m k dp = m+ ( m = (m + ) k = (m + ) ( m k m k ) ) = m + m + 2 k + m + = = k + m + 2 ˆ 0 p k+ ( p) m k dp = m + 2 ( m + k + ) = נחשב: למעשה, התיקון של Laplace מוסיף לנו עוד שתי דגימות, כאשר רק באחת מהן יש הצלחה. למה זה יותר טוב? אם יש הרבה הטלות, זה עדיין קרוב למה שהיינו חושבים. אולם אם יש מעט הטלות, אז עדיין יש מקום למקרי הקיצון. 2.6.2 פונקציות Loss למעשה, לא נוכל אף פעם לחזות מה יקרה בהטלת המטבע הבאה. לכן, נכנס לכאן העניין של ההפסד.(Loss) כאשר מדברים על פונקציות,Loss יש לקחת בחשבון שני מרכיבים להפסד:. Risk Bayes זה ההפסד הבלתי נמנע, גם אם אנחנו מכירים את כל הפרטים במערכת. למשל, בבעית המטבע, לא נוכל אף פעם לחזות במדויק מה תהיה תוצאת ההטלה הבאה, אלא רק בהסתברות מסויימת. 2. Regret ההפסד בגלל הערכה לא נכונה של המערכת. תזכורת פונקצית log loss מוגדרת באופן הבא: l log (x) = { log p f (x) = log p f (x) = 0 8

Bayesian Inference פרק 2..2.6 דוגמה: Biased Coins עבור,θ-bias ה loss log הצפוי הוא: l log = θ log p + ( θ) log p כמובן שהערך המינימלי מתקבל עבור p. = θ ואם באמת p, = θ אז נסמן: H (θ) = θ log θ + ( θ) log θ לערך זה נקרא האנטרופיה של θ. זהו ההפסד שנובע מהמערכת עצמה, ולא מכך שאיננו מכירים את המערכת, ולכן זהו ה Risk.Bayes נבדוק כמה אנחנו רחוקים מה Risk Bayes (כלומר מהו ההפסד הנוסף, ה Regret ) כשאנחנו משתמשים בחוק :Laplace נניח כי יש לנו T דגימות בזמן. אזי: = = = = E [log loss] = ˆ T m 0 m= k=0 ( m k T m ( m k m= k=0 T m= k=0 T [ θ log m + 2 k + + ( θ) log m + 2 m k + ) θ k ( θ) m k dθ = m m [ m= k=0 T T m m= k=0 ˆ 0 ( m k ) log m + 2 ˆ k + θ k+ ( θ) m k dθ + 0 ) ˆ m + 2 log m k + θ k ( θ) m k+ dθ = 0 m + k + m + 2 log m + 2 k + + m + m k + log m + 2 ( k + m + H m + ) T H (θ) dθ + O m m= }{{} log T m/2 m H ( ) i m ˆ 0 H (θ) dθ ] ] m + 2 = m k + :T ננסה לחסום את H (θ) dθ 0 m/2 ( ) i m H m m/2 ( ) i m H m m/2 m H ( ) i m = m/2 m [ ( ) ( )] i i H H = m m = m ( 0) = m m 0 9

Bayesian Inference פרק 2. Naïve Bayes.2.7 x x 2... x n C 0 + 0 0.... 0 0 + טבלה 2.: דוגמה למדגם עבור סיווג בייסיאני למרחב בינארי m/2,t שהוא m H ( i m ) T הולך ומתקרב ל כלומר, ככל ש m גדל, כך H (θ) dθ 0 ה Risk.Bayes לכן, הראנו שבאמצעות הפעלת חוק,Laplace קיבלנו את ה loss האופטימלי (ה Bayes T). ) עם תוספת לוגריתמית במספר הטלות המטבע,(Risk Naïve Bayes 2.7 2.7. סיווג בייסיאני: מרחב בינארי נתון המצב הבא: יש לנו שתי מחלקות + ו, וכל דוגמה מתוארת על ידי n מאפיינים, כאשר i (n x i ) הוא משתנה בינארי, שערכו 0 או. דוגמה לקלט כזה ניתן למצוא בטבלה 2.. רוצים לבנות השערה } {+, n.h: {0, } לפי כלל :Bayes Pr [C = + x, x 2,..., x n ] = Pr [x, x 2,..., x n C = +] Pr [C = +] Pr [x, x 2,..., x n ] קל להעריך את [+ = C] Pr מהנתונים. אבל איך נעריך את +] = C Naïve Bayes?Pr [x, x 2,..., x n מבוסס על הנחת אי תלות: Pr [x, x 2,..., x n C = +] = n Pr [x i C = +] כל מאפיין x i הוא ב ת באחרים ברגע שאנחנו יודעים את הערך של C. לכן, לכל i n, יש לנו שני מאפיינים: θ i,+ = Pr [x i = C = +] θ i, = Pr [x i = C = ] קיבלנו כאן 2n פרמטרים בלתי תלויים (ב ת). תזכורת.Pr [X λ] E[X] λ אי שוויון :Markov אם 0 X מ מ, אזי,Pr [X λ] E[X2 ] λ אי שוויון :Cheviechev אם 0 X מ מ, אזי 2.Pr [ X E [X] λ] Var[X] λ 2 אי שוויון :Cherno אם X, X 2,..., X m מ מ ב ת כך ש p, i.e [X i ] = אזי.Pr [ m m X i p λ ] e 2λ2 m 20

פרק.2 Inference Naïve Bayes.2.7 Bayesian 2.7.2 פענוח של Naïve Bayes לפי Bayes ו MAP, אנחנו צריכים להעריך את ] n Pr [C = + x, x 2,..., x לעומת.Pr [C = x, x 2,..., x n ] קל לעשות זאת בעזרת log וחלוקה (והשוואה ל 0 ): log Pr [C = + x, x 2,..., x n ] Pr [C = x, x 2,..., x n ] = = log Pr [x, x 2,..., x n C = +] Pr [C = +] Pr [x, x 2,..., x n C = ] Pr [C = ] = = log Pr [C = +] n Pr [C = ] + log Pr [x i C = +] Pr [x i C = ] = Pr [C = +] n = log Pr [C = ] + log Pr [x i C = +] Pr [x i C = ] log Pr [C = + x, x 2,..., x n ] Pr [C = +] = log Pr [C = x, x 2,..., x n ] Pr [C = ] + n לכן, הסקנו כי log Pr [x i C = +] Pr [x i C = ] כלומר, כל x i משפיע על החיזוי: אם ] = C,Pr [x i C = +] = Pr [x i אז ל x i אין השפעה על החיזוי. אם = 0 ] = C,Pr [x i אז x i משפיע על שאר הקולות (דומה להטלת וטו). באופן דומה, אם = 0 +] = C.Pr [x i w i = log Pr [x i = C = +] Pr [x i = C = ] log Pr [x i = 0 C = +] Pr [x i = 0 C = ] Pr [C = +] n b = log Pr [C = ] + log Pr [x i = 0 C = +] Pr [x i = 0 C = ].sign (b + n כלל ההחלטה שלנו יהיה ) i x iw נסמן: 2.7.3 התפלגות נורמלית השלב הבא ב Bayes Naïve אומר ש (. 4 Pr [x i C] N (µ i,c, σ i נעשה את אותו החישוב: log Pr [C = + x, x 2,..., x n ] Pr [C = x, x 2,..., x n ] = Pr [C = +] n = log Pr [C = ] + log Pr [x i C = +] Pr [x i C = ] 4 חשוב לשים לב ש µ i,c תלוי ב C, ואילו σ i אינו תלוי ב C. 2

Bayesian Inference פרק 2. Naïve Bayes.2.7 log Pr [x i C = +] Pr [x i C = ] ( = log e 2 µi,+ ) x i 2 σ i ( e 2 µi, x i σ i ) 2 = = ( 2 µi,+ x i = σ i ) 2 + 2 ( ) 2 µi, x i = 2 σ 2 (µ i,+ + µ i, 2x i ) (µ i, µ i,+ ) = = 2 µi, µ i,+ σ i σ i µ i,++µ i, 2 x i σ i 22

פרק 3 מודל ה PAC 3. מודל ה PAC ראשי התיבות PAC פירושן.Probably Approximately Correct המטרה של המודל היא למצוא השערה h, שבהסתברות גבוהה (Probably) היא מדוייקת.(Approximately Correct) מבנה השיעור:. דוגמה ללימוד.PAC 2. מודל פורמלי ומחלקת השערות סופית..3 Razor Occam ודוגמאות. 3.2 דוגמה אינטואיטיבית נניח כי בן אדם טיפוסי מקיים את החיתוך של שתי התכונות הבאות: 60 Weight 90.60 Height.90 אזי R היא מחלקת בני האדם. נשים לב לכך ש R הוא מלבן על המישור. אנחנו נמצא מחלקה R שהיא קירוב של R. במודל PAC אין הנחה על התפלגות הדוגמאות. ההנחה היחידה שלנו היא שקיימת התפלגות, והיא נדגמת באופן.i.i.d נתאר את הבעיה: קלט: אוסף S של דוגמאות מסווגות. פלט: R (מלבן). מטרה: משקל קטן עבור ) (R R D (חיסור סימטרי). שיעור שהתקיים בתאריך 04..202. 23

3.2. דוגמה אינטואיטיבית פרק 3. מודל ה PAC R R = (R \ R ) }{{} (R \ R) }{{} False-Positive False-Negative 3.2. מציאת השערה טובה על השגיאה ניתן להסתכל באופן הבא: המטרה שלנו היא למצוא השערה R, כך שבהסתברות δ : Pr [error] = D (R R ) ε כאשר R היא פונקציית המטרה. 3.2.2 אופן הלימוד אם נסתכל על המישור, יש שתי בחירות אינטואיטיביות: R min המלבן החוסם הקטן ביותר. R max המלבן החוסם הגדול ביותר. איך נחשב את R min (לדוגמה) בהינתן קבוצת דגימות } m?s = { (x, y ), b,, (x m, y m ), b נסמן: m x = x = M x m y = y = M y נעבור על i. (x i, y i ), b אם + = i :b אם,m x > x i אז נגדיר.m x = x i אם,M x < x i אז נגדיר.M x = x i אם,m y > y i אז נגדיר.m y = y i אם,M y < y i אז נגדיר.M y = y i כעת, } y.r min = {(x, y) m x x M x m y y M נשים לב שזהו אלגוריתם יעיל (פולינומיאלי) ב m, מספר הדגימות שלנו. 3.2.3 מספר הדגימות ננתח את הבעיה באופן פורמלי. נתונים לנו: ε דיוק. δ ביטחון. אנחנו מחפשים אלגוריתם A, כך שעבור מדגם בגודל (δ A m,,ε) מחזיר מלבן R, כך שבהסתברות δ : Pr [error] ε 24

פרק 3. מודל ה PAC 3.2. דוגמה אינטואיטיבית ננתח את (δ m,ε) עבור האלגוריתם A שמחזיר את R. min נשים לב ש R R, min ולכן: Pr [error] = D (R R min ) = D (R \ R min ) לכן, נשים לב שהשגיאה האפשרית שלנו נמצאת כולה ב R. נחלק את השגיאה שלנו לארבעה מלבנים: T (החלק שמעל T 2 R), min (החלק שמשמאל ל T 3,(R min (החלק שמתחת ל (R min ו 4 T (החלק שמימין ל.(R min אזי: R R min = D (R R min ) 4 T i 4 D (T i ) לכן, אם נראה כי /4 ε, i.d (T i ) אז סיימנו, כי: D (R R min ) 4 ε/4 = ε הבעיה הקונספטואלית שלנו במצב הזה היא שהגדרנו את i T רק אחרי שכבר ראינו את המדגם ובנינו את R. min החוכמה היא להגדיר מאורעות שאינם תלויים במדגם. רק אז נוכל לחשב מה המשקל שלהם. נשים לב לכך שמכיוון שבהכרח R, min R כל השגיאה תהיה תמיד ב R. \ R min לכן, נחפש T, T 2, T 3, T 4 באופן הבא: R. הצמוד לדופן העליונה של R הוא תת מלבן של T R. הצמוד לדופן השמאלית של R הוא תת מלבן של T 2 R. הצמוד לדופן התחתונה של R הוא תת מלבן של T 3 R. הצמוד לדופן הימנית של R הוא תת מלבן של T 4 לכל 4 i מתקיים /4 ε.d (T i ) = =i T} i } 4 אינה תלוייה במדגם. נרצה לחשב את ההסתברות נשים לב לכך שהבחירה של ש i.t i T כלומר, שבהסתברות. i.t i T i, δ נסתכל על :T מתי?T T אם קיימת ב S דוגמה +, y) (x, כך ש,(x, y) T אזי.T T לפי הבנייה: Pr [(x, y) / T ] = ε 4 מכיוון שהדגימות של S הן,i.i.d נסיק כי: ( Pr [ (x i, y i ) S. (x i, y i ) / T ] = ε ) m 4 25

3.3. הצגה פורמלית של מודל ה PAC פרק 3. מודל ה PAC i=2.{t i } 4 לכן: את אותם החישובים ניתן לעשות גם עבור Pr [error] = Pr [ i. (x, y) S. (x, y) / T i ] 4 Pr [ (x, y) S. (x, y) / T i ] 4 ( ε 4) m 4e ε 4 m < δ המעבר האחרון באי השוויון בוצע לפי הזהות x e x. לסיום, נסיק כי: m > 4 ε ln 4 δ 3.3 הצגה פורמלית של מודל ה PAC 3.3. הקדמה המטרה שלנו היא ללמוד השערה מתוך קבוצה ידועה מראש של השערות. הסביבה סטוכסטית. הדגימות נדגמות מהתפלגות.i.i.d ההתפלגות על הלמידה (train) זהה להתפלגות על הבדיקה.(test) הפתרון צריך להיות יעיל: גודל המדגם ביחס לזמן החישוב צריך להיות פולינומיאלי ב ε ו.ln δ 3.3.2 הגדרת מודל ה PAC יהי X מרחב הדוגמאות, ותהי D התפלגות מעל.X נאמר כי }} {0, X C {c c : היא מחלקת פונקציות המטרה. תהי c t C פונקציית המטרה שלנו. תהי H C מחלקת ההשערות שלנו. תהי h H השערה שנלמדה. נגדיר את השגיאה של ההשערה h: error (h) = Pr D [h (x) c t (x)] = D (h c t ) כמו כן, נגדיר את (D EX c) t, להיות אורקל,(Oracle) המחזיר דגימה x X שנדגמה לפי D וסיווג (x). x, c t (x) :c t הגדרה נאמר כי C נלמדת PAC על ידי H אם קיים אלגוריתם A כך שלכל פונקציית מטרה c, t C לכל התפלגות D מעל המרחב X, ולכל פרמטרים > 0 δ,ε, אם נותנים ל A גישה ל ( D,EX (c t, אזי בהסתברות A, δ יחזיר השערה h H כך ש: error (h) ε אם,(realizable) c t H אזי: 26

פרק 3. מודל ה PAC 3.4. מחלקות השערות סופיות error (h) ε + min error (h) h H אם,(non-realizable) c t / H אזי: n כאשר ו l, וגם ב n,ln δ, ε נאמר כי C נלמדת ביעילות אם A רץ בזמן פולינומיאלי ב הוא גודל הדוגמה (בביטים) ו l הוא גודל פונקציית המטרה c t (גם כן בביטים). 3.4 מחלקות השערות סופיות נדון במקרה בו H סופית. 3.4. המקרה c t H הגדרה נאמר כי השערה h H עקבית אם (x). x S.h (x) = c t במקרה שלנו, מובטח לנו שקיימת h עקבית. נניח כי קיימת h H עקבית כך ש ε.error (h) > אזי h נקראת מאורע רע. Pr [ i.h (x i ) = c t (x i ) error (h) > ε] ( ε) m e εm Pr [A returns h error (h) > ε] Pr [ h H.error (h) > ε i.h (x i ) = c t (x i )] H e εm δ H e εm δ e εm δ H εm ln δ H m ε ln H δ נחלץ את m: h = arg min error (h) h H :h error (h) error (h ) > 0 3.4.2 המקרה c t / H נסמן: אזי, לכל H 27

פרק 3. מודל ה PAC 3.4. מחלקות השערות סופיות β = error (h ) נסמן: error (h) β + ε המטרה שלנו תהיה: êrror (h) = m m I (h (x i ) c t (x i )) נגדיר: הבחירה הטבעית שלנו תהיה: h = arg min êrror (h) h H בחירה זו נקראת גם. 2 ERM נבחר מדגם מספיק גדול בגודל m כך שבהסתברות δ מתקיים: h H. êrror (h) error (h) ε 2 error ( h) êrror ( h) + ε 2 êrror (h ) + ε 2 error (h ) + ε 2 + ε 2 = β + ε כעת, נקבל כי: Pr [ êrror (h) error (h) ] ε /2 e 2(ε /2) 2m ( ε 2 2 ) 2 m ln δ 2 H לסיום, בהינתן :h H 2e 2(ε /2) 2m H δ δ 2 H m 8 2 H ln ε2 δ הערה למה במקרה הראשון,(realizable) m מתנהג ביחס הפוך ל ε, ואילו במקרה השני,(non-realizable) m מתנהג ביחס הפוך ל ε? 2 ההבדל הוא שבמקרה הראשון, דגימה אחת מספיקה כדי לפסול השערה. לעומת זאת, במקרה השני, גם אם h אינה עקבית, היא עלולה להיות ההשערה הטובה ביותר. 2 ראשי תיבות של.Empirical Risk Management 28

פרק 3. מודל ה PAC 3.4. מחלקות השערות סופיות אלגוריתם.3 אלגוריתם ELIM ללמידת Boolean Disjunctions בהינתן דגימה בגודל m, מתחילים עם L. לכל דגימה שלילית,x, מוציאים את כל הליטרלים החיוביים. כעת, כל הדוגמאות השליליות מסווגות נכון. גם כל הדוגמאות החיוביות מסווגות נכון, כי.c t L nal 3.4.3 דוגמה למידת Boolean Disjunctions נתונים n משתנים בולאנים n,x,..., x וקבוצת ליטרלים: L = {x, x,..., x n, x n } נגדיר disjunction על ידי ביטוי OR של ליטרלים. למשל:.x x 3 x 5 נגדיר את C = H להיות מחלקת ה disjunctions. אזי: C = H = 3 n (כי כל משתנה בולאני יכול להופיע בשני ליטרלים או לא להופיע, ששקול להופעת שני הליטרלים המתאימים). X =,0} { n ופונקציית המטרה שלנו היא: c t = j S l j L נשים לב לעובדה שבהינתן דגימה שלילית,x, ניתן לפסול את כל הליטרלים החיוביים שלה. למשל, 00, אומר לנו כי x, x 2, x 3 / c t. זה הרעיון שעומד בבסיסו של האלגוריתם ELIM (אלגוריתם.3). לפי חישוב קודם: m ε ln H δ = n ln 3 ε l j + ε ln δ 3.4.4 דוגמה למידת Pairity במקרה הזה: X = {0, } n c t = x j j S למשל,.c t = x x 3 x 5 אזי. C = 2 n אפשר להסתכל על הבעיה כאל בעיית פתרון מערכת משוואות. נגדיר את z i כך ש = i z פירושו i. S אזי נוכל להסיק מערכת משוואות בצורה פשוטה. למשל, מ +,00 נסיק את המשוואה = 3,z 2 + z ומ, נסיק את המשוואה = 0 4 z + z 2 + z 3 + z (כמובן שהמשוואות הן מעל Z). 2 קיבלנו מערכת משוואות אותה צריך לפתור. נסיק כי: m H ln = ε δ ε ln 2n δ = n ln 2 + ε ε ln δ 29

פרק.3 מודל ה PAC Occam Razor.3.5 Enteties should not be multiplied unnecessarily Occam Razor 3.5 (מתוך דבריו של William Occam בשנת 320). המשמעות שלנו למשפט שלו היא שניתן ל H לגדול יחד עם גודל המדגם m. הגדרה (β,α) הוא אלגוריתם Occam ללימוד מחלקה C על ידי מחלקה H אם 0 α ו < β 0, ובהינתן דגימה בגודל m, האלגוריתם מוציא השערה h H כך ש h עקבית, וגודל h חסור על ידי n α m β (כאשר n הוא גודל דוגמה בודדת בביטים). 3.5. אלגוריתמי Occam ומודל ה PAC משפט כאשר: יהי A אלגוריתם Occam עבור C המשתמש ב H. אזי A הוא אלגוריתם,PAC ( ) n α m ε ln 2 β 2 + ε ln δ הוכחה נקבע את m ו n. אזי A מחזיר השערה h עם לכל היותר n α m β ביטים. לכן,. H 2 nα m β מספר ההשערות האפשריות חסום על ידי לכן: m H ln nα m β ln 2 + ε δ ε ε ln δ { 2n α m β ln 2 m max, 2 ε ε ln } δ m 2nα m β ln 2 ε ( 2n α m ε ln 2 ) β מש ל. 3.5.2 דוגמה למידת OR של k משתנים המטרה: להוריד את גודל המדגם מ ( n ) O ל ( n O. k) log לצורך הדוגמה, ניזכר בבעיית :Set-Cover הקלט הוא,S,..., S t U ואנחנו מחפשים,S i,..., S il U כך ש: j S ij = U נשתמש באלגוריתם החמדן לפתרון Set-Cover (אלגוריתם 2.3). ננתח אותו: נניח שיש כיסוי בגודל k. אזי: j. t S opt. U j S t U j k 30

פרק 3. מודל ה PAC Occam Razor.3.5 אלגוריתם 2.3 האלגוריתם החמדן ל Set-Cover U 0 U,j 0,S..2 כל עוד j :U (א) בחר } j S i = arg max Sr { S i U (ב) {i} S S (ג) U j+ U j \ S i (ד) + j j.3 החזר S U j+ U j U ( j k = ) U j k ( = ) j+ U 0 k לכן: עבור U + k ln איטרציות, כיסינו את כל האיברים. כדי ללמוד,OR נריץ ELIM (אלגוריתם.3). נבצע רדוקציה ל Set-Cover : U = {x x, + S} S li = {x U l i x} (כל הדגימות החיוביות) נריץ את האלגוריתם החמדן ל Set-Cover (אלגוריתם 2.3), ונקבל + k ln m. גודל הקידוד: ( + k ln m) log (2n) = O (l ln m ln n) m > k ε ln m ln n + ε ln δ m > c k ε ln2 n + ε ln δ או בהצגה קצת שונה: 3

פרק 4 מודל Online נחשוב על הדוגמה הבאה: רובוט מסווג תפוזים לאיכות טובה או לא טובה. לאחר כל סיווג הוא מקבל משוב ממומחה. הרובוט יכול לעדכן את הפונקציה שלו, ואז לעבור לתפוז הבא. תיאור המודל הכללי שלנו:. האלגוריתם מקבל דגימה x. 2. האלגוריתם נותן תחזית לסיווג של b (x) x (מכונה השערה נוכחית, או current.(hypothesis 3. האלגוריתם מקבל את הסיווג הנכון (x) c (זוהי פונקציית המטרה). 4. האלגוריתם ממשיך לדגימה הבאה. נתבונן במודל Adverserial כלומר, סדרת הקלט הגרועה ביותר שתיתן לנו את מספר השגיאות (x) c (x) b המקסימלי. 4. למידה של מפריד לינארי יש אוסף של נקודות חיוביות ואוסף של נקודות שליליות ב R n (או { n,0} 2 ). אנחנו רוצים למצוא וקטור w וחסם w 0 כך ש w x = w 0 (על מישור). האלגוריתם שלנו יהיה > 0 x w גורר סיווג חיובי, < 0 x w גורר סיווג שלילי. בלי הגבלת הכלליות, = 0 0 w (נוכל תמיד להוןסיף קואורדינטה שתמיד תהיה ). 4.. אלגוריתם Perceptron הרעיון המרכזי העומד בבסיס האלגוריתם הוא שאם אין שגיאה, אין צורך לעדכן את ההשערה הנוכחית שלנו, ואם יש שגיאה, אז נעדכן את ההשערה הנוכחית בכיוון השגיאה. הנחת יסוד שלנו באלגוריתם תהיה ש = t x, כלומר שכל הקלטים יהיו וקטור יחידה. אלגוריתם.4 מתאר את מהלך האלגוריתם.Perceptron משפט תהי S סדרת דוגמאות מסווגות שעקבית עם מפריד לינארי w w ). = ( אזי מספר השגיאות n של אלגוריתם Perceptron על הסדרה S חסום על ידי γ/ 2, כאשר: w x γ = min x S x שיעור שהתקיים בתאריך..202. מבוסס על סיכומיו של אולג. 2 לרוב זה לא ישפיע על האלגוריתם. 32

פרק 4. מודל 4.. Online למידה של מפריד לינארי אלגוריתם.4 אלגוריתם Perceptron. נתחיל עם 0 = w ו =.t.2 בהינתן x t נסווג + אם ורק אם > 0 t.w t x.3 אם שגינו, נשים,w t+ w t + l (x t ) x t כאשר ) t l (x הוא ה label : { + x t is positive l (x t ) = x t is negative.4 נמשיך ל +.t γ מכונה המפריד או ה margin. כאשר x מנורמל, זהו המרחק המינימלי מהעל מישור. הוכחה נתבונן בשני המדדים w w t ו w. t נניח כי בכל צעד האלגוריתם מבצע שגיאה (שאר המהלכים אינם רלוונטיים). טענת עזר w t+ w w t w + γ הוכחה נניח כי x דגימה חיובית (ויש עליה שגיאה). אזי: w t+ w = (w t + x) w = w t w + x } {{ w } >0 w t w + γ כאשר המעבר האחרון נובע מהגדרת γ. עבור x שלילי נקבל הוכחה דומה. טענת עזר 2 w t+ 2 w t 2 + הוכחה שוב נניח ש x דגימה חיובית. אזי: w t+ 2 = w t + x 2 = w t 2 + x 2 + 2x w }{{} t <0 w t 2 + x 2 = wt 2 + נשים לב כי < 0 t 2x w כי הייתה שגיאה. 33

פרק 4. מודל Online 4.. למידה של מפריד לינארי לאחר M שגיאות: w M+ w γ M w M+ 2 M לכן: γ M w M+ w w M+ = w M+ M M γ 2 w M+ w m+ וסיימנו. מה קורה אם אין מפריד מושלם? נסמן: TD γ המרחק שצריך להזיז את הנקודות כדי לקבל מפריד של γ. טענת עזר תהפוך ל: w t+ w w t w + γ D γ,t כאשר D γ,t הוא המרחק שצריך להזיז את x t כדי לקבל את המפריד γ. לכן: w M+ w γ M TD γ M γ M TDγ טענת עזר 2 תישאר נכונה, ואז נקבל: M γ 2 + 2 γ TD γ חסם לפתרון: 4..2 אלגוריתם Margin Perceptron אלגוריתם 2.4 מתאר את מהלך האלגוריתם. w.γ = min x משפט לכל סדרת נקודות S עקביות עם מפריד w ( w = ) ו x x S אז מספר השגיאות חסום על ידי. 2 γ 2 הערה גדול יותר. הייתרון ב Perceptron Margin הוא שמקביל מפריד יותר טוב עם margin 34

פרק 4. מודל Online.4.2 מודל Margin Bound אלגוריתם 2.4 אלגוריתם Margin Perceptron. נגדיר:.w = l (x ) x 2. נחזיר את התחזית שלנו: γ 2 wt x אז נאמר חיובי. w t (א) אם γ 2 wt x אז נאמר שלילי. w t (ב) אם (ג) אחרת נאמר שגיאה mistake).(margin 3. אם התחזית שלנו שגתה, נעדכן: w t+ w t + l (x t ) x t t t + w t+ w w t w + γ טענת עזר הוכחה w t+ w = (w t + l (x t ) x t ) w = w t w + l (x t ) x t w w t w + γ w t+ w t + 2 w t + γ 2 טענת עזר 2 4.2 מודל Margin Bound נניח כי c C פונקציית המטרה. בשלב t:. האלגוריתם מקבל.x t.2 האלגוריתם בוחר סיווג ) t.b t = h t (x.3 האלגוריתם רואה את הסיווג הנכון ) t.c (x הגדרה למחלקה C יש אלגוריתם A עם חסם שגיאה M אם לכל c C ולכל סדר דוגמאות S מספר השגיאות הוא לכל היותר M. כמו כן, נניח כי C סופית. 35

פרק 4. מודל Online 4.3. הקשר בין Mistake Bound ומודל ה PAC 4.2. האלגוריתם (CON) Consistent h t ונחזיר C t נבחר C t להיות מחלקת כל ההשערות העקביות. בשלב t נגדיר את.b t = h t (x t ) אזי:.C t+ C t אם יש שגיאה בזמן t אז.C t+ C t לכן, C.M 4.2.2 אלגוריתם חציה (HAL) כמו קודם, נגדיר את C t להיות מחלקת כל ההשערות העקביות בזמן t. כמו כן, נגדיר: one = {c C t c (x t ) = } zero = {c C t c (x t ) = 0} התחזית תהיה אם ורק אם zero. one > גם כאן: C t+ C t 2.C t+ C t אם יש שגיאה בשלב t, אז: לכן נסיק כי C.M log 2 4.3 הקשר בין Mistake Bound ומודל ה PAC בהינתן אלגוריתם שמרני A עם חסם שגיאה M, אפשר להגדיר אלגוריתם PAC לאותה הבעיה, A. PAC אלגוריתם 3.4 מציג כיצד ניתן לעשות זאת. משפט A PAC לומר PAC את.C הוכחה בכל בלוק שלא עצרנו, ביצענו שגיאה אחת לפחות. כמו כן, A מבצע לכל היותר M שגיאות. לכן, אם הגענו ל M שגיאות, ההשערה של A מושלמת. אחרת, בבלוק האחרון ראינו ε ln M δ דגימות, ואת כולן סיווגנו נכון. נניח של h i יש שגיאה גדולה או שווה ל ε. אזי: Pr [ j.h i (x j ) = c (x j )] ( ε) /ε ln M /δ δ M כלומר, ההסתברות ש A PAC יוציא השערה רעה (עם שגיאה גדולה או שווה ל ε ) היא δ.m M = δ 36

פרק 4. מודל 4.4. Online למידה של OR אלגוריתם 3.4 מציאת אלגוריתם PAC מ Bound Mistake.M ε ln M δ. ניקח מדגם בגודל 2. נחלק ל M קבוצות שוות. 3. נריץ את A על הקבוצה ה i. (א) אם לא ביצע שגיאה, נחזיר את ההשערה הנוכחית. (ב) אם ביצע שגיאה, נמשיך לקבוצה ה + i. 4. אם סיימנו את M הקבוצות, נחזיר את ההשערה הנוכחית. אם הגענו לשלב זה, סימן ש A ביצע M שגיאות. מכיוון שזהו חסם השגיאה, נקבל השערה מושלמת. אלגוריתם 4.4 אלגוריתם Online ללמידה של OR. אתחול: }..., 2.L = {x, x, x 2, x.2 בזמן :t (א) מקבלים דגימה.z = z z 2 z n (ב) נותנים תחזית לפי (z) h. L (ג) אם הייתה שגיאה:.S z = {l i l i is positive in z} נגדיר.i.L L \ S z נשים.ii 4.4 למידה של OR היה לנו אלגוריתם אלימינציה. 3 אלגוריתם 4.4 הוא גרסת Online שלו. משפט מספר השגיאות יהיה לכל היותר + n שגיאות (כאשר L התחלתי הוא בגודל.(2n הוכחה בשגיאה הרשונה, נפסול בדיוק n ליטרלים. כל שגיאה נוספת פוסלת לפחות ליטרל אחד נוסף. 4.5 אלגוריתם Winnow אלגוריתם 5.4 מתאר את אלגוריתם Winnow לחישוב מפריד לינארי. פה אנחנו פותרים את OR על ידי מפריד לינארי במרחב { n,0}. משפט שגיאות. אלגוריתם Winnow לומד OR של r משתנים חיוביים עם לכל היותר (n O r) log 3 ראה אלגוריתם.3. 37

פרק 4. מודל Online.4.5 אלגוריתם Winnow אלגוריתם 5.4 אלגוריתם Winnow. נאתחל ),..., (, = w 0 = n,w (בניגוד ל 0 שהיה קודם). 2. בהינתן נקודה x, נסווג אותה כחיובית אם ורק אם w. t x n. i.x i = : w t+ i. i.x i = : x t+ i 3. אם הייתה שגיאה: (א) אם = 0 (x) h ו = (x),c אז 2w t i wt i (ב) אם = (x) h ו 0 = (x),c אז 2 הוכחה נסמן:{ S = {x i,..., x ir כך ש.c (x) = x i x ir נסמן: = r w } ir.{w i,..., w נגדיר: (t) w i המשקל של x i בזמן.t נסמן: TW (t) = n w i (t) אם יש שגיאה על דגימה חיובית (כלומר = (x) c), אזי: i j S.w ij (t + ) = 2w ij (t) i j S.w ij (t + ) = w ij (t) אם יש שגיאה על דגימה שלילית, אזי: לכן, לכל w ij (t),i j S היא פונקציה מונוטונית עולה. כמו כן, לכל w ij,i j S לא יכול לגדול יותר מ n + log פעמים (כי אם הוא גדל כמות כזאת של פעמים, כבר לא נטעה אם i j מופיע ב x ). לכן: M t r ( + log n) אם = 0 (x) h ו = (x) :c n TW (t + ) = TW (t) + x i w i (t) TW (t) + n TW (t + ) = TW (t) 2 TW (t) n 2 אם = (x) h ו 0 = (x) :c n x i w i (t) 38

פרק 4. מודל Online.4.5 אלגוריתם Winnow נשים לב כי > 0 (t).tw ואז: 0 < TW (t) TW (0) + n M + n 2 M M 2M + + 2 n TW (0) = 2M + + 2 }{{} n לכן נסיק כי: M = M + M + 3r ( + log n) + 2 וסיימנו. 39

פרק 5 Regret Minimization 5. מבוא לפי מודל,Online בזמן t:. מקבלים.x t.2 נותנים תחזית.b t.3 רואים את ) t.c (x ראינו את אלגוריתם החציה :(HAL) אם c, H אזי HAL יעשה לכל היותר ( H O (log טעויות. אם c, / H נרצה לחזות כמו ההשערה הטובה ביותר ב H. 5.. המודל האלגוריתמי המודל האלגוריתמי שלנו יהיה כזה: לכל h, H נשמור w, h כך ש = h h H w ו 0 h h. H.w התחזית תהיה ממוצע משוקלל. נסמן ב h lt את ההפסד של ההשערה h בזמן t. אזי [,0] h l, t ותוחלת ההפסד בזמן t היא: l t h wh t h H L T h = L T best t T l t h = min h H LT h External Regret 5..2 נניח כי: שיעור שהתקיים בתאריך 8..202. 40

Regret Minimization פרק 5. 5.2. אלגוריתמים אלגוריתם Deterministic Greedy.5. עבור = t נבחר h (שרירותי)..2 עבור > t נבחר: h t = arg min h H Lt h.l T A LT best המטרה שלנו L T A = t T h H אזי ההפסד של האלגוריתם A יהיה: l t h wh t היעד שלנו יהיה למצוא אלגוריתם שיקיים את Regret היא שה Regret יהיה ) T) o. 5.2 אלגוריתמים 5.2. אלגוריתם (G) Deterministic Greedy אלגוריתם.5 מתאר את מהלך אלגוריתם.Deterministic Greedy L T G H L T best + H משפט הוכחה נגדיר את B k להיות אוסף הזמנים בהם L. t best = k L. t0 כל שגיאה תוריד בצעד הראשון, ב k B יש לכל היותר H השערות עבורן best = k את מספר ההשערות עם L h = k בלפחות אחד. אחרי לכל היותר H שגיאות, L best יגדל ל + k. לכן: L T G H L T best + H וסיימנו. משפט לכל אלגוריתם דטרמיניסטי D יש סדרת הפסדים עבורה: L T D H L T best + (T mod H ),l t h ולכל הוכחה נבחר סדרת הפסדים כך שבזמן D t, בוחר את h t ומתקיים = t.l t h h ht מתקיים = 0 מבניית הסדרה, L T D = T 4

פרק.5 Minimization.5.2 Regret אלגוריתמים אלגוריתם Randomized Greedy 2.5 בזמן t, נסמן: { } H t = h H L t h = L t best p t h = { H t h H t 0 otherwise נגדיר התפלגות מעל H באמצעות: האלגוריתם יבחר h H לפי ההתפלגות שהגדרנו. L T h = T h H h H.L T h T H כמו כן: לכן: וסיימנו. 5.2.2 אלגוריתם (GR) Randomized Greedy אלגוריתם 2.5 מתאר את מהלך אלגוריתם.Randomized Greedy L T RG (ln H + ) L T best + ln H משפט בתוחלת: הוכחה נגדיר את B k כמו קודם. היריב יעדיף לבצע שגיאה אחת בכל צעד..(m = H אם (כאשר t r m נניח שהוא עושה r שגיאות בבת אחת. אז ההפסד יהיה הוא יעשה שגיאה אחת בכל פעם, נקבל: m + m + + m r + r m < m + m + + m r + נשים לב כי: [ ] E L B k RG = m + m + + m r + = H i ln H + 42

פרק.5 Minimization.5.2 Regret אלגוריתמים אלגוריתם Randomized Weighted Majority 3.5 נגדיר את המשקל שדל h H בזמן t להיות: w t h = ( η) Lt h נשים לב שאפשר לחשוב על הגדרה זו גם כעל הגדרה רקורסיבית: { w t+ wh t l t h h = = 0 wh t ( η) lt h = (כאשר = h.(w 0 נהפוך את המשקולות להסתברות: נגדיר: W t = h H w t h p t h = wt h W t נגדיר גם: האלגוריתם יבחר השערה h H לפי ההתפלגות שהגדרנו. L T RG (ln H + ) L T best + ln H לכן: וסיימנו. 5.2.3 אלגוריתם (RWM) Randomized Weighted Majority אלגוריתם 3.5 מתאר את אלגוריתם.Randomized Weighted Majority L T RWM ( + η) L T best + log H η L T RWM L T best + 2 T log H משפט עבור /2] (0, :η { } :η min 2, log H T כמו כן, עבור הוכחה נסמן ב F t את ההסתברות לשגיאה של :RWM F t = W t h H l t h = w t h = h H l t h = p t h 43

פרק.5 Minimization.5.2 Regret אלגוריתמים W t+ = h H = = w t+ h h H h = 0 l t+ h H l t+ h = 0 = h H w t h η w t+ h + w t h + h H h = wh t ( η) l t+ h H l t+ h = h H l t+ h = = W t η F t W t = W t ( η F t) t = W ( η F τ ) = H τ= t ( η F τ ) τ= h H.W T + w T + h w t h w t+ h ( η) LT best אזי: לכן: T ( ( η) LT best H η F t ) t= T L T best ln ( η) ln H + ln ( η F t) t= לכן: לכן: נשתמש בזהות : z z 2 ln ( z) z L T ( best η 2 ) T ( ln H + η F t ) t= לכן: T η F t ( η + η 2) L T best + ln H t= 44

פרק 5. Minimization 5.3. Regret חסמים תחתונים לאלגוריתמי Online ממושקלים L T RWM ( + η) L T best + log H η לכן: { } ln H η = min 2, T אם נבחר: אזי,L T best T ואז: L T RWM L T best + η T + ln H η וסיימנו. 5.3 חסמים תחתונים לאלגוריתמי Online ממושקלים אחרי שהראנו חסמים עליונים ל Regret,External עלינו לבדוק כמה טוב יכול להיות אלגוריתם Online ממושקל. נבדוק את זה עבור שני מקרים. 5.3. טווח קצר H T = log 2 נבחר הפסדים כך ש: h H. t T. Pr [ l t h = 0 ] = 2 = Pr [ l t h = ].L T h נראה שבהסתברות גבוהה קיים h H כך ש 0 = ואכן: h H. Pr [ L T h = 0 ] = ( ) T = 2 H לכן: Pr [ L T h 0 ] = H Pr [ h H.L T h 0 ] = ( H ) H e H לכן: לכן: Pr [ h H.L T h = 0 ] e H 45

Regret Minimization פרק 5. Multi-Arm Bandit.5.4 נעבור לכתיב תוחלות: [ ] E L T best T e H = 2 log H e H E [ ] L ON = 2 T = log H 4 E [Regret] E [ ] [ ] L ON E L T best 4 log H 2 log H e H log H 4 5.3.2 כתלות בזמן 2 = H נניח כי } 2.H = {h, h כמו כן, נניח כי סדרת ההפסדים היא ) (0, בהסתברות, /2 ו ( 0 (, בהסתברות. /2 אזי, אם האלגוריתם ON מחליט להחזיר h בהסתברות p ו h 2 בהסתברות p : E [ ] l t ON = p + ( p) 2 2 = 2 [ ] E L T ON = 2 T לכן: [ ] E L T best = E [ min { L T h, L T }] h 2 [ ] T L T = E 2 h L T h 2 2 = T 2 2 E [ L T h L T ] h 2 ( ) = Ω T ואז: E [Regret] c T לכן: Multi-Arm Bandit 5.4 המודל שלנו יהיה מעט שונה. בזמן t, כאשר מבצעים פעולה a, A מקבלים l t a (ולא את.(a b אם l t b מודל סטוכסטי: נניח כי לכל פעולה יש מ מ,X a כך ש.E [l t a] = E [X a ] = µ a המטרה שלנו היא לבחור את a A כך ש a l t הכי נמוך. 46

פרק.5 Minimization Multi-Arm Bandit.5.4 Regret O פעמים. ( ε אלגוריתם Test & Play 4.5 ) A ln δ. שלב ה Test : נדגום כל פעולה a A סדר גודל של 2. לכל פעולה a A נגדיר את ממוצע ההפסד µˆ. a â = arg min a A ˆµ a 3. שלב ה Play : נבחר: בשאר הפעולות, נבחר תמיד ב â. 5.4. אלגוריתם Test & Play אלגוריתם Test & Play הוא האלגוריתם הפשוט ביותר ללמידת המודל. אלגוריתם 4.5 מתאר את מהלכו. משפט בהסתברות δ נקבל: a A. µ a ˆµ a ε 2 הוכחה ישירות מחסמי.Cherno כעת נרצה להעריך את µâ µ. מהמשפט: µâ ε 2 ˆµ â ˆµ a µ a + ε 2 לכן: µ µâ ε 2 נחשב חסם עליון על ה Regret של.Test & Play ( A O ε 2 ln A ) δ בשלב ה Test : בשלב ה Play : בהסתברות δ בחרנו ε טוב, ואז ה Regret הוא.ε T δ. = T נרצה להביא למינימום את: בהסתברות,δ ה Regret הוא.δ T A ln A T + ε T + ε2 הסכום שלהם הוא תוחלת ה Regret. נבחר 47

פרק.5 Minimization Multi-Arm Bandit.5.4 Regret Upper אלגוריתם Condence Bound 5.5. שלב האתחול: נדגום כל a A פעם אחת. מהדגימות האלה נקבל את µˆ, a ו = a T. 2. עבור A t, > נבחר את a t שמוגדר על ידי: 2 log t a t = arg min ˆµ a a A T a כמו כן, נעדכן את µˆ a ו T a בהתאם. ( 2 A ln A T ε = T = ε בקירוב, או בדיוק: T /3 ) /3 זה נותן לנו כלומר, בתנאים אופטימליים נבלה ) 3/ O ( T 2 ב Test. ואז: E [Regret] (2 A ln A T ) /3 T 2 /3 (UCB) Upper 5.4.2 אלגוריתם Condence Bound.Upper אלגוריתם 5.5 מתאר את מהלכו של אלגוריתם Condence Bound Regret (UCB) 8 ln T a A a a יהי µ. a = µ a אזי: a + 4 a A a a a משפט E [Regret] = a A a a a E [T a ] הוכחה ניזכר כי: לכן, נרצה לחסום את ] a E: T] T T a = + I { a t = a } t= A + T l + I { a t = a, T a l } l + t t= A + l r T s T { I ˆµ a 2 log T r } 2 log t ˆµ s a s 48

Regret Minimization פרק 5. Multi-Arm Bandit.5.4 האינדיקטור מתקיים בלפחות אחד מהתנאים הבאים: ˆµ s a µ + 2 log t s (5.4.) ˆ 2 log t µ r a µ a r (5.4.2),l = ] 8 log t. t 4 לגבי :5.4.3 אם 2 µ > µ a + 2 2 log t r את 5.4. ו 5.4.2 נחסום עם Cherno בהסתברות (5.4.3) קבוע. ו t 2,T a l + 5.4.3 לא מתקיים, ואז נישאר עם t 2 49

פרק 6 Boosting 6. למידה חלשה וחזקה במודל,PAC מקבלים דוגמאות (x),x, c וקיימת התפלגות D עבור x. המטרה היא למצוא השערה h H כך ש ε error (h, c ) בהסתברות δ. δ נקרא פרמטר הבטחון, ו ε נקרא פרמטר הדיוק. שני הפרמטרים ביחד קובעים את חוזק הלמידה שלנו. 6.. שיפור בפרמטר הבטחון ההנחה: נתון אלגוריתם A שבהסתברות לפחות 2/ מחזיר השערה h H כך ש: error (h, c ) ε אלגוריתם.6 מתאר את אלגוריתם,Boost-Condence שמשפר את פרמטר הבטחון. ננתח את האלגוריתם: [ Pr error (h i ) ε ] 2 2 [ Pr i.error (h i ) ε ] 2 [ Pr i.error (h i ) ε ] 2 ( 2 ( 2 = ( ) k 2 ) k ) log 2 δ = 2 log 2 δ = 2/δ = δ 2. לכל :i לכן: עבור :k = log 2 δ שיעור שהתקיים בתאריך 25..202. 50

פרק 6. Boosting 6.. למידה חלשה וחזקה אלגוריתם Boost-Condence.6 נגדיר את אלגוריתם Boost-Condence (BC) שפועל על האלגוריתם A (אותו הוא מקבל כקלט): k = log 2 δ פעמים עם רמת דיוק /2 ε. הפלט שנקבל. הרץ את האלגוריתם A במשך הוא.h,..., h k m = 2 ε 2 ln 4k δ = O ( ε 2 ln k δ 2. נקח דגימה נוספת S בגודל: ) ĥ = arg min h i êrror (h i ) עבור כל,h i נחשב את ) i.êrror (h 3. נחזיר את: êrror (h i, c ) = m m I (h i (x j ) c (x j )) j= 2. עבור כל h: i ניזכר כי: לכן, מ Cherno : [ êrror Pr (hi, c ) error (h i, c ) ε ] > 2 e 2 ( 2) ε 2 m 2, δ 2 ולכן נדרוש: נרצה לחסום את ההסתברות למאורע ה רע הזה על ידי 2 k e 2 ( ε 2) 2 m δ 2 נפתור את המשוואה: 2 k e 2 ( ε 2) 2 m δ 2 4 k e 2 ( 2) ε 2 m δ ( ε ) 2 ln 4k 2 m ln δ 2 ( ε ) 2 2 m ln 4k ln δ 2 ε 2 2 m ln 4 k δ m 2 ε 2 ln 4 k δ 5

פרק 6. Boosting 6.. למידה חלשה וחזקה אלגוריתם 2.6 אלגוריתם לשקילת למידה חלשה וחזקה הקלט: דגימות x,..., x m וסיווגן על ידי.c נניח כי H היא מחלקת השערות (חלשות), ו RM הוא אלגוריתם.Regret-Minimization. בכל שלב,t האלגוריתם RM יבחר פילוג D t מעל.x,..., x m.2 בהינתן,D t קיימת השערה h t H עבורה: error Dt (h t ) 2 γ 3. ההפסד יהיה לכל סיווג נכון של h, t ו 0 לכל סיווג מוטעה..4 אחרי T שלבים, נחזיר את ) T.MAJ (h,..., h error (ĥ ) êrror (ĥ ) + ε 2 לכן: êrror (h i ) + ε 2 ε 2 + ε 2 = ε 6..2 שיפור בפרמטר הדיוק נראה שקיים > 0 γ כך שלכל פונקציית מטרה c, C לכל התפלגות D ולכל פרמטר דיוק δ, אלגוריתם A מוצא השערה h H כך ש: error (h, c ) 2 γ דוגמה אם = 2,x = x אז (x) c היא פונקציה קשה. אחרת, = 0 (x).c נניח כי D היא ההתפלגות האחידה. ניתן להגיע ל %87.5 דיוק בקלות. כדי להעלות את החוזי הדיוק, היינו משנים את D כך שנתמקד במקרה = 2.x = x זאת הסיבה לכך שאנחנו נראה שקיים γ לכל D, ולא שלכל D קיים γ. הוכחת שקילות למידה חלשה וחזקה השקילות. ננתח אותו: אלגוריתם 2.6 הוא האלגוריתם שיעזור לנו להוכיח את (. לכן, סך כל ההפסד יהיה. בכל שלב מצאנו.h t ההפסד של RM הוא γ) + 2. ( 2 + γ) T.2 אם קיים x i כך ש ( MAJ (h,..., h T טועה עליו, אזי ההפסד של x i הוא לכל היותר. T 2 ה Regret יהיה: ( ) 2 + γ T T 2 + 2 T log m 52

פרק 6. Boosting 6.2. בנייה רקורסיבית γ T 2 T log m γ 2 T 2 4 T log m γ 2 T 4 log m T 4 log m γ 2 נחלץ את T: 6.2 בנייה רקורסיבית נמצא שלוש השערות h 2,h ו h 3 כך ש ( MAJ (h, h 2, h 3 משפר את הדיוק. אלגוריתם 3.6 מתאר איך עושים את זה. הערכת השגיאה נעריך את השגיאה של האלגוריתם. מה תהיה השגיאה אם ההסתברויות ב ת? כלומר, מה תהיה השגיאה אם ההסתברות לשגיאה של h 2,h ו h 3 ב ת? error = p 3 + 3p 2 ( p) = 3p 2 2p 3 ברור שההסתברויות האלה אינן ב ת, מכיוון ש h 2 נבנתה על סמך h, ו h 3 נבנתה בהתבסס על h ו h. 2 למרות שההסתברויות אינן ב ת, גם במודל שלנו נקבל שגיאה כזו. נחלק את הדוגמאות לארבע קבוצות: S cc = {x h (x) = c (x) = h 2 (x)} S ce = {x h (x) = c (x) h 2 (x)} S ec = {x h (x) c (x) = h 2 (x)} S ee = {x h (x) c (x) h 2 (x)} ההסתברויות של הקבוצות האלו ביחס ל D הן p ec p, ce p, cc ו p ee בהתאמה. השגיאה הכוללת שלנו תהיה: error = p ee + (p ce + p ec ) p α = D 2 (S ce ) (נזכיר כי p היא הסתברות השגיאה של h). 3 נסמן: לפי הגדרת D, 2 ביחס ל D: p ce = 2 ( p) α כמו כן: D 2 (S ec ) = p α כי: p = D 2 (S ce ) + D 2 (S ec ) 53