הסקה סטטיסטית/תקציר/תלמה לויתן

הסקה סטטיסטית/תקציר/תלמה לויתן בניסוי אקראי נמדד ערכו של משתנה כמותי משתנה המחקר ואולם התפלגות המשתנה אינה ידועה החוקר מעוניין לענות על שאלות הנוגעות לערכי הנחות: - משפחת ההתפלגות של ידועה (ניווכח שזה המצב לעיתים קרובות) אבל לא ידוע לחוקר סימון: פרמטר כלשהו של ההתפלגות (יתכנו גם מספר פרמטרים לא ידועים) (לדוגמה: תוחלת ההתפלגות, השונות, הסתברות של מאורע מסוים הקשור למשתנה,) - ניתן לנסח מחדש את שאלת המחקר במונחים של הפרמטר הלא ידוע כדי להדגיש את התלות בפרמטר הלא ידוע, P ( x) / f ( x) (רציף/בדיד) כדי לענות על שאלות המחקר לגבי מתקבלים, אנו מבצעים משתנה המחקר מינוח: משתנים מקריים בלתי תלויים P ( x) / f ( x), כלומר,, מדגם מקרי יקרא מתוך ההתפלגות משתנה המחקר תסומן חזרות בלתי תלויות של הניסוי,, שהתפלגות כל אחד מהם זהה להתפלגות אוכלוסיית כל המדידות האפשריות של המשתנה, הן תצפיות מתוך האוכלוסיה, (כל החזרות האפשריות על הניסוי) נאמר גם ש-,, המטרה: בעזרת תוצאות המדגם התשובה מהווה פרוצדורה כלשהי (בלבד) לענות על שאלות המחקר שנשענת על חישוב שנבצע על ערכי המדגם,, (בלבד) תקרא סטטיסטי מינוח: פונקציה כלשהי של סימון מקובל לסטטיסטי: (,, ) T T T הוא משתנה מקרי שהתפלגותו תלויה פרמטרים (רק) ב- בהסקה סטטיסטית אנו משתמשים במדגם לגבי הלא ידוע (או למעשה בסטטיסטי שחושב מהמדגם) כדי לענות על שאלות לגבי הפרמטר הלא ידוע יש להבחין בין הסקה סטטיסטית להסקה לוגית הסקה סטטיסטית כרוכה תמיד באפשרות שגיאה האוכלוסייה כולה מתבססת על מדגם בלבד) שנציע יש לבצע הערכת שגיאה נפוצים: תוחלת µ- התכונה באוכלוסייה, - - פרופורציית בעלי תכונה מסוימת באוכלוסייה בניגוד להסקה לוגית, (כיוון שההסקה לגבי ועל כן לכל פרוצדורה שונות התכונה באוכלוסייה,

i i סטטיסטים שימושיים: ממוצע המדגם פרופורציית בעלי התכונה במדגם ( - מספר בעלי התכונה במדגם) Σ( ) Σ ( Σ ) Σ ( ) S ( ) i i i i שונות התכונה במדגם כדי לבצע חישובי שגיאה הכרוכים בהסקה על הפרמטר הלא ידוע בעזרת סטטיסטי שחושב מהמדגם, יש לדעת את התפלגות הסטטיסטי (מדויקת או מקורבת),, T T (,, ) כיוון שהתפלגות כל אחד המשתנים הסטטיסטי T שמחושב מהם תלויה ב- תלויה בפרמטר הלא ידוע, הרי שגם התפלגות : ל- T אמידה נקודתית: תכונות טובות של אומד עקיבות: לכל, כאשר גודל המדגם שואף לאינסוף מתקיים T T (,, ) לכל T חוסר הטיה: ET (התוחלת של האומד *טעות ריבועית ממוצעת של תלויה כמובן בערך הלא ידוע של ) (MSE) מינימלית: MSE T E T E T Var T ( ) ( ) ( ) + ( ) T שונות האומד ריבוע ההטיה ) אם T חסר הטיה ) T ( MSE( T ) Var( המטרה: טעות ריבועית מינימלית(לכל ) מבין כלל האומדים מטרה ריאלית יותר, טעות ריבועית מינימלית מבין האומדים חסרי ההטיה במילים אחרות: שונות מינימלית מבין כל האומדים חסרי ההטיה שיקולי יעילות: אם T,S אומדים חסרי ההטיה, היעילות היחסית היא מנת השונויות אומדים חסרי הטיה מקובלים לפרמטרים הנפוצים על סמך מדגם בגודל 3

ש ) הפרמטר אחה מקובל (מתקיימת גם עקיבות) שונות האומד ( ) / / µ ( ) Σ i µ S Σ( ) i µ ידוע: µ אינו ידוע: סטטיסטים והתפלגויותיהם (כתלות בפרמטר הלא ידוע) הפרמטר הלא ידוע הוא הסטטיסטי מבוסס על - מספר בעלי התכונה במדגם כידוע ) ~ B(, אם גדול אפשר להשתמש בקירוב (,)N ~ ( ) הפרמטר הלא ידוע הוא µ הסטטיסטי מבוסס על שימוש ב- µ ~ N(,) / N ( µ, ) אם גדול ו- דגימה מהתפלגות נורמלית ידוע אפשר להשתמש בקירוב, מפולגים, נניח שהתפלגות האוכלוסיה היא נורמלית כלומר הסקה על µ כאשר ידוע µ ~ N(,) / : התפלגות הסטטיסטי (תלויה רק בפרמטר הלא ידוע ) µ µ ידוע הסקה על כאשר S Σ ( i µ ) התפלגות הסטטיסטי ונות המדגם): (תלויה רק בפרמטר הלא ידוע ) S Σ( i µ ) ~ χ ( ) 3

µ אינו ידוע הסקה על כאשר 3 S Σ( i ) Σ i התפלגות הסטטיסטי (שונות המדגם): (תלויה רק בפרמטר הלא ידוע ) S ( ) Σ( i ) ~ χ ( ) הסקה על µ כאשר אינו ידוע 4 µ ~ S / t( ) : התפלגות הסטטיסטי (תלויה רק בפרמטר הלא ידוע ) µ S Σ( ) i,, שיטת המומנטים לאמידת פרמטר/ים לא ידוע/ים על סמך מדגם א פרמטר לא ידוע אחד E יהי ~ P / f למשוואה יש נעלם אחד הפיתרון יקרא אומד בשיטת המומנטים (אנו משווים בין ממוצע האוכלוסייה לממוצע המדגם) ב מספר פרמטרים לא ידועים E E E 3,, i i i 3 i ɵ ɵ ( x,, x ) נרשום מספר משוואות כמספר הפרמטרים הלא ידועים, ונפתור שיטת הנראות המקסימלית לאמידת פרמטר, על סמך מדגם P / f הגדרה: לכל מדגם ספציפי מהתפלגות אנו מחפשים ערך הנותן L P x P x ( ) ( ) ( ) x,, x מקסימום לפונקצית הנראות: (בדיד) (רציף) L f x f x ( ) ( ) ( ) נקרא אומדן נראות מקסימלית ל- [פונקצית הנראות מבטאת את ההסתברות לקבל את המדגם הספציפי (יחשב כאן קבוע) בהנחה שהפרמטר מקבל את הערך (יחשב כאן כמקבל ערכים משתנים בתחום שלו)] ɵ 4

א ) הרציונל: ) L( ˆ ) > L( אם המדגם המסוים הרי ש-ˆ "מסביר" בצורה טובה יותר מ- את העובדה שהתקבל L ( ) x,, x השיטה: כאשר מקבל רצף של ערכים, גוזרים את הפונקציה שהתקבל מקסימום (טכנית עדיף לגזור את ולהשוות ל- ) ומשווים ל- בודקים ל- l L( ) ɵ ɵ (,, נקרא אומד נראות מקסימלית ) נמ) g משפט שימושי: אם ɵ הוא אומד נראות מקסימלית ל-, אזי ) ɵ ( ל- הוא אומד נראות מקסימלית g( ) סיכום: אומדי נראות מקסימלית לפרמטרים של משפחות התפלגויות הנפוצות הפרמטר ההתפלגות אומד נראות מקסימלית חוסר הטיה פואסון λ) P( כן λ -התוחלת נורמלית ) N ( µ, כן µ -התוחלת ) S Σ( חה i ( ) i Σ נורמלית ) N ( µ, -השונות מעריכית λ) ex( כן λ / -התוחלת M M, max(, ) אחידה ) U (, חה -קצה התחום, רווחי סמך ובדיקת השערות לגבי פרמטר כלשהו P / f,, על סמך מדגם על סמך ההתפלגות (המדויקת או המקורבת) של אומד מתוך ההתפלגות T ל- ניתן למצוא רווח סמך (מדויק או מקורב) לפרמטר וגם למצוא מבחנים טובים לבדיקת השערות על הסקה על פרופורציה I (המודל הבינומי) הפרמטר הלא ידוע: - פרופורציית בעלי תכונה באוכלוסייה 5

MSE( ) ( ) / ~ B (, ) נתבונן בסטטיסטי *אומד נראות מקסימלית ל- - מספר בעלי התכונה במדגם: ˆ התפלגותו (מדויקת) (הפרופורציה במדגם) : ˆ תכונות: הוא אומד חסר הטיה ל- שונותו הגבול המרכזי:התפלגות מקורבת של האומד (המתוקנן): משפט ( (שימוש מעשי עבור 5 ), ( Z ( ) ( ) / ~ N (,) : α בר סמך רווח בקירוב) (בקירוב ל- ( z α / ( ) /, + z α / ( ) / ) : אלטרנטיבית, רווח בר סמך α ל- לפחות, z z α / α / (, + ) ( H : H : בדיקת השערות חד צדדיות על : (או H : > מבחן בעל עצמה מקסימלית לבדיקת ההשערות מתבסס על הסטטיסטי, והוא קובע:, כלומר בזנב הימני של התפלגות הסטטיסטי לדחות את H עבור ערכים גבוהים של קצה אזור הדחייה (הנקודה הקריטית) נקבע על פי רמת המובהקות α, ותלוי אך ורק Z ~ N(,) ( ) H : > בהתפלגות הסטטיסטי תחת המצב (השערת האפס) למציאת הנקודה הקריטית נתבונן בסטטיסטי המתוקנן: : H : התפלגות הסטטיסטי (לאחר תקנון) תחת אזור דחייה של מבחן עצמה מקסימלית ברמת מובהקות α עבור 6

C { Z z } { + z ( )} α α חישובי מובהקות: מחשבים את ערך הסטטיסטי המתוקנן (תחת ( כפי שהתקבל מהמדגם: z x ( ) : z מובהקות התוצאה ההסתברות (תחת ( של הזנב הימני שנקבע על Pvalue P( Z z ) : z ידי הערך ( > ) חישובי עוצמה: תחת האלטרנטיבה מחשבים את הסתברות אזור הדחייה: ( (מתקננים על פי z α ( ) P ( + ( )) π µ הסקה על תוחלת (ממוצע) האוכלוסייה II סטטיסטי מקובל להסקה על µ (ממוצע התכונה באוכלוסיה) ממוצע התכונה במדגם הוא תמיד אומד חסר הטיה ל- µ שונותו שונות האוכלוסייה), / ) כיוון שהתפלגות איברי המדגם אינה ידועה, הרי לא ידועה גם התפלגות ממוצע המדגם 7

שונות µ, הסקה על IIא אם ידוע שהתפלגות האוכלוסיה היא ידועה נורמלית אזי התפלגות הסטטיסטי (מתוקנן) היא: Z / µ ~ N(,) באופן כללי: : התפלגות מקורבת של הסטטיסטי הגבול המרכזי משפט 5 - תלוי במידת הסימטרייה של ההתפלגות) α / α / Z / ( z /, + z / ) µ ~ N (,) (שימוש מעשי בדרך כלל עבור רווח סמך α (בקירוב) ל- µ: ( H : µ µ H : µ µ בדיקת השערות חד צדדיות על µ: (או H : µ > µ H עבור אוכלוסיה נורמלית מבחן בעל עצמה מקסימלית במידה שווה דוחה את עבור,, כלומר בזנב הימני של התפלגות הסטטיסטי ערכים גבוהים של ימני של כלומר זנב Z קצה אזור הדחייה בהתפלגות הסטטיסטי תחת (הנקודה הקריטית) נקבע על פי רמת המובהקות α, ותלוי אך ורק µ µ Z / µ ~ N(,) µ µ תחת הסטטיסטי המתוקנן אזור דחייה של מבחן עצמה מקסימלית ברמת מובהקות α H : µ > µ H : µ µ עבור C { Z z } { µ + z / } α α 8

µ µ ואת ההסתברות תחת של הזנב Pvalue P( Z z ) : z z x µ חישובי מובהקות: מחשבים מהמדגם את / הימני שנקבע על ידי ערך הסטטיסטי במדגם מקבלים µ µ חישובי עוצמה: תחת האלטרנטיבה ) µ ( µ > מחשבים את הסתברות אזור הדחייה: ( µ π ( µ ) P ( µ + z (מתקננים על פי / ) µ µ α הערה: משפט הגבול המרכזי מאפשר שימוש בהתפלגות הנורמלית למציאת רווח סמך ומבחנים לבדיקת השערות גם כאשר האוכלוסייה אינה נורמלית ואולם המבחן לא יהיה בהכרח בעל עצמה מקסימלית (כל עוד ידוע והמדגם מספיק גדול) שונות, µ הסקה על IIב לא ידועה הנחה: התפלגות האוכלוסייה נורמלית אומד מקובל ל- µ הוא, האומד הוא חסר הטיה הבעיה: כיוון ש- לחישוב הסתברויות אינו ידוע, לא ניתן לתקנן את נהוג, על כן, לתקנן בעזרת האומד ל- כדי להיעזר בלוח נורמלי סטנדרטי : : תזכורת: אומד חסר הטיה ל- Σ( ) Σ ( Σ ) Σ ( ) S ( ) i i i i N ( µ, ) התפלגות האומד (מתוקנן): אם התפלגות האוכלוסיה היא אזי T S / µ ~ t נקראת התפלגות t עם דרגות חופש וניתן למצוא את ערכיה בלוח המתאים) t ) ( t S /, + t S / ), α /, α / רווח בר סמך α ל- µ: ( H : µ µ H : µ µ בדיקת השערות חד צדדיות על µ: (או H : µ > µ 9

T,T אזור הדחייה של מבחן מתאים היא זנב ימני של הסטטיסטי כלומר זנב ימני של התפלגות (כלומר זנב ימני של α, ותלויה רק בהתפלגות הסטטיסטי ( t קצה אזור הדחייה נקבע על פי רמת המובהקות µ µ תחת T H : µ > µ S / µ ~ t H : µ µ µ µ תחת התפלגות הסטטיסטי אזור דחייה של מבחן ברמת מובהקות α עבור הוא זנב ימני בגודל α של התפלגות :t C { T t } { µ + t S / }, α, α t x µ S / חישובי מובהקות: מחשבים מהמדגם את ערך הסטטיסטי (המתוקנן) הזנב הימני של התפלגות (זוהי התפלגות הסטטיסטי תחת ואת הסתברות ( µ µ Pvalue P( t t ) t : t שקצהו הערך במדגם מקבלים השלמות לבדיקת השערות: הערה: טיפלנו בהשערות חד צדדיות שמאליות לעומת אלטרנטיבות ימניות H הפוכות אזור הדחייה יהיה זנב שמאלי שהסתברותו α תחת אם מדובר בהשערות

H : µ µ דוגמה: בבדיקת השערות על µ: H : µ < µ α α α אזור דחייה של מבחן ברמת מובהקות α יהיה: C { Z z } { Z z } { µ / } z ידועה: C { T t } { T t } { µ t S / }, α, α, α לא ידועה H : : דוגמה: בבדיקת השערות על H : < אזור דחייה של מבחן ברמת מובהקות α יהיה: C { Z z } { Z z } { z ( )} α α α חישובי עצמה וחישובי מובהקות ייעשו בהתאם בעיות דו- צדדיות אם האלטרנטיבה היא דו-צדדית, אזור הדחייה יהיה דו- צדדי, והוא מורכב מאיחוד של זנב ימני וזנב H : α / H שמאלי שהסתברות כל אחד מהם תחת היא דוגמה - המודל הבינומי : אזור דחייה של מבחן ברמת מובהקות α בבעיה דו צדדית H : מורכב משני זנבות של / α כדלקמן: C C { Z z α / } { Z z α / } { ( )} { + ( )} z α α z

: אזור דחייה של מבחן ברמת מובהקות α בבעיה דו צדדית H : µ µ דוגמה - המודל הנורמלי H : µ µ מורכב משני זנבות של / α כדלקמן: C { Z z } { Z z } α / α / א ידועה z { µ + / } { µ / } α / α / z כאשר ב אינה ידועה C { µ + t s / } { µ t s / }, α /, α / חסר: - נוסחאות עבור הסקה על השונות (שונות ידועה/ לא ידועה) באוכלוסיה נורמלית (רווחי סמך ובדיקת השערות) הנוסחאות דומות מבחינת הרעיון אך מעורב בהם לוח או לוח χ (חי בריבוע) במקום לוח נורמלי נוסחאות עבור השוואת פרופורציות / השוואת תוחלות (מדגמים מזווגים ולא מזווגים) / t *השוואת שונויות של שתי אוכלוסיות -