- הסקה סטטיסטית - מושגים פרק נעסוק באכלוסיה שהתפלגותה המדויקת אינה ידועה. פרמטרים לא ידועים של ההתפלגות. מתקבלים מ"מ ב"ת ושווי התפלגות לשם כך,,..., סימון: התפלגות האכלוסיה תסומן בפרק זה המטרה לענות על שאלות שונות לגבי נעזרים במדגם מקרי שנלקח מתוך האכלוסיה. שהתפלגותם כהתפלגות האכלוסיה. כאשר θ הוא פרמטר הלא ידוע של ההתפלגות. הפרמטרים הנפוצים ביותר המעורבים בבעיות של הסקה סטטיסטית הם: µ - ממוצע האכלוסיה, - שונות האוכלוסייה, - p פרופורציית בעלי תכונה כלשהי A באכלוסיה. σ. אמידה נקודתית נרצה להעריך (לאמוד) בעזרת ערכי המדגם את ערכו של הפרמטר המבוקש שיסומן θ. אומד ל- θ הוא פונקציה כלשהי של. המטרה למצוא אומד שיהיה "קרוב" ככל,..., האפשר ל- θ האמיתי (שאינו ידוע). התורה מציעה הגדרות שונות ל"טיב" של אומד: חוסר הטיה, שגיאה ריבועית מינימלית, טכניקות שונות למציאת (ראה סוגיות,9 עמ' -.) אומד טוב: עקיבות וכו' (ראה תרגילים שיטת הנראות המקסימלית, עמ' -7,(3-4 וכן שיטת המומנטים וכו' להלן רשימת אומדים מקובלים למספר פרמטרים נפוצים במיוחד, שעומדים בקריטריונים כאלו (מאליו ברור גם שככל שנגדיל את המדגם, ישתפר טיבו של האומד): θ הפרמטר µ µידוע) ) σ ידוע) µלא )σ p=p(a) = i ( i µ ) S = ( i ) ( - מספר הפרטים מסוג A במדגם) אומד מקובל. רווחי סמך המטרה - למצוא, בעזרת המדגם, רווח (קטן ככל האפשר) שיכיל בהסתברות גבוהה ככל האפשר את הפרמטר הלא ידוע. הסתברות זו נקראת רמת הסמך ותסומן α. הרווח המתקבל נקרא רווח בר סמך ברמת סמך α, (או ברמת סמך %( α )). להלן רווחי סמך מקובלים במספר בעיות נפוצות. חישובי ההסתברות מבוססים על שימוש פשוט במשפט הגבול המרכזי (דרוש מספיק גדול). ראה סוגיה עמ'. 98
z σ, + z α α σ σ ) רווח סמך α ל- µ ידוע):. α של התפלגות נורמלית סטנדרטית. - z α ערך החלוקה ה- כאשר. z. = 96 975.. z. = 64 95. רווח סמך 95% מתקבל כאשר מציבים רווח סמך 9% מתקבל כאשר מציבים אינו ידוע והאוכלוסייה בעלת התפלגות נורמלית, ניתן להחליף את α של z α יוחלף בערך החלוקה * הערה: כאשר σ σ ב- S (ראה טבלה סעיף.). ערך החלוקה התפלגות t (התפלגות סטודנט) עם דרגות חופש, וניתן למצוא אותו בלוחות t (ראה [4] וכן [6]. ראה גם סוגיה עמ' 5.) pˆ( pˆ) pˆ( pˆ) z + α, z α רווח סמך α ל- p : כאשר מציבים בד"כ ɵp = - מספר ההצלחות ב- ניסויים בעלי הסתברות לא ידועה p להצלחה... p= ɵ / הערות: עבור: = ɵp, רמת הסמך היא מקורבת. ניתן לחלופין להציב כזה יתקבל רווח סמך פשוט יותר: + z α אבל ארוך יתר על המידה בדרך כלל. א. במקרה z α, ב. שים לב שבשני המודלים מרכז הרווח הוא האומד הנקודתי המתאים והוא מ"מ. אורך / ɵ ( =p תלוי רק ב- ו- α (ולא במדגם עצמו). ג. הרווח במודל ובמודל (כשמציבים ניתן, אם כך, לקבוע מראש את אורך הרווח הרצוי לנו, זאת ע"י שליטה בגודל המדגם... 96 כאשר מציבים / ɵ p= במודל, חצי אורך רווח סמך 95% הוא גודל זה נקרא לפעמים שגיאה מקסימלית. (זהו מינוח שגוי ומטעה.) בסקרים בישראל מקובל לקחת 5= במקרה זה הגודל המתקבל הוא בקירוב 5%. 99
ד. ניתן למצוא בספרות המקצועית רווחי סמך ל- σ רווחי סמך לפרמטרים נוספים. (תוך שימוש בהתפלגות חי בריבוע) וכן
.3 בדיקת השערות H המטרה - למצוא שיטת החלטה (מבחן סטטיסטי) המבוססת על המדגם, שתכריע בין שתי השערות חלופיות לגבי ערכי הפרמטר( םי ( הלא ידוע, כאשר: - השערת האפס, H - השערה אלטרנטיבית. מבחן סטטיסטי הוא חלוקה של כל ערכי המדגם האפשריים לאיזור דחיה - R ואיזור קבלה כך שכאשר ערכי המדגם שיילקח יפלו ב- R, ההחלטה תהיה לדחות את H וכאשר, R - המדגם ייפול ב-, R יוחלט לקבל את. H.3. הגישה הקלאסית, מבחני עוצמה מקסימלית טעות מסוג I של מבחן נגרמת כאשר על פי ערכי המדגם שהתקבל מחליטים לדחות את, H בעת שלמעשה H נכונה..( P H, P(R H ההסתברות לכך תסומן: ) (או טעות מסוג - II נגרמת כאשר על פי המדגם מחליטים לקבל את, H בעת שלמעשה H נכונה..( P H ההסתברות לכך תסומן: H). P(R (או מטרה (בלתי אפשרית להשגה) - למצוא מבחן סטטיסטי (כלומר חלוקת כל ערכי המדגם האפשריים ל- R ו- ( R שיהפוך את הסתברויות שני סוגי הטעויות למינימליות. הערה: כיוון שבדרך כלל מטפלים בבדיקת השערות מורכבות (דהיינו אחת H ו- H כוללות כל אוסף של ערכים אפשריים עבור הפרמטר θ), הרי שמדובר באוסף של הסתברויות לטעות מסוג I: ( R) לכל ;θ H ( R) לכל ובמקביל, אוסף של הסתברויות לטעות מסוג :II θ. H שאת כולם נרצה כמובן להפוך למינימליות. מטרה אלטרנטיבית - מבחן בעל עצמה מקסימלית (ע"מ) ברמת מובהקות α: א. קובעים מראש חסם α לכל ההסתברויות לטעות מסוג, I החסם יקרא רמת המובהקות. ב. מבין כל המבחנים שרמת מובהקותם אינה עולה על ההסתברויות לטעות מסוג,α הן II למקסימום את ההסתברויות המשלימות מינימליות. ( R) או בניסוח אחר, לכל.θ H מחפשים מבחן שעבורו מבחן כזה שיגדיל α, מבחן הפונקציה (θ )π נקראת פונקצית העצמה של המבחן. = Pθ לסיכום: המטרה היא למצוא מבין כל המבחנים שרמת מובהקותם אינה עולה על שעבורו העצמה π( θ) = Pθ היא מקסימלית עבור כל.θ H
דוגמה: בדיקת השערות חד צדדיות על ממוצע האכלוסיה - µ,..., מדגם בגודל ( מספיק גדול) מהתפלגות בעלת ממוצע לא ידוע µ ושונות H H : µ=µ : µ>µ ידועה.σ מבחן עצמה מקסימלית ברמת מובהקות α לבדיקת σ µ > µ + z α = > z α σ / קובע לדחות את H כאשר. R = {T > z α, T ולרשום } = σ / µ נהוג להגדיר את סטטיסטי המבחן שים לב שאם H נכונה, הרי ש- T הוא משתנה נורמלי סטנדרטי. במלים אחרות: אזור הדחייה של מבחן בעל עצמה מקסימלית ברמה α ניתן על ידי הזנב הימני בעל הסתברות α של התפלגות הסטטיסטי T תחת H (שהיא כאמור נורמלית סטנדרטית).. H :µ µ הערות: א. המבחן לעיל הוא בעל עצמה מקסימלית ברמה α גם כאשר H ב. אינה נכונה. לכן קל במקרה זה לחשב את, π( µ ) = P ( >µ + Z µ α. N( µ, σ (ראה תרגיל 5 עמ'.(6 מתפלג בקירוב נורמלית גם כאשר σ ) העצמה לכל :µ>µ ) P µ ג. כאשר תחת, מתפלג בקירוב אם σ אינו ידוע והתפלגות האוכלוסייה היא נורמלית, נהוג להחליף את ערכו של σ במכנה של הסטטיסטי T, באומד שלו S (ראה גם סעיף.). במקרה זה, תחת, H µ =T מתפלג t עם דרגות חופש (ראה סוגיה עמ' 9) ואיזור הדחייה S/ ניתן על ידי הזנב הימני בעל הסתברות α של התפלגות t בעלת דרגות חופש: µ. R= { T > t, α } = { > t, α } S / ד. באופן אנלוגי, ניתן לרשום בקלות מבחנים בעלי עצמה מקסימלית ברמת מובהקות α. H :µ< כנגד µ H :µ µ R = {T < z α } כאשר ההשערות הן איזור הדחייה המתקבל הוא כאשר σ ידוע,
R {T < t, = α ו- } כאשר σ אינו ידוע ומוחלף ב- S (ראה תרגיל 6 עמ' 6). ה. בבדיקת השערות על פרופורציה p של בעלי תכונה באכלוסיה, על סמך מדגם מספיק p. T= גדול מהאוכלוסייה, משתמשים באופן דומה בסטטיסטי p ( p ) / כמו במודל הקודם, כאשר, p=p T הוא בקירוב בעל התפלגות נורמלית סטנדרטית. אזורי הדחייה המתאימים לאלטרנטיבות החד צדדיות השונות מהווים, שוב זנב מתאים בעל הסתברות α של ההתפלגות הנורמלית סטנדרטית. (ראה סוגיה 7 עמ' ). ו. ניתן למצוא בספרות מבחנים מקובלים לרשימה ארוכה נוספת של בעיות (ראה למשל תרגילים 7,8, 9 עמ' 6-7 וסוגיות 7,6 עמ'.(.3. מובהקות תוצאת המדגם (P-value) מקובל להתבונן בתוצאה שהתקבלה בפועל במדגם ולחשב, תחת ההנחה שהשערת האפס ( H ) נכונה, את ההסתברות לקבל תוצאה "קיצונית" במדגם. הסתברות זו נקראת מובהקות התוצאה (P-value). (תוצאה "קיצונית" פרושה שהיא מתיישבת יותר עם H דוגמה: בדיקת השערות חד צדדיות על ממוצע האכלוסיה אם במדגם התקבל לפחות כמו התוצאה שהתקבלה ופחות עם. H :µ> µ. P = Pµ (.( H H : µ µ כנגד > x, = x מובהקות התוצאה היא: ).µ=µ, כלומר, הסתברות הזנב הימני המתחיל ב- של התפלגות תחת x ~ N µ,σ אזור דחייה P-value µ µ µ + z σ α x הסבר: ממוצע מדגם גבוה במיוחד יחשב כאן כתוצאה קיצונית, היות והוא צפוי יותר H תחת מאשר תחת. H כזכור, אזור הדחייה של H בדוגמה זו בנוי מערכים גבוהים של (ראה איור). אופן השימוש: 3
H ככל שמובהקות תוצאת המדגם קטנה יותר, כך פחות סביר ש- נכונה. מתחת לרמה קריטית מסוימת α של מובהקות (מקובל לחתוך ב- = 5% α), נסיק ש- H אינה נכונה. 4