מבוא לסטטיסטיקה א' נדלר רוניה גב'
מדדי פיזור Varablty Measures of עד עתה עסקנו במדדים מרכזיים. אולם, אחת התכונות החשובות של ההתפלגות, מלבד מיקום מרכזי, הוא מידת הפיזור של ההתפלגות. יכולות להיות מספר התפלגויות שוות במדדים המרכזיים שלהם, אך שונות במידת הפיזור שלהן. למשל: 7, 7, 7, 7, 7 ממוצע = 7 ל - הסדרות אותו ממוצע, אולם הפיזור שונה. 5, 6, 7, 8, 9 ממוצע = 7 ההיבט העיקרי של מדדי הפיזור הוא השאלה איזה קבוצה מפוזרת יותר, השונים מדגישים כל אחד היבט שונה של הפיזור. כאשר מדדי הפיזור
המשותף בין מדדי הפיזור הוא: א. במדד פיזור חשוב גודל הפיזור ואין חשיבות לכיוון, שלילי או חיובי. ב. כאשר כל המדידות זהות מדד הפיזור שווה ל- 0. גדולים יותר, מדד הפיזור יקבל ערך גדול יותר. וככל שההבדלים בין ערכי הסדרה ישנם מדדי פיזור מרכזיים: * תחום-טווח Rage (R) תחום בין רביעוני ממוצע הסטיות המוחלטות שונות וסטיית תקן * * *
תחום - טווח Rage R - התחום הוא המרחק בין הערך הגבוה ביותר בסדרה ובין הערך הנמוך ביותר בסדרה. R max m R1 = 7-7 = 0 R = 9-5 = 7, 7, 7, 7, 7 5, 6, 7, 8, 9 למשל: התחום: התחום: תכונות התחום: 1. קל ונוח לחישוב. מתאים למשתנה אינטרוולי לפחות כיוון שלערכים יש משמעות. 3. התחום מתבסס רק על קצוות ההתפלגות ולכן אינו מבטא את הפיזור של כל הערכים בסדרה. ) הערכים הקיצוניים בהתפלגות( R1 = 19- = 17 R = 19- = 17,6,6,7,6,7,7,,7,7,19,8,6,7,,15,9,13,10,19 למשל: בגלל חסרון זה המדד אינו נותן הרבה מידע על ההתפלגות ולכן אינו שימושי
תחום בין רביעוני מדד זה מתייחס לפיזור הערכים במרכז ההתפלגות, בתחום בו נמצאים 50% הערכים המרכזיים בהתפלגות מחלקים את ההתפלגות ל- חלקים שווים מבחינת השטח שמתחת לפוליגון נקודת המינימום בהתפלגות m M 5% 50% 75% Max Q 1 = 1/ = 5% רבעון ראשון או תחתון Q 1 Q Q 3 Q Q = 1/= 50% רבעון שני/חציון תחום בין רביעוני רבעון שלישי או עליון Q 3 = 3/ = 75% Q = 100% = max
תחום בין רביעוני ) 1 Q) 3 Q - ההפרש בין הרביעון השלישי והרביעון הראשון, בתחום זה מרוכזים מחצית המקרים שנמצאים במרכז ההתפלגות. תכונות: א. קל ונוח לחישוב גם כאשר יש מח' פתוחות. ב. אינו מושפע מערכים קיצוניים, ג. משמש כמדד פיזור ממשתנה כמותי. חשוב לציין: הפער בין M 5% 50% 75% Max Q 1 Q Q 3 רביעונים, תחום בין רביעוני ע"מ להשוות בין התפלגויות, מי בעל פיזור גבוה יותר. ולכן טוב לחישוב גם אם ההתפלגות אסימטרית. כלומר התחום הבין רביעוני אינו בעל משמעות בפני עצמו אלא רק
חישוב תחום בין-רביעוני בטבלת שכיחויות משתנה כמותי בדיד דרך חישוב התחום הבין-רביעוני דומה מאד לחישוב החציון. למשל, מס' בחינות שיש ל- סטודנטים. Q 1 =8 Q =9 Q 3 =9 Q 1 Q - Q 3 רביעון ראשון-תחתון ~ - רביעון שני-חציון רביעון שלישי-עליון ל- 1/ מהסטודנטים יש עד 8 בחינות 1 6 * 3 *3 א. F ב. טור של חישוב הקב' הרביעוניות תחום בין רביעוני: מחלקה 1 מחלקה 3 ל- 1/ מהסטודנטים יש עד 9 בחינות 18 מחלקה 3 ל- 3/ מהסטודנטים יש עד 9 בחינות 9 בחינות ל- 1/ מהסטודנטים יש בין 8 ל Q 3 -Q 1 = 9-8 = 1
חישוב תחום בין-רביעוני בטבלת שכיחויות משתנה כמותי רציף נתונה התפלגות גילאים של סטודנטים בקורס מסוים Q 1 חישוב הרביעון הראשון Q 5 6.5 א. F ג. טור של הפעלת הנוסחה על מחלקה זו מחלקה שניה )-5( l 5% L F f 1 1/ ( 1 ) ב. מהמקרים חישוב 3 Q1 1/ 5% (6.5 3).98 10 גילם של 5% מהסטודנטים הוא עד.98 שנים
התפלגות הגיל של 5 סטודנטים: חישוב הרביעון השלישי- Q 3 )5-30( 3 75 18.75 חישוב מהמקרים מחלקה שלישית 3 Q 3 F 3 3/ 75% L ( 1 l f ) הפעלת הנוסחה על מחלקה זו Q 3 3/ 75% 8.59 5.61=8.59-.98 Q3-Q1= התחום הבין רביעוני
כל רביעון מהווה 5% מהשטח, אולם, המרחק בין ערכי הרביעונים השונים אינו חייב להיות שווה. המרווח בין הרביעונים מצביע על צורת התפלגות. Q 3 -Q = Q -Q 1 התפלגות סימטרית Q 3 -Q > Q -Q 1 התפלגות אסימטרית חיובית זנב ימני Q 3 -Q < Q -Q 1 התפלגות אסימטרית שלילית זנב שמאלי התפלגות אסימטרית שלילית התפלגות אסימטרית חיובית Q1 Q Q3 Q1 Q Q3
ערכי חלוקה לפי אותו עקרון שבו חילקנו את ההתפלגות ל- חלקים שווים, הרי שניתן לחלק את ההתפלגות 0% < P% או אחוזים < 100% 0 > P לכל פרופורציה > 1 אם נחלק את ההתפלגות למשל ל- 10 חלקים שווים נקבל עשירונים.
נוסחה כללית לחישוב ערך חלוקה: פרופורציה-שכיחות מוחלטת אחוזים 1. טור של שכיחות יחסית או של F CP(%) או. ( p F ) 1 על-מנת לחשב את הערך הרצוי יש לבצע את הפעולות הבאות: p L l f l L ( p P(%) CP(%) p% % 1 ) 3. חוזרים לטור המצטברת ומוצאים את המח' שעליה נפעיל את הנוסחה. p % p למשל: להלן טבלה של שכיחות יחסית לפי גיל של סטודנטים במחלקה לכלכלה 3.5 5.8 מהו השכיח: מהו הממוצע :
50%.85, מהו החציון: CP(%) נחשב נחשב מחצית המקרים, נציב בנוסחה 10 % 1.33 מהו העשירון התחתון : 90 % 5 % 31.88.98 מהו העשירון העליון : מהו הרביעון הראשון : 75 % 8.59 מהו הרביעון השלישי : תחום בין רביעוני = 5.61
88 % 31.5 הערך שמעליו מתפלגים 1% מהמקרים: 3 P % ( P% 1) P% 38.67% 0 אחוז הסטודנטים עד גיל :,F f אם נתון שגודל המדגם הוא 5, כעת ניתן לחשב את וכן את ולהשתמש בנוסחה לפי פרופורציה 5 9 30 (.5 1) 31.88 10 5 5 (0 13) 9.38 8 5 3 P 30 ( p 1) מח' p.6 מהו העשירון העליון: 9/10 מהמקרים=מקרה.5 הגיל שעד אליו מתפלגים 0 סטודנטים: המקרה ה- 0 נמצא במחלקה 3 )לפי F(. מספר הסטודנטים מעל גיל 3:
מדדי פיזור סביב הממוצע רב המשתנים בהם אנו עוסקים הם מרמה אינטרוולית ומעלה ולכן הממוצע הוא המדד המקובל כפי שצוין, הממוצע לבד לא מספיק כדי לשקף את כל התכונות של ההתפלגות או הנתונים. לצורך הדוגמא נחזור לסיכום של רמת הידע בעברית של ח"כ. מתוך 15 הח"כים, בחרנו 3 ח"כ שלהם נקשיב ל- 5 נאומים אופייניים של כל אחד מהם, וחישבנו את מספר השגיאות של כל אחד. לפניך התוצאות שהתקבלו: אם נתבונן בנתונים נראה שלכל ח"כ אותו ממוצע.
אם היינו משרטטים את שלושת ההתפלגויות היינו מקבלים את התוצאה הבאה: כדי שמדד הפיזור יהיה טוב, הוא צריך לבדוק את מידת הסטיות של התצפיות השונות ממדד מרכזי. מדדי הפיזור הבאים שנעסוק בהם מתחשבים בכל התצפיות, יעילים רק ממשתנה אינטרוולי ומעלה. ובערך המספרי שלהן, ולכן הם
מדדי הפיזור עוסקים בחישוב הסטיות או ההפרשים של התצפיות מהממוצע, ממוצע ההפרשים באותה דרך שחישבנו ממוצע רגיל, ולכן: לכן נחשב את ( ) הסטייה הממוצעת תהיה מה הבעיה במשוואה זו? מתכונות הממוצע ידוע שסכום הסטיות מהממוצע תמיד שווה ל- 0, ערך זה תמיד יתן תוצאה לכן 0 f ( ) 0 ( ) 0 כיצד ניתן להתגבר על בעיה זו? 1. להפוך את הסטיות לערכים מוחלטים (. להעלות את הסטייה בריבוע )
ממוצע הסטיות המוחלטות- AD-Average Absolute Devato מקובל לחשב את הסטיות המוחלטות מהממוצע או מהחציון. f סידרת ערכים: טבלת שכיחויות : תכונות: 1. חישוב מדד זה דורש הרבה חישובים מדד זה מושפע מכל ערכי הסדרה וניתן לחישוב הן בהתפלגות סימטרית והן בהתפלגות אסימטרית השימוש בו במקרה של ממוצע ממשתנה אינטרוולי ומעלה..3 חישוב סדרת ערכים 0 0 5 7, 7, 7, 7, 7 ממוצע = 7 6 1. 5, 6, 7, 8, 9 ממוצע = 7 5 ככל שהסטיות מהממוצע גדולות יותר, כך המדד יהיה גבוה יותר למשל:
טבלת שכיחויות חישוב להלן התפלגות של 00 סטודנטים לפי מס' בחינות בהם הם נבחנים f יש לחשב את ממוצע הסטיות המוחלטות לפי הנוסחה א. יש לחשב ממוצע נוסיף עמודה של f נחשב את הממוצע 100 f 6 00 ב. יש לחשב ממוצע סטיות מוחלטות נחשב עמודה של סטיות מהממוצע f * נחשב עמודה של f 00 00 * נסכם את העמודה ונחשב את המדד
שונות וסטיית תקן - devato Varace & tadard השונות או מודדת את מידת הפיזור של ערכי הסדרה סביב הממוצע, הסטיות בין ערכי הסדרה והממוצע ע"י חישוב ממוצע ריבועי ( ) שונות בערכים בודדים : f( ) f שונות בטבלת שכיחויות: בחישוב ממוצע ריבועי הסטיות מהממוצע סטיית התקן יש העצמה של הסטיות הגדולות ולכן אנו מחשבים את
ןקת תייטס, תונושה שרוש - עצוממה ביבס רוזיפה רואיתל ישומישהו לבוקמה דדמה איה ןקתה תייטס : םידדוב םיכרעב ןקת תייטס : תויוחיכש תלבטב ןקת תייטס ) ( ) ( f f
חישוב שונות סדרת ערכים א. יש לחשב ממוצע ( ) ב. לחשב את הסטייה שבין כל אחת מהתצפיות והממוצע ( ) ( ) ג. להעלות את הסטיות בריבוע ולחשב סכום ד. לחלק ב- ולקבל את השונות σ או ה. להוציא שורש ולקבל את סטיית התקן ( ) (7 7) (7 7) (7 7) (7 7) (7 7) 0 למשל: 7, 7, 7, 7, 7 ממוצע = 7 ( ) x x 0 0 0 5 ( ) (5 7) (6 7) (7 7) (8 7) (9 7) 10 5, 6, 7, 8, 9 ממוצע = 7 ( ) x 1. 10 5
חשוב שונות - טבלת שכיחויות, משתנה כמותי בדיד נוסיף את כל העמודות הדרושות לפי נוסחת השונות 100 00 6 f( ) 1000 00 5.3 f 800 6 00 5.3 בהתפלגות זו ממוצע הבחינות של 00 תלמידים הוא 6, הפיזור סביב הממוצע לפי שונות הוא 5 ולפי ס.ת. הוא.3.
חישוב שונות וסטית תקן - משתנה רציף יש להפוך את המשתנה הרציף לבדיד ע"י מציאת נקודת האמצע שמהווה ערך מייצג 1913.5 383. 38.9 הממוצע: 10 10.37 383. סטיית תקן ע"י נוסחת הגדרה : 6160.75 38.9 10.37 383. סטיית תקן ע"י נוסחת עבודה :
בתחום של סטיית תקן אחת מכל צד של הממוצע יהיו מרוכזים רב המקרים בהתפלגות. בתחום שבין ובין מרוכזים מעל 50% מהמקרים. בהתפלגות הציונים שבטבלה קיבלנו ממוצע 6 וסטיית תקן..3 נחשב את הערכים שנמצאים במרחק של סטיית תקן אחת מעל ומתחת לממוצע מכאן, שאם נדע את הממוצע וסטיית התקן נוכל לשחזר את תחום הערכים של המשתנה שבו מרוכזים רב המקרים.
תכונות השונות וסטיית התקן: 1. מתאימים למשתנה אינטרוולי לפחות. מתארים רמה כללית של הפיזור סביב ממוצע הסדרה.3 בחישוב נכללים כל ערכי הסדרה, כולל ערכים קיצוניים, שלהם ניתן משקל יתר בחישוב.. סטיית תקן היא מדד פיזור סביב הממוצע מקובל ומהווה בסיס למדדים נוספים 5. טרנספורמציה לינארית על כל אחד מערכי הסדרה א. הוספה של קבוע לכן גם לא תשתנה : a לא ישנו את השונות וסטיית התקן ( ) > = ( a) ( a) : ב. הפחתה של קבוע a לא ישנו את השונות וסטיית התקן ( a) ( a)
a עצוממהו הרדסה יכרע ןיב םישרפהה םג ןכלו עובק ותואב עצוממה תא ליפכי :עובק ותוא יפ ולדגי a עובקב הרדסה יכרע לש קוליח.ד עובקה עובירב לפכות :תונושה a עובקב הרדסה יכרע לש הלפכה.ג : ומצע עובקב לפכות :ןקתה תייטס :תונושה עובקה עובירב ןטקת :ןקתה תייטס ומצע עובקב ןטקת ) ( ) ( a a a a a a ) ( ) ( a a a a ) ( 1 ) ( a a a ) ( ) ( a a
7, 80, 91, 50, 67, 78 למשל: 6 סטודנטים שקבלו את הציונים: 38 6 73 ( ) 160.66 160.66 1.67 הוספת קבוע כאשר =a: a 73 75 ממוצע: יח' יגדל ב- 160.66 1.67 שונות: סטיית התקן: אינה משתנה אינה משתנה 10 73 10 7.3 חילוק בקבוע כאשר 10=a: ממוצע: יקטן פי 10 160.66 10 1.6066 100 שונות: תקטן פי- 1.67 10 1.67 10 סטיית התקן: תקטן פי-
השפעת הוספת, הוצאת ערך מההתפלגות במרחקים של סטיית התקן ערך במרחק של עד אחת מהממוצע הוספת הוצאת ערך זה להתפלגות תגרום לירידה ב- ערך זה מההתפלגות תגרום לעליה ב- ערך במרחק של יותר מ- אחת מהממוצע הוספת ערך זה להתפלגות תגרום לעליה ב- הוצאת ערך זה מההתפלגות תגרום לירידה ב- ערך במרחק ששווה ל- אחת מהממוצע הוספת/הוצאת ערך זה מההתפלגות לא תשנה את
ממוצע משוקלל ושונות מצורפת כאשר יש לנו נתונים על מס' קב' ואנו מעוניינים במידע אודות כל קב' עלינו לחשב את הממוצע המשוקלל של כולם ואת השונות של כולם. בנפרד וכולן ביחד, נוסחת הממוצע המשוקלל: נוסחת השונות המצורפת:
,, למשל: נתון מנת משכל של 3 קב'. בכל קב' נתונים ה - יש לאחד את 3 הקב' לאחת, ולחשב ממוצע כללי ושונות כללית של כל 0 האנשים. ניתן לנצל את הנתונים של כל קב' כדי לקבל נתונים לגבי הקב' המצורפת הממוצע המשוקלל של כל הקב': N 1 1... 1... k k k 90 100 100 80 108 0 0 97 c השונות המצורפת : c 169100 1180 10 100(90 97) 0 80(100 97) 0 0(108 97) 19.5
נתונות קב': בקב' א יש 0 איש שגילם הממוצע וסטיית התקן של הגיל 1.8 בקב' ב יש 30 איש שגילם הממוצע וסטיית התקן של הגיל. מהו הממוצע וסטיית תקן של הקב' המצורפת מ- הקב'? 0 30 50 3. c 0 1.8 30. 50 0 1. 30 0.8 50 5.16 c 5.16.7, יש פי 3 אנשים מאשר בקב' ב', ידוע שממוצעי הקב' שווים. נתונות קב', בקב' א' כמו כן נתון ש - מהי השונות המצורפת? 0 1 0 1 1 3 1 הממוצע המשוקלל c 3 0 1 0 3 0 1 0 100 השונות המצורפת 5 c 5 5