.5 סטטיסטיקה תיאורית Statistics) (Descriptive 5.1 התפלגות שכיחויות (Frequencies) 5.1.1 כללי התפלגות שכיחויות מתארת את הערכים הקיימים של המשתנים והשכיחות שלהם, ומאפשרת הפקה של סטטיסטיקה תיאורית נוספת כגון מדדי מרכז (ממוצע, חציון, שכיח, סכום), מדדי פיזור (שונות, סטית תקן, מינימום ומקסימום, מדדים למיקום יחסי כגון אחוזונים), ועו.1.2 השימוש בהליך של התפלגות השכיחויות מיועד לשתי מטרות עיקריות: תיאור התפלגות המשתנה, הערכים האפשריים שלו ופיזורם, כיצד נראית ההתפלגות. ניתן לתאר את ההתפלגות באמצעות טבלה, דיאגראמה ומדדים תיאוריים (מדדי מרכז, פיזור). בדיקה ומציאת טעויות בהקלדת הנתונים. הפלט מתאר את ערכי המשתנה כפי שהוזנו למחשב, והשכיחות (במספרים ובאחוזים) של כל ערך. לדוגמא, במשתנה כמו מין, אשר הערכים האפשריים שלו הינם 1 (זכר) או 2 (נקבה), לא יתכנו ערכים מספריים אחרים. במידה ומתקבלים בהתפלגות ערכים שונים מאלו, ניתן להבין שקיימת שגיאה בהקלדת הנתונים. הפעלת תפריט :Frequencies Analyze Descriptive Statistics Frequencies תרשים 5.1. בחירת ההליך Frequencies מתוך התפריט הראשי. 91
5.1 סטטיסטיקה תיאורית התפלגות שכיחויות Frequencies לאחר שבחרת את ההליך, תתקבל תיבת השיח הבאה: דיאגראמות מדדים סטטיסטיים תרשים 5.2. תיבת שיח ראשית של ההליך.Frequencies בחלון השמאלי רשימת כל המשתנים הקיימים בקובץ (שים לב שניתן לדפדף למטה ולמעלה, לא כל המשתנים מוצגים במסך הנוכחי). בצד ימין, תחת הכותרת,Variable(s) התיבה אשר אליה מעבירים את המשתנים המיועדים לעיבו בחירת המשתנים הרצויים לעיבוד: בחר/י על ידי לחיצה עם העכבר, את המשתנה הרצוי. המשתנה הנבחר יודגש בצבע כחול, והחץ בין שתי התיבות, יופנה ימינה. העבר/י את המשתנה שבחרת, על ידי לחיצה על החץ הפונה ימינה. ניתן להעביר מספר משתנים בפעולה אחת. לאחר העברת משתנים העכבר על המילה.OK (לפחות אחד), תודגש המילה OK בתיבת שיח זו. ניתן לאשר ביצוע ההליך על ידי לחיצה עם עם בחירת המשתנה / משתנים וביצוע OK תופק טבלה של התפלגות שכיחויות, לכל משתנה שהועבר לתיבת המשתנים. במידה והינך מעוניין/ת להפיק בפעולה זו במדדים סטטיסטיים נוספים, עליך להיכנס לתפריט משנה בו מילת המפתח.STATISTICS אשר מופיעה 92
5.1.2 אפשרויות בחירה של מדדים סטטיסטיים מדדי נטייה מרכזית מדדי מיקום יחסי - אחוזונים רבעונים ממוצע חציון שכיח סכום הפק ערכים המחלקים את המדגם לקבוצות שוות גודל אחוזונים לפי בחירה מדד אסימטריה מדד גבנוניות מדדי התפלגות מדדי פיזור סטית תקן שונות תחום טעות תקן תרשים 5.3. תיבת שיח של מדדים סטטיסטיים, מתוך ההליך.Frequencies לצד כל אחד מהמדדים הסטטיסטיים תיבה לבנה. בחירת המדד הסטטיסטי נעשית על ידי הקשה עם הלחצן השמאלי של העכבר על התיבה הרצויה. בעקבות זאת יופיע הסימן ביטול: על ידי הקלקה נוספת עם העכבר. בתוך התיבה. 93
5.1 סטטיסטיקה תיאורית התפלגות שכיחויות Frequencies.1 בתוך תיבת השיח של מדדים סטטיסטיים נוספים, קיימות ארבע קבוצות של מדדים סטטיסטיים: מדדי נטייה מרכזית tendency) (Central ממוצע Mean (סימולו במדגם:.( µ X, X באוכלוסיה: חציון Median (סימולו במדגם:.(Med שכיח Mode (סימולו במדגם:.(Mo.( n Xi i= 1 סכום Sum (סימולו במדגם: 2. מדדי פיזור (Dispersion) (σ X סטית תקן Standard Deviation (סימולה במדגם:, S באוכלוסיה: 2.σ X שונות Variance (סימולה במדגם: S, 2 באוכלוסיה: טווח Range (סימולו במדגם:.(R.3 מינימום ומקסימום הערך הנמוך ביותר בהתפלגות והערך הגבוה ביותר בהתפלגות, בהתאמה. σ X S, X באוכלוסיה.( טעות תקן Standard Error (נוסחתה במדגם: n n מדדי התפלגות (Distribution) Skweness מדד סימטריה / אסימטריה של ההתפלגות. מציין האם ההתפלגות הינה סימטרית או לאו, ובמידה ולא, האם האסימטריה נובעת מערכים קיצוניים המפוזרים בימין ההתפלגות (אסימטרית חיובית:.(Positive skew בהתפלגות אסימטרית חיובית ערכו של החציון יהיה נמוך מערכו של הממוצע. ערכים קיצוניים הפזורים בצד שמאל של ההתפלגות מאפיינים התפלגות אסימטרית שלילית skew),(negative ובהתפלגות זו הממוצע נמוך מהחציון. סימולו של האומד למדד האסימטריה של פירסון הינו: Ŝ. 3 ערך שלילי מצביע על אסימטריה שלילית, ואילו ערך חיובי מצביע על אסימטריה חיובית. כאשר הערך הינו 0, הממוצע והחציון זהים. טווח של ±0.50 מקובל כמדד מספק להתפלגות סימטרית (כל התפלגות שמדד האסימטריה בטווח זה תחשב כסימטרית) 2000) Pittenger,.(Runyon, Coleman and - Kurtosis לממוצע או פזורות מסביב לו. מדד לגבנוניות של ההתפלגות. מודד באיזו מידה התצפיות בהתפלגות קרובות להתפלגות "פעמון" ערך kurtosis.4 3. התפלגות פעמון קרויה,Mesokurtic התפלגות שטוחה ומפוזרת קרויה,Platykurtic ואילו התפלגות שבה כמעט כל הערכים במרכז ההתפלגות (בצורה מוגזמת) קרויה.Leptokurtic ערכים חיובים מצביעים על התפלגות עם גבנונית סביב הממוצע, ואילו ערכים שליליים מצביעים על התפלגות שטוחה. 4 מסמלים את האומד למדד ב. Ŝ מדדי מיקום יחסי - אחוזונים values) (Percentile המדד רבעונים מפיק שלושה ערכים: רבעון ראשון שהינו למעשה אחוזון (25% 25 מהתצפיות מתחתיו או שוות לו, ו 75% מהתצפיות מעליו או שוות לו)..Q 1 סימולו רבעון שני שהינו למעשה אחוזון 50, וגם החציון. סימולו.Q 2 94
רבעון שלישי שהינו אחוזון 75. 25% מההתפלגות מעליו או שווים לו, ו 75% מההתפלגות מתחתיו או שווים לו. סימולו.Q 3 אחוזונים אלו מחלקים למעשה את המדגם לארבעה חלקים שווים (מבחינת כמות נבדקים). ניתן להפיק אחוזון מדויק שמעוניינים בו, באמצעות Cut points או באמצעות.Percentile(s) אופן הפקת :Cut points לאחר סימון במשבצת הנ"ל, יש לרשום מספר כלשהו במשבצת הבאה: (כרגע רשום בה המספר 10). רבעונים עשירונים (חלוקה לעשר קבוצות שוות גודל). ניתן לרשום כל מספר, לפי כמות הקבוצות הרצויה תרשים 5.4. הפקת רבעונים ועשירונים מתוך.Frequencies בהליך Statistics כתיבת המספר בחלון המתאים יגרום להפקת אחוזונים בפלט, אשר לפיהם ניתן לחלק את קובץ הנתונים לקבוצות שוות גודל, בהתאם למספר שנרשם. לדוגמא, המספר 4 יפיק רבעונים (כפי שמתקבל באפשרות העליונה). המספר 10 יפיק עשירונים, וכך הלאה. הפקת אחוזונים באמצעות מילת המפתח :Percentile(s) לאחר סימון, עליך לרשום בתיבה הרצויה את האחוזון המדויק. לדוגמא, המספר 90 יגרום להפקת האחוזון ה 90 (שיסומל כ P). 90 לאחר רישום המספר, יש להקליק על המילה Add אשר תודגש בצבע שחור. בחירתך תועבר לתיבה הגדולה אשר מתחת ל.Percentile(s) ניתן לחזור על הפעולה כמספר האחוזונים שרוצים. שינויים בערכים שרשמת: בחר באמצעות הלחצן השמאלי של העכבר, את האחוזון בתוך המשבצת הגדולה אליה הועבר (ראה תרשים 5.5). למחיקה, בחר/י את המילה Remove המודגשת. תרשים 5.6.שינוי האחוזונים הרצויים מתוך.Frequencies בהליך Statistics תרשים 5.5. מחיקת האחוזונים הרצויים מתוך Statistics בהליך.Frequencies לשינוי, יש להביא את העכבר אל המספר 90 אשר רשום בתיבת הטקסט מול המילה,Percentile(s) ולרשום במקומו מספר אחר (בדוגמא, 90). בחר/י את מילת המפתח Change (עדכן שינוי) או Add (הוספה). 95
ת. 5.1 סטטיסטיקה תיאורית התפלגות שכיחויות Frequencies קיימת מידה רבה של חפיפה בין האפשרויות השונות של ערכי האחוזונים values).(percentile לדוגמא, ערכי הרבעונים המופקים באמצעות מילת המפתח,Quartiles ניתן להפיק גם ב.Cut points כל אחד מהאחוזונים המופקים באמצעות מילות מפתח "מוכנות" Quartiles),(Cut points, ניתן למעשה להפיק גם על ידי הגדרה מדויקת משלך ב.Percentile(s) 5.1.3 הפקת דיאגראמות במסגרת ההליך Frequencies ניתן להפיק שלושה סוגי דיאגראמה, אשר מטרתם להציג גראפית את ההתפלגות של המשתנים. היסטוגרמה Histogram מיועדת למשתנים כמותיים רציפים. ניתן לבחור את האפשרות הרשומה מתחת לסוגי הדיאגראמות:,Display Normal Curve ועל גבי ההיסטוגרמה תוצג עקומת ההתפלגות הנורמאלית. (אפשרי רק בהיסטוגרמה). דיאגראמת עמודות ("מקלות") Bar chart מיועדת למשתנים כמותיים בדידים, או משתנים בסולם מדידה סודר (אורדינלי). ניתן לקבל.(Percentages או באחוזים (מילת המפתח,(Frequencies דיאגראמת עמודות עם שכיחות מוחלטת במספרים (מילת המפתח דיאגראמת "עוגה" Pie chart מיועדת למשתנים שמיים וסודרים (אורדינליים). יש שים לב, שסימון כל אחת מסוגי הדיאגראמות, הינו באמצעות לחצן עגול ליד כל דיאגראמה. משמעות סימון זו היא שניתן לבחור רק את האפשרות שסומנה. תרשים 5.7 יבת שיח של הפקת דיאגראמות (Charts) בהליך.Frequencies 96
קריאת פלט הדוגמא מתוך קובץ הנתונים: 1991 U.S General Social Survey לפניך דוגמא של טבלת התפלגות שכיחויות למשתנה: באיזו מידה הינך מאושר באופן כללי Happy) - Happiness.(General לשאלה זו היו שלוש תשובות אפשריות: 3. לא כל כך מאושר happy).(not too.2 די מאושר happy) (Pretty.1 מאד מאושר happy) (Very.(No Answer) הינו נתון חסר NA General Happiness Valid Missing Total Very Happy Pretty Happy Not Too Happy Total NA Valid Cumulativ Frequency Percent Percent e Percent 467 30.8 31.1 31.1 872 57.5 58.0 89.0 165 10.9 11.0 100.0 פלט 5.1. פלט התפלגות שכיחויות המופק בהליך 1504 99.1 100.0 13.9 1517 100.0.Frequencies הטורים משמאל לימין: Valid תשובות אפשריות. (שלוש תשובות בדוגמא להלן). ה Total אשר רשום תחת הכותרת Valid הינו סה"כ המשיבים (בדוגמא 1504, בלי נתונים חסרים,(Missing ואילו ה Total מתחת ל Missing הוא סה"כ הנבדקים שעובדו בהליך זה (1517 ). Missing כמות הנבדקים שחסרה להם תשובה. Total סה"כ משיבים לשאלה, או סה"כ נבדקים במדגם. Frequency שכיחות במספרים. לדוגמא, 467 נבדקים ציינו שהם מאד מאושרים. Percent שכיחות באחוזים, מתוך כל הנבדקים שעובדו בהליך זה (מתוך 1517). לדוגמא, 30.8% מתוך כל הנבדקים ציינו שהם מאד מאושרים (החישוב: 100*(1517 467)). / Valid percent שכיחות באחוזים רק מתוך הנבדקים אשר יש להם תשובה, ללא נתונים חסרים (ללא (Missing values (מתוך 1504). לדוגמא, 31.1% מתוך המשיבים לשאלה, הינם מאושרים מאד (החישוב: 1504)*100.((467 / 0.9% נבדקים חסרה להם תשובה (החישוב: 1504)*100.((13 / Cumulative percent אחוז מצטבר. למספר זה משמעות רק במשתנים כמותיים או דרוגיים. האחוז בכל שורה הוא אחוז הנבדקים אשר נמצאים עד לערך המספרי אשר בשורה זו, ומטה. לדוגמא, 89% מהנבדקים הם מאושרים מאד או די מאושרים (החישוב:.((467+872 / 1504)*100 הערה: האחוזים בטבלה מעוגלים לספרה אחת אחרי הנקודה, ובשל כך יתכן שהאחוזים יסתכמו ל 101% או 99%. 97
5.1 סטטיסטיקה תיאורית התפלגות שכיחויות Frequencies פלט מדדי מרכז ופיזור: Statistics Age of Respondent N Valid Missing ממוצע Mean טעות תקן של הממוצע Std. Error of Mean Median שכיח Mode סטית תקן Std. Deviation שונות Variance אסימטריה Skewness טעות תקן של מדד האסימטריה Std. Error of Skewness גבנוניות Kurtosis טעות תקן של מדד הגבנוניות Std. Error of Kurtosis תחום Range מינימום - הגיל הנמוך ביותר בהתפלגות הגילאים Minimum מקסימום - הגיל הגבוה ביותר בהתפלגות הגילאים Maximum סכום השנים של כל הנבדקים במדגם Sum אחוזון = 25 רבעון ראשון Percentiles 25 אחוזון 33 שליש נמוכים ממנו בגיל או שווים לו ושני שליש גבוהים ממנו 33.33333333333 אחוזונים רבעון שני = החציון 50 אחוזון 66 שני שליש נמוכים ממנו או שווים לו ושליש גבוהים ממנו 66.66666666667 אחוזון = 25 רבעון שלישי 75 P90 אחוזון 90 1514 3 45.63.458 41.00 35 17.808 317.140.524.063 -.786.126 71 18 89 69078 32.00 35.00 41.00 52.00 60.00 73.00 פלט 5.2. פלט מדדים סטטיסטיים נלווים להתפלגות שכיחויות המופק בהליך (המושגים בעברית רשומים בתוך הטבלה). לפניך היסטוגרמה עבור המשתנה גיל הנבדק..Frequencies חציון Median שכיח Mode ממוצע Mean Histogram 100 80 Frequency 60 40 20 0 20 40 60 80 Mean =45.63 Std. Dev. =17.808 N =1,514 Age of Respondent פלט 5.3. היסטוגרמה המופקת בהליך.Frequencies הערה: הקווים האנכיים בהיסטוגרמה אינם מופקים כברירת מחדל. 98
מה ניתן ללמוד מהפלט על המשתנה גיל? על גבי ההיסטוגרמה סומנו שלושת מדדי המרכז: ממוצע, חציון ושכיח. משמאל לימין, הערך הראשון הינו השכיח (35 = (Mo והוא מיוצג בעמודה הגבוהה ביותר בהיסטוגרמה, שבה נמצאת הקבוצה הגדולה ביותר של הנבדקים. הקו מימין לו הוא החציון (41 =.(Med הקו הימני ביותר הוא הממוצע ) 45.63 = X ). שלושת ערכי המרכז שונים זה מזה, עובדה שמצביעה על כך שההתפלגות אינה נורמאלית (בהתפלגות נורמאלית הממוצע, החציון והשכיח זהים). ההיסטוגרמה מלמדת כי הגיל אינו מתפלג בצורה נורמאלית. העובדה שהחציון נמוך מהממוצע מאפיינת אסימטריה חיובית, אשר נראית גם בהיסטוגרמה skew).(positive ערכו של מדד האסימטריה (Skweness) חיובי, והינו 0.524 (ראה פלט 5.2). לפניך דיאגראמת עמודות עבור המשתנה של שביעות רצון מהחיים. General Happiness 60 50 40 Percent 30 20 10 0 Very Happy Pretty Happy General Happiness Not Too Happy פלט 5.3. דיאגראמת עמודות המופקת בהליך.Frequencies ניתן לראות בדיאגראמה כי הקבוצה הגדולה ביותר היא של אנשים שהם "די מאושרים", ומיעוט של נבדקים שציינו כי אינם מאושרים. 99
5.1 סטטיסטיקה תיאורית התפלגות שכיחויות Frequencies Frequencies תרגיל 1 בנושא קובץ העבודה: 1991 U.S. General Social Survey הקובץ שלפניך מוגדר באנגלית. יש להפוך את כל ה Variable labels,value labels של המשתנים אותם הינך מעבד/ת, לעברית. 1. הפק/י התפלגות שכיחויות למשתנה מין. מהו אחוז הגברים ומהו אחוז הנשים בהתפלגות זו, מתוך המשיבים אחוז גברים אחוז נשים 2. הפק/י התפלגות שכיחויות למשתנה השכלה (educ) וכן גם מדדים של רבעונים, ממוצע, חציון. השב/י: ה. מהו ממוצע שנות ההשכלה מהי רמת ההשכלה ש 25% נמוכים ממנה מהי רמת ההשכלה ש 25% גבוהים ממנה מהו החציון של רמת השכלה? מה מספר הנבדקים שחסרים להם נתונים על רמת השכלה 3. הפק/י התפלגות שכיחויות Frequencies למשתנה.(life) מהו אחוז הנבדקים שלא השיבו על השאלה מהו אחוז הנבדקים, מתוך המשיבים, שסבורים שהחיים מלהיבים מהו אחוז הנבדקים, מתוך כל המדגם, שסבורים שהחיים שגרתיים מהו אחוז הנבדקים, מתוך המשיבים, שסבורים שהחיים משעממים ה. 4. הפק/י התפלגות שכיחויות למשתנה מספר אחים ואחיות,(Sibs) וכן מדדי ממוצע, חציון, רבעונים, אחוזון 80. מהו הממוצע מהו החציון מהו ערכו של רבעון ראשון מהו ערכו של רבעון שלישי מהו ערכו של האחוזון ה 80 5. הפק/י התפלגות שכיחויות למשתנה מספר ילדים.Childs מהו אחוז הנבדקים, מתוך כל המדגם, שיש להם 8 ילדים ויותר מהו אחוז הנבדקים, מתוך המשיבים, שאין להם ילדים כלל מהו אחוז הנבדקים שיש להם עד 3 ילדים כולל 6. הפק/י Frequencies למשתנה רמת השכלה של האימא,(maeduc) והשב/י: מהו האחוזון ה 90 מהו הממוצע מהו אחוז הנבדקים אשר לאמהותיהם עד 12 שנות השכלה (כולל) 100
פתרון תרגיל 1 בנושא Frequencies קובץ העבודה: 1991 U.S. General Social Survey הקובץ שלפניך מוגדר באנגלית. יש להפוך את כל ה Variable labels,value labels של המשתנים אותם הינך מעבד/ת, לעברית. 1. הפק/י התפלגות שכיחויות למשתנה מין. מהו אחוז הגברים ומהו אחוז הנשים בהתפלגות זו, מתוך המשיבים אחוז נשים 58.1% אחוז גברים 41.9% 2. הפק/י התפלגות שכיחויות למשתנה השכלה (educ) וכן גם מדדים של רבעונים, ממוצע, חציון. השב/י: 7 נבדקים ה. מהו ממוצע שנות ההשכלה 12.88 מהי רמת ההשכלה ש 25% נמוכים ממנה 12 מהי רמת ההשכלה ש 25% גבוהים ממנה 15 מהו החציון של רמת השכלה? 12 מה מספר הנבדקים שחסרים להם נתונים על רמת השכלה? 3. הפק/י התפלגות שכיחויות Frequencies למשתנה.(life) מהו אחוז הנבדקים שלא השיבו על השאלה 35.4% מהו אחוז הנבדקים, מתוך המשיבים, שסבורים שהחיים מלהיבים 44.3% מהו אחוז הנבדקים, מתוך כל המדגם, שסבורים שהחיים שגרתיים 33.3% מהו אחוז הנבדקים, מתוך המשיבים, שסבורים שהחיים משעממים 4.2% 4. הפק/י התפלגות שכיחויות למשתנה מספר אחים ואחיות,(Sibs) וכן מדדי ממוצע, חציון, רבעונים, אחוזון 80. ה. מהו הממוצע 3.93 מהו החציון 3 מהו ערכו של רבעון ראשון 2 מהו ערכו של רבעון שלישי 5 מהו ערכו של האחוזון ה 6 80 5. הפק/י התפלגות שכיחויות למשתנה מספר ילדים.Childs מהו אחוז הנבדקים, מתוך כל המדגם, שיש להם 8 ילדים ויותר 1.1% מהו אחוז הנבדקים, מתוך המשיבים, שאין להם ילדים כלל 27.8% מהו אחוז הנבדקים שיש להם עד 3 ילדים כולל 83.8% 6. הפק/י Frequencies למשתנה רמת השכלה של האימא,(maeduc) והשב/י: מהו האחוזון ה 15 90 מהו הממוצע 10.79 מהו אחוז הנבדקים אשר לאמם עד 12 שנות השכלה (כולל) 78.3% תרגילים נוספים לנושאים בספר ניתן למצוא באתר: www.sarid-ins.co.il 101