Prerequisites for the MBA course: Statistics for managers".



Σχετικά έγγραφα
5.4 The Poisson Distribution.

Math 6 SL Probability Distributions Practice Test Mark Scheme

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

HISTOGRAMS AND PERCENTILES What is the 25 th percentile of a histogram? What is the 50 th percentile for the cigarette histogram?

Μηχανική Μάθηση Hypothesis Testing

ST5224: Advanced Statistical Theory II

Statistical Inference I Locally most powerful tests

Areas and Lengths in Polar Coordinates

Section 8.3 Trigonometric Equations

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

חורף תש''ע פתרון בחינה סופית מועד א'

Areas and Lengths in Polar Coordinates

Homework 3 Solutions

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

EE512: Error Control Coding

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

הרצאה. α α פלוני, וכדומה. הזוויות α ל- β שווה ל-

Solution Series 9. i=1 x i and i=1 x i.

תרגול מס' 6 פתרון מערכת משוואות ליניארית

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

פתרון תרגיל מרחבים וקטורים. x = s t ולכן. ur uur נסמן, ur uur לכן U הוא. ur uur. ur uur

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Other Test Constructions: Likelihood Ratio & Bayes Tests

Probability and Random Processes (Part II)

א הקיטסי ' טטסל אובמ רלדנ הינור בג ' 1

התפלגות χ: Analyze. Non parametric test

2 Composition. Invertible Mappings

תרגול 1 חזרה טורי פורייה והתמרות אינטגרליות חורף תשע"ב זהויות טריגונומטריות

C.S. 430 Assignment 6, Sample Solutions

= 2. + sin(240 ) = = 3 ( tan(α) = 5 2 = sin(α) = sin(α) = 5. os(α) = + c ot(α) = π)) sin( 60 ) sin( 60 ) sin(

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

ל הזכויות שמורות לדפנה וסטרייך

תשובות מלאות לבחינת הבגרות במתמטיקה מועד ג' תשע"ד, מיום 0/8/0610 שאלונים: 315, מוצע על ידי בית הספר לבגרות ולפסיכומטרי של אבירם פלדמן

APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 651 APPENDIX B. BIBLIOGRAPHY 677 APPENDIX C. ANSWERS TO SELECTED EXERCISES 679

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

the total number of electrons passing through the lamp.

Instruction Execution Times

Matrices and Determinants

SOLUTIONS TO MATH38181 EXTREME VALUES AND FINANCIAL RISK EXAM

תרגול פעולות מומצאות 3

Biostatistics for Health Sciences Review Sheet

סיכום בנושא של דיפרנציאביליות ונגזרות כיווניות

ןמנירג ןואל \ הקיטסיטטס הקיטסיטטסב הרזח ה יפד ךותמ 14 דו 1 מע

פתרון תרגיל 8. מרחבים וקטורים פרישה, תלות \ אי-תלות לינארית, בסיס ומימד ... ( ) ( ) ( ) = L. uuruuruur. { v,v,v ( ) ( ) ( ) ( )

Homework 8 Model Solution Section

Charles Augustin COULOMB ( ) קולון חוק = K F E המרחק סטט-קולון.

Lecture 34 Bootstrap confidence intervals

2. THEORY OF EQUATIONS. PREVIOUS EAMCET Bits.

Queensland University of Technology Transport Data Analysis and Modeling Methodologies

Inverse trigonometric functions & General Solution of Trigonometric Equations

Statistics & Research methods. Athanasios Papaioannou University of Thessaly Dept. of PE & Sport Science

Review Test 3. MULTIPLE CHOICE. Choose the one alternative that best completes the statement or answers the question.

א הקיטסי ' טטסל אובמ רלדנ הינור בג '

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Solutions to Exercise Sheet 5

Homework for 1/27 Due 2/5

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

גבול ורציפות של פונקציה סקלרית שאלות נוספות

Example Sheet 3 Solutions

לדוגמה: במפורט: x C. ,a,7 ו- 13. כלומר בקיצור

סיכום- בעיות מינימוםמקסימום - שאלון 806

ניהול תמיכה מערכות שלבים: DFfactor=a-1 DFt=an-1 DFeror=a(n-1) (סכום _ הנתונים ( (מספר _ חזרות ( (מספר _ רמות ( (סכום _ ריבועי _ כל _ הנתונים (

1. A fully continuous 20-payment years, 30-year term life insurance of 2000 is issued to (35). You are given n A 1

PARTIAL NOTES for 6.1 Trigonometric Identities

Partial Differential Equations in Biology The boundary element method. March 26, 2013

תרגיל 13 משפטי רול ולגראנז הערות

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

Math221: HW# 1 solutions

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

The Simply Typed Lambda Calculus

6.3 Forecasting ARMA processes

derivation of the Laplacian from rectangular to spherical coordinates

{ } { } { A חוקי דה-מורגן: הגדרה הסתברות מותנית P P P. נוסחת בייס ) :(Bayes P P נוסחת ההסתברות הכוללת:

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Problem Set 3: Solutions

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

CE 530 Molecular Simulation

4.6 Autoregressive Moving Average Model ARMA(1,1)

Finite Field Problems: Solutions

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

Second Order Partial Differential Equations

Strain gauge and rosettes

אלקטרומגנטיות אנליטית תירגול #2 סטטיקה

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Concrete Mathematics Exercises from 30 September 2016

Section 7.6 Double and Half Angle Formulas

Business English. Ενότητα # 9: Financial Planning. Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων

( ) 2 and compare to M.

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

- הסקה סטטיסטית - מושגים

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

6. MAXIMUM LIKELIHOOD ESTIMATION

brookal/logic.html לוגיקה מתמטית תרגיל אלון ברוק

Transcript:

Prerequisites for the MBA course: Statistics for managers". The purpose of the course "Statistics for Managers" is to get familiar with the basic concepts required for statistical reasoning: Types of Analyses, Graphical methods, Statistical significance, Statistical error, Relationships among variables, Regression. The course does not include the technical details which are required from statisticians, but is aimed to get an understanding of the principles underlying statistical methods, particularly the methods that are useful for managesrs. In the course, guidelines will be presented how to avoid typical errors that lead to wrong conclusions of statistical results. Most textbooks titled "BUSINESS STATISTICS" include material beyond that which is covered in the current course. The pre-requisite for this course are basic concepts of probability. In particular : distributions of discrete and continuous variables, The Binomial Distribution, The Normal Distribution, ( how to obtain percentiles from tables). Descriptive statistics : Mean, Standard deviation. The Histogram Students will be required to pass a test on the pre-requisite topics. An attached file includes a sample of questions to give you an idea on what is expected in this test. Students whose previous degrees were in Statistics or Economics are exempted from this course. Exemptions are not given to those students who only took probability courses. The book : Business Statistics by Johnson R.A. & Wichern D.W, Wiley (1997) is one of numerous books on "BUSINESS STATISTICS" The internet includes many websites, (among them the WIKIPEDIA). The site : http://psych.colorado.edu/~mcclella/java/zcalc.html is an example of a useful demonstration on the NORMAL DISTRIBUTION properties. The Site: http://www.stat.sc.edu/~west/javahtml/histogram.html 1

is a nice visual example of using histograms The attached files in Hebrew are parts of a book in Hebrew available in the library of our faculty, titled : Basic Statistical Concepts and Their Applications, by Ayala Cohen.

הצגות גרפיות בהינתן אוסף של נתונים בצורה גולמית, קשה מאד ולמעשה לרוב לא ניתן לקבל מסקנות מהנתונים הגולמיים העיבוד של אוסף נתונים נדרש הן כאשר האוסף לפיכך, מעבדים את הנתונים. על ידי הסתכלות באוסף. בעיבוד, מקובל לתמצת מידע ולחשב ערכים מהווה מדגם מאוכלוסיה והן כשהאוסף הוא על כל האוכלוסיה. כמו: ממוצע הנתונים (אם הנתונים מספריים), שכיחות יחסית של מקרים אם מדובר מאפיינים מסכמים. היתרון בתימצות הוא שקל לנו לקלוט מידע כזה ולעתים קרובות הוא מספק את המטרה בנתונים קטגוריים. שלשמה נאספו הנתונים. סטטיסטיקה תאורית כוללת שיטות גרפיות שמטרתן להציג אוסף נתונים בצורה שתאפשר בקלות לראות לעתים קרובות, משתמשים בשיטות התאוריות כשלב ראשוני בעיבוד סטטיסטי ואחר מאפיינים של הנתונים. בהמשך נתאר מספר שיטות גרפיות לתאור נתונים. כך עוברים לשיטות מתוחכמות יותר של הסקה סטטיסטית. השיטה המתאימה תלויה בדרך כלל בסוג הנתונים. לשימוש בשיטות גרפיות מתאימות יתרון רב שכן מהגרף לא בכדי מקובלת האימרה שתמונה אחת שווה לעתים יותר מאלף מלים. ניתן ללמוד על מבנה הנתונים. סוגי משתנים משתנה כמותי מקבל ערכים מספריים כך שיש משמעות יש להבדיל בין משתנים כמותיים ומשתנים איכותיים. ניתן גם ליחס משמעות לסכום המספרים הללו ולהפרשם. יש משתנים שמקבלים ערכים מספריים אך לגודלם. למשל: מספר תעודת זהות, אין משמעות למספרים הללו ואין טעם לדבר על הפרשים או סכומים שלהם. דוגמאות למשתנה איכותי: דוגמאות למשתנה כמותי הן: גובה, משקל, שכר חודשי, מספר ילדים. מיקוד. במשתנה איכותי אין מה הגודל? כאשר דנים במשתנה כמותי יש משמעות לשאלה: כמה? צבע שיער, מגדר. כאשר בידינו נתונים על משתנה איכותי. איזה סוג אך יש משמעות לשאלה: משמעות לשאלה זו, (qualitative) ניתן לסווג את הנבדקים לפי הקטגוריות השונות שמקבל המשתנה האיכותי. לכן נהוג לומר על משתנה איכותי שהוא משתנה קטגורי.(categorical) משתנה קטגורי גם נקרא משתנה נומינלי (שמי- בעברית). משתנה אורדינלי לדוגמא משתנה המקבל 5 ערכים אפשריים: זהו משתנה שמקבל מספר ערכים שיש משמעות לסדר ביניהם. עבור טמפרטורה ניתן לומר שהפרש למשל: גרוע, בינוני, טוב, טוב מאד, מצוין. משתנה אינטרבלי זהו משתנה הנמדד בסקלה שיש בה משמעות להפרש. 4 מעלות צלסיוס. הטמפרטורה שנמדדה בשני מקומות היה משתנה מנה זהו משתנה הנמדד בסקלה שיש בה אפס אבסולוטי.כאשר מתיחסים למשתנה מנה יש משמעות לומר דוגמא מהתוצאה לנבדק אחר. ) למשל פי שנים) שהתוצאה לגבי נבדק מסוים היא פי פקטור מסוים אפשר לומר שגובהו של נבדק A הוא פי 1. מגובהו של נבדק B. למשתנה כזה הוא גובה. נהוג גם לסווג משתנים שמקבלים ערכים מספריים ל- סוגים: משתנים שמקבלים רק ערכים מספריים בדידים, וכאלה המקבלים ערכים רציפים. דוגמא למשתנה בדיד (discrete) הוא: מספר ממתינים בתור (יכול לקבל ערכים...,0,1, אך לא 3/ למשל). משתנה רציף( continuous ) יכול לקבל כל ערך בתחום מסוים. למשל: גובה, טמפרטורה, משקל. צורת הניתוח הסטטיסטי המתאימה תלויה בסוג המשתנה הנמדד.בפרט, הצגות גרפיות שונות מתאימות לסוגי משתנים שונים 3

דיאגרמת מקלות Bar diagram הצורה הגרפית הפשוטה המקובלת בעתונות הפופולרית היא דיאגרמת מקלות צורה זו מתאימה לתאר סוגי נתונים. סוג אחד, כאשר המשתנה הנמדד הוא קטגורי, סוג שני למשתנה כמותי בדיד. בדיאגרמת מקלות כמתואר בדוגמא המצ"ב, גובהו של כל מקל (bar) פרופורציונלי לשכיחות המקרים באותה הקטגוריה. בדוגמא שלפנינו ) גרף מספר 7) התפלגות מכירות מוצר לפי מותג סה"כ ת ט ד ב 108 86 71 17 59 גרף מספר 7 המשתנה הקטגורי קיבל 4 ערכים ת אפשריים. ט השכיחות ד הגבוהה ביותרב היתה לקטגוריה ד. במונחים סטטיסטיים נאמר שזהו השכיח.mode בדוגמא זו יש הבדל יחסי גדול בין מספר המקרים ) השכיחות) בקטגוריה השכיחה לבין השכיחות בקטגוריה השנייה בגודלה מבחינת השכיחות (ת. לעומת ד.). דיאגרמת מקלות מתאימה כאמור, הן לתיאור נתונים עבור משתנה קטגורי והן לתיאור עבור משתנה בדיד מספרי. לדוגמא בדקו בבית חרושת 150 יריעות בד שכל אחת מהן בעלת שטח של 10 מ"ר וסיווגו כל אחת מהיריעות לפי מספר הפגמים ביריעה. ) גרף מספר 8) סה"כ 5+ 0 1 3 4 מס' פגמים 15 10 5 64 6 3 150 שכיחות 4

גרף מספר 8 0 1 3 4 5+ השכיח במקרה זה הוא 3 פגמים. לעומת זאת, למשתנה במשתנה קטגורי, בדיאגרמת המקלות מיקום המקלות על הציר האפקי הוא שרירותי. בדיד מספרי, בדיאגרמת המקלות יש משמעות למיקום המקל ולמרחקים בין המקלות. דיאגרמת מקלות נותנת אם המדגם מייצג את האוכלוסיה, נצפה שהשכיחויות תמונה על התפלגות המדגם למשתנה קטגורי ובדיד. היחסיות במדגם תהיינה "קרובות" לשכיחיות המתאימות באוכלוסיה. לדוגמא נסתכל בטבלה בעזרת דיאגרמת מקלות ניתן להציג בצורה גרפית תוצאות המובאות בטבלת סמיכות. שתארה את הקשר בין דעתם של בעלי מניות לבין המשתנה המתאר את מספר המניות ) 7 פרק 1) מס כך נקבל על ציר ה- X -ים נתאר לכל שורה את התפלגות הדעות (בעד, נגד, אדיש). שמחזיק בעל המניה.. 9 למעשה 3 קבוצות כמתואר בגרף מספר גרף מספר 9 frequency 60 50 40 30 0 10 f o u f o u f o u a p n a p n a p n v p d v p d v p d o o e o o e o o e r s c r s c r s c e i e i e i d d d e e e d d d ההצגה הגרפית ממחישה את ההבדל בין אלה שיש להם מספר מניות קטן יחסית לבין אלה שלהם הרבה bar) ( הגבוה ביותר הוא בקטגוריה under המקל 00 בגרף, המתאים לאלה 00-1000 שלהם מעט מניות, over השמאלי 1000 מניות. בחלק "בעד", בעוד עבור בעלי מספר מניות רב, המקל הגבוה ביותר הוא המתאים למתנגדים. הצגה זו גם מראה שבכל 3 הקטגוריות לפיהן סווגו בעלי המניות יש יחסית מעט כאלה שלא החליטו (undecided) 5

היסטוגרמה (שיטה לתאור נתוני משתנה רציף) מעשית, מעגלים נתוני כאשר המשתנה יכול לקבל עקרונית כל ערך בתחום מסוים, אנו מגדירים אותו כרציף. בניגוד למשתנה בדיד, למשתנה רציף יכללו הנתונים לרוב מספר רב של ערכים השונים זה משתנה רציף. לפיכך, במרבית המקרים לא סביר להשתמש בדיאגרמת מקלות. (נקבל מספר רב של מקלות קטנים מזה. נסמן ב- X את המשתנה הרציף. במקרה זה נשתמש בתיאור גרפי הנקרא היסטוגרמה. כמעט כמספר הנתונים). את נתוני X נתאר בהיסטוגרמה. נתאר את הצעדים בבנית היסטוגרמה: נחשב את טווח ערכי X (המינימום והמכסימום של הנתונים). 1. האינטרבל יהיה "קרוב" נחלק אינטרבל המכיל את הטווח למרווחים, לאו דווקא מרווחים שוים).. לטווח ומכיל אותו. נניח מספר זה למרווח בכל מרווח נמנה את שכיחות (מספר) ערכי X באוסף הנתונים שנפלו במרווח. 3. I i הוא.n i... X min X max נחשב את השכיחות היחסית של המקרים במרווח זה המוגדרת על ידי: f i = n i /n כאשר: n = Σn i נתאר את התוצאות בצורה גרפית באופן הבא: בציר האופקי נסמן את המרווחים. הקצה השמאלי של המרווח הראשון יהיה האחרון יהיה X min X max או ערך קרוב לו הקטן ממנו, בעוד הקצה הימני של המרווח או ערך קרוב לו הגדול ממנו. בכל מרוח I i ל- f. i אם כל המרווחים שווים באורכם יהיה גובה כל מלבן פרופורציונלי ל- f. i השטח הכולל של ההיסטוגרמה יהיה לפיכך פרופורציונלי ל- = 1 i.σf נבנה מלבן ששטחו פרופורציונלי.4 בחירת מספר המרווחים ומיקומם על הציר האפקי תלויה במספר התצפיות, ופיזורן. אם נקח מרווחים גדולים מדי (יחסית לנתונים) נפסיד מידע על פיזור התצפיות בתוך המרווחים. לעומת זאת, אם נחלק את הנתונים למספר רב יחסית של מרווחים נקבל מספר קטן יחסית של תצפיות במרווח,תהיינה קפיצות גדולות בגובהי המלבנים וקשה יהיה ללמוד על מבנה ההתפלגות. תהליך הבניה של ההיסטוגרמה יכול להעשות במספר שלבים כאשר בנסיון ראשון משתמשים במספר רב יחסית של מרווחים ואחר כך מלכדים מרווחים ומצמצמים את מספרם. בדוגמא ה- 1 המוצגת, חולק הציר האופקי ל- 14 מרווחים בגודל שווה (של 5 יחידות). הגובה בהסטוגרמה פרופורציונלי לשכיחות. בגלל הרוחב השווה, 6

interval frequency [0,5) 1 [5,10) 7 [10,15) 3 [15,0) 4 [0,5) 8 [5,30) 11 [30,35) 7 [35,40) 4 [40,45) [45,50) 1 [50,55) 0 [55,60) 1 [60,65) 0 [65,70) 1 1 10 Frequency 8 6 4 0 -.5.5 7.5 1.5 17.5.5 7.5 3.5 37.5 4.5 47.5 5.5 57.5 6.5 67.5 More נסיון שני להציג אותם נתונים בהיסטוגרמה פחות מפורטת נעשה על ידי חלוקה למרווחים גדולים יותר (בגודל 10 יחידות). גם כאן החלוקה היתה למרווחים שוים. 7 interval frequency [0,10) 8 [10,0) 7 [0,30) 19 [30,40) 11 [40,50) 3 [50,60) 1 [60,70) 1 Total 50

Frequency 0 18 16 14 1 10 8 6 4 0-5 5 15 5 35 45 55 65 75 More : בדוגמה הבאה, מוצגת היסטוגרמה שבה מספר המרווחים גדול מדי לעומת זאת, אותם נתונים הוצגו בהיסטוגרמה שבה מספר קטן מדי של מרווחים : 8

קשה לקבוע כלל לפיו ניתן לבחור בחלוקה אופטימלית. שנראית מתאימה לתיאור הנתונים. ובדרך כלל ע"י ניסיון וטעייה נמצאת ההיסטוגרמה בדוגמא הבאה מובאת היסטוגרמה ) גרף מספר 10) כאשר בסיסי המלבנים אינם ברוחב שווה. שכיחות המקרים בין 40 ל- 60 היא פי מזו בין 0 ל- 40. שכיחות המקרים בין 10 ל- 180 היא פי 3 מזו בין 40 ל- 60 כי אמנם גובה המלבן שנבנה על הבסיס בין 40 ל- 60 שווה לגובה המלבן שנבנה על הבסיס בין 10 ל- 180, אך השטח גדול פי 3 במלבן הרחב יותר. גרף מספר 10 הדוגמא הבאה גרף מספר ) (11 מתארת Revenue היסטוגרמה המבוססת על מדגם של 148 נשים מאחר והשטח פרופורציונלי לשכיחות, נוכל לומר למשל ש-% הנשים שלהם לחץ דם גבוה מ- 135 מ"מ קרוב יותר ל- 5% מאשר ל- 50%. 0 60 10 500 9

גרף מספר 11 4 3 1 0 80 90 100 110 10 130 140 150 160 כזכור, החציון מוגדר כאותו ערך שמחצית המקרים קטנים או שוים לו, ומחצית המקרים גדולים ממנו. החציון הוא למעשה אותו ערך שמחלק את ההיסטוגרמה ל- חלקים ששטחם שווה. לכן כאשר מספר התצפיות הולך וגדל, ניתן להקטין את רוחב האינטרבלים והעקום המתקבל דומה לעקום רציף. ) ראה גרף 1) פונקציה זו נקראת בגבול, כאשר האוכלוסיה אינסופית, ניתן לתאר את "ההיסטוגרמה" כפונקציה רציפה. השטח מתחת לעקומה המתוארת ע"י הפונקציה שווה לאחד. השטח מתחת הצפיפות.density function על ציר ה- X -ים (האורדינטה) מתאר את השכיחות היחסית [b,a] לעקומה שבסיסו הוא האינטרבל באוכלוסיה אינטרבלים באותו אורך ] a], b אם נשווה b. לבין a של אלה שעבורם ערך המשתנה הוא בין ואם באינטרבל האחד השטח מתחת לעקומת הצפיפות גדול יותר לעומת השני אזי ניתן לומר ] 1 a] 1, b ושם השכיחות היחסית גדולה יותר. שבאינטרבל הראשון צפוף יותר density) (higher גרף מספר 1 0.10 100 0.08 80 0.06 60 0.04 40 0.0 0 10 -.8-0.6 1.6 3.8

ההתפלגות הנורמלית ההתפלגות של תופעות רבות כמו: גובה, משקל, רמת משכל, רמת כולסטרול ניתנות לתיאור ע"י פונקצית צפיפות סימטרית הנקראת ההתפלגות הנורמלית. זו פונקציה בעלת צורה סימטרית הנראית כפעמון ולכן גם נקראת פונקצית הפעמון. הפונקציה גם נקראת העקום של גאוס. אם משתנה מקרי X הוא בעל התפלגות נורמלית (כמו גובה, רמת משכל, ואם הממוצע שלו באוכלוסיה הוא μ (פרמטר באוכלוסיה אנו מציינים כזכור באות יוונית) והשונות שלו באוכלוסיה, אזי ניתן לתאר בנוסחה הבאה את פונקצית הצפיפות שלו. היא מוגדרת לכל < x < - ושווה ל: f (x) = 1 1 exp π (x μ) (1) כפי שניתן לראות מהנוסחה, הפונקציה הזו סימטרית סביב, ומקבלת את הערך המכסימלי בנקודה μ. x = μ משמעות הדבר מבחינה סטטיסטית הוא שסביב הערך באוכלוסיה היא הגבוהה ביותר. שטוח יותר ופיזור השכיחות סביב μ μ הוא השכיח.(mode) צפיפות המקרים (שכיחות המקרים) ככל ש- μ גדול יותר. ) ראה גרף מספר 1) גדולה יותר, הפעמון גרף מספר 1 כדי להעריך מה שכיחות המקרים בכל אינטרבל שהוא [b,a] שבסיסו הוא הקטע [b,a]. זהו האינטגרל עלינו לחשב את השטח מתחת לעקומה, 11

b f (x)dx a () [b,a]. שנקבל בדגימה אקראית מאוכלוסיה זו יהיה באינטרבל האינטגרל שווה להסתברות שהערך X שווה לשטח מתחת x = μ, μ השטח מתחת לעקומה משמאל לערך סביב f(x) בגלל הסימטריה של. μ מאחר והשטח מבטא שכיחות יחסית פרושו שהסיכוי ש- X יהיה בעל ערך קטן לעקומה מימין לערך שווה לא רק לממוצע μ שווה לסיכוי ש- X יהיה בעל ערך גדול מ- μ ולכן לפי הגדרת החציון μ שווה ל-. = 1 משתנה שהתפלגותו כזו, נקרא =0 μ אלא גם לחציון. מקרה פרטי חשוב של ההתפלגות הנורמלית הוא כאשר נורמלי סטנדרטי ומסמנים אותו ב- Z. הסימון המקובל לציון משתנה נורמלי X עם ממוצע μ ושונות X ~ N(μ, ) הוא Z שהוא נורמלי סטנדרטי, אומר ש- X הוא משתנה המתפלג התפלגות נורמלית. לכן על N~ הסימן נרשום Z ~ N(0,1) כך ש: עבור כל משתנה נורמלי X, אם נבצע טרנספורמציה ליניארית למשתנה. X Y = ax + b אזי גם Y יתפלג נורמלי ) התפלגות פעמון). אבל, צורת הפעמון של Y תהיה שונה מזו של אם X ~ N(μ, ) אזי כפי שראינו, זאת, הפעמון של והשונות של Y למכפלה של הפעמון של X יהיה סימטרי סביב μ והפיזור סביבו יהיה בהתאם לגודל. לעומת Y תהיה יהיה סימטרי סביב aμ + b a,כך שסטית התקן תהיה. a כלומר, סטית התקן של Y a בסטית התקן של מכאן נובע (ניתן להוכיח בקלות) שאם אזי X ~ N(μ, ) X μ ~ N(0,1). X קומבינציות ליניאריות של משתנים נורמליים גם כן מתפלגות נורמלי לכן אם שווה Y = a 1 X 1 + a X אזי גם Y יהיה מפולג נורמלית. כדי לחשב את ההסתברות שמשתנה נורמלי X יקבל ערכים בתחום מסוים [b,a] ראינו שצריך לחשב את השטח מתחת לעקומה f(x) באינטרבל [b,a]. האינטגרל שיש לחשב לא ניתן לפתרון סגור אך בעזרת טבלאות מתאימות המצויות במרבית ספרי הסטטיסטיקה ניתן לקבל את התוצאה. 1

בעקרון, יש אינסוף התפלגויות נורמליות השונות ביניהן בהתאם למיקומן (μ) ולרוחב הפעמון (). בטבלאות אשר בספרים נתון האינטגרל המתאים להתפלגות נורמלית סטנדרטית (0,1)N Z ~ ומהן קל לקבל b a f (x)dx = b a. 1 1 exp π ושל μ את התשובה באופן כללי לכל קומבינציה של נראה כיצד זה נעשה: (x μ) dx = z = x μ b μ = ` a μ x 1 exp π 1 (z) dz המעבר מהאינטגרל השני לשלישי נעשה על ידי שינוי משתנה האינטגרציה מ- כלומר אם ל- אזי החישוב של הסיכוי לקבל Z, = 5 μ = 10 104 = b לכן לדוגמא, אם 5) N(100,, X ~ ערך X בין = a 10 לבין נעשה על ידי חישוב הסיכוי לקבל ערך בין a μ 10 100 = = 0.4 5 b μ 104 100 = = 0.8 5 Φ(c) = c, c ערכו של האינטגרל, 1 e n 1/ (z ) dz לבין כיצד נחשב ערך זה? בטבלאות, נתון לכל ערך זהו הסיכוי שמשתנה מקרי נורמלי סטנדרטי יקבל ערך קטן או שווה לגודל c וזהו השטח בעקומה הנורמלית סטנדרטית שנמצא משמאל לערך c. φ(c ) - φ(c 1 ) c 1 < c c c 1 Z (3) הסיכוי שהמשתנה יקבל ערך בין בדוגמא שלנו: ההסתברות לקבל ערך בין לבין ל כאשר שווה ל: יהיה לפיכך 0.8 0.4 φ(0.8) - φ(0.4)=0.7881-0.6554= 0.137 Z השטח בעקומה נורמלית סטנדרטית שנמצא בין הערך 0 לבין הערך 1 הוא 0.34. כלומר, הסיכוי שמשתנה נורמלי סטנדרטי יקבל ערך בין 0 ל- 1 הוא 0.34. מטעמי סימטריה זה גם הסיכוי שמשתנה נורמלי סטנדרטי יקבל ערך בין מינוס 1 לבין 0. לכן, 68% מהשטח של עקום נורמלי סטנדרטי נמצא בין 1- כפי שהזכרנו, עבור משתנה נורמלי שתוחלתו ושונותו,הסיכוי שיהיה בין ל- 1. a ל- b הוא כמו b μ. μ a μ הסיכוי שמשתנה Z יהיה בין לבין 13

a = μ X ~ N(μ, ) ניתן לבטא זאת בצורה הפוכה. הסיכוי שמשתנה יהיה בין לבין b = μ + הוא כמו הסיכוי ש- Z יהיה בין a μ μ μ = = 1 לבין b + μ μ + μ = = 1 כפי שראינו, סיכוי זה שווה ל- 68%. את התוצאה שהראינו ניתן לסכם: (μ -, μ + ) לכל משתנה נורמלי ) X ~ N(μ, הסיכוי שהוא יקבל ערך בתחום הוא.68%. μ + חישוב דומה, מראה לגבי השטח הנמצא בין μ - לבין שם מראה התוצאה שבקירוב רב - 95% הוא הסיכוי שאם ) X ~ N(μ, אזי X יהיה באינטרבל [μ -, μ + ].95.5% μ + הערך המדויק של אחוז השטח השטח הנמצא בין μ - לבין הוא נציין לבסוף שהסיכוי ש- X יהיה באינטרבל 3] [μ - 3, μ + הוא. 99.7% הכלל המסכם את התוצאות הנ"ל ידוע ככלל של: ;95.5 99.7 ;68 [μ - 3.5, μ + 3.5] באופן מעשי, ניתן לומר שכל השטח מתחת לעקום נורמלי נמצא בתחום f g בגרף מספר מוצגות ההסתברויות המאפיינות את ההתפלגות הנורמלית. הסימון של בגרף ( Gauss density) מציין שמדובר בצפיפות f שהיא גאוסית 14

גרף מספר יקבל לבין להדגמת חישובי הסתברויות למשתנה נורמלי נחשב את ההסתברות שמשתנה נורמלי (4,10)N ערך בין 6 לבין 11. 6 10 התשובה: הסתברות זו שווה להסתברות שמשתנה נורמלי סטנדרטי יקבל ערך בין = 11 10 ערך זה שווה ל- = 0.5 φ(0.5) - φ(-) = 0.6915-0.08=.6687 בעזרת תוכנת EXCEL ניתן לקבל את ההסתברויות המבוקשות לכל ) X. ~ N(μ, לדוגמא : בהפעלת הפקודה NORMDIST(a,mean,standard_dev,cumulative). הארגומנט cumulative הוא משתנה לוגי וכאשר נותנים לו את הערך true מקבלים את ההסתברות שמשתנה נורמלי שתוחלתו שווה לערך mean וסטית התקן שלו היא standard_dev יהיה בעל ערך הקטן או שווה ל a. לכן, ערך (4)φ עבור משתנה נורמלי שתוחלתו 40 ווסטית התקן שלו 1.5 הוא: NORMDIST(4,40,1.5,TRUE)=0.908789 נפרט עתה תכונה נוספת של ההתפלגות הנורמלית: = 0.675 Z לבין = 0 Z לפי הטבלאות של התפלגות נורמלית סטנדרטית, השטח שנמצא בין הערך שווה בדיוק ל- 1/4. מאחר והשטח בין < 0.675 לבין = 0 Z שווה ל- 1/ פירושו שהסיכוי לקבל ערך Z כאשר (0,1)N Z ~ הוא בדיוק ¾. לכן הערך 0.675 הוא למעשה הרבעון העליון של התפלגות נורמלית סטנדרטית. מטעמי סימטריה, הרבעון התחתון יהיה 0.675- = Z. ניתן לסכם זאת כך עבור משתנה נורמלי כללי ) X ~ N(μ, x μ P 0.675 = 3/ 4 (4) P [X μ + 0.675] = 3/ 4 (5) המשוואה (4) מבטאת את העובדה ש- 0.675 הוא הרבעון העליון של התפלגות נורמלית סטנדרטית. לרשום זאת גם בצורה ניתן Q Z = 0.675 3 X ~ מכן נובעת (ע"י העברת אגפים) משוואה (5) לפיה הרבעון העליון של משתנה נורמלי ), N(μשווה ל: 15

Q X 3 = μ + 0. 675 (6) בצורה אנלוגית ניתן להראות Q X 1 = μ 0. 675 (7) SAMPLE OF QUESTIONS ( PRE-REQUISITE REQUIREMENT FOR THE MBA STATISTICS COURSE) By Professor Ayala Cohen Question 1 The following display is part of a histogram where the frequency of cases in the interval (10,15] is 10. 1) What is the frequency of cases in the interval (35,50]? ) Draw the rectangle which is missing in this plot, corresponding to the interval (35,50], if the frequency of the cases for this interval is 45. Solution 10 15 0 5 30 35 40 45 50 1) In histograms, the AREA of the rectangle is proportional to the frequency. The length of the interval (15,35] is four times larger than the length of the interval (10,15], the height of the rectangle in the latter interval is half the height of the rectangle on the interval (10,15]. Therefore, the area of the rectangle on the interval (15,35] is twice the area of the rectangle on the interval (10,15. Thus, the frequency in the interval (15,35] is 10*=0 ) The frequency in the interval (35,50 ] is 4.5 times larger than that in the interval (10,15]. The area of the rectangle corresponding to the interval (10, 15] is covered by rectangles of equal height (5). The length of the interval (35,50] is three times larger than the length of the interval (10,15].We construct the required rectangle on the interval (35,50], by using 9 rectangles, so that the height of the "large 16

rectangle on (35,50] " is 1.5 larger than the height of the rectangle above (10,15]. The area of the "large rectangle on (35,50] " will then be 4.5 the area of the rectangle on the interval (10,15] Question The following data are heights in cm, of 50 students. 150 158 163 183 17 175 173 167 17 158 180 186 170 154 151 10 15 0 5 30 40 45 50 14 149 190 146 140 165 15 155 196 191 169 171 158 187 173 18 153 168 180 177 168 164 174 19 174 160 175 168 18 161 174 : 170 181 176 163 Calculate the frequency and relative frequency, for 10cm intervals. The intervals should be of the type (, ]. Draw the corresponding histogram Solution RELATIVE FREQUENCY 0.0 0.08 0.18 0.4 0.8 0.14 0.06 FREQUENCY 1 4 9 1 14 7 3 BIN 140 150 160 170 180 190 00 17

Frequency 15 14 13 1 11 10 9 8 7 6 5 4 3 1 0 140 150 160 170 180 190 00 Question 3 The following histogram was constructed on the basis of 100 observations. The first rectangle represents the frequency in the interval whose end is 0.05. The second rectangle represents the frequency in the interval [0.05,1.0). The third rectangle represents the frequency in the interval [1.0,1.99). The fourth rectangle represents the frequency in the interval [1.99,.06), and so on. Frequenc 5 4 3 1 0 19 18 17 16 15 14 13 1 11 10 9 8 7 6 5 4 3 1 0 0. 05 1. 0 1. 99. 96 3. 93 4. 90 5. 87 6. 84 7. 81 8. 78 9. 75 Bin 0.05 1.0 1.99.96 3.93 4.90 5.87 6.84 7.81 18

8.78 9.75 1) 15% of these data were larger than.which value? Solution In this histogram, the intervals are of equal width, therefore the heights of the rectangles represent the corresponding frequencies, which are: 1,,5,8,13,3,18,15,6,4,5 The corresponding cumulative frequencies are : 1,3,8,16,9,5,70,85,91,95,100 Accordingly, the 85'th percentile is 6.84. The answer is therefore : 6.84 Question 4 In the end of a course, 71 students who took the course, were asked to evaluate their interest in the course. They were asked to give their evaluation on a discrete 1,,3,4,5 scale (1, corresponding to low). The following table displays the results. What are the mean, Variance and SD ( standard deviation)? GRADE 1 3 4 5 Frequency 1 3 11 16 31 Solution 1+ 3* + 11*3 + 16* 4 + 31*5 MEAN = = 3.648 71 (1 3.648) Variance = + 3( 3.648) + 11(3 3.648) 71 + 16(4 3.648) + 31(5 3.648) = 3.95 SD = Varianc = 3.95 = 1.988 Question 5 In a certain population, the probability of getting a positive response in a survey on a certain issue has been known to be 0.3. If a random sample is taken of 1000 people from that population, how many do you expect to express a positive response? 19

Solution The number of positive responses is a binomial variable, ( we assume that the responses of these individuals are independent). It is known that the expected value of a binomial variable X~Bin ( n,p) is np In the current problem n=1000 p=0.3 Therefore, the expected number is 300 Question 6 The number of daily entrances to a certain faculty website has been known to be a normal variable with mean 160. The standard deviation is unknown to you. However, you know that the probability that the daily entrances will be between 10 and 00 is 0.8. 1) What is the sd? ) What is the probability that in a certain day the number of entrances will be larger than 170? 3) What is the symmetric range of entrances which includes 75% of the distribution? Solution: 1) P (10 < X < 00) = 0.8 Since the expected value is 160 and the range [10,00] is symmetric around this value, then the probability of the range [160,00] is : Since μ=160 Therefore,, then P (X < 160) = 0.5 P (160 < X < 00) = 0.4 P(160 < X < 00) = 0.4 P(X < 00) P(X < 160) = 0.4 00 160 P(Z < ) 0.5 = 0.4 00 160 P(Z < ) = 0.9 From the normal probability tables, we know that the 90'th percentile of the standard normal distribution is equal to 1.85. Therefore, Z 0. 9 40 = 1.85 = ) = 40 = 1.85 31.13 170 160 P (X > 170) = 1 P(Z < ) = 1 0.655 = 0.3745 31.13 0

3) When we consider the middle part that includes 75% of the probability, we truncate 1.5% from each end. Therefore, we should find which is the 87.5 percentile of the standard normal distribution. According to the tables, it is : Z 0. 875 = 1.15 X0.875 160 = 1.15 31.13 X = 195.78 0.875 We see that the distance between the expected value (160) and the 87.5 percentile is 35.78, therefore due to symmetry of the normal distribution X 0. 15 = 160 35.78 = 14. The answer is then that the symmetric range of entrances which includes 75% of the distribution is: [14.,195.78] Obviously the expected value (160) is in the middle of this interval. Question 7 In a certain population, it is known that the 5'th percentile of the income is 7000$ and the 75'th percentile is 8000$. It is also known that log income is normally distributed. What is the 50'th percentile? Solution Denote by Y the income X = logy ~ N( μ, Since X is normally distributed, the 50'th percentile of its distribution is in the middle between the 5'th and 75'th percentiles of its distribution Since X=logY, then X = + X 0.5 0. 75 X0.50 X Y = e Log is a monotone transformation, so that the ordering of X is the same as the ordering of the corresponding Y. Therefore, the 50'th percentiles satisfy the equation: The answer is therefore : Y0.50 = exp(x0. 5) Y = 0.5 = e 1/ [log7000+ log8000] (7000)(8000) = 7483 As we see, the 50 'th percentile is actually the geometric mean of the 5'th and 75'th percentiles. ) 1

Question 8 If X is normally distributed with mean 69.88 and variance 169, what is its 5'th percentile? Solution Denote by Z. 75 = 0.675 the.75'th percentile of the standard normal distribution. According to the tables Denote by the.75'th percentile of the distribution of X X 95 X. 75 = Z. 75 = 0.675 0.675 X 0.75 = μ + Z. 95 0.75 = μ + Z. = 69.88 + (0.675)13 = 78.655 Question 9 If X is normally distributed with mean 10 and SD= 3, what is its 90'th percentile? Solution Question 10 μ + * 9 Z0. = 10 + (3)(1.85) = 13.855 It is known that cholesterol is a is normally distributed variable. In a certain population it was found that 75% had levels below 18.5 and 5% had level below 01.75. 1) What percent will have level higher than 10? ) Out of a sample of 100 from that population, how many would you expect to have levels higher than 30? Solution X 0.5 = μ 0.675 X 0.75 = μ + 0.675 We obtain equations for the unknown parameters μ, By summing the equations, we obtain : By taking the difference, we obtain : 18.5 = μ + 0.675 01.75 = μ 0.675 40.00 = μ μ = 10

1) ) 16.50 = 1.365 = 1.09 X μ 10 10 P [X > 10] = P > = P[Z > 0] = 1.09 1 X μ 30 10 P [X > 30] = P > = P[Z > 1.655] = 0.049 1.09 We expect 5 people to have levels higher than 30. Question 11 On the basis of a large data set that were collected in an insurance company on the time (measured in days) required for handling claims, (X ), it was found that Y==log(X) is normally distributed with mean.7 and SD=.873. 1) Out of 500 claims, how many are expected to be handled after more than 14 days? ) The company decided to register as "success" every time a claim is handled in less than 14 days. What is the probability that out of 4 claims, all will be successes? Solution 1) We expect 500*0.47=35 P[log X > log14] = P[Y > log14] = P[Y >.639] Y.7.639.7 = P > = P[Z > 0.0699] = 0.47.873.873 ) The probability of 4 successes in a binomial distribution is p**4, where p is the probability of success. The answer is therefore (0.47)**4=0.0488 Question 1 In a certain city there are two hospitals. One large, the other small. In the large hospital, the daily number of deliveries is about 90, while in the smaller it is about 10. Each hospital registered each day during the whole year of 007 the number of days that the PERCENT of boys born on that day was larger than 0.7. In the end of 007, they compared these two numbers. Which number will be larger, the one corresponding to the small or the large hospital? Assume that the probability of a boy is 1/, and that the number of births of boys each day are therefore independent binomial variables, with the same n each day, which is 90 for the large hospital, and 10 for the small one.. Solution Let X/n denote the proportion of boys born on a certain day. The expected value of X/n is 1/, since p=1/ and the expected value of X is np. The variance of X is npq=n/4, and therefore the variance of X/n is pq/n. ( If Y=CX and C is constant, it is easy to prove that Var(CX)=C** ( Var(X)) 3

It means that the variance of X/n in the larger hospital is much smaller than the variance of X/n in the larger hospital. Therefore, in the larger hospital, most days the value of X/n will be close to the mean which is 1/ and only very few will have values larger than 0.7. The answer is then that the number corresponding to the smaller hospital will be the larger of the two numbers. 4