ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΡΗΤΗΣ Τμήμα Διοίκησης Επιχειρήσεων (Α.Ν.) Εισαγωγή στη Στατιστική ΜΕΡΟΣ ΙΙ-ΔΙΑΣΠΟΡΑ-ΔΙΑΚΥΜΑΝΣΗ ΑΠΟΚΛΙΣΗ ΔΙΑΣΠΟΡΑ-ΔΙΑΚΥΜΑΝΣΗ ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ ΡΟΠΕΣ ΑΣΥΜΜΕΤΡΙΑ-ΚΥΡΤΩΣΗ II.1
ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ-ΑΣΥΜΜΕΤΡΙΑΣ-ΚΥΡΤΩΣΗΣ Μας παρέχουν πληροφορία για το βαθμό συγκέντρωσης των δεδομένων γύρω από τον αριθμητικό μέσο. Η Διασπορά μετρά τη συγκέντρωση ή απομάκρυνση των τιμών γύρω από το μέσο. Η ασυμμετρία μετρά την ισοκατανομή των τιμών γύρω από το μέσο. Η κύρτωση μετρά το βαθμό συγκέντρωσης των τιμών στην περιοχή του μέσου. jdm@sta.tecrete.gr II.
ΠΑΡΑΔΕΙΓΜΑ ΔΙΑΚΥΜΑΝΣΗΣ (ΔΙΑΣΠΟΡΑΣ) ΔΕΔΟΜΕΝΑ Χ ΔΕΔΟΜΕΝΑ Υ 40 38 4 40 39 39 43 40 39 40 46 37 40 33 4 36 40 47 34 45 Μέσος μ Χ =40, Επικρατούσα τιμή Μ 0Χ =40, Διάμεσος Μ Χ =40 Μέσος μ Χ =, Επικρατούσα τιμή Μ 0Υ =40, Διάμεσος Μ Υ =40 Αν και οι μέσοι μ Χ =μ Χ =40 είναι ίδιοι στα Χ,Υ από την εικόνα φαίνεται ότι η κατανομή των δεδομένων γύρω από το μέσο είναι διαφορετική! ΧΡΕΙΑΖΟΜΑΣΤΕ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΓΥΡΩ ΑΠΌ ΤΟ ΜΕΣΟ για να εντοπίσουμε τις διαφορές που υπάρχουν στα δεδομένα Χ,Υ. jdm@sta.tecrete.gr ΙΙ.3
ΕΥΡΟΣ ΜΕΤΑΒΟΛΗΣ ΚΑΙ ΜΕΣΗ ΑΠΟΚΛΙΣΗ Το Εύρος R (range) μεταβολής είναι η διαφορά της μεγαλύτερης Μ από την μικρότερη m τιμή των δεδομένων. R=Μ-m Ημιενδοτεταρτημοριακό Εύρος είναι το μισό της διαφοράς Q 3 -Q 1 (1 ο και 3 ο τεταρτημόριο) Μέση Απόλυτη Απόκλιση (Mean Absolute Devaton) ορίζεται ο μέσος των απολύτων αποκλίσεων (διαφορών) των τιμών μιας μεταβλητής από τον αριθμητικό μέσο τους. x MA n jdm@sta.tecrete.gr II.4
ΠΑΡΑΔΕΙΓΜΑ ΕΥΡΟΣ & ΜΕΣΗ ΑΠΟΚΛΙΣΗ φοιτητής 1ος ος 3ος 4ος 5ος 6ος 7ος 8ος βαθμός 7 6 5 4 7 8 6 9 Εύρος (Range)=Max-Mn=9-4=5 Ημιενδοτεταρτημοριακό Εύρος=Q3-Q1=??? Μέση απόκλιση: υπολογισμός μ=6.5 φοιτητής 1ος ος 3ος 4ος 5ος 6ος 7ος 8ος βαθμός 7 6 5 4 7 8 6 9 Αποκλίσεις από μέσο μ 0.5-0.5-1.5 -.5 0.5 1.5-0.5.5 MA n x ( 0,5 0,5 1,5,5 0,5 1,5 0,5,5) / 8 ( 5 5) / 8 0 / 8 0 Μέση «Απόλυτη» Απόκλιση MA n x ( 0,5 0,5 1,5,5 0,5 1,5 0,5,5) / 8 10 / 8 1,5 jdm@sta.tecrete.gr II.5
ΠΡΟΒΛΗΜΑ ΑΠΟΚΛΙΣΕΩΝ Οι αποκλίσεις (διαφορές των δεδομένων από το μέσο μ) μπορεί να έχουν άθροισμα 0, εξαιτίας ύπαρξης αρνητικών αποκλίσεων (όταν Χ <μ) και θετικών αποκλίσεων (όταν Χ >μ). Επομένως πρέπει να αποφεύγουμε τη χρήση των απλών αποκλίσεων. Αποκλίσεις από μέσο: a =-4,-4,4,4 Μέση Απόκλιση: ΜΑ=(-4-4+4+4)/4=0/4=0 Μέση Απόλυτη Απόκλιση: ΜΑ =(4+4+4+4)/4=16/4=4 Αποκλίσεις από μέσο: a =-6,-,1,7 Μέση Απόκλιση: ΜΑ=(-6-+1+7)/4=0/4=0 Μέση Απόλυτη Απόκλιση: ΜΑ =(6++1+7)/4=16/4=4 Επομένως και τα σετ δεδομένων έχουν ίση Μέση Απόλυτη Απόκλιση, αλλά τα δεξιά έχουν μεγαλύτερη διασπορά (διακύμανση) γύρω από το μέσο. ΧΡΕΙΑΖΟΜΑΣΤΕ ΕΝΑ ΔΙΑΦΟΡΕΤΙΚΟ «ΜΕΤΡΟ» ΤΗΣ ΔΙΑΣΠΟΡΑΣ που να μας «δείχνει» ότι τα δεξιά έχουν μεγαλύτερη «διασπορά» jdm@sta.tecrete.gr ΙΙ.6
ΔΙΑΚΥΜΑΝΣΗ ΚΑΙ ΜΕΣΗ ΑΠΟΚΛΙΣΗ ΤΕΤΡΑΓΩΝΟΥ Μέση Απόκλιση Τετραγώνου (Τυπική Απόκλιση) σ ορίζεται η θετική τετραγωνική ρίζα του μέσου αριθμητικού των τετραγώνων των αποκλίσεων (διαφορών) των τιμών μιας μεταβλητής από τον αριθμητικό τους μέσο. ( ) Το τετράγωνο της τυπικής απόκλισης σ ονομάζεται Διακύμανση (Varance) και συμβολίζεται με σ ( ) Αν αντί για όλο τον πληθυσμό έχουμε δείγμα χρησιμοποιούμε s και s αντί για σ και σ στο συμβολισμό. Για αμερόληπτη εκτίμηση ο παρονομαστής γίνεται Ν-1, όπου Ν το μέγεθος του δείγματος (γιατί εκτιμούμε πριν μια παράμετρο, το μέσο μ). jdm@sta.tecrete.gr II. 7
ΠΑΡΑΔΕΙΓΜΑ ΔΙΑΚΥΜΑΝΣΗΣ φοιτητής 1ος ος 3ος 4ος 5ος 6ος 7ος 8ος βαθμός 7 6 5 4 7 8 6 9 Υπολογισμός μέσου μ=6.5 φοιτητής 1ος ος 3ος 4ος 5ος 6ος 7ος 8ος βαθμός 7 6 5 4 7 8 6 9 Αποκλίσεις από μέσο μ 0.5-0.5-1.5 -.5 0.5 1.5-0.5.5 Αποκλίσεις στο ΤΕΤΡΑΓΩΝΟ 0.5 0.5.5 6.5 0.5.5 0.5 6.5 ( ) 0,5 0,5,5 6,5 0,5,5 0,5 6,5 8 18 / 8.5 ( ),5 1,5 jdm@sta.tecrete.gr II. 8
ΠΑΡΑΔΕΙΓΜΑ ΔΙΑΚΥΜΑΝΣΗΣ Υπολογισμός διακύμανσης και τυπικής απόκλισης με άμεσο τρόπο από κατανομή συχνοτήτων n ΔΕΔΟΜΕΝΑ ΥΠΟΛΟΓΙΣΜΟΙ ΚΛΑΣΕΙΣ -μ ( -μ) ( -μ) 0-5.5 3-11.33 18.37 385.11 1 ( n x) 5-30 7.5 8-6.33 40.07 30.55 30-35 3.5 7-1.33 1.77 1.38 35-40 37.5 6 3.67 13.47 80.81 40-45 4.5 3 8.67 75.17 5.51 45-50 47.5 13.67 186.87 373.74 50-55 5.5 1 18.67 348.57 348.57 Σύνολο 30 1746.67 μ=33.83 Βρίσκουμε s =1746.67/30=58. Επομένως s= 58. =7.63 Η πραγματική τιμή από τα δεδομένα είναι s =6.4 και s=7.90 jdm@sta.tecrete.gr II.9
ΠΑΡΑΔΕΙΓΜΑ ΔΙΑΚΥΜΑΝΣΗΣ Υπολογισμός διακύμανσης και τυπικής απόκλισης με έμμεσο τρόπο από κατανομή συχνοτήτων s ΔΕΔΟΜΕΝΑ ΥΠΟΛΟΓΙΣΜΟΙ ΚΛΑΣΕΙΣ ξ ι ξ ι ξ ι 0 0-5.5 3-3 -9 7 5-30 7.5 8 - -16 3 30-35 3.5 7-1 -7 7 Διάστημα Τάξεων δ=π=5 Επιλέγω Χ 0 =37.5 35-40 37.5 6 0 0 0 40-45 4.5 3 1 3 3 45-50 47.5 4 8 50-55 5.5 1 3 3 9 Σύνολο 30 0-86 Βρίσκουμε s =58. Επομένως s=7.63 Η πραγματική τιμή από τα δεδομένα είναι s =6.4 και s=7.90 jdm@sta.tecrete.gr II.10
ΣΥΝΤΕΛΕΣΤΗΣ ΜΕΤΑΒΛΗΤΙΚΟΤΗΤΑΣ CV Επειδή η τυπική απόκλιση μετρά την απόλυτη διασπορά χρησιμοποιούμε ένα σχετικό (όχι απόλυτο) μέτρο που είναι η μεταβλητικότητα (συντελεστής μεταβλητικότητας: Coecent o Varablty): CV x s 100 Εκφράζει την τυπική απόκλιση σαν ποσοστό του μέσου. Παράδειγμα: Αν έχουμε μετοχές Χ,Υ αυτή με την μεγαλύτερη μεταβλητικότητα CV θεωρείται ότι έχει μεγαλύτερο «κίνδυνο», δηλ. στις τιμές της παρατηρούμε ότι υπάρχει μεγαλύτερη «τάση» ή «πιθανότητα» να μεταβληθεί περισσότερο θετικά ή αρνητικά από τη μέση τιμή. Επομένως είναι πιο «επικίνδυνη» από την μετοχή με μικρότερο CV. Η μετοχή με την μεγαλύτερη μεταβλητικότητα μπορεί να μας οδηγήσει σε μεγαλύτερα κέρδη ή μεγαλύτερες ζημιές jdm@sta.tecrete.gr II.11
ΣΧΕΣΗ μ και σ (s) φοιτητής 1ος ος 3ος 4ος 5ος 6ος 7ος 8ος βαθμός 7 6 5 4 7 8 6 9 Υπολογίσαμε μ=6.5 σ=1.5 CV=σ/μ=1.5/6.5=0.3=3% Είναι αποδεκτό να γράψουμε ότι τα δεδομένα μας (η βαθμολογία των φοιτητών) είναι μ±σ=6.5±1.5 δηλαδή (6.5-1.5=4, 6.5+1.5=8) δηλαδή οι περισσότεροι βαθμοί είναι από 4 έως 8. Η μεταβλητικότητα CV εκφράζει το ίδιο με ποσοστό, δηλ. η βαθμολογία είναι μ=6.5 ± 3% Στο κεφάλαιο για τις Στατιστικές Κατανομές Πιθανότητας θα δούμε ότι υπάρχουν πιο συγκεκριμένοι κανόνες: Αν τα δεδομένα ακολουθούν την κανονική κατανομή τότε στο διάστημα μ±σ βρίσκονται τα /3 των δεδομένων. Τυποποιημένη απόκλιση (διαφορά) Z (ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ): Αν υπολογίσουμε τα Z =( -μ)/σ οι αποκλίσεις των δεδομένων μας από το μέσο «κανονικοποιούνται» δηλ. «μετράμε» την απόκλιση κάθε δεδομένου από το μέσο σε «μονάδες» τυπικής απόκλισης σ. Στα παραπάνω δεδομένα 8 =9 επομένως Ζ 8 =(9-6.5)/1.5=.5/1.5=1.67 επομένως ο βαθμός του 8 ου φοιτητή απέχει +1.67σ από το μέσο (είναι πολύ μεγαλύτερος) Ενώ =6 επομένως Ζ =(6-6.5)/1.5=-0.5/1.5=0.33 επομένως ο βαθμός του ου φοιτητή απέχει -0.33σ από το μέσο (είναι λίγο μικρότερος) jdm@sta.tecrete.gr II.1
ΡΟΠΕΣ Οι ροπές χρησιμοποιούνται για μελέτη των χαρακτηριστικών μιας κατανομής συχνοτήτων. v ροπές ως προς την αρχή Χ=0 μ ροπές με αρχή το μέσο αριθμητικό ή κεντρικές ροπές. Για αταξινόμητα δεδομένα οι ροπές v t t τάξης είναι: n v 3 3 n v 1 n v n v 4 4 Για ταξινομημένα δεδομένα οι αντίστοιχες ροπές είναι: v 1 v v 3 3 v 4 4 II.13 Οι ροπές είναι η στατιστική έννοια που «ενώνει» τους μέσους και την διασπορά μαθηματικά (δηλ. το μ και σ ορίζονται σαν ροπές)! Αριθμητικός μέσος μ=v 1 jdm@sta.tecrete.gr
ΚΕΝΤΡΙΚΕΣ ΡΟΠΕΣ Για τις κεντρικές ροπές (ροπές ως προς μέσο) μ t οι σχέσεις υπολογισμού τους είναι: Για αταξινόμητα δεδομένα οι ροπές μ t t τάξης είναι: n x 3 3 n x 1 Για ταξινομημένα δεδομένα οι αντίστοιχες ροπές είναι: x 1 n x n x 4 4 x x 3 3 x 4 4 II.14 μ =σ jdm@sta.tecrete.gr
ΑΣΥΜΜΕΤΡΙΑ ΜΕΤΡΑ ΑΣΥΜΜΕΤΡΙΑΣ ΣΥΜΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ ΘΕΤΙΚΗ ΑΣΥΜΜΕΤΡΙΑ Χ>Μ>Μο Χ=Μο=Μ Μέτρο Ασυμμετρίας είναι ο συντελεστής β 1 που βασίζεται στην τρίτη κεντρική ροπή μ 3 και ο συντελεστής β 1 =μ 3 /μ 3 Αν β 1 =0 τότε η κατανομή είναι συμμετρική (β 1 =0 αν αριθμητής μ 3 =0) Αν μ 3 >0 τότε έχει θετική συμμετρία Αν μ 3 <0 τότε έχει αρνητική συμμετρία ΑΡΝΗΤΙΚΗ ΑΣΥΜΜΕΤΡΙΑ Χ<Μ<Μο jdm@sta.tecrete.gr II.15
ΥΠΟΛΟΓΙΣΜΟΣ ΑΣΥΜΜΕΤΡΙΑΣ ΔΕΔΟΜΕΝΑ ΥΠΟΛΟΓΙΣΜΟΙ ΚΛΑΣΕΙΣ -μ ( -μ) ( -μ) ( -μ) 3 β 1 =μ 3 /μ 3 0-5.5 3-11.33 18.37 385.11-4363.30 5-30 7.5 8-6.33 40.07 30.55-09.08 30-35 3.5 7-1.33 1.77 1.38-16.47 35-40 37.5 6 3.67 13.47 80.81 96.57 40-45 4.5 3 8.67 75.17 5.51 1955.17 Συντελεστής Ασυμμετρίας: 3 x x 3 45-50 47.5 13.67 186.87 373.74 5109.03 50-55 5.5 1 18.67 348.57 348.57 6507.80 Σύνολο 30 1746.67 7459.73 μ =σ μ =1746.67/30=58. μ 3 =7459.73/30=48.66>0 β 1 =μ 3 /μ 3 =(48.66) /(58.) 3 =0.313 Επομένως υπάρχει θετική ασυμμετρία στα δεδομένα jdm@sta.tecrete.gr ΙΙ.16
ΚΥΡΤΩΣΗ Η κύρτωση μετράει το βαθμό συγκέντρωσης των τιμών μιας μεταβλητής στην περιοχή του αριθμητικού μέσου. Τη μετράμε με την αιχμηρότητα και πλάτυνση της καμπύλης συχνοτήτων. Για τη μέτρηση της κύρτωσης χρησιμοποιείται ο συντελεστής β του Pearson: β =μ 4 /μ =μ 4 /s 4 Λεπτόκυρτη β >3 Μεσόκυρτη β =3 Πλατύκυρτη β < 3 4 x x 4 jdm@sta.tecrete.gr II.17
ΥΠΟΛΟΓΙΣΜΟΣ ΚΥΡΤΩΣΗΣ ΔΕΔΟΜΕΝΑ ΥΠΟΛΟΓΙΣΜΟΙ ΚΛΑΣΕΙΣ -μ ( -μ) ( -μ) ( -μ) 4 0-5.5 3-11.33 18.37 385.11 49436.57 5-30 7.5 8-6.33 40.07 30.55 1844.44 30-35 3.5 7-1.33 1.77 1.38 1.916 35-40 37.5 6 3.67 13.47 80.81 1088.511 40-45 4.5 3 8.67 75.17 5.51 16951.59 45-50 47.5 13.67 186.87 373.74 69840.79 συντελεστής β του Pearson: β =μ 4 /μ =μ 4 /s 4 4 μ =σ x x 4 50-55 5.5 1 18.67 348.57 348.57 11501 Σύνολο 30 1746.67 71684.9 μ =1746.67/30=58. μ 4 =71684.9/30=9056.16>0 β =μ 4 /μ =9056.16/(58.) =.67 Επομένως πλατύκυρτη κατανομή δεδομένων jdm@sta.tecrete.gr ΙΙ.18
ΠΑΡΑΔΕΙΓΜΑ 1: Υπολογισμός s, s Στην εικόνα παρουσιάζονται οι αξιολογήσεις επισκεπτών του αρχαιολογικού χώρου της Κνωσσού. Υπολογίστε την διακύμανση και τυπική απόκλιση των δεδομένων Ν=061 αξιολογήσεις, κατανέμονται σε 834-666-411-11-38, οι 834 βαθμολογούν με 5, κ.λπ. Μέσος αριθμητικός: μ=σx/n=(5+5+5+ +5+4+4+ +4+3+3+ +3+++ ++1+1+ +1)/061 Επομένως μ=σx/n=(834*5+666*4+411*3+11*+38*1)/061=839/061=4.041 ΠΡΟΦΑΝΩΣ ΓΙΑ ΤΟΝ ΥΠΟΛΟΓΙΣΜΟ ΤΗΣ ΔΙΑΣΠΟΡΑΣ-ΔΙΑΚΥΜΑΝΣΗΣ ΘΑ ΧΡΗΣΙΜΟΠΟΙΗΣΟΥΜΕ ΤΑΞΕΙΣ ΤΑΞΗ ( ) (.) 5 834 5 4 666 4 3 411 3 11 1 38 1 ΕΦΑΡΜΌΣΤΕ ΤΙΣ ΣΧΕΣΕΙΣ ΠΟΥ ΔΙΝΟΝΤΑΙ ΣΤΙΣ ΠΡΟΗΓΟΥΜΕΝΕΣ ΔΙΑΦΑΝΕΙΕΣ ΓΙΑ ΥΠΟΛΟΓΙΣΜΟ ΤΗΣ ΔΙΑΣΠΟΡΑΣ jdm@sta.tecrete.gr II.19
ΠΑΡΑΔΕΙΓΜΑ : Υπολογισμός β 1, β Στην εικόνα παρουσιάζονται οι αξιολογήσεις επισκεπτών του αρχαιολογικού χώρου της Κνωσσού. Υπολογίστε την ασυμμετρία και κύρτωση των δεδομένων ΤΑΞΗ ( ) (.) 5 834 5 4 666 4 3 411 3 11 1 38 1 jdm@sta.tecrete.gr II.0
ΠΑΡΑΔΕΙΓΜΑ 3: ΚΙΝΔΥΝΟΣ ΜΕΤΟΧΗΣ ημέρα 1 3 4 5 6 7 8 9 10 Μετοχή Α 980 98 990 970 1010 105 1100 980 100 1350 Μετοχή Β 15 30 3 45 5 30 30 35 8 Α. Υπολογίστε τους μέσους των μετοχών (αριθμητικός, διάμεσος, Επικρατούσα) Β. Υπολογίστε τα μέτρα διασποράς (Εύρος, s, CV, ασυμμετρία, κύρτωση) Γ. Αν ονομάσουμε απόδοση της μετοχής την σχετική (ποσοστιαία) μεταβολή της τιμής της μετοχής, πόση είναι η μέση απόδοση κάθε μετοχής. Δ. Ποια είναι η απόδοση ενός «χαρτοφυλακίου» των μετοχών που περιλαμβάνει 30% την Α και 70% την Β μετοχή. Ε. Ο «κίνδυνος» μιας μετοχής ορίζεται σαν ο συντελεστής μεταβλητότητας CV, ποια μετοχή έχει μικρότερο κίνδυνο? jdm@sta.tecrete.gr II.1
ΠΑΡΑΔΕΙΓΜΑ 4: ΚΑΤΑΝΟΜΗ ΔΑΝΕΙΩΝ Τάξη Αριθμός Πελατών 0-10 49 10-0 90 0-30 78 30-40 4 40-50 6 50-60 15 *Ποσά σε εκατ. δρχ Α. Υπολογίστε τους μέσους (αριθμητικός, διάμεσος, Επικρατούσα) Β. Υπολογίστε τα μέτρα διασποράς (Εύρος, s, CV, ασυμμετρία, κύρτωση) jdm@sta.tecrete.gr II.
ΠΑΡΑΔΕΙΓΜΑ 5 Μισθοί Εργαζομένων Υπολογίστε τα μέτρα Διασποράς- Ασυμμετρίας-Κύρτωσης των παραπάνω δεδομένων jdm@sta.tecrete.gr II.3