ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΡΟΣ Α Δημήτρης Κουγιουμτζής e-mail: dkugiu@auth.gr Ιστοσελίδα αυτού του τμήματος του μαθήματος: http://users.auth.gr/~dkugiu/teach/civiltrasport/ide.html Στατιστική: Δειγματοληψία X συλλογή δεδομένων Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα Στατιστική συμπερασματολογία V ανάλυση δεδομένων, εκτίμηση παραμέτρων, μοντέλα
Δεδομένα Πληθυσμός Δείγμα αντιπροσωπευτικό, τυχαίο Μεταβλητή χαρακτηριστικό που η τιμή του αλλάζει από στοιχείο σε στοιχείο του πληθυσμού αλλάζει σύμφωνα με κάποιους καθορισμένους νόμους αλλάζει με αβεβαιότητα ή τυχαιότητα μεταβλητή (κατάστασης, συστήματος) τυχαία μεταβλητή (τ.μ.) Χ: μέσο μεταφοράς Υ: χρόνος διαδρομής
τ.μ. Χ ποιοτική τ.μ. κατηγορίες ποσοτική τ.μ. αριθμητικές τιμές, μονάδα μέτρησης διακριτή τ.μ. διακεκριμένες τιμές συνεχής τ.μ. τιμές σε διάστημα Διάκριση δεδομένων 1, 2, κατηγορικά αριθμητικά (μετρήσεις) αριθμητικές τιμές, μονάδα μέτρησης ονομαστικά δεν υπάρχει έννοια διάταξης διατακτικά η διάταξη έχει σημασία διακριτά συνεχή Ομαδοποίηση αριθμητικών δεδομένων κατηγορικά
Παράδειγμα Χρήση μέσου μεταφοράς προς την εργασία 100 εργαζόμενοι που επιλέχθηκαν τυχαία Μέσο μεταφοράς: λεωφορείο, λεωφορείο-μετρό, αυτοκίνητο, Περιγραφική Στατιστική Πίνακας και διαγράμματα συχνοτήτων μικρός αριθμός δυνατών διακεκριμένων τιμών (αριθμητικές τιμές ή κατηγορίες) Ερωτήματα: Δείγμα άλλο (ποδήλατο, πόδια κτλ) Πιο «συχνό» μέσο μεταφοράς? τ.μ. (ποιοτική) Περισσότεροι χρησιμοποιούν αυτοκίνητο ή λεωφορείο? Σε τι ποσοστό είναι τα μέσα μαζικής μεταφοράς? 1, 2, 3, 4,..., Διακεκριμένες τιμές a1, a2,, am Δείγμα,,,,..., 1 2 3 4 100 Σύνολο διακεκριμένων τιμών
Frequecy f i : συχνότητα εμφάνισης της τιμής a i σχετική συχνότητα (ποσοστό): αθροιστική συχνότητα: αθροιστική σχετική συχνότητα: Πίνακας συχνοτήτων trasport mea p i F i f P i i f j1 i i j j1 p 40 j (: μέγεθος δείγματος) (όπου a j < a i για i<j) (όπου a j < a i για i<j) Ραβδόγραμμα trasport mea Valid bus-metr bus car other Total Cumulativ e Frequecy Percet Valid Perc et Percet 30 30,0 30,0 30,0 18 18,0 18,0 48,0 29 29,0 29,0 77,0 23 23, 0 23, 0 100,0 100 100,0 100,0 30 20 10 0 bus-metr bus car other trasport mea
Ομαδοποίηση και παρουσίαση αριθμητικών δεδομένων Χωρίζουμε τα δεδομένα σε ομάδες Παρουσιάζουμε όπως πριν, ομάδα α i Επιλογή ομάδων: Πολλές ομάδες μικρές συχνότητες Λίγες ομάδες χάνουμε πολλή πληροφορία Χωρισμός σε ομάδες: mi : μικρότερη τιμή ma : μεγαλύτερη τιμή R = ma mi : εύρος δεδομένων Επιλογή K ομάδων R/K : εύρος τιμών κάθε ομάδας
Παράδειγμα Χρόνος ημι-αστικής διαδρομής συγκεκριμένου μήκους με το ίδιο μέσο μεταφοράς Δείγμα από 20 διαφορετικές περιοχές σε μια πόλη 27 24 20 22 16 30 20 31 22 25 11 16 27 16 23 18 19 12 12 26 Ιστογράμματα 10 ομάδες 5 ομάδες 3 5 4 2 Cout Cout 3 2 1 1 0 15,0 20,0 25,0 30,0 time 15,0 20,0 25,0 30,0 time
Percet Percet Ιστόγραμμα συχνοτήτων Ιστόγραμμα αθροιστικών συχνοτήτων 20% 100% 15% 75% 10% 50% 5% 25% 0% 15,0 20,0 25,0 30,0 0% 15,0 20,0 25,0 30,0 time time Ερωτήματα: Τι ποσοστό των χρόνων είναι μεγαλύτερο από 25 mi; Μαζεύονται οι χρόνοι γύρω από κάποια κεντρική τιμή; Είναι η κατανομή των χρόνων κανονική;
Συνοπτικά μέτρα στατιστικών δεδομένων Μέτρα θέσης (μέτρα κεντρικής τάσης) 1, 2,,, παρατηρήσεις του δείγματος για τ.μ. X - δειγματική μέση τιμή 1 2 1 i1 i Μέση τιμή 0 10 20 30 40
- δειγματική διάμεσος ~ 1, 2,,, σε αύξουσα σειρά περιττός άρτιος ~ ~ είναι η τιμή στη θέση (+1)/2, είναι το ημιάθροισμα των τιμών στις θέσεις /2 και /2+1 χρησιμοποιεί τις τιμές 1, 2,,, ~ χρησιμοποιεί την τάξη των 1, 2,,, επηρεάζεται από μακρινές τιμές, όχι η ~
Μέτρα μεταβλητότητας - δειγματική διακύμανση (διασπορά) s 2 δειγματική τυπική απόκλιση s Άθροισμα αποκλίσεων: i i 1 0 ) ( Άθροισμα τετραγώνων αποκλίσεων i i s 1 2 2 ) ( 1 1 i i s 1 2 2 2 1 1 : i - απόκλιση μιας παρατήρησης i από 0 10 20 30 40 0 10 20 30 40
1, 2,,, σε αύξουσα σειρά - εκατοστιαία σημεία ~ είναι το 50-εκατοστιαίο σημείο Q 1 : 25-εκατοστιαίο σημείο, πρώτο τεταρτομόριο Q 3 : 75-εκατοστιαίο σημείο, τρίτο τεταρτομόριο Ι=Q 1 Q 3 : ενδοτεταρτομοριακό εύρος = 2k = 2k+1 1 /2 / 21 1 /2 /2+1 Q 1 : διάμεσος των 1,, /2 Q 3 : διάμεσος των /2+1,, 1 ( 1)/ 2 1 (+1)/2 Q 1 : διάμεσος των 1,, (+1)/2 Q 3 : διάμεσος των (+1)/2,,
Σύνοψη 5 αριθμών, θηκόγραμμα mi Q 1 Q 3 ma 0 10 20 30 μακρινή τιμή i ύποπτη απόμακρη τιμή (outlier) SPSS o απόμακρη τιμή (etreme) SPSS *
Παράδειγμα Χρόνος ημι-αστικής διαδρομής συγκεκριμένου μήκους με το ίδιο μέσο μεταφοράς Δείγμα από 20 διαφορετικές περιοχές σε μια πόλη 11 12 12 16 16 16 18 19 20 20 22 22 23 24 25 26 27 27 30 31 11 12 12 16 16 16 18 19 20 20 22 22 23 24 25 26 27 27 30 31 11 16 21 25.5 31 40 30 20 Κανονική κατανομή: 1. Συμμετρικότητα 2. Όχι μακριές ουρές 3. Όχι απόμακρα σημεία 10 0 N = 20 TIME
Γενικά πληθυσμός τ.μ. Χ Εκτιμητική δείγμα 1, 2,, παράμετρος θ μέση τιμή, μ στατιστική ˆ (σημειακή εκτίμηση) διάστημα εμπιστοσύνης 1, 2 μέση τιμή δειγματική μέση τιμή [X ] 1 2 1 i1 i
διάστημα εμπιστοσύνης (δ.ε.) σε επίπεδο εμπιστοσύνης 1-α (α: επίπεδο σημαντικότητας) 1 2 P [, ] P [, ] 1 Εκτίμηση μέσης τιμής αλλάζει με το δείγμα Πραγματική τιμή της μ [ 1, 2] είναι τ.μ. 1 2 (1-α)% διάστημα εμπιστοσύνης για μ (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (κρίσιμη τιμή) s εκτίμηση της τυπικής απόκλισης του ή τυπικό σφάλμα του
Κρίσιμες τιμές ορίζονται από τις ουρές κάποιας βασικής κατανομής σ 2 γνωστό 30 και ~ 2, z ~ (0,1) Τυπική κανονική κατανομή σ 2 άγνωστο 2, t ~ t 1 30 και ~ s Κατανομή studet
Τυπική κανονική κατανομή επίπεδο εμπιστοσύνης 1-α z 1-α/2 : η 1-a/2 κρίσιμη τιμή της τυπικής κανονικής κατανομής a 0.05 z1 / 2 z0.975 1.96 P z z z 1 1 / 2 1 / 2
(1-α)% διάστημα εμπιστοσύνης για μ Συνθήκες 1. μέγεθος του δείγματος : μεγάλο / μικρό 2. κανονική κατανομή της τ.μ. X : ναι / όχι 3. διασπορά σ 2 : γνωστή / άγνωστη Γενική μορφή (κρίσιμη τιμή) s
(1-α)% διάστημα εμπιστοσύνης της μέσης τιμής Διασπορά κατανομή της X N διάστημα εμπιστοσύνης γνωστή κανονική z 1 / 2 γνωστή μη κανονική 30 z 1 / 2 γνωστή μη κανονική 30 μη-παραμετρικό άγνωστη 30 z 1 / 2 s άγνωστη κανονική 30 t 1,1 / 2 s άγνωστη μη κανονική 30 μη-παραμετρικό
Παράδειγμα Χρόνος ημι-αστικής διαδρομής συγκεκριμένου μήκους με το ίδιο μέσο μεταφοράς Δείγμα από 20 διαφορετικές περιοχές σε μια πόλη 11 12 12 16 16 16 18 19 20 20 22 22 23 24 25 26 27 27 30 31 Κανονική κατανομή, άγνωστη διασπορά, μικρό μέγεθος δείγματος s t, t 1,1 / 2 1,1 / 2 s Πίνακας κατανομής studet 119 0.05 1 / 2 0.975 t19,0.975 2.093 20.85 s 5.896 2 s 34.766 5.896 5.896 20.85 2.093, 20.85 2.093 18.090,23.610 20 20 Με εμπιστοσύνη σε επίπεδο 95% μπορούμε να πούμε πως ο μέσος χρόνος διαδρομής είναι μεταξύ 18.09mi και 23.61mi
Εκτίμηση διαφοράς μέσων τιμών δύο ανεξάρτητων τ.μ. X 1 και X 2 Μέσες τιμές: μ 1 και μ 2 Διασπορές: 2 1 και 2 2 Δείγμα μεγέθους 1, 2 από τον πληθυσμό της X 1, X 2 Δειγματικές μέσες τιμές: 1 και 2 Δειγματικές διασπορές: 2 s 1 και 2 s 2 Θέλουμε να εκτιμήσουμε τη διαφορά των μέσων τιμών μ 1 και μ 2 Σημειακή εκτίμηση της διαφοράς μ 1 - μ 2 : 1 2
Διάστημα εμπιστοσύνης για τη διαφορά μέσων τιμών διασπορές των X 1, X 2 Κατανομές των X 1, X 2 1, 2 διάστημα εμπιστοσύνης για 1 2 γνωστές κανονική 1 2 z1 / 2 2 2 1 2 1 2 γνωστές μη κανονική μεγάλα 1 2 z1 / 2 2 2 1 2 1 2 γνωστές μη κανονική μικρά μη-παραμετρικό άγνωστες άνισες ή ίσες μεγάλα s s 1 2 z1 / 2 2 2 1 2 1 2 άγνωστες και ίσες κανονική μικρά 1 1 1 2 t 2,1 / 2 sp 1 2 1 2 άγνωστες και ίσες μη κανονική μικρά μη-παραμετρικό άγνωστες και άνισες μικρά ---- Εκτίμηση κοινής διασποράς s ( 1) s ( 1) s 2 2 2 1 1 2 2 p 12 2
Παράδειγμα Χρόνος ημι-αστικής διαδρομής συγκεκριμένου μήκους με το ίδιο μέσο μεταφοράς Δείγμα από 20 διαφορετικές περιοχές σε μια πόλη Α 11 12 12 16 16 16 18 19 20 20 22 22 23 24 25 26 27 27 30 31 Δείγμα από 15 διαφορετικές περιοχές σε μια πόλη Β 10 10 11 11 14 15 15 17 17 17 18 19 19 19 21 40 X 1 : χρόνος διαδρομής για πόλη Α X 2 : χρόνος διαδρομής για πόλη Β 30 20 Κανονική κατανομή για X 1 και X 2 Διασπορές των X 1 και X 2 περίπου ίδιες?? 10 0 N = 15 15 Μέσος χρόνος διαδρομής μεγαλύτερος στην πόλη Α? TIME1 TIME2
Κανονικές κατανομές, άγνωστες αλλά ίσες διασπορές, μικρά δείγματα 1 20.85 2 15.53 1 1 1 2 t 2,1 / 2 sp 1 2 12 5.32 1 2 Πίνακας κατανομής studet 1 2 2 33 0.05 1 / 2 0.975 t33,0.975 2.04 sp 5.058 s 2 1 34.766 2 s2 13.124 2 (20 1)34.766 (15 1)13.124 20 15 2 s p 25.584 1 1 5.32 2.045.058 20 15 1.80, 8.83 Σε επίπεδο εμπιστοσύνης 95%, ο χρόνος διαδρομής στην πόλη Α είναι μεγαλύτερος από το χρόνο διαδρομής στην πόλη Β κατά 1.8mi με 8.8mi
Έλεγχος Υπόθεσης Διαφέρουν οι μέσες τιμές μ 1 και μ 2 ; Μηδενική υπόθεση Η 0 : 1 2 Έλεγχος στατιστικής υπόθεσης Εναλλακτική υπόθεση Η 1 : 1 2 Στατιστική ελέγχου q με γνωστή κατανομή qz~ (0,1) q t ~t 1 22 Απορριπτική περιοχή R (απίθανες τιμές της q όταν ισχύει η Η 0 ) R z z1 / 2 Δειγματική στατιστική ελέγχου q q q R Απόρριψη της Η 0 R Μη απόρριψη της Η 0 p-τιμή: χαμηλότερη στάθμη σημαντικότητας α που μπορούμε να απορρίψουμε την Η 0 p P z z p 1 / 2 α: επίπεδο σημαντικότητας Πως ορίζεται η q? Όπως για τα διαστήματα εμπιστοσύνης
Προηγούμενο παράδειγμα Η 0 : 1 2 Η 1 : 1 2 Η 0 : 12 0 Η 1 : 12 0 1 2 q t ~ t s p 1 1 1 2 2,1 / 2 1 2 R t t R t 1 22,1 / 2 2.04 q 5.32 1 1 5.058 20 15 3.077 q 3.077 2.04 q R Απόρριψη της Η 0 Σε επίπεδο εμπιστοσύνης 95%, ο χρόνος διαδρομής στην πόλη Α είναι μεγαλύτερος από το χρόνο διαδρομής στην πόλη Β
Ανάλυση Διασποράς Σχεδιασμός πειράματος μεταβλητή ενδιαφέροντος παράγοντας Μελέτη χρόνου διαδρομής μέσο μεταφοράς ημιαστικές περιοχές πόλεις Μονόδρομη ανάλυση διασποράς Πλήρως τυχαιοποιημένος σχεδιασμός Μεταβλητή ενδιαφέροντος Y Ένας παράγοντας με k ομάδες y, y,, y y21, y22,, y2 Δείγμα 1: 11 12 1 1 Δείγμα 2: 2 y, y,, y Δείγμα k: 1 2 k k k k Υποθέτουμε πως η Y στις k ομάδες ακολουθεί κανονική κατανομή με κοινή διασπορά άρα οι k ομάδες μπορεί να διαφέρουν μόνο ως προς τη μέση τιμή τους H : 0 1 2 k
Μονόδρομη Ανάλυση Διασποράς (ANOVA) y : μέσος όρος από όλα τα δείγματα y i : μέσος όρος στο δείγμα i y y ( y y) ( y y ) ij i ij i παρατήρηση ολικός μέσος απόκλιση λόγω παράγοντα τυχαίο σφάλμα k SSA: 2 i1 y y σφάλμα μεταξύ δειγμάτων i i k i SSE: y 2 ij y i1 j1 σφάλμα μέσα σε κάθε δείγμα F SSA /( k 1) ~ F SSE /( k) Στατιστική ελέγχου q : k1, k Fisher κατανομή Απορριπτική περιοχή R { F Fk 1, k;1 a} Δειγματική στατιστική ελέγχου F F Fk 1, k;1 a Απόρριψη της Η 0
Συνέχεια της ανάλυσης όταν απορρίπτεται η Η 0 Ποιες ομάδες διαφέρουν; Πολλαπλές συγκρίσεις ζευγαριών ομάδων Έλεγχος ορθότητας των υποθέσεων Υποθέσεις: 1. Η κατανομή της Y στις k ομάδες είναι κανονική 2. Η διασπορά της Y στις k ομάδες είναι ίδια Τα θηκογράμματα μπορούν να δείξουν αν οι υποθέσεις είναι σωστές
TIMES Παράδειγμα Χρόνος ημι-αστικής διαδρομής συγκεκριμένου μήκους με το ίδιο μέσο μεταφοράς Δείγμα από 20 διαφορετικές περιοχές σε μια πόλη Α 11 12 12 16 16 16 18 19 20 20 22 22 23 24 25 26 27 27 30 31 Δείγμα από 15 διαφορετικές περιοχές σε μια πόλη Β 10 10 11 11 14 15 15 17 17 17 18 19 19 19 21 Δείγμα από 17 διαφορετικές περιοχές σε μια πόλη Γ 10 12 12 14 14 15 15 17 17 18 18 19 19 21 23 25 25 40 30 Κανονική κατανομή? Ίσες διασπορές? 20 10 Μέσος χρόνος διαδρομής μεγαλύτερος στην πόλη Α από ότι στις άλλες δύο πόλεις? 0 N = 20 15 17 1,00 2,00 3,00 INDICES
20 15 17 52 k 12 k 49 1 0.95 Κρίσιμη τιμή F2,49;0.95 3.187 Απορριπτική περιοχή R{ F 3.187} Δειγματική στατιστική ελέγχου SSA = 260.956 SSE = 1157.813 260.956/ 2 F 1157.813/ 49 5.522 F 5.522 3.187 F R Απόρριψη της Η 0 Σε επίπεδο εμπιστοσύνης 95%, ο χρόνος διαδρομής δεν είναι ίδιος στις τρεις πόλεις Σε ποιες πόλεις διαφέρει ο χρόνος διαδρομής; Πολλαπλές συγκρίσεις
Ανάλυση Διασποράς με Δύο Παράγοντες Δύο παράγοντες πόλη (Α, Β, Γ) μέσο μεταφοράς (λεωφορείο, αυτοκίνητο, άλλο) Ερωτήματα: Επηρεάζει ο πρώτος παράγοντας από μόνος του τη μεταβλητή ενδιαφέροντος; Επηρεάζει ο δεύτερος παράγοντας από μόνος του τη μεταβλητή ενδιαφέροντος; Έχουν οι δύο παράγοντες μαζί συνδυασμένη επίδραση στη μεταβλητή ενδιαφέροντος; Μια μηδενική υπόθεση για κάθε ερώτημα Ανάλυση διασποράς δύο δρόμων