Στατιστική Ι- Βασικές Εννοιες Γεώργιος Κ. Τσιώτας Τμήμα Οικονομικών Επιστημών Σχολή Κοινωνικών Επιστημών Πανεπιστήμιο Κρήτης 6 Οκτωβρίου 2016
Περιγραφή 1
Περιγραφή του Στατιστικού προβλήματος Ορισμός της Στατιστικής Στατιστική, είναι η επιστήμη που διαχειρίζεται το τυχαίο μέσω δειγματοληψίας. Τυχαία Μεταβλητη(τ.μ) Τυχαία Μεταβλητη αποτελεί το αποτέλεσμα ενός πειράματος που διέπεται από αβεβαιότητα, πχ: το επίδεδο των τιμών, οι πωλήσεις, η ημερίσια βροχόπτωση, ο αριθμός των γεννήσεων, κ.α. Δειγματοληψία Η Δειγματοληψία, μέσω της συλλογής ενός απαραίτητου αριθμού τ.μ. μας οδηγεί σε συμπεράσματα για την τ.μ. στο δείγμα και μέσω επαγωγής στον πληθυσμό.
Περιγραφή του Στατιστικού προβλήματος Ορισμός της Στατιστικής Στατιστική, είναι η επιστήμη που διαχειρίζεται το τυχαίο μέσω δειγματοληψίας. Τυχαία Μεταβλητη(τ.μ) Τυχαία Μεταβλητη αποτελεί το αποτέλεσμα ενός πειράματος που διέπεται από αβεβαιότητα, πχ: το επίδεδο των τιμών, οι πωλήσεις, η ημερίσια βροχόπτωση, ο αριθμός των γεννήσεων, κ.α. Δειγματοληψία Η Δειγματοληψία, μέσω της συλλογής ενός απαραίτητου αριθμού τ.μ. μας οδηγεί σε συμπεράσματα για την τ.μ. στο δείγμα και μέσω επαγωγής στον πληθυσμό.
Περιγραφή του Στατιστικού προβλήματος Ορισμός της Στατιστικής Στατιστική, είναι η επιστήμη που διαχειρίζεται το τυχαίο μέσω δειγματοληψίας. Τυχαία Μεταβλητη(τ.μ) Τυχαία Μεταβλητη αποτελεί το αποτέλεσμα ενός πειράματος που διέπεται από αβεβαιότητα, πχ: το επίδεδο των τιμών, οι πωλήσεις, η ημερίσια βροχόπτωση, ο αριθμός των γεννήσεων, κ.α. Δειγματοληψία Η Δειγματοληψία, μέσω της συλλογής ενός απαραίτητου αριθμού τ.μ. μας οδηγεί σε συμπεράσματα για την τ.μ. στο δείγμα και μέσω επαγωγής στον πληθυσμό.
Γιατί χρησιμοποιούμε τη στατιστική; Στόχοι: Ερμηνεία και Πρόβλεψη τυχαίων γεγονότων σε κλάδους όπως: η αρχαιολογία(χρονολόγηση αντικειμένων), η βιολογία(επιδημιολογική ανάλυση), η γεωλογία(πρόβλεψη άριστου σημείου γεώτρησης), η δημογραφία(πρόβλεψη πληθυσμιακών μεταβολών), οι οικονομικές επιστήμες(πρόβλεψη οικονομικών κύκλων), η διοίκηση επιχειρήσεων(οργάνωση και πρόβλεψη πωλήσεων), η ιατρική(ανάλυση αποτελεσματικότητας μιας θεραπείας), η σεισμολογία(πρόγνωση επικινδύνων σεισμών), η ψυχολογία(πρόβλεψη ανθρώπινης συμπεριφοράς μετά από ερέθισμα) κ.α.
Αβεβαιότητα, Μεσότητα, Πρόβλεψη σε αρχαίες ρήσεις Ρήσεις 1 «Βουλευόμενος, παρεδείγματα ποιού, τα παρεληλυθότα τ ων μελλόντων»,ισοκράτης(πρός Δημόνικο 34) 2 «Πρός γάρ τό τελευταίο ἐκβάν τ ων πρίν υπαρξάντων κρίνεται», Δημοσθένης(Ολυνθιακός, Α, 11) 3 «Οὔμετανοείνἀλλάπρονοείνχρήτόνἄνδρατόνσοφό»,Επίχαρμος. 4 «ΤώνἄγανγαρἄπτεταιΘεός,τάμικράδ εἴςτύχηναφείς»,πλούταρχος. 5 «Τό ν υν ἐστί μεσότης», Αριστοτέλης. 6 «Η μεσότης ἔν πάσιν ασφαλέστερον» Μένανδρος.
Γενικά είδη δεδομένων Διακριτά δεδομένα Τα Διακριτά(ασυνεχή) δεδομένα αναφέρονται σε αυτά για τα οποία μπορούμε να πάρουμε συγκεκριμένες τιμές εντός ενός διαστήματος τιμών. Οαριθμόςτωνεγγεγραμμένωνφοιτητώνμιαςσχολής: 0, 1, 2, 3,... Οαριθμόςτωνανάώραγεννήσεων: 0, 1, 2, 3,... Οαριθμόςτωναρτίων(ήπεριττών)απότηρίψηενόςζαριού nφορές: 0, 1,...,n μη-διακριτά δεδομένα Τα μη-διακριτά(συνεχή) δεδομένα αναφέρονται σε αυτά για τα οποία μπορούμε να πάρουμε απεριόριστες τιμές εντός ενός διαστήματος τιμών. Τούψοςενόςανθρώπουμπορείναπάρειτηντιμή 1, 79ή1, 79560σε μέτρα. Ητιμήενόςχρεογράφουμπορείναπάρειτηντιμή 0, 36%ή0, 3649280%. Το επίπεδο ημερήσιας βροχόπτωσης σε έναν σταθμό μπορεί να πάρει τιμή 2, 08ή2, 089861σε cm. βεαμερ-τυ-λογ
Γενικά είδη δεδομένων Διακριτά δεδομένα Τα Διακριτά(ασυνεχή) δεδομένα αναφέρονται σε αυτά για τα οποία μπορούμε να πάρουμε συγκεκριμένες τιμές εντός ενός διαστήματος τιμών. Οαριθμόςτωνεγγεγραμμένωνφοιτητώνμιαςσχολής: 0, 1, 2, 3,... Οαριθμόςτωνανάώραγεννήσεων: 0, 1, 2, 3,... Οαριθμόςτωναρτίων(ήπεριττών)απότηρίψηενόςζαριού nφορές: 0, 1,...,n μη-διακριτά δεδομένα Τα μη-διακριτά(συνεχή) δεδομένα αναφέρονται σε αυτά για τα οποία μπορούμε να πάρουμε απεριόριστες τιμές εντός ενός διαστήματος τιμών. Τούψοςενόςανθρώπουμπορείναπάρειτηντιμή 1, 79ή1, 79560σε μέτρα. Ητιμήενόςχρεογράφουμπορείναπάρειτηντιμή 0, 36%ή0, 3649280%. Το επίπεδο ημερήσιας βροχόπτωσης σε έναν σταθμό μπορεί να πάρει τιμή 2, 08ή2, 089861σε cm. βεαμερ-τυ-λογ
Ειδικά είδη δεδομένων Διαστρωμματικά δεδομένα Τα διαστρωμματικά δεδομένα αναφέρονται σε αυτά τα οποία συλέγονται από διάφορα στρώματα του πληθυσμοό δεδομένου χρόνου Ο πληθυσμός σε πλήθος N πρωτευουσών(διακριτή). Ητιμήενόςχρεογράφουμιαμέρατουέτουςσεδιάφορεςαγορέςτου κόσμου(μη-διακριτή). Η ζήτηση ενέργειας(σε kwh) από τους ενοίκους ενός οικοδομικού τετραγώνου(μη-διακριτή). Δεδομένα χρονολογικών σειρών Τα δεδομένα χρονολογικών σειρών αναφέρονται σε αυτά τα οποία συλέγονται διαχρονικά(σε διαδοχικά χρονικά διαστήματα) δεδομένου του χώρου. Ο διαχρονικός πληθυσμός T μιας πρωτεύουσας(διακριτή). Η διαχρονική απόδοση ενός χρεογράφου(μη-διακριτή). Η διαχρονική ζήτηση ενέργειας(σε kwh) από το σύνολο των κατοίκων μιας πόλης(μη-διακριτή). βεαμερ-τυ-λογ
Ειδικά είδη δεδομένων Διαστρωμματικά δεδομένα Τα διαστρωμματικά δεδομένα αναφέρονται σε αυτά τα οποία συλέγονται από διάφορα στρώματα του πληθυσμοό δεδομένου χρόνου Ο πληθυσμός σε πλήθος N πρωτευουσών(διακριτή). Ητιμήενόςχρεογράφουμιαμέρατουέτουςσεδιάφορεςαγορέςτου κόσμου(μη-διακριτή). Η ζήτηση ενέργειας(σε kwh) από τους ενοίκους ενός οικοδομικού τετραγώνου(μη-διακριτή). Δεδομένα χρονολογικών σειρών Τα δεδομένα χρονολογικών σειρών αναφέρονται σε αυτά τα οποία συλέγονται διαχρονικά(σε διαδοχικά χρονικά διαστήματα) δεδομένου του χώρου. Ο διαχρονικός πληθυσμός T μιας πρωτεύουσας(διακριτή). Η διαχρονική απόδοση ενός χρεογράφου(μη-διακριτή). Η διαχρονική ζήτηση ενέργειας(σε kwh) από το σύνολο των κατοίκων μιας πόλης(μη-διακριτή). βεαμερ-τυ-λογ
Δεδομένα 1 Χωρητικότητα του Ελληνικού εμπορικού στόλου 100 ΚΟΧ(Κόρων Ολικής Χωτητικότητας) και άνω(σε χιλ.). Ετη Σύνολο Φορτίου Δεξαμενόπλοια Λοιπά 2002 31,915520 12,985574 16,850424 2,079522 2003 35,004237 14,495943 18,512453 1,995841 2004 34,874798 14,717178 18,323294 1,834326 2005 33,087484 14,065622 17,248594 1,773268 2006 34,261158 14,227691 18,381517 1,651950 2007 37,676051 14,508548 21,489262 1,678241 2008 39,109444 15,032953 22,318727 1,757764 2009 41,312263 14,844060 24,777132 1,691071 2010 43,086974 15,939656 25,539641 1,607677 Τί είδους δεδομένα είναι αυτά;(ποσοτικά, ποιοτικά, διακριτά, μη-διακριτά διαστρωματικά, χρονολογικές σειρές;)
Δεδομένα Χωρητικότητα του Ελληνικού εμπορικού στόλου 100 ΚΟΧ και άνω. 000.000 KOX 0 10 20 30 40 SYN. FOR. DEK. EP.&LOIP. 2002 2003 2004 2005 2006 2007 2008 2009 2010
Δεδομένα 1 Χωρητικότητα του Ελληνικού εμπορικού στόλου 100 ΚΟΧ και άνω σε ηλικιακές ομάδες το έτος 2011. 269 308 229 139 161 142 808 Τί είδους δεδομένα είναι αυτά;(ποσοτικά, ποιοτικά, διακριτά, μη-διακριτά διαστρωματικά, χρονολογικές σειρές;)
Δεδομένα Χωρητικότητα του Ελληνικού εμπορικού στόλου 100 ΚΟΞ και άνω σε ηλικιακές ομάδες το έτος 2011. 0 200 400 600 800 0 <5 5 <10 10 <15 15 <20 20 <25 20 <30 30+ βεαμερ-τυ-λογ
Δεδομένα 1 Παγκόσμιος εμπορικός στόλος ανά εθνικότητα σε %. Εθνικότητα Ναυτ. Εταιρία Πραγματική κυριότητα (%) κυριότητα (%) Ελλάς 15,4 16,9 Ιαπωνία 13,6 14,1 Κίνα 11,9 11,2 Γερμανία 7,6 7,6 Ν. Κορέα 4,7 5,0 Σιγκαπούρη 4,4 3,3 Η.Π.Α. 3,4 3,5 Η.Β. 3,2 1,5 Ταϊβάν 2,8 2,8 Νορβηγία 2,6 3,7 Δανία 2,4 2,5 Βερμούδες 2,2 0,7 Λοιποί 25,8 27,2 Τί είδους δεδομένα είναι αυτά;(ποσοτικά, ποιοτικά, διακριτά, μη-διακριτά διαστρωματικά, χρονολογικές σειρές;) βεαμερ-τυ-λογ
Δεδομένα Παγκόσμιος εμπορικός στόλος ανά εθνικότητα σε %(μέσω πίτας). YP CHIN GR GER S.KOR SG US UK TW NOR DKBER LOIP.
Δεδομένα 1 Μηνιαίες αφίξεις στα εαροδρόμια Χανίων, Ηρακλείου και Ρόδου το έτος 2013. μήνες Χανίων Ηρακλείου Ρόδου 1 984 846 474 2 935 225 165 3 4422 8399 3806 4 38131 75806 47832 5 113803 304946 213553 6 148223 421873 321688 7 171345 519690 375682 8 161964 527937 384398 9 137639 438947 312368 10 71153 173494 120614 11 6276 1999 906 12 4705 1765 819 Τί είδους δεδομένα είναι αυτά;(ποσοτικά, ποιοτικά, διακριτά, μη-διακριτά διαστρωματικά, χρονολογικές σειρές;) βεαμερ-τυ-λογ
Δεδομένα Μηνιαίες αφίξεις στα αεροδρόμια Χανίων, Ηρακλείου και Ρόδου το έτος 2013(μέσω διαχρονικού γιαγράμματος τιμών). 0 100 200 300 400 500 x Irakleio Chania Rodos 2 4 6 8 10 12 mhnes βεαμερ-τυ-λογ
Δεδομένα Αφίξεις ανα μήνα στο αεροδρόμιο Χανίων το έτος 2013(μέσω πίτας). 6 5 7 4 123 11 10 8 9
Δεδομένα Συνολικές αφίξεις στα αεροδρόμια Χανίων, Ηρακλείου και Ρόδου το έτος 2013(μέσω πίτας). Irakleio Chania Rodos
Δεδομένα Διάγραμμα Χρονολογικών Σειρώς-Τριμηνιαία Κατανάλωση Φυσικού Αερίου(σε χιλ. kwh)(μέσω διαχρονικού διαγράμματος τιμών). Gas consumption in UK 200 400 600 800 1000 1200 1960 1965 1970 1975 1980 1985 Time βεαμερ-τυ-λογ
Δεδομένα Διάγραμμα Χρονολογικών Σειρώς-Ελληνικός πληθυσμός στη Κωνσταντινούπολη(σε χιλ.)(μέσω διαχρονικού διαγράμματος τιμών). 7 Ell.plhth(se xil.) 0 50 100 150 200 250 1 2 3 4 5 6 8 9 10 11 12 13 14 15 16 17 18 19 1850 1900 1950 2000 Eth βεαμερ-τυ-λογ
Παραδείγματα δεδομένων Διακριτά δεδομένα Εστω δείγμα αριθμών γεννήσεων ανά ώρα εντός ενός 24ώρου: 1 4 3 2 1 2 5 3 3 1 4 4 5 2 2 6 1 1 2 10 2 1 6 3 Τί είδους δεδομένα είναι αυτά; Πως παρουσιάζουμε τέτοιου είδους δεδομένα; x i f i 1 6 2 6 3 4 4 3 5 2 6 2 10 1 7 i=1 f i = 24 όπου f i ησυχνότητα(αριθμός)εμφάνισηςτουενδεχομένου x i. βεαμερ-τυ-λογ
f βεαμερ-τυ-λογ Ιστόγραμμα συχνοτήτων αριθμών γεννήσεων ανά ώρα 0 1 2 3 4 5 6 1 2 3 4 5 6 10 x
Παραδείγματα δεδομένων Μη-Διακριτά δεδομένα Εστω δείγμα από ημερίσιες μέσες τιμές αμόλυβδης βενζίνης για τους 51 νομούς της χώρας(10η Ιουνίου 2014). 1,662 1,699 1,683 1,701 1,700 1,666 1,684 1,716 1,664 1,772 1,713 1,692 1,748 1,697 1,696 1,658 1,750 1,699 1,653 1,675 1,678 1,671 1,727 1,751 1,773 1,679 1,684 1,690 1,787 1,691 1,680 1,785 1,707 1,705 1,677 1,699 1,668 1,673 1,669 1,691 1,748 1,683 1,782 1,672 1,681 1,677 1,681 1,713 1,691 1,745 1,717 Τί είδους δεδομένα είναι αυτά; Πως παρουσιάζουμε τέτοιου είδους δεδομένα;
Παραδείγματα δεδομένων: Μη-Διακριτά Πως ταξινομούμε τα δεδομένα; 1 Θέτουμε τη κάθε παρατήρηση σε διαφορετικές κλάσεις 2 Οι κλάσεις θα αντιπροσωπεύουν αμοιβαίως αποκλειόμενα γεγονότα. 3 Το εύρος και ο αριθμός των κλάσεων αποτελεί επιλογή του στατιστικού αναλυτή δεδομένων των στόχων αυτού(αλλιώς χρήση κανόνα του Sturges). 4 Αφού θέσουμε εύρος και ο αριθμός των κλάσεων, καθορίζουμε την ενδιάμεση τιμή της κάθε κλάσης η οποία χρησιμοποιείται ως ενδεικτική τιμή χρήσιμη για τον προσδιορισμό στατιστικών μέτρων.
Παραδείγματα δεδομένων: Μη-Διακριτά Πως ταξινομούμε τα δεδομένα; Πως ορίζουμε αριθμο και εύρος κλάσεων; Καθόρισε τον αριθμό των κλάσεων(κανόνας του Sturges) k = 1+3, 322 log 10 N = 1+3, 322 log 10 51 7 Καθόρισε το εύρος της κάθε κλάσης. d = max x i min x i k = 1, 787 1, 653 7 0, 2
Παραδείγματα δεδομένων μη-διακριτά δεδομένα(συν.) τιμές x i συχνότητες f i [1, 65, 1, 67) 7 [1, 67, 1, 69) 16 [1, 69, 1, 71) 13 [1, 71, 1, 73) 5 [1, 73, 1, 75) 4 [1, 75, 1, 77) 1 [1, 77, 1, 79) 5 51=N = 7 i=1 f i όπου f i ησυχνότητα(αριθμός)εμφάνισηςτουενδεχομένου x i.
Ραβδόγραμμα συχνοτήτων ημερισίων μέσων τιμών αμολ. βενζίνης-ίσες τάξεις Unleaded prices Frequency 0 5 10 15 1.66 1.68 1.70 1.72 1.74 1.76 1.78 x
Ραβδόγραμμα συχνοτήτων ημερισίων μέσων τιμών αμολ. βενζίνης-άνισες τάξεις F 0 2 4 6 8 10 12 1.60 1.65 1.70 1.75 1.80 x
Παραδείγματα δεδομένων Ερωτήματα ως προς την απεικόνηση δεδομένων 1 Πότε χρησιμοποιούμε ραβδόγραμμα και πότε ιστόγραμμα; 2 Τίπληροφορίεςεξάγουμεμέσωτηςαπεικόνησησυχνοτήτων f i ; 3 Πρέπειοιτάξειςσεέναραβδόγραμμαναείναιπάνταίσες;Εάνναιγιατί; 4 Πως παρουσιάζουμε μια χρονολογική σειρά; 5 Τί παρατηρούμε βλέποντας το διαχρονικό διάγραμμα μιας χρονολογικής σειράς; 6 Είναι ένα ιστόγραμμα ή ραβδόγραμμα χρήσιμο σε μια χρονολογική σειρά;
Δεδομένα Ραβδόγραμμα Χρονολογικών Σειρώς-Τριμηνιαία Κατανάλωση Φυσικού Αερίου(σε χιλ. kwh)(μέσω διαχρονικού διαγράμματος τιμών). UK gas consumption Frequency 0 10 20 30 40 0 200 400 600 800 1000 1200 time βεαμερ-τυ-λογ
Περιγραφή του Στατιστικού προβλήματος Δειγματικός Χώρος(Ω)-Διακριτών τ.μ. Δειγματικός Χώρος είναι το σύνολο των δυνατών αποτελεσμάτων μιας δειγματοληψίας. 1 Ο δειγματικός χώρος της τ.μ. της ρίψης δυο νομίσματων Ω x = {KK,KΓ,ΓK,ΓΓ} 2 Οδειγματικόςχώροςτηςτ.μ.τηςρίψηςδυοζαριών Ω x = {(1, 1),(1, 2),...,(1, 6) (2, 1),(2, 2),...,(2, 6)...,...,... (6, 1),(6, 2),...,(6, 6)}
Περιγραφή του Στατιστικού προβλήματος Δειγματικός Χώρος(Ω)-μη-Διακριτών τ.μ. 1 Οδειγματικόςχώροςτηςτ.μ.τουχρόνουζωήςενόςλαμπτήρα Ω x = [0,+ ) 2 Ο δειγματικός χώρος της τ.μ. της απόδοσης ενός χρεογράφου Ω x = (,+ ) 3 Ο δειγματικός χώρος της τ.μ. της ημερήσιας βροχόπτωσης στος σταθμό μέτρησης της πόλης του Ρεθύμνου Ω x = [0,+ )
Περιγραφή του Στατιστικού προβλήματος Συχνότητα(f) Συχνότητα f i (ή f(x i ))αποτελείτοσύνολοτωνποσοτήτωντουδείγματοςπου αντιστοιχούν σε κάθε συγκεκριμένη τάξη i του δειγματικού χώρου. 1 Εστωγιακάθε αντιστοιχούν {x 1,...,x n}, {f 1,...,f n}, {f(x 1 ),...,f(x n)}, συχνότητες. Οπου για το σύνολο του δείγματος N ισχύει: N = n f i. i=1
Παράδειγμα Να καθορίσεται το δειγματικό χώρο και τις αντίστοιχες θεωρητικές συχνότητες στο παίγνιο του τάβλι.
Περιγραφή του Στατιστικού προβλήματος Αθροιστική Συχνότητα(F) ΑθροιστικήΣυχνότητα F i (ή F(x i ))αποτελείτοάθροισματωνσυχνοτήτων f i των δειγματικών σημείων i στο όριο. Εστω για κάθε έχουμε: {x 1,...,x n}, F 1 = f 1, F 2 = f 1 + f 2 F 1 + f 2,. F n 1 = f 1 + +f n 1, F n 1 = f 1 + +f n F n 1 + f n.
Παραδείγματα δεδομένων μη-διακριτά δεδομένα(συν.) τιμές x i συχνότητες f i αθροιστικέςσυχνότητες F i [1, 65, 1, 67) 7 7 [1, 67, 1, 69) 16 23 [1, 69, 1, 71) 13 36 [1, 71, 1, 73) 5 41 [1, 73, 1, 75) 4 45 [1, 75, 1, 77) 1 46 [1, 77, 1, 79) 5 51= N όπου F i ηαθροιστικήσυχνότηταστοόριοτουεχομένου x i.