Ενότητα η : Εισαγωγή στη Στατιστική Θεματολογία Στατιστική Ι Ενότητα : Εισαγωγή Δρ. Χρήστος Εμμανουηλίδης Επίκουρος Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Αντικείμενο της Στατιστικής : μεταβλητές,πληθυσμός, δείγμα, παράμετροι, στατιστικές, παρατηρήσεις και συμπερασματολογία. Τύποι μεταβλητών και κλίμακες μέτρησης: ποσοτικά και ποιοτικά δεδομένα αντιπροσωπευτικότητα διαστρωματικά, χρονοσειρές και διαμήκη δεδομένα Ο τελεστής της άθροισης Χ. Εμμανουηλίδης, cemma@eco.auth.gr Χ. Εμμανουηλίδης, cemma@eco.auth.gr Αντικείμενο της Στατιστικής Στατιστική είναι η επιστήμη που χρησιμοποιεί δεδομένα για να απαντήσει συγκεκριμένα ερευνητικά ερωτήματα που μας ενδιαφέρουν. Περιλαμβάνει την κατασκευή: (α) μεθόδων συλλογήςδεδομένων σχετικών με τα ερευνητικά ερωτήματα, (β)μεθόδων σύνοψης και παρουσίασηςτων δεδομένων, και (γ) μεθόδων ανάλυσης που βοηθούν στο να δοθούν απαντήσεις στα ερευνητικά ερωτήματα, οι οποίες υποστηρίζονται από τα δεδομένα. Οι μέθοδοι ενέχουν την κατασκευή μοντέλων για τη γένεση των δεδομένων. Δεδομένα και αβεβαιότητα Τα δεδομένα (μετρήσεις) σχεδόν πάντοτε περιέχουν αβεβαιότητα (ή σφάλμα): πραγματική τιμή = μέτρηση ± αβεβαιότητα (σφάλμα) Αυτή μπορεί να προέρχεται (α) από την επιλογή των αντικειμένων που θα μετρηθούν ή (β) από τη μεταβλητότητα της διαδικασίας μέτρησης. Η εξαγωγή γενικών συμπερασμάτων από δεδομένα είναι ο βασικός ορθολογικός τρόπος άντλησης επιστημονικής γνώσης. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 Δεδομένα και αβεβαιότητα Η στατιστική συμπερασματολογία παρέχει μεθόδους ώστε να εξάγουμε γενικά συμπεράσματα από τα δεδομένα, παρά την αβεβαιότητα. Οι μέθοδοι ανάλυσης δεδομένων εξαρτώνται από τον τρόπο με τον οποίο αυτά συλλέχθηκαν. Είναι σημαντικό να υπάρχει ένα μοντέλο πιθανότητας για τον τρόπο με τον οποίο η αβεβαιότητα εισέρχεται στα δεδομένα μας. Οι μέθοδοι της στατιστικής συμπερασματολογίας εφαρμόζονται σε δεδομένα που έχουν τυχαία μεταβλητότητα. Αυτή περιγράφεται με ένα μοντέλο πιθανότητας που προκύπτει από τον τρόπο συλλογής τους. Δεδομένα (μετρήσεις) οι πληροφορίες που συλλέγονται προς ανάλυση / επεξεργασία Στατιστικές μονάδες τα άτομα ή αντικείμενα από τα οποία συλλέγονται τα δεδομένα (π.χ. άτομα, νοικοκυριά, εταιρίες, κλάδοι δραστηριότητας, χώρες, κοκ.) Δείκτης μονάδων:,..., = πλήθος μονάδων Μεταβλητή κάθε μετρήσιμο χαρακτηριστικό των στατιστικών μονάδων που μπορεί να λάβει πάνω από μια διαφορετικές τιμές Συμβολίζεται με κεφαλαίο γράμμα, π.χ Χ Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Χ. Εμμανουηλίδης, cemma@eco.auth.gr
Ενότητα η : Εισαγωγή στη Στατιστική Παρατήρηση το σύνολο των μετρήσεων σε μια στατιστική μονάδα Σύνολο δεδομένων το σύνολο των μετρήσεων σε όλες τις στατιστικές μονάδες (το μέγεθός του ισούται με το πλήθος των μονάδων επί τον αριθμό των μεταβλητών) Δεδομένα: ( ) = ( ) Διάνυσμα τιμών: =,,..., = πλήθος μεταβλητών που μετρώνται, X, =,..., Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Παράδειγμα: σύνολο δεδομένων από μελέτη περιβαλλοντικών στάσεων Age Geder State Chldre Icome ($) Atttude 35 Male Y 73,300 5 6 Female TX 65,00 43 Male CA 6,000 4 5 Male OH 3 69,600 3 9 Female FL 0 46,800 5 = 5, = 6 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Πληθυσμός το σύνολο όλων των παρατηρήσεων που μας ενδιαφέρουν ώστε να γνωρίσουμε μια ή περισσότερες μεταβλητές(π.χ. οι πωλήσεις όλωντων 350 εταιριών σε έναν κλάδο) ( ), =,...,, =,..., = μέγεθος πληθυσμού, = πλήθος μεταβλητών Δείγμα κάθε υποσύνολο του πληθυσμού(π.χ. οι πωλήσεις 5 εταιριών του κλάδου) ( ), =,...,, =,..., = μέγεθος δείγματος, = πλήθος μεταβλητών Παράμετρος ένα συνοπτικό μέτρο για τον πληθυσμό (π.χ. μέσος πληθυσμού, διακύμανση πληθυσμού). Οποιαδήποτε συνάρτηση των τιμών του πληθυσμού είναι μια παράμετρος ( ), ( ) Θ= f = Μέσος της μεταβλητής Χ : µ = Διακύμανση της μεταβλητής Χ : σ = ( µ ) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0 Στατιστική (ή στατιστική συνάρτηση) ένα συνοπτικό μέτρο για το δείγμα (π.χ. δειγματικός μέσος, δειγματική διακύμανση). Οποιαδήποτε συνάρτηση των τιμών του δείγματος είναι μια στατιστική ( ), ( ) θ = f = Δειγματικός μέσος της Χ : = Δειγματική διακύμανση της Χ : s = ( ) Στατιστική συμπερασματολογία η διαδικασία με την οποία αποφαινόμαστε για την τιμή άγνωστων παραμέτρων του πληθυσμού με βάση τα δειγματικά δεδομένα(π.χ. η μέση τιμή των ετήσιων πωλήσεων του κλάδου είναι55.4 ±5. ($M) με βάση δείγμα μεγέθους 5) καλά συμπεράσματα προκύπτουν όταν το δείγμα μας είναι αντιπροσωπευτικό του πληθυσμού ένα δείγμα είναι αντιπροσωπευτικό του πληθυσμού όταν η κατανομή των δειγματικών δεδομένων είναι παρόμοια με την κατανομή των τιμών στον πληθυσμό. τυχαία δείγματαείναι πιο αντιπροσωπευτικά από δείγματα που έχουν ληφθεί με μη τυχαίο τρόπο. Χ. Εμμανουηλίδης, cemma@eco.auth.gr Χ. Εμμανουηλίδης, cemma@eco.auth.gr Χ. Εμμανουηλίδης, cemma@eco.auth.gr
Ενότητα η : Εισαγωγή στη Στατιστική Ποσοτικά ή αριθμητικά δεδομένα Δεδομέναπου μετρούνται σε μια φυσικά ορισμένηαριθμητική κλίμακα(π.χ. ηλικία, εισόδημα,ύψος, βάρος, πωλήσεις, θερμοκρασία, κοκ.) Μπορούμε να εφαρμόσουμε σε αυτά συνήθεις μαθηματικές πράξεις και υπολογισμούς Με βάση τις τιμές τους, ταξινομούνται σε Διακριτά δεδομένα οι δυνατές τιμές είναι διακριτές(π.χ. αριθμός παιδιών, μέγεθος εταιρίας, όγκος πωλήσεων) Συνεχή δεδομένα οι δυνατές τιμές είναι συνεχείς(π.χ. εισόδημα, πωλήσεις ύψος, βάρος, ηλικία, χρόνος) Με βάση την κλίμακα μέτρησής τους, ταξινομούνται σε Αναλογικά δεδομένα δεδομένα με απόλυτα ορισμένο μηδέν (δηλ. το μηδέν σημαίνει απουσία τιμής-π.χ. εισόδημα, πωλήσεις, ηλικία, αριθμός παιδιών) Διαστηματικάδεδομένα δεδομένα με σχετικά ορισμένο μηδέν(δηλ. το μηδέν αντιστοιχεί σε τιμή -π.χ. θερμοκρασία σε o C, υψόμετρο) Ποιοτικά ή κατηγορικά δεδομένα Δεδομένα που μετρούνται με ταξινόμηση σε μια ομάδα κατηγοριών (π.χ. φύλο, νομός, κατοχή Η/Υ, στάσεις, γνώμες) Δεν είναι αριθμητικά από τη φύση τους, αλλά μπορούν να κωδικοποιηθούν με αριθμητικό τρόπο Ταξινομούνται σε Ονομαστικά δεδομένα δεν υπάρχει φυσική διάταξη στις κατηγορίες (π.χ. φύλο, νομός, κατοχή Η/Υ, χρώμα μαλλιών) Διατακτικά δεδομένα -υπάρχει φυσική διάταξη στις κατηγορίες (π.χ. στάσεις, γνώμες, σειρά προτίμησης) Ποσοτικά δεδομένα μπορούν να μετασχηματιστούν σε ποιοτικά με κατηγοριοποίηση (π.χ. εισόδημα σε κατηγορίες). Διαφορετικές στατιστικές μέθοδοι εφαρμόζονται για την ανάλυση ποσοτικών και ποιοτικών δεδομένων Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 Ονομαστικά Ποιοτικά Διατακτικά Δεδομένα Διαστηματικά Ποσοτικά Διακριτά ή συνεχή Η ποσότητα πληροφορίας αυξάνει Αναλογικά Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Πηγές δεδομένων Δημοσιευμένες πηγές βιβλία, περιοδικά, οργανισμοί, εταιρίες, βάσεις δεδομένων (εμπορικές ή όχι) Σχεδιασμένα πειράματα(desged eermets) Οι στατιστικές μονάδες υπόκεινται σε ελεγχόμενες επιδράσεις συγκεκριμένων μεταβλητών (μεταβλητές ελέγχου) Ο στόχος είναι η συλλογή πληροφορίας σχετικά με την επίδραση των μεταβλητών ελέγχου σε μια ή περισσότερες μεταβλητές ενδιαφέροντος (εξαρτημένες μεταβλητές) Επισκόπηση(survey) Δεδομένα από ένα δείγμα συλλέγονται με ερωτηματολόγιο Απευθείας παρατήρηση Οι μελετητές παρατηρούν τις στατιστικές μονάδες χωρίς να αλληλεπιδρούν με αυτές Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Δειγματοληψία Μέθοδος επιλογής δείγματος στατιστικών μονάδων. Απαιτείται όταν δε μπορούμε να συλλέξουμε στοιχεία για όλον τον πληθυσμό που μας ενδιαφέρει Το δείγμα πρέπει να είναι αντιπροσωπευτικό, δηλ. να περιέχει πληροφορία που χαρακτηρίζει «σωστά» τον πληθυσμό Τυχαία δειγματοληψία Εξασφαλίζει τη μέγιστη δυνατή αντιπροσωπευτικότητα Όλα τα δυνατά δείγματα ορισμένου μεγέθους έχουν την ίδια πιθανότητα να επιλεγούν ή, ισοδύναμα, κάθε στατιστική μονάδα του πληθυσμού έχει την ίδια πιθανότητα να συμπεριληφθεί στο δείγμα. Κάθε δείγμα που προκύπτει με αυτό τον τρόπο είναι ένατυχαίο δείγμα. Αντιπροσωπευτικά δείγματα Δείγματα που περιέχουν τα βασικά χαρακτηριστικά του πληθυσμού, όπως την κεντρική τάση, τη μεταβλητότητα και τη μορφή της κατανομής των τιμών στον πληθυσμό Ένα γραφικό παράδειγμα ακολουθεί Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3
Ενότητα η : Εισαγωγή στη Στατιστική Αντιπροσωπευτικό δείγμα Poulato Κατά μέσο όρο, η θέση, η διασπορά και η μορφή της κατανομής των δειγματικών δεδομένων ταυτίζεται με αυτά του πληθυσμού Radom samle of sze =00 Μη-αντιπροσωπευτικό δείγμα Poulato Κατά μέσο όρο, η θέση, ή/και η διασπορά ή/και η μορφή της κατανομής των δειγματικών δεδομένων δενταυτίζεται με αυτά του πληθυσμού o-radom samle of sze =00 µ = 565.4, σ = 5.7 = 58., s= 03. 0.008 µ = 565.4, σ = 5.7 0.05 = 64.4, s= 85.6 Relatve frequecy 0.00 Relatve frequecy 0.00 Relatve frequecy 0.00 Relatve frequecy 0.00 0.005 300 390 480 570 660 750 840 930 00 0 00 300 390 480 570 660 750 840 930 00 0 00 300 390 480 570 660 750 840 930 00 0 00 300 390 480 570 660 750 840 930 00 0 00 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0 Σφάλματα στη συλλογή δεδομένων Σφάλμα επιλογής στατιστικών μονάδων(selecto bas) ένα μέρος του πληθυσμού ενδιαφέροντος δε συμπεριλαμβάνεται στη δειγματοληψία (π.χ. δείτε την προηγούμενη διαφάνεια) Σφάλμα μη απόκρισης (o-resose bas) συμβαίνει όταν κάποιες στατιστικές μονάδες δεν δίνουν στοιχεία (με μη-τυχαίο τρόπο) Σφάλμα μέτρησης (measuremet error) Μπορεί να συμβεί από λάθος σχεδιασμό του εργαλείου μέτρησης (π.χ. ερωτηματολογίου), από επιρροή ή λάθος του ατόμου που διαχειρίζεται το εργαλείο, ή από σφάλμα καταγραφής των τιμών. Με βάση τον χρόνο συλλογής και τον αριθμό των στατιστικών μονάδων για τις οποίες συλλέγονται στοιχεία, διακρίνουμε τους εξής τύπους δεδομένων Διαστρωματικά δεδομένα (cross-sectoal data) Δεδομένα που συλλέγονται την ίδια ή περίπουτην ίδια χρονική περίοδο για έναν συνήθως μεγάλο αριθμό στατιστικών μονάδων Χρονοσειρές(tme seres data) Δεδομένα που συλλέγονται για αρκετές χρονικές περιόδους με κάποια σταθερή συνήθως συχνότητα για μια στατιστική μονάδα Διαμήκη δεδομένα (ael data) Δεδομένα που συλλέγονται για αρκετές χρονικές περιόδους για τις ίδιες στατιστικές μονάδες, Συνήθως ο αριθμός των στατιστικών μονάδων είναι πολύ μεγαλύτερος του αριθμού των χρονικών περιόδων. Χ. Εμμανουηλίδης, cemma@eco.auth.gr Χ. Εμμανουηλίδης, cemma@eco.auth.gr Διαστρωματικά δεδομένα Παράδειγμα Διάμεσο διαθέσιμο εισόδημα() στις 7 χώρες της EΕτο005 ( ) Coutry Coutry Coutry Luembourg 798 Cyrus 4638 Czech Reublc 7768 orway 90 Frace 4537 Hugary 5633 Uted Kgdom 793 Swede 4308 Slovaka 597 Austra 7606 Flad 468 Polad 4796 Icelad 704 Italy 375 Estoa 4773 Germay 648 Slovea 747 Latva 3999 etherlads 636 Sa 76 Lthuaa 390 Demark 5968 Malta 00 Belgum 5684 Greece 0867 Irelad 5007 Portugal 834 Χρονοσειρές Παράδειγμα Μέση ετήσια επιφανειακή θερμοκρασία της Γης 880-005 Temerature ( ο C) Mea aual surface temerature (880-005) 4.6 4. 3.6 3. 860 880 900 90 940 960 980 000 Year Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4
Ενότητα η : Εισαγωγή στη Στατιστική Meda aual dsosable come Διαμήκη δεδομένα Παράδειγμα Διάμεσο ετήσιο διαθέσιμο εισόδημα σε 0 χώρες της EΕ (PPP uts, 995-005) Συμβολισμοί : Μέγεθος συνόλου δεδομένων: Δείκτης στατιστικών μονάδων: Μεταβλητή: Τιμή μεταβλητής Χ για την μονάδα : =,, Χ Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Τελεστής άθροισης : Σ Σταθερά: α a= a+ a+... + a= a φορες = + +... + a = a Ακολουθίες τιμών: Σταθερά: ( ) + y = + y Αν α, α σταθερές, τότε, y,,..., α y = y + y +... + y = = ( ) y = y a + a y = a + a y Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Τέλος ενότητας Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5