Περιγραφική Στατιστική Ακαδ. Έτος 2012-2013 1 ο εξάμηνο Κ. Πολίτης 1 2
Η στατιστική ασχολείται με τη συλλογή, οργάνωση, παρουσίαση και ανάλυση πληροφοριών. Οι πληροφορίες αυτές, πολύ συχνά αριθμητικές, ονομάζονται παρατηρήσεις, ή μετρήσεις ή δεδομένα. Συλλογή επιλογή ενός δείγματος από τον πληθυσμό (ένα ομοιογενές σύνολο ατόμων των οποίων εξετάζουμε κάποιο χαρακτηριστικό) Οργάνωση σήμερα σχεδόν πάντα με τη βοήθεια υπολογιστή Παρουσίαση με τη μορφή π.χ. κάποιου πίνακα, ή κάποιου διαγράμματος, χρησιμοποιώντας είτε το σύνολο των μετρήσεων από το δείγμα είτε κάποιο περιγραφικό μέτρο (π.χ. τον αριθμητικό μέσο) Επίσης Η επιλογή ενός δείγματος από κάποιο πληθυσμό αποτελεί αντικείμενο της δειγματοληψίας Για την οργάνωση των δεδομένων χρησιμοποιούμε κάποιο λογιστικό φύλλο (π.χ. Excel) ή κάποιο στατιστικό πακέτο (π.χ. Minitab, SPSS, Splus, BMDP κλπ) Με την παρουσίαση και περιγραφή των δεδομένων ασχολείται η Περιγραφική στατιστική Βασικό μαθηματικό εργαλείο της στατιστικής συμπερασματολογίας είναι η θεωρία πιθανοτήτων και ειδικότερα οι διάφορες κατανομές πιθανότητας Ανάλυση στατιστική συμπερασματολογία με τη χρήση κάποιου μοντέλου (π.χ. ότι ο πληθυσμός τον οποίο μελετάμε ακολουθεί κάποια κατανομή) 3 4
Στη στατιστική, ενας πληθυσμός που εξετάζουμε μπορεί να είναι Α. Πεπερασμένος ή άπειρος Β. Υπαρκτός ή ιδεατός Είδη στατιστικών στοιχείων Χρονοσειρές ή χρονικές σειρές (π.χ. οι διάφοροι οικονομικοί δείκτες) Διαστρωματικά στοιχεία (π.χ. απογραφές, έρευνες αγοράς κλπ) Μεικτά δεδομένα Κάποια πεδία εφαρμογών της στατιστικής σήμερα είναι Ιατρική, βιολογία, γενετική, φαρμακευτική, επιδημιολογία Ψυχολογία Οικονομία και χρηματοοικονομικά Ασφάλιση και ασφαλιστική επιστήμη Αθλητισμός Κοινωνιολογία Μηχανική Γεωργία Γεωλογία και άλλες (που συνδυάζουν τα δύο παραπάνω στοιχεία) 5 6
Στατιστική Βασικός σκοπός της περιγραφικής στατιστικής είναι η παρουσίαση των τιμών του δείγματος με τέτοιο τρόπο ώστε να μπορεί να γίνει μια πρώτη ερμηνεία των αποτελεσμάτων Περιγραφική στατιστική Συμπερασματολογία Μονοδιάστατη Διδιάστατη Εκτιμητική Έλεγχοι γ υποθέσεων Επίσης, είναι σημαντικό να μπορούν να ανιχνευτούν κάποια ιδιαίτερα χαρακτηριστικά των τιμών του δείγματος (άρα πιθανότατα και του πληθυσμού) τα οποία θα μελετηθούν αναλυτικά αργότερα διευρευνητική στατιστική. o Μέτρα κεντρικής τάσης o Μέτρα θέσης o Μέτρα κύμανσης (εύρους) o Μέτρα ασυμμετρίας και κύρτωσης Συσχέτιση Μέθοδοι για Ένα δείγμα Δύο δείγματα (ανεξάρτητα) Συσχετισμένα δείγματα Ν δείγματα Απαραμετρικές μέθοδοι Παλινδρόμηση 7 8
Παράδειγμα Ενδιαφερόμαστε να μελετήσουμε το ύψος των φοιτητών του Πα.Πει Ο πληθυσμός εδώ είναι το σύνολο των φοιτητών (κάθε φοιτητής αποτελεί μία στατιστική μονάδα) Η μεταβλητή, δηλαδή το χαρακτηριστικό γνώρισμα που μας ενδιαφέρει, είναι το ύψος Επειδή ο πληθυσμός είναι μεγάλος, και η ανάλυση όλων των στοιχείων του είναι δαπανηρή (και χρονοβόρα), πρώτο στάδιο για τη μελέτη είναι να επιλέξουμε ένα δείγμα από το σύνολο των φοιτητών. Στην περιγραφική ανάλυση που ακολουθεί, ένα πρώτο αριθμητικό μέτρο είναι ο αριθμητικός μέσος όρος των τιμών του δείγματος (δειγματικός μέσος) Άλλα απλά περιγραφικά στοιχεία είναι η μέγιστη τιμή του δείγματος η ελάχιστη τιμή του δείγματος το εύρος των τιμών του δείγματος (η διαφορά των δύο παραπάνω τιμών) η διάμεσος, δηλαδή η τιμή που είναι μεγαλύτερη από το 50% των τιμών του δείγματος η επικρατούσα τιμή, δηλαδή η τιμή που παρουσιάζεται περισσότερες φορές στο δείγμα Θεμελιώδης ιδιότητα ενός δείγματος είναι η αντιπροσωπευτικότητα (εδώ π.χ. ως προς το φύλο, το έτος φοίτησης κλπ) 9 10
Είδη δεδομένων (μεταβλητών) Κάθε χαρακτηριστικό του πληθυσμού που μελετάμε αποτελεί μια μεταβλητή. Οι τιμές που παίρνει αυτή η μεταβλητή σε ένα δείγμα αποτελούν τα δεδομένα μας. Οι μεταβλητές (αντ. τα δεδομένα) διακρίνονται σε: Ποσοτικές ή αριθμητικές Π.χ. ύψος, βάρος, ηλικία, αριθμός παιδιών σε μια οικογένεια, αριθμός φοιτητών σε ένα Τμήμα Παν/μίου, αριθμός ωρών που εργάζεται κάποιος σε μια εβδομάδα κλπ. Ποιοτικές (ή ονομαστικές) Π.χ. φύλο, είδος ασθένειας, ομάδα αίματος, οικογενειακή κατάσταση, ποδοσφαιρική ομάδα που υποστηρίζει κάποιος κλπ. Οι ποσοτικές μεταβλητές διακρίνονται σε: Συνεχείς, όταν η μεταβλητή μπορεί να πάρει οποιαδήποτε τιμή σε κάποιο διάστημα, λ.χ. το (0,1) ή το [0, ) Διακριτές, όταν η μεταβλητή παίρνει τιμές από ένα πεπερασμένο ή το πολύ αριθμήσιμο σύνολο (όπως π.χ. το σύνολο των ακεραίων). Έτσι, οι μεταβλητές o ύψος, βάρος, μήκος, αριθμός ωρών που εργάζεται κάποιος, ύψος μηνιαίου μισθού είναι συνεχείς ενώ οι μεταβλητές o ηλικία (σε έτη), αριθμός παιδιών σε μια οικογένεια, αριθμός φοιτητών σε ένα Τμήμα Παν/μίου, αριθμός τηλεφωνημάτων που δέχεται κάποιος σε μια μέρα είναι διακριτές 11 12
Οι ποιοτικές μεταβλητές διακρίνονται σε: Κατηγορικές (μη διατάξιμες), και Διατάξιμες Μια μεταβλητή είναι διατάξιμη όταν υπάρχει η δυνατότητα διάταξης των τιμών της. Παραδείγματα τέτοιων μεταβλητών είναι Η κατάσταση της υγείας ενός ασθενή (πολύ σοβαρή, σοβαρή, μέτρια, ομαλή) το επίπεδο εκπαίδευσης (πρωτοβάθμια, δευτεροβάθμια, πανεπιστημιακή κλπ) ο βαθμός ικανοποίησης κάποιου από ένα προϊόν (πάρα πολύ / πολύ / λίγο / καθόλου) Η παραπάνω διάκριση των μεταβλητών έχει σημασία τόσο για την περιγραφή / παρουσίαση, όσο και για την ανάλυση των δεδομένων, αφού γενικά υπάρχουν διαφορετικές μέθοδοι ανάλογα με το αν η μεταβλητή είναι o ποιοτική ή ποσοτική o συνεχής ή διακριτή Πάντως, αρκετά συχνά όταν έχουμε μια ποσοτική μεταβλητή που έχει μεγάλο πλήθος από δυνατές τιμές, την μετατρέπουμε σε ποιοτική Αν δεν υπάρχει διάταξη στις τιμές της μεταβλητής, τότε αυτή είναι κατηγορική. 13 14
Παράδειγμα : ηλικία Αντί να εξετάσουμε την ακριβή ηλικία μιας ομάδας ατόμων (ενός δείγματος), μπορούμε να χωρίσουμε τα άτομα σε διάφορες ηλικιακές ομάδες, π.χ. έως 20 ετών από 20 έως 40 ετών από 40 έως 60 ετών άνω των 60 ετών Αυτό συμβαίνει όταν δε μας ενδιαφέρει η ακριβής ηλικία ενός ατόμου, αλλά ενδιαφερόμαστε κυρίως για τις διαφορές ανάμεσα στις διάφορες ηλικιακές ομάδες. Αριθμητικό παράδειγμα για διακριτά δεδομένα Μελετάμε τον αριθμό παιδιών ανά οικογένεια σε μια περιοχή της Αθήνας. Επιλέγουμε ένα δείγμα από 15 οικογένειες με τις εξής τιμές (δεδομένα) 1, 2, 4, 2, 2, 3, 5, 1, 1, 2, 4, 1, 1, 2, 2. Στο δείγμα υπάρχουν 5 οικογένειες με ένα παιδί, 6 οικογένειες με 2 παιδιά, 1 οικογένεια με 3 παιδιά 2 οικογένειες με 4 παιδιά, 1 οικογένεια με 5 παιδιά 15 16
Γραφική απεικόνιση των τιμών του δείγματος (ραβδόγραμμα) Κάποια απλά περιγραφικά χαρακτηριστικά Υπάρχουν συνολικά 5 x 1 + 6 x 2+ 1 x 3 + 2 x 4 + 1 x 5 = 33 παιδιά στο δείγμα, οπότε ο αριθμητικός μέσος είναι 33/15=2,2. 7 6 5 4 3 2 1 0 1 2 3 4 5 Για να βρούμε τη διάμεσο, διατάσσουμε τις τιμές σε αύξουσα σειρά 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 4, 4, 5. Η διάμεσος είναι η 8 η παρατήρηση, δηλαδή 2. Η επικρατούσα τιμή είναι επίσης 2. Επίσης Η ελάχιστη τιμή είναι 1 Η μέγιστη τιμή είναι 5 (το εύρος των τιμών του δείγματος είναι 4). 17 18
Τι συμπεράσματα μπορούμε να βγάλουμε με βάση τα παραπάνω; o Μπορούμε λ.χ. να συμπεράνουμε ότι η μέση τιμή για όλες τις Ελληνικές οικογένειες είναι 2,2; o Μπορούμε έστω να πούμε ότι η μέση τιμή του πληθυσμού τον οποίο εξετάζουμε (οι οικογένειες στη συγκεκριμένη περιοχή της Αθήνας) είναι 2,2; Απουσιάζει η τιμή μηδέν! Προφανώς η επιλογή του δείγματος έγινε ανάμεσα σε οικογένειες που έχουν τουλάχιστον ένα παιδί Άρα η οποιαδήποτε ανάλυση και συμπερασματολογία θα αφορά μόνο αυτόν τον πληθυσμό των οικογενειών (στη συγκεκριμένη περιοχή) Η απάντηση και στις δύο ερωτήσεις είναι προφανώς αρνητική. Εδώ η περιγραφική ανάλυση μας βοήθησε να εντοπίσουμε ένα πρόβλημα στη συλλογή των δεδομένων. Απλώς ο δειγματικός μέσος μας δίνει μια πρώτη εικόνα για το πού μπορεί να βρίσκεται η μέση τιμή του πληθυσμού, η οποία μπορεί να χρησιμοποιηθεί σα βάση για περαιτέρω ανάλυση εφόσον βέβαια το δείγμα μας είναι αντιπροσωπευτικό Εδώ, υπάρχει κάτι περίεργο στα συγκεκριμένα δεδομένα; 19 20
Πώς επηρεάζονται τα περιγραφικά μέτρα αν στο δείγμα προσθέσουμε μια καινούρια παρατήρηση, π.χ. μία οικογένεια με 10 παιδιά ; Το σύνολο των παιδιών σε 16 οικογένειες είναι τώρα 43, οπότε ο νέος αριθμητικός μέσος είναι 43/16= 2,7. Πηγές στατιστικής πληροφόρησης Αυτές χωρίζονται γενικά σε Πρωτογενείς πηγές Ο ερευνητής συλλέγει μόνος του τα δεδομένα, τα οποία μπορεί να είναι είτε απευθείας μετρήσεις, είτε απαντήσεις σε ερωτηματολόγια που έχουν διανεμηθεί (το δεύτερο κυρίως σε κοινωνικές έρευνες) Η διάμεσος και η επικρατούσα τιμή παραμένουν αμετάβλητες! Γενικά λέμε ότι ο αριθμητικός μέσος είναι ευαίσθητος σε ακραίες παρατηρήσεις, ενώ η διάμεσος και η επικρατούσα τιμή όχι. Δευτερογενείς πηγές Ο ερευνητής χρησιμοποιεί δεδομένα που είναι διαθέσιμα, πολύ συχνά σήμερα στο διαδίκτυο ή από υπηρεσίες στατιστικής πληροφόρησης, π.χ. o Ελληνική Στατιστική Αρχή (ΕΛ.ΣΤΑΤ., πρώην ΕΣΥΕ) o Τράπεζα της Ελλάδος o Ευρωπαϊκή Κεντρική Τράπεζα o Δημόσιες ή ιδιωτικές εταιρείες και οργανισμοί o Διεθνείς οργανισμοί (π.χ. Eurostat, OHE) 21 22
Παράδειγμα για την οργάνωση των δεδομένων Σε ένα ερωτηματολόγιο υπάρχουν οι εξής τρεις ερωτήσεις 1. ποιά είναι η οικογενειακή σας κατάσταση; άγαμος έγγαμος χήρος/α διαζευγμένος/η 2. ποια η άποψή σας για τα προϊόντα και τις υπηρεσίες που παρέχει η εταιρεία ΑΒΓ στους πελάτες της ; Η πρώτη ερώτηση είναι ένα παράδειγμα μιας κλειστής ερώτησης Η δεύτερη είναι μία ανοικτή ερώτηση Η τρίτη είναι μία ερώτηση πολλαπλών απαντήσεων (κάποιος μπορεί να έχει δοκιμάσει περισσότερες από μία οδοντόπαστες). 3. ποιά από τις παρακάτω οδοντόπαστες έχετε δοκιμάσει ; AIM Colgate Crest Sensodyne 23 24