(ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 4 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο, 13-09-2013
Σημαντική Υπενθύμιση: εν υπάρχουν χαζές ερωτήσεις και δεν θα με προσβάλετε αν διακόπτετε με ρωτήσεις το μάθημα ιάλεξη 4 / 2
Περιγράφοντας & Εξερευνώντας τα εδομένα μας Αφού έχουμε συλλέξει τα δεδομένα μας, το επόμενο βήμα είναι να τα περιγράψουμε ώστε οι άλλοι (αλλά και εμείς) να αποκτήσουμε μια αίσθηση του τι μπορεί αυτά να «κρύβουν». Να υπολογίσουμε κάποιο στατιστικό δείκτη, δηλ. μια τιμή που να περιγράφει τα δεδομένα Να φτιάξουμε ένα σχεδιάγραμμα ιάλεξη 4 / 3
Ένας πολύ χρήσιμος τρόπος για να ξεκινήσουμε την περιγραφή των δεδομένων μας είναι να φτιάξουμε ένα σχεδιάγραμμα με το πόσες φορές εμφανίζεται η κάθε τιμή στα δεδομένα μας (δηλ. κατανομή συχνότητας-frequency distribution ή ιστόγραμμα-histogram). Παράδειγμα: Στην κλινική ψυχολογία, υπάρχει ένα φαινόμενο που ονομάζεται «Ψύχωση αμφεταμίνης» κατά το οποίο άτομα που κάνουν υπερβολική χρήση αμφεταμινών καταλήγουν να έχουν συχνές παραισθήσεις. Ας υποθέσουμε ότι έχουμε 40 χρήστες αμφεταμίνης και ότι μετράμε πόσες παραισθήσεις είχαν σε μια μέρα: Αριθ. Παραισθήσεων/ημέρα: ιάλεξη 4 / 4
Στο μέλλον σε όλες σχεδόν τις αναλύσεις σας, θα χρησιμοποιείται κάποιο στατιστικό πακέτο. Σε όλα όμως, η καταχώριση των δεδομένων σας θα γίνεται ως εξής: Οι γραμμές αντιστοιχούν στα άτομα-παρατηρήσεις και οι στήλες στις μεταβλητές Statistics VAR00001 N Mean Std. Error of Mean Median Mode Std. Deviation Variance Range Valid Missing 40 0 6.60.448 7.50 8 2.836 8.041 9 ιάλεξη 4 / 5
Κατατάσσουμε τα δεδομένα μας κατά φθίνουσα σειρά: και είναι εύκολο να μετρήσουμε το πόσες φορές εμφανίζεται η κάθε τιμή. πχ 6 άτομα είχαν 10 παραισθήσεις και μόλις 2 άτομα είχαν μια παραίσθηση. Στη συνέχεια αφού μετρήσουμε τη συχνότητα της κάθε τιμής μπορούμε να φτιάξουμε ένα σχεδιάγραμμα όπου στον άξονα χ τοποθετούμε τον αριθμό των παραισθήσεων και στον άξονα ψ, τη συχνότητα της κάθε τιμής: ιάλεξη 4 / 6
Statistics VAR00001 N Mean Std. Error of Mean Median Mode Std. Deviation Variance Range Valid Missing 40 0 6.60.448 7.50 8 2.836 8.041 9 Στο παραπάνω ιστόγραμμα φαίνεται ότι (α) η πλειονότητα των ατόμων είχαν πάνω από 6 παραισθήσεις και (β) ο πιο συχνός αριθμός παραισθήσεων είναι 8 ιάλεξη 4 / 7
Ιστόγραμμα = Πολύγονο συχνότητας (Frequency polygon) ιάλεξη 4 / 8
Προσοχή: Το ιστόγραμμα αναπαριστά σημεία σε μια αριθμητική κλίμακα μέτρησης και είναι διαφορετικό από το ακιδωτό διάγραμμα..το οποίο χρησιμοποιείται για τη συχνότητα μεταβλητών που είναι ποιοτικές (κατηγορικές ή διατακτικές) ιάλεξη 4 / 9
Κυκλικό διάγραμμα το οποίο χρησιμοποιείται για τη συχνότητα μεταβλητών που είναι ποιοτικές (κατηγορικές ή διατακτικές) embelia Valid Local Regional National Total Cumulative Frequency Percent Percent 19 39.6 39.6 25 52.1 91.7 4 8.3 100.0 48 100.0 Σχετική Συχνότητα: Ο αριθμός των ατόμων μιας κατηγορίας ως ποσοστό επί του συνόλου ιάλεξη 4 / 10
Δεν υπάρχει μόνο το ιστόγραμμα για την απεικόνιση των δεδομένων μας αλλά και αρκετές άλλες μορφές γραφικών παραστάσεων. Όσοι ενδιαφέρονται μπορούν να διαβάσουν την εργασία των Gelman et al (2002) ιάλεξη 4 / 11
ιάλεξη 4 / 12
Μορφές Ιστογραμμάτων Συμμετρία :Ένα ιστόγραμμα λέγεται συμμετρικό εάν, όταν τραβήξουμε μία κάθετη γραμμή στο κέντρο του ιστογράμματος, τα δύο χωρισμένα κομμάτια είναι ακριβώς τα ίδια σε μορφή και σε μέγεθος Συχνότητα Συχνότητα Συχνότητα Μεταβλητή Μεταβλητή Μεταβλητή ιάλεξη 4 / 13
Ασυμμετρία (skewness) Ένα λοξό (ασύμετρο) ιστόγραμμα είναι αυτό που έχει μια εκτεταμένη μακριά ουρά προς τα αριστερά ή προς τα δεξιά: Συχνότητα Συχνότητα Μεταβλητή Μεταβλητή Ασύμμετρη δεξιά (όπου οι μεγάλες τιμές συχνοτήτων βρίσκονται στο αριστερό τμήμα της κατανομής) Ασύμμετρη αριστερά (όπου οι μεγάλες τιμές συχνοτήτων βρίσκονται στο δεξιό τμήμα της κατανομής) ιάλεξη 4 / 14
Κύρτωση (Kurtosis) Ο βαθμός συγκέντρωσης των τιμών προς τις άκρες της κατανομής: Λεπτόκυρτη κατανομή Πλατύκυρτη κατανομή ιάλεξη 4 / 15
Κορφές στην κατανομή ίκορφη Μονόκορφη Συχνότητα Συχνότητα Μεταβλητή Μεταβλητή ιάλεξη 4 / 16
Σχήμα Καμπάνας Μία ειδική περίπτωση ενός συμμετρικού και μονόκορφου ιστογράμματος είναι αυτό με το σχήμα της καμπάνας (κανονική κατανομή όπως θα δούμε στο επόμενο μάθημα): Οι περισσότερες στατιστικές τεχνικές απαιτούν ο πληθυσμός έχει το σχήμα της καμπάνας. Συχνότητα Σχεδιάζοντας το ιστόγραμμα μπορούμε να έχουμε ενδείξεις για την μορφή του πληθυσμού υπό εξέταση Μεταβλητή Σχήμα Καμπάνας ιάλεξη 4 / 17
Μέτρα κεντρικής τάσης και ασυμμετρία (ή επιλέγοντας τον κατάλληλο δείκτη κεντρικής τάσης). Μέσος όρος (mean) Το πηλίκο του αθροίσματος των τιμών μιας κατανομής προς το πλήθος των τιμών εσπόζουσα τιμή (mode) η τιμή με τη μεγαλύτερη συχνότητα ιάμεσος (median) η τιμή στο μέσο του συνόλου των δεδομένων μας η οποία χωρίζει την κατανομή σε δύο ίσα τμήματα ιάλεξη 4 / 18
Σε συμμετρικές κατανομές, ο ΜΟ. η εστ και η μ είναι ίσες. ιάλεξη 4 / 19
Στην ισοϋψής κατανομή (c), δεν υπάρχει δεσπόζουσα τιμή αλλά ο ΜΟ και η μ είναι ίσες Στη δίκορφη κατανομή έχουμε 2 δεσπόζουσες τιμές αλλά ο ΜΟ και η μ είναι ίσες ιάλεξη 4 / 20
Στις ασύμμετρες κατανομές ο ΜΟ τείνει προς την ουρά της κατανομής Ασύμμετρη αριστερά Ασύμμετρη δεξιά ιάλεξη 4 / 21
(Α) (Β) (Γ) ( ) (Ε) Τα ιστογράμματα δείχνουν την τελική βαθμολογία στο μάθημα Στατιστικής σε 5 διαφορετικά παν/μιακά τμήματα. Ποιο τμήμα έχει τι μικρότερη τυπική απόκλιση και γιατί? Α. Το τμήμα Α γιατί έχει τις περισσότερες τιμές κοντά στο ΜΟ Β. Το τμήμα Β, γιατί έχει το μικρότερο αριθμό μεμονωμένων τιμών Γ. Το τμήμα Γ γιατί δεν υπάρχει αλλαγή στις βαθμολογίες. Τα τμήματα Α και γιατί και στα δύο το εύρος τιμών είναι μικρό Ε. Το τμήμα Ε γιατί φαίνεται ότι η κατανομή μοιάζει να είναι κανονική ιάλεξη 4 / 22
Το Θηκόγραμμα (box-plot) Συνήθως χρησιμοποιείται για τη σύγκριση κατανομών και απεικονίζει τις τιμές ορισμένων μέτρων κεντρικής τάσης και διασποράς Τέτοια μέτρα είναι η διάμεσος και τα τεταρτημόρια. Επιπλέον συνδυάζει τα ανθεκτικά αυτά μέτρα με τις πληροφορίες που περιέχονται στις ακραίες τιμές των δεδομένων δίνοντας έτσι μια πληρέστερη εικόνα της κατανομής τους. ιάλεξη 4 / 23
Η απόσταση μεταξύ μέγιστης και ελάχιστης τιμής εκφράζει το εύρος των δεδομένων. Τα άκρα του Πλαισίου αντιστοιχούν στο πρώτο και το τρίτο τεταρτημόριο αντίστοιχα. Επομένως το μήκος του Πλαισίου εκφράζει το ενδοτεταρτημοριακό εύρος των παρατηρήσεων. Το 25% των παρατηρήσεων (οι μικρότερες τιμές) βρίσκονται στην αριστερή απόληξη, δηλαδή μεταξύ της ελάχιστης τιμής και του αριστερού άκρου του πλαισίου. Αντίστοιχα το υπόλοιπο 25% των παρατηρήσεων (οι μεγαλύτερες παρατηρήσεις βρίσκονται στη δεξιά απόληξη, δηλαδή μεταξύ του δεξιού άκρου του πλαισίου και της μέγιστης τιμής. ιάλεξη 4 / 24
Με τη βοήθεια του θηκογράμματος ο ερευνητής έχει άμεσα τις πρώτες ενδείξεις αναφορικά με τη συμμετρία της κατανομής Συμμετρική κατανομή ιάλεξη 4 / 25
Ασύμμετρη δεξιά Ασύμμετρη αριστερά ιάλεξη 4 / 26
Τα παρακάτω θηκογράματα δείχνουν τις βαθμολογίες φοιτητών (Α) στην πρόοδο και (Β) στην τελική εξέταση του μαθήματος ψυχολογίας. Σε ποιο τεστ έχουμε τη μεγαλύτερη τυπική απόκλιση? (Α) (Β) Α. Στην πρόοδο? Β. Στην τελική εξέταση? Γ. Και στις δύο εξετάσεις είναι περίπού ίση. Είναι αδύνατο να πούμε ιάλεξη 4 / 27
Έκκεντρες τιμές (outliers) Πρόκειται για τιμές οι οποίες βρίσκονται εκτός του αναμενόμενου εύρους τιμών. Θέλουν προσοχή γιατί επηρεάζουν τις αναλύσεις μας Προσοχή: Αρκετά συχνά οι έκκεντρες τιμές δημιουργούνται και από απροσεξίες κατά την καταχώρηση των δεδομένων μας. ιάλεξη 4 / 28
Συνήθως ως έκκεντρες χαρακτηρίζονται οι τιμές οι οποίες βρίσκονται 2 φορές την τυπική απόκλιση πάνω (+) και κάτω (-) από το μέσο όρο Στο παράδειγμα με τις παραισθήσεις αν κάποιο άτομο έχει 16/μέρα τότε η τιμή αυτή είναι έκκεντρη γιατί είναι εκτός του εύρους (ΜΟ 2*τυπική απόκλιση) = 6,6 2*2,8=(1, 12.2) ιάλεξη 4 / 29
ιαστήματα εμπιστοσύνης (Confidence Intervals) Θυμηθείτε Στα προηγούμενα μαθήματα είδαμε ότι η τυπική απόκλιση μας δίνει ένα μέτρο της προσαρμογής του ΜΟ στα δεδομένα μας και το τυπικό σφάλμα το πόσο αντιπροσωπευτικό είναι το δείγμα μας σε σχέση με το σύνολο των πιθανών δειγμάτων που θα μπορούσαμε να πάρουμε από τον πληθυσμό μας. Προχωρώντας ένα βήμα παραπέρα, θα μπορούσαμε να έχουμε μια εκτίμηση για το εύρος εντός του οποίου βρίσκονται οι περισσότεροι μέσοι όροι, με άλλα λόγια για το διάστημα τιμών στο οποίο είμαστε σίγουροι ότι βρίσκονται οι μέσοι όροι και επομένως και ο ΜΟ του δείγματος μας. ιάλεξη 4 / 30
Ας υποθέσουμε ότι παίρνουμε 100 δείγματα ατόμων που κάνουν χρήση αμφεταμινών. Υπολογίζοντας τους μέσους όρους για κάθε δείγμα (και χρησιμοποιώντας τη δειγματοληπτική κατανομή) βρίσκουμε ότι ο χαμηλότερος μέσος όρος είναι 2 και ο μεγαλύτερος 18. Μπορούμε με βεβαιότητα 100% να υποθέσουμε ότι οποιοδήποτε άλλο δείγμα και αν πάρουμε ο ΜΟ θα βρίσκεται στο διάστημα (2, 18). Συνήθως όμως στην ψυχολογία χρησιμοποιούμε 95% και 99% διαστήματα εμπιστοσύνης, με άλλα λόγια υπολογίζουμε το εύρος τιμών του μέσου όρου στα 95 (ή 99) δείγματα. Επομένως αν στο παράδειγμα μας σε 95 δείγματα ο ΜΟ έχει ελάχιστη τιμή 3 και μέγιστη 17 τότε το 95% CI =(3, 17) ιάλεξη 4 / 31
Αν επομένως μας πουν ότι το 95% διάστημα εμπιστοσύνης για το ΜΟ είναι (3, 17), αυτό σημαίνει ότι: ΑΝ ΠΑΡΟΥΜΕ 100 ΕΙΓΜΑΤΑ ΑΠΟ ΤΟΝ ΠΛΗΘΥΣΜΟ ΜΑΣ τότε τα 95 από αυτά θα έχουν ΜΟ εντός των ορίων (3, 17). Το διάστημα εμπιστοσύνης μπορούμε να το υπολογίσουμε αν γνωρίζουμε το τυπικό σφάλμα: Το ελάχιστο όριο είναι ΜΟ-2*Τυπικό Σφάλμα, Το μέγιστο όριο είναι ΜΟ+2*Τυπικό σφάλμα) ιάλεξη 4 / 32
Αν ο ΜΟ αντιπροσωπεύει τα δεδομένα μας καλά τότε το διάστημα εμπιστοσύνης είναι μικρό δηλ. στα 95 δείγματα που θα πάρουμε αναμένουμε περίπου τις ίδιες τιμές για το ΜΟ ιάλεξη 4 / 33
Πως παρουσιάζουμε τους στατιστικούς δείκτες Τα περισσότερα επιστημονικά περιοδικά (Journals) στον τομέα της Ψυχολογίας, έχουν αποδεχτεί το πρότυπο που έχει προτείνει η ΑPA (American Psychological Association) σχετικά με παρουσίαση των στατιστικών δεικτών. Ο μέσος όρος των παραισθήσεων/ημέρα στο δείγμα μας ήταν M=6.6 (SD= 2.83) ιάλεξη 4 / 34
Έστω ότι παίρνουμε δύο διαφορετικά δείγματα από τον ίδιο πληθυσμό για τον οποίο ο μέσος όρος και η τυπική απόκλιση είναι άγνωστα, και μετράμε την ικανότητα κατανόησης συναισθημάτων. Για το 1 ο δείγμα έχουμε 25 μετρήσεις και στο 2 ο 64. Για κάθε δείγμα θα κατασκευάσουμε ένα 95% διάστημα εμπιστοσύνης προκειμένου να εκτιμήσουμε το μέσο όρο στον πληθυσμό. Ποιο διάστημα εμπιστοσύνης περιμένετε να έχει μεγαλύτερη ακρίβεια για την εκτίμηση του ΜΟ? Α. Νομίζω ότι το διάστημα εμπιστοσύνης που βασίζεται στις 64 τιμές είναι πιο ακριβές Β. Και τα 2 διαστήματα εμπιστοσύνης έχουν την ίδια ακρίβεια Γ. Το διάστημα εμπιστοσύνης που βασίζεται στις 24 τιμές είναι πιο ακριβές ιάλεξη 4 / 35
Τετάρτη: 27-03-2013 ιάλεξη 4 / 36
ιάλεξη 4 / 37