(ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο, 03-04-2013
Σημαντική Υπενθύμιση: Δεν υπάρχουν χαζές ερωτήσεις και δεν θα με προσβάλετε αν διακόπτετε με ρωτήσεις το μάθημα Διάλεξη 6/ 2
Περιγράφοντας τη σχέση ανάμεσα σε μεταβλητές- Η έννοια της ΣΥΜΜΕΤΑΒΛΗΤΟΤΗΤΑΣ Συνδιακύμανση COVARIANCE Συνδιασπορά Διάλεξη 6/ 3
Συνήθως στις περισσότερες έρευνες που κάνουμε στην ψυχολογία μας ενδιαφέρει να μελετήσουμε αν δύο ή περισσότερες μεταβλητές συμμεταβάλλονται Δηλαδή, μας ενδιαφέρει να διαπιστώσουμε πώς αλλάζουν οι τιμές που παίρνει μια μεταβλητή όταν αλλάζουν οι τιμές μιας άλλης μεταβλητής π.χ. Έστω ότι μας ενδιαφέρει να εξετάσουμε το αν υπάρχει κάποια σχέση ανάμεσα στο χρόνο που αφιερώνει κάποιος στο να διαβάσει τις διαφάνειες αυτού του μαθήματος και στην κατανόηση βασικών εννοιών στατιστικής. Διάλεξη 6/ 4
Υπάρχουν διάφοροι τρόποι με τους οποίους οι δύο προηγούμενες μεταβλητές μπορεί να συνδέονται (σχετίζονται): Α. Μπορεί να σχετίζονται θετικά Β. Μπορεί να μη σχετίζονται καθόλου Διαγράμματα Σκεδασμού Γ. Μπορεί να σχετίζονται αρνητικά Διάλεξη 6/ 5
Πώς μπορούμε να εξετάσουμε αν δύο μεταβλητές σχετίζονται? Ας ξεκινήσουμε με την έννοια της ΣΥΝΔΙΑΚΥΜΑΝΣΗΣ Για να κατανοήσουμε όμως την έννοια της συνδιακύμασης, θα πρέπει να θυμηθούμε την έννοια της διακύμανσης Διάλεξη 6/ 6
H διακύμανση, δηλ. ο μέσος όρος των τετραγώνων των αποκλίσεων όλων των τιμών, αποτελεί στην ουσία το μέσο σφάλμα ανάμεσα στο μέσο όρο και στις παρατηρήσεις που έχουμε. Επομένως μπορεί να θεωρηθεί ένα μέτρο της προσαρμογής του μοντέλου μας στα δεδομένα. = Διακύμανση (variance, s 2 ) Όπου: Χi είναι η τιμή της μεταβλητής X Ν είναι ο μέσος όρος του δείγματος είναι το μέγεθος του δείγματος Διάλεξη 6/ 7
Αν μας ενδιαφέρει το κατά πόσο 2 μεταβλητές σχετίζονται στην ουσία προσπαθούμε να βρούμε αν οι αλλαγές στη μια μεταβλητή συνοδεύονται από παρόμοιες αλλαγές στην άλλη μεταβλητή. Με άλλα λόγια όταν μια μεταβλητή αποκλίνει από τον d = X X μέσο όρο της, i i περιμένουμε ότι και η άλλη μεταβλητή θα αποκλίνει από το μέσο όρο της κατά τρόπο παρόμοιο. Διάλεξη 6/ 8
Πχ Φανταστείτε ότι πήραμε 5 τυχαία άτομα και τους δώσαμε να παρακολουθήσουν μια σειρά από διαφημίσεις για μια νέα σοκολάτα. Στη συνέχεια μετρήσαμε πόσες από αυτές τις σοκολάτες αγόρασε το κάθε άτομο την επόμενη εβδομάδα: Άτομο Αριθ. Διαφημίσεων Σοκολάτες 1 5 8 2 4 9 3 4 10 4 6 13 5 8 15 Διάλεξη 6/ 9
Αν υπάρχει κάποια σχέση ανάμεσα στις δύο μεταβλητές, τότε καθώς η μία μεταβλητή θα αποκλίνει από το μέσο όρο της τότε η άλλη μεταβλητή θα αποκλίνει από το δικό της μέσο όρο κατά τον ίδιο ή αντίθετο τρόπο. ΜΟ=11 τεμάχια σοκολάτες ΜΟ=5,4 διαφημίσεις Διάλεξη 6/ 10
Παρατηρήστε στο προηγούμενο σχεδιάγραμμα ότι οι αποκλίσεις των τιμών και για τις δύο μεταβλητές ακολουθούν το ίδιο μοτίβο. Δηλ. αν η τιμή της μιας μεταβλητής βρίσκεται πάνω ή κάτω από το μέσο όρο της, κάτι αντίστοιχο συμβαίνει και για την άλλη μεταβλητή. Επομένως κάποια σχέση πρέπει να υπάρχει ανάμεσα στις δύο μεταβλητές. Πώς την υπολογίζουμε?? Διάλεξη 6/ 11
Συνδιακύμανση= ένας στατιστικός δείκτης που μας δείχνει το βαθμό συμμεταβολής δύο μεταβλητών cov( x, y) ( )( = xi x y N 1 i y) Κάνοντας τις πράξεις για τα δεδομένα του προηγούμενου παραδείγματος: cov(x,y) = 4.25 Με τη συνδιακύμανση, όμως υπάρχει το πρόβλημα της εξάρτησης από την κλίμακα μέτρησης και ως εκ τούτου δεν μπορούμε να συγκρίνουμε διακυμάνσεις κατά αντικειμενικό τρόπο.. Διάλεξη 6/ 12
Για να αντιμετωπιστεί το πρόβλημα της εξάρτησης από την κλίμακα μέτρησης, διαιρούμε τη συνδιακύμανση με το γινόμενο των 2 τυπικών αποκλίσεων της κάθε μεταβλητής και το αποτέλεσμα είναι ο συντελεστής συσχέτισης (r), o οποίος λαμβάνει τιμές από το (- 1 ) ως το (+ 1 ). Για το παράδειγμα μας r=0. 87 Διάλεξη 6/ 13
Α. Σε ποιο από τα διαγράμματα σκεδασμού ο συντελεστής συσχέτισης είναι περίπου 0,60? Β. Σε ποια διαγράμματα η συσχέτιση ανάμεσα στο Χ και το Υ είναι πιο ισχυρή? Α. Στο διάγραμμα e (δείτε το video correlatioexplore.avi) B. Στα διαγράμματα α και b Διάλεξη 6/ 14
Παράγοντες που επηρεάζουν τις τιμές του συντελεστή συσχέτισης 1. Η μη γραμμική σχέση ανάμεσα σε δύο μεταβλητές είναι δυνατόν να επηρεάσει το συντελεστή συσχέτισης δίνοντας τιμές κοντά στο μηδέν Διάλεξη 6/ 15
2. Οι ακραίες τιμές μπορεί να επηρεάζουν το βαθμό της συσχέτισης 7,00 Correlations 6,00 Y X Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Y X 1 -,151.,721 8 8 -,151 1,721. 8 8 Y 5,00 4,00 3,00 2,00 1,00 1,00 2,00 3,00 4,00 5,00 X 25,00 20,00 Y X Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2 t il d) Y X 1,925**.,000 9 9,925** 1,000. 9 9 Y 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 25,00 X Διάλεξη 6/ 16
Correlation is not causation Ο δείκτης συσχέτισης είναι ένα στατιστικό κριτήριο που μας πληροφορεί μόνο για τη συμμεταβολή των δύο μεταβλητών που μελετώνται και όχι για το εάν υπάρχει αιτιώδης σχέση μεταξύ τους Η υψηλή συσχέτιση δεν δηλώνει σχέσεις αιτίου και αποτελέσματος. Μπορεί να οφείλεται σε μια τρίτη μεταβλητή, την οποία δεν έχουμε συμπεριλάβει στην έρευνά μας, και η οποία να λειτουργεί ως αίτιο Διάλεξη 6/ 17
Άντε και βρίσκουμε ότι υπάρχει συσχέτιση ανάμεσα σε δύο μεταβλητές. Το επόμενο ερώτημα είναι: η σχέση αυτή είναι πραγματική ή μήπως είναι ένα τυχαίο αποτέλεσμα? Διάλεξη 6/ 18
Να θυμηθούμε κάποιες από τις ερωτήσεις που έχουμε δει μέχρι τώρα??? Διάλεξη 6/ 19
Έστω ότι έχουμε 2 πληθυσμούς ατόμων στην Κρήτη με το ίδιο μέγεθος (8.000 άτομα). Ο πληθυσμός 1, περιλαμβάνει όλους τους φοιτητές στο Ρέθυμνο. Ο πληθυσμός 2, περιλαμβάνει όλους τους κατοίκους μιας μικρής κωμόπολης στο Ρέθυμνο. Σε ποιον πληθυσμό είναι πιο πιθανό να έχουμε μεγαλύτερη τυπική απόκλιση (Τ.Α.) όσο αφορά τη μεταβλητή «ηλικία»? Α. Ο πληθ. 1 είναι πιο πιθανό να έχει μεγαλύτερη (Τ.Α.) από τον πληθ. 2. Β. Ο πληθ. 2 είναι πιο πιθανό να έχει μεγαλύτερη (Τ.Α.) από τον πληθ. 1 Γ. Αφού έχουν το ίδιο πλήθος ατόμων θα έχουν την ίδια (Τ.Α.) Δ. Δεν έχουμε επαρκείς πληροφορίες για να πούμε Διάλεξη 6/ 20
Για την παρακάτω γραφική παράσταση ποιες είναι οι πιο πιθανές τιμές του μέσου όρου και της διαμέσου? Α. Μ.Ο. = 12 και διάμεσος = 13 Β. Μ.Ο. = 15 και διάμεσος = 14 Γ. Μ.Ο. = 14,3 και διάμεσος = 16 Δ. Μ.Ο. = 16,2 και διάμεσος = 16,5 Διάλεξη 6/ 21
(Α) (Β) (Γ) (Δ) (Ε) Τα ιστογράμματα δείχνουν την τελική βαθμολογία στο μάθημα Στατιστικής σε 5 διαφορετικά παν/μιακά τμήματα. Ποιο τμήμα έχει τι μικρότερη τυπική απόκλιση και γιατί? Α. Το τμήμα Α γιατί έχει τις περισσότερες τιμές κοντά στο ΜΟ Β. Το τμήμα Β, γιατί έχει το μικρότερο αριθμό μεμονωμένων τιμών Γ. Το τμήμα Γ γιατί δεν υπάρχει αλλαγή στις βαθμολογίες Δ. Τα τμήματα Α και Δ γιατί και στα δύο το εύρος τιμών είναι μικρό Ε. Το τμήμα Ε γιατί φαίνεται ότι η κατανομή μοιάζει να είναι κανονική Διάλεξη 6/ 22
Τα παρακάτω θηκογράματα δείχνουν τις βαθμολογίες φοιτητών (Α) στην πρόοδο και (Β) στην τελική εξέταση του μαθήματος ψυχολογίας. Σε ποιο τεστ έχουμε τη μεγαλύτερη τυπική απόκλιση? (Α) (Β) Α. Στην πρόοδο? Β. Στην τελική εξέταση? Γ. Και στις δύο εξετάσεις είναι περίπού ίση Δ. Είναι αδύνατο να πούμε Διάλεξη 6/ 23
Έστω ότι παίρνουμε δύο διαφορετικά δείγματα από τον ίδιο πληθυσμό για τον οποίο ο μέσος όρος και η τυπική απόκλιση είναι άγνωστα, και μετράμε την ικανότητα κατανόησης συναισθημάτων. Για το 1 ο δείγμα έχουμε 25 μετρήσεις και στο 2 ο 64. Για κάθε δείγμα θα κατασκευάσουμε ένα 95% διάστημα εμπιστοσύνης προκειμένου να εκτιμήσουμε το μέσο όρο στον πληθυσμό. Ποιο διάστημα εμπιστοσύνης περιμένετε να έχει μεγαλύτερη ακρίβεια για την εκτίμηση του ΜΟ? Α. Νομίζω ότι το διάστημα εμπιστοσύνης που βασίζεται στις 64 τιμές είναι πιο ακριβές Β. Και τα 2 διαστήματα εμπιστοσύνης έχουν την ίδια ακρίβεια Γ. Το διάστημα εμπιστοσύνης που βασίζεται στις 24 τιμές είναι πιο ακριβές Διάλεξη 6/ 24
Τα σκορ σε ένα τεστ ακολουθούν την κανονική κατανομή με ΜΟ=100 και ΤΑ=20. Αν μετατρέψουμε τα σκορ σε z-τιμές ποια από τις παρακάτω προτάσεις είναι αληθινή: Α. Και ο μέσος όρος και η διάμεσος είναι ίσα με το μηδέν Β. Ο ΜΟ = 0 αλλά δεν μπορούμε να προσδιορίσουμε τη διάμεσο Γ. Ο ΜΟ και οι τυπικές τιμές θα είναι ίσες με το 100 Δ. Ο ΜΟ και οι τυπικές τιμές θα είναι ίσες με το 5 Διάλεξη 6/ 25
Τετάρτη: 09-04-2013 Στατιστικός έλεγχος υποθέσεων Διάλεξη 6/ 26
Διάλεξη 6/ 27