ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 6: Συσχέτιση και παλινδρόμηση εμπειρική προσέγγιση Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Σκοποί ενότητας Κατανόηση της έννοιας του συντελεστή συσχέτισης και δυνατότητα υπολογισμού του με τύπους και στατιστικά πακέτα. Η κατανόηση της έννοιας της απλής παλινδρόμησης, η εύρεση της ευθείας ελαχίστων τετραγώνων μέσω τύπων και μέσω στατιστικών πακέτων. 4
Περιεχόμενα ενότητας Συσχέτιση Συντελεστές συσχέτισης Απλή Γραμμική Παλινδρόμηση Προσαρμογή ευθείας Απλή παλινδρόμηση στο IBM SPSS Εφαρμογή χωρίς Η/Υ Άλυτες Ασκήσεις 5
Διαγράμματα διασποράς
Συσχέτιση Ο συντελεστής γραμμικής συσχέτισης δύο τυχαίων μεταβλητών Χ και Υ εξετάζει το κατά πόσο η μια μεταβλητή επηρεάζεται γραμμικά από μια άλλη.
Συντελεστές συσχέτισης. Εργαλεία στατιστικού ελέγχου r του Pearson (για συνεχείς και κανονικά κατανεμημένες μεταβλητές) ρ (rho) του Spearman (για διακριτές ή μη κανονικά κατανεμημένες μεταβλητές)
Ο συντελεστής r του Pearson. r = C (, ) ( )( ) δ ΧΨ Χι Χ Ψι Ψ = = = sx sψ ( Χ Χ) ( Ψ Ψ) Χ Ψ nχψ ι ι 2 2 2 2 ι n ι n ( Χ Χ )( Ψ Ψ ) ι 2 2 ι
Παράδειγμα Ο συντελεστής r του Pearson. Να βρεθεί ο συντελεστής συσχέτισης μεταξύ της τιμής του αυτοκινήτου σε ευρώ και της ταχύτητας του μετά από δέκα sec σε km/h Τιμή ταχύτητα 5500 110 5800 112 8100 135 6300 122 5900 124 5800 126 6600 112 6800 114 8800 145 Αρ. Μέσος = 6600 Αρ. Μέσος = 122
Παράδειγμα Ο συντελεστής r του Pearson. X i X Y i Y COV( X, Y) 2 ( X i X ) 2 9 9 ( Y i Y ) 2 ( X X) i i= 1 i= 1 ( Y i Y) 2 5500 110-1100 -12 13200 1210000 144 13200 5800 112-800 -10 8000 640000 100 8000 8100 135 1500 13 19500 2250000 169 19500 6300 122-300 0 0 90000 0 0 5900 124-700 2-1400 490000 4 1400 5800 126-800 4-3200 640000 16 3200 6600 112 0-10 0 0 100 0 6800 114 200-8 -1600 40000 64 1600 8800 145 2200 23 50600 4840000 529 50600 85100 10200000 1126 97500
Παράδειγμα Ο συντελεστής r του Pearson. Με βάση τα προηγούμενα ο συντελεστής συσχέτισης είναι ίσος με = r 85100 = 97500 0,8728
Παράδειγμα Ο συντελεστής r του Pearson. 150 ΤΑΧΥΤΗΤΑ ΑΥΤΟΚΙΝΗΤΟΥ 140 130 120 110 100 90 45 55 65 75 85 95 ΤΙΜΗ ΑΥΤΟΚΙΝΗΤΟΥ
Οι τιμές του συντελεστή Λαμβάνει τιμές από 1 έως +1 (αρνητική ή θετική συσχέτιση) Όσο ο r πλησιάζει την τιμή +1 (ή 1) τόσο ισχυρότερη είναι η συσχέτιση,
Συσχέτιση, προϋποθέσεις Και οι δύο μεταβλητές λαμβάνονται τυχαία. Καμία από τις δύο δεν παίζει ρόλο ανεξάρτητης μεταβλητής Παραδείγματα: Η σχέση ύψους ταχύτητας αυτ τιμή αγοράς τους Η σχέση των μετρήσεων μια βιοχημικής παραμέτρου με δύο διαφορετικές μεθόδους
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Η συσχέτιση που αναφέρθηκε προηγουμένως εξετάζει την αλληλεπίδραση δύο μεταβλητών ισοδύναμων (χωρίς η μία να είναι η αιτία και η άλλη το αποτέλεσμα)
ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ «Η διερεύνηση γραμμικής σχέσης εξάρτησης μεταξύ 2 μεταβλητών, εκ των οποίων η μια καλείται εξαρτημένη και η άλλη ανεξάρτητη». Δηλαδή, Υ (εξαρτημένη) από την Χ (ανεξάρτητη), με τη σχέση: Υ = α + β Χ.
Παραδείγματα: Σχέση: Πωλήσεις καταστημάτων με εμβαδό. Μισθός με προυπηρεσία Προσλαμβανόμενες θερμίδες και σωματική δραστηριότητα.
Παράδειγμα: Υ = α + β Χ Προυπηρεσία
Το μαθηματικό υπόδειγμα
Στόχος είναι η ελαχιστοποίηση των σφαλμάτων e
Εκτίμηση των παραμέτρων
Εκτίμηση των παραμέτρων
Εκτίμηση των παραμέτρων
Τι εκφράζει η παράμετρος b 0 εκφράζει την μεταβολή στην μέση τιμή της εξαρτημένης μεταβλητής Υ, διορθωμένη ως προς την μέση τιμή της ανεξάρτητης μεταβλητής Χ.
Τι εκφράζει η παράμετρος b 1 εκφράζει την μεταβολή στην εξαρτημένη μεταβλητή, για κάθε μονάδα αύξηση της ανεξάρτητης μεταβλητής Χ.
Τι εκφράζει η παράμετρος b 1 ; Παράδειγμα Model 1 (Constant) Age of Subjects Unstandardized Coefficients Coefficients a a. Dependent Variable: Body Mass Index (kg/m2) Standardized Coefficients B Std. Error Beta t Sig. 22,003,269 81,646,000,096,006,294 16,811,000 Model 1 (Constant) Sex of Subjects Unstandardized Coefficients Coefficients a a. Dependent Variable: Body Mass Index (kg/m2) Standardized Coefficients B Std. Error Beta t Sig. 25,316,113 223,775,000 2,056,161,228 12,796,000
Τι εκφράζει η παράμετρος b 1 ; Παράδειγμα Αύξηση της ηλικίας κατά ένα έτος, συσχετίζεται με αύξηση του ΔΜΣ κατά 0,096 kg/m 2. Οι άνδρες σε σύγκριση με τις γυναίκες (1/0) έχουν 2,056 kg/m 2 μεγαλύτερο ΔΜΣ.
Εκτίμηση των παραμέτρων Πολλές φορές η ευθεία γραμμικής παλινδρόμησης μας εξυπηρετεί να έχει τη μορφή:
Ο συντελεστής προσδιορισμού R2
Η απλή γραμμική παλινδρόμηση μέσω του SPSS.
Συσχέτιση ή απλή παλινδρόμηση; Σχέση μεταξύ δύο ποσοτικών μεταβλητών Η διάκριση μεταξύ συσχέτισης και παλινδρόμησης (εξάρτησης) είναι περισσότερο εννοιολογική και λιγότερο στατιστική. Εάν μας ενδιαφέρει η ένταση της σχέσης των δύο μεταβλητών, αρκεί η συσχέτιση (correlation coefficient) Εάν μας ενδιαφέρει η μελέτη της εξάρτησης της μιας μεταβλητής από την άλλη (εξαρτημένη μεταβλητή-ανεξάρτητη μεταβλητή) τότε επιλέγουμε την παλινδρόμηση (εξάρτηση).
Συσχέτιση ή απλή παλινδρόμηση;
Συσχέτιση ή απλή παλινδρόμηση; Στην πράξη ο συντελεστής συσχέτισης και ο συντελεστής b 1 της απλής γραμμικής παλινδρόμησης απαντούν στο ίδιο ερευνητικό ερώτημα.
Άλυτες Ασκήσεις
Τέλος Ενότητας