Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Σχετικά έγγραφα
Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ

Στατιστική για Χημικούς Μηχανικούς Συσχέτιση και Γραμμική Παλινδρόμηση. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεϕάλαιο 5 Συσχέτιση και Παλινδρόµηση

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

x y max(x))

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 2 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ. 2.1 Σηµειακή Εκτίµηση. ˆθ παίρνει διαφορετικές τιµές, δηλαδή η ˆθ είναι η ίδια τ.µ. µε κάποια κατανοµή κι έχει µέση

Στατιστική Επιχειρήσεων Ι

Απλή Παλινδρόμηση και Συσχέτιση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Εισόδημα Κατανάλωση

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

Πρακτική µε στοιχεία στατιστικής ανάλυσης

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Εργασία στο µάθηµα Ανάλυση εδοµένων

Κεϕάλαιο 2 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ. 2.1 Σηµειακή Εκτίµηση. {x 1,..., x n } της X από ένα δείγµα µεγέθους n. Τότε η σηµειακή εκτίµηση της θ δίνεται

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Στατιστική Συμπερασματολογία

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

9. Παλινδρόμηση και Συσχέτιση

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

Διάστημα εμπιστοσύνης της μέσης τιμής

Ιδιότητες της ευθείας παλινδρόµησης

Παρεµβολή και Προσέγγιση Συναρτήσεων

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

της σ 2 είναι επίσης αµερόληπτη. n 1 +n 2

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

Στατιστική για Χημικούς Μηχανικούς Έλεγχος στατιστικών υποθέσεων. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ


ΕΠΑΝΑΛΗΨΗ ΒΑΣΙΚΩΝ ΕΝΝΟΙΩΝ ΣΤΑΤΙΣΤΙΚΗΣ

Περιγραφική Στατιστική, Εκτίµηση και Ελεγχος Παραµέτρων. της σ 2 είναι επίσης αµερόληπτη. n 1 +n 2

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Κεϕάλαιο 4. Αβεβαιότητα και σϕάλµα µέτρησης

Διαχείριση Υδατικών Πόρων

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

1.4 Λύσεις αντιστρόφων προβλημάτων.

x - 1, x < 1 f(x) = x - x + 3, x

12xy(1 x)dx = 12y. = 12 y. = 12 y( ) = 12 y 1 6 = 2y. x 6x(1 x)dx = 6. dx = 6 3 x4

Στατιστική Ι. Ανάλυση Παλινδρόμησης

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Απλή Γραμμική Παλινδρόμηση II

3. ΠΑΡΑΜΕΤΡΟΙ ΚΑΤΑΝΟΜΩΝ

Στατιστική ΜΕΡΟΣ Β. για Ηλεκτρολόγους Μηχανικούς. ηµήτρης Κουγιουµτζής

Είδη Μεταβλητών. κλίµακα µέτρησης

Χ. Εμμανουηλίδης, 1

Σχολικός Σύµβουλος ΠΕ03


Παρουσίαση 1 ΙΑΝΥΣΜΑΤΑ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ Γραµµική Εκτίµηση Τυχαίων Σηµάτων Φίλτρο Kalman

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

5.1 Συναρτήσεις δύο ή περισσοτέρων µεταβλητών

T (K) m 2 /m

2. Στοιχεία Πολυδιάστατων Κατανοµών

Εφαρμοσμένη Στατιστική

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

ιαστήµατα Εµπιστοσύνης

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΑΓΡΟΤΙΚΗΣ ΑΝΑΠΤΥΞΗΣ Θεόδωρος Χ. Κουτρουµ ανίδης Αναπληρωτής Καθηγητής ΠΘ ΕΦΑΡΜΟΣΜΕΝΗ ΟΙΚΟΝΟΜΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

Περιγραϕική Στατιστική, Εκτίµηση και Ελεγχος Παραµέτρων

2. Η τιµή της εκτιµήσεως της µεταβλητής στα σηµεία όπου υπάρχουν µετρήσεις να είναι η ίδια µε τη

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Μέτρηση κατανοµής ηλεκτρικού πεδίου

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

c(2x + y)dxdy = 1 c 10x )dx = 1 210c = 1 c = x + y 1 (2xy + y2 2x + y dx == yx = 1 (32 + 4y) (2x + y)dxdy = 23 28

αx αx αx αx 2 αx = α e } 2 x x x dx καλείται η παραβολική συνάρτηση η οποία στο x

προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων

Transcript:

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ Στα προηγούµενα κεφάλαια ορίσαµε και µελετήσαµε την τ.µ. µε τη ϐοήθεια της πιθανο- ϑεωρίας (κατανοµή, ϱοπές) και της στατιστικής (εκτίµηση, στατιστική υπόθεση). Σ αυτό το κεφάλαιο ϑα µελετήσουµε πως µια τ.µ. µεταβάλλεται όταν αλλάζει µια άλλη µεταβλητή (τυχαία ή µη). Πρώτα ϑα µελετήσουµε τη σχέση δύο τ.µ. και. Συχνά στη µελέτη ενός τεχνικού συστήµατος ενδιαφερόµαστε να προσδιορίσουµε τη σχέση µεταξύ δύο µεταβλητών του συστή- µατος. Για παράδειγµα στη λειτουργία µια µηχανής µας ενδιαφέρει η σχέση του χρόνου ως την αποτυχία κάποιου στοιχείου της µηχανής και της ταχύτητας του κινητήρα (σε περιστροφές ανά λεπτό). Θα προσδιορίσουµε και ϑα εκτιµήσουµε το συντελεστή συσχέτισης που µετράει τη γραµµική συσχέτιση δύο τ.µ.. Στη συνέχεια ϑα µελετήσουµε τη συναρτησιακή σχέση εξάρτησης µιας τ.µ. ως προς µια άλλη µεταβλητή. Η σχέση αυτή είναι πιθανοκρατική κι ορίζεται µε την κατανοµή της για κάθε τιµή της. Για παράδειγµα η απόδοση κάποιου εργαστηριακού πειράµατος µπορεί να ϑεωρηθεί τ.µ. µε κατανοµή που µεταβάλλεται µε τη ϑερµοκρασία στην οποία πραγµατοποιείται. Συνήθως η µεταβολή αφορά µόνο τη µέση τιµή (κι ορισµένες ϕορές και τη διασπορά), γι αυτό κι η περιγραφή της κατανοµής της ως προς τη περιορίζεται στη δεσµευµένη µέση τιµή E( ) και γίνεται µε τη λεγόµενη ανάλυση παλινδρόµησης. Θα µελετήσουµε την απλή γραµµική παλινδρόµηση, δηλαδή ϑα περιοριστούµε να εκτιµήσουµε τη γραµµική σχέση για τη µέση τιµή E( ) ως προς µια τ.µ.. 3. Συσχέτιση δύο τ.µ. ύο τ.µ. και µπορεί να συσχετίζονται µε κάποιο τρόπο. Αυτό συµβαίνει όταν επηρεάζει η µία την άλλη, ή αν δεν αλληλοεπηρεάζονται όταν επηρεάζονται και οι δύο από µια άλλη µεταβλητή. Για παράδειγµα ο χρόνος ως την αποτυχία ενός στοιχείου κάποιας µηχανής και η ταχύτητα του κινητήρα της µηχανής µπορούν να ϑεωρηθούν σαν δύο τ.µ. που συσχετίζονται, όπου ο χρόνος αποτυχίας εξαρτάται από την ταχύτητα του κινητήρα (το αντίθετο δεν έχει πρακτική σηµασία). Μπορούµε επίσης να ϑεωρήσουµε τη συσχέτιση του χρόνου αποτυχίας και της ϑερµοκρασίας του στοιχείου της µηχανής, αλλά τώρα δεν εξαρτάται η µια από την άλλη παρά εξαρτιούνται κι οι δύο από άλλες µεταβλητές, όπως η ταχύτητα του κινητήρα. Στη συνέχεια ϑα ϑεωρήσουµε ότι οι δύο τ.µ. και είναι συνεχείς. Για διακριτές τ.µ. µπορούµε πάλι να ορίσουµε µέτρο συσχέτισης τους αλλά δε ϑα µας απασχολήσει εδώ. 45

46 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 3.. Ο συντελεστής συσχέτισης ρ Ας ϑεωρήσουµε δύο τ.µ. και µε διασπορά σ και σ αντίστοιχα και συνδιασπορά σ Cov(, ) = E(, ) E()E( ). Η συνδιασπορά εκφράζει τη γραµµική συσχέτιση δύο τ.µ., δηλαδή την αναλογική µεταβολή (αύξηση ή µείωση) της µιας τ.µ. που αντιστοιχεί σε µεταβολή της άλλης µεταβλητής. Η συνδιασπορά είναι ένα ποσοτικό µέγεθος κι η µονάδα µέτρησης της εξαρτάται από τις µονάδες µέτρησης των δύο τ.µ. και. Γι αυτό για να µετρήσουµε καλύτερα τον ϐαθµό της γραµµικής συσχέτισης δύο τ.µ. χρησιµοποιούµε τον συντελεστή συσχέτισης (correlation coefficient) ρ που ορίζεται ως Ο συντελεστής συσχέτισης ρ παίρνει τιµές στο διάστηµα [, ]: ρ = : υπάρχει τέλεια ϑετική σχέση µεταξύ των και, ρ = σ σ σ. (3.) ρ = : δεν υπάρχει καµιά (γραµµική) σχέση µεταξύ των και, ρ = : υπάρχει τέλεια αρνητική σχέση µεταξύ των και. Οταν ρ = ± η σχέση είναι αιτιοκρατική κι όχι πιθανοκρατική γιατί γνωρίζοντας την τιµή της µιας τ.µ. γνωρίζουµε και την τιµή της άλλης τ.µ. ακριβώς. Οταν ο συντελεστής συσχέτισης είναι κοντά στο ή η γραµµική συσχέτιση των δύο τ.µ. είναι ισχυρή (συνήθως χαρακτηρί- Ϲουµε ισχυρές τις σχέσεις όταν ρ >.9) ενώ όταν είναι κοντά στο οι τ.µ. είναι πρακτικά ασυσχέτιστες. Οπως ϕαίνεται από τον ορισµό στη σχέση (3.), ο συντελεστής συσχέτισης ρ δεν εξαρτάται από τη µονάδα µέτρησης των και και είναι συµµετρικός ως προς τις και. 3.. Σηµειακή εκτίµηση του συντελεστή συσχέτισης Οταν έχουµε παρατηρήσεις των δύο τ.µ. και κατά Ϲεύγη {(x, y ), (x, y ),..., (x n, y n )}, µπορούµε να εκτιµήσουµε τη συσχέτιση τους ποιοτικά από το διάγραµµα διασποράς (scatter diagram), που είναι η απεικόνιση των σηµείων (x i, y i ), i =,..., n, σε καρτεσιανό σύστηµα συντεταγµένων. Στο Σχήµα 3. παρουσιάζονται τυπικά διαγράµµατα διασποράς για ισχυρές κι ασθενείς συσχετίσεις δύο τ.µ. και. Στα Σχήµατα 3.α και 3.δ η σχέση είναι τέλεια (ρ = και ρ = αντίστοιχα), στα Σχήµατα 3.ϐ και 3.ε είναι ισχυρή (ϑετική µε ρ =.97 κι αρνητική µε ρ =.97 αντίστοιχα) και στα Σχήµατα 3.γ και 3.Ϲ είναι λιγότερο ισχυρή (ϑετική µε ρ =.8 κι αρνητική µε ρ =.8 αντίστοιχα). Στο Σχήµα 3.η είναι ρ = γιατί οι τ.µ. και είναι ανεξάρτητες ενώ στο Σχήµα 3.ϑ είναι πάλι ρ = αλλά οι και δεν είναι ανεξάρτητες αλλά συσχετίζονται µόνο µη-γραµµικά. Τέλος για το Σχήµα 3.ι ο συντελεστής συσχέτισης δεν ορίζεται γιατί η είναι σταθερή (σ = στον ορισµό του ρ στην (3.)).

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 47 5 (α) 5 (β) 6 (γ) 4 3 4 3 4 3 ρ = r = 4 3 4 3 3 4 (δ) ρ = r = 3 ρ =.97 r =.98 4 3 3 3 4 (ε) ρ =.97 r =.96 4 ρ =.8 r =.89 6 3 3 3 (ζ) ρ =.8 r =.6 5 3 (η) 5 3 (θ) 4 3.5 (ι).5.5 8 6 ρ = r =.34.5 ρ,r = αoριστo.5 4.5 ρ = r =.49.5 3 3 3 Σχήµα 3.: ιάγραµµα διασποράς δύο τ.µ. και από n = παρατηρήσεις που παρουσιά- Ϲουν ϑετική σχέση στα σχήµατα (α), (ϐ) και (γ), αρνητική σχέση στα σχήµατα (δ), (ε) και (Ϲ) και καµιά συσχέτιση στα σχήµατα (η), (ϑ) και (ι). Σε κάθε σχήµα δίνεται η πραγµατική τιµή του συντελεστή συσχέτισης ρ κι η δειγµατική r. Στο (ι) ο συντελεστής συσχέτισης δεν ορίζεται. Η σηµειακή εκτίµηση του συντελεστή συσχέτισης ρ του πληθυσµού από το δείγµα των n Ϲευγαρωτών παρατηρήσεων των και γίνεται µε την αντικατάσταση στη σχέση (3.) της συνδιασποράς σ και των διασπορών σ και σ από τις αντίστοιχες εκτιµήσεις από το δείγµα ˆρ r = s s s. Οι αµερόληπτες εκτιµήτριες s, s και s δίνονται ως ( s = n n ) (x i x)(y i ȳ) = x i y i n xȳ n n ( s = n n ) (x i x) = x i n n n x (3.) (3.3)

48 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ όπου x και ȳ είναι οι δειγµατικές µέσες τιµές των και. Από τα παραπάνω προκύπτει η έκφραση της εκτιµήτρια r n r = x iy i n xȳ ( n x i n x )( n y i nȳ ). (3.4) Είναι προφανές πως η παραπάνω σχέση για το r δεν αλλάζει αν ϑεωρήσουµε τις µεροληπτικές εκτιµήτριες των σ, σ και σ. Στο Σχήµα 3. δίνεται ο δειγµατικός συντελεστής συσχέτισης r για κάθε περίπτωση. Επειδή το δείγµα είναι µικρό (n = ) η τιµή του r δεν είναι πάντα κοντά στην πραγµατική τιµή ρ. Αυτό συµβαίνει γιατί η εκτιµήτρια r όπως δίνεται στη σχέση (3.4) είναι µια τ.µ. που εξαρτάται από τις τιµές και το πλήθος των Ϲευγών των παρατηρήσεων. Για να εκφράσουµε τη συσχέτιση δύο τ.µ. χρησιµοποιούµε επίσης την ποσότητα r που λέγεται και συντελεστής προσδιορισµού (coefficient of determination) (εκφράζεται συνήθως σε ποσοστό %, r ). Ο συντελεστής προσδιορισµού δίνει το ποσοστό µεταβλητότητας των τιµών της που υπολογίζεται από τη (κι αντίστροφα) κι είναι ένας χρήσιµος τρόπος να συνοψίσουµε τη σχέση δύο τ.µ.. Παράδειγµα 3. Θέλουµε να διερευνήσουµε τη συσχέτιση της αντίστασης και του χρόνου αποτυχίας κάποιου υπερφορτωµένου αντιστάτη. Γι αυτό πήραµε µετρήσεις αντίστασης (σε Ωµ, ohm) και χρόνου αποτυχίας (σε λεπτά, min) από δείγµα αντιστατών, οι οποίες παρουσιάζονται στον Πίνακα 3.. Για να ϐρούµε τον συντελεστή συσχέτισης r υπολογίζουµε πρώτα τα παρακάτω Από τη σχέση (3.4) ϐρίσκουµε x = 38 ȳ = 33.5 x i = 9634 y i = 39 x iy i = 635. r = 635 38 33.5 (9634 38 ) (39 33.5 ) =.84. Η τιµή του συντελεστή συσχέτισης r.8 υποδηλώνει ότι η αντίσταση κι ο χρόνος αποτυχίας αντιστάτη έχουν γραµµική ϑετική συσχέτιση αλλά όχι πολύ ισχυρή. Αυτό ϕαίνεται κι από το διάγραµµα διασποράς στο Σχήµα 3.. Η µεταβλητότητα της µιας τ.µ. (αντίσταση ή χρόνος αποτυχίας) µπορεί να εξηγηθεί από τη συσχέτιση της µε την άλλη κατά ποσοστό που δίνεται από το συντελεστή προσδιορισµού, που είναι r =.84 = 64.64 65%. Συµπεραίνουµε λοιπόν πως η γνώση της µιας τ.µ. δε µας επιτρέπει να προσδιορίσουµε την άλλη µε µεγάλη ακρίβεια. Πρέπει επίσης να σηµειωθεί ότι η εκτίµηση r του συντελεστή συσχέτισης µπορεί να αλλάξει σηµαντικά µε την πρόσθεση ή αφαίρεση λίγων παρατηρήσεων γιατί το µέγεθος του δείγµατος είναι µικρό. Για τον συντελεστή συσχέτισης ρ µπορούµε να υπολογίσουµε διαστήµατα εµπιστοσύνης κάτω από την υπόθεση κανονικής κατανοµής των και, αλλά εδώ δε ϑα ασχοληθούµε µε αυτά τα ϑέµατα.

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 49 Α/Α (i) Αντίσταση x i (ohm) Χρόνος αποτυχίας y i (min) 8 6 9 3 3 6 4 33 5 33 5 6 33 35 7 34 8 8 34 33 9 36 36 36 37 3 39 33 3 4 45 4 4 39 5 43 3 6 44 45 7 46 47 8 47 44 9 47 46 48 37 Πίνακας 3.: εδοµένα αντίστασης x i και χρόνου αποτυχίας y i για αντιστάτες. 5 χρoνoς απoτυχιας y (min) 45 4 35 3 5 r=.8 5 3 35 4 45 5 αντισταση x (ohm) Σχήµα 3.: ιάγραµµα διασποράς για το δείγµα παρατηρήσεων αντίστασης και χρόνου αποτυχίας αντιστατών του Πίνακα3.. 3. Απλή Γραµµική Παλινδρόµηση Στη συσχέτιση που µελετήσαµε παραπάνω µετρήσαµε µε το συντελεστή συσχέτισης τη γραµ- µική σχέση δύο τ.µ. και. Στην παλινδρόµηση που ϑα µελετήσουµε τώρα σχεδιάζουµε

5 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ την εξάρτηση µιας τ.µ., που την ονοµάζουµε εξαρτηµένη µεταβλητή (dependent variable), από κάποια άλλη µεταβλητή που την ονοµάζουµε ανεξάρτητη µεταβλητή (independent variable). Ενώ λοιπόν η συσχέτιση είναι συµµετρική ως προς τα και, στην παλινδρόµηση η εξαρτηµένη µεταβλητή καθοδηγείται από την ανεξάρτητη µεταβλητή. Γι αυτό και στην ανάλυση που κάνουµε παίζει ϱόλο ποιόν από τους δύο παράγοντες που µετράµε ορίζουµε σαν ανεξάρτητη µεταβλητή και ποιόν σαν εξαρτηµένη. Για παράδειγµα, σε µια µονάδα παραγωγής ηλεκτρικής ενέργειας από λιγνίτη, για να προσδιορίσουµε το κόστος της παραγωγής ενέργειας, µελετάµε την εξάρτηση του από το κόστος του λιγνίτη. Είναι ϕυσικό λοιπόν ως εξαρτηµένη µεταβλητή να ϑεωρήσουµε το κόστος παραγωγής ηλεκτρικής ενέργειας κι ως ανεξάρτητη µεταβλητή το κόστος του λιγνίτη. 3.. Το πρόβληµα της απλής γραµµικής παλινδρόµησης Η εξαρτηµένη τ.µ. ακολουθεί κάποια κατανοµή. Επειδή µας ενδιαφέρει η συµπερι- ϕορά της για κάθε δυνατή τιµή της ανεξάρτητης µεταβλητής ϑέλουµε να µελετήσουµε τη δεσµευµένη κατανοµή της για κάθε τιµή x της. Με αναφορά στη δεσµευµένη αθροιστική συνάρτηση κατανοµής ϑέλουµε να προσδιορίσουµε την F (y = x) για κάθε τιµή x της. Αυτό είναι αρκετά περίπλοκο πρόβληµα που στην πράξη συχνά δε χρειάζεται να λύσουµε. Πε- ϱιορίζουµε λοιπόν τη µελέτη του προβλήµατος της παλινδρόµησης στη δεσµευµένη µέση τιµή E( = x). Υποθέτοντας ότι η εξάρτηση εκφράζεται από γραµµική σχέση έχουµε E( = x) = α + βx (3.5) και η σχέση αυτή λέγεται απλή γραµµική παλινδρόµηση της στη (linear regression). [Λέγεται απλή γιατί η εξάρτηση είναι προς µόνο µια µεταβλητή.] Το πρόβληµα της παλινδρόµησης είναι η εύρεση των παραµέτρων α και β που εκφράζουν καλύτερα τη γραµµική εξάρτηση της από τη. Κάθε Ϲεύγος τιµών (α, β) καθορίζει µια διαφορετική γραµµική σχέση που εκφράζεται γεωµετρικά από ευθεία γραµµή. Ο σταθερός όρος α είναι η τιµή του y για x = και λέγεται διαφορά ύψους (intercept) κι ο συντελεστής του x, β, είναι η κλίση (slope) της ευθείας ή αλλιώς ο συντελεστής παλινδρόµησης (regression coefficient). Αν ϑεωρήσουµε τις παρατηρήσεις {(x, y ),..., (x n, y n )} και το διάγραµµα διασποράς που τις απεικονίζει σαν σηµεία, µπορούµε να σχηµατίσουµε πολλές τέτοιες ευθείες που προσεγγίζουν την υποτιθέµενη γραµµική εξάρτηση της E( = x) ως προς, όπως ϕαίνεται στο Σχήµα 3.3. Για κάποια τιµή x i της αντιστοιχούν διαφορετικές τιµές y i της, σύµφωνα µε κάποια κατανοµή πιθανότητας F (y i = x i ), δηλαδή µπορούµε να ϑεωρήσουµε την y i σαν τ.µ. [ϑα ήταν σωστότερο να χρησιµοποιούσαµε το συµβολισµό i αντί y i, όπου ο δείκτης i ορίζει την εξάρτηση από = x i, αλλά ϑα χρησιµοποιήσουµε εδώ τον ίδιο συµβολισµό y i για την τ.µ. και την παρατήρηση]. Η τ.µ. y i για κάποια τιµή x i της ϑα δίνεται κάτω από την υπόθεση της γραµµικής παλινδρόµησης ως y i = α + βx i + ǫ i, (3.6) όπου ǫ i είναι κι αυτή τ.µ., λέγεται σφάλµα παλινδρόµησης (regression error) κι ορίζεται ως η διαφορά της y i από τη δεσµευµένη µέση τιµή της ǫ i = y i E( = x i ). Για την ανάλυση της γραµµικής παλινδρόµησης κάνουµε τις παρακάτω υποθέσεις:

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 5 y y = α3+ β 3 x y = α+ β x y = α+ β x β α Σχήµα 3.3: Ευθείες απλής γραµµικής παλινδρόµησης x Η µεταβλητή είναι ελεγχόµενη για το πρόβληµα που µελετάµε, δηλαδή γνωρίζουµε τις τιµές της χωρίς καµιά αµφιβολία. Η σχέση (3.5) ισχύει, δηλαδή η εξάρτηση της από τη είναι γραµµική. E(ǫ i ) = και Var(ǫ i ) = σ ǫ για κάθε τιµή x i της, δηλαδή το σφάλµα παλινδρόµησης έχει µέση τιµή µηδέν για κάθε τιµή της και η διασπορά του είναι σταθερή και δεν εξαρτάται από τη. Η τελευταία συνθήκη είναι ισοδύναµη µε τη συνθήκη Var( = x) σ = σ, δηλαδή η διασπορά της εξαρτηµένης µεταβλητής είναι η ίδια για κάθε τιµή της και µάλιστα είναι σ = σ ǫ σ. Η τελευταία σχέση προκύπτει από τη σχέση (3.6), αφού οι παράµετροι α και β είναι σταθερές και το x i γνωστό. Η ιδιότητα αυτή λέγεται οµοσκεδαστικότητα (δες επίσης..3) και αντίθετα έχουµε ετεροσκεδαστικότητα όταν η διασπορά της (ή του σφάλµατος ǫ) µεταβάλλεται µε τη. Γενικά για να εκτιµήσουµε τις παραµέτρους της γραµµικής παλινδρόµησης µε τη µέθοδο των ελαχίστων τετραγώνων, όπως ϑα δούµε παρακάτω, δεν είναι απαραίτητο να υποθέσουµε κάποια συγκεκριµένη δεσµευµένη κατανοµή F (y i = x i ) της ως προς τη. Αν ϑέλουµε όµως να υπολογίσουµε διαστήµατα εµπιστοσύνης για τις παραµέτρους ϑα χρειαστούµε να υποθέσουµε κανονική δεσµευµένη κατανοµή για τη. Επίσης οι παραπάνω υποθέσεις για γραµµική σχέση και σταθερή διασπορά αποτελούν χαρακτηριστικά πληθυσµών µε κανονική κατανοµή. Συνήθως λοιπόν σε προβλήµατα γραµµικής παλινδρόµησης υποθέτουµε ότι η δεσµευµένη κατανοµή της είναι κανονική = x N(α + βx, σ ).

5 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 3.. Σηµειακή εκτίµηση παραµέτρων της απλής γραµµικής παλινδρόµησης Το πρόβληµα της απλής γραµµικής παλινδρόµησης µε τις υποθέσεις που ορίστηκαν παραπάνω συνίσταται στην εκτίµηση των τριών παραµέτρων της παλινδρόµησης:. της διαφοράς ύψους της ευθείας παλινδρόµησης α,. της κλίσης της ευθείας παλινδρόµησης β, 3. της διασποράς σφάλµατος της παλινδρόµησης σ. Τα α και β προσδιορίζουν την ευθεία παλινδρόµησης κι άρα καθορίζουν τη γραµµική σχέση εξάρτησης της τ.µ. από τη µεταβλητή. Η παράµετρος σ προσδιορίζει το ϐαθµό µεταβλητότητας γύρω από την ευθεία παλινδρόµησης κι εκφράζει την αβεβαιότητα της γραµµικής σχέσης. Εκτίµηση των παραµέτρων της ευθείας παλινδρόµησης Η εκτίµηση των παραµέτρων α και β γίνεται µε τη µέθοδο των ελαχίστων τετραγώνων (method of least squares). Η µέθοδος λέγεται έτσι γιατί ϐρίσκει την ευθεία παλινδρόµησης µε παραµέτρους a και b έτσι ώστε το άθροισµα των τετραγώνων των κατακόρυφων αποστάσεων των σηµείων από την ευθεία να είναι το ελάχιστο. Οι εκτιµήσεις των α και β δίνονται από την ελαχιστοποίηση του αθροίσµατος των τετραγώνων των σφαλµάτων min α,β n ǫ i ή min α,β n (y i α βx i ). (3.7) Για να λύσουµε αυτό το πρόβληµα ϑέτουµε τις µερικές παραγώγους ως προς τα α και β ίσες µε το µηδέν και καταλήγουµε στο σύστηµα δύο εξισώσεων µε δύο αγνώστους (y i α βx i ) α = (y i α βx i ) β = από το οποίο παίρνουµε τις εκτιµήσεις των α και β b = s s n y i = nα + β n x i n x iy i = α n x i + β n x i, a = ȳ b x, (3.8) όπου s και s είναι η δειγµατική συνδιασπορά των και και η δειγµατική διασπορά της που ορίστηκαν στις σχέσεις (3.) και (3.3) αντίστοιχα. Τα a και b ορίζουν την ευθεία ŷ = a + bx, που λέγεται κι ευθεία ελαχίστων τετραγώνων.

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 53 y y = a + bx y i e = y y^ y^i i i i x i x Σχήµα 3.4: Ευθεία ελαχίστων τετραγώνων και υπόλοιπα Εκτίµηση της διασποράς των σφαλµάτων παλινδρόµησης Για κάθε δοθείσα τιµή x i µε τη ϐοήθεια της ευθείας ελαχίστων τετραγώνων εκτιµούµε την τιµή ŷ i που γενικά είναι διαφορετική από την πραγµατική τιµή y i. Η διαφορά e i = y i ŷ i = y i a bx i είναι η κατακόρυφη απόσταση της πραγµατικής τιµής από την ευθεία ελαχίστων τετραγώνων και λέγεται σφάλµα ελαχίστων τετραγώνων ή απλά υπόλοιπο (residual). Στο Σχήµα 3.4 απεικονίζονται τα υπόλοιπα της παλινδρόµησης. Το υπόλοιπο e i είναι η εκτίµηση του σφάλµατος παλινδρόµησης ǫ i αντικαθιστώντας απλά τις παραµέτρους παλινδρόµησης µε τις εκτιµήσεις ελαχίστων τετραγώνων στον ορισµό του σ- ϕάλµατος ǫ i = y i α βx i. Άρα η εκτίµηση της διασποράς σ του σφάλµατος (που είναι κι η δεσµευµένη διασπορά της ως προς ) δίνεται από τη δειγµατική διασπορά s των υπολοίπων e i s σe = n (y i ŷ i ), (3.9) n όπου διαιρούµε µε n γιατί από τους ϐαθµούς ελευθερίας n του µεγέθους του δείγµατος αφαιρούµε δύο για τις δύο παραµέτρους που έχουν ήδη εκτιµηθεί. Η δειγµατική διασπορά s µπορεί να εκφραστεί ως προς τις δειγµατικές διασπορές των και και της συνδιασποράς τους, αν αντικαταστήσουµε τις εκφράσεις των a και b από την (3.8) στην παραπάνω σχέση (όπου ϑέτουµε ŷ i = a + bx i ) s = n ( ) s n s s = n n (s b s ) (3.) όπου και πάλι υποθέτουµε τις αµερόληπτες εκτιµήτριες για τις διασπορές. Παρατηρήσεις

54 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. Η ευθεία ελαχίστων τετραγώνων περνάει από το σηµείο ( x, ȳ) γιατί a + b x = ȳ b x + b x = ȳ. Άρα η ευθεία ελαχίστων τετραγώνων µπορεί επίσης να οριστεί ως y i ȳ = b(x i x).. Η εκτίµηση των α και β µε τη µέθοδο των ελαχίστων τετραγώνων δεν προϋποθέτει σταθερή διασπορά και κανονική κατανοµή της εξαρτηµένης µεταβλητής για κάθε τιµή της ανεξάρτητης µεταβλητής. Οταν όµως ισχύουν οι δύο αυτές συνθήκες οι εκτιµήτριες ελαχίστων τετραγώνων a και b είναι οι εκτιµήτριες µεγίστης πιθανοφάνειας (κι άρα έχουν και τις επιθυµητές ιδιότητες εκτιµητριών). 3. Αν η διασπορά της αλλάζει µε το, τότε η διαδικασία των ελαχίστων τετραγώνων πρέπει να διορθωθεί έτσι ώστε να δίνει περισσότερο ϐάρος στις παρατηρήσεις που αντιστοιχούν σε µικρότερη διασπορά. 4. Για κάθε τιµή x της µπορούµε να προβλέψουµε την αντίστοιχη τιµή y της από την ευθεία ελαχίστων τετραγώνων, ŷ = a + bx. Εδώ πρέπει να προσέξουµε ότι η τιµή x πρέπει να ανήκει στο εύρος τιµών της που έχουµε από το δείγµα. Για τιµές έξω από αυτό το διάστηµα η πρόβλεψη δεν είναι αξιόπιστη. Παράδειγµα 3. Θέλουµε να µελετήσουµε σ ένα ολοκληρωµένο κύκλωµα την εξάρτηση της απολαβής ϱεύµατος κρυσταλλολυχνίας (τρανζίστορ) από την αντίσταση του στρώµατος της κρυσταλλολυχνίας. Στον Πίνακα 3. παρουσιάζονται µετρήσεις της απολαβής ϱεύµατος για αντίστοιχες τιµές της αντίστασης στρώµατος της κρυσταλλολυχνίας. Α/Α (i) Αντίσταση στρώµατος x i (ohm/cm) Απολαβή ϱεύµατος y i 66 5.3 66 6.5 3 69 7.4 4 78 7. 5 87 7.8 6 93.8 7 5 9. 8 8. 9 3.6 4 9.8 Πίνακας 3.: εδοµένα απολαβής ϱεύµατος τρανζίστορ (y i ) για διαφορετικές τιµές της αντίστασης στρώµατος κρυσταλλολυχνίας (x i ). Υποθέτουµε πως η απολαβή ϱεύµατος της κρυσταλλολυχνίας εξαρτάται γραµµικά από την αντίσταση του στρώµατος της και το διάγραµµα διασποράς από το δείγµα στο Σχήµα 3.5 επιβεβαιώνει αυτήν την υπόθεση. Για να εκτιµήσουµε τις παραµέτρους a και b της ευθείας ελαχίστων τετραγών-

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 55 5 απoλαβη ρευµατoς y y y =.53 +.63 x x 5 5 5 αντισταση στρωµατoς x (ohm/cm) Σχήµα 3.5: ιάγραµµα διασποράς για τα δεδοµένα του Πίνακα 3. κι ευθεία ελαχίστων τετραγώνων. ων υπολογίζουµε πρώτα τα παρακάτω x i = 943 x = 93.9 ȳ = 8.46 y i = 757.64 x iy i = 83. και χρησιµοποιώντας τις σχέσεις (3.) και (3.3) για τη δειγµατική συνδιασπορά και διασπορά αντίστοιχα, ϐρίσκουµε s = 4.8 s = 66. s = 4.66. Οι εκτιµήσεις b και a είναι b = 4.8 66. =.63 a = 8.46.63 93.9 =.53. Από τη σχέση (3.) υπολογίζουµε την εκτίµηση διασποράς των σφαλµάτων παλινδρόµησης Τα αποτελέσµατα αυτά ερµηνεύονται ως εξής: s = 9 8 (4.66.63 4.8) = 5.56.. b: Για αύξηση της αντίστασης στρώµατος κατά µία µονάδα µέτρησης ( ohm/cm) η απολαβή του ϱεύµατος της κρυσταλλολυχνίας αυξάνεται κατά.63.. a: Οταν δεν υπάρχει καθόλου αντίσταση στρώµατος (x = ), η απολαβή του ϱεύµατος είναι.53 µονάδες αλλά ϐέβαια είναι αδύνατο να ϑεωρήσουµε στρώµα χωρίς αντίσταση. ε ϑα πρέπει λοιπόν να επιχειρήσουµε προβλέψεις για τιµές της αντίστασης στρώµατος µικρότερης του 66 ohm/cm και µεγαλύτερης του 4 ohm/cm, που είναι οι ακραίες τιµές της αντίστασης του δείγµατος.

56 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 3. s : Η εκτίµηση της διασποράς γύρω από την ευθεία παλινδρόµησης για κάθε τιµή της (στο διάστηµα τιµών του πειράµατος) είναι 5.56, ή αλλιώς το τυπικό σφάλµα της εκτίµησης της παλινδρόµησης είναι.49 µονάδες, που είναι µεγάλο σε σχέση µε το επίπεδο τιµών της. Με ϐάση το µοντέλο παλινδρόµησης που εκτιµήσαµε µπορούµε να προβλέψουµε την απολαβή ϱεύµατος για κάθε αντίσταση στρώµατος κρυσταλλολυχνίας στο διάστηµα [66, 4] ohm/cm. Στο Σχήµα 3.5 απεικονίζεται η πρόβλεψη της απολαβής ϱεύµατος για αντίσταση στρώµατος x = ohm/cm και είναι y =.53 +.63 =.. Για τις παραµέτρους α και β, καθώς και για τη διασπορά σ, µπορούµε να εκτιµήσουµε διαστήµατα εµπιστοσύνης και να κάνουµε στατιστικούς ελέγχους αλλά δε ϑα ασχοληθούµε µε αυτά τα ϑέµατα. 3..3 Σχέση του συντελεστή συσχέτισης και παλινδρόµησης Η παλινδρόµηση ορίζεται ϑεωρώντας την ανεξάρτητη µεταβλητή σταθερή και την εξαρτη- µένη µεταβλητή τυχαία, ενώ για τη συσχέτιση ϑεωρούµε και τις δύο µεταβλητές και τυχαίες. Για τις µεταβλητές και της παλινδρόµησης, µπορούµε να αγνοήσουµε ότι η δεν είναι τ.µ. και να ορίσουµε το συντελεστή συσχέτισης ρ όπως και πριν. Η σχέση µεταξύ του r (της εκτιµήτριας του ρ από το δείγµα) και του συντελεστή της παλινδρόµησης b δίνεται ως εξής (συνδυάζοντας τις σχέσεις r = s s s και b = s s ) r = b s s ή b = r s s. (3.) Και τα δύο µεγέθη, r και b, εκφράζουν ποσοτικά τη γραµµική συσχέτιση των µεταβλητών και, αλλά το b εξαρτάται από τη µονάδα µέτρησης των και ενώ το r, επειδή προκύπτει από το λόγο της συνδιασποράς προς τις τυπικές αποκλίσεις των και, δεν εξαρτάται από τη µονάδα µέτρησης των και και δίνει τιµές στο διάστηµα [, ]. Η σχέση των r και b περιγράφεται ως εξής: Αν η συσχέτιση είναι ϑετική (r > ) τότε η κλίση της ευθείας παλινδρόµησης b είναι επίσης ϑετική. Αν η συσχέτιση είναι αρνητική (r < ) τότε η κλίση της ευθείας παλινδρόµησης b είναι επίσης αρνητική. Αν οι µεταβλητές και δε συσχετίζονται (r = ) τότε η ευθεία παλινδρόµησης είναι οριζόντια (b = ). Επίσης µπορούµε να εκφράσουµε το r ως προς τη δειγµατική διασπορά του σφάλµατος s και αντίστροφα s = n n s ( r ) ή r = n s. (3.) n Η παραπάνω σχέση δηλώνει πως όσο µεγαλύτερο είναι το r (ή το r ) τόσο µειώνεται η διασπορά του σφάλµατος της παλινδρόµησης, δηλαδή τόσο ακριβέστερη είναι η πρόβλεψη που ϐασίζεται στην ευθεία παλινδρόµησης. s

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ 57 Παράδειγµα 3.3 Στο παραπάνω παράδειγµα, ο συντελεστής συσχέτισης του κέρδους ϱεύµατος της κρυσταλλολυχνίας και της αντίστασης στρώµατος είναι r = s s s = 4.8 66. 4.66 =.753 που ϑα µπορούσαµε να υπολογίσουµε κι από τις σχέσεις (3.) ή (3.). Ο συντελεστής συσχέτισης δηλώνει την ασθενή ϑετική συσχέτιση του κέρδους ϱεύµατος και της αντίστασης στρώµατος, που δε µπορούµε όµως να συµπεράνουµε από την τιµή του συντελεστή παλινδρόµησης b =.63 ή την τιµή της διασποράς των σφαλµάτων s = 5.56 γιατί εξαρτιούνται από τις µονάδες µέτρησης των δύο µεταβλητών. Σ αυτό το κεφάλαιο ασχοληθήκαµε µόνο µε την απλή γραµµική παλινδρόµηση. Η µελέτη της παλινδρόµησης επεκτείνεται στη µη-γραµµική παλινδρόµηση, που αποτελεί γενικότερη και πιο ϱεαλιστική (αλλά και πιο πολύπλοκη) προσέγγιση για τον προσδιορισµό της εξάρτησης της από τη. Επίσης η τ.µ. µπορεί να εξαρτάται από περισσότερες από µια µεταβλητές που είναι το πρόβληµα της πολλαπλής παλινδρόµησης (γραµµική ή µη-γραµµική).