ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468
Θα μελετήσουμε πως μια τ.μ. μεταβάλλεται όταν αλλάζει μια άλλη μεταβλητή (τυχαία ή μη) Πρώτα ϑα μελετήσουμε τη σχέση δύο τ.μ. και Συχνά στη μελέτη ενός συστήματος ενδιαφερόμαστε να προσδιορίσουμε τη σχέση μεταξύ δύο μεταβλητών του Θα προσδιορίσουμε και ϑα εκτιμήσουμε το συντελεστή συσχέτισης που μετράει τη γραμμική συσχέτιση δύο τ.μ. Στη συνέχεια ϑα μελετήσουμε τη συναρτησιακή σχέση εξάρτησης μιας τ.μ. ως προς μια άλλη μεταβλητή. Η σχέση αυτή είναι πιθανοκρατική κι ορίζεται με την κατανομή της για κάθε τιμή της.
Συνήθως η μεταβολή αφορά μόνο τη μέση τιμή (κι ορισμένες ϕορές και τη διασπορά), γι αυτό κι η περιγραφή της κατανομής της ως προς τη περιορίζεται στη δεσμευμένη μέση τιμή E( ) και γίνεται με τη λεγόμενη ανάλυση παλινδρόμησης Θα μελετήσουμε την απλή γραμμική παλινδρόμηση, δηλαδή ϑα περιοριστούμε να εκτιμήσουμε τη γραμμική σχέση για τη μέση τιμή E( ) ως προς μια τ.μ..
Συσχέτιση Δύο τ.μ. και μπορεί να συσχετίζονται με κάποιο τρόπο. Αυτό συμβαίνει όταν επηρεάζει η μία την άλλη, ή αν δεν αλληλοεπηρεάζονται όταν επηρεάζονται και οι δύο από μια άλλη μεταβλητή Στη συνέχεια ϑα ϑεωρήσουμε ότι οι δύο τ.μ. και είναι συνεχείς Ο συντελεστής συσχέτισης ρ Ας ϑεωρήσουμε δύο τ.μ. και με διασπορά σ και σ αντίστοιχα και συνδιασπορά σ Cov(, ) = E( ) E()E( ). Η συνδιασπορά εκφράζει τη γραμμική συσχέτιση δύο τ.μ., δηλαδή την αναλογική μεταβολή (αύξηση ή μείωση) της μιας τ.μ. που αντιστοιχεί σε μεταβολή της άλλης μεταβλητής.
Συσχέτιση Η συνδιασπορά είναι ένα ποσοτικό μέγεθος κι η μονάδα μέτρησης της εξαρτάται από τις μονάδες μέτρησης των δύο τ.μ. και. Γι αυτό για να μετρήσουμε καλύτερα τον βαθμό της γραμμικής συσχέτισης δύο τ.μ. χρησιμοποιούμε τον συντελεστή συσχέτισης (correlato coeffcet) ρ που ορίζεται ως Ο συντελεστής συσχέτισης ρ παίρνει τιμές στο διάστημα [, ]: ρ = : υπάρχει τέλεια ϑετική σχέση μεταξύ των και, ρ = 0: δεν υπάρχει καμιά (γραμμική) σχέση μεταξύ των και, ρ = : υπάρχει τέλεια αρνητική σχέση μεταξύ των και
Συσχέτιση Έχουμε παρατηρήσεις δύο τ.μ. και κατά ζεύγη {(x, ), (x, ),..., (x, )}, Αναφερόμαστε, δηλαδή, σε μη πειραματικά δεδομένα (ο ερευνητής δεν προκαθορίζει-ελέγχει τις τιμές καμιάς από τις δύο μεταβλητές) όπως: Χ το ύψος των φοιτητών του ΤΜΟΔ και Υ το βάρος τους Χ οι ώρες μελέτης των φοιτητών του ΤΜΟΔ και Υ η απόδοση τους σε ένα τεστ Χ οι εβδομάδες εμπειρίας ενός εργάτη σε μια επιχείρηση και Υ ο αριθμός των ελαττωματικών προϊόντων που παράγει Χ η κατάταξη δέκα προϊόντων από ένα κριτή και Υ η κατάταξη των ιδίων προϊόντων από έναν άλλο κριτή Χ ο αριθμός των πωλήσεων μουσικών CD σε μια περιοχή και Υ ο αριθμός των νέων στην ίδια περιοχή.
Συσχέτιση Δεν αναφερόμαστε όμως σε περιπτώσεις όπως Χ ο αριθμός των ανοιχτών ταμείων ενός υποκαταστήματος τραπέζης (που καθορίζει ο διευθυντής) και Υ ο χρόνος αναμονής των πελατών Χ η ποσότητα λιπάσματος (που καθορίζει ο ερευνητής) και Υ η απόδοση του αγρού Χ το ύψος της διαφημιστικής δαπάνης ενός προϊόντος (που καθορίζει μια επιχείρηση) και Υ το ύψος των πωλήσεων του προϊόντος
Συσχέτιση Οταν έχουμε παρατηρήσεις των δύο τ.μ. και κατά ζεύγη {(x, ), (x, ),..., (x, )}, μπορούμε να εκτιμήσουμε τη συσχέτιση τους ποιοτικά από το διάγραμμα διασποράς (scatter dagram), που είναι η απεικόνιση των σημείων (x, ), =,...,, σε καρτεσιανό σύστημα συντεταγμένων. Στο σχήμα παρουσιάζονται τυπικά διαγράμματα διασποράς για ισχυρές κι ασθενείς συσχετίσεις δύο τ.μ. και Υ
Συσχέτιση Η σημειακή εκτίμηση του συντελεστή συσχέτισης ρ του πληθυσμού από το δείγμα των ζευγαρωτών παρατηρήσεων των και δίνεται από την σχέση: με Προκύπτει η έκφραση της εκτιμήτρια r (r συντελεστής προσδιορισμού) r, r
Απλή Γραμμική Παλινδρόμηση Στη συσχέτιση που μελετήσαμε παραπάνω μετρήσαμε με το συντελεστή συσχέτισης τη γραμμική σχέση δύο τ.μ. και Στην παλινδρόμηση που θα μελετήσουμε τώρα σχεδιάζουμε την εξάρτηση μιας τ.μ., που την ονομάζουμε εξαρτημένη μεταβλητή (depedet varable) από κάποια άλλη μεταβλητή που την ονομάζουμε ανεξάρτητη μεταβλητή (depedet varable) Ενώ λοιπόν η συσχέτιση είναι συμμετρική ως προς τα και, στην παλινδρόμηση η εξαρτημένη μεταβλητή «καθοδηγείται» από την ανεξάρτητη μεταβλητή. Γι αυτό και στην ανάλυση που κάνουμε παίζει ρόλο ποιόν από τους δύο παράγοντες που μετράμε ορίζουμε σαν ανεξάρτητη μεταβλητή και ποιόν σαν εξαρτημένη
Το πρόβλημα της Απλής Γραμμικής Παλινδρόμησης Η εξαρτημένη τ.μ. ακολουθεί κάποια κατανομή. Επειδή μας ενδιαφέρει η συμπεριφορά της για κάθε δυνατή τιμή της ανεξάρτητης μεταβλητής θέλουμε να μελετήσουμε τη δεσμευμένη κατανομή της για κάθε τιμή x της Με αναφορά στη δεσμευμένη αθροιστική συνάρτηση κατανομής θέλουμε να προσδιορίσουμε την F ( = x) για κάθε τιμή x της Αυτό είναι αρκετά περίπλοκο πρόβλημα που στην πράξη συχνά δε χρειάζεται να λύσουμε. Περιορίζουμε λοιπόν τη μελέτη του προβλήματος της παλινδρόμησης στη δεσμευμένη μέση τιμή E( = x). Υποθέτοντας ότι η εξάρτηση εκφράζεται από γραμμική σχέση έχουμε E x a x και η σχέση αυτή λέγεται απλή γραμμική παλινδρόμηση της στη (lear regresso)
Το πρόβλημα της Απλής Γραμμικής Παλινδρόμησης Το πρόβλημα της παλινδρόμησης είναι η εύρεση των παραμέτρων α και β που εκφράζουν καλύτερα τη γραμμική εξάρτηση της από τη. Κάθε ζεύγος τιμών (α, β) καθορίζει μια διαφορετική γραμμική σχέση που εκφράζεται γεωμετρικά από ευθεία γραμμή Ο σταθερός όρος α είναι η τιμή του για x = 0 και λέγεται διαφορά ύψους (tercept) κι ο συντελεστής του x, β, είναι η κλίση (slope) της ευθείας ή αλλιώς ο συντελεστής παλινδρόμησης (regresso coeffcet) Αν θεωρήσουμε τις παρατηρήσεις {(x, ),..., (x, )} και το διάγραμμα διασποράς που τις απεικονίζει σαν σημεία, μπορούμε να σχηματίσουμε πολλές τέτοιες ευθείες που προσεγγίζουν την υποτιθέμενη γραμμική εξάρτηση της E( = x) ως προς
Το πρόβλημα της Απλής Γραμμικής Παλινδρόμησης
Το πρόβλημα της Απλής Γραμμικής Παλινδρόμησης Για κάποια τιμή x της αντιστοιχούν διαφορετικές τιμές της, σύμφωνα με κάποια κατανομή πιθανότητας F ( = x ), δηλαδή μπορούμε να θεωρήσουμε την σαν τ.μ. Η τ.μ. για κάποια τιμή x της θα δίνεται κάτω από την υπόθεση της γραμμικής παλινδρόμησης ως a x όπου e είναι κι αυτή τ.μ., λέγεται σφάλμα παλινδρόμησης (regresso error) κι ορίζεται ως η διαφορά της από τη δεσμευμένη μέση τιμή της e e E x
Το πρόβλημα της Απλής Γραμμικής Παλινδρόμησης Για την ανάλυση της γραμμικής παλινδρόμησης κάνουμε τις παρακάτω υποθέσεις : I. Η μεταβλητή είναι ελεγχόμενη για το πρόβλημα που μελετάμε, δηλαδή γνωρίζουμε τις τιμές της χωρίς καμιά αμφιβολία II. Η σχέση ισχύει, δηλαδή η εξάρτηση της από τη είναι γραμμική III. E(e ) = 0 και Var(e ) = σ e για κάθε τιμή x της, δηλαδή το σφάλμα παλινδρόμησης έχει μέση τιμή μηδέν για κάθε τιμή της και η διασπορά του είναι σταθερή και δεν εξαρτάται από τη Η τελευταία συνθήκη είναι ισοδύναμη με τη συνθήκη δηλαδή η διασπορά της εξαρτημένης μεταβλητής είναι η ίδια για κάθε τιμή της και μάλιστα είναι E x a x e Var x. Η ιδιότητα αυτή λέγεται ομοσκεδαστικότητα και αντίθετα έχουμε ετεροσκεδαστικότητα όταν η διασπορά της (ή του σφάλματος e) μεταβάλλεται με τη
Το πρόβλημα της Απλής Γραμμικής Παλινδρόμησης Γενικά για να εκτιμήσουμε τις παραμέτρους της γραμμικής παλινδρόμησης με τη μέθοδο των ελαχίστων τετραγώνων, όπως θα δούμε παρακάτω, δεν είναι απαραίτητο να υποθέσουμε κάποια συγκεκριμένη δεσμευμένη κατανομή της ως προς τη : F x Αν θέλουμε όμως να υπολογίσουμε διαστήματα εμπιστοσύνης για τις παραμέτρους θα χρειαστούμε να υποθέσουμε κανονική δεσμευμένη κατανομή για τη Επίσης οι παραπάνω υποθέσεις για γραμμική σχέση και σταθερή διασπορά αποτελούν χαρακτηριστικά πληθυσμών με κανονική κατανομή. Συνήθως λοιπόν σε προβλήματα γραμμικής παλινδρόμησης υποθέτουμε ότι η δεσμευμένη κατανομή της είναι κανονική x ~ N a x,
Εκτίμηση παραμέτρων της απλής γραμμικής παλινδρόμησης Το πρόβλημα της απλής γραμμικής παλινδρόμησης με τις υποθέσεις που ορίστηκαν παραπάνω συνίσταται στην εκτίμηση των τριών παραμέτρων της παλινδρόμησης :. της διαφοράς ύψους της ευθείας παλινδρόμησης α,. της κλίσης της ευθείας παλινδρόμησης β, 3. της διασποράς σφάλματος της παλινδρόμησης σ Τα α και β προσδιορίζουν την ευθεία παλινδρόμησης κι άρα καθορίζουν τη γραμμική σχέση εξάρτησης της τ.μ. από τη μεταβλητή. Η παράμετρος σ προσδιορίζει το βαθμό μεταβλητότητας γύρω από την ευθεία παλινδρόμησης κι εκφράζει την αβεβαιότητα της γραμμικής σχέσης
Εκτίμηση παραμέτρων της ευθείας παλινδρόμησης Η εκτίμηση των παραμέτρων α και β γίνεται με τη μέθοδο των ελαχίστων τετραγώνων (method of least squares) Η μέθοδος λέγεται έτσι γιατί βρίσκει την ευθεία παλινδρόμησης με παραμέτρους και έτσι ώστε το άθροισμα των τετραγώνων των κατακόρυφων αποστάσεων των σημείων από την ευθεία να είναι το ελάχιστο Οι εκτιμήσεις των α και β δίνονται από την ελαχιστοποίηση του αθροίσματος των τετραγώνων των σφαλμάτων m a, ε ή m a, x
Εκτίμηση παραμέτρων της ευθείας παλινδρόμησης Για να λύσουμε αυτό το πρόβλημα θέτουμε τις μερικές παραγώγους ως προς τα α και β ίσες με το μηδέν και καταλήγουμε στο σύστημα δύο εξισώσεων με δύο αγνώστους από το οποίο παίρνουμε τις εκτιμήσεις των α και β τα οποία ορίζουν την ευθεία που λέγεται ευθεία ελαχίστων τετραγώνων x x x x x x 0 0, x
Εκτίμηση παραμέτρων της ευθείας παλινδρόμησης Για να λύσουμε αυτό το πρόβλημα θέτουμε τις μερικές παραγώγους ως προς τα α και β ίσες με το μηδέν και καταλήγουμε στο σύστημα δύο εξισώσεων με δύο αγνώστους από το οποίο παίρνουμε τις εκτιμήσεις των α και β τα οποία ορίζουν την ευθεία που λέγεται ευθεία ελαχίστων τετραγώνων x x x x x x 0 0 bx, s s b a ŷ bx a x,,
Εκτίμηση της διασποράς των σφαλμάτων παλινδρόμησης Για κάθε δοθείσα τιμή x με τη βοήθεια της ευθείας ελαχίστων τετραγώνων εκτιμούμε την τιμή που γενικά είναι διαφορετική από την πραγματική τιμή. Η διαφορά e ŷ x είναι η κατακόρυφη απόσταση της πραγματικής τιμής από την ευθεία ελαχίστων τετραγώνων και λέγεται σφάλμα ελαχίστων τετραγώνων ή απλά υπόλοιπο (resdual) Το υπόλοιπο e είναι η εκτίμηση του σφάλματος παλινδρόμησης ε αντικαθιστώντας απλά τις παραμέτρους παλινδρόμησης με τις εκτιμήσεις ελαχίστων τετραγώνων στον ορισμό του σφάλματος x
Εκτίμηση της διασποράς των σφαλμάτων παλινδρόμησης Για κάθε δοθείσα τιμή x με τη βοήθεια της ευθείας ελαχίστων τετραγώνων εκτιμούμε την τιμή που γενικά είναι διαφορετική από την πραγματική τιμή. Η διαφορά e ŷ ŷ a x bx είναι η κατακόρυφη απόσταση της πραγματικής τιμής από την ευθεία ελαχίστων τετραγώνων και λέγεται σφάλμα ελαχίστων τετραγώνων ή απλά υπόλοιπο (resdual) Το υπόλοιπο e είναι η εκτίμηση του σφάλματος παλινδρόμησης ε αντικαθιστώντας απλά τις παραμέτρους παλινδρόμησης με τις εκτιμήσεις ελαχίστων τετραγώνων στον ορισμό του σφάλματος a bx
Εκτίμηση της διασποράς των σφαλμάτων παλινδρόμησης Άρα η εκτίμηση της διασποράς σ του σφάλματος (που είναι κι η δεσμευμένη διασπορά της ως προς ) δίνεται από τη δειγματική διασπορά s των υπολοίπων e όπου διαιρούμε με γιατί από τους βαθμούς ελευθερίας του μεγέθους του δείγματος αφαιρούμε δύο για τις δύο παραμέτρους που έχουν ήδη εκτιμηθεί Αν χρησιμοποιήσουμε την σχέση και αντικαταστήσουμε τα a και b, η δειγματική διασπορά των υπολοίπων δίνεται από την σχέση: e s ŷ bx a s b s s s s s
Εκτίμηση διαστημάτων εμπιστοσύνης και Στατιστικός Έλεγχος Το πιο ενδιαφέρον σε μια παλινδρόμηση είναι αν ο συντελεστής είναι στατιστικά σημαντικός. Δηλαδή πρέπει να ελέγξουμε αν υπάρχει επαρκής στατιστική ένδειξη ότι ο συντελεστής Έλεγχος Σημαντικότητας Παλινδρόμησης: ή γενικότερα (α) (ή κλίση της ευθείας παλινδρόμησης) είναι μηδέν ή όχι. (γιατί?) Ωστόσο μπορεί να γίνει έλεγχος για οποιαδήποτε εναλλακτική υπόθεση (β) (γ) H H H H : 0 έναντι H : 0 0 0 έναντι H : : 0 0 έναντι H : : 0 0 έναντι H : : 0 0 0 0
Εκτίμηση διαστημάτων εμπιστοσύνης και Στατιστικός Έλεγχος Στατιστική συνάρτηση ελέγχου: T 0 Περιοχή απόρριψης: (α) R, t a, t a,, (β) R, t, a (γ) R t, a, Σημείωση: Λόγω συμμετρίας της κατανομής t : t -,-α = - t -,α
Εκτίμηση διαστημάτων εμπιστοσύνης και Στατιστικός Έλεγχος Για τη σημαντικότητα της παλινδρόμησης μπορεί να γίνει και έλεγχος F Έλεγχος σημαντικότητας: Στατιστική Συνάρτηση Ελέγχου: Περιοχή Απόρριψης: ) ( ) ( F,, : { a F f f R 0 : έναντι 0 : 0 H H
Εκτίμηση διαστημάτων εμπιστοσύνης και Στατιστικός Έλεγχος Μπορεί (όπως στα διαστήματα εμπιστοσύνης) να υπολογιστεί και το 00(-α)% διάστημα εμπιστοσύνης για τον εκτιμητή του συντελεστή ή για μεγάλα δείγματα t a, z a Ανάλογος έλεγχος υποθέσεων και αντίστοιχα διαστήματα εμπιστοσύνης μπορούν να βρεθούν και για το συντελεστή ευθείας της παλινδρόμησης της
Παράδειγμα : Η Ελληνική Βιομηχανία Όπλων (ΕΒΟ) απασχολεί μέρος του εργατικού δυναμικού της κατασκευάζοντας κάνες ενός τύπου όπλων. Η απασχόληση σε ώρες εργασίες ανά μήνα, ανάλογα με τον αριθμό των παραγγελιών που πρέπει να εκτελεστούν κάθε μήνα. Στο πίνακα φαίνονται οι παραγγελίες των τελευταίων 0 μηνών και οι αντίστοιχες ώρες εργασίας που απατήθηκαν για την εκτέλεση τους. () Να εκτιμηθεί η ευθεία της παλινδρόμησης που συνδέει τις παραγγελίες με τις ώρες εργασίας () Να εκτιμηθεί η διασπορά γύρω από την ευθεία της παλινδρόμησης () Είναι η παλινδρόμηση σημαντική σε επίπεδο σημαντικότητας α = 0.05 (v) Να ερμηνευτούν τα αποτελέσματα (v) Να εκτιμηθούν οι ώρες εργασίας αν η ΕΒΟ δεχτεί 53 παραγγελίες
Μήνας Παραγωγής Μέγεθος Παραγγελίας Ώρες Εργασίας 30 73 0 50 3 60 8 4 80 70 5 40 87 6 50 08 7 60 35 8 30 69 9 70 48 0 60 3
Σχέση συντελεστή συσχέτισης και παλινδρόμησης Η παλινδρόμηση ορίζεται θεωρώντας την ανεξάρτητη μεταβλητή σταθερή και την εξαρτημένη μεταβλητή τυχαία, ενώ για τη συσχέτιση θεωρούμε και τις δύο μεταβλητές και τυχαίες. Για τις μεταβλητές και της παλινδρόμησης, μπορούμε να αγνοήσουμε ότι η δεν είναι τ.μ. και να ορίσουμε το συντελεστή συσχέτισης ρ όπως και πριν Η σχέση μεταξύ του r (της εκτιμήτριας του ρ από το δείγμα) και του συντελεστή της παλινδρόμησης b δίνεται ως εξής: r ή r
Σχέση συντελεστή συσχέτισης και παλινδρόμησης Και τα δύο μεγέθη, r και, εκφράζουν ποσοτικά τη γραμμική συσχέτιση των μεταβλητών και, αλλά το b εξαρτάται από τη μονάδα μέτρησης των και ενώ το r, επειδή προκύπτει από το λόγο της συνδιασποράς προς τις τυπικές αποκλίσεις των και, δεν εξαρτάται από τη μονάδα μέτρησης και δίνει τιμές στο διάστημα [, ] Η σχέση των r και b περιγράφεται ως εξής : Αν η συσχέτιση είναι θετική (r > 0) τότε η κλίση της ευθείας παλινδρόμησης είναι επίσης θετική. Αν η συσχέτιση είναι αρνητική (r < 0) τότε η κλίση της ευθείας παλινδρόμησης b είναι επίσης αρνητική Αν οι μεταβλητές και δε συσχετίζονται (r = 0) τότε η ευθεία παλινδρόμησης είναι οριζόντια ( 0 ).
Σχέση συντελεστή συσχέτισης και παλινδρόμησης Επίσης μπορούμε να εκφράσουμε το r ως προς τη δειγματική διασπορά του σφάλματος s και αντίστροφα s s r ή r s s Η παραπάνω σχέση δηλώνει πως όσο μεγαλύτερο είναι το r (ή το r ) τόσο μειώνεται η διασπορά του σφάλματος της παλινδρόμησης, δηλαδή τόσο ακριβέστερη είναι η πρόβλεψη που βασίζεται στην ευθεία παλινδρόμησης Δηλαδή ο συντελεστής προσδιορισμού εκφράζει το ποσοστό της διακύμανσης της Υ που εξηγείται από την ευθεία της παλινδρόμησης
Σχέση συντελεστή συσχέτισης και παλινδρόμησης r 00% Ή αλλιώς το της μεταβλητότητας του Υ ερμηνεύεται από την Χ r Στο προηγούμενο παράδειγμα βρείτε το r και ερμηνεύστε το αποτέλεσμα
Σχέση συντελεστή συσχέτισης και παλινδρόμησης Για τους συντελεστές και της ευθείας της παλινδρόμησης: Για αύξηση του Χ κατά μια μονάδα το Υ αυξάνεται κατά Όταν το Χ = 0 το Υ =