Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας ()
Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει μία συναρτησιακή σχέση η οποία εκφράζεται μέσω ενός μαθηματικού τύπου. Στη περίπτωση όπου τιμή της τ.μ. Χ καθορίζεται μονοσήμαντα η τιμή της τ.μ. Υ, λέμε ότι ορίζεται μία συνάρτηση: Το Υ λέγεται εξαρτημένη και το Χ ανεξάρτητη μεταβλητή. Υπάρχουν όμως περιπτώσεις όπου δεν υπάρχει μονοσήμαντη σχέση και η Υ μπορεί να λάβει διάφορες τιμές για μία τιμή. Τότε γράφουμε: όπου ε είναι μια τ.μ. που περιγράφει την απόκλιση της Υ από την f(). Μία τέτοια σχέση ονομάζεται στοχαστική ή μη ντετερμινιστική και το στοχαστικό μοντέλο που περιγράφει τον τρόπο πρόβλεψης της Υ λέγεται μοντέλο παλινδρόμησης της Υ στη Χ. Απλή παλινδρόμηση: όταν χρησιμοποιούμε μόνο μία μεταβλητή (μονοδιάστατο ) για να προβλέψουμε τη μεταβλητή κριτήριο. Πολλαπλή παλινδρόμηση: όταν χρησιμοποιούμε πολλές μεταβλητές (πολυδιάστατο ) για να προβλέψουμε το (μεταβλητή κριτήριο) f () f () Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας ()
Γραμμική Παλινδρόμηση (Lear Regresso) Αν f ( ) τότε έχουμε το μοντέλο γραμμικής παλινδρόμησης με β β οι (άγνωστοι) συντελεστές της γραμμικής εξίσωσης. Ευθεία παλινδρόμησης: όπου β προσδιορίζει τη θέση της ευθείας πάνω στο -άξονα, β η κλίση της ευθείας, ενώ το ε το σφάλμα της προβλεπόμενης (με βάση το μοντέλο) εξόδου από τη πραγματική. Συνάρτηση τετραγωνικού σφάλματος (Sum of Squares of rrors) *** Χρησιμοποιούμε τετράγωνο γιατί είναι παντού παραγωγίσημη και οι λύσεις που προκύπτουν έχουν σημαντικό στατιστικό ενδιαφέρον. Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (3)
Γραμμική Παλινδρόμηση (Lear Regresso) Μέθοδος των ελαχίστων τετραγώνων (Least Squares - LS) Οι εκτιμητές των γραμμικών συντελεστών που προκύπτουν ονομάζονται εκτιμητές των ελαχίστων τετραγώνων (LS estmators) Παίρνοντας τις μερικές παραγώγους ως προς β και β ίσο με μηδέν παίρνουμε: Καθώς ισχύει ότι δηλ. η ευθεία ελαχίστων τετραγώνων περνά πάντα από το σημείο Παρόμοια βρίσκουμε ότι Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (4),, m m,, S S
Γραμμική Παλινδρόμηση (Lear Regresso) Μία εναλλακτική εξίσωση της εκτιμήτριας ελαχίστων τετραγώνων είναι: Ποιότητα παλινδρόμησης - Συντελεστής προσδιορισμού (coeffcet of determato) SSO SS SSR Συνολικό άθροισμα τετραγώνων ή μέτρο διασποράς των χωρίς να λαμβάνουμε υπόψιν τα Άθροισμα τετραγώνων των εκτιμούμενων σφαλμάτων (ή καταλοίπων) Ερμηνευόμενο άθροισμα τετραγώνων Ισχύει ότι SSO=SS+SSR Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (5)
Γραμμική Παλινδρόμηση (Lear Regresso) Ορίζουμε ως συντελεστή προσδιορισμού το πηλίκο R το οποίο εκφράζει ένα μέτρο της ποιότητας παλινδρόμησης, δηλ. κατά πόσο η ευθεία παλινδρόμησης «ταιριάζει» στα διαθέσιμα δείγματα. Μια ενδιαφέρουσα ερμηνεία είναι ότι το R εκφράζει το ποσοστό της συνολικής διασποράς (των τιμών της εξαρτημένης μεταβλητής Υ) η οποία εξηγείται από τη Χ (μέσω της ευθείας παλινδρόμησης). Το υπόλοιπο ποσοστό R SSR SSO SS SSO SS SSO είναι το ποσοστό της συνολικής διασποράς που παραμένει «ανεξήγητο» από το Χ και θα πρέπει να αποδοθεί σε άλλες ανεξάρτητες μεταβλητές που επηρεάζουν το Υ., Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (6)
Γραμμική Παλινδρόμηση (Lear Regresso) Το στατιστικό μοντέλο Υποθέσεις: β, β άγνωστοι παράμετροι _ γνωστό ε_ τυχαίο σφάλμα (στοχαστικό μέρος της εξίσωσης) με μέση τιμή μηδέν () και διακύμανση σ τα τυχαία σφάλματα θεωρούνται ασυσχέτιστα, δηλ. COV(ε, ε j )= Με βάση το στατιστικό μοντέλο η απόκριση Υ θεωρείται τυχαία μεταβλητή με ( ) = β + β ι και V( ) = σ Αν υποθέσουμε ότι τα σφάλματα είναι κανονικά, δηλ, ε ~ N(, σ ), τότε έχουμε το κανονικό γραμμικό μοντέλο παλινδρόμησης και ~ N(β + β ι, σ ) και μπορούμε να χρησιμοποιήσουμε την μέθοδο μεγιστοποίησης πιθανοφάνειας Για την εκτίμηση των παραμέτρων του μοντέλου παλινδρόμησης. Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (7)
Γραμμική Παλινδρόμηση (Lear Regresso) Εκτιμητές μεγίστης πιθανοφάνειας (ML) του γραμμικού μοντέλου Συνάρτηση πιθανοφάνειας ( θ = {β, β, σ } ) Έτσι οι εκτιμητές προκύπτουν από την μεγιστοποίησης της συνάρτηση, παίρνοντας τις μερικές παραγώγους ίσες με το μηδέν: που ουσιαστικά είναι οι ίδιοι εκτιμητές των ελαχίστων τετραγώνων, δηλ. LS ML Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (8) p L l l l
Γραμμική Παλινδρόμηση (Lear Regresso) Παρατηρήσεις Από τον τύπο της εκτίμησης των συντελεστών β β προκύπτουν οι γραμμικές σχέσεις: όπου όπου Εύκολα βρίσκουμε τις σχέσεις: Οι εκτιμήτριες LS (ή ML) είναι αμερόληπτες, δηλ. Θεώρημα Gauss-Markov: Οι LS εκτιμήτριες έχουν τη μικρότερη δυνατή διακύμανση ανάμεσα σε όλες τις αμερόληπτες εκτιμήτριες που είναι γραμμικές συναρτήσεις των Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (9) a a a,, a a a,,,
Πολλαπλή Παλινδρόμηση (Multvarate Regresso) Υπάρχουν πολλές (k ) ανεξάρτητες μεταβλητές που επηρεάζουν την απόκριση. Τότε το γραμμικό μοντέλο γράφεται ως εξής: k k Τετραγωνικό σφάλμα: (θ={β, β, β,, β k ) k k Για την εύρεση των συντελεστών (εκτίμηση) παίρνουμε τις μερικές παραγώγους ίσες με μηδέν και κατασκευάζουμε ένα σύστημα k+ εξισώσεων με k+ αγνώστους. Μία εναλλακτική προσέγγιση είναι η επόμενη που βασίζεται σε μια άλλη μορφή της συνάρτησης σφάλματος: Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας ()
Πολλαπλή Παλινδρόμηση (Multvarate Regresso) Εναλλακτική μορφή συνάρτηση τετραγωνικού σφάλματος όπου o ονομάζεται πίνακας σχεδίασης (desg matr) Τότε οι εκτιμητές προκύπτουν ως εξής: Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () k k k k m m d d