ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εφαρμοσμένη Στατιστική Παλινδρόμηση Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creatve Commos. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς.
Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας ()
Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει μία συναρτησιακή σχέση η οποία εκφράζεται μέσω ενός μαθηματικού τύπου. Στη περίπτωση όπου τιμή της τ.μ. Χ καθορίζεται μονοσήμαντα η τιμή της τ.μ. Υ, λέμε ότι ορίζεται μία συνάρτηση: Το Υ λέγεται εξαρτημένη και το Χ ανεξάρτητη μεταβλητή. Υπάρχουν όμως περιπτώσεις όπου δεν υπάρχει μονοσήμαντη σχέση και η Υ μπορεί να λάβει διάφορες τιμές για μία τιμή. Τότε γράφουμε: όπου ε είναι μια τ.μ. που περιγράφει την απόκλιση της Υ από την f(). Μία τέτοια σχέση ονομάζεται στοχαστική ή μη ντετερμινιστική και το στοχαστικό μοντέλο που περιγράφει τον τρόπο πρόβλεψης της Υ λέγεται μοντέλο παλινδρόμησης της Υ στη Χ. Απλή παλινδρόμηση: όταν χρησιμοποιούμε μόνο μία μεταβλητή (μονοδιάστατο ) για να προβλέψουμε τη μεταβλητή κριτήριο. Πολλαπλή παλινδρόμηση: όταν χρησιμοποιούμε πολλές μεταβλητές (πολυδιάστατο ) για να προβλέψουμε το (μεταβλητή κριτήριο) f () f () Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας ()
Γραμμική Παλινδρόμηση (Lear Regresso) Αν f ( ) τότε έχουμε το μοντέλο γραμμικής παλινδρόμησης με β β οι (άγνωστοι) συντελεστές της γραμμικής εξίσωσης. Ευθεία παλινδρόμησης: όπου β προσδιορίζει τη θέση της ευθείας πάνω στο -άξονα, β η κλίση της ευθείας, ενώ το ε το σφάλμα της προβλεπόμενης (με βάση το μοντέλο) εξόδου από τη πραγματική. Συνάρτηση τετραγωνικού σφάλματος (Sum of Squares of Errors) E *** Χρησιμοποιούμε τετράγωνο γιατί είναι παντού παραγωγίσημη και οι λύσεις που προκύπτουν έχουν σημαντικό στατιστικό ενδιαφέρον. Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (3)
Γραμμική Παλινδρόμηση (Lear Regresso) (συν.) Μέθοδος των ελαχίστων τετραγώνων (Least Squares - LS) Οι εκτιμητές των γραμμικών συντελεστών που προκύπτουν ονομάζονται εκτιμητές των ελαχίστων τετραγώνων (LS estmators) Παίρνοντας τις μερικές παραγώγους ως προς β και β ίσο με μηδέν παίρνουμε: Καθώς ισχύει ότι δηλ. η ευθεία ελαχίστων τετραγώνων περνά πάντα από το σημείο Παρόμοια βρίσκουμε ότι Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (4) E,, m m,, Y S S
Γραμμική Παλινδρόμηση (Lear Regresso) (συν.) Μία εναλλακτική εξίσωση της εκτιμήτριας ελαχίστων τετραγώνων είναι: Ποιότητα παλινδρόμησης - Συντελεστής προσδιορισμού (coeffcet of determato) SSO SSE SSR Συνολικό άθροισμα τετραγώνων ή μέτρο διασποράς των χωρίς να λαμβάνουμε υπόψιν τα Άθροισμα τετραγώνων των εκτιμούμενων σφαλμάτων (ή καταλοίπων) Ερμηνευόμενο άθροισμα τετραγώνων Ισχύει ότι SSO=SSE+SSR Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (5)
Γραμμική Παλινδρόμηση (Lear Regresso) (συν.) Ορίζουμε ως συντελεστή προσδιορισμού το πηλίκο R το οποίο εκφράζει ένα μέτρο της ποιότητας παλινδρόμησης, δηλ. κατά πόσο η ευθεία παλινδρόμησης «ταιριάζει» στα διαθέσιμα δείγματα. Μια ενδιαφέρουσα ερμηνεία είναι ότι το R εκφράζει το ποσοστό της συνολικής διασποράς (των τιμών της εξαρτημένης μεταβλητής Υ) η οποία εξηγείται από τη Χ (μέσω της ευθείας παλινδρόμησης). Το υπόλοιπο ποσοστό R SSR SSO SSE SSO SSE SSO είναι το ποσοστό της συνολικής διασποράς που παραμένει «ανεξήγητο» από το Χ και θα πρέπει να αποδοθεί σε άλλες ανεξάρτητες μεταβλητές που επηρεάζουν το Υ., Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (6)
Γραμμική Παλινδρόμηση (Lear Regresso) (συν.) Το στατιστικό μοντέλο Υποθέσεις: β, β άγνωστοι παράμετροι _ γνωστό ε_ τυχαίο σφάλμα (στοχαστικό μέρος της εξίσωσης) με μέση τιμή μηδέν () και διακύμανση σ τα τυχαία σφάλματα θεωρούνται ασυσχέτιστα, δηλ. COV(ε, ε j )= Με βάση το στατιστικό μοντέλο η απόκριση Υ θεωρείται τυχαία μεταβλητή με E(Y ) = β + β ι και V( Y ) = σ Αν υποθέσουμε ότι τα σφάλματα είναι κανονικά, δηλ, ε ~ N(, σ ), τότε έχουμε το κανονικό γραμμικό μοντέλο παλινδρόμησης και Y ~ N(β + β ι, σ ) και μπορούμε να χρησιμοποιήσουμε την μέθοδο μεγιστοποίησης πιθανοφάνειας Για την εκτίμηση των παραμέτρων του μοντέλου παλινδρόμησης. Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (7)
Γραμμική Παλινδρόμηση (Lear Regresso) (συν.) Εκτιμητές μεγίστης πιθανοφάνειας (MLE) του γραμμικού μοντέλου Συνάρτηση πιθανοφάνειας ( θ = {β, β, σ } ) Έτσι οι εκτιμητές προκύπτουν από την μεγιστοποίησης της συνάρτηση, παίρνοντας τις μερικές παραγώγους ίσες με το μηδέν: που ουσιαστικά είναι οι ίδιοι εκτιμητές των ελαχίστων τετραγώνων, δηλ. LSE MLE Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (8) p L l l l
Γραμμική Παλινδρόμηση (Lear Regresso) (συν.) Παρατηρήσεις Από τον τύπο της εκτίμησης των συντελεστών β β προκύπτουν οι γραμμικές σχέσεις: όπου όπου Εύκολα βρίσκουμε τις σχέσεις: Οι εκτιμήτριες LSE (ή MLE) είναι αμερόληπτες, δηλ. Θεώρημα Gauss-Markov: Οι LS εκτιμήτριες έχουν τη μικρότερη δυνατή διακύμανση ανάμεσα σε όλες τις αμερόληπτες εκτιμήτριες που είναι γραμμικές συναρτήσεις των Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας (9) a a a,, a a a,,, E E
Πολλαπλή Παλινδρόμηση (Multvarate Regresso) Υπάρχουν πολλές (k ) ανεξάρτητες μεταβλητές που επηρεάζουν την απόκριση Y. Τότε το γραμμικό μοντέλο γράφεται ως εξής: k k Τετραγωνικό σφάλμα: (θ={β, β, β,, β k ) E k k Για την εύρεση των συντελεστών (εκτίμηση) παίρνουμε τις μερικές παραγώγους ίσες με μηδέν και κατασκευάζουμε ένα σύστημα k+ εξισώσεων με k+ αγνώστους. Μία εναλλακτική προσέγγιση είναι η επόμενη που βασίζεται σε μια άλλη μορφή της συνάρτησης σφάλματος: Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας ()
Πολλαπλή Παλινδρόμηση (Multvarate Regresso) (συν.) Εναλλακτική μορφή συνάρτηση τετραγωνικού σφάλματος όπου o ονομάζεται πίνακας σχεδίασης (desg matr) Τότε οι εκτιμητές προκύπτουν ως εξής: Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Y Y Y Y E k k k Y k Y m m d de
Τέλος Ενότητας
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Ιωαννίνων» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
Σημειώματα
Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση.. Έχουν προηγηθεί οι κάτωθι εκδόσεις: Έκδοση. διαθέσιμη εδώ. http://ecourse.uo.gr/course/vew.php?d=5.
Σημείωμα Αναφοράς Coprght Πανεπιστήμιο Ιωαννίνων, Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας. «Εφαρμοσμένη Στατιστική. Παλινδρόμηση». Έκδοση:.. Ιωάννινα 4. Διαθέσιμο από τη δικτυακή διεύθυνση: http://ecourse.uo.gr/course/vew.php?d=5.
Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creatve Commos Αναφορά Δημιουργού - Παρόμοια Διανομή, Διεθνής Έκδοση 4. [] ή μεταγενέστερη. [] https://creatvecommos.org/lceses/b-sa/4./.