Ενότητα 5: Απλή Γραµµική Παλινδρόµηση (Simple Linear Regression)

Σχετικά έγγραφα
ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Μάθηµα Τέταρτο-Πέµπτο-Έκτο Πολλαπλό Γραµµικό Υπόδειγµα

ΔΕΙΓΜΑΤΙΚΕΣ ΚΑΤΑΝΟΜΕΣ (Sampling Distributions)

5. ιαστήµατα Εµπιστοσύνης

Ενότητα 6: Πολλαπλή Γραµµική Παλινδρόµηση (Multiple Linear Regression)

1. Η κανονική κατανοµή

Υπενθυµίσεις Μηχανικής Παραµορφωσίµων Στερεών

και ( n) 1 R. Αν ε > 0, επιλέγουµε για κάθε k 1 ένα καλύπτουµε τότε την ευθεία Α µε την ακολουθία των ορθογωνίων .

Περίληψη Προηγούμενου Μαθήματος Κανάλια επικοινωνίας με θόρυβο και η χωρητικότητά τους

Εκτιµητική. Boutsikas M.V. (2003), Σηµειώσεις Στατιστικής ΙΙΙ, Τµήµα Οικονοµικής Επιστήµης, Πανεπιστήµιο Πειραιώς.

Λύσεις σετ ασκήσεων #6

Ανοικτά και κλειστά σύνολα

σ.π.π. της 0.05 c 0.1

5. ΘΕΩΡΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑΣ

ρ. Ευστρατία Μούρτου

Συµπάγεια και οµοιόµορφη συνέχεια

ηµοκρίτειο Πανεπιστήµιο, Τµήµα ΜηχανικώνΠαραγωγής& ιοίκησης 1

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 10: Παιχνίδια με ελλιπή πληροφόρηση. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Ειδικά Θέµατα Μηχανικής! (Μηχανική Σύνθετων Υλικών) Κεφάλαιο 1

, της Χ που έχουμε διαθέσιμες μετά από μια πραγματοποίηση του τυχαίου δείγματος X, X, 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Εργαστηριακές Σημειώσεις Ανελαστική Κάμψη Μεταλλικής Δοκού

Πανεπιστήμιο Πελοποννήσου

ΜΑΘΗΜΑΤΙΚΑ Α ΓΥΜΝΑΣΙΟΥ ΜΕΡΟΣ 2ο ΓΕΩΜΕΤΡΙΑ ΑΣΚΗΣΕΙΣ ΛΥΜΕΝΕΣ 1 ΕΠΙΜΕΛΕΙΑ : ΑΥΓΕΡΙΝΟΣ ΒΑΣΙΛΗΣ

15. ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΕΛΑΣΤΟΠΛΑΣΤΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ

όπου n είναι ο συνολικός αριθμός γραμμομορίων του συστήματος (που συμπεριλαμβάνει και τα τυχόν αδρανή συστατικά), Ή ακόμα και τη σύσταση κατά βάρος

ΒΑΣΙΚΕΣ ΣΥΝΕΧΕΙΣ ΚΑΤΑΝΟΜΕΣ (ΣΥΝΕΧΕΙΑ)

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΔΙΑΚΥΜΑΝΣΕΙΣ

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ Α ΒΑΘΜΟΥ

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

ΕΞΙΣΩΣΗ ΣΦΑΙΡΑΣ. είναι όλοι ίσοι και επιπλέον δεν υπάρχουν οι όροι xy, yz, zx. Γενικά µια εξίσωση της µορφής: 0 + Β + Α.

05_01_Εκτίμηση παραμέτρων και διαστημάτων. Γούργουλης Βασίλειος Καθηγητής Τ.Ε.Φ.Α.Α. Σ.Ε.Φ.Α.Α. Δ.Π.Θ.

1 1 Χ= x x x x x x x x x x. x x x x x

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΑΓΡΟΤΙΚΗΣ ΑΝΑΠΤΥΞΗΣ ΚΟΥΤΡΟΥΜΑΝΙ ΗΣ Θ. ΖΑΦΕΙΡΙΟΥ Ε.

Γωνία που σχηματίζει η ε με τον άξονα. Έστω Oxy ένα σύστημα συντεταγμένων στο επίπεδο και ε μια ευθεία που τέμνει τον άξονα

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗΝ ΔΙΑΦΟΡΑ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ

k k

4.1 Η ΕΝΝΟΙΑ ΤΗΣ ΣΥΝΑΡΤΗΣΗΣ

ΜΗΧΑΝΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ ΥΛΙΚΩΝ

4.1 ΕΥΘΕΙΕΣ ΚΑΙ ΕΠΙΠΕ Α ΣΤΟ ΧΩΡΟ

ΕΙ Η ΠΑΛΙΝ ΡΟΜΗΣΗΣ. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ ΡΟΜΗΣΗ (Simple Linear Regression) ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ (Regression) ΠΑΛΙΝ ΡΟΜΗΣΗ.

ΥΠΟ ΕΙΓΜΑΤΑ TRANSFER

Επεξεργασία. Μέθοδοι Monte Carlo Εφαρμογές στην Επίλυση Προβλημάτων

Διάθλαση μέσω οπτικού πρίσματος - Υπολογισμός δείκτη διάθλασης.

C V C = 1. Πυκνωτές. Οι πυκνωτές έχουν πολλές χρήσεις λόγω του ότι αποτελούν αποθήκες ηλεκτρικού φορτίου και ηλεκτρικής δυναμικής ενέργειας.

3.3 Το συναρτησοειδές του Minkowski και μετρικοποιησιμότητα σε τοπικά κυρτούς χώρους. x y E (υποπροσθετικότητα ) ) και p( x) p( x)

Στοιχεία από τη Γεωμετρία του χώρου (αναλυτικά στο βιβλίο: Ευκλείδεια Γεωμετρία Α και Β Ενιαίου Λυκείου)

οι ενήλικες στην περιοχή Β, ο φοιτητής γνωρίζει ότι X ~ N(

ΣΕΤ ΑΣΚΗΣΕΩΝ

Διαδικασία προσδιορισμού των καμπύλων σύγκλισης-αποτόνωσης (p - u) και των καμπύλων απόστασης συντελεστή αποτόνωσης (λ x)

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2012

# Κάθε σημείο που οι συντεταγμένες του. Μεθοδολογία στην ευθεία γραμμή ΜΕΘΟΔΟΛΟΓΙΑ ΓΡΑΜΜΗ

Χάραξη γραφηµάτων/lab Graphing

( ) ( ) ( ( )) (( ) ) ( t) ( t) ( ) ( ) Επικαµπύλια ολοκληρώµατα. σ = και την σ, δηλαδή την. συνεχής πραγµατική συνάρτηση. Έστω U R ανοικτό σύνολο και

6.3 Η ΣΥΝΑΡΤΗΣΗ f(x) = αx + β

3.3 Η αρχή των Ήρωνος-Fermat

ιάθλαση µέσω οπτικού πρίσµατος - Υπολογισµός δείκτη διάθλασης

Παρουσίαση 4 η : Στοιχεία στατιστικής αξιολόγησης εκτιμήσεων

και ονομάζεται μηδενική υπόθεση (null hypothesis), και η άλλη με H

και ονομάζεται μηδενική υπόθεση (null hypothesis), και η άλλη με H

Γιατί; Το παραδοσιακό υπόδειγμα: y t = β 1 + β 2 x 2t β k x kt + u t, ή y = Xβ + u. Υποθέτουμε u t. N(0,σ 2 ).

( ) ( ) ( ( )) (( ) ) ( t) ( t) ( ) ( ) Επικαµπύλια ολοκληρώµατα. σ = και την σ, δηλαδή την. συνεχής πραγµατική συνάρτηση. Έστω U R ανοικτό σύνολο και

3. Κατανομές πιθανότητας

ιάστηµα εµπιστοσύνης της µ 1

Σειρά Προβλημάτων 2 Λύσεις

Σειρά Προβλημάτων 2 Λύσεις

Σειρά Προβλημάτων 1 Λύσεις

Αντλία νερού: Ο ρόλος της αντλίαςμελέτη συμπεράσματα σχόλια.

4. Ειδικές Διακριτές, Συνεχείς Κατανομές

ΚΕΦΑΛΑΙΟ 3 ΜΗΧΑΝΙΚΗ ΑΝΙΣΟΤΡΟΠΩΝ ΚΑΙ ΣΥΝΘΕΤΩΝ ΥΛΙΚΩΝ ΜΙΚΡΟΜΗΧΑΝΙΚΗ ΚΑΙ ΟΜΟΓΕΝΟΠΟΙΗΣΗ

Ενότητα 2: Έλεγχοι υποθέσεων για µέσες τιµες πληθυσµών (T-tests) µέσω SPSS

Νόμος του Gauss 1. Ηλεκτρική Ροή ( πλήθος δυναμικών γραμμών). είναι διάνυσμα μέτρου Α και κατεύθυνσης κάθετης στην επιφάνεια. Στην γενική περίπτωση:

και ονομάζεται μηδενική υπόθεση (null hypothesis), και η άλλη με H

Σειρά Προβλημάτων 2 Λύσεις

Παρουσίαση 3 η : Αρχές εκτίμησης παραμέτρων Μέρος 2 ο

2 Η ΕΥΘΕΙΑ ΣΤΟ ΕΠΙΠΕΔΟ. Εισαγωγή

Η θεωρία στην ευθεία σε ερωτήσεις - απαντήσεις

3.3 Το συναρτησοειδές του Minkowski και μετρικοποιησιμότητα σε τοπικά κυρτούς χώρους. x y E (υποπροσθετικότητα ) ) και p( x) p( x)

Σχεδίαση µε τη χρήση Η/Υ

ΕΛΑΣΤΙΚΟΤΗΤΑ. ε = = Η ελαστικότητα ζήτησης

Κεφάλαιο 3: Αλληλεπίδραση Η/Μ ακτινοβολίας και Ύλης. Λιαροκάπης Ευθύμιος. Διηλεκτρικές, Οπτικές, Μαγνητικές Ιδιότητες Υλικών

Στατιστικοί Ελεγχοι. t-έλεγχος για την σύγκριση των µέσων δύο πληθυσµών. Έλεγχος 5: Έλεγχος της οµοιογένειας δύο πληθυσµών µε διακυµάνσεις σ 1

Διδάσκουσα: Καθηγήτρια Εφαρμογών Σ. Πέππα

S AB = m. S A = m. Υ = m

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ ΣΗΜΕΙΩΣΕΙΣ ΕΙΓΜΑΤΟΛΗΨΙΑΣ Β. Α. ΑΓΓΕΛΗΣ

Άσκηση 19 Εξαναγκασμένες ηλεκτρικές ταλαντώσεις και συντονισμός

ΚΕΦΑΛΑΙΟ 2 Ο ΤΥΧΑΙΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΚΑΤΑΝΟΜΕΣ ΤΟΥΣ

(4) γενικής λύσης το x με το -x. και θα έχουμε : y ομ (x)=c 1 (-x) -1 +c 2 (-x) 3

ΕΙΣΑΓΩΓΙΚΕΣ ΔΙΑΛΕΞΕΙΣ ΒΑΣΙΚΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ I

Ειδικά Θέµατα Μηχανικής. (Μηχανική Σύνθετων Υλικών) Κεφάλαιο 2 (2.2)

ΜΗΧΑΝΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ ΥΛΙΚΩΝ

Μηχανικές ιδιότητες συνθέτων υλικών: εφελκυσμός. Άλκης Παϊπέτης Τμήμα Επιστήμης & Τεχνολογίας Υλικών

ΘΕΩΡΗΤΙΚΗ ΜΗΧΑΝΙΚΗ Ι Σεπτέµβριος β) Υλικό σηµείο µάζας m κινείται στον άξονα Οx υπό την επίδραση του δυναµικού

ΚΕΦΑΛΑΙΟ 6 ΑΤΑΚΤΑ ΥΛΙΚΑ

ΚΕΦΑΛΑΙΟ 12 Ο ΣΤΟΙΧΕΙΑ ΓΕΩΜΕΤΡΙΑΣ ΤΟΥ ΧΩΡΟΥ ΔΡ ΛΕΩΝΙΔΑΣ ΑΝΘΟΠΟΥΛΟΣ, ΕΠΙΚΟΥΡΟΣ ΚΑΘΗΓΗΤΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΕΡΓΩΝ ΤΕΙ ΛΑΡΙΣΑΣ

Μπορείτε να δείξετε ότι αυξανομένης της θερμοκρασίας το κλάσμα των μορίων του συστήματος που βρίσκεται στην βασική ενεργειακή κατάσταση θα μειώνεται;

ΜΑΘΗΜΑΤΙΚΑ Α ΓΥΜΝΑΣΙΟΥ

3. Βασικά µαθηµατικά µεγέθη, συµβολισµοί και σχέσεις

Πιθανότητες & Τυχαία Σήματα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Transcript:

Ενότητα 5: Απλή Γραµµική Παλινδρόµηη mple Lear Regresso Κύριο πρόβληµα αυτή την νότητα αποτλί η διρύνηη της χέης µταξύ δυο scaled µταβλητών Χ, Υ π.χ. Χ: ηλικία και : πίη αίµατος. Το γνικό πρόβληµα πριγράφται ως ξής: από έναν θωρητικά άπιρο πληθυµό λαµβάνουµ ένα δίγµα µγέθους και για κάθ άτοµο του δίγµατος καταγράφουµ τις τιµές δύο µταβλητών Χ, Υ. Μ βάη λοιπόν τα ζύγη τι- µών Χ,Υ,,Υ,,,Υ του δίγµατος π.χ. Χ : Ηλικία έτη -ατόµου, : Πίη αίµατος - ατόµου πιθυµούµ να διρυνήουµ τη χέη µταξύ των µταβλητών,. Επιπλέον θωρούµ ότι Η µταβλητή η οποία καλίται ανξάρτητη depedet ή ρµηνυτική µταβλητή explaatory varale δν θωρίται τυχαία, νώ Η µταβλητή η οποία καλίται ξαρτηµένη depedet ή µταβλητή απόκριης respose varale θωρίται τυχαία µταβλητή. Παράδιγµα. Από γυναίκς λαµβάνουµ τις ακόλουθς τιµές της πίης του αίµατος και της αντίτοιχης ηλικίας έτη: Ηλικία Χ 36 38 4 4 47 49 55 56 6 63 68 7 Πίη αίµατος Υ 8 5 5 4 8 45 5 47 55 49 5 6 δώ Χ,Υ 36, 8, Χ,Υ 38, 5, κ.ο.κ. Ειάγουµ τα δδοµένα το P δύο µταβλητές τήλς µ cases γραµµές. Ονοµάζουµ τις µταβλητές ge ή Χ και Pressure ή Υ. Το πρώτο πράγµα που µπορούµ να κάνουµ ίναι να δούµ τη «χέη» των υγκκριµένων µταβλητών το πίπδο: Εκτλούµ Graphs/ catterplot / mple/ xs: Pressure, xs: ge λαµβάνοντας το ακόλουθο γράφηµα 7 6 5 4 3 PREURE 3 4 5 6 7 8 GE Παρατηρούµ ότι όο αυξάνται η ge τόο αυξάνται και η Υ Pressure. Μάλιτα φαίνται ότι τα ηµία, βρίκονται «κοντά» µία υθία, π.χ. την y x, δηλαδή Υ,,,, για κάποις ταθρές,. Οι αποκλίις Υ,,,, των ηµίων, από την υθία αυτή φαίνονται τυχαίς. Αν ονοµάουµ,,,, τις διαφορές αυτές τότ προκύπτι φυιολογικά το γνωτό ως απλό γραµµικό µοντέλο που θα πριγράψουµ τη υνέχια. Επανρχόµνοι την γνικότρη πρίπτωη, πιθυµούµ να διρυνήουµ τη χέη µταξύ των µταβλητών Χ, Υ. Θωρούµ το απλούτρο µοντέλο που θα µπορού να ρµηνύι µια τέτοια χέη και που όπως ίδαµ προέκυψ φυιολογικά το προηγούµνο παράδιγµα, το απλό γραµµικό µοντέλο. Σύµφωνα µ το µοντέλο αυτό θωρούµ ότι τα, υνδέονται µ τη χέη,,,, Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 5 όπου, ίναι δυο άγνωτς ταθρές καλούνται και τταγµένη ή tercept και κλίη ή slope αντίτοιχα, νώ οι,,, ίναι ανξάρτητς τυχαίς µταβλητές που ακολουθούν κανονική κατα-

Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 53 νοµή Ν, άγνωτο και υνήθως καλούνται «φάλµατα» των µτρήων. Μπορί να θωρηθί ότι τα φάλµατα,,, µπριέχουν όλους τους άλλους παράγοντς κτός της Χ πηράζουν την τιµή της µταβλητής Υ. Υπογραµµίζται και πάλι ότι οι τιµές Χ,Χ,,Χ δν ίναι τυχαίς, αντίθτα µ τις Υ, Υ,, Υ οι οποίς προφανώς ίναι τυχαίς και µάλιτα θα ακολουθούν κανονική κατανοµή αφού ίναι γραµµικές υναρτήις των κανονικών τ.µ. µ παραµέτρους E E E, V V V για,,,, δηλαδή ~ N,. Επίης οι τ.µ. Υ,,, ίναι ανξάρτητς αφού τα φάλµατα,,, ίναι ανξάρτητα το «τυχαίο» νός οφίλται αποκλιτικά το φάλµα. Αρχικά, θα πρέπι µ βάη τα,,,,,, να κτιµήουµ τις παραµέτρους, και νώ φυικά ίναι απαραίτητο να διρυνήουµ πόο ικανοποιητικά προαρµόζονται τα δδοµένα µας το µοντέλο αυτό. 5.. Εκτίµηη των παραµέτρων, και Εφόον ~ N,, η από κοινού υνάρτηη πυκνότητας πιθανότητας των,,,, έτω f Υ y,y,,y ;,,, θα ξαρτάται από τις παραµέτρους, και. Μάλιτα η υνάρτηη πιθανοφάνιας των,,, θα ίναι y e y f y y y f L /,, ;,, ;,...,,,, π, από όπου προκύπτι ότι οι κτιµήτρις µέγιτης πιθανοφάνιας των παραµέτρων τιµές των παρα- µέτρων που µγιτοποιούν την υνάρτηη πιθανοφάνιας θα ίναι:,. και. Από την µορφή της υνάρτηης πιθανοφάνιας ίναι προφανές ότι οι κτιµήτρις µέγιτης πιθανοφάνιας των, προκύπτουν ιοδύναµα από την λαχιτοποίηη ως προς, του αθροίµατος των ττραγώνων των φαλµάτων,, για αυτό και οι κτιµήτρις των, καλούνται και κτιµήτρις λαχίτων ττραγώνων. Εποµένως, η κτιµηµένη υθία γραµµικής παλινδρόµηης θα ίναι η x y. Προβλέψις των Υ predcted ή προαρµοµένς πάνω την κτιµηµένη υθία γραµµικής παλινδρόµηης τιµές των Υ καλούνται οι κτιµήις των ΕΥ : νώ οι διαφορές των προαρµοµένων από τις παρατηρούµνς Υ καλούνται κατάλοιπα resduals ή κτιµηµένα φάλµατα και υµβολίζονται µ. Οι παραπάνω ποότητς φαίνονται και το παρακάτω χήµα,

y e {,, y x, {,,, x Υπογραµµίζται ότι η υθία το παραπάνω χήµα ίναι η κτιµηµένη υθία γραµµικής παλινδρό- µηης και τα κατάλοιπα ίναι τα κτιµηµένα φάλµατα. 5.. Έλγχοι υποθέων και δ.. για τις παραµέτρους του µοντέλου. ότι και Υποθέτοντας ότι τα φάλµατα ίναι ανξάρτητα και κανονικά ~ Ν, αποδικνύται ~,, ~, N N µ Cov, ~ χ χι ττράγωνο κατανοµή µ βαθµούς λυθρίας. Εποµένως, E και ως - κτιµήτρια του χρηιµοποιούµ την αµρόληπτη αντί της κτιµήτριας µέγιτης πιθανοφάνιας που ίδαµ παραπάνω η µόνο διαφορά ίναι ότι η.µ.π. διαιρί το άθροιµα µ αντί. Από τα παραπάνω προκύπτι ότι υπό τις υποθέις του µοντέλου ~ t και ~ t και ποµένως τα παρακάτω ίναι δ.. για τα, αντίτοιχα, µ.. a: a a a a t, t, t, t νώ για τον έλγχο των υποθέων H : και H : θα έχουµ αντίτοιχς πριοχές απόρριψης δίπλυροι έλγχοι.. a: K : T t a a > και K T >, όπου : t T, T µ αντίτοιχα p-value αν από τα δδοµένα βρέθηκ ότι T t, T t p value P T > t F, p value P T > t F. t t t t Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 54

Από τους δύο παραπάνω λέγχους ηµαντικότρος ίναι ο έλγχος για την «κλίη» της υθίας γραµµικής παλινδρόµηης H :. Αν απορριφθί αυτή η υπόθη τότ µπορούµ να πούµ ότι η µταβλητή Υ ξαρτάται από την αντίθτα, αν τότ η υθία παλινδρόµηης ίναι παράλληλη µ τον άξονα των x και ποµένως όο και αν µταβάλλται η, δν πηράζται η. 5.3. Ερµηνύοντας τη υνολική µταβλητότητα του µοντέλου Η διγµατική διαπορά των παρατηρήων αποδικνύται ότι χωρίζται δύο αθροίµατα, υγκκριµένα ιχύι ότι Τα τρία αυτά αθροίµατα υµβολίζονται µ T um of quares Total, E um of quares Error και R um of quares Regresso αντίτοιχα, δηλαδή, Μπορί τώρα να θωρηθί ότι T E R. το T κφράζι τη υνολική παρατηρούµνη µταβλητότητα των Υ, το R κφράζι τη µταβλητότητα των προαρµοµένων τιµών διότι και άρα. Αυτή η µταβλητότητα ρµηνύται από το µοντέλο αφού, ύµφωνα µ αυτό, οι αναµνόµνς προαρµοµένς τιµές των ίναι και ποµένως φυιολογικά διαφέρουν από τον µέο όρο τους αφού τα ίναι διαφορτικά. Το E κφράζι τη µταβλητότητα των Υ χέη µ τις αντίτοιχς προαρµοµένς τιµές. Η µταβλητότητα αυτή οφίλται την διαπορά των φαλµάτων τα οποία όπως ίπαµ µπορί να θωρηθί ότι «πριέχουν» όλους τους άλλους παράγοντς που πηράζουν την τιµή των Υ και δν υπάρχουν το µοντέλο. Άρα τλικά παρατηρούµ ότι η υνολική παρατηρούµνη µταβλητότητα των Υ T µπορί να χωριτί τα δύο, την µταβλητότητα που ρµηνύται από το µοντέλο R και την µταβλητότητα που οφίλται παράγοντς που δν έχουν πριληφθί το µοντέλο. Συνπώς, το πηλίκο υντλτής προδιοριµού R T E R, T T µπορί να θωρηθί ότι κφράζι το ποοτό της µταβλητότητας των παρατηρήων που ρµηνύται από το µοντέλο. Είναι προφανές ότι όο µγαλύτρο πιο «κοντά» την µονάδα ίναι το R τόο καλύτρο ίναι το µοντέλο που έχουµ θωρήι διότι ρµηνύι µγαλύτρο µέρος της παρατηρούµνης µταβλητότητας. Αξίζι να παρατηρήουµ ότι E και ποµένως R T E Επίης, ο υντλτής προδιοριµού R ίναι ίος µ R R T Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 55

που υµπίπτι µ το ττράγωνο του διγµατικού υντλτή υχέτιης του Pearso βλ. Εφαρµογή 3 την παράγραφο.3. Είδαµ την προηγούµνη παράγραφο ότι E ~ χ Εξάλλου αν τότ / ~ N, από όπου προκύπτι ότι ~ R χ. Επίης αποδικνύται ότι οι δύο παραπάνω τυχαίς µταβλητές E, R ίναι ανξάρτητς και ποµένως αν T E R ~ χ κάτι που ήταν αναµνόµνο διότι αν τότ Υ ~ N, και αυτή την πρίπτωη γνωρίζου- µ ότι ~ χ. Ένα άλλο υµπέραµα που προκύπτι από τα παραπάνω ίναι ότι, αν, τότ το πηλίκο R / R ~ F, E / E / ακολουθί κατανοµή F ή edecor µ και β.. η F,k ορίζται ως η κατανοµή του πηλίκου δύο ανξάρτητων τυχαίων µταβλητών που ακολουθούν χι-ττράγωνο κατανοµή µ και k β.. α- ντίτοιχα, δια τους β.. τους. Από το παραπάνω γγονός µπορούµ να κατακυάουµ έναν έλγχο για την υπόθη Η :. Θα απορρίπτται η Η όταν η παραπάνω τατιτική υνάρτηη λαµβάνι µγάλς τιµές, δηλαδή.. α όταν R > F, a : άνω a-ηµίο της κατανοµής F µ και β.. E / µ αντίτοιχο p-value: R p value FF, E / όπου F F ίναι η.κ. της κατανοµής F,,-. Είναι ύκολο να παληθύουµ ότι ο παραπάνω έλγχος της Η : ίναι ιοδύναµος µ τον έλγχο που ίδαµ την προηγούµνη παράγραφο για την ίδια υπόθη χρηιµοποιώντας την τατιτική υνάρτηη Τ διαφορά των δύο αυτών - λέγχων υπάρχι όταν φαρµόζουµ πολλαπλό γραµµικό µοντέλο. Όλς οι παραπάνω ποότητς υνοψίζονται έναν πίνακα που ίναι γνωτός ως πίνακας ανάλυης διαποράς NOV: Model df M F g. p-value. Regresso R MR R MR ME FF MR, ME Resduals E E ME Total T Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 56

5.4. Ατοµική και µέη πρόβλψη της Υ Αφού έχουµ κτιµήι τους υντλτές, µέω των,, λαµβάνουµ µια κτίµηη της υθίας γραµµικής παλινδρόµηης: y x και µέω αυτής µπορούµ να κάνουµ πρόβλψη predcto του που αντιτοιχί οποιοδήποτ x : x. Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 57 Εδώ χρηιµοποιούµ το όρο πρόβλψη και όχι κτίµηη γιατί η που θέλουµ να «προδιορίου- µ» ίναι τυχαία µταβλητή και όχι παράµτρος δηλ. ταθρά. Προφανώς οι προβλέψις της µταβλητής Υ τα ηµία Χ,Χ,,Χ ίναι οι γνωτές προαρµοµένς τιµές των Υ ή προβλέψις των Υ,,,, Είναι φανρό ότι η πρόβλψη x ίναι µια ηµιακή πρόβλψη. Μρικές φορές όµως ίναι προτιµότρο να προβλέψουµ ένα Υ χρηιµοποιώντας όχι ένα ηµίο αλλά ένα διάτηµα. Συνήθως χρηιµοποιούµ δυο τέτοια διατήµατα: Το διάτηµα µέης πρόβλψης mea predcto terval του Υ το x, το οποίο ίναι ένα δ.. υντ. a για το E x : x x a x t, x t a διότι ίναι ύκολο να δούµ ότι x ~ N x, x, νώ τα, ίναι ανξάρτητα από το E. Από τα παραπάνω προκύπτι ότι αν πάρουµ έναν µγάλο αριθµό παρατηρήων µ Χ x τότ η µέη τιµή της µταβλητής αυτές τις παρατηρήις θα βρίκται µέα το διάτηµα µέης πρόβλψης µ.. 95%. Το διάτηµα ατοµικής πρόβλψης dvdual predcto terval του Υ το x, το οποίο ίναι ένα διάτηµα µέα το οποίο βρίκται η x µ πιθανότητα a: x x a x t, x t a διότι ίναι ύκολο να δούµ ότι x ~ N x, x. Από τα παραπάνω προκύπτι ότι αν πάρουµ µία νέα παρατήρηη µ Χ,Υ µ x τότ το Υ θα βρίκται µέα το διάτηµα ατοµικής πρόβλψης µ.. 95%. 5.5. Εξέταη της ορθότητας του µοντέλου. Όλα τα παραπάνω έγιναν υπό τις υποθέις του γραµµικού µοντέλου:,,,, όπου τα φάλµατα,,, ίναι ανξάρτητα και ακολουθούν κανονική κατανοµή Ν,. Είναι ηµαντικό πριν κλίουµ την ανάλυη ή καλύτρα πριν την αρχίουµ να ββαιωθούµ ότι οι παρατηρήις µας προαρµόζονται ικανοποιητικά το παραπάνω µοντέλο ώτ τα υµπράµατα που προκύπτουν να θωρούνται αξιόπιτα. Αν διαπιτώουµ ότι κάτι τέτοιο δν υµβαίνι τότ θα πρέπι να τροποποιήουµ κατάλληλα το µοντέλο. Συνήθις αποκλίις που παρατηρούνται ίναι:

Τα φάλµατα δν ίναι κανονικά Τα φάλµατα δν έχουν ταθρή διαπορά 3 Τα φάλµατα δν ίναι ανξάρτητα Επιδή τα φάλµατα δν ίναι γνωτά, ξτάζουµ τα παραπάνω χρηιµοποιώντας τα κατάλοιπα. Τα κατάλοιπα δν ίναι ανξάρτητα, αλλά για µγάλα δίγµατα µπορούν πρακτικά να θωρηθούν ανξάρτητα διότι η υνδιαπορά τους ίναι της τάξης του / πίης ίναι ανξάρτητα των προβλέψων των Υ. Επίης τα κατάλοιπα δν έχουν ούτ ταθρή διαπορά γιατί V p όπου p, όπου οι ποότητς p καλούνται µόχλυη leverage. Για το λόγο αυτό βαιζόµατ τα τυποποιηµένα κατάλοιπα studetzed resduals: *,,,,. E / p µρικές φορές χρηιµοποιούµ τα λγόµνα κανονικοποιηµένα κατάλοιπα stadardzed resduals τα οποία ίναι τα /. Για µγάλα λοιπόν δίγµατα µπορί να θωρηθί ότι τα κατάλοιπα έχουν την ίδια υµπριφορά µ τα φάλµατα. Για να διρυνήουµ αν το µοντέλο ίναι ωτό δν ιχύι κάποια από τις παραπάνω α- ποκλίις υνήθως προχωράµ τους παρακάτω λέγχους: Εξτάζουµ αν τα τυποποιηµένα κατάλοιπα ακολουθούν πράγµατι κανονική κατανοµή χρηι- µοποιούµ ιτόγραµµα, Q-Q ή P-P plots και K- ττ. Εξτάζουµ αν υπάρχι χέη µταξύ των προαρµοµένων Υ και των τυποποιηµένων καταλοίπων υπό τις υποθέις του γραµµικού µοντέλου ίναι ανξάρτητα, χρηιµοποιώντας το γράφηµα των ηµίων *,,,,, το πίπδο. Αν βρθί ότι υπάρχι χέη όπως π.χ. το δξιό γράφηµα παρακάτω όπου τα ηµία δν φαίνται να βρίκονται «τυχαία» το πίπδο, αντίθτα µ το αριτρό γράφηµα τότ θα πρέπι να κτλέουµ κατάλληλο µταχηµατιµό των ή των Χ ώτ να ξαλιφθί αυτή η χέη ο µταχηµατιµός αυτός δν ίναι πάντοτ ύκολο να προδιοριτί. 3 3 tudetzed Resdual - - -3 3 4 5 6 7 8 tudetzed Resdual - - - 3 Ustadardzed Predcted Value Ustadardzed Predcted Value Εξτάζουµ αν υπάρχι χέη µταξύ των Χ και των τυποποιηµένων καταλοίπων, χρηιµοποιώντας το γράφηµα των ηµίων *,,,,, Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 58

το πίπδο. Αν βρθί ότι υπάρχι χέη κάτι που προκύπτι π.χ. όταν η διαπορά των φαλµάτων δν ίναι ταθρή θα πρέπι και πάλι να κτλέουµ κατάλληλο µταχηµατιµό των ή των Χ ώτ να ξαλιφθί αυτή η χέη. Αν π.χ. φαίνται ότι η διαπορά των καταλοίπων αυξάνται µ το Χ, όπως π.χ. το παρακάτω γράφηµα, 3 tudetzed Resdual - - -3-4 6 8 τότ προχωράµ µια τχνική που ταθροποιί τη διαπορά των φαλµάτων. Μπορούµ να θωρήουµ ότι V και αντί του µοντέλου, µπορούµ να θωρήουµ το µοντέλο διαιρούµ και τα δύο µέλη µ, όπου,, όπου τώρα V. v Εξτάζουµ αν τα τυποποιηµένα κατάλοιπα ίναι ανξάρτητα από την ιρά µ την οποία πήραµ τις παρατηρήις παναλαµβάνουµ ότι υπό τις υποθέις του γραµµικού µοντέλου και για µγάλα δίγµατα θα πρέπι πρακτικά να ίναι ανξάρτητα. Για το κοπό αυτό χρηιµοποιούµ το γράφηµα των ηµίων * * *,,,,, ή το γράφηµα των,,,,,. Επίης υνήθως χρηιµοποιούµ ένα ττ ροών rus test για τα κατάλοιπα το οποία ξτάαµ προηγούµνη νότητα ή ένα ττ αυτοπαλινδρόµηης που ίναι γνωτό ως Dur Watso test. Σύµφωνα µ το ττ αυτό θωρούµ ότι ρ - u, ρ <, u ~ N, δηλαδή τα φάλµατα ακολουθούν ένα R uto Regressve µοντέλο και λέγχουµ αν Η : ρ ανξάρτητα φάλµατα έναντι της Η : ρ > θτικά ξαρτηµένα φάλµατα. Για τον έλγχο αυτό χρηιµοποιούµ την τατιτική υνάρτηη: d της οποίας η κατανοµή υπό την Η έχι µλτηθί. Απορρίπτται η Η : ρ όταν η d λαµβάνι τιµές «κοντά» το. Τα τατιτικά πακέτα υνήθως δίνουν αυτόµατα την τιµή του p-value που αντιτοιχί αυτό το ττ. v Εξτάζουµ αν υπάρχουν «έκτροπς» παρατηρήις χρηιµοποιώντας και πάλι τα γραφήµατα *,,,,, και,,,,, ακόµη και το γράφηµα των Χ,. Θωρούµ ως «αυνήθιτς» τις παρατηρήις µ studetzed resdual µγαλύτρο του και «έκτροπς» αυτές µ studetzed resdual µγαλύτρο του 3. Οι έ- κτροπς παρατηρήις ίτ προέρχονται από λάθος καταγραφή του ρυνητή οπότ λέγχται αν * Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 59

µια έκτροπη παρατήρηη έχι καταγραφί και πρατί τον Η/Υ ωτά ή ίναι πραγµατικές παρατηρήις υποδικνύοντας ότι το µοντέλο µας δν ίναι απόλυτα ωτό. Ιδιαίτρη προοχή θα πρέπι να δοθί τις παρατηρήις που έχουν µγάλη «πιρροή» το µοντέλο παρατηρήις που αν ληφθούν υπόψη αλλάζουν ηµαντικά την κτίµηη της υθίας γραµµικής παλινδρόµηης. Τέτοις παρατηρήις ίναι αυτές που έχουν αρκτά µακριά από τα υπόλοιπα Χ j, j ή πιο απλά έχουν αρκτά µακριά από το. Η «απόταη» αυτή υνήθως µτράται χρηιµοποιώντας µια ποότητα που έχι µφανιτί και παραπάνω, την µόχλυη leverage Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 6 p ή την λγόµνη «κντρική µόχλυη» cetered leverage που ίναι η παραπάνω ποότητα µίον το /. Επιδή V p παρατηρήις µ µγάλη µόχλυη θα δίνουν µικρό κατάλοιπο µη τυποποιηµένο. Αυτό υνηγορί το γγονός ότι πηράζουν ηµαντικά την υθία γραµµικής παλινδρόµηης αφού την «αναγκάζουν» να πράι «κοντά» τους. Αποδικνύται ότι παρατηρήις µ µγάλη µόχλυη υνήθως µ p > 3 / πηράζουν ηµαντικά το µοντέλο και ποµένως θα πρέπι ή να λαµβάνονται µ µγάλη προοχή ή να ξαιρούνται του µοντέλου. Ένας ακόµη τρόπος να ντοπίουµ έκτροπς παρατηρήις βαίζται τα λγόµνα διαγραµµένα κατάλοιπα deleted resduals * p όπου * ίναι η προαρµοµένη τιµή της Υ αν ξαιρέουµ από τα δδοµένα το ζύγος Χ,. Όλοι οι παραπάνω έλγχοι κυρίως αυτοί που βαίζονται γραφήµατα καθώς και προτάις για «διόρθωη» των όποιων αποκλίων παρατηρηθούν απαιτούν ιδιαίτρη µπιρία την α- νάλυη καταλοίπων από τον κάτοτ ρυνητή που δν ίναι δυνατό να αποκτηθί τα πλαίια νός προπτυχιακού ή ακόµη και µταπτυχιακού µαθήµατος. 5.6. Μταχηµατιµοί. Αρκτές φορές υµβαίνι οι µταβλητές Χ και Υ να µην έχουν γραµµική χέη, κάτι που µπορί άµα να φανί από το διάγραµµα διαποράς ή από κάποιο γράφηµα καταλοίπων. Σ αυτές τις πριπτώις δν µπορούµ να φαρµόουµ απυθίας το γραµµικό µοντέλο αλλά θα πρέπι να µταχηµατίουµ τα δδοµένα f και g έτι ώτ οι, να έχουν γραµµική χέη. Συνήθως χρηιµοποιούµ τους µταχηµατιµούς, l, /,, l, / Οριµένς χτικές πιηµάνις ίναι οι ακόλουθς: Μρικές φορές για την ύρη του κατάλληλου µταχηµατιµού λαµβάνονται υπόψη και διάφορς a-pror υποθέις. Για παράδιγµα, αν Χ ίναι η τιµή νός αγαθού και Υ ίναι η ζήτηή του, υχνά προτίνται ένας λογαριθµικός µταχηµατιµός και για τις δύο µταβλητές ώτ να πιτυχθί γραµµικότητα, διότι µ τον µταχηµατιµό αυτό, το κφράζι την ποοτιαία αλλαγή την ζήτηη για κάθ % αλλαγής την τιµή. Μταχηµατιµοί του Χ δν πηράζουν την µταβλητότητα των φαλµάτων, νώ αντίθτα µταχηµατιµοί του Υ την πηράζουν. Μρικές φορές το Υ µταχηµατίζται για αυτόν ακριβώς τον λόγο, αν τα φάλµατα φαίνται ότι δν έχουν την ίδια διαπορά. Μτά τον µταχηµατιµό ίναι χρήιµη η ξέταη της διαποράς των καταλοίπων. 3 Συνήθως προτιµούµ να µταχηµατίζουµ την µταβλητή που έχι την µγαλύτρη µταβλητότητα τις τιµές.

5.7. Ακήις - Παραδίγµατα Άκηη υνέχια προηγούµνου παραδίγµατος. Από γυναίκς λαµβάνουµ τις ακόλουθς τιµές της πίης του αίµατος και της αντίτοιχης ηλικίας έτη: Ηλικία Χ 36 38 4 4 47 49 55 56 6 63 68 7 Πίη αίµατος Υ 8 5 5 4 8 45 5 47 55 49 5 6. Να γίνι το διάγραµµα διαποράς scatterplot µταξύ των Χ, Υ. ικαιολογίται από το γράφηµα η φαρµογή νός γραµµικού µοντέλου;. Να κατακυάτ το διάγραµµα διαποράς των δδοµένων Χ,Υ µαζί µ την κτιµηµένη υθία γραµµικής παλινδρόµηης και τις ζώνς µπιτούνης για την ατοµική και µέη πρόβλψη µ.. 95%. Ποια ίναι η φυική ρµηνία των, το χήµα; 3. Να κάντ µλέτη του µοντέλου Υ Χ. Συγκκριµένα: α Να κτιµήτ τα, η- µιακά και µ δ.. υντλτού 95%. β Να λέγξτ.. 5% αν Η :, Η :, και Η :, Η :. Η µταβλητή Υ ξαρτάται από την Χ; γ Να κατακυάτ τον πίνακα ανάλυης διαποράς ΑNOV και να κάντ τον έλγχο Η :, Η : του µοντέλου µέω του F-ττ. Ποια ίναι η κτίµηη της διαποράς των φαλµάτων; δ Τι ποοτό της µταβλητότητας των ρµηνύται από το µοντέλο; 4. Να δοθούν οι προαρµοµένς τιµές των Υ προβλέψις των Υ και τα κατάλοιπα. 5. Ποια ίναι η πρόβλψη της πίης του αίµατος για γυναίκα ηλικίας x 5 τών: α Να γίνι η- µιακή πρόβλψη και να δοθούν τα διατήµατα ατοµικής και µέης πρόβλψης 95%. β Εάν - πιλγί τυχαία µια γυναίκα 5 τών από τον πληθυµό, µταξύ ποιών ορίων θα βρίκται η πίη του αίµατός της.. 95%. γ Εάν πιλέξουµ τυχαία έναν µγάλο αριθµό από γυναίκς ηλικίας 5 τών, µταξύ ποιών ορίων θα βρίκται η µέη πίη του αίµατός τους.. 95%. 6. Να γίνι έλγχος ορθότητας του µοντέλου: α Εξτάτ αν τα τυποποιηµένα κατάλοιπα * προέρχονται πράγµατι από κανονική κατανοµή ιτόγραµµα, Q-Q ή P-P plots και K- ττ. β Εξ- τάτ αν υπάρχι χέη µταξύ των προαρµοµένων Υ και των τυποποιηµένων καταλοίπων, * χρηιµοποιώντας το γράφηµα των ηµίων,,,,, το πίπδο. Υπάρχουν «αυνήθιτς» * > ή «έκτροπς» παρατηρήις * >3; γ Εξτάτ αν τα τυποποιηµένα κατάλοιπα ίναι ανξάρτητα από την ιρά µ την οποία πήραµ τις παρατηρήις χρηιµοποιώντας το * γράφηµα των,,,,,. Επίης, να κτλέτ και ένα ττ ροών για το κοπό αυτό. δ Εξτάτ αν υπάρχουν παρατηρήις που έχουν µγάλη «πιρροή» το µοντέλο παρατηρήις που αν ληφθούν υπόψη αλλάζουν ηµαντικά την κτίµηη της υθίας γραµµικής παλινδρόµηης υνήθως θωρούνται αυτές που έχουν cetered leverage > 5/. Λύη.. Αρχικά ιάγουµ τα δδοµένα το P δύο µταβλητές τήλς Χ, Υ και λαµβάνουµ το διάγραµµα διαποράς Graphs/scatter/smple/ axs:, axs: για να πάρουµ µια αρχική ικόνα για τη χέη µταξύ των µταβλητών 7 6 5 4 3 3 4 5 6 7 8 Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 6

y Φαίνται να υπάρχι γραµµική χέη µταξύ των δυο µταβλητών και ποµένως η φαρµογή του µοντέλου Υ,,,,, ίναι φυιολογική.. Μπορούµ το χήµα του προηγούµνου ρωτήµατος να µφανίουµ και την κτιµηµένη υθία γραµµικής παλινδρόµηης καθώς και τις καµπύλς που δίχνουν τα όρια της µέης και της ατοµικής πρόβλψης. Αυτό µπορί να γίνι κάνοντας διπλό κλικ το υγκκριµένο γράφηµα το Output του P και πιλέγοντας Chart/Optos/Ft le:total, Ft optos: lear regresso, regresso predcto les: Mea, Idvdual 95%. 7 6 5 4 3 3 4 5 6 7 8 Τα παραπάνω µπορούν να γίνουν και από το Graphs/Iteractve/catterplot ssg vars,, Ft: method regresso, Predcto Les, Chart 8 Lear Regresso wth 95.% Mea Predcto Iterval ad 95.% Idvdual Predcto Iterval 6 y 8.78.4 * x R-quare.8 4 4 5 6 7 x Οι κάθτς αποτάις των ηµίων από την κτιµηµένη υθία γραµµικής παλινδρόµηης ίναι τα κατάλοιπα απικονίζονται πιλέγοντας spkes: Ft Le. Σ αυτό το γράφηµα δίνται και η κτί- µηη του 8.78 και του.4. Το ίναι το ηµίο που τέµνι η υθία τον κάθτο άξονα, νώ το ίναι η κλίη της υθίας η φαπτοµένη της γωνίας που χηµατίι η υθία µ τον οριζόντιο άξονα. 3. Εκτλούµ Regresso/Lear/Depedet:, Idepedet:, tatstcs: Cofdece Itervals λαµβάνοντας 3 πίνακς. Ο πρώτος πίνακας που δίνται το output του P ίναι ο ακόλουθος Model Model ummary djusted td. Error of R R quare R quare the Estmate,896 a,83,783 7, a. Predctors: Costat, Ο πίνακας αυτός πριέχι τις ποότητς: Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 6

R R dj. R td. Error of Est. R R E R E / R R E adj T T T T / Στη υνέχια δίνται ο πίνακας NOV: Model Regresso Resdual Total a. Predctors: Costat,. Depedet Varale: NOV um of quares df Mea quare F g. 8, 8, 4,778, a 49,467 49,47 5,667 Ο πίνακας NOV πριέχι όπως έχουµ δι και παραπάνω τις ποότητς: Model df M F g. p-value Regresso MR MR R MR R FF, ME ME Resduals E E ME Total T Και τέλος δίνται από το πακέτο και ο πίνακας Model Costat a. Depedet Varale: Ustadardzed Coeffcets Coeffcets a tadard zed Coeffce ts 95% Cofdece Iterval for B B td. Error Beta t g. Lower Boud Upper Boud 8,778 9,544 8,464, 59,53,43,38,78,896 6,386,,74,535 που πριέχι τις ποότητς B td.error t g p-value LB, UB V V Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 63 t a P T > t ~ T t ± V t V t a P T > t ~ T t ± V t V Το stadardzed coeffcets Beta ίναι η κτίµηη του όταν φαρµοτί το µοντέλο Υ, όπου Χ ίναι οι τυποποιηµένς τιµές των Χ αυτό έχι µγαλύτρη χρηιµότητα το πολλαπλό µοντέλο όπου έχουµ πολλές ανξάρτητς µταβλητές και θέλουµ να δούµ τις κτιµή-

ις των όταν οι µταβλητές αυτές µτρώνται την ίδια κλίµακα. Ας απαντήουµ τώρα τα ρωτήµατα που τίθνται από την άκηη. α. Όπως φαίνται και από τον παραπάνω πίνακα, οι ηµιακές κτιµήις των, ίναι 8.778 και.38 αντίτοιχα, νώ τα αντίτοιχα δ.. ίναι 59.53,.43 και.74,.535. β. το p-value για τους δυο αυτούς λέγχους ίναι χδόν και ποµένως απορρίπτουµ ότι, και άρα η Υ ξαρτάται από την υπνθυµίζται ότι αν τότ η µταβλητή Υ ίναι ανξάρτητη της Χ. γ. Ο πίνακας ανάλυης διαποράς ΑNOV δίνται απυθίας από το πακέτο όπως ίδαµ παραπάνω. Το p-value για τον έλγχο Η :, Η : δίνται τον πίνακα NOV και ίναι ίο µ. Όπως αναφέρται και παραπάνω, το απλό γραµµικό µοντέλο ο έλγχος της υγκκριµένης υπόθης µέω της F τιµής τον πίνακα ΑΝΟVΑ ίναι ιοδύναµος µ τον έλγχο που γίνται µέω της t τον τρίτο πίνακα παραπάνω. Η κτίµηη της διαποράς των φαλµάτων ως γνωτό ίναι η E/ και από τον πίνακα NOV βλέπουµ ότι ίναι ίη µ 49.47. δ. Το ποοτό της µταβλητότητας των που ρµηνύται από το µοντέλο δίνται από το R.83. 4. Αυτό µπορί να γίνι κτλώντας και πάλι την ίδια ανάλυη Regresso/Lear/Depedet:, Idepedet:, πιλέγοντας save : ustadardzed predcted values, ustadardzed Resduals. Μ αυτή την πιλογή προτίθνται τον πίνακα δδοµένων Data edtor δύο νές τήλς που έχουν τις ζητούµνς ποότητς: predcted resduals 36 8,7459-3,7459 38 5 4,9-9,93 4 5 8,5739-3,57395 4 4 8,5739,465 47 8 34,64-6,6397 49 45 36,54 8,46 55 5 43,368 6,6399 56 47 44,56,49398 6 55 49,58 5,9496 63 49 5,47-3,476 68 5 58,6-6,68 7 6 6,74 -,74 5. α. Η ηµιακή πρόβλψη για την πίη αίµατος γυναίκας µ ηλικία x 5 τών θα ίναι ύµφωνα µ το µοντέλο x 8.778.38 5 39.954. Τα διατήµατα ατοµικής και µέης πρόβλψης του Υ όταν Χ5 µπορούν να υπολογιτούν χρηι- µοποιώντας τους αντίτοιχους τύπους που δόθηκαν παραπάνω. Μπορούµ όµως να τα πάρουµ απυθίας από το πακέτο ως ξής: προθέτουµ µία ακόµη 3 η παρατήρηη το P data edtor ιάγοντας την 3 γραµµή της τήλης Χ το 5 το Υ την την 3 η γραµµή αφήνται κνό. Στη υνέχια κτλούµ και πάλι τη διαδικαία της παλινδρόµηης alyze / Regresso / Lear πιλέγοντας το save τώρα τα Ustadardzed predcted values, Predcto Itervals Mea και Idvdual. Στην 3 η τήλη λαµβάνονται τα αποτλέµατα: Αναµνόµνη τιµή του πίη: 39.954.. 95% για την µέη πρόβλψη: 35.4383, 44.4697.. 95% για την ατοµική πρόβλψη: 3.6788, 56.9 µ αυτή την διαδικαία προτίθνται τον data edtor και τα διατήµατα µέης και ατοµικής πρόβλψης του για όλα τα. Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 64

β. Εάν πιλγί τυχαία µια γυναίκα τών 5 από τον πληθυµό, η πίη του αίµατός της θα βρίκται µ.. 95% µταξύ των τιµών 3.6788 και 56.9 αυτό ακριβώς κφράζι το διάτηµα ατοµικής πρόβλψης γ. Εάν πιλέξουµ τυχαία έναν µγάλο αριθµό από γυναίκς ηλικίας 5 τών, η µέη πίη του αί- µατός τους θα βρίκται µ.. 95% µταξύ των τιµών 35.4383 και 44.4697 αυτό ακριβώς κφράζι το διάτηµα µέης πρόβλψης 6. Θα πρέπι πρώτα να αποθηκύουµ τον data edtor τις τιµές των studetzed resduals και των cetered leverages. Αυτό γίνται και πάλι χρηιµοποιώντας την πιλογή save την ανάλυη regresso: κτλούµ και πάλι τη διαδικαία της παλινδρόµηης alyze / Regresso / Lear πιλέγοντας το save τα ustadardzed predcted values, τα studetzed resduals και τα leverages. Στον πίνακα δδοµένων Data edtor προτίθνται νές τήλς που έχουν τις ζητούµνς ποότητς: predcted tudetzed resduals Cetered leverage values 36 8,7459 -,6859,74 38 5 4,9 -,4579,349 4 5 8,5739 -,553,6886 4 4 8,5739,7683,6886 47 8 34,64 -,9477,834 49 45 36,54,64,77 55 5 43,368,98955,459 56 47 44,56,3796,867 6 55 49,58,935,379 63 49 5,47 -,53878,7337 68 5 58,6 -,83,588 7 6 6,74 -,47347,4943 α. Το ιτόγραµµα και τo Q-Q plot των studetzed resduals θα ίναι Graphs/hstogram, Graphs/Q- Q plot 5 4, Normal Q-Q Plot of tudetzed Resdual,5 3,,5 -,5 -, -,5,,5,,5, td. Dev,4 Mea -, N, Expected Normal Value, -,5 -, -,5 -, -, -,5 -, -,5,,5,,5, tudetzed Resdual Oserved Value από τα οποία δν µπορούµ να αποφανθούµ διότι οι παρατηρήις ίναι λίγς. Το Kolmogorov mrov ττ δίνι alyze/oparametrc tests/-sample K- test Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 65

Oe-ample Kolmogorov-mrov Test N Normal Parameters a, Most Extreme Dffereces Kolmogorov-mrov Z symp. g. -taled Mea td. Devato solute Postve Negatve a. Test dstruto s Normal.. Calculated from data. tudetzed Resdual -,397E-,386395,5,5 -,47,869,437 και ποµένως p-value.437 δν µπορούµ να απορρίψουµ ότι τα τυποποιηµένα κατάλοιπα προέρχονται από την κανονική κατανοµή. β. Κατακυάζουµ το γράφηµα scatterplot των ηµίων,,,,, predcted, studetzed resduals:, *,5,,5 tudetzed Resdual, -,5 -, -,5 3 4 5 6 7 Ustadardzed Predcted Value Οι παρατηρήις φαίνται ότι βρίκονται τυχαία το πίπδο πράγµα που υποδηλώνι ότι δν πρέπι να υπάρχι κάποια χέη µταξύ των δυο µταβλητών ξάλλου µ τός λίγς παρατηρήις δν ίναι ύκολο να ανακαλύψουµ κάτι τέτοιο. Επίης παρατηρούµ ότι δν υπάρχουν έκτροπς παρατηρήις όλα τα studetzed resduals ίναι απόλυτα µικρότρα του 3. γ. Προθέτουµ άλλη µια µταβλητή που δίχνι το αύξοντα αριθµό κάθ παρατήρηης και τη υνέχια κατακυάζουµ το γράφηµα scatterplot των ηµίων, studetzed resduals:,,5,,5 tudetzed Resdual, -,5 -, -,5 4 6 8 4 I Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 66

την υγκκριµένη πρίπτωη ίναι όµοιο µ το προηγούµνο γράφηµα, κάτι που δν υµβαίνι γνικά. Και πάλι οι παρατηρήις φαίνται ότι βρίκονται τυχαία το πίπδο. Επίης, κτλούµ και ένα ττ ροών για τον έλγχο της τυχαιότητας των φαλµάτων µ alyze/o-parametrc tests/rus, test varale:studetzed resdual, cut pot βαιζόµατ το πλήθος των ροών θτικών και αρνητικών καταλοίπων: Rus Test Test Value a Total Cases Numer of Rus Z symp. g. -taled a. User-specfed. tudetzed Resdual 5 -,833,45 Μ βάη το παραπάνω p-value δν µπορούµ να απορρίψουµ ότι τα κατάλοιπα ίναι τυχαία. δ. Για να ξτάουµ αν υπάρχουν παρατηρήις που έχουν µγάλη «πιρροή» το µοντέλο λέγχουµ ποις έχουν cetered leverage > 5/ 5/.46. Βλέπουµ ότι καµία παρατήρηη δν έχι από µόνη της µγάλη πιρροή το µοντέλο όπως έχι χολιαθί και παραπάνω, τέτοις παρατηρήις πρέπι να λαµβάνονται µ προοχή. Άκηη. Στον παρακάτω πίνακα δίνονται οι τιµές πώληης 4 ιδών θαλαινών cets/poud τα έτη 97 και 98 βλ. Moore, Davd ad McCae 989 Itroducto to the Practce of tatstcs. Είδους Θαλαινού Τιµή 97 Χ Τιµή 98 Υ Είδους Θαλαινού Τιµή 97 Χ Τιµή 98 Υ COD 3. 7.3 TUN, LBCORE 6.7 8. FLOUNDER 5.3 4.4 CLM, OFT-HELLED 47.5 5.7 HDDOCK 5.8 38.7 CLM, BLUE HRD-HELLED 6.6.3 MENHDEN.8 4.5 LOBTER, MERICN 94.7 89.7 OCEN PERCH 4.9 3 OTER, ETERN 6. 3.3 LMON, CHINOOK 55.4 66.3 E CLLOP 35.6 44. LMON, COHO 39.3 9.7 HRIMP 47.6 49. Να φαρµοτί το απλό γραµµικό : a Να κατακυάτ το διάγραµµα διαποράς των δδοµένων Χ,Υ µαζί µ την κτιµηµένη υθία γραµµικής παλινδρόµηης. β Να κτι- µήτ τα, ηµιακά και να λέγξτ.. 5% αν Η :, Η :. Τι ποοτό της µταβλητότητας των ρµηνύται από το µοντέλο; *. Εξτάτ αν η διαπορά των καταλοίπων φαίνται να ίναι ταθρή. Χρηιµοποιίτ το γράφηµα των ηµίων,,,,,. το πίπδο. Υπάρχουν «αυνήθιτς» παρατηρήις; 3. Να ξτάτ αν οι λογάριθµοι των Χ, Υ προαρµόζονται καλύτρα το απλό γραµµικό µοντέλο. Μ άλλα λόγια ξτάτ αν το πολλαπλαιατικό µοντέλο c e, ~ Ν, προαρµόζι καλύτρα τα δδοµένα δηλ. δίνι µγαλύτρο R, νώ τα κατάλοιπα έχουν ταθρή διαπορά. 4. Να λέγξτ αν.. 5%. Λύη.. Ειάγουµ το P µόνο τα δδοµένα της δύτρης Χ και τρίτης τήλης Υ. Μ τον ίδιο τρόπο που αυτό έγιν την προηγούµνη άκηη λαµβάνουµ το γράφηµα: Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 67

5 4 3-4 6 8 4 Από το γράφηµα φαίνται ότι υπάρχι χέη µταξύ των δύο µταβλητών. β. Εκτλούµ Regresso/Lear/Depedet:, Idepedet:, λαµβάνοντας τους πίνακς: Model Model ummary djusted td. Error of R R quare R quare the Estmate,967 a,935,93 7,8775 a. Predctors: Costat, Model Regresso Resdual Total a. Predctors: Costat,. Depedet Varale: NOV um of quares df Mea quare F g. 345,4 345,387 73,84, a 935,833 777,53 43838, 3 Model Costat a. Depedet Varale: Ustadardzed Coeffcets Coeffcets a tadard zed Coeffce ts B td. Error Beta t g. -,34,58 -,,95,7,5,967 3,56, Οι κτιµήις των και ίναι -.34 και.7 αντίτοιχα νώ απορρίπτουµ την υπόθη Η :, διότι το αντίτοιχο p-value ίναι χδόν. Επίης, το ποοτό της µταβλητότητας των που ρµηνύται από το µοντέλο ίναι R.935.. Εκτλούµ και πάλι Regresso/Lear/Depedet:, Idepedet:, πιλέγοντας save τα ustadardzed predcted values και studetzed resduals και τη υνέχια κατακυάζουµ το ζητούµνο γράφηµα: Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 68

3 tudetzed Resdual - - -3-3 4 Ustadardzed Predcted Value Από το παραπάνω γράφηµα αλλά και από τον πίνακα δδοµένων παρατηρούµ ότι υπάρχουν δύο «αυνήθιτς» παρατηρήις asolute studetzed resdual >. Από το γράφηµα πίης φαίνται ότι η διαπορά των studetzed resduals δν πρέπι να ίναι ταθρή. Συγκκριµένα παρατηρούµ ότι όο αυξάνται το προαρµοµένο Υ, τόο αυξάνται και η διαπορά των studetzed resduals. Μάλιτα αυτό φαίνται να δικαιολογί και τα «µγάλα» κατάλοιπα τις δύο αυνήθιτς παρατηρήις. Τα παραπάνω υποδηλώνουν ότι το µοντέλο µας δν πρέπι να ίναι ωτό αν και το R ίναι αρκτά µγάλο. 3. Εδώ ουιατικά θα πρέπι να ξτάουµ το γραµµικό µοντέλο λογαριθµούµ κατά µέλη το πολλαπλαιατικό µοντέλο c e l e l e l, l, lc. Αρχικά λοιπόν θα πρέπι να µταχηµατίουµ τα δδοµένα κατακυάζοντας δύο νές µταβλητές LOG, LOG µ compute LOGL, LOGl. Στη υνέχια κτλούµ την ανάλυη Regresso/Lear/Depedet: LOG, Idepedet: LOG, πιλέγοντας save τα ustadardzed predcted values και studetzed resduals. Λαµβάνουµ τους πίνακς: Model Model ummary djusted td. Error of R R quare R quare the Estmate,974 a,95,945,776 a. Predctors: Costat, LOG. Depedet Varale: LOG Model Regresso Resdual Total a. Predctors: Costat, LOG. Depedet Varale: LOG NOV um of quares df Mea quare F g. 7,46 7,46 6,7, a,94 7,74E- 8,34 3 Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 69

Model Costat LOG a. Depedet Varale: LOG Ustadardzed Coeffcets Coeffcets a tadard zed Coeffce ts B td. Error Beta t g.,3,7 5,7,,955,63,974 5,36, Παρατηρούµ ότι το R ίναι.95, λάχιτα µγαλύτρο αυτού που πήραµ πριν τον µταχηµατιµό, αλλά το ηµαντικότρο ίναι ότι τώρα τα κατάλοιπα φαίνται να έχουν ταθρή διαπορά: 7 3 6 5 4 LOG 3 3 4 5 tudetzed Resdual - - -3 3 4 5 6 LOG Ustadardzed Predcted Value 4. Η κτίµηη του το πολλαπλαιατικό µοντέλο βλέπουµ ότι ίναι.955 και απορρίπτται η υπόθη Η : p-value.. Το πακέτο δν προφέρι άµα την δυνατότητα λέγχου της υπόθης Η : για αυτό και θα κάνουµ τον έλγχο µµέως χρηιµοποιώντας έναν µταχη- µατιµό. Θέτουµ ώτ να λέγξουµ τη υνέχια αν. Εποµένως και αντικαθιτώντας το µοντέλο e θα έχουµ: * e e e Κατακυάζουµ λοιπόν µια νέα µταβλητή star LOGLOG και φαρµόζουµ το µοντέλο της γραµµικής παλινδρόµηης ανάµα τις µταβλητές star depedet και LOG depedet. Ανάµα τα αποτλέµατα µας νδιαφέρι ο πίνακας που αφορά τον έλγχο που ίναι ιοδύναµος µ τον : Model Costat LOG a. Depedet Varale: TR Ustadardzed Coeffcets Coeffcets a tadard zed Coeffce ts B td. Error Beta t g.,3,7 5,7, -4,53E-,63 -, -,74,489 από τον πίνακα αυτό βλέπουµ ότι το p-value για τον έλγχο της υπόθης Η : Η : ίναι ίο µ.489 και ποµένως δν µπορούµ να απορρίψουµ ότι. Boutskas M.V. 4, Σηµιώις µαθήµατος «Στατιτικά Προγράµµατα» 7