+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

Σχετικά έγγραφα
Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Άσκηση 1. Πληθυσμός (Χ i1 )

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

Άσκηση 2. i β. 1 ου έτους (Υ i )

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

LAMPIRAN. Lampiran I Daftar sampel Perusahaan No. Kode Nama Perusahaan. 1. AGRO PT Bank Rakyat Indonesia AgroniagaTbk.

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Λυμένες Ασκήσεις για το μάθημα:

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΔPersediaan = Persediaan t+1 - Persediaan t

Lampiran 1 Output SPSS MODEL I

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Απλή Ευθύγραµµη Συµµεταβολή

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Η βιτρίνα των καταστημάτων ως εργαλείο δημοσίων σχέσεων. Ονοματεπώνυμο: Ειρήνη Πορτάλιου Σειρά: 8 η Επιβλέπουσα: Αν. Καθηγήτρια : Βεντούρα Ζωή

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΠΡΟΒΛΗΜΑ ΑΥΤΟΣΥΣΧΕΤΙΣΤΩΝ ΣΦΑΛΜΑΤΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

ΕΡΓΑΙΑ Εθηίκεζε αμίαο κεηαπώιεζεο ζπηηηώλ κε αλάιπζε δεδνκέλωλ. Παιεάο Δπζηξάηηνο

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Περιγραφή των εργαλείων ρουτινών του στατιστικού

NI it (dalam jutaan rupiah)

ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. ΜΑΘΗΜΑ 12 Συµπερασµατολογία για την επίδραση πολλών µεταβλητών σε µια ποσοτική (Πολλαπλή Παλινδρόµηση) [µέρος 2ο]

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗΝ ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΙ ΑΝΑΛΟΓΙΩΝ ΔΥΟ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Απλή Γραμμική Παλινδρόμηση II

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

Ύλη 1 ης Εβδομάδας. Σχέσεις Μεταβλητών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ. Σχέση μεταξύ Μεταβλητών Παραδείγματα. 2 η Διάλεξη

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

Μοντέλα Πολλαπλής Παλινδρόμησης

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

Στατιστική Επιχειρήσεων Ι

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

ΠΡΟΒΛΗΜΑ ΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ

1991 US Social Survey.sav

8. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Ι

ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ Βασικά Εργαλεία και Μέθοδοι για τον Έλεγχο της Ποιότητας [ΔΙΠ 50], ΕΡΓΑΣΙΑ 4. Ενδεικτική Λύση

ΓΕΝΙΚΕΥΜΕΝΑ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

519.22(07.07) 78 : ( ) /.. ; c (07.07) , , 2008

Εισαγωγή στη Βιοστατιστική

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

ΕΡΕΥΝΑ ΑΓΟΡΑΣ ΣΕ ΞΕΝΟΔΟΧΕΙΑ ΤΗΣ ΚΡΗΤΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΠΌ ΣΑΛΟΥΣΤΡΟΥ ΑΝΤΙΓΟΝΗ ΣΥΓΛΕΤΟΥ ΕΛΕΝΗ

Εισαγωγή στην Ανάλυση Διακύμανσης

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

2. ΕΠΙΛΟΓΗ ΤΟΥ ΜΕΓΕΘΟΥΣ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Περιεχόμενα. Πρόλογος... v

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Άσκηση 10, σελ Για τη μεταβλητή x (άτυπος όγκος) έχουμε: x censored_x 1 F 3 F 3 F 4 F 10 F 13 F 13 F 16 F 16 F 24 F 26 F 27 F 28 F

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

Transcript:

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ, 6-5-0 Άσκηση 8. Δίνονται οι παρακάτω 0 παρατηρήσεις (πίνακας Α) με βάση τις οποίες θέλουμε να δημιουργήσουμε ένα γραμμικό μοντέλο για την πρόβλεψη της Υ μέσω των ανεξάρτητων μεταβλητών Χ, Χ. Πίνακας Α Πίνακας Β i i 68 6.9 9.5 4. 44 66 77.8 4.7 49.8 99 6 8 8.7 0.7 5.9 4 444 7 89 4 0. 9.8 54. 5 0 90 5.9 9. 4. 6 56 9 0 6.7 5.6 5.9 7 507 58 95 7 7..4 58.5 8 6 9 8 5.4 7.9 5. 9 6 7 9 9.. 49.9 0 05 9 9 0 9. 5.5 5.5 490 87 67 5.4. 56.6 48 87 78 7. 0.4 56.7 5 5 8.7 8.7 46.5 4 6 56 40 4 7.8 9.7 44. 5 5 49 95 5.8 4.6 4.7 6 8 67 9 6.9 9.5 54.4 7 65 9 40 7.6 7.7 55. 8 7 5 8 8 5.4 0. 58.6 9 69 84 9 4.8.7 48. 0 70 64 67 0. 5. 5.0 6 5 4 58 9 8 54 99 90 4 9 8 5 46 78 8 6 07 86 5 7 5 50 8 68 9 5 9 70 7 6 0 48 87 59. Θεωρώντας ότι μοντέλο είναι = β + β + β + ε, ε ~ Ν(0,σ I ), 0 n i) Εκτιμήστε τα β 0, β, β, σ και υπολογίστε τους συντελεστές προσδιορισμού, R, R (adj). ii) Βρείτε τον πίνακα συσχέτισης και τον πίνακα διασποράς των β ˆ ˆ, β. iii) Βρείτε 95% διάστημα εμπιστοσύνης για κάθε ένα από τα β 0, β, β. Βρείτε από κοινού δ.ε. 95% για τα β, β, με τη μέθοδο Bonferroni. iv) Να κάνετε τους ελέγχους Η 0 :β =0 με H :β 0, Η 0 :β =0 με H :β 0 και Η 0 :β =β =0 με H :β 0 ή β 0 σε ε.σ. %. v) Βρείτε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ όταν Χ =50, Χ =60. vi) Κάνετε τον έλεγχο Η 0 : β =β με Η : β β σε ε.σ. α = 5%. Βρείτε δ.ε. 95% για το β β. vii) Ποιές παρατηρήσεις επηρεάζουν περισσότερο το μοντέλο ( ii > /n) και ποιες θεωρούνται ασυνήθιστες ( e ˆ * i > ); Να γίνει έλεγχος κανονικότητας των παρατηρήσεων (K - S για τα κατάλοιπα). viii) Το μοντέλο = β0 + β + β + β + ε βελτιώνει ουσιαστικά το προηγούμενο (β = 0;). Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

= β0 + β + ε, = β0 + β + ε, = β0 + β + β + ε είναι το καλύτερο, με βάση το R, το R SSE (adj), και το C = ( n ). MSE Παρατηρούμε ότι τα εκτιμημένα β i δεν αλλάζουν σημαντικά στα τρία μοντέλα. Αυτό συμβαίνει πάντοτε; Εξετάστε γιατί δεν ισχύει κάτι ανάλογο εφαρμόζοντας τα δεδομένα του πίνακα B. Άσκηση 9. Δίνονται οι παρακάτω 54 παρατηρήσεις με βάση τις οποίες θέλουμε να δημιουργήσουμε ένα γραμμικό μοντέλο για την πρόβλεψη της Υ μέσω κάποιας ή κάποιων από τις ανεξάρτητες μεταβλητές Χ, Χ, Χ, 4. i 4 6.7 6 8.59 00 5. 59 66.70 0 7.4 57 8.6 04 4 6.5 7 4.0 0 5 7.8 65 5 4.0 509 6 5.8 8 7.4 80 7 5.7 46 6.9 80 8.7 68 8.57 7 9 6.0 67 9.50 0 0.7 76 94.40 0 6. 84 8 4. 9 6.7 5 4.86 65 5.8 96 4.95 80 4 5.8 8 88.95 0 5 7.7 6 67.40 68 6 7.4 74 68.40 7 7 6.0 85 8.98 87 8.7 5 4.55 4 9 7. 68 74.56 5 0 5.6 57 87.0 7 5. 5 76.85 09.4 8 5. 6 6.7 6 68.0 70 4 5.8 67 86.40 0 5 6. 59 00.95 76 6 5.8 6 7.50 44 7 5. 5 86.45 8 8. 76 90 5.59 574 9 5. 54 56.7 7 0 5.8 76 59.58 78. 64 65 0.74 7 8.7 45.5 58 5.0 59 7.50 6 4 5.8 7 9.0 95 5 5.4 58 70.64 5 6 5. 5 99.60 84 7.6 74 86.05 8 8 4. 8 9.85 0 9 4.8 6 76.45 5 40 5.4 5 88.8 48 4 5. 49 7.84 95 4.6 8 99.0 75 4 8.8 86 88 6.40 48 44 6.5 56 77.85 5

45.4 77 9.48 9 46 6.5 40 84.00 47 4.5 7 06.05 48 4.8 86 0 4.0 98 49 5. 67 77.86 58 50.9 8 0 4.55 0 5 6.6 77 46.95 4 5 6.4 85 40. 5 5 6.4 59 85. 98 54 8.8 78 7.0 i) Να βρεθεί ο πίνακας συσχέτισης μεταξύ των,,, 4, = log 0. ii) Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που περιέχουν τις,,, 4 και την = log 0. Να βρεθεί το καλύτερο με βάση: a) το R, β) το R SSE (adj), γ) το MSE και δ) το C = ( n ). MSE iii) Να βρεθεί το καλύτερο μοντέλο με βάση τη διαδικασία Stewise regression και να περιγραφούν όλα τα ενδιάμεσα βήματα. iv) Να γίνει το ίδιο χρησιμοποιώντας τις διαδικασίες Forward selection και Backward elimination. Άσκηση 0. Δίνονται οι ετήσιοι μισθοί, σε χιλιάδες ευρώ 5 υπαλλήλων που επιλέχτηκαν τυχαία. Επίσης δίνονται τα χρόνια υπηρεσίας Χ, η ηλικία Χ και το φύλο τους Φ. i 4 5 6 7 8 9 0 4 5 5. 7.6.5.8 8.0.5 9.6 7.0.5..5 7.6 5.4 0.5 6.8 5.4 8.4 6.7. 4.6.4 8. 5. 7.9.5.8 9.6 6.8 7.5. 6 5 4 5 54 8 6 4 48 7 44 4 9 6 Φ Γ Α Γ Γ Α Α Α Α Α Γ Γ Γ Α Γ Α Το μοντέλο για τους άνδρες και τις γυναίκες είναι Υ = β 0 + β Χ + β Χ + ε και Υ = c 0 + β Χ + β Χ + ε αντίστοιχα. Αν υποθέσουμε ότι οι διασπορές των σφαλμάτων είναι ίσες, εξετάστε αν β 0 = c 0 σε ε.σ. α = 0.05. Άσκηση. Δίνονται οι παρακάτω παρατηρήσεις: 4 44 47 50 6 74 4 46 6 96 7 0 5 4 55 9 44 45 59 6 4 8 8 4 5 40 59 7 7 48 8 45 5 4 0 7 69 9 46 46 7 6 49 45 7 6 8 45 6 69 4 8 0 50 66 0 0 50 48 59 76 8 7 60 7 87 6 4 45 47 88 9 4 48 50 0 5 4 7 98 7 4 5 4 98

7 8 68 65 4 4 6 50 0 4 7 94 4 57 56 7 8 0 40 80 6 0 0 4 4 94 7 4 4 8 6 6 45 5 4 98 4 47 4 8 ) Να βρεθεί ο πίνακας συσχέτισης μεταξύ των,,, 4. Ποιά ζεύγη μεταβλητών παρουσιάζουν υψηλή συσχέτιση; ) i) Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που περιέχουν τις,,, 4 και την. Να βρεθεί το καλύτερο με βάση: a) το R, β) το R (adj), γ) το MSE και δ) το C. ii) Να βρεθεί το καλύτερο μοντέλο με βάση τις διαδικασίες Stewise regression και Backward elimination και να περιγραφούν όλα τα ενδιάμεσα βήματα. ) Στο πλήρες μοντέλο: i) Εκτιμήστε τα β i, σ και υπολογίστε τους συντελεστές προσδιορισμού, R, R (adj). ii) Βρείτε 95% διάστημα εμπιστοσύνης για κάθε ένα από τα β i. Βρείτε από κοινού δ.ε. 95% για τα β, β, β, β 4 με τη μέθοδο Bonferroni. iii) Να κάνετε τους ελέγχους Η 0 :β i =0 με H :β i 0, i=,,,4 και Η 0 : β = β = β = β 4 = 0 με H :β 0 ή β 0 ή β 0 ή β 4 0 σε ε.σ. %. iv) Βρείτε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ όταν Χ = Χ = Χ = Χ 4 = 0. v) Κάνετε τον έλεγχο Η 0 : β = β με Η 0 : β β σε ε.σ. α = 5%. Βρείτε δ.ε. 95% για το β +β. 4

Απαντήσεις. Άσκηση 8. Θεωρούμε το μοντέλο = β0 + β + β + ε, ε ~ Ν(0,σ In), i) Εκτελούμε τη διαδικασία /Analyze/Regression/Linear με Deendent:, Indeendent:, (Method: Enter για να εισαχθούν και οι δύο μεταβλητές Χ, Χ στο μοντέλο). Επίσης επιλέγουμε στα /Statistics και τα εξής: Confidence intervals (δ.ε. για τις εκτιμήσεις των β i ), Covariance Matrix (πίνακας διασποράς των β ˆ ˆ, β ), Descritives (για να εμφανιστούν οι (δειγματικές) μέσες τιμές, τυπικές αποκλίσεις, και συντελεστές συσχέτισης των,, ). Τα αποτελέσματα από το SPSS είναι: Correlations Descritive Statistics Mean Std. Deviation N,5667 4,994 0 58,7667 9,506 0 49,000 0,06 0 Pearson Correlation Sig. (-tailed) N,000,9,88,9,000 -,00,88 -,00,000,,06,000,06,,494,000,494, 0 0 0 0 0 0 0 0 0 Variables Entered/Removed b Variables Variables Entered Removed Method, a, Enter a. All requested variables entered. b. Deendent Variable: Summary Adjusted Std. Error of R R Square R Square the Estimate,966 a,94,99 7,7795 a. Predictors:,, Regression Residual Total a. Predictors:,, b. Deendent Variable: ANOVA b Sum of Squares df Mean Square F Sig. 54670,5 7085,4 9,,000 a 856,88 7 47,9 584707,4 9 a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B t Sig. Lower Bound Uer Bound B Std. Error Beta 4,88 9,69,49,805-4,94 44,570,90,8,95 8,00,000,45,90 4,65,,88 7,87,000,687 4,644 5

Coefficient Correlations a Correlations Covariances a. Deendent Variable:,000,00,00,000 5,4E-0,66E-04,66E-04 5,65E-0 i) Συνεπώς, οι εκτιμήσεις των β 0, β, β, σ είναι ˆ ˆ ˆ SSE β = 4.88, β0 =.90, β = 4.65, σˆ = = MSE = s = 47.9, σˆ n Οι συντελεστές προσδιορισμού είναι R = 0.94, R (adj) = 0.99. 0 = ii) Ο πίνακας συσχέτισης και ο πίνακας διασποράς των β ˆ ˆ, β αντίστοιχα είναι: Coefficient Correlations Correlations.000 0.00 0.00.000 Covariances 54. 0.6 0.6 56.5 iii) Τα διαστήματα εμπιστοσύνης 95% για τα β 0, β, β είναι: β 0 : (-4.94, 44.570), β : (.45,.90), β : (.687, 4.644). 7.7795 Για την εύρεση από κοινού δ.ε. 95% για τα β, β με τη μέθοδο Bonferroni εργαζόμαστε ως εξής: Αναζητούμε μία περιοχή (τετράγωνο) εμπιστοσύνης (L,U ) (L,U ) μέσα στο οποίο βρίσκεται το (β, β ) με πιθανότητα τουλάχιστον α = 95%. Πιο συγκεκριμένα, αναζητούμε δύο διαστήματα Ι =(L,U ), Ι =(L,U ) για τα οποία να ισχύει ότι P(( β, β ) I I ) a Αρκεί να πάρουμε ως Ι ένα δ.ε. για το β συντελεστού α/ και ως Ι ένα δ.ε. για το β συντελεστού α/. Αρκεί διότι C C P(( β, β ) I I ) = P( β I, β I ) = P( A A ) = P( A A ) C C P( A ) P( A ) = P( β I ) P( β I ) = a / a / = a Ένα δ.ε. για το β συντελεστού α/ = 97.5% είναι: βˆ ± s( βˆ ) t (0.05/ ) =.90 ± 0.8 (0.05) = (.4,.466) βˆ n t7 ± s( βˆ ) t (0.05/ ) = 4.65 ± 0. (0.05) = (.6, 4.77) n t7 ( t7(0.05) = IDF.T(0.9875,7)=.7). Άρα η περιοχή εμπιστοσύνης 95% για το (β, β ) θα είναι η (.4,.466) (.6, 4.77). iv) Για τον έλεγχο Η 0 :β =0 με H :β 0, το πακέτο δίνει -value 0.000 (T * = 8,00) άρα σε ε.σ. % α- πορρίπτουμε ότι β =0. Επίσης, για τον έλεγχο Η 0 :β =0 με H :β 0, το πακέτο δίνει και πάλι -value 0.000 (T * = 7,87) άρα σε ε.σ. % απορρίπτουμε και ότι β =0. Τέλος, για τον έλεγχο της υπόθεσης Η 0 :β =β =0 με H :β 0 ή β 0 θα χρησιμοποιήσουμε το F-test του πίνακα ANOVA. Επειδή -value= 0.000 (F * = 9,) απορρίπτουμε την Η 0 σε ε.σ. %. 6

v) Για να βρούμε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ στο SPSS όταν Χ =50, Χ =60, προσθέτουμε στην η γραμμή των δεδομένων και στις στήλες των Χ, Χ τους αριθμούς 50 και 60 (η η γραμμή στην στήλη του Υ αφήνεται κενή). Στη συνέχεια εκτελούμε τη διαδικασία της παλινδρόμησης /Analyze/Regression/Linear επιλέγοντας στο save τα Unstandardized redicted values, Prediction Intervals. Στην η γραμμή λαμβάνονται τα αποτελέσματα: Αναμενόμενο Υ: 49,8760 Δ.ε. 95% για την μέση πρόβλεψη: (4,95, 65,54) Δ.ε. 95% για την μέση πρόβλεψη: (70,795, 48,9584) vi) Για να κάνουμε τον έλεγχο Η 0 : β =β με Η 0 : β β και να βρούμε δ.ε. 95% για το β β αρκεί να δημιουργήσουμε ένα νέο μοντέλο το οποίο θα περιέχει ως συντελεστή το γ = β β. Συγκεκριμένα, παίρνουμε τον μετασχηματισμό: από όπου προκύπτει το μοντέλο β 0 β 0, β β, β β γ = β 0 + β Χ + (β γ)χ + ε = β 0 + β (Χ + Χ ) + γ( Χ ) + ε Δημιουργούμε (Transform/comute) δύο νέες μεταβλητές Χ := Χ + Χ, Χ 4 := Χ. Στη συνέχεια ε- κτελούμε τη διαδικασία /Analyze/Regression/Linear με Deendent:, Indeendent:, 4 λαμβάνοντας τον πίνακα 4 a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B t Sig. Lower Bound Uer Bound B Std. Error Beta 4,88 9,69,49,805-4,94 44,570,90,8,897 8,00,000,45,90 -,6,59 -,076 -,68,50 -,446,75 από όπου δεν μπορούμε να απορρίψουμε σε ε.σ. 5% ή 0% ότι Η 0 : γ = 0 ή ισοδύναμα ότι Η 0 : β = β διότι το αντίστοιχο -value του ελέγχου είναι 0.50 (T * = 0.68). Το δ.ε. για το γ = β β είναι ίσο με (.446, 0.75). vii) Εκτελώντας τη διαδικασία /Analyze/Regression/Linear με Deendent:, Indeendent:, επιλέγουμε στο save τα leverage values και τα studentized residuals. Στον πίνακα των δεδομένων λαμβάνουμε τις στήλες: i studentized leverage residuals 0,88685 0,0455-0,46 0,05 -,4976 0,0779 4,6070 0,659 5 0,868 0,06456 6,46 0,0959 7-0,094 0,07984 8,0500 0,09067 9,0777 0,067 0 0,09 0,059,799 0,047-0,9666 0,06 -,7440 0,0886 4 -,6770 0,005 5 0,84 0,0850 6 0,89845 0,0066 7

7 0,560 0,0449 8 0,6 0,095 9 0,07 0,7 0-0,96685 0,06-0,664 0,08479 0,4445 0,08760-0,747 0,78 4 0,498 0,5 5 -,059 0,0587 6-0,6699 0,0766 7 -,087 0,0598 8 -,66875 0,0575 9 0,066 0,07890 0 0,60067 0,058 Παρατηρούμε ότι όλα τα leverages είναι μικρότερα του /n = 0. οπότε δεν υπάρχει κάποια παρατήρηση που να έχει μεγάλη επιρροή στο μοντέλο (αν υπάρχει κάποια τέτοια παρατήρηση, εκτελούμε παλινδρόμηση χωρίς αυτήν για να δούμε αν αλλάζουν σημαντικά οι εκτιμώμενες τιμές των παραμέτρων). Επίσης παρατηρούμε ότι η 8 η παρατήρηση παρουσιάζει μεγάλο studentized residual οπότε μπορεί να θεωρηθεί ως έκτροπη παρατήρηση. Όσον αφορά τις έκτροπες παρατηρήσεις ή τις παρατηρήσεις με μεγάλη επιρροή, βεβαιωνόμαστε ότι έχουν καταγραφεί και περαστεί σωστά στα δεδομένα. Αν δεν είμαστε απολύτως βέβαιοι για κάτι τέτοιο, μία συντηρητική απόφαση θα ήταν να εξαιρεθούν από το μοντέλο.,00 Normal P-P Plot of Studentized Residual,75,50 Exected Cum Prob,5 0,00 0,00,5,50,75,00 (unusual residual) Observed Cum Prob Για τον έλεγχο κανονικότητας των παρατηρήσεων πραγματοποιούμε ένα τεστ Kolmogorov - Smirnov για τα κατάλοιπα (Analyse/non-arametric tests/k-s test) από όπου λαμβάνουμε τον πίνακα: One-Samle Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asym. Sig. (-tailed) a. Test distribution is Normal. b. Calculated from data. Mean Std. Deviation Absolute Positive Negative Studentized Residual 0 5,754E-0,0950,090,070 -,090,494,968 8

To -value είναι πολύ υψηλό (0.968) οπότε μπορούμε να δεχτούμε ότι τα κατάλοιπα προέρχονται από κανονική κατανομή (για να θεωρηθεί αξιόπιστο το τεστ υποθέτουμε ότι η συσχέτιση μεταξύ των καταλοίπων είναι αμελητέα). viii) Ένας τρόπος να εξετάσουμε αν το μοντέλο = β0 + β + β + β + ε βελτιώνει ουσιαστικά το προηγούμενο είναι να κάνουμε τον έλεγχο β = 0 (επίσης, θα μπορούσαμε να δούμε αν προκύπτει σημαντική αύξηση του R ή του R (adj) κ.τ.λ.). Από την εφαρμογή του μοντέλου αυτού λαμβάνουμε: a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. -4,0,954 -,75,459,40,50,499 4,790,000 4,688,57,994 9,070,000-9,E-0,008 -,6 -,,68 (Χ = Χ *Χ ) απ όπου συμπεραίνουμε ότι η συνεισφορά δεν είναι σημαντική (-value = 0.68 > 0.05).. Για να εξετάσουμε ποιο από τα παρακάτω τρία μοντέλα = β + β +, = β + β +, β + β + β + ε 0 ε 0 ε = 0 είναι το καλύτερο, με βάση το R, το R SSE (adj), και το C = ( n ) μπορούμε να εκτελέσουμε MSE την διαδικασία της παλινδρόμησης φορές, μία για κάθε μοντέλο. Εναλλακτικά μπορούμε να δούμε και τα τρία μοντέλα μαζί αν εργαστούμε ως εξής: ) Ανοίγουμε την διαδικασία Analyze/regression/linear θέτοντας Deendent: και indeendent με Method: Enter (Block : = β0 + β + ε ) ) Στη συνέχεια, επιλέγουμε Next για να πάμε στο Block όπου και θέτουμε Deendent: και indeendent με Method: Enter (προστίθεται και η Χ στο μοντέλο του Block οπότε προκύπτει το = β0 + β + β + ε στο Block ) ) Τέλος, επιλέγουμε και πάλι Next για να πάμε στο Block όπου και θέτουμε Deendent: και indeendent με Method: Remove (αφαιρείται η Χ από το μοντέλο του Block οπότε προκύπτει το = β0 + β + ε στο Block ). Πατώντας ΟΚ λαμβάνουμε τα αποτελέσματα: Variables Entered/Removed c Summary Variables Variables Entered Removed Method a, Enter a, Enter, a b Remove a. All requested variables entered. b. All requested variables removed. c. Deendent Variable: Adjusted Std. Error of R R Square R Square the Estimate,9 a,54,4,895,966 b,94,99 7,7795,88 c,778,770 68,4 a. Predictors:, b. Predictors:,, c. Predictors:, 9

Regression Residual Total Regression Residual Total Regression Residual Total a. Predictors:, b. Predictors:,, c. Predictors:, d. Deendent Variable: ANOVA d Sum of Squares df Mean Square F Sig. 9008,59 9008,59 5,08,0 a 494499,0 8 7660,679 584707,4 9 54670,5 7085,4 9,,000 b 856,88 7 47,9 584707,4 9 454768,7 454768,67 97,996,000 c 998,7 8 4640,668 584707,4 9 a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 0,50 54,806,84,00,890,86,9,60,0 4,88 9,69,49,805,90,8,95 8,00,000 4,65,,88 7,87,000 6,895 4,8 4,845,000 4,60,40,88 9,899,000 Άρα για τα τρία μοντέλα παίρνουμε τον παρακάτω πίνακα: R R (adj) SSE SSE C = ( n ) MSE 0.54 0.4 494499.008 46 6 = 0.4 0.94 0.99 856.88 7.0 4 = 0.778 0.770 998.696 9.0 9 = 6 (MSE (πλήρους μοντέλου) = 47.9) Οπότε, με βάση και τα τρία κριτήρια, το καλύτερο μοντέλο είναι το πλήρες μοντέλο Υ, Χ, Χ (μοντέλο ). Υπενθυμίζεται ότι σύμφωνα με το R, καλύτερο θεωρείται το μοντέλο στο οποίο δεν αυξάνεται σημαντικά το R με την πρόσθεση νέων ανεξάρτητων μεταβλητών (μοντέλο που «σταθεροποιεί» το R ). Σύμφωνα με το R (adj) καλύτερο είναι το μοντέλο με το μεγαλύτερο R (adj) (ισοδύναμα μπορούμε να δούμε ποιο μοντέλο έχει το μικρότερο MSE διότι R (adj) = (n )MSE /SST). Tέλος, σύμφωνα με τον δείκτη C του Mallows s καλύτερο είναι το μοντέλο με το μικρότερο C που βρίσκεται κοντά στο (C ). Παρατηρούμε στους παραπάνω πίνακες ότι τα εκτιμημένα β,β δεν αλλάζουν σημαντικά στα τρία μοντέλα: ˆβ Υ = β 0 + β Χ + ε,890 Υ = β 0 + β Χ + β Χ + ε,90 4,65 Υ = β 0 + β Χ + ε 4,60 0

Αυτό συμβαίνει όταν οι ανεξάρτητες (ή ερμηνευτικές) μεταβλητές Χ,Χ είναι σχεδόν ασυσχέτιστες (δειγματικός συντελεστής συσχέτισης κοντά στο 0). Πράγματι, σε παραπάνω πίνακα είχαμε δει ότι το Pearson Correlation μεταξύ του Χ και του Χ είναι 0.00. Αν οι ανεξάρτητες μεταβλητές έχουν ι- σχυρή συσχέτιση (π.χ. Pearson Correlation κοντά στο ή στο -) τότε παρουσιάζεται το φαινόμενο της πολυσυγγραμμικότητας (multicollinearity). Αυτό το φαινόμενο παρουσιάζεται στα δεδομένα του πίνακα B. Συγκεκριμένα παίρνοντας τα παραπάνω μοντέλα αυτή τη φορά με τα δεδομένα του πίνακα B λαμβάνουμε: Correlations Pearson Correlation Sig. (-tailed) N,000,84,878,84,000,94,878,94,000,,000,000,000,,000,000,000, 0 0 0 0 0 0 0 0 0 (παρατηρούμε υψηλή θετική συσχέτιση 0.94 μεταξύ του Χ και του Χ ) Variables Entered/Removed c Variables Variables Entered Removed Method a, Enter a, Enter, a b Remove a. All requested variables entered. b. All requested variables removed. c. Deendent Variable: Summary Adjusted Std. Error of R R Square R Square the Estimate,84 a,7,695,898,88 b,778,75,54,878 c,77,758,50 a. Predictors:, b. Predictors:,, c. Predictors:, a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. -,496,9 -,45,658,857,9,84 6,656,000-9,74 8,6 -,9,05,,0,9,7,474,659,9,676,65,07 -,64 5,657-4,78,00,857,0,878 7,786,000 Παρατηρούμε στους παραπάνω πίνακες ότι τα εκτιμημένα β,β αλλάζουν σημαντικά στα τρία μοντέλα: ˆβ Υ = β 0 + β Χ + ε 0,857 Υ = β 0 + β Χ + β Χ + ε 0, 0,659 Υ = β 0 + β Χ + ε 0.857 Μάλιστα παρατηρούμε ότι ενώ στο πρώτο μοντέλο Υ = β 0 + β Χ + ε η Χ είναι σημαντική, όταν στο μοντέλο προστίθεται η Χ (Υ = β 0 + β Χ + β Χ + ε) η Χ γίνεται μη-σημαντική ενώ τη θέση της παίρ-

νει η Χ. Μάλιστα, καλύτερο μοντέλο σύμφωνα με το R (adj) φαίνεται να είναι το Υ = β 0 + β Χ + ε. Εδώ μπορούμε π.χ. να δώσουμε την εξής ερμηνεία: Η Χ είναι πράγματι αυτή που επηρεάζει την Υ αλλά όταν εφαρμόζουμε το μοντέλο Υ = β 0 + β Χ + ε, η Χ φαίνεται σημαντική διότι είναι πολύ «κοντά» στην Χ (το t-test για το β στο μοντέλο στην ουσία ελέγχει αν η είσοδος του Χ στο μοντέλο Υ = β 0 + ε είναι σημαντική). Αν όμως υπάρχει και η Χ στο μοντέλο τότε το αντίστοιχο t-test για το β στο μοντέλο ελέγχει αν η είσοδος της Χ στο μοντέλο Υ = β 0 + β Χ + ε είναι σημαντική. Είναι φυσικό να μην φαίνεται τώρα σημαντική η Χ διότι δεν συνεισφέρει τίποτε νέο στο μοντέλο αφού υπάρχει ήδη η Χ η οποία ερμηνεύει ικανοποιητικά τη μεταβλητότητα του Υ. Στις περιπτώσεις όπου παρουσιάζεται υψηλή πολυσυγγραμμικότητα (μπορεί να εντοπισθεί και μέσω του δείκτη VIF (variance inflation factor) π.χ. όταν VIF > 0: o δείκτης VIF i που δίνεται στο πα- i ) i κέτο είναι ίσος με ( R όπου R είναι ο συντελεστής προσδιορισμού όταν κάνουμε παλινδρόμηση της Χ i (ως deendent) με τις υπόλοιπες Χ (ως indeendent)), εντοπίζουμε τις ομάδες των ερμηνευτικών μεταβλητών με υψηλή συσχέτιση και συνήθως παραμένει μόνο μία μεταβλητή από κάθε ομάδα. Σε αρκετές περιπτώσεις αυτό δεν είναι εύκολο οπότε είναι ανάγκη να χρησιμοποιήσουμε άλλες μεθόδους (π.χ. rincial comonents regression ή ridge regression). Σημειώνεται ότι η ύπαρξη πολυσυγγραμμικότητας μπορεί να οδηγήσει και σε μία σχεδόν μηδενική ορίζουσα του Χ Χ, με αποτέλεσμα να υπάρχει κίνδυνος εμφάνισης σοβαρών σφαλμάτων στρογγύλευσης στην διαδικασία υπολογισμού των εκτιμήσεων των β i. Για το λόγο αυτό προτείνεται η κανονικοποίηση των Υ,Χ,Χ πριν την εφαρμογή της παλινδρόμησης στο πακέτο ώστε να παίρνουν τιμές στο (,) με σκοπό να μειωθούν τα σφάλματα στρογγύλευσης (συνήθως η κανονικοποίηση αυτή γίνεται αυτόματα από το πακέτο).