Άσκηση Μία αντιπροσωπεία πωλήσεως αυτοκινήτων διαθέτει καταστήματα σε 5 διαφορετικές πόλεις. Ο επόμενος πίνακας δίνει τις πωλήσεις Υ i του τελευταίου μήνα καθώς επίσης και τον πληθυσμό Χ i και το οικογενειακό μέσο ετήσιο εισόδημα Χ i (σε άδες δραχμές των κατοίκων κάθε πόλης. i Πωλήσεις (Υ i Πληθυσμός (Χ i Εισόδημα (Χ i 6 74 45 8 354 3 3 375 38 4 3 5 838 5 67 86 347 6 69 65 378 7 8 98 38 8 9 33 45 9 6 95 37 55 53 56 5 43 4 3 37 447 3 44 36 66 4 3 57 88 5 37 65 Να γίνει το διάγραμμα διασποράς (scatterplt μεταξύ των Χ, Υ και Χ, Υ.. Να βρεθεί το καλύτερο γραμμικό μοντέλο (με βάση την αρχή ελαχίστων τετραγώνων για την πρόβλεψη των πωλήσεων. α. Με τη χρήση του πληθυσμού Χ, δηλ. Υ β + β Χ + ε β. Με τη χρήση του εισοδήματος Χ, δηλ. Υ β + β Χ + ε Ποια από τις δύο προβλέπουσες μεταβλητές (Χ ή Χ είναι καλύτερη; Μετονομάστε την σε Χ.. Να κάνετε μελέτη του μοντέλου Υ β + β Χ + ε. Συγκεκριμένα: α. Κάνετε τους ελέγχους σε ε.σ. α5% και α%: Η : β, Η : β, και Η : β, Η : β > Η : β, Η : β, και Η : β, Η : β > Η : β.5, Η : β.5, και Η : β.5, Η : β >.5 β. Δώστε δ.ε. με σ.ε. 95% και 99% για τα β, β. γ. Κάνετε το διάγραμμα διασποράς των δεδομένων (Χ,Υ μαζί με την προσαρμοσμένη ευθεία και τις ζώνες εμπιστοσύνης (για ατομική και μέση πρόβλεψη με σ.ε. 95% και 99%. δ. Πόσες πωλήσεις αναμένονται σε μία πόλη 5. χιλιάδων κατοίκων; (να γίνει σημειακή εκτίμηση και να δοθεί το δ.ε. με σ.ε. 95% και 99%. Να δοθεί επίσης το δ.ε. συντελεστού 95% για την ατομική πρόβλεψη. Ποιος είναι περίπου ο πληθυσμός μιας πόλης όπου τον τελευταίο μήνα πουλήθηκαν μονάδες; ε. Σε ποίο σημείο Χ βρίσκουμε το μικρότερο δ.ε. για την μέση πρόβλεψη και γιατί; ποιο είναι εδώ αυτό το δ.ε.; στ. Να κατασκευάσετε τον πίνακα ανάλυσης διασποράς (ΑNOVA και να κάνετε τον έλεγχο του μοντέλου μέσω του F-τεστ.
Απαντήσεις Αρχικά εισάγουμε τα δεδομένα στο SPSS και μετονομάζουμε τις στήλες σε Υ, Χ, Χ. Το διδιάστατο διάγραμμα διασποράς μπορεί να γίνει χρησιμοποιώντας: /Graphs/Scatter (simple, Define...Y, X ή Υ, Χ (use Labels,,..., apply changes t graph.. ή /Graphs/Interactive/Scatterplt (D, Define Y, X ή Υ, Χ, interact: Insert element(regressin Fit,Spikes, Chart manager (Regressin, Edit Predictin intervals Ανάλογα, το τριδιάστατο διάγραμμα διασποράς μπορεί να γίνει χρησιμοποιώντας: /Graphs/Scatter (3D, Define... Y, X, X, apply changes t graph.. ή /Graphs/Interactive/Scatterplt (3D, Define Y, X, Χ, περιστροφή. Ενεργοποιούμε τη διαδικασία /Analyze/Regressin/Linear, enter variables (Y,X, statistics (Estimates, cnf. Intervals, Mdel Fit ptins (Include cnstant α. Το μοντέλο Υ β + β Χ + ε Regressin Mdel Mdel Summary Adjusted Std. Errr f R R Square R Square the Estimate,995 a,99,99 6, a. Predictrs: (Cnstant, X Ο παραπάνω πίνακας περιέχει τις ποσότητες: R R Adj. R Std. Errr f Est. /( n R SST R SST R SST /( n s n β. Το μοντέλο Υ β + β Χ + ε Mdel Summary Mdel R R Square Adjusted R Square Std. Errr f the Estimate,639,49,363 49,5 a Predictrs: (Cnstant, X Επομένως, η Χ δίνει το μεγαλύτερο R και την μετονομάζουμε σε Χ.. α. Εκτελούμε παλινδρόμηση με τα Χ, Υ: Mdel Mdel Summary Adjusted Std. Errr f R R Square R Square the Estimate,995 a,99,99 6, a. Predictrs: (Cnstant, X
Mdel (Cnstant X a. Dependent Variable: Y Unstandardized Cefficients Cefficients a Standardi zed Cefficien ts 95% Cnfidence Interval fr B B Std. Errr Beta t Sig. Lwer Bund Upper Bund,79 3,77 6,5, 4,74 3,844,59,4,995 37,844,,499,559 Ο παραπάνω πίνακας περιέχει τις ποσότητες: B Std.Errr t Sig (p-value LB, UB β Y β βx X s β P ( T > T T ~ t ( β s + n ± s ( β tn ( a / T s( β S β S XY s ( s S β T s( P ( T > T T ~ tn ± s ( β tn ( a / Επειδή το p-value (Sig., απορρίπτουμε την Η : β έναντι της Η : β σε ε.σ..5 και.. Γενικά, για τον έλεγχο της Η : β ή β έναντι της Η : β > χρειαζόμαστε το αντίστοιχο p- value. Η περιοχή απόρριψης είναι της μορφής T > c οπότε το p-value θα είναι p value P T > T T ~ t ( n αν το Τ είναι θετικό, τότε (λόγω της συμμετρικότητας της κατανομής t p value P( T > T T ~ tn P( T > T T ~ tn Sig αν το Τ είναι αρνητικό, τότε p value P( T > T T ~ tn P( T > T T ~ tn Sig Αν είχαμε τον έλεγχο Η : β ή β έναντι της Η : β < τότε η περιοχή απόρριψης είναι της μορφής T < c οπότε αν το Τ είναι θετικό, p value P( T < T T ~ tn P( T > T T ~ tn Sig ενώ αν το Τ είναι αρνητικό, τότε p value P( T < T T ~ tn P( T > T T ~ tn Sig Για τον συγκεκριμένο τώρα έλεγχο της Η : β έναντι της Η : β > χρειαζόμαστε το p value P( T > 37.84 T ~ tn P( T > 37.84 T ~ tn Sig.. Άρα και σε αυτή την περίπτωση, απορρίπτουμε την Η : β έναντι της Η : β > σε ε.σ..5 και.. Αν είχαμε τον έλεγχο Η : β έναντι της Η : β < τότε p value P( T < 37.84 T ~ tn P( T > 37.84 T ~ tn. και άρα δεχόμαστε ότι β (ή ισοδύναμα β έναντι της β <. Ο έλεγχος Η : β.5, Η : β.5 (και Η : β.5, Η : β >.5 δεν γίνεται αυτόματα από το πακέτο. Για το λόγο αυτό θα πρέπει να μετασχηματίσουμε τα δεδομένα ώστε να καταλήξουμε σε έλεγχο της μορφής β. Συγκεκριμένα λαμβάνοντας β β. 5 προκύπτει το μοντέλο
β + β X + ε Y β + ( β +.5 X + ε Y. X β + β X + ε Y 5 Cefficients Unstandardized Cefficients Standardized Cefficients t Sig. Mdel B Std. Errr Beta (Cnstant,79 3,77 6,5, X,87E-,4,495,55,6 a Dependent Variable: Y και επειδή p-value.6 >.5 δεν μπορούμε να απορρίψουμε την Η σε ε.σ..5. Για τον μονόπλευρο έλεγχο διατηρώντας το ίδιο ε.σ. παίρνουμε το μισό p-value (Η : β >.5 ή το μείον το μισό p-value (Η : β <.5. β. Τα δ.ε. 95% για τα β, β δίνονται απευθείας στον παραπάνω πίνακα. Για να κατασκευάσουμε δ.ε. 99%, θα πρέπει να χρησιμοποιήσουμε τον παρακάτω τύπο: β tn (./,587498374±,39766677 t 3 (.5 Χρησιμοποιούμε την επιλογή /Transfrm/cmpute στον SPSS data editr πληκτρολογώντας σε μία νέα μεταβλητή για το άνω όριο, και.587498374+.39766677idf.t(.995,3.587498374.39766677idf.t(.995,3 για το κάτω όριο. Συγκεκριμένα παίρνουμε το (.4866,.578. γ. Το διάγραμμα διασποράς μπορεί να γίνει με δύο τρόπους:. /Analyze/Regressin/Curve estimatin (define variables, include cnstant, linear mdel Στη συνέχεια επεξεργαζόμαστε το σχήμα που κατασκευάστηκε: Στον SPSS Chart Editr /Gallery/scatter/simple, Replace: Y: Observed, X: X /Chart/ptins/Fit line Ttal, Fit ptins Linear Regressin, Regressin Predictin lines (95% και 99% 3 Y Observed 3 4 5 X Οι ζώνες εμπιστοσύνης είναι: η μία για την μέση πρόβλεψη στο Χ ο, E( Y β + βx,
y ( X X Y Y tn ( a / β + βx ± s + tn ( a / και η άλλη για την ατομική πρόβλεψη στο Χ ο, β + β + ε Y X ( X X Y Y tn ( a / β + βx ± s + + tn ( a / Οι τιμές των άκρων των διαστημάτων αυτών μπορούν να εξαχθούν στον SPSS data editr χρησιμοποιώντας την επιλογή Save στο μενού /Analyze/Regressin/linear. - Εναλλακτικά, θα μπορούσαμε να κατασκευάσουμε το γράφημα χρησιμοποιώντας: /Graphs/Interactive/Scatterplt (D, Define Y, X ή Υ, Χ, interact: Insert element(regressin Fit,Spikes, Chart manager (Regressin, Edit Predictin intervals 5 y.79 +.53 x R-Square.99 Linear Regressin with 99.% Mean Predictin Interval and 99.% Individual Predictin Interval 5 5 3 4 x Με δεξί click στο περιθώριο του (ανοιχτού σχήματος μπορούμε να κάνουμε διάφορες αλλαγές (π.χ. ChartLks... δ. Οι πωλήσεις που αναμένονται σε μία πόλη με 5 χιλ. κατοίκους θα είναι (εκτίμηση του Ε(Υ όταν Χ 5 Y β + βx όπου Χ 5, ενώ το αντίστοιχο δ.ε. θα είναι (για μέση πρόβλεψη ( X X Y Y tn ( a / β + βx ± s + tn ( a / Για να βρούμε τα παραπάνω στο SPSS, εισάγουμε μία 6 η παρατήρηση στον SPSS data editr πληκτρολογώντας στην 6 γραμμή της στήλης Χ το 5 (οι υπόλοιπες θέσεις στην 6 η γραμμή αφήνονται κενές. Στη συνέχεια εκτελούμε τη διαδικασία της παλινδρόμησης /Analyze/Regressin/Linear επιλέγοντας στο save τα Unstandardized predicted values ( Y β + βx, Predictin Intervals. Στην 6 η στήλη λαμβάνονται τα αποτελέσματα: Αναμενόμενες πωλήσεις: 54.977 Δ.ε. 95% για την μέση πρόβλεψη: (5.5549, 58.3865 Δ.ε. 95% για την μέση πρόβλεψη: (4.348, 68,5996 Αν σε μία πόλη πουλήθηκαν μονάδες, ο πληθυσμός της εκτιμάται από το
Y,79 X,587 ε. Εφόσον το δ.ε. για τη μέση πρόβλεψη έχει τη μορφή 83.85 ( X X Y Y tn ( a / β + βx ± s + tn ( a /, προφανώς θα έχει το μικρότερο εύρος όταν X X 4,733 (από Descriptive Statistics. Για να βρούμε το δ.ε. σε αυτή την περίπτωση ακολουθούμε τα παραπάνω βήματα (για το δ.ε. όταν Χ 5 αυτή τη φορά προσθέτοντας στην στήλη Χ την παρατήρηση 4,733. Στ. Ο πίνακας ANOVA δίνεται απευθείας κατά την επιλογή Regressin από το SPSS: Mdel Regressin Residual Ttal a. Predictrs: (Cnstant, X b. Dependent Variable: Y ANOVA b Sum f Squares df Meaquare F Sig. 5346,79 5346,79 43,39, a 484,88 3 37,99 539,6 4 Ο παραπάνω πίνακας περιέχει τις ποσότητες: Mdel SS Df MS F Sig. Regressin SSR n i ( Y i Y MSR SSR MSR F MSE P( F > F F ~ F, n Residuals n i ( Y i Y i MSE n n Ttal SST n i ( Y i Y n Ο έλεγχος του μοντέλου μέσω του F-test μας οδηγεί στην απόρριψη της H : β διότι το αντίστοιχο p-value είναι ίσο με,.