ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση



Σχετικά έγγραφα
Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Απλή Ευθύγραµµη Συµµεταβολή

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Λυμένες Ασκήσεις για το μάθημα:

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Lampiran 1 Output SPSS MODEL I

Η βιτρίνα των καταστημάτων ως εργαλείο δημοσίων σχέσεων. Ονοματεπώνυμο: Ειρήνη Πορτάλιου Σειρά: 8 η Επιβλέπουσα: Αν. Καθηγήτρια : Βεντούρα Ζωή

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 6. Συσχέτιση

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Μοντέλα Πολλαπλής Παλινδρόμησης

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

LAMPIRAN. Lampiran I Daftar sampel Perusahaan No. Kode Nama Perusahaan. 1. AGRO PT Bank Rakyat Indonesia AgroniagaTbk.

ΠΡΟΒΛΗΜΑ ΑΥΤΟΣΥΣΧΕΤΙΣΤΩΝ ΣΦΑΛΜΑΤΩΝ

Άσκηση 1. Πληθυσμός (Χ i1 )

Άσκηση 2. i β. 1 ου έτους (Υ i )

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Περιγραφή των εργαλείων ρουτινών του στατιστικού

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

ΕΙ Η ΠΑΛΙΝ ΡΟΜΗΣΗΣ. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ ΡΟΜΗΣΗ (Simple Linear Regression) ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ (Regression) ΠΑΛΙΝ ΡΟΜΗΣΗ.

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

519.22(07.07) 78 : ( ) /.. ; c (07.07) , , 2008

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

ΔPersediaan = Persediaan t+1 - Persediaan t

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. ΜΑΘΗΜΑ 12 Συµπερασµατολογία για την επίδραση πολλών µεταβλητών σε µια ποσοτική (Πολλαπλή Παλινδρόµηση) [µέρος 2ο]

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

Εισαγωγή στη Βιοστατιστική

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

Εισαγωγή στη Βιοστατιστική

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Ύλη 1 ης Εβδομάδας. Σχέσεις Μεταβλητών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ. Σχέση μεταξύ Μεταβλητών Παραδείγματα. 2 η Διάλεξη

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

NI it (dalam jutaan rupiah)

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

1991 US Social Survey.sav

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΠΑΝΕΠΙΣΤΗΜΙΟ+ΠΑΤΡΩΝ+ Τμήμα+Διοίκησης+Επιχειρήσεων+

Περιεχόμενα. Πρόλογος... v

Εισαγωγή στην Ανάλυση Διακύμανσης

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ SPSS

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 : Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

Στατιστική Επιχειρήσεων Ι

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

ΕΡΓΑΙΑ Εθηίκεζε αμίαο κεηαπώιεζεο ζπηηηώλ κε αλάιπζε δεδνκέλωλ. Παιεάο Δπζηξάηηνο

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Transcript:

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 7. Παλινδρόµηση

Γενικά Επέκταση της έννοιας της συσχέτισης: Πώς µπορούµε να προβλέπουµε τη µια µεταβλητή από την άλλη; Απλή παλινδρόµηση (simple regression): Κατασκευή µοντέλου πρόβλεψης της µιας µεταβλητής από την άλλη Πολλαπλή παλινδρόµηση (multiple regression): Κατασκευή µοντέλου πρόβλεψης της µιας µεταβλητής από πολλές άλλες ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2

Εισαγωγή στην παλινδρόµηση Κατασκευή µοντέλου πρόβλεψης εξαρτηµένης µεταβλητής (dependent variable) από ανεξάρτητες µεταβλητές (independent variables) Απλούστερο µοντέλο: Προσαρµογή ευθείας (γραµµικό µοντέλο) στα δεδοµένα Υπολογισµός της ευθείας µε µέθοδο ελαχίστων τετραγώνων (least squares) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 3

Το απλό γραµµικό µοντέλο Y = ( b + b X i i ) 0 1 + ε i Εξαρτηµένη µεταβλητή Σηµείο τοµής µε τον κατακόρυφο άξονα (intercept) Κλίση της ευθείας (slope) Ανεξάρτητη µεταβλητή Υπόλοιπο (residual) b 0, b 1 : Συντελεστές παλινδρόµησης (regression coefficients) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 4

Η µέθοδος των ελαχίστων τετραγώνων Επιλογή της ευθείας (εύρεση των συντελεστών b0, b1) ώστε να ελαχιστοποιείται η ποσότητα i ε 2 i = i ( Y b b X ) 2 Υπολογίζεται µε µαθηµατικό τρόπο (ακρότατα συνάρτησης) i 0 1 i ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 5

SS Αξιολόγηση της προσαρµογής (goodness of fit) Πόσο καλά προσαρµόζεται η ευθεία στα δεδοµένα; R SS = T i = ( Y Y i i 2 ) ( Y b b X ) 2 i 0 1 i Συνολικό άθροισµα τετραγώνων (Total Sum of Squares) Άθροισµα τετραγώνων υπολοίπων (Residual Sum of Squares) SS M = SS T SS R Άθροισµα τετραγώνων µοντέλου (Model Sum of Squares) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 6

Ερµηνεία των αθροισµάτων τετραγώνων SS T : Η απόκλιση των δεδοµένων από το «χειρότερο µοντέλο» (µέση τιµή) SS R : Η απόκλιση των δεδοµένων από το «καλύτερο µοντέλο» (ευθεία) SS M : Η διαφορά ανάµεσα στο «χειρότερο» και στο «καλύτερο µοντέλο» Μεγάλο SS M : σηµαντική η συνεισφορά του µοντέλου στην πρόβλεψη της Y Μικρό SS M : το µοντέλο ελάχιστα βελτιώνει την «χειρότερη πρόβλεψη» της µέσης τιµής ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 7

Μέτρο αξιολόγησης του µοντέλου: R 2 Η ποιότητα της προσαρµογής του µοντέλου µπορεί να µετρηθεί ως ποσοστό «βελτίωσης της πρόβλεψης» που οφείλεται στο µοντέλο R 2 SSM SST SS = = R = 1 SS SS T Ερµηνεία: το ποσοστό της µεταβλητότητας της εξαρτηµένης µεταβλητής που εξηγείται από το µοντέλο Συµπίπτει µε το τετράγωνο του συντελεστή Pearson T SS SS R T ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 8

Μέτρο αξιολόγησης του µοντέλου: F-test SS MS M M = = degrees_of_freedom SSM # variables Μέσα αθροίσµατα τετραγώνων (Mean Sum of Squares) MS R = SSR degrees_of_freedom = SSR n # regr. coefficients F = MS MS M R Ερµηνεία: Για ένα καλό µοντέλο το MS M θα είναι µεγάλο και το MS R µικρό άρα «συνολικά» το F θα είναι µεγάλο (sig. < 0.05) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 9

Σηµαντικότητα των συντελεστών Ερµηνεία του b 1 : η αλλαγή που επέρχεται στην εξαρτηµένη µεταβλητή αν η ανεξάρτητη αλλάξει κατά µια µονάδα Σε κακό µοντέλο: b 1 0 Για να ελέγξουµε αν η τιµή του b 1 είναι σηµαντικά διαφορετική του 0 χρησιµοποιούµε t-test (Sig.<0.05) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 10

Απλή παλινδρόµηση µε το SPSS file: Record1.sav Ανεξάρτητη µεταβλητή: adverts (ποσό διαφήµισης δίσκου) Εξαρτηµένη µεταβλητή: sales (αριθµός πωλήσεων δίσκου) N Mean Median Std. Deviation Minimum Maximum Valid Missing Statistics Advertsing Budget (thousands Record Sales of pounds) (thousands) 200 200 0 0 614,4123 193,2000 531,9160 200,0000 485,65521 80,69896 9,10 10,00 2271,86 360,00 ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 11

Εξαρτηµένη µεταβλητή Ανεξάρτητη µεταβλητή ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 12

Αποτελέσµατα παλινδρόµησης Συνολική προσαρµογή του µοντέλου Model 1 a. Model Summary Adjusted Std. Error of R R Square R Square the Estimate,578 a,335,331 65,99144 Predictors: (Constant), Advertsing Budget (thousands of pounds) Συντελεστής συσχέτισης Pearson Το µοντέλο εξηγεί το 33.5% της µεταβλητότητας των πωλήσεων ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 13

Αποτελέσµατα παλινδρόµησης Συνολική προσαρµογή του µοντέλου SS R SS M MS M Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 433687,8 1 433687,833 99,587,000 a 862264,2 198 4354,870 1295952 199 a. Predictors: (Constant), Advertsing Budget (thousands of pounds) b. Dependent Variable: Record Sales (thousands) SS T MS R Συµπέρασµα: Από το F-test (sig<0,001) συµπεραίνουµε ότι το µοντέλο συνεισφέρει σηµαντικά στην πρόβλεψη του αριθµού των πωλήσεων ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 14

Αποτελέσµατα παλινδρόµησης παράµετροι του µοντέλου Model 1 (Constant) Advertsing Budget (thousands of pounds) Coefficients a Unstandardized Coefficients a. Dependent Variable: Record Sales (thousands) Standardized Coefficients B Std. Error Beta t Sig. 134,140 7,537 17,799,000,096,010,578 9,979,000 Record Sales=134,140+0,096*Advertising Budget sig<0,001 άρα οι δύο παράµετροι είναι σηµαντικά διαφορετικές από το 0 και εποµένως η συνεισφορά του µοντέλου στην πρόβλεψη των πωλήσεων είναι σηµαντική ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 15

Ερµηνεία των παραµέτρων του µοντέλου b0=134,140: Σε περίπτωση που δεν ξοδευτούν καθόλου χρήµατα για διαφήµιση (Χ=0) το µοντέλο προβλέπει ότι θα πουληθούν 134140 δίσκοι b1=0,096: Αν το ποσό της διαφήµισης αυξηθεί κατά 1 µονάδα ( 1000) το µοντέλο προβλέπει 96 (=0,096*1000) επιπλέον πωλήσεις δίσκων (!!) Παράδειγµα πρόβλεψης: Πόσοι δίσκοι θα πωληθούν αν ξοδέψουµε 100000; Με αντικατάσταση (Χ=100) παίρνουµε Υ=143,75 (δηλ. περίπου 144000 δίσκους) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 16

Πολλαπλή παλινδρόµηση (multiple regression) Επέκταση του γραµµικού µοντέλου µε περισσότερες ανεξάρτητες µεταβλητές Y i = ( b + b X + L 0 1 i + b k X k ) + ε i Η εξίσωση της ευθείας επεκτείνεται στο επίπεδο (2 ανεξ. µεταβλητές) και στο υπερεπίπεδο (>2 ανεξ. µετ/τές) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 17

Αξιολόγηση του µοντέλου SS T, SS R, SS M υπολογίζονται µε πιο πολύπλοκο τρόπο αλλά η ερµηνεία τους είναι η ίδια Υπολογίζεται συντελεστής πολλαπλής συσχέτισης (multiple R) που δείχνει πόσο ισχυρή είναι η συσχέτιση εξαρτηµένης µε όλες τις ανεξάρτητες Το R 2 ερµηνεύεται µε ακριβώς τον ίδιο τρόπο ως ποσοστό µεταβλητότητας που εξηγείται από το µοντέλο ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 18

Μέθοδοι παλινδρόµησης Βασικό πρόβληµα: Πώς επιλέγουµε τις ανεξάρτητες µεταβλητές που θα χρησιµοποιηθούν για το µοντέλο; Οι ανεξάρτητες µεταβλητές συνήθως είναι συσχετισµένες µεταξύ τους Υπάρχουν µεθοδολογίες επιλογής των καταλληλότερων µεταβλητών ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 19

Επιλογή µεταβλητών Αναγκαστική εισαγωγή (Forced Entry Enter): όλες οι µεταβλητές ταυτόχρονα Εισαγωγή και εξαγωγή µε βήµατα (Stepwise): η σειρά καθορίζεται από µαθηµατικά κριτήρια Προς τα εµπρός εισαγωγή (Forward) Προς τα πίσω εξαγωγή (Backward) Γενικές οδηγίες: Η επιλογή µε βήµατα δίνει διαφορετικά µοντέλα, δεν αφήνει τον ερευνητή να επιλέξει. Προτιµότερο να στηριζόµαστε σε θεωρητικά βιβλιογραφικά αποτελέσµατα. ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 20

Ακρίβεια του µοντέλου Βασικά ερωτήµατα: Το µοντέλο προσαρµόζεται καλά στα δεδοµένα ή επηρεάζεται από λίγες περιπτώσεις; Μπορεί το µοντέλο να γενικευτεί και σε άλλα δείγµατα; ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 21

ιαγνωστικά προσαρµογής του µοντέλου (diagnostics) Παράτυπα σηµεία (outliers): εδοµένα (cases) που διαφέρουν σηµαντικά από τα υπόλοιπα Μπορούν να επηρεάσουν σηµαντικά τις τιµές των συντελεστών της παλινδρόµησης Μπορούν να εντοπιστούν από τα µεγάλα υπόλοιπα (residuals) που δίνουν ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 22

Υπόλοιπα Γενικά: Τα υπόλοιπα υπολογίζονται ως διαφορές ανάµεσα στις παρατηρήσεις και τις εκτιµήσεις της παλινδρόµησης µικρά υπόλοιπα καλή προσαρµογή µεγάλα υπόλοιπα κακή προσαρµογή σηµεία µε ιδιαίτεραµεγάλα υπόλοιπα παράτυπα σηµεία ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 23

Μετασχηµατισµοί υπολοίπων Για µελέτη σύγκριση υπολοίπων τα τυποποιούµε (standardized residuals) διαιρώντας µε την τυπική τους απόκλιση Τυποποιηµένα υπόλοιπα µε απόλυτη τιµή > 3 προβληµατίζουν Αν πάνω από 1% των τυπ. υπολοίπων είναι > 2.5 έχουµε ένδειξη κακής προσαρµογής Αν πάνω από 5% των τυπ. υπολοίπων είναι >2 έχουµε ένδειξη κακής προσαρµογής Studentized residuals: Τα υπόλοιπα διαιρεµένα µε εκτιµητή της τυπ. απόκλισης που µεταβάλλεται από σηµείο σε σηµείο. Θεωρούνται ακριβέστερα ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 24

εδοµένα µε σηµαντική επιρροή (Influential cases) Άλλος τρόπος ελέγχου παράτυπων σηµείων: Υπάρχουν σηµεία που έχουν αδικαιολόγητα µεγάλη επίδραση στο µοντέλο; Adjusted Predicted Value: υπολογίζεται για κάθε case αφαιρώντας την από το δείγµα και εκτιµώντας την µε το µοντέλο που προκύπτει DFFit: ιαφορά ανάµεσα στην Adj. Pred. value και στην αρχική Pred. value Standardized DFFit Deleted Residual: ιαφορά ανάµεσα στην Adj. Pred. value και στην παρατηρούµενη τιµή Studentized deleted residual ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 25

εδοµένα µε σηµαντική επιρροή (Influential cases) Cook s distance: Μέτρο συνολικής επίδρασης ενός σηµείου στο µοντέλο. εδοµένα µε τιµή >1 προβληµατίζουν Άλλα µέτρα: leverage values Mahalanobis distances DFBeta & Standardized DFBeta Covariance Ratio (CVR) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 26

Παράδειγµα (File: pubs.sav) Ανεξάρτητη µεταβλητή: Number of pubs Εξαρτηµένη µεταβλητή: Number of deaths (σε µια χρονική περίοδο) Case Summaries a Number of Pubs Deaths 1 10 1000 2 20 2000 3 30 3000 4 40 4000 5 50 5000 6 60 6000 7 70 7000 8 500 10000 Total N 8 8 a. Limited to first 100 cases. ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 27

ιαφορά residual influence statistics 1 2 3 4 5 6 7 8 Total N Case Summaries a Centered Standardized Standardized Cook's Leverage Standardized DFBETA DFBETA Standardized Residual Distance Value DFFIT Intercept DFBETA pubs Intercept DFBETA pubs -1,33839,21328,04074 -,74402-509,6518 1,39249 -,74317,36886 a. Limited to first 100 cases. -,87895,08530,03196 -,40964-321,1277,80153 -,40766,18484 -,41950,01814,02424 -,17697-147,1066,33016 -,17494,07132,03995,00015,01759,01606 13,45081 -,02658,01572 -,00564,49940,02294,01200,20042 161,44976 -,27267,19337 -,05933,95885,08092,00748,40473 297,67748 -,41116,38333 -,09618 1,41830,17107,00402,68084 422,81664 -,44422,62996 -,12023 -,27966 227,14286,86196-460379232,7 3351,955-85,66108 92676016,02-430238878,2 8 8 8 8 8 8 8 8 Πολύ µικρό υπόλοιπο Πολύ µεγάλη επίδραση στο µοντέλο ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 28

Γενίκευση του µοντέλου βασικές υποθέσεις (1/2) Τύπος µεταβλητών: Οι ανεξάρτητες είναι ποσοτικές ή δίτιµες και η εξαρτηµένη συνεχής Καµιά µεταβλητή δεν έχει διασπορά 0 Οι ανεξάρτητες δεν πρέπει να έχουν µεγάλες συσχετίσεις µεταξύ τους (multicollinearity) Τα υπόλοιπα πρέπει να έχουν σταθερή διασπορά (homoscedasticity). Προβληµατική η διαφορετική διασπορά (heteroscedasticity). ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 29

Γενίκευση του µοντέλου βασικές υποθέσεις (2/2) Ανεξάρτητα σφάλµατα (independent errors). Υποθέτουµε ότι δεν υπάρχει αυτοσυσχέτιση (autocorrelation) Σφάλµατα κανονικά κατανεµηµένα (υποθέτουµε ότι τα υπόλοιπα ακολουθούν κανονική κατανοµή µε µέση τιµή 0) Ανεξαρτησία των τιµών της εξαρτηµένης µεταβλητής Η πραγµατική σχέση είναι γραµµική ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 30

Ακρίβεια του µοντέλου για άλλα δείγµατα Cross Validation Adjusted R 2 : «ιόρθωση» του R 2 ερµηνεύεται ως το ποσοστό της µεταβλητότητας της Y που θα ερµηνευόταν από το µοντέλο του πληθυσµού Τυχαία διαµέριση των δεδοµένων σε training set και test set. Tο µοντέλο δηµιουργείται από το training και προβλέπει τα σηµεία του test ακολουθεί αξιολόγηση ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 31

Έλεγχοι για παραβίαση των υποθέσεων Multicollinearity: Εξέταση πίνακα συσχετίσεων ανεξάρτητων µεταβλητών Variance inflation factor (VIF) Tolerance Heteroscedasticity - Normality: Γραφικές παραστάσεις υπολοίπων Autocorrelation: Durbin-Watson test ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 32

Πολλαπλή παλινδρόµηση µε το SPSS file: Record2.sav Ανεξάρτητές µεταβλητές: adverts (ποσό διαφήµισης δίσκου) airplay (αριθµός ραδιοφωνικών µεταδόσεων του δίσκου από συγκεκριµένο σταθµό) attract (ελκυστικότητα του καλλιτέχνη / συγκροτήµατος 0-10 από προηγούµενη έρευνα) Εξαρτηµένη µεταβλητή: sales (αριθµός πωλήσεων δίσκου) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 33

Analyze->Regression->Linear Εξαρτηµένη µεταβλητή Ανεξάρτητες µεταβλητές Επιλογή µεθόδου εισαγωγής µεταβλητών ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 34

Statistics Προσαρµογή του µοντέλου Στατιστικά µέτρα για τους συντελεστές της παλινδρόµησης Στατιστικά µέτρα υπολοίπων ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 35

Plots-Γραφικές παραστάσεις για ανάλυση των υπολοίπων ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 36

Save regression diagnostics Υπόλοιπα, Προβλέψεις και Στατιστικά µέτρα υπολοίπων αποθηκεύονται ως νέες µεταβλητές ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 37

Κριτήρια για αλγόριθµους µε βήµατα, διαχείριση χαµένων τιµών και υπολογισµός σταθεράς ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 38

Αποτελέσµατα παλινδρόµησης Descriptive Statistics Record Sales (thousands) Advertsing Budget (thousands of pounds) No. of plays on Radio 1 per week Attractiveness of Band Mean Std. Deviation N 193,2000 80,69896 200 614,4123 485,65521 200 27,5000 12,26958 200 6,7700 1,39529 200 Περίληψη όλων των µεταβλητών ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 39

Συσχετίσεις ανάµεσα στις µεταβλητές (δεν φαίνεται multicollinearity) Correlations Pearson Correlation Sig. (1-tailed) N Record Sales (thousands) Advertsing Budget (thousands of pounds) No. of plays on Radio 1 per week Attractiveness of Band Record Sales (thousands) Advertsing Budget (thousands of pounds) No. of plays on Radio 1 per week Attractiveness of Band Record Sales (thousands) Advertsing Budget (thousands of pounds) No. of plays on Radio 1 per week Record Sales (thousands) Advertsing Budget (thousands of pounds) No. of plays on Radio 1 per week Attractiveness of Band 1,000,578,599,326,578 1,000,102,081,599,102 1,000,182,326,081,182 1,000.,000,000,000,000.,076,128,000,076.,005,000,128,005. 200 200 200 200 200 200 200 200 200 200 200 200 Attractiveness of Band ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ 200 - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 200 200ΑΠΘ 200 40

Προσαρµογή του µοντέλου Model 1 a. Model Summary b Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,815 a,665,660 47,08734 1,950 Predictors: (Constant), Attractiveness of Band, Advertsing Budget (thousands of pounds), No. of plays on Radio 1 per week b. Dependent Variable: Record Sales (thousands) Το µοντέλο εξηγεί 66.5% της συνολικής µεταβλητότητας Το adjusted R2 δεν είναι πολύ µικρότερο και δείχνει ότι το µοντέλο µπορεί να γενικευτεί στον πληθυσµό Το D-W είναι κοντά στο 2 οπότε σύµφωνα µε εµπειρικό κανόνα τα σφάλµατα είναι ανεξάρτητα (ανησυχούµε για τιµές <1 ή >3!!) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 41

Σηµαντικότητα του µοντέλου Model 1 a. Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 861377,4 3 287125,806 129,498,000 a 434574,6 196 2217,217 1295952 199 Predictors: (Constant), Attractiveness of Band, Advertsing Budget (thousands of pounds), No. of plays on Radio 1 per week b. Dependent Variable: Record Sales (thousands) Το F-test δίνει sig.<0.001 οπότε το µοντέλο είναι πολύ σηµαντικό στην εξήγηση της µεταβλητότητας ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 42

Παράµετροι του µοντέλου Model 1 (Constant) Advertsing Budget (thousands of pounds) No. of plays on Radio 1 per week Attractiveness of Band Unstandardized Coefficients a. Dependent Variable: Record Sales (thousands) Standardized Coefficients Coefficients a 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound -26,613 17,350-1,534,127-60,830 7,604 Collinearity Statistics Tolerance,085,007,511 12,261,000,071,099,986 1,015 3,367,278,512 12,123,000 2,820 3,915,959 1,043 11,086 2,438,192 4,548,000 6,279 15,894,963 1,038 VIF sales=-26.61 + 0.085*adverts +3.367*airplay + 11.086*attract ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 43

Ερµηνεία του µοντέλου (1/2) Όλοι οι συντελεστές των µεταβλητών είναι θετικοί οπότε όσο αυξάνουν οι τιµές των µεταβλητών αυξάνονται οι πωλήσεις Το µέγεθος του κάθε συντελεστή δείχνει πόσο αυξάνονται οι πωλήσεις όταν αυξηθεί κατά 1 µονάδα η αντίστοιχη µεταβλητή κρατώντας τις υπόλοιπες σταθερές ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 44

Ερµηνεία του µοντέλου (2/2) Τα t-tests για κάθε συντελεστή των µεταβλητών δίνουν sig.<0.001 και εποµένως όλες οι µεταβλητές είναι σηµαντικές Το µέγεθος του t µας δείχνει ότι η διαφήµιση και η ραδιοφωνική µετάδοση είναι εξίσου σηµαντικές ενώ η ελκυστικότητα λιγότερο σηµαντική (το ίδιο προκύπτει και από τους standardized coefficients) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 45

Multicollinearity Πρόβληµα όταν: max(vif)>10 mean(vif)>>1 Tolerance<0.1 ή 0.2 Εδώ δεν υπάρχει πρόβληµα! Υπάρχουν και άλλα στατιστικά µέτρα ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 46

Casewise diagnostics Case Number 1 2 10 47 52 55 61 68 100 164 169 200 Casewise Diagnostics a Record Sales Predicted Std. Residual (thousands) Value Residual 2,125 330,00 229,9203 100,07975-2,314 120,00 228,9490-108,949 2,114 300,00 200,4662 99,53375-2,442 40,00 154,9698-114,970 2,069 190,00 92,5973 97,40266-2,424 190,00 304,1231-114,123 2,098 300,00 201,1897 98,81030-2,345 70,00 180,4156-110,416 2,066 250,00 152,7133 97,28666-2,577 120,00 241,3240-121,324 3,061 360,00 215,8675 144,13246-2,064 110,00 207,2061-97,20606 a. Dependent Variable: Record Sales (thousands) Λογικός ο αριθµός των µεγάλων υπολοίπων (12/200) ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 47

Γραφική ανάλυση υπολοίπων ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 48

Γραφική ανάλυση υπολοίπων ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 49