ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Σχετικά έγγραφα
Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

Λυμένες Ασκήσεις για το μάθημα:

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΡΟΒΛΗΜΑ ΑΥΤΟΣΥΣΧΕΤΙΣΤΩΝ ΣΦΑΛΜΑΤΩΝ

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Ύλη 1 ης Εβδομάδας. Σχέσεις Μεταβλητών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ. Σχέση μεταξύ Μεταβλητών Παραδείγματα. 2 η Διάλεξη

Άσκηση 2. i β. 1 ου έτους (Υ i )

Απλή Ευθύγραµµη Συµµεταβολή

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Μοντέλα Πολλαπλής Παλινδρόμησης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Άσκηση 1. Πληθυσμός (Χ i1 )

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

Εισόδημα Κατανάλωση

1. Θα χρησιμοποιηθεί το αρχείο Ο γονικός έλεγχος στην εφηβική ηλικία. Στο. i. Με ποιες μεταβλητές που αφορούν σε σχέσεις εφήβων με τους γονείς τους

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Η βιτρίνα των καταστημάτων ως εργαλείο δημοσίων σχέσεων. Ονοματεπώνυμο: Ειρήνη Πορτάλιου Σειρά: 8 η Επιβλέπουσα: Αν. Καθηγήτρια : Βεντούρα Ζωή

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Lampiran 1 Output SPSS MODEL I

Στατιστική Επιχειρήσεων Ι

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Αναλυτική Στατιστική

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ SPSS

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Ενότητα 3 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

2. ΕΠΙΛΟΓΗ ΤΟΥ ΜΕΓΕΘΟΥΣ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

9. Παλινδρόμηση και Συσχέτιση

Περιεχόμενα. Πρόλογος... v

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΕΡΓΑΙΑ Εθηίκεζε αμίαο κεηαπώιεζεο ζπηηηώλ κε αλάιπζε δεδνκέλωλ. Παιεάο Δπζηξάηηνο

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Transcript:

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Περιεχόμενα Εισαγωγή Το πρόβλημα - Συντελεστής συσχέτισης Μοντέλο απλής γραμμικής παλινδρόμησης - Συντελεστής εξάρτησης Έλεγχοι υποθέσεων & Ερμηνεία Το μοντέλο Προκαταρτικοί έλεγχοι Διαγραμματική απεικόνιση (Scatter-plot) Έλεγχος κανονικότητας Δείκτες γραμμικής συσχέτισης Μοντέλο Παλινδρόμησης Δείκτες συσχέτισης Έλεγχοι υποθέσεων Ερμηνεία αποτελεσμάτων Έλεγχος Προϋποθέσεων (Ανάλυση καταλοίπων) Κανονικότητα σφαλμάτων (και Υ) Ανεξαρτησία σφαλμάτων (και Υ) Ομοσκεδαστικότητα σφαλμάτων (και Υ) Έλεγχος έκτροπων ή ασυνήθιστων τιμών Παράδειγμα - Spss Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 2

Το πρόβλημα Κύριο πρόβλημα σε αυτή την ενότητα θα αποτελέσει η διερεύνηση της σχέσης μεταξύ δυο μεταβλητών Χ, Υ. Το γενικό πρόβλημα περιγράφεται ως εξής: από έναν (θεωρητικά άπειρο) πληθυσμό λαμβάνουμε ένα δείγμα μεγέθους n και για κάθε μέρος του δείγματος καταγράφουμε τις τιμές των δύο μεταβλητών Χ, Υ. Με βάση λοιπόν τα ζεύγη τιμών (Χ 1,Υ 1 ), (X 2,Υ 2 ),, (X n,υ n ) του δείγματος επιθυμούμε να διερευνήσουμε τη σχέση μεταξύ των μεταβλητών X, Y. Επιπλέον θεωρούμε ότι Η μεταβλητή X η οποία καλείται ανεξάρτητη (independent) ή ερμηνευτική μεταβλητή (explanatory variable) δεν θεωρείται τυχαία, ενώ Η μεταβλητή Y η οποία καλείται εξαρτημένη (dependent) ή μεταβλητή απόκρισης (response variable) θεωρείται τυχαία μεταβλητή. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 3

Συντελεστής συσχέτισης Ο συντελεστής συσχέτισης που εξετάσαμε σε προηγούμενη ενότητα µας πληροφορεί για το αν και κατά πόσο δύο μεταβλητές σχετίζονται. Ωστόσο δεν µας πληροφορεί για το πως σχετίζονται. Δηλαδή, τον τρόπο µε τον οποίο μεταβάλλονται οι τιμές τις μίας, αν μεταβληθούν οι τιμές της άλλης Σε αυτή την περίπτωση, δηλαδή όταν θέλουμε να διερευνήσουμε τη μεταβολή των τιμών της μίας μεταβλητής (εξαρτημένη), συναρτήσει των μεταβολών της άλλης (ανεξάρτητης) εφαρμόζουμε στατιστική εξάρτηση ή παλινδρόμηση. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 4

Μοντέλο απλής γραμμικής παλινδρόμησης Η κύρια ιδέα της γραμμικής εξάρτησης, είναι η δημιουργία μίας ευθείας, που να εφαρμόζει καλύτερα στα δεδομένα. Η ευθεία αυτή περιγράφεται από την εξίσωση: Yˆ E i b b X 0 1 i X i όπου b 0 είναι η σταθερά της και b 1 η κλίση της. Δηλαδή, η μέση τιμή της εξαρτημένης μεταβλητής Υ μεταβάλλεται µε σταθερό ρυθμό, όταν μεταβάλλονται οι τιμές της ανεξάρτητης μεταβλητής. Έτσι για κάθε µία παρατήρηση της Υ, εκτιμάμε : Yˆ i b0 b1 X i i όπου τα e i είναι τα παρατηρηθέντα υπόλοιπα, δηλαδή η διαφορά της τιμής της εξαρτημένης μεταβλητής Υ στο δείγμα, για δεδομένο Χ (παρατηρούμενη τιμή του Υ) από την τιμή που αναμένουμε για την Υ µε βάση την εξίσωση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 5

Συντελεστής εξάρτησης Η κλίση της ευθείας, δηλαδή το b 1, καλείται συντελεστής εξάρτησης, για τον οποίο ισχύουν: Διαθέτει μονάδες, το λόγο των μονάδων της εξαρτημένης μεταβλητής προς τις μονάδες της ανεξάρτητης. Μπορεί να πάρει οποιαδήποτε τιμή. Ο συντελεστής εξάρτησης μπορεί να είναι αρνητικός (αρνητική εξάρτηση), θετικός (θετική εξάρτηση) ενώ όταν είναι μηδέν δεν υπάρχει εξάρτηση μεταξύ των υπό εξέταση μεταβλητών. Είναι εμφανές ότι ο συντελεστής εξάρτησης b 1 εκφράζει το µέσο όρο της μεταβολής της εξαρτημένης μεταβλητής, όταν η ανεξάρτητη μεταβληθεί κατά µία μονάδα (Τιμή του b 1 ίση µε το μηδέν, κατ. επέκταση, ισοδυναμεί µε απουσία εξάρτησης). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 6

Έλεγχοι υποθέσεων & Ερμηνεία Yˆ i b0 b1 X i Κύριος έλεγχος Η 0 : β 1 =0 έναντι της εναλλακτικής Η 1 : β 1 0 ισοδύναμο με τον έλεγχο για συσχέτιση μεταξύ Χ και Υ Δίνει την κλίση της ευθείας Μας ενδιαφέρει για την ερμηνεία των αιτιολογικών σχέσεων μεταξύ φαινομένων μεταβλητών ΕΡΜΗΝΕΙΑ: i Εξετάζει πόσο αναμένουμε να αυξηθεί η Υ με μία μονάδα αύξησης της Χ Η τιμή του β 1 επηρεάζεται από την κλίμακα (μονάδες μέτρησης) των Χ & Υ. Το ρ (και r) και ο αντίστοιχος έλεγχος δεν επηρεάζονται Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 7

Έλεγχοι υποθέσεων & Ερμηνεία Yˆ i b0 b1 X i i Δευτερεύον Έλεγχος: Η 0 : β 0 =0 έναντι της εναλλακτικής Η 1 : β 0 0 Μας δίνει το σημείο που η ευθεία τέμνει τον κάθετο άξονα ΥΥ δηλαδή την τιμή του Υ όταν Χ=0 ΕΡΜΗΝΕΙΑ: Η αναμενόμενη τιμή του Υ όταν Χ=0 Πολλές φορές η τιμή αυτή δεν έχει ερμηνεία (διότι η τιμή Χ=0 δεν παρατηρείται ποτέ στην πράξη). Άλλες φορές θέτουμε β 0 =0 εκ-των-προτέρων και ανεξαρτήτως ελέγχου λόγω κοινής λογικής Πολλές φορές «βολεύει» για λόγους ερμηνείας αντί της Χ να χρησιμοποιήσουμε την Χ Χ Χ (στάθμευση). Τότε β 1 δεν αλλάζει (γίνεται μια απλή μετατόπιση της ευθείας έτσι ώστε να έχουν λογική ερμηνεία τα αποτελέσματα) Το β 0 είναι ίσο με την αναμενόμενη τιμή του Υ όταν Χ είναι ίσο με το δειγματικό μέσο Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 8

Εφαρμογή γραμμικής παλινδρόμησης - SPSS Ο υπεύθυνος του γραφείου εξυπηρέτησης πελατών μιας εταιρείας, ενδιαφέρεται να εκτιμήσει το χρόνο που μεσολαβεί από την παραγγελία έως την παράδοση (άρα και το αντίστοιχο κόστος αλλά και την ποιότητα εξυπηρέτησης) κάθε παραγγελίας ανάλογα με την απόσταση του πελάτη από τις κεντρικές αποθήκες της εταιρείας. Για το λόγο αυτό πήρε ένα τυχαίο δείγμα 10 παραγγελιών και κατέγραψε την απόσταση των εγκαταστάσεων του πελάτη (σε χιλιόμετρα) και τις ημέρες που μεσολάβησαν μέχρι την παράδοση των εμπορευμάτων παράδοσης. Να κατασκευαστεί ένα μοντέλο που θα βοηθήσει τον υπεύθυνο της εταιρείας Απόσταση 825 215 1070 550 480 920 1350 325 670 1215 Ημέρες 3,5 1 4 2 1 3 4,5 1,5 3 5 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 9

Ανάλυση απλής παλινδρόμησης Βήματα κατά την ανάλυση προβλημάτων απλής παλινδρόμησης 1. Προκαταρκτικοί έλεγχοι (Γραμμικότητα μεταξύ Χ και Υ) 1. Διαγραμματική απεικόνιση (Scatter-plot) 2. Έλεγχος κανονικότητας 3. Δείκτες γραμμικής συσχέτισης 2. Μοντέλο Παλινδρόμησης 1. Δείκτες συσχέτισης 2. Έλεγχοι υποθέσεων 3. Ερμηνεία αποτελεσμάτων 3. Έλεγχος Προϋποθέσεων (Ανάλυση καταλοίπων) 1. Κανονικότητα σφαλμάτων (και Υ) 2. Ανεξαρτησία σφαλμάτων (και Υ) 3. Ομοσκεδαστικότητα σφαλμάτων (και Υ) 4. Έλεγχος έκτροπων ή ασυνήθιστων τιμών Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 10

Προκαταρκτικοί έλεγχοι 1.1. Διαγραμματική απεικόνιση Από την μπάρα μενού επιλέγουμε Graphs Scatter: simple Στην θυρίδα διαλόγου που εμφανίζεται βάζουμε τον χρόνο παράδοσης στον άξονα Υ (εξαρτημένη) και την απόσταση στον άξονα Χ (ανεξάρτητη) Διαφαίνεται γραμμική σχέση μεταξύ της απόστασης και του χρόνου παράδοσης. Πως μπορεί να ποσοτικοποιηθεί η σχέση αυτή? Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 11

Προκαταρκτικοί έλεγχοι 1.2. Έλεγχος Κανονικότητας Από την μπάρα μενού επιλέγουμε Graphs Q-Q plots Στην θυρίδα διαλόγου που εμφανίζεται βάζουμε τον χρόνο παράδοσης και την απόσταση στον χώρο variables Οι παρατηρούμενες τιμές της μεταβλητής που δίνουμε απεικονίζονται διαγραμματικά σε σχέση με τις αναμενόμενες τιμές αν το δείγμα προερχόταν από την κανονική κατανομή. Αν το δείγμα προέρχεται από κανονική κατανομή τότε τα σημεία θα συνοψίζονται γύρω από την ευθεία γραμμή. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 12

Προκαταρκτικοί έλεγχοι 1.2. Έλεγχος Κανονικότητας Εναλλακτικά ακολουθούμε από το μενού: Analyze Descriptive Statistics Explore, και επιλέγουμε Normality plots with tests από το παράθυρο διαλόγου Plots Εκτός από τα QQ Plots που ξαναεμφανίζονται και με αυτό τον τρόπο, έχουμε επιπλέον τους ελέγχους υποθέσεων κανονικότητας των Kolmogorov-Smirnov (με correction) & Shapiro - Wilk Μεγάλα Δείγματα Μικρά Δείγματα Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. apostasi,112 10,200 *,970 10,892 imeres,142 10,200 *,937 10,520 Επειδή τα p values είναι μεγαλύτερα του 0,05 δεν απορρίπτουμε την υπόθεση της ακολουθίας κανονικής κατανομής για καμία από τις δύο μεταβλητές Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 13

Προκαταρκτικοί έλεγχοι 1.3. Συντελεστές συσχέτισης Από το μενού Analyze Correlate Bivariate Correlations apostasi imeres apostasi Pearson Correlation 1,000,949 ** Sig. (2-tailed),000 N 10 10 Pearson Correlation,949 ** 1,000 imeres Sig. (2-tailed),000 N 10 10 **. Correlation is significant at the 0.01 level (2-tailed). r=0,949, δηλαδή ο συντελεστής συσχέτισης είναι πολύ υψηλός (όσο πιο μεγάλος ο δείκτης αυτός, τόσο ισχυρότερη είναι η συσχέτιση των δύο μεταβλητών (θετική ή αρνητική) Στατιστικά σημαντικός ο έλεγχος απορρίπτουμε την Η 0 :ρ=0, δηλαδή παρατηρείται ισχυρή (θετική) γραμμική συσχέτιση μεταξύ των δύο μεταβλητών Spearman's rho apostasi imeres Correlations apostasi imeres Correlation Coefficient 1,000,945 ** Sig. (2-tailed).,000 N 10 10 Correlation Coefficient,945 ** 1,000 Sig. (2-tailed),000. N 10 10 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 14

Μοντέλο Παλινδρόμησης Από το μενού Analyze επιλέγουμε Regression και στη συνέχεια Linear ή (Curve Estimation). Στο αριστερό παράθυρο βρίσκονται οι μεταβλητές Στο παράθυρο Dependent μεταφέρουμε την εξαρτημένη μεταβλητή και Στο παράθυρο Independent μεταφέρουμε την ανεξάρτητη μεταβλητή Τσεκάρουμε Linear από τις διαθέσιμες μορφές παλινδρόμησης στη θέση Models. Τσεκάρουμε Include constant in equation για να μας δώσει την τιμή του σταθερού όρου. Τσεκάρουμε Plots Models-για να μας δώσει το γράφημα Τσεκάρουμε Display ANOVA Table Πατάμε ΟΚ Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 15

Μοντέλο Παλινδρόμησης 2.1. Δείκτες Συσχέτισης Model Summary and Parameter Estimates Dependent Variable:imeres Model Summary Parameter Estimates Equation R Square F df1 df2 Sig. Constant b1 Linear,900 72,396 1 8,000,118,004 The independent variable is apostasi. R=Multiple Correlation Coefficient R 2 (coefficient of determination)= % διακύμανσης της Υ που εξηγείται από το μοντέλο R 2 adj = % διακύμανσης της Υ που εξηγείται από το μοντέλο διορθωμένο για τον αριθμό των μεταβλητών. Ο τελευταίος αυτός δείκτης: α)λαμβάνει υπόψη του τις μεταβλητές, β)χρησιμοποιείται ως μέτρο καλής προσαρμογής ή πρόβλεψης, γ)μπορει να χρησιμοποιηθεί ως κριτήριο επιλογής μοντέλου (ΓΕΝΙΚΑ) Ερμηνεία R 2 (coefficient of determination)= 0,90, δηλαδή η απόσταση εξηγεί το 90% της συνολικής διακύμανσης των ημερών παράδοσης. Το υπόλοιπο 10% της διακύμανσης είναι ανεξήγητο και πρέπει να οφείλεται σε άλλους παράγοντες που δεν λαμβάνονται υπ όψη στην παρούσα μελέτη Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 16

Μοντέλο Παλινδρόμησης 2.2. Έλεγχος Υποθέσεων ANOVA Sum of Squares df Mean Square F Sig. Regression 16,682 1 16,682 72,396,000 Residual 1,843 8,230 Total 18,525 9 Στο συγκεκριμένο πίνακα (απλή παλινδρόμηση) ελέγχουμε την υπόθεση: Η 0 : β 1 =0 έναντι της εναλλακτικής Η 1 : β 1 0 Στο παράδειγμά μας απορρίπτουμε την Η 0 : β 1 =0 επειδή το p-value<0,05, γεγονός που σημαίνει ότι η επίδραση της ανεξάρτητης μεταβλητής είναι σημαντική και επηρεάζει / καθορίζει τις τιμές της εξαρτημένης Επιπλέον στη στήλη DF (Degree of Freedom) βλέπουμε τους αριθμούς οι οποίοι εκφράζουν τους βαθμούς ελευθερίας οι οποίοι αντιστοιχούν στο άθροισμα τετραγώνων που ερμηνεύεται από την παλινδρόμηση (Regression) και στο άθροισμα τετραγώνων που δεν ερμηνεύεται από την παλινδρόμηση (Residuals). Στη στήλη Sum. Of Squares οι αριθμοί εκφράζουν το άθροισμα τετραγώνων που ερμηνεύεται από την παλινδρόμηση και στο άθροισμα τετραγώνων που δεν ερμηνεύεται από την παλινδρόμηση. Η τιμή F = 72.39 (F κατανομή) είναι το πηλίκο των τιμών της στήλης Mean square. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 17

Μοντέλο Παλινδρόμησης 2.3. Ερμηνεία αποτελεσμάτων Unstandardized Coefficients Coefficients Standardized Coefficients Ερμηνεία: B Std. Error Beta t Sig. apostasi,004,000,949 8,509,000 (Constant),118,355,333,748 Η τιμή p value της ανεξάρτητης μεταβλητής (απόσταση) είναι μικρότερη του 0,05 δηλαδή απορρίπτουμε την Η 0 : β 1 = 0 και κατά συνέπεια αποδεχόμαστε την επίδραση της απόστασης (ανεξάρτητη) στον χρόνο παράδοσης (εξαρτημένη). Η τιμή του συντελεστή εξάρτησης β 1 είναι > 0 συνεπώς θετική σχέση όσο αυξάνει η απόσταση τόσο μεγαλώνει ο χρόνος παράδοσης Με κάθε επιπλέον χιλιόμετρο ο αναμενόμενος χρόνος παράδοσης αυξάνει κατά 0.004 μέρες (περίπου 5,7 λεπτά) ή με κάθε επιπλέον 100 χιλιόμετρα ο αναμενόμενος χρόνος παράδοσης αυξάνει κατά 0.4 μέρες (περίπου 9.6 ώρες) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 18

Μοντέλο Παλινδρόμησης 2.3. Ερμηνεία αποτελεσμάτων Unstandardized Coefficients Coefficients Standardized Coefficients B Std. Error Beta t Sig. apostasi,004,000,949 8,509,000 (Constant),118,355,333,748 Ερμηνεία: Η αντίστοιχη τιμή p value της σταθεράς (0,748) είναι μεγαλύτερη του 0,05 δηλαδή δεν απορρίπτουμε την Η 0 : β 0 = 0 και κατά συνέπεια η σταθερά μπορεί να θεωρηθεί 0 και να αφαιρεθεί από το μοντέλο. Μία επιπλέον ερμηνεία που μπορούμε να δώσουμε στο συγκεκριμένο παράδειγμα είναι ότι η απόσταση είναι πολύ μικρή τότε ο χρόνος παράδοσης είναι 0,118 μέρες (2.8 ώρες), γεγονός που μας οδηγεί στο συμπέρασμα ότι ίσως πρέπει να κάνουμε στάθμιση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 19

Είναι τα αποτελέσματα αξιόπιστα ; Σημαντικό πριν κλείσουμε την ανάλυση (ή καλύτερα πριν την αρχίσουμε) να βεβαιωθούμε ότι οι παρατηρήσεις μας προσαρμόζονται ικανοποιητικά στο μοντέλο ώστε τα συμπεράσματα που προκύπτουν να θεωρούνται αξιόπιστα. Αν διαπιστώσουμε ότι κάτι τέτοιο δεν συμβαίνει τότε θα πρέπει να τροποποιήσουμε κατάλληλα το μοντέλο. Οι υποθέσεις γίνονται στα κατάλοιπα που είναι οι αποκλίσεις των τιμών των ανεξάρτητων μεταβλητών από τις αντίστοιχες εκτιμώμενες τιμές τους: Υπόθεση της κανονικότητας των καταλοίπων, δηλαδή ότι e i ~Ν(0,σ 2 ), όπου Ν είναι ο συμβολισμός της κανονικής κατανομής (Normal distribution) και 0 (μηδέν) και σ 2 είναι ο μέσος και η διακύμανση της κατανομής. Υπόθεση της ανεξαρτησίας των καταλοίπων, δηλαδή ότι Cov(e i, e j )=0 εάν i j. Αυτό σημαίνει ότι θέλουμε για όλα τα ζεύγη των καταλοίπων η συνδιακύμανση τους (Covariance) να είναι μηδέν. Υπόθεση της ομοσκεδαστικότητας των καταλοίπων, δηλαδή Cov(e i, e j )=σ 2 σταθερή εάν i=j για κάθε i. Η διακύμανση δηλαδή των καταλοίπων πρέπει να είναι σταθερή και ίση με σ 2 για όλα τα κατάλοιπα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 20

Έλεγχος Ορθότητας του μοντέλου 1. Εξετάζουμε αν τα τυποποιημένα κατάλοιπα ακολουθούν πράγματι κανονική κατανομή 2. Εξετάζουμε αν υπάρχει σχέση μεταξύ των προσαρμοσμένων Υi και των τυποποιημένων καταλοίπων (υπό τις υποθέσεις του γραμμικού μοντέλου είναι ανεξάρτητα), χρησιμοποιώντας το γράφημα των σημείων στο επίπεδο. 3. Εξετάζουμε αν υπάρχει σχέση μεταξύ των Χi και των τυποποιημένων καταλοίπων, χρησιμοποιώντας το γράφημα των σημείων στο επίπεδο. 4. Εξετάζουμε αν τα τυποποιημένα κατάλοιπα είναι ανεξάρτητα από την σειρά με την οποία πήραμε τις παρατηρήσεις. Για το σκοπό αυτό χρησιμοποιούμε το γράφημα των σημείων, Επίσης συνήθως χρησιμοποιούμε ένα τεστ ροών (runs test) για τα κατάλοιπα ή ένα τεστ αυτοπαλινδρόμησης που είναι γνωστό ως Durbin Watson test. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 21

Έλεγχος Ορθότητας του μοντέλου 5. Εξετάζουμε αν υπάρχουν «έκτροπες» παρατηρήσεις χρησιμοποιώντας και πάλι τα γραφήματα (ακόμη και το γράφημα των (Χi,Yi)). Θεωρούμε ως «ασυνήθιστες» τις παρατηρήσεις με studentized residual μεγαλύτερο του 2 και «έκτροπες» αυτές με studentized residual μεγαλύτερο του 3. Οι έκτροπες παρατηρήσεις είτε προέρχονται από λάθος καταγραφή του ερευνητή (οπότε ελέγχεται αν μια έκτροπη παρατήρηση έχει καταγραφεί και περαστεί στον Η/Υ σωστά) ή είναι πραγματικές παρατηρήσεις υποδεικνύοντας ότι το μοντέλο μας δεν είναι απόλυτα σωστό. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 22

Ανάλυση καταλοίπων 3.1. Κανονικότητα σφαλμάτων Προκειμένου να ελέγξουμε την κανονικότητα των καταλοίπων Θα πρέπει πρώτα να αποθηκεύσουμε στον data editor τις τιμές των τυποποιημένων καταλοίπων. Αυτό γίνεται χρησιμοποιώντας την επιλογή save κατά την εκτέλεση της ανάλυσης της παλινδρόμησης. Analyze Regression Linear επιλέγοντας την επιλογή save και στην συνέχεια από το παράθυρο διαλόγου τις επιλογές unstandardized predicted values, τα studentized residuals και τα leverages values. Στον πίνακα δεδομένων (Data editor) προστίθενται νέες στήλες που έχουν τις ζητούμενες ποσότητες: Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 23

Ανάλυση καταλοίπων 3.1. Κανονικότητα σφαλμάτων Προκειμένου να ελέγξουμε την κανονικότητα των καταλοίπων επειδή τα δεδομένα μας είναι λίγα πραγματοποιούμε τον έλεγχο της κανονικότητάς με το τεστ των Shapiro-Wilk. (Analyze Descriptive Statistics Explore Plots: Normality plots with tests Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Standardized Residual,140 10,200 *,934 10,487 Στο ιστόγραμμα και τo Q-Q plot των καταλοίπων υπάρχουν ενδείξεις κανονικότητας αλλά δεν μπορούμε να αποφασίσουμε με σιγουριά γιατί οι παρατηρήσεις είναι λίγες. Στο τεστ των Shapiro Wilk το p=0,487 > 0,05 επομένως δεν μπορούμε να απορρίψουμε ότι τα τυποποιημένα κατάλοιπα προέρχονται από την κανονική κατανομή. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 24

Ανάλυση καταλοίπων 3.2. Ανεξαρτησία σφαλμάτων Η ανεξαρτησία των καταλοίπων δεν είναι εύκολα ελεγχόμενη. Από τους ελέγχους για την ανεξαρτησία των καταλοίπων θα εξετάσουμε τους παρακάτω: Έλεγχος τυχαιότητας (RUNS TEST) Έλεγχος για αυτοσυσχετίσεις χρησιμοποιώντας τον δείκτη Durbin Watson. Η τιμή του δείκτη κυμαίνεται από 0 έως 4 (0<D<4 Όταν η τιμή του είναι μικρότερη του 2 τότε έχουμε θετική αυτοσυσχέτιση Όταν η τιμή του είναι μεταξύ του 2 και του 4 τότε έχουμε αρνητική αυτοσυσχέτιση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 25

Ανάλυση καταλοίπων 3.2. Ανεξαρτησία σφαλμάτων - Έλεγχος τυχαιότητας (RUNS TEST) Για τον έλεγχο της τυχαιότητας των σφαλμάτων εκτελούμε και ένα τεστ ροών. Από το μενού Analyze non - parametric tests runs. Σαν μεταβλητή επιλέγουμε την standardized residuals Runs Test Με βάση το παραπάνω τεστ το οποίο εμφανίζεται στο διπλανό πίνακα κα έχει p-value = 0,094> 0,05 οπότε δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση δηλαδή ότι κατάλοιπα είναι τυχαία. Standardized Residual Test Value a,16337 Cases < Test Value 5 Cases >= Test Value 5 Total Cases 10 Number of Runs 3 Z -1,677 Asymp. Sig. (2-tailed),094 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) a. Median Διαφάνεια 26

Ανάλυση καταλοίπων 3.2. Ανεξαρτησία σφαλμάτων Δείκτης Durbin Watson Για να εμφανιστεί ο δείκτης Durbin Watson στα αποτελέσματα της ανάλυσης μας κατά την εκτέλεση της παλινδρόμησης επιλέγουμε την επιλογή statistics και από το παράθυρο διαλόγου που εμφανίζεται επιλέγουμε Durbin Watson. Ο δείκτης εμφανίζεται στον πίνακα model summary Η τιμή του δείκτη Durbin Watson όπως φαίνεται στον διπλανό πίνακα είναι 0,753 - επικίνδυνα μικρή η οποία προδίδει μια θετική αυτοσυσχέτιση Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,949 a,900,888,48002,753 a. Predictors: (Constant), apostasi b. Dependent Variable: imeres Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 27

Ανάλυση καταλοίπων 3.3. Ομοσκεδαστικότητα σφαλμάτων Ελέγχουμε αν υπάρχει σχέση μεταξύ των προσαρμοσμένων Υi και των τυποποιημένων καταλοίπων καθώς και αν υπάρχει σχέση μεταξύ των Xi και των τυποποιημένων καταλοίπων Για την εκτέλεση των παραπάνω ελέγχων κατασκευάζουμε τα γραφήματα (scatterplot) των σημείων predicted, studentized residuals και Xi, studentized residuals Οι παρατηρήσεις φαίνεται ότι βρίσκονται τυχαία στο επίπεδο πράγμα που υποδηλώνει ότι δεν πρέπει να υπάρχει κάποια σχέση μεταξύ των μεταβλητών (εξάλλου με τόσες λίγες παρατηρήσεις δεν είναι εύκολο να ανακαλύψουμε κάτι τέτοιο). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 28

Ανάλυση καταλοίπων 3.4. Έλεγχος έκτροπων και ασυνήθιστων τιμών Studentized residuals Centered leverage values 0,932956 0,003058 0,282789 0,23054 0,104876 0,073093-0,20144 0,034629-1,90847 0,061273-0,92443 0,019235-1,19881 0,266395 0,52029 0,147141 1,057511 0,006522 1,272041 0,158113 Το διάγραμμα Χi, Yi που υπολογίσαμε στην αρχή της ανάλυσης μας υποδεικνύει ότι δεν υπάρχουν περίεργες παρατηρήσεις (outliers) Παρατηρούμε ότι δεν υπάρχουν έκτροπες ή ασυνήθιστες παρατηρήσεις επειδή οι τιμές των studentized residuals είναι κατά απόλυτη τιμή μικρότερες του 2 (καλό θα είναι να ελέγξουμε την Πέμπτη παρατήρηση) Για να εξετάσουμε αν υπάρχουν παρατηρήσεις που έχουν μεγάλη «επιρροή» στο μοντέλο ελέγχουμε ποιες έχουν centered leverage > 5/n = 5/10 = 0,5. Βλέπουμε ότι καμία παρατήρηση δεν έχει από μόνη της μεγάλη επιρροή στο μοντέλο (τέτοιες παρατηρήσεις πρέπει να λαμβάνονται με προσοχή). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 29

Προκαταρκτικά (Διαγραμματική απεικόνιση) Από n = 12 γυναίκες λαμβάνουμε τις ακόλουθες τιμές της πίεσης του αίματος και της αντίστοιχης ηλικίας σε έτη: Ηλικία 36 38 42 42 47 49 55 56 60 63 68 72 Πίεση 118 115 125 140 128 145 150 147 155 149 152 160 Λύση Αρχικά εισάγουμε τα δεδομένα στο SPSS σε δύο μεταβλητές (στήλες) Χ, Υ και λαμβάνουμε το διάγραμμα διασποράς (Graphs/scatter/simple/Y axis:y, X axis:x) για να πάρουμε μια αρχική εικόνα για τη σχέση μεταξύ των μεταβλητών Ερμηνεία Από το διάγραμμα φαίνεται να υπάρχει γραμμική σχέση μεταξύ των δυο μεταβλητών και επομένως η εφαρμογή του μοντέλου Υi = b0 + b1xi + εi, i = 1, 2,, n, είναι φυσιολογική Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 30

Προκαταρκτικά (Έλεγχος Κανονικότητας) Χρησιμοποιώντας την εντολή Explore ελέγχουμε ως προς την κανονική κατανομή τις μεταβλητές Τα διπλανά διαγράμματα δίνουν ενδείξεις οι οποίες δεν απορρίπτουν την περίπτωση της κανονικής κατανομής των δύο μεταβλητών υπό εξέταση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 31

Προκαταρκτικά (Έλεγχος Κανονικότητας) Τις πιο χρήσιμες πληροφορίες ως προς την κανονικότητας των μεταβλητών τις παίρνουμε με το διάγραμμα των δύο μεταβλητών υπό εξέταση και φυσικά το τεστ των Kolmogorov Smirnov (μεγάλο δείγμα) ή των Shapiro Wilk (μικρό δείγμα) Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. ilikia,141 12,200 *,955 12,712 piesi,205 12,176,908 12,203 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. Όπως φαίνεται στον παραπάνω πίνακα τα αντίστοιχα p values των μεταβλητών υπό εξέταση στα δύο τεστ είναι μεγαλύτερα του 0,05 και κατά συνέπεια δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση. Δηλαδή δεν απορρίπτουμε για καμία από τις δύο μεταβλητές την υπόθεση ότι ακολουθούν την κανονική κατανομή. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 32

Προκαταρκτικά (Συντελεστές συσχέτισης) Από το μενού Analyze Correlate Bivariate ελέγχουμε τους συντελεστές συσχέτισης ilikia piesi Correlations Pearson Correlation ilikia piesi 1,000,896 ** Sig. (2-tailed),000 N 12 12 Pearson Correlation Sig. (2-tailed),000,896** 1,000 N 12 12 Spearman's rho Correlations ilikia piesi Correlation Coefficient 1,000,932** ilikia Sig. (2-tailed).,000 N 12 12 Correlation Coefficient,932** 1,000 piesi Sig. (2-tailed),000 N 12 12 **. Correlation is significant at the 0.01 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Όπως φαίνεται από τα αποτελέσματα των παραπάνω πινάκων οι οποίοι εξετάζουν την ύπαρξη συσχέτισης μεταξύ της ηλικίας και της πίεσης με παραμετρικό και μη παραμετρικό τρόπο μπορούμε να απορρίψουμε την μηδενική υπόθεση (Η 0 :ρ=0) δηλαδή ότι δεν υπάρχει συσχέτιση μεταξύ των μεταβλητών, επειδή οι αντίστοιχες τιμές των p-values είναι μικρότερες του 0,05. Επίσης η υψηλή θετική τιμή του συντελεστή συσχέτισης προδίδει μια ισχυρή θετική γραμμική σχέση μεταξύ της ηλικίας και της πίεσης δηλαδή όσο αυξάνεται η ηλικία αυξάνεται και η πίεση. Η πσοτικοποίηση αυτής της μεταβολής θα εξεταστεί με την γραμμική παλινδρόμηση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 33

Το μοντέλο (δείκτες συσχέτισης) Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,896 a,803,783 7,01760 1,934 a. Predictors: (Constant), ilikia b. Dependent Variable: piesi Όπως βλέπουμε από τον πίνακα model summary ο συντελεστής γραμμικής συσχέτισης του Pearson είναι 0,896 και επιβεβαιώνει την ισχυρή θετική συσχέτιση της ηλικίας με την πίεση. Επίσης παρατηρούμε ότι η ηλικία μπορεί να ερμηνεύσει το 80,30% (R 2 =0.803) της μεταβλητότητας της πίεσης. Το υπόλοιπο 17% οφείλεται σε άλλους παράγοντες οι οποίοι δεν εξετάζονται στην άσκηση. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 34

Το μοντέλο (Έλεγχος Υποθέσεων) Model Sum of Squares ANOVA b Η τιμή p value του αντίστοιχου F test είναι μικρότερη του 0,05 επομένως απορρίπτουμε την μηδενική υπόθεση (Η 0 : β 1 =0) και καταλήγουμε στο συμπέρασμα ότι η ηλικία επιδρά με στατιστικά σημαντικό τρόπο στην διαμόρφωση της πίεσης. df Mean Square F Sig. 1 Regression 2008,200 1 2008,200 40,778,000 a Residual 492,467 10 49,247 Total 2500,667 11 a. Predictors: (Constant), ilikia b. Dependent Variable: piesi Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 35

Το μοντέλο (Ερμηνεία) Coefficients a Unstandardized Coefficients Standardized Coefficients 95% Confidence Interval for B Model B Std. Error Beta t Sig. Lower Bound Upper Bound 1 (Constant) 80,778 9,544 8,464,000 59,513 102,043 ilikia 1,138,178,896 6,386,000,741 1,535 a. Dependent Variable: piesi Όπως φαίνεται από τον παραπάνω πίνακα, οι αντίστοιχες τιμές των p-value για τον συντελεστή εξάρτησης καθώς και για την σταθερά είναι σχεδόν 0 επομένως απορρίπτουμε τις αντίστοιχες μηδενικές υποθέσεις (ότι b 1 = 0, b 0 = 0) και καταλήγουμε στο συμπέρασμα ότι ο συντελεστής εξάρτησης και η σταθερά επιδρούν με στατιστικά σημαντικό τρόπο στην διαμόρφωση της ανεξάρτητης μεταβλητής και επομένως έχουν θέση στο μοντέλο. Σαν ερμηνεία μπορούμε να πούμε ότι για κάθε έτος μεταβολής στην ηλικία ενός ατόμου έχουμε αντίστοιχη μεταβολή κατά 1,138 στην πίεση του. Όμως στην ερμηνεία της σταθεράς (b 0 ) δεν είναι λογικό να πούμε ότι για ηλικία 0 έχουμε πίεση 80, επομένως πρέπει να κάνουμε στάθμιση αφαιρώντας από την ηλικία του δείγματος τον μέσο όρο. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 36

Το μοντέλο (Ερμηνεία) Coefficients a Standardized Unstandardized Coefficients Coefficients 95% Confidence Interval for B Model B Std. Error Beta t Sig. Lower Bound Upper Bound 1 (Constant) 139,954 2,027 69,056,000 135,438 144,470 ilikia1 1,138,178,896 6,386,000,741 1,535 a. Dependent Variable: piesi Όπως φαίνεται από τον παραπάνω πίνακα, οι σημειακές εκτιμήσεις των b 0, b 1 είναι 139,95 και 1,138 αντίστοιχα, ενώ τα αντίστοιχα δ.ε. είναι (135,43, 144,470) και (0,741, 1,535). Επομένως μπορούμε να πούμε ότι για άτομα 53 ετών (μέσος ηλικίας του δείγματος) αναμένεται 139,954 πίεση και για κάθε έτος μεταβολής από τον μέσο όρο αναμένεται αντίστοιχη μεταβολή κατά 1,13 βαθμούς στην πίεση τους Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 37

Ορθότητα Μοντέλου (Κανονικότητα σφαλμάτων) Από το μενού Analyze Descriptive Statistics Explore ελέγχουμε την κανονικότητα της κατανομής των καταλοίπων Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Studentized Residual,251 12,036,918 12,271 a. Lilliefors Significance Correction Το ιστόγραμμα και τα γραφικά των studentized residuals μας δίνουν ενδείξεις ότι τα κατάλοιπα κατανέμονται κανονικά. Το τεστ για την κανονικότητα των Kolmogorov Smirnov έχει τιμή μικρότερη του 0,05 την οποία όμως αγνοούμε επειδή το δείγμα είναι πολύ μικρό και λαμβάνουμε υπόψη το τεστ των Shapiro Wilk το οποίο παίρνει τιμή μεγαλύτερη του 0,05 και επομένως δεν μπορούμε να απορρίψουμε την υπόθεση ότι τα κατάλοιπα ακολουθούν την κανονική κατανομή. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 38

Ορθότητα Μοντέλου (Ανεξαρτησία σφαλμάτων) Από το μενού Analyze non - parametric tests εκτελούμε ένα τεστ ροών για τον έλεγχο της τυχαιότητας των σφαλμάτων. Σαν μεταβλητή επιλέγουμε την Studentized residuals. Με βάση το παραπάνω τεστ το οποίο εμφανίζεται στο διπλανό πίνακα κα έχει p-value = 0,762 δεν μπορούμε να απορρίψουμε ότι τα κατάλοιπα είναι τυχαία. Runs Test Studentized Residual Test Value a -,50613 Cases < Test Value 6 Cases >= Test Value 6 Total Cases 12 Number of Runs 6 Z -,303 Asymp. Sig. (2-tailed),762 a. Median Από το πίνακα Model Summary παρατηρούμε επίσης ότι ο δείκτης Durbin Watson είναι κοντά στο δύο επομένως δεν έχουμε προβλήματα αυτοσυσχέτισης. Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,896 a,803,783 7,01760 1,934 a. Predictors: (Constant), ilikia b. Dependent Variable: piesi Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 39

Ορθότητα Μοντέλου (Ομοσκεδαστικότητα σφαλμάτων) Για την εκτέλεση του ελέγχου κατασκευάζουμε τα γραφήματα (scatterplot) των σημείων predicted, studentized residuals και Xi, studentized residuals Οι παρατηρήσεις φαίνεται ότι βρίσκονται τυχαία στο επίπεδο πράγμα που υποδηλώνει ότι δεν πρέπει να υπάρχει κάποια σχέση μεταξύ των μεταβλητών (εξάλλου με τόσες λίγες παρατηρήσεις δεν είναι εύκολο να ανακαλύψουμε κάτι τέτοιο). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 40

Ορθότητα Μοντέλου (Ακραίες τιμές) Studentized residuals Centered leverage values -0,61859 0,17204-1,45179 0,13249-0,55311 0,06886 1,76831 0,06886-0,94177 0,01834 1,2641 0,00717 0,98955 0,00459 0,37296 0,00867 0,90325 0,0379-0,53878 0,07337-1,00831 0,15828-0,47347 0,24943 Το διάγραμμα Χi, Yi που υπολογίσαμε στην αρχή της ανάλυσης μας υποδεικνύει ότι δεν υπάρχουν περίεργες παρατηρήσεις (outliers) Επίσης παρατηρούμε ότι δεν υπάρχουν έκτροπες ή ασυνήθιστες παρατηρήσεις (όλα τα studentized residuals είναι κατά απόλυτη τιμή μικρότερα του 2). Για να εξετάσουμε αν υπάρχουν παρατηρήσεις που έχουν μεγάλη «επιρροή» στο μοντέλο ελέγχουμε ποιες έχουν centered leverage > 5/n = 5/12 = 0,416. Βλέπουμε ότι καμία παρατήρηση δεν έχει από μόνη της μεγάλη επιρροή στο μοντέλο (τέτοιες παρατηρήσεις πρέπει να λαμβάνονται με προσοχή). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 41