Σημειώσεις για το μάθημα Εργαστήριο στατιστικής Στατιστικό πακέτο S.P.S.S. Παπάνα Αγγελική E mail: papanagel@yahoo.gr, agpapana@gen.auth.gr Α.Τ.Ε.Ι. Θεσσαλονίκης ΠΑΡΑΡΤΗΜΑ ΚΑΤΕΡΙΝΗΣ Τμήμα Τυποποίησης και Διακίνησης Προϊόντων (Logistics)
Κεφάλαιο 1 Εισαγωγή στην στατιστική ανάλυση Η στατιστική είναι η επιστήμη που ασχολείται με τη συγκέντρωση, παρουσίαση, αξιολόγηση και επεξεργασία της πληροφορίας, με στόχο την εξαγωγή συμπερασμάτων και χρησιμεύει σε όλες της επιστήμες, όπως στην οικονομία, κοινωνιολογία, ιατρική, βιολογία, ψυχολογία, κτλ. Η στατιστική απαιτεί πολύ καλή γνώση του φαινομένου που μελετά, σωστή οργάνωση των παρατηρήσεων και σωστή καταγραφή των δεδομένων. Οι πληροφορίες που χρησιμοποιεί πρέπει να είναι πλήρεις, ποιοτικά ελεγμένες και χωρίς λάθη. Για την επεξεργασία των δεδομένων απαιτείται θεωρητική γνώση ώστε να επιλεγούν οι σωστές τεχνικές και μέθοδοι για την στατιστική ανάλυση που επιδιώκουμε αλλά και να πληρούνται οι κατάλληλες προϋποθέσεις για την εφαρμογή των στατιστικών τεχνικών. Οι μετρήσεις ή αλλιώς τα δεδομένα μιας επιστημονικής έρευνας είναι συγκεκριμένες πληροφορίες, στοιχεία ή γεγονότα, οι οποίες μπορούν να χρησιμοποιηθούν για περαιτέρω αποφάσεις και συμπεράσματα. Γεγονός είναι ότι όλες οι ερευνητικές προσπάθειες οι οποίες παράγουν δεδομένα επιδέχονται στατιστική επεξεργασία. Η επεξεργασία αυτή διακρίνεται σε δύο φάσεις. Οι μέθοδοι της περιγραφικής στατιστικής αποτελούν το επιστημονικό εργαλείο για την συγκέντρωση, ταξινόμηση και παρουσίαση των πρωτογενών δεδομένων, ενώ τα εργαλεία της στατιστικής συμπερασματολογίας επιτρέπουν την εκτίμηση χαρακτηριστικών του συνόλου των δεδομένων από την μελέτη ενός υποσυνόλου τους. Επιστημονική έρευνα Δεδομένα (Πληθυσμός, δείγμα) Στατιστική επεξεργασία δεδομένων Περιγραφική στατιστική συγκέντρωση, ταξινόμηση, παρουσίαση δεδομένων με πίνακες και γραφήματα και υπολογισμός στατιστικών μέτρων Στατιστική συμπερασματολογία εξαγωγή συμπερασμάτων για τον πληθυσμό από το δείγμα 2
Η ανάγκη για άμεση εφαρμογή της στατιστικής σε ποικίλες επιστήμες οδήγησε στην δημιουργία στατιστικών πακέτων τα οποία έχουν την δυνατότητα εισαγωγής, επεξεργασίας, ανάλυσης και παρουσίασης δεδομένων σε σύντομο χρονικό διάστημα. Φυσικά χάρη στους υπολογιστές υπάρχουν απεριόριστες πλέον δυνατότητες όσον αφορά τον όγκο των δεδομένων. Το S.P.S.S. (Statistical Package for Social Sciences) είναι ένα στατιστικό πακέτο που έχει πολλές δυνατότητες όσον αφορά την επεξεργασία και παρουσίαση των δεδομένων μιας επιστημονικής έρευνας αλλά και μεγάλη αξιοπιστία. Οι τελευταίες εκδόσεις του S.P.S.S. έχουν γραφικό περιβάλλον, πράγμα που το καθιστά πολύ εύκολο για την χειριστή του. Σκοπός αυτού του μαθήματος είναι η περιγραφή μεθόδων καταχώρησης, παρουσίασης, ανάλυσης και επεξεργασίας των δεδομένων μιας έρευνας καθώς και η εκμάθηση κάποιων ελέγχων υποθέσεων για διάφορα σύνολα δεδομένων. Περιγράφονται στατιστικές διαδικασίες καθώς και η χρήση του S.P.S.S. σε αυτές. Η συνηθισμένη προσέγγιση σε ένα πρόβλημα που απαιτεί στατιστική ανάλυση είναι στην κατεύθυνση της οργάνωσης της παρατήρησης, της καταγραφής των αποτελεσμάτων και της διατύπωσης της θεωρίας. Τα συστατικά αυτής της προσέγγισης είναι ο πληθυσμός, το δείγμα και η μεταβλητή. Πληθυσμός είναι το σύνολο των ατόμων ή αντικειμένων για τα οποία ενδιαφερόμαστε να βγάλουμε συμπεράσματα σε σχέση με κάποιες ιδιότητες που αφορούν τα στοιχεία του. Ο πληθυσμός πρέπει να είναι καλά ορισμένος, έτσι ώστε κάθε στοιχείο να μπορεί να αποφασιστεί μονοσήμαντα αν είναι μέλος του. Τα στοιχεία του πληθυσμού αναφέρονται ως υποκείμενα. Όταν ένας πληθυσμός είναι πρακτικά άπειρος ή μεταβάλλεται κατά την διάρκεια πραγματοποίησης μιας έρευνας, τότε μελετάτε κάποιο υποσύνολο του πληθυσμού, το οποίο ονομάζεται δείγμα. Από την μελέτη του δείγματος θέλουμε να εξάγουμε συμπεράσματα για τον πληθυσμό. Το δείγμα που επιλέγεται πρέπει να είναι αντιπροσωπευτικό, δηλαδή πρέπει να είναι τυχαίο, δηλαδή να μην υπάρχει μεροληψία στην επιλογή των υποκειμένων του πληθυσμού. Τα χαρακτηριστικά ενός πληθυσμού τα οποία μελετάμε αναφέρονται στην βιβλιογραφία με τον όρο μεταβλητή. Οι μεταβλητές χωρίζονται σε δύο βασικές κατηγορίες με βάση τις «τιμές» που παίρνουν. 3
(1) Οι ποιοτικές μεταβλητές παίρνουν «τιμές» που δεν έχουν αριθμητικές ιδιότητες. Διακρίνονται σε μεταβλητές κατηγορίας (nominal) και σε μεταβλητές διάταξης (ordinal). α) Κατηγορίας είναι οι μεταβλητές που το σύνολο τιμών τους δεν έχει καμία ιδιότητα, π.χ. χρώμα ματιών, φύλο, τόπος γέννησης. β) Διάταξης είναι οι μεταβλητές που για το σύνολο τιμών τους μπορούμε να ορίσουμε μια διάταξη, π.χ. σειρά κατάταξης σε ένα αγώνισμα, επίπεδο εκπαίδευσης, κλίμακα σεισμών RICHTER, κτλ. (2) Οι ποσοτικές μεταβλητές παίρνουν αριθμητικές «τιμές» και εκφράζονται με μια μονάδα μέτρησης. Διακρίνονται σε μεταβλητές διαστήματος (interval) και σε μεταβλητές αναλογίας (ratio). α) Διαστήματος είναι οι μεταβλητές των οποίων οι ίσες διαφορές μεταξύ των τιμών τους συνεπάγονται και ίσες διαφορές για το χαρακτηριστικό που μετράει η μεταβλητή. Η διαστημική κλίμακα επιτρέπει την ιεράρχηση των υποκειμένων π.χ. θερμοκρασία, ηλικία, κλίμακα βαθμών Κελσίου κτλ. β) Aναλογίας είναι οι μεταβλητές των οποίων οι τιμές αντιστοιχούν αναλογικά στην ποσότητα του χαρακτηριστικού που μετρούν. Το μηδέν ανήκει πάντα στο σύνολο τιμών της μεταβλητής και δηλώνει την απουσία του χαρακτηριστικού, π.χ. ταχύτητα, ύψος, ημερήσιος τζίρος μιας εταιρείας κτλ. Μεταβλητή Ποιοτική Ποσοτική Κατηγορίας Διάταξης Διαστήματος Aναλογίας Οι ποσοτικές μεταβλητές διακρίνονται σε συνεχείς (continuous) και διακριτές (discrete). Συνεχής είναι μια μεταβλητή όταν παίρνει τιμές από ένα διάστημα, δηλαδή για κάθε δυο τιμές της υπάρχει μια τιμή ανάμεσά τους, π.χ. ύψος, βάρος. Διακριτή είναι μια μεταβλητή που για κάθε δυο τιμές της δεν υπάρχει πάντα μια τιμή της μεταβλητής ανάμεσά τους, π.χ. πλήθος παιδιών μιας οικογένειας. Η επιλογή των στατιστικών τεχνικών εξαρτάται κατά κύριο λόγο από τον τύπο των μεταβλητών που εξετάζονται. 4
Κεφάλαιο 2 Data Editor Για την καταχώρηση και επεξεργασία των δεδομένων μιας πειραματικής έρευνας, το πρώτο στάδιο είναι η καταχώρηση των δεδομένων στον Data Editor του S.P.S.S., δηλαδή στο περιβάλλον του S.P.S.S. Μεταβλητές Περιπτώσεις/ Παρατηρήσεις Δηλαδή σε κάθε στήλη καταχωρούμε τις απαντήσεις της ίδιας ερώτησης, ενώ κάθε γραμμή αντιστοιχεί στις απαντήσεις κάθε υποκειμένου. 5
Τα βασικά μενού του Data Editor Κύρια γραμμή επιλογής File με βασικές εντολές: New : δημιουργία νέου αρχείων δεδομένων Open : άνοιγμα αρχείων δεδομένων Save & Save as : σώζουμε το αρχείο δεδομένων που δημιουργήσαμε ή ανοίξαμε Print : εκτυπώνουμε Exit : βγαίνουμε από το πρόγραμμα Edit με βασικές εντολές: Undo : αναίρεση της τελευταίας ενέργειας Cut : αποκοπή Copy : αντιγραφή Paste : επικόλληση Find : αναζήτηση εγγραφής Options : Γενικές ρυθμίσεις View με βασικές εντολές: Status bar : γραμμή κατάστασης Toolbars : διαμόρφωση γραμμών εντολών Fonts : διαμόρφωση γραμματοσειρών Grid lines : εμφάνιση απόκρυψη περιγραμμάτων κελιών Value labels : εμφάνιση απόκρυψη labels Data με βασικές εντολές: Insert case : εισαγωγή νέας γραμμής Insert variable : εισαγωγή νέας στήλης Got to case : γρήγορη μετάβαση στον αριθμό της γραμμής που θέλουμε Sort case : ταξινόμηση δεδομένων κατά αύξουσα ή φθίνουσα σειρά Transform αλλαγές σε μεταβλητές π.χ. επανακωδικοποίηση τιμών, πράξεις μεταξύ μεταβλητών Analyze Στατιστική ανάλυση π.χ. υπολογισμός στατιστικών μέτρων Graphs Γραφικές παραστάσεις 6
Utilities δημιουργία ενός πίνακα περιεχομένων για τις μεταβλητές Windows πληροφορίες για αρχεία σχετικά με το πρόγραμμα π.χ. αρχεία δεδομένων, αποτελεσμάτων, γραφημάτων και εντολών που ενεργοποιήθηκαν κατά τη διάρκεια της στατιστικής ανάλυσης Help βοήθεια 7
Κεφάλαιο 3 ΚΑΤΑΧΩΡΗΣΗ ΔΕΔΟΜΕΝΩΝ Η καταχώρηση των δεδομένων ενός ερωτηματολογίου στον Data Editor του SPSS γίνεται επιλέγοντας το Variable View. Τα χαρακτηριστικά της μεταβλητής που πρέπει να οριστούν είναι τα παρακάτω: Name Type Width Decimal Όνομα μεταβλητής Τύπος τιμών που παίρνει η μεταβλητή Μέγιστος αριθμός ψηφίων ή χαρακτήρων που παίρνουν οι τιμές της μεταβλητής Μέγιστο πλήθος δεκαδικών ψηφίων τιμών της μεταβλητής Label Values Τίτλος ερώτησης Αν θέλω να κωδικοποιήσω τις τιμές της μεταβλητής Missing Αν λείπουν τιμές ή δεν θέλω να συμπεριλάβω κάποιες τιμές Align Measure Στοίχιση μέσα στα κελιά Scale 8
(1) ΚΑΤΑΧΩΡΗΣΗ ΔΕΔΟΜΕΝΩΝ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ Χωρίς κωδικοποίηση των τιμών της μεταβλητής Type String (characters) Width μέγιστο πλήθος χαρακτήρων της μεταβλητής Decimal 0 Label Τίτλος ερώτησης Values Missing αν δεν θέλω να συμπεριλάβω κάποιες τιμές Align στοίχιση μέσα στα κελιά Measure nominal ή ordinal (2) ΚΑΤΑΧΩΡΗΣΗ ΔΕΔΟΜΕΝΩΝ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ Με κωδικοποίηση των τιμών της μεταβλητής Type Numeric Width 1: μονοψήφιο πλήθος κωδικών, 2: διψήφιο πλήθος κωδικών Decimal 0 Label Τίτλος ερώτησης Values Κωδικοποίηση Missing αν δεν θέλω να συμπεριλάβω κάποιες τιμές Align στοίχιση μέσα στα κελιά Measure nominal ή ordinal Το παρακάτω πλαίσιο διαλόγου είναι για την κωδικοποίηση των τιμών της μεταβλητής φύλο. Στο πάνω μέρος, δίπλα στο Value γράφουμε τoν κωδικό και στο Value Label την κάθε τιμή της μεταβλητής, δηλ. αγόρι και κορίτσι. Στη συνέχεια τα προσθέτουμε πατώντας το κουμπί Add και συνεχίζουμε με τον επόμενο κωδικό. Εδώ έχουμε ήδη ορίσει την τιμή 0 για το αγόρι και μένει να πατήσομε Add για να ορισθεί η τιμή 1 για το κορίτσι. Όταν τελειώσουμε με όλες τις τιμές, πατάμε OK. Για να εμφανίζονται οι απαντήσεις του ερωτηματολογίου και όχι οι κωδικοί, από το κύριο μενού επιλογών: View Value Labels (τσεκάρισμα) 9
(3) ΚΑΤΑΧΩΡΗΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΚΡΙΤΩΝ ΠΟΣΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ Type Numeric Width Μέγιστος αριθμός ψηφίων αριθμού Decimal Μέγιστος αριθμός δεκαδικών ψηφίων αριθμού Label Τίτλος ερώτησης Values Missing αν δεν θέλω να συμπεριλάβω κάποιες τιμές Align στοίχιση μέσα στα κελιά Measure Scale (4) ΚΑΤΑΧΩΡΗΣΗ ΔΕΔΟΜΕΝΩΝ ΣΥΝΕΧΩΝ ΠΟΣΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ ΜΕ ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΤΙΜΩΝ ΜΕΤΑΒΛΗΤΩΝ 1 Η ΜΕΘΟΔΟΣ Κωδικοποίηση ομάδων. Variable View Name Type Label Values Measure (numeric) (κωδικοποίηση απαντήσεων) (ordinal) 2 Η ΜΕΘΟΔΟΣ Εισαγωγή δεδομένων κανονικά σε μια στήλη. Από το μενού του Data Editor : Transform Recode Into Different Variables 10
(5) ΚΑΤΑΧΩΡΗΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΩΝ ΑΠΑΝΤΗΣΕΩΝ 1 Η ΜΕΘΟΔΟΣ Δημιουργούμε τόσες μεταβλητές όσο είναι το μέγιστο πλήθος πολλαπλών απαντήσεων. Για κάθε μια από τις μεταβλητές αυτές καθορίζουμε το είδος τους. Variable View Name Type (numeric) Label Values (κωδικοποίηση απαντήσεων) Measure (nominal or ordinal) Από το μενού Analyze Multiple Response Define Variable Sets Το παράθυρο που ανοίγει είναι το παρακάτω: Μεταφέρουμε τις μεταβλητές που αναφέρονται στην ίδια ερώτηση Εύρος των κωδικών της μεταβλητής Καθορίζουμε το όνομα του set 2 Η ΜΕΘΟΔΟΣ Κωδικοποίηση απαντήσεων με 0 ή 1. Δημιουργούμε τόσες μεταβλητές όσο είναι το πλήθος των πολλαπλών απαντήσεων. Για κάθε μια από τις μεταβλητές αυτές καθορίζουμε το είδος τους. Από το μενού επιλέγουμε: Analyze Μultiple Response Define Variable Sets Στο παράθυρο που ανοίγει (το ίδιο με πριν), επιλέγουμε: Variables are Coded as και τσεκάρουμε: Dichotomies Counted Values: 1 11
Κεφάλαιο 4 ΠΑΡΟΥΣΙΑΣΗ ΔΕΔΟΜΕΝΩΝ ΠΑΡΟΥΣΙΑΣΗ ΔΕΔΟΜΕΝΩΝ Στατιστικοί πίνακες / Πίνακες συχνοτήτων Γραφικές παραστάσεις (1) ΠΙΝΑΚΕΣ ΚΑΤΑΝΟΜΗΣ ΣΥΧΝΟΤΗΤΩΝ 1.1 Πίνακες κατανομής συχνοτήτων: απλές μεταβλητές Από το μενού Analyze Descriptive Statistics Frequencies Output Frequency: συχνότητα (εκφράζει πλήθος) Percent: ποσοστό (σχετική συχνότητα) Valid percent: πραγματική σχετική συχνότητα Aν δεν υπάρχουν ελλειπούσες τιμές, to Valid Percent ταυτίζεται με το Percent 12
Cumulative percent: αθροιστικό ποσοστό Αν υπάρχουν ελλειπούσες τιμές: Valid percent = Frequency / Valid cases Cumulative percent: υπολογίζεται με βάση το Valid percent 1.2 Πίνακες κατανομής συχνοτήτων: μεταβλητές με πολλαπλές απαντήσεις Καταρχήν δηλώνουμε ποιες μεταβλητές αναφέρονται στην ίδια ερώτηση. Από το μενού του Data Editor επιλέγουμε: Analyze Multiple Response Define Sets Έπειτα επιλέγουμε από το μενού Analyze Multiple Response Frequencies 1.3 Πίνακες συνάφειας: για 2 μεταβλητές Από το μενού Analyze Descriptive Statistics Crosstabs 1 η μεταβλητή 2 η μεταβλητή 13
1.4 Πίνακες συνάφειας: για 1 απλή μεταβλητή και 1 μεταβλητή με πολλαπλές απαντήσεις Από το μενού Analyze Multiple Response Crosstabs 14
(2) ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ α) Από το μενού Graphs Επιλέγουμε αναλόγως με την γραφική παράσταση θέλουμε να κατασκευάσουμε: Ραβδόγραμμα : Bar Κυκλικό διάγραμμα : Pie 15
Ιστόγραμμα : Histogram Θηκόγραμμα : Boxplot 16
Διάγραμμα διασποράς : Scatter/ Dot β) Από το μενού Analyze Frequencies Charts (Ραβδόγραμμα, Κυκλικό διάγραμμα, Ιστόγραμμα) γ) Από το μενού Analyze Explore Charts (Φυλλογράφημα, Ιστόγραμμα) 17
Κεφάλαιο 5 ΥΠΟΛΟΓΙΣΜΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΜΕΤΡΩΝ Τα στατιστικά μέτρα είναι αριθμοί που υπολογίζονται από τα δεδομένα και η τιμή τους αντιπροσωπεύει κάποια τάση ή συμπεριφορά του δείγματος. Τα στατιστικά μέτρα διακρίνονται στα μέτρα κεντρικής τάσης (measures of central tendency), στα μέτρα μεταβλητότητας (measures of dispersion) και στα μέτρα σχήματος (measures of shape). Τις τρεις αυτές κατηγορίες περιγράφουμε αναλυτικά στη συνέχεια. Μέτρα κεντρικής τάσης Χρησιμοποιούνται για να περιγράψουν τη θέση του συνόλου των δεδομένων. Δηλαδή, η τιμή τους είναι η πιο αντιπροσωπευτική για να σχηματίσει κάποιος μία πρώτη εικόνα για το ύψος των τιμών των παρατηρήσεων μίας μεταβλητής. Mean μέση τιμή Median διάμεσος Μode επικρατούσα τιμή Μέτρα μεταβλητότητας / διασποράς Χρησιμοποιούνται για να περιγράψουν τις διαφορές που υπάρχουν ανάμεσα στις τιμές μίας μεταβλητής. Δηλαδή, προσδιορίζουν αν οι παρατηρήσεις είναι συγκεντρωμένες γύρω από μία αντιπροσωπευτική τιμή ή παρουσιάζουν μεγάλη διασπορά. range Εύρος variance Διασπορά/ Διακύμανση st. deviation Τυπική απόκλιση quartiles Tεταρτημόρια interquartile range Eνδοτεταρτημοριακό εύρος Μέτρα σχήματος Είναι μέτρα που περιγράφουν το σχήμα της μεταβλητής όταν αυτή παρασταθεί με ιστόγραμμα ή ραβδόγραμμα. skewness kurtosis Λοξότητα κυρτότητα 18
(1) Για μια απλή ποσοτική μεταβλητή Από το μενού επιλέγουμε Analyze Descriptive statistics Frequencies Analyze Descriptive statistics Descriptives (2) Για μια απλή ποσοτική μεταβλητή κατηγοριοποιημένη ως προς μια ποιοτική μεταβλητή Από το μενού επιλέγουμε Analyze Descriptive statistics Explore 19
ή Από το μενού επιλέγουμε Data Split File και έπειτα Analyze Descriptive statistics Frequencies ή Descriptives 20
Κεφάλαιο 6 ΤΕΣΤ ΑΝΕΞΑΡΤΗΣΙΑΣ ΣΥΣΧΕΤΙΣΗ ΜΕΤΑΒΛΗΤΩΝ (1) Δυο ποιοτικές μεταβλητές ή μια ποιοτική και μια ποσοτική μεταβλητή Ελέγχουμε την υπόθεση: οι δύο μεταβλητές δεν συσχετίζονται. Analyze Descriptive Statistics Crosstabs Output Πίνακας: Chi Square Tests Pearson Chi Square (γραμμικός συντελεστής συσχέτισης Pearson) Αν η σημαντικότητα (significance) του συντελεστή συσχέτισης Pearson < 0.05, τότε η υπόθεση Hο απορρίπτεται, δηλαδή οι δύο μεταβλητές είναι συσχετισμένες. 21
(2) Δυο ποσοτικές μεταβλητές: ΠΑΛΙΝΔΡΟΜΗΣΗ Ο γενικός όρος Ανάλυση Παλινδρόμησης περιγράφει μία σειρά αναλύσεων που είναι πλέον πολύ δημοφιλείς στην επιστημονική κοινότητα. Γενικά, η ανάλυση παλινδρόμησης μας βοηθά να εξετάσουμε σχέσεις αιτιότητας (causal relationships), να ερμηνεύσουμε δηλαδή τη διακύμανση των τιμών της εξαρτημένης μεταβλητής με βάση μία ή περισσότερες ανεξάρτητες μεταβλητές. Χρησιμοποιείται λοιπόν προκειμένου να: Προβλέψουμε τις τιμές μιας μεταβλητής με βάση τις τιμές μίας ή περισσότερων άλλων μεταβλητών. Αποφασίσουμε αν κάποια μεταβλητή είναι καλή για την πρόβλεψη κάποιας άλλης μεταβλητής. Να βρούμε ποιό είναι το ποσοστό της διακύμανσης των τιμών μιας μεταβλητής που μπορεί να εξηγηθεί από τις τιμές μίας μεμονωμένης ή ενός συνόλου μεταβλητών. Να φτιάξουμε καινούρια μοντέλα και να ελέγξουμε υπάρχουσες θεωρίες Απλή γραμμική παλινδρόμηση: Tα ζεύγη των τιμών των δυο μεταβλητών (x, y) προσαρμόζονται σε μια ευθεία. Ψάχνουμε τους συντελεστές της ευθείας και αν γίνεται καλή προσαρμογή. Εξετάζουμε την υπόθεση Ho : δεν υπάρχει γραμμική σχέση μεταξύ των μεταβλητών Χ, Υ. Analyze Regression Curve Estimation ή Linear Regression 22
Οutput Πίνακας: Model Summary 0 : κακή προσαρμογή R : συντελεστής προσδιορισμού 1 : καλή προσαρμογή R Square : συντελεστής πολλαπλής συσχέτισης Adjusted R Square (για μικρό δείγμα) Πίνακας: ANOVA Αν Sig. F < 0.05, τότε η Ηο απορρίπτεται, δηλ. οι μεταβλητές Χ και Υ είναι γραμμικά συσχετισμένες. Πίνακας: Coefficients Δίνονται οι συντελεστές της ευθείας. Αν Sig. < 0.05 τότε απορρίπτεται η υπόθεση ότι οι συντελεστές της ευθείας είναι μηδέν. 23
Πολλαπλή γραμμική παλινδρόμηση Επέκταση της απλής γραμμικής παλινδρόμησης για δύο ή περισσότερες ανεξάρτητες μεταβλητές. Εξετάζουμε την υπόθεση Ho : δεν υπάρχει γραμμική σχέση μεταξύ των μεταβλητών. Από το μενού επιλέγουμε πάλι: Analyze Regression Linear Μία απαραίτητη προϋπόθεση η οποία είναι απαραίτητη γενικά σε όλα τα μοντέλα με περισσότερες εκ της μίας ανεξάρτητων μεταβλητών είναι η έλλειψη συγγραμμικότητας. Η συγγραμικότητα είναι ένα σοβαρό πρόβλημα για την πολλαπλή γραμμική παλινδρόμηση. Όταν μία ανεξάρτητη μεταβλητή συσχετίζεται με μία άλλη ανεξάρτητη, δηλαδή μέσω της μίας μπορούμε να εκτιμήσουμε τις τιμές της άλλης τότε μιλάμε για πρόβλημα συγγραμμικότητας. Επομένως η ύπαρξη και των δύο μεταβλητών στο μοντέλο δεν είναι δυνατή. Output 24
Η στήλη του παραπάνω πίνακα Condition Index αποτελεί ένα διαγνωστικό του προβλήματος. Τιμές μεγαλύτερες του 15 φανερώνουν πιθανό πρόβλημα συγγραμμικότητας και τιμές άνω του 30 σοβαρό πρόβλημα συγγραμμικότητας. Οι δύο τελευταίες στήλες του παραπάνω πίνακα αναφέρονται σε διαγνωστικά συγγραμμικότητας, όπως και ο παρακάτω πίνακας. Το VIF (Variation Inflation Factor) είναι μέτρο διάγνωσης συγγραμμικότητας. Τιμές μεγαλύτερες του δύο αποτελούν ένδειξη ότι έχουμε πρόβλημα συγγραμμικότητας. Οι τιμή της Tolerance για μία τιμή φανερώνει το ποσοστό της διακύμανσης της μεταβλητής που εξηγείται από τις υπόλοιπες ανεξάρτητες μεταβλητές του μοντέλου. Πιο συγκεκριμένα ισχύει ότι το ποσοστό αυτό είναι ίσο με (1 Tolerance)%. Τιμές της Tolerance μικρότερες του 0.5 αποτελούν ένδειξη του προβλήματος. Η διαδικασία Correlate Με την διαδικασία Correlate υπολογίζουμε περιγραφικά στατιστικά μέτρα που μας επιτρέπουν να εξετάσουμε την ένταση και την φύση της σχέσης μεταξύ δύο ποσοτικών μεταβλητών. Analyze Correlate Bivariate Ο γραμμικός συντελεστής Pearson παίρνει τιμές στο [ 1,1], όπου το 1 σημαίνει τέλεια θετική γραμμική συσχέτιση, το 1 σημαίνει τέλεια αρνητική γραμμική συσχέτιση, και το 0 σημαίνει ότι δεν υπάρχει γραμμική συσχέτιση μεταξύ των μεταβλητών. 25
Κεφάλαιο 7 ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΟΡΩΝ ΔΕΙΓΜΑΤΩΝ/ ΠΛΗΘΥΣΜΟΥ Το δείγματα πρέπει να κατανέμονται κανονικά ή να είναι 30. (1) Σύγκριση μέσου όρου ενός δείγματος ή ενός πληθυσμού με μια σταθερή τιμή. Μηδενική υπόθεση Ηο: η μέση τιμή ενός δείγματος είναι ίση με μια δοσμένη τιμή. Analyze Compare Means One Sample T Test Μεταφέρουμε στο πλαίσιο Test Variable(s) τη μεταβλητή της οποίας τη μέση τιμή θέλουμε να συγκρίνουμε με δεδομένη τιμή. Την τιμή για την οποία θα γίνει η σύγκριση εισάγουμε στη συνέχεια στη θέση Τest Value. Output One-Sample Test Education (years) Test Value = 4 95% Confidence Interval of the Mean Difference t df Sig. (2-tailed) Difference Lower Upper 11,199 474,000,9797,808 1,152 (2) Σύγκριση των μέσων όρων δύο ανεξάρτητων δειγμάτων Κατηγοριοποίηση των τιμών μιας ποσοτικής μεταβλητής με βάση μια ποιοτική μεταβλητή. Μηδενική υπόθεση Ηο: οι μέσες τιμές δύο δειγμάτων είναι ίσες. Analyze Compare Means Independent Samples t Test 26
Output Independent Samples Test Βαθμός Άλγεβρας Β' Λυκείου Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df t-test for Equality of Means Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference Std. Error Difference Lower Upper,094,760 -,085 343,932 -,03,346 -,711,652 -,086 327,28,932 -,03,345 -,709,650 Γίνεται έλεγχος για τη σύγκριση των διασπορών των δειγμάτων: Leveneʹs Test for Equality of Variances (Η0: οι διασπορές δεν διαφέρουν). Από τη σημαντικότητα αυτού του ελέγχου Sig. = 0.760 >0.05 συμπεραίνουμε ότι δεν υπάρχει σημαντική διαφορά στις διασπορές και επομένως συμπεραίνουμε ότι οι διασπορές δεν διαφέρουν. Επειδή η σημαντικότητα του ελέγχου είναι Sig = 0,932 > 0,05, αποτυγχάνουμε να απορρίψομε τη μηδενική υπόθεση και συμπεραίνουμε ότι δεν υπάρχει στατιστικά σημαντική διαφορά στο βαθμό Άλγεβρας μεταξύ αγοριών και κοριτσιών. (3) Σύγκριση των μέσων όρων δύο εξαρτημένων δειγμάτων : Πολλές φορές για την πραγματοποίηση μιας μελέτης, είναι απαραίτητο να συλλέξουμε παρατηρήσεις πάνω στα ίδια αντικείμενα σε δυο διαφορετικές χρονικές στιγμές μετρώντας την ίδια παράμετρο/ μεταβλητή. 27
Μηδενική υπόθεση Ηο: οι μέσες τιμές δύο δειγμάτων είναι ίσες. Analyze Compare Means Paired Samples t Test Αν η σημαντικότητα (significance) κάθε ελέγχου < 0.05 τότε η μηδενική υπόθεση της ισότητας των μέσων τιμών απορρίπτεται και άρα συμπεραίνουμε ότι τα δείγματα δεν έχουν ίσες μέσες τιμές. Output Paired Samples Test Pair 1 Current Salary - Beginning Salary Mean Paired Differences 95% Confidence Interval of the Std. Error Difference Std. Deviation Mean Lower Upper t df Sig. (2-tailed) ********* $2,281.797 $104.696 ********* ********* 191,358 474,000 28