ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ



Σχετικά έγγραφα
ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ PSPP

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ SPSS

Λυμένες Ασκήσεις για το μάθημα:

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

Έλεγχος ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (Crosstabs - Chi-Square Tests)

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

1991 US Social Survey.sav

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

τατιστική στην Εκπαίδευση II

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Ενότητα 5 η : Επαγωγική Στατιστική ΙΙ Ανάλυση ποσοτικών δεδομένων. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

6 / 4 / Βιοστατιστικός, MSc, PhD

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Εργαστήριο στατιστικής Στατιστικό πακέτο S.P.S.S.

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Επαγωγική Στατιστική

Στατιστική Επιχειρήσεων Ι

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Απλή Ευθύγραµµη Συµµεταβολή

519.22(07.07) 78 : ( ) /.. ; c (07.07) , , 2008

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Εισαγωγή στη Στατιστική Επεξεργασία Δεδομένων με το SPSS for Windows

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Mann Whitney U τεστ)

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Άσκηση 10, σελ Για τη μεταβλητή x (άτυπος όγκος) έχουμε: x censored_x 1 F 3 F 3 F 4 F 10 F 13 F 13 F 16 F 16 F 24 F 26 F 27 F 28 F

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

Δείγμα πριν τις διορθώσεις

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

Media Monitoring. Ενότητα 7: Εισαγωγή & Ανάλυση δεδομένων με το SPSS. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Περιεχόμενα. Πρόλογος... v

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Περιγραφή των εργαλείων ρουτινών του στατιστικού

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Κεφάλαιο 4. Περιγραφική Στατιστική - Γραφήματα. Σύνοψη. Προαπαιτούμενη γνώση. 4.1 Βασικές Έννοιες και Ορισμοί

Περιγραφική Στατιστική

6.4. LOGLINEAR (MANOVA) 121

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Περιεχόμενα. Πρόλογος 17 ΚΕΦΑΛΑΙΟ 1 23

Εισαγωγή στην Ανάλυση Δεδομένων

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

Transcript:

Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης Τμήμα Πληροφορικής Εργαστήριο «Θεωρία Πιθανοτήτων και Στατιστική» ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Περιεχόμενα 1. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ... 2 1.1 Περιγραφή των τιμών μιας μεταβλητής... 2 1.1.1 Ποιοτικές μεταβλητές... 2 1.1.2 Ποσοτικές μεταβλητές... 3 1.2 Ανάλυση σε υποσύνολα του δείγματος... 4 1.2.1 Η Διαδικασία SPLIT FILE... 4 1.2.2 Η Διαδικασία EXPLORE... 4 1.3 Περιγραφή / συσχέτιση των τιμών δύο μεταβλητών... 5 1.3.1 Συσχέτιση μεταξύ δύο ποιοτικών μεταβλητών... 5 1.3.2 Συσχέτιση μεταξύ δύο ποσοτικών μεταβλητών... 6 2. ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ... 7 2.1 Έλεγχος υποθέσεων για τη μέση τιμή ενός πληθυσμού... 7 2.2 Έλεγχος υποθέσεων για τη διαφορά των μέσων τιμών δύο ανεξάρτητων πληθυσμών... 9 Φάση 1 Σύγκριση διασπορών των δύο πληθυσμών:... 11 Φάση 2 Σύγκριση μέσων των δύο πληθυσμών:... 11 2.3 Έλεγχος υποθέσεων για τη διαφορά των μέσων τιμών δύο εξαρτημένων πληθυσμών... 12 2.4 Έλεγχος ανεξαρτησίας / ομοιογένειας μεταξύ δύο ποιοτικών μεταβλητών... 14 3. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ... 17 3.1 Παράδειγμα 1 ο (απλή παλινδρόμηση)... 17 3.2 Παράδειγμα 2 ο (πολλαπλή παλινδρόμηση)... 20 1

1. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Μερικές χρήσιμες διαδικασίες για τη σύνοψη, ταξινόμηση και παρουσίαση των πρωτογενών δεδομένων ενός δείγματος σε εύληπτη μορφή. 1.1 Περιγραφή των τιμών μιας μεταβλητής 1.1.1 Ποιοτικές μεταβλητές Οι μέθοδοι σύνοψης και παρουσίασης ποιοτικών δεδομένων περιορίζονται στους πίνακες συχνοτήτων και τις γραφικές παραστάσεις. Με τη διαδικασία Frequencies μπορούμε να επιτύχουμε άμεσα την κατασκευή τους. Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Analyze Descriptive Statistics Frequencies εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Frequencies. Επιλέγουμε τη μεταβλητή (ή τις μεταβλητές) που θέλουμε να περιγράψουμε και τη μετακινούμε (με τη χρήση του βέλους) στο πλαίσιο variable(s). Παρατηρούμε ότι η επιλογή Display frequency tables είναι ενεργοποιημένη. Εξ ορισμού η διαδικασία θα κατασκευάσει μόνο τον αντίστοιχο πίνακα συχνοτήτων. Αν επιθυμούμε την κατασκευή κάποιου γραφήματος θα πρέπει να ενεργοποιήσουμε την επιλογή Charts που βρίσκεται στο ίδιο παράθυρο διαλόγου. Τα κατάλληλα διαγράμματα για την περιγραφή ποιοτικών δεδομένων είναι τα κυκλικά διαγράμματα (pie charts) και τα ραβδογράμματα (bar charts). Εφόσον επιλεγούν τα δεύτερα, δίνεται η δυνατότητα επιλογής των τιμών που θα εμφανίζονται στον κατακόρυφο άξονα: απόλυτες συχνότητες (frequencies) ή ποσοστά (percentages). Επιλέγοντας το OΚ ή/και το Continue παίρνουμε τα αποτελέσματα της διαδικασίας σε ένα αρχείο αποτελεσμάτων. Ο πίνακας συχνοτήτων αποτελείται από 5 στήλες. Στην πρώτη στήλη εμφανίζονται οι τιμές της μεταβλητής. Στην δεύτερη εμφανίζονται οι συχνότητες εμφάνισης τους (frequency) και στην τρίτη τα αντίστοιχα ποσοστά (percent). Τα ποσοστά αυτά είναι ποσοστά επί του συνολικού μεγέθους του δείγματος συμπεριλαμβανομένων των ελλειπουσών τιμών. Στην τέταρτη στήλη εμφανίζονται τα έγκυρα ποσοστά (valid percent), τα οποία είναι ποσοστά επί του συνολικού μεγέθους του δείγματος εξαιρουμένων των ελλειπουσών τιμών. Στην πέμπτη στήλη εμφανίζονται τα αθροιστικά ποσοστά (cumulative percent). Το ποσοστό που αντιστοιχεί σε μια τιμή της μεταβλητής είναι το συνολικό ποσοστό που αντιστοιχεί στην τιμή αυτή και σε όλες τις προηγούμενες τιμές. 2

1.1.2 Ποσοτικές μεταβλητές Με τη διαδικασία Frequencies μπορούμε να περιγράψουμε και ποσοτικά χαρακτηριστικά, υπολογίζοντας κατάλληλα στατιστικά μετρά (statistics) και κατασκευάζοντας ιστογράμματα (histogram) για την γραφική παρουσίασή τους. Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Analyze Descriptive Statistics Frequencies εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Frequencies. Επιλέγουμε τη μεταβλητή (ή τις μεταβλητές) που θέλουμε να περιγράψουμε και τη μετακινούμε (με τη χρήση του βέλους) στο πλαίσιο variable(s). Παρατηρούμε ότι η επιλογή Display frequency tables είναι ενεργοποιημένη. Στην περίπτωση που οι διαφορετικές τιμές που παίρνει η μεταβλητή είναι πολλές η επιλογή αυτή θα πρέπει να απενεργοποιηθεί, διότι τα αποτελέσματά της δεν θα είναι επαρκώς χρήσιμα. Για τον υπολογισμό στατιστικών μέτρων ενεργοποιούμε την επιλογή Statistics που βρίσκεται στο ίδιο παράθυρο διαλόγου και επιλέγουμε τα στατιστικά μέτρα που θέλουμε να υπολογιστούν. Μερικές Από Τις Επιλογές Στατιστικών Μέτρων Percentile Values Ποσοστιαίες Τιμές Quartiles Τεταρτημόρια Percentiles - Ποσοστημόρια Dispersion Διασπορά Standard Deviation Τυπική Απόκλιση Variance Διακύμανση Range - Εύρος Central Tendency Κεντρική Τάση Mean Αριθμητικός Μέσος Median Διάμεσος Mode Επικρατούσα Τιμή Sum Άθροισμα Distribution - Κατανομή Skewness Ασυμμετρία Kurtosis - Κύρτωση Αν επιθυμούμε την κατασκευή κάποιου γραφήματος θα πρέπει να ενεργοποιήσουμε την επιλογή Charts που βρίσκεται στο ίδιο παράθυρο διαλόγου και να επιλέξουμε το Histograms. Η επιλογή with normal curve (κανονική καμπύλη) είναι προαιρετική. 3

1.2 Ανάλυση σε υποσύνολα του δείγματος 1.2.1 Η Διαδικασία SPLIT FILE Στην περίπτωση που επιθυμούμε να περιγράψουμε μια μεταβλητή στις διάφορες κατηγορίες μιας μεταβλητής (π.χ. να περιγράψουμε το μισθό των εργαζομένων μιας επιχείρησης ξεχωριστά για τους άντρες και τις γυναίκες), θα πρέπει πρώτα να διαχωρίσουμε το δείγμα μας με βάση τις κατηγορίες της μεταβλητής αυτής. Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Data Split File εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Split File. Ενεργοποιούμε την επιλογή Compare Groups ή Organize output by groups (η διαφορά μεταξύ των δύο είναι μόνο ως προς την παρουσίαση των αποτελεσμάτων) και μετακινούμε στο πλαίσιο Groups Based On την μεταβλητή βάση της οποίας θα διαχωριστεί το δείγμα (π.χ. το φύλο). Επιλέγοντας το ΟΚ επανερχόμαστε στο αρχείο δεδομένων όπου οι περιπτώσεις (οι γραμμές) έχουν ταξινομηθεί με βάση τις τιμές της μεταβλητής που επιλέξαμε προηγουμένως. Στη συνέχεια μπορούμε να περιγράψουμε οποιαδήποτε άλλη μεταβλητή με τη διαδικασία Frequencies όπως παρουσιάσαμε προηγούμενα. Παρατήρηση: Η μεταβλητή που χρησιμοποιείται για τον διαχωρισμό του δείγματος είναι συνήθως ποιοτική. Στην περίπτωση που επιλεγεί μια ποσοτική μεταβλητή αυτή θα πρέπει να παίρνει λίγες διαφορετικές τιμές αλλιώς τα αποτελέσματα της ανάλυσης δεν θα είναι επαρκώς χρήσιμα. 1.2.2 Η Διαδικασία EXPLORE Με τη διαδικασία Explore μπορούμε να επιτύχουμε την πιο πλούσια και πλήρη περιγραφική στατιστική των παρατηρήσεων μιας ποσοτικής μεταβλητής στις διάφορες κατηγορίες κάποιας ποιοτικής. Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Analyze Descriptive Statistics Explore εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Explore. Μετακινούμε την ποσοτική μεταβλητή που θέλουμε να περιγράψουμε στο πλαίσιο dependent list και την ποιοτική μεταβλητή στο πλαίσιο factor list. Εφόσον επιθυμούμε την κατασκευή ιστογραμμάτων ενεργοποιούμε την επιλογή Plots και επιλέγουμε το Histogram. Εξ ορισμού η διαδικασία Explore παράγει ένα πλήθος στατιστικών αποτελεσμάτων όπως στατιστικά μέτρα, το φυλλογράφημα (stem leaf) και το θηκόγραμμα (Box Plot). Σημαντικός είναι και ο υπολογισμός διαστημάτων εμπιστοσύνης για το μέσο ενός πληθυσμού (95% confidence interval for mean (lower bound, upper bound)) που παρουσιάζεται μαζί με τα στατιστικά μέτρα. 4

1.3 Περιγραφή / συσχέτιση των τιμών δύο μεταβλητών 1.3.1 Συσχέτιση μεταξύ δύο ποιοτικών μεταβλητών Η βασική μέθοδος παρουσίασης δύο ποιοτικών χαρακτηριστικών είναι η κατασκευή της κοινής κατανομής συχνοτήτων (πίνακας συνάφειας) και ο υπολογισμός των αντίστοιχων ποσοστών. Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Analyze Descriptive Statistics Crosstabs εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Crosstabs. Επιλέγουμε την μεταβλητή, τις κατηγορίες της οποίας θέλουμε να έχουμε στις γραμμές του πίνακα συνάφειας και τη μετακινούμε στο πλαίσιο Row(s). Επιλέγουμε την άλλη μεταβλητή και τη μετακινούμε στο πλαίσιο Column(s). Εφόσον επιθυμούμε τον υπολογισμό των αντίστοιχων ποσοστών, ενεργοποιούμε την επιλογή Cells και επιλέγουμε το ποσοστό που θέλουμε να υπολογιστεί. Ας σημειωθεί εδώ ότι υπάρχουν τρία είδη ποσοστών σε έναν πίνακα συνάφειας: Ποσοστό επί της γραμμής Ποσοστό επί της στήλης Ποσοστό επί του συνόλου (row percentages) (column percentages) (total percentages) Περισσότερα στοιχεία αναφέρονται στα συμπεράσματα της ενότητας 2.4. Παρατήρηση: Η διαδικασία Crosstabs μπορεί να χρησιμοποιηθεί και στην περίπτωση των ποσοτικών μεταβλητών των οποίων οι τιμές είναι λίγες ή έχουν κωδικοποιηθεί προηγουμένως και αντιστοιχηθεί σε διαστήματα τιμών. 5

1.3.2 Συσχέτιση μεταξύ δύο ποσοτικών μεταβλητών Ο υπολογισμός των περιγραφικών στατιστικών μέτρων για τον εντοπισμό της φύσης και της έντασης της σχέσης μεταξύ δύο ποσοτικών μεταβλητών πραγματοποιείται με τον υπολογισμό του συντελεστή γραμμικής συσχέτισης του Pearson (διαδικασία Correlate) και με την κατασκευή του διαγράμματος διασποράς (διαδικασία Scatter). Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Analyze Correlate Bivariate εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Correlations. Επιλέγουμε τις μεταβλητές των οποίων τη σχέση αναζητούμε και τις μετακινούμε στο πλαίσιο variable(s). Μπορούμε να μετακινήσουμε περισσότερες από δύο μεταβλητές. Στην περίπτωση αυτή οι υπολογισμοί θα γίνουν για κάθε ανά δύο συνδυασμό τους. Παρατήρηση: Ο συντελεστής γραμμικής συσχέτισης του Pearson ( r ) παίρνει τις τιμές: -1 r +1-1 0 +1 Μηδενική γραμμική συσχέτιση Τέλεια αρνητική γραμμική συσχέτιση Τέλεια θετική γραμμική συσχέτιση Όσο το r βρίσκεται πιο κοντά στο +1 (-1), τόσό πιο ισχυρή θετική (αρνητική) συσχέτιση υπάρχει. Όσο το r βρίσκεται πιο κοντά στο 0, τόσό πιο ασθενής συσχέτιση υπάρχει. Συνήθως, θεωρούμε ότι η συσχέτιση είναι: Ισχυρή έως πολύ ισχυρή, όταν r > 0,7 Μέτρια έως ικανοποιητική, όταν 0,5 < r < 0,7 Ασθενής έως μέτρια, όταν r < 0,5 Από τη βασική ράβδο προτιμήσεων του λογισμικού επιλέγοντας Graphs Scatter εμφανίζεται το πλαίσιο διαλόγου της διαδικασίας Scatterplot. Επιλέγοντας την μορφή Simple με το πλήκτρο Define προχωρούμε στον προσδιορισμό των στοιχείων του. Επιλέγουμε τις δύο ποσοτικές μεταβλητές που μας ενδιαφέρουν και τις μετακινούμε στα πλαίσια Y Axis, X Axis. Όταν η μια από τις δύο μεταβλητές θεωρείται ως ανεξάρτητη μετακινείται στο πλαίσιο X Axis. 6

2. ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Όταν επιλέγουμε να πραγματοποιήσουμε οποιοδήποτε έλεγχο με επίπεδο σημαντικότητας α = 0,05 τότε το κριτήριο αποδοχής ή απόρριψης της μηδενικής υπόθεσης είναι: sig. > 0.05 αποδοχή της Η 0 sig. < 0,05 απόρριψη της Η 0 2.1 Έλεγχος υποθέσεων για τη μέση τιμή ενός πληθυσμού Ο έλεγχος αυτός αφορά τις περιπτώσεις όπου θέλουμε να ελέγξουμε, αν η μέση τιμή μιας μεταβλητής διαφέρει στατιστικά σημαντικά από μία δεδομένη τιμή. Παράδειγμα: Μπορούμε να ισχυριστούμε ότι ο μέσος μισθός όλων των εργαζομένων είναι 33.000 δολ.; Στατιστικές Υποθέσεις H 0 : μ = μ ο Η α : μ μ ο Η μέση τιμή δεν διαφέρει στατιστικά σημαντικά από την δεδομένη τιμή Η μέση τιμή διαφέρει στατιστικά σημαντικά από την δεδομένη τιμή Στατιστικός Έλεγχος t-test Διαδικασία Analyze Compare Means One-Sample T-Test Στο παράθυρο που ανοίγει, επιλέγουμε και μεταφέρουμε τη μεταβλητή που μας ενδιαφέρει (current salary) στο πλαίσιο Test Variable ενώ στο πλαίσιο Test Value πληκτρολογούμε την υπό έλεγχο τιμή (33000 χωρίς κόμμα ή τελεία). ΟΚ. 7

Αποτελέσματα One-Sample Statistics Current Salary Std. Error N Mean Std. Deviation Mean 474 $34,419.57 $17,075.661 $784.311 One-Sample Test Current Salary Test Value = 33000 95% Confidence Interval of the Mean Difference t df Sig. (2-tailed) Difference Lower Upper 1.810 473.071 $1,419.568 -$121.60 $2,960.73 Ερμηνεία Αποτελεσμάτων Συμπέρασμα Το επίπεδο σημαντικότητας του ελέγχου 0,071 είναι μικρότερο του 0,05. Συνεπώς αποδεχόμαστε τη μηδενική υπόθεση. Ο μέσος μισθός των εργαζομένων δεν διαφέρει στατιστικά σημαντικά από τις 33.000 δολ. (t = 1,810, df = 473, sig. = 0,071). Ο μέσος μισθός των εργαζομένων στο δείγμα είναι 34.419,57 δολ. με τυπική απόκλιση 17.075,661 δολ. 8

2.2 Έλεγχος υποθέσεων για τη διαφορά των μέσων τιμών δύο ανεξάρτητων πληθυσμών Ο έλεγχος αυτός αφορά τις περιπτώσεις όπου θέλουμε να ελέγξουμε αν η μέση τιμή μιας μεταβλητής διαφέρει ή όχι σε δύο ανεξάρτητους πληθυσμούς. Παράδειγμα Θα θέλαμε να ελέγξουμε αν η προϋπηρεσία των εργαζόμενων διαφέρει μεταξύ των ανώτερων και των κατώτερων στελεχών. Στατιστικές Υποθέσεις H 0 : μ 1 - μ 2 = 0 Οι μέσες τιμές των δύο πληθυσμών δεν διαφέρουν στατιστικά σημαντικά Η α : μ 1 - μ 2 0 Οι μέσες τιμές των δύο πληθυσμών διαφέρουν στατιστικά σημαντικά Στατιστικός Έλεγχος t-test Διαδικασία Analyze Compare Means Independent-Sample T-Test Επιλέγουμε τη μεταβλητή, της οποία θέλουμε να ελέγξουμε τη μέση τιμή, στο πλαίσιο Test Variable (prevexp) και τη μεταβλητή, βάση των τιμών της οποίας ορίζονται οι δύο ανεξάρτητοι πληθυσμοί, στο πλαίσιο Grouping Variable (jobcat). Παρατηρούμε ότι ενεργοποιείται το κουμπί Define Groups το οποίο και επιλέγουμε. Στο παράθυρο που ανοίγει στα πλαίσια Group1 και Group2 δίνουμε αντίστοιχα τις τιμές της μεταβλητής (jobcat) που προσδιορίζουν τους δύο πληθυσμούς. Παράδειγμα, στο πλαίσιο Group1 δίνουμε την τιμή 1 που αντιστοιχεί στα κατώτερα στελέχη (clericals) και στο Group2 την τιμή 3 που αντιστοιχεί στα ανώτερα στελέχη (managers). Στο παράθυρο Define Groups δίνεται και μια ακόμη δυνατότητα προσδιορισμού των δύο πληθυσμών, δηλώνοντας μια οριακή τιμή για τη μεταβλητή Grouping Variable. Για παράδειγμα, θα μπορούσαμε να προσδιορίσουμε δύο πληθυσμούς εργαζομένων ανάλογα με το αν ο μισθός τους (grouping variable) είναι μικρότερος ή μεγαλύτερος από $30.000 (cut point). Επιλέγοντας το Continue και στη συνέχεια το OK, εκτελείται η διαδικασία t-test. 9

Αποτελέσματα Group Statistics Previous Experience (months) Employment Category Clerical Manager Std. Error N Mean Std. Deviation Mean 363 85.04 95.275 5.001 84 77.62 73.260 7.993 Independent Samples Test Previous Experience (months) Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df t-test for Equality of Means Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference Std. Error Difference Lower Upper 3.777.053.669 445.504 7.420 11.087-14.370 29.209.787 155.230.433 7.420 9.429-11.205 26.045 10

Ερμηνεία Αποτελεσμάτων Ο έλεγχος υποθέσεων για την διαφορά μέσων τιμών σε 2 ανεξάρτητους πληθυσμούς (t-test) πραγματοποιείται σε δύο φάσεις. Φάση 1: Σύγκριση διασπορών των δύο πληθυσμών H 0 : σ 1 2 = σ 2 2 Οι διακυμάνσεις των δύο πληθυσμών δεν διαφέρουν σημαντικά (equal variances assumed) Η α : σ 1 2 σ 2 2 Οι διακυμάνσεις των δύο πληθυσμών διαφέρουν σημαντικά (equal variances not assumed) Ο στατιστικός έλεγχος που πραγματοποιείται είναι του Levene (F-test). Για το παραπάνω παράδειγμα F = 3.777 sig. = 0.053. Επειδή sig. > 0,05 αποδεχόμαστε τη μηδενική υπόθεση, δηλαδή ότι οι διακυμάνσεις δεν διαφέρουν (equal variances assumed) και συνεχίζουμε να διαβάζουμε την πρώτη γραμμή του ίδιου πίνακα. Αν απορρίπταμε τη μηδενική υπόθεση τότε θα συνεχίζαμε να διαβάζουμε τη δεύτερη γραμμή. Φάση 2: Σύγκριση μέσων των δύο πληθυσμών Για το παραπάνω παράδειγμα t = 0,669 df = 445 sig. = 0.504. Επειδή sig. > 0,05 αποδεχόμαστε την μηδενική υπόθεση, δηλαδή ότι οι μέσοι των δύο πληθυσμών δεν διαφέρουν σημαντικά. Συμπέρασμα Η μέση προϋπηρεσία των εργαζομένων δεν διαφέρει στατιστικά σημαντικά μεταξύ των ανώτερων και των κατώτερων στελεχών (t = 0,669, df = 445, sig. = 0,504). Στα αποτελέσματα παρουσιάζονται και μερικά περιγραφικά στατιστικά, στον πρώτο πίνακα, όπου μπορούμε να παρατηρήσουμε ότι η μέση προϋπηρεσία είναι 85,04 μήνες για τα κατώτερα στελέχη (clericals) και 77,62 μήνες για τα ανώτερα στελέχη (managers). Συνηθίζουμε στην αναφορά των συμπερασμάτων να καταγράφουμε και τα στατιστικά στοιχεία του δείγματος (την τυπική απόκλιση επίσης). 11

2.3 Έλεγχος υποθέσεων για τη διαφορά των μέσων τιμών δύο εξαρτημένων πληθυσμών Ο έλεγχος αυτός αφορά τις περιπτώσεις όπου θέλουμε να ελέγξουμε αν οι μέσες τιμές δύο μεταβλητών διαφέρουν ή όχι σε δύο εξαρτημένους πληθυσμούς. Παράδειγμα Θα θέλαμε να ελέγξουμε αν ο μισθός των εργαζόμενων διαφέρει από τον αρχικό τους μισθό. Στατιστικές Υποθέσεις H 0 : μ 1 - μ 2 = 0 Οι μέσες τιμές των δύο πληθυσμών δεν διαφέρουν στατιστικά σημαντικά Η α : μ 1 - μ 2 0 Οι μέσες τιμές των δύο πληθυσμών διαφέρουν στατιστικά σημαντικά Στατιστικός Έλεγχος t-test Διαδικασία Analyze Compare Means Paired-Sample T-Test Επιλέγουμε τις δύο μεταβλητές, των οποίων θέλουμε να ελέγξουμε τη μέση τιμή τους και τις μεταφέρουμε στο πλαίσιο Paired Variables (current salary beginning salary). OK. 12

Αποτελέσματα Pair 1 Current Salary Beginning Salary Paired Samples Statistics Std. Error Mean N Std. Deviation Mean $34,419.57 474 $17,075.661 $784.311 $17,016.09 474 $7,870.638 $361.510 Paired Samples Correlations Pair 1 Current Salary & Beginning Salary N Correlation Sig. 474.880.000 Paired Samples Test Pair 1 Paired Differences 95% Confidence Interval of Std. Error the Difference Sig. Mean Std. Deviation Mean Lower Upper t df (2-tailed) Current Salary - $17,403.481 $10,814.620 $496.732$16,427.407 $18,379.555 35.036 473.000 Beginning Salary Ερμηνεία Αποτελεσμάτων Συμπέρασμα Το επίπεδο σημαντικότητας του ελέγχου 0,000 είναι μικρότερο του 0,05. Συνεπώς απορρίπτεται η μηδενική υπόθεση. Ο μέσος μισθός των εργαζομένων διαφέρει στατιστικά σημαντικά από το μέσο αρχικό μισθό τους (t = 35,036, df = 473, sig. < 0,001). Όταν η σημαντικότητα που δίνει το πρόγραμμα φαίνεται να είναι μηδέν, συνηθίζεται μα ανακοινώνεται στα αποτελέσματα ως sig. < 0,001. Στα αποτελέσματα παρουσιάζονται και μερικά περιγραφικά στατιστικά, στον πρώτο πίνακα, όπου μπορούμε να παρατηρήσουμε ότι ο μέσος μισθός είναι 34.419,57 δολ. ενώ ο μέσος αρχικός μισθός είναι 17.016,09. Συνηθίζεται στην αναφορά των συμπερασμάτων να καταγράφονται και τα στατιστικά στοιχεία του δείγματος (μέση τιμή και τυπική απόκλιση). 13

2.4 Έλεγχος ανεξαρτησίας / ομοιογένειας μεταξύ δύο ποιοτικών μεταβλητών Ο έλεγχος αυτός αφορά τις περιπτώσεις όπου θέλουμε να ελέγξουμε αν δύο ποιοτικές μεταβλητές είναι ανεξάρτητες μεταξύ τους ή όχι. Παράδειγμα Θα θέλαμε να ελέγξουμε αν το φύλο των εργαζομένων και η βαθμίδα στην οποία ανήκουν είναι ανεξάρτητα μεταξύ τους χαρακτηριστικά. Στατιστικές Υποθέσεις H 0 : Το φύλο και η βαθμίδα είναι ανεξάρτητα χαρακτηριστικά μεταξύ τους Η α : Το φύλο και η βαθμίδα δεν είναι ανεξάρτητα χαρακτηριστικά μεταξύ τους Στατιστικός Έλεγχος Διαδικασία: Χ 2 test (chi-square test) Ο έλεγχος Χ 2 εντοπίζει τυχόν διαφορές που υπάρχουν στην κατανομή των τιμών της μιας μεταβλητής στις τιμές της άλλης. Δυστυχώς, δεν μας παρέχει καμία πληροφορία ούτε για την ένταση ούτε για την αιτία της σχέσης που υπάρχει μεταξύ των δύο μεταβλητών (όταν υπάρχει). Analyze Descriptive Statistics Crosstabs Μεταφέρουμε τη μία μεταβλητή στο πλαίσιο Row(s) (gender) και την άλλη μεταβλητή στο πλαίσιο Columns(s) (Employment Category). Το αποτέλεσμα της διαδικασίας δεν επηρεάζεται από το ποια μεταβλητή θα μεταφερθεί σε ποιο πλαίσιο, παρά μόνο στην εμφάνιση κάποιων αποτελεσμάτων. Στη συνέχεια, ενεργοποιούμε το κουμπί Statistics και στο παράθυρο που ανοίγει επιλέγουμε το chi-square (Χ 2 test). Επιλέγοντας το Continue και στη συνέχεια το OK, το εκτελείται η διαδικασία Χ 2 -test. 14

Αποτελέσματα Gender * Employment Category Crosstabulation Count Gender Total Female Male Employment Category Clerical Custodial Manager Total 206 0 10 216 157 27 74 258 363 27 84 474 Chi-Square Tests Pearson Chi-Square Likelihood Ratio N of Valid Cases Asymp. Sig. Value df (2-sided) 79.277 a 2.000 95.463 2.000 474 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.30. Ερμηνεία Αποτελεσμάτων Συμπέρασμα Ο έλεγχος Χ 2 βασίζεται στο στατιστικό του Pearson και γι αυτό διαβάζουμε την πρώτη γραμμή του δεύτερου πίνακα. Το επίπεδο σημαντικότητας του ελέγχου 0,000 είναι μικρότερο του 0,05. Συνεπώς απορρίπτεται η μηδενική υπόθεση. Το φύλο ενός εργαζόμενου και η θέση που κατέχει στην εταιρία αυτή έχουν στατιστικά σημαντική σχέση μεταξύ τους (Χ 2 = 79,277, df = 2, sig. < 0,001). Ο πρώτος πίνακας των αποτελεσμάτων παρουσιάζει την κοινή κατανομή συχνοτήτων των δύο μεταβλητών και ονομάζεται πίνακας συνάφειας. Από αυτόν, προκύπτουν μερικές χρήσιμες περιγραφικές παρατηρήσεις. Για παράδειγμα, παρατηρούμε ότι στην ανώτερη θέση βρίσκονται 74 άντρες και 10 γυναίκες, ενώ στο σύνολο υπάρχουν 258 άντρες και 216 γυναίκες. Συνεπώς, οι πληθυσμοί των αντρών και των γυναικών δεν είναι ομοιογενείς στο πλήθος τους στην ανώτερη θέση. Αν θέλουμε να υπολογίζονται και τα αντίστοιχα ποσοστά στον πίνακ συνάφειας, θα πρέπει να το δηλώσουμε στο παράθυρο crosstabs και μέσα από την ενεργοποίηση του cells 15

Υπάρχουν 3 ποσοστά τα οποία θα μπορούσαν να υπολογιστούν: (α) επί του συνόλου της γραμμής (row) (β) επί του συνόλου της στήλης (column) και (γ) επί του γενικού συνόλου (total). Συνήθως, υπολογίζονται τα δύο πρώτα όταν ο στόχος είναι η διερεύνηση ύπαρξης σχέσης μεταξύ των δύο μεταβλητών. Gender * Employment Category Crosstabulation Gender Total Female Male Count % within Employment Category Count % within Employment Category Count % within Employment Category Employment Category Clerical Custodial Manager Total 206 0 10 216 56.7%.0% 11.9% 45.6% 157 27 74 258 43.3% 100.0% 88.1% 54.4% 363 27 84 474 100.0% 100.0% 100.0% 100.0% Στο παράδειγμα αυτό έχουν υπολογιστεί τα ποσοστά επί του συνόλου της στήλης και διαβάζονται ως εξής: Από το σύνολο των managers, το 11,9% είναι γυναίκες και το 88,1% είναι άνδρες. 16

3. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Η Γραμμική Παλινδρόμηση αποτελεί μία στατιστική μέθοδο, η οποία αποσκοπεί στον προσδιορισμό ενός μαθηματικού μοντέλου για την περιγραφή της σχέσης μεταξύ δύο ή περισσοτέρων μεταβλητών, το οποίο θα μπορούσε εν δυνάμει να χρησιμοποιηθεί και ως ένα εργαλείο πρόβλεψης των τιμών της μίας μεταβλητής. 3.1 Παράδειγμα 1 ο (απλή παλινδρόμηση) Θα θέλαμε να προσδιορίσουμε ένα μαθηματικό μοντέλο το οποίο να περιγράφει το μισθό των εργαζόμενων σε σχέση με ένα από τα επιμέρους χαρακτηριστικά τους. Λογική Υπόθεση Ο μισθός ενός εργαζόμενου μπορεί να περιγραφεί επαρκώς («εξαρτάται») από το μισθό πρόσληψης (αρχικό μισθό) και συνεπώς θα επιθυμούσαμε να προσδιορίσουμε ένα μαθηματικό μοντέλο το οποίο να συσχετίζει τους δύο μισθούς. Επιλογή του Μαθηματικού Μοντέλου Το γραμμικό μοντέλο: Y = α + β Χ + ε Διαδικασία εξαρτημένη μεταβλητή ανεξάρτητη μεταβλητή σφάλμα όπου, α β και ε πραγματικοί αριθμοί Analyze Regression Linear Μεταφέρουμε τη μεταβλητή την οποία μελετούμε (ή / και θέλουμε να κάνουμε πρόβλεψη των τιμών της) στο πλαίσιο Dependent (current salary) και την μεταβλητή, την οποία θα χρησιμοποιήσουμε για να ερμηνεύσουμε τις τιμές της πρώτης, στο πλαίσιο Independent(s) (beginnining salary). ΟΚ. 17

Αποτελέσματα Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.880 a.775.774 $8,115.356 a. Predictors: (Constant), Beginning Salary Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 1E+011 1 1.068E+011 1622.118.000 a 3E+010 472 65858997.22 1E+011 473 a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary Model 1 (Constant) Beginning Salary Coefficients a Unstandardized Coefficients a. Dependent Variable: Current Salary Standardized Coefficients B Std. Error Beta t Sig. 1928.206 888.680 2.170.031 1.909.047.880 40.276.000 18

Ερμηνεία Αποτελεσμάτων Τρίτος Πίνακας Το μαθηματικό μοντέλο το οποίο προκύπτει, σύμφωνα με τον τρίτο πίνακα, είναι το ακόλουθο: (Current Salary) = 1928,206 + 1,909 (Beginning Salary) + ε Έλεγχος του συντελεστή παλινδρόμησης β: Η 0 : β = 0 Η a : β 0 Εφαρμογή του t-test: sig = 0,000 < 0,05, συνεπώς απορρίπτεται η μηδενική υπόθεση Ο συντελεστής παλινδρόμησης β είναι στατιστικά σημαντικά διάφορος του μηδέν (t = 40,276, sig < 0,001), συνεπώς ο αρχικός μισθός ερμηνεύει στατιστικά σημαντικά τον τρέχον μισθό των εργαζομένων. Δεδομένου ότι ο συντελεστής αυτός είναι στατιστικά σημαντικός, η τιμή του ερμηνεύεται ως εξής: όταν ο αρχικός μισθός είναι αυξημένος κατά μία μονάδα (1 δολάριο), τότε ο τρέχον μισθός αναμένεται να είναι αυξημένος κατά 1,909 μονάδες (1,909 δολάρια, δηλαδή σχεδόν κατά δύο δολάρια). Πρώτος Πίνακας Ο δείκτης R-square (R 2 = 0,775) εκφράζει το ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής το οποίο ερμηνεύεται από τη διακύμανση των τιμών της ανεξάρτητης μεταβλητής. Δηλαδή στο παράδειγμα, το 77,5% της διακύμανσης των μισθών των εργαζομένων ερμηνεύεται από τη διακύμανση των αρχικών μισθών τους. Ο συντελεστής αυτός ονομάζεται συντελεστής προσδιορισμού και υποδεικνύει την ποιότητα προσαρμογής της εξίσωσης παλινδρόμησης στα δεδομένα. 19

3.2 Παράδειγμα 2 ο (πολλαπλή παλινδρόμηση) Θα θέλαμε να προσδιορίσουμε ένα μαθηματικό μοντέλο το οποίο να περιγράφει το μισθό των εργαζόμενων σε σχέση με περισσότερα από ένα από τα επιμέρους χαρακτηριστικά τους. Λογική Υπόθεση Ο μισθός ενός εργαζόμενου μπορεί να περιγραφεί επαρκώς («εξαρτάται») από το μισθό πρόσληψης (beginning salary), την προϋπηρεσία (prevexp) και το αν ανήκει σε κάποια μειονότητα ή όχι (minority). Επιλογή του Μαθηματικού Μοντέλου Το γραμμικό μοντέλο: Y = α + β 1 Χ 1 + β 2 Χ 2 + β 3 Χ 3 + ε Διαδικασία Analyze Regression Linear Μεταφέρουμε τη μεταβλητή την οποία μελετούμε (ή / και θέλουμε να κάνουμε πρόβλεψη των τιμών της) στο πλαίσιο Dependent (current salary) και τις μεταβλητές, τις οποίες θα χρησιμοποιήσουμε για να ερμηνεύσουμε τις τιμές της πρώτης, στο πλαίσιο Independent(s) (beginnining salary, prevexp, minority). ΟΚ. Αποτελέσματα Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.891 a.794.792 $7,778.677 a. Predictors: (Constant), Minority Classification, Previous Experience (months), Beginning Salary Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 1E+011 3 3.649E+010 603.106.000 a 3E+010 470 60507818.95 1E+011 473 a. Predictors: (Constant), Minority Classification, Previous Experience (months), Beginning Salary b. Dependent Variable: Current Salary 20

Model 1 (Constant) Beginning Salary Previous Experience (months) Minority Classification a. Dependent Variable: Current Salary Coefficients a Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 4088.204 941.424 4.343.000 1.916.046.883 41.541.000-21.981 3.465 -.135-6.345.000-768.727 884.803 -.019 -.869.385 Ερμηνεία Αποτελεσμάτων Τρίτος Πίνακας Το μαθηματικό μοντέλο το οποίο προκύπτει, σύμφωνα με τον τρίτο πίνακα, είναι το ακόλουθο: (Current Salary) = 1928,206 + (1,926) (Beginning Salary) + + (-21,981) (Previous Experience) + + (-768,727) Minority Classification) + ε Έλεγχος των συντελεστών παλινδρόμησης β: Η 0 : β = 0 Η a : β 0 Εφαρμογή του t-test: Beginning Salary sig = 0,000 < 0,05 Previous Experience sig = 0,000 < 0,05 Minority Classification sig = 0,385 > 0,05, Συνεπώς, ο αρχικός μισθός και η προϋπηρεσία ερμηνεύουν στατιστικά σημαντικά τον τρέχοντα μισθό ενώ η μειονότητα όχι. Οι ερμηνείες των συντελεστών είναι ανάλογες του προηγούμενου παραδείγματος. Πρώτος Πίνακας Ο δείκτης R-square (R 2 = 0,794) εκφράζει το ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής το οποίο ερμηνεύεται από τη διακύμανση των τιμών της ανεξάρτητης μεταβλητής. Δηλαδή στο παράδειγμα, το 79,4% της διακύμανσης των μισθών των εργαζομένων ερμηνεύεται από τη διακύμανση των αρχικών μισθών, της προϋπηρεσίας και του αν ανήκουν σε κάποια μειονότητα ή όχι. Ας παρατηρηθεί ότι, το ποσοστό αυτό δεν είναι σημαντικά μεγαλύτερο από αυτό που έχει προκύψει στο προηγούμενο παράδειγμα (77,5%). Η «μειονότητα», όπως φαίνεται στην προηγούμενη παράγραφο, δεν αποτελεί στατιστικά σημαντικό παράγοντα ερμηνείας των μισθών στο μοντέλο αυτό. Όμως, και η προϋπηρεσία δεν φαίνεται να συνεισφέρει πρακτικά σημαντικά. Στο σημείο αυτό θα πρέπει να αποφασίσουμε, αν είμαστε διατεθειμένοι να επιλέξουμε ένα περισσότερο πολύπλοκο μοντέλο, το οποίο βελτιώνει την ερμηνευτική δυνατότητα κατά αυτό το ποσοστό ή να επιλέξουμε ένα απλούστερο μοντέλο θυσιάζοντας (σε μικρό ποσοστό;) την ερμηνευτική δυνατότητα. 21