Κεφάλαιο 5 ο Περιγραφή των εργαλείων ρουτινών του στατιστικού πακέτου SPSS που χρησιµοποιήθηκαν. 5.1 Γενικά Το στατιστικό πακέτο SPSS είναι ένα λογισµικό που χρησιµοποιείται ευρέως ανά τον κόσµο από επιχειρήσεις και ιδιώτες, προσφέροντας «αναλύσεις προβλέψεων λογισµικού και λύσεων» (predictive analytics software and solutions). ηµιουργήθηκε το 1968 και από τότε γνωρίζει ραγδαία ανάπτυξη και έχοντας αποκτήσει πάνω από 250.000 πελάτες παγκοσµίως και εξυπηρετώντας περισσότερους από 1.200 εργαζόµενους σε 60 διαφορετικές χώρες. Η τεχνολογία του SPSS επέτρεψε τον χειρισµό δύσκολων συνόλων δεδοµένων που απαιτούσαν πολύπλοκες διαδικασίες. Επιπλέον, έγιναν ευκολότερες οι αναλύσεις δεδοµένων που αφορούσαν στις προτιµήσεις, γνώµες, συµπεριφορές σε οµάδες ανθρώπων. Παρακάτω αναλύουµε τις διαδικασίες- ρουτίνες του SPSS που χρησιµοποιήσαµε στην εργασία αυτή. 5.2 ANOVA Το πρώτο πράγµα που εφαρµόσαµε στα δεδοµένα µας ήταν η «ανάλυση της διασποράς», Analysis Of Variance (ANOVA). Η διαδικασία αυτή µας ήταν ιδιαίτερα χρήσιµη για να διαπιστώσουµε την σηµαντικότητα της κάθε µεταβλητής που θα πάρει µέρος στην δηµιουργία του µοντέλου πρόβλεψης. Οι µεταβλητές µε σηµαντικότητα µικρότερη του 0.05 γίνονται δεκτές, ενώ µε τιµή µεγαλύτερη του 0.05 απορρίπτονται. Η ακριβής διαδικασία που ακολουθήσαµε µε το SPSS ήταν η εξής: Analyze Compare Means One-Way ANOVA 60
σχήµα 5.1 Έπειτα εµφανίζεται ένα παράθυρο διαλόγου όπου στο πεδίο Dependent List συµπληρώνουµε την εξαρτηµένη µεταβλητή που έχουµε ορίσει (στην δικιά µας περίπτωση είναι η µεταβλητή lneffort) και στο πεδίο Factor την µεταβλητή της οποίας την σηµαντικότητα θέλουµε να εξετάσουµε. (σχήµα 5.2) σχήµα 5.2 61
Στη συνέχεια µας εµφανίζονται τα αποτελέσµατα της ανάλυσης της ANOVA σε έναν πίνακα. Στο πεδίο Sig βλέπουµε την τιµή της σηµαντικότητας της µεταβλητής µας. (πίνακας 5.1) ANOVA lneffort Sig. Sum of Squares df Mean Square F Between Groups 78,236 21 3,726 2,432,002 Within Groups 151,649 99 1,532 Total 229,885 120 πίνακας 5.1 Επαναλαµβάνουµε αυτήn τη διαδικασία για όλες τiς µεταβλητές που θα συµµετέχουν στο σχηµατισµό του µοντέλου πρόβλεψης. 5.3 Συγχώνευση Στο επόµενο βήµα προχωρούµε σε συγχώνευση των τιµών. Στις µεταβλητές όπου έχουµε καταλήξει ότι θα συµµετέχουν στη δηµιουργία του µοντέλου πρόβλεψης, ελέγχουµε πόσες διαφορετικές τιµές µπορεί να πάρει. Ορίζουµε κάποιο ανώτερο όριο για τον αριθµό αυτό, των διαφορετικών τιµών, και τις συγχωνεύουµε ανάλογα. Αυτή η διαδικασία µας βοηθά για τον καλύτερο χειρισµό των τιµών της κάθε µεταβλητής. (στην περίπτωση της δικής µας εργασίας, επιλέξαµε να έχουµε µέχρι τέσσερεις διαφορετικές τιµές). Πιο αναλυτικά, στο SPSS για να κάνουµε συγχώνευση ακολουθήσαµε την ίδια διαδικασία µε την ANOVA, όπως και παραπάνω, δηλαδή: Analyze Compare Means One-Way ANOVA τοποθετούµε την εξαρτηµένη µεταβλητή και την µεταβλητή που θέλουµε να εξετάσουµε και επιλέγουµε options τσεκάρουµε το descriptive. 62
σχήµα 5.3 Έπειτα µας εµφανίζεται στο output του SPSS viewer ο πίνακας των descriptive της εξεταζόµενης µεταβλητής, για παράδειγµα ο παρακάτω: Descriptives lneffort Financial, Property & Business Services 4 6,3285 2,46571 1,23286 2,4050 10,2520 3,04 8,32 Std. Insurance 6 7,6750 Deviatio 1,47468,60203 95% 6,1275 Confidence 9,2226 6,15 Maxim 10,27 Manufacturing N 2 Mean 7,5756 1,44885 n Std. 1,02449 Error -5,4418 Interval for 20,5930 Mean Minimum 6,55 um 8,60 Medical and Health Lower Upper 2 6,3167 4,12321 2,91555-30,7288 Bound 43,3623 Bound 3,40 9,23 Care Aerospace Occupational / Health 10 8,2699 1,10151,34833 7,4819 9,0579 7,01 10,50 Automotive and Safety 1 9,3097.... 9,31 9,31 Banking Professional Services 38 5 7,7272 6,1649,80660,83906,13085,37524 7,4621 5,1230 7,9924 7,2067 6,42 5,21 9,71 7,12 Communication Public Administration 14 5 6,9415 6,6103 1,23202,87652,39199,32927 5,8532 5,8989 8,0299 7,3216 6,30 5,29 8,44 8,86 Community Transport & Services Storage 5 3 6,8119 8,5465 2,64279,51940 1,18189,29988 3,5304 7,2563 10,0933 9,8368 2,83 7,96 10,03 8,96 Computers Wholesale & Retail 1 6,6644.... 6,66 6,66 Construction 1 6,0064.... 6,01 6,01 Trade 7,8709 7,87 7,87 consultancy Total 1211 6,7464 7,3105 1,38409.,12583. 7,0614. 7,5597. 6,75 2,83 10,91 6,75 Consumer Goods 1 10,9082.... 10,91 10,91 Defence 1 9,7120.... 9,71 9,71 Distribution 1 8,1605.... 8,16 8,16 Electricity, Gas, Water 13 6,6058 1,02468,28419 5,9865 7,2250 5,14 8,89 πίνακας 5.2 63
Έπειτα χωρίζοντας σε τέσσερεις κατηγορίες τα δεδοµένα, σύµφωνα µε τους µέσους όρους (mean), αντικαθιστούµε τις παλιές τιµές µε τις καινούργιες, µε την εξής διαδικασία µέσω του SPSS: Transform Recode Into Different Variables σχήµα 5.4 Και µας εµφανίζεται το παρακάτω παράθυρο διαλόγου, όπου τοποθετούµε την µεταβλητή, της οποίας της τιµές θέλουµε να αλλάξουµε, στο πεδίο Numeric Variable και στο πεδίο Output Variable γράφουµε το όνοµα της καινούργιας µεταβλητής και πατάµε change. 64
σχήµα 5.5 Στη συνέχεια πηγαίνουµε στο πεδίο Old And New Variables και τοποθετούµε τις τιµές στα αντίστοιχα πεδία (Old και New Values), για παράδειγµα, έστω ότι οι µεταβλητές 4 και 8 έχουν αλλάξει σε 1. Έτσι θα έχουµε το παρακάτω αποτέλεσµα: σχήµα 5.6 65
5.4 Γέµισµα τιµών Στην εργασία µας χρησιµοποιήσαµε τέσσερεις διαφορετικές µεθόδους για γέµισµα τιµών. Τις LD, MI, EM και RI. Η διαδικασία που ακολουθήσαµε µέσω του SPSS ήταν η εξής: 5.4.1 Εφαρµογή της µεθόδου LD Για να εφαρµόσουµε την µεθόδο LD στα δεδοµένα µας, ακολουθούµε την εξής διαδικασία µε το SPSS: Data Select Cases σχήµα 5.7 Έπειτα επιλέγουµε την περίπτωση του if condition satisfied, και στο πεδίο των Unselected Cases επιλέγουµε filter ή deleted. 66
σχήµα 5.8 Εκεί γράφουµε την συνθήκη που ισχύει στην περίπτωση της LD µεθόδου, για παράδειγµα: σχήµα 5.9 67
5.4.2 Γέµισµα µε την βοήθεια της µεθόδου MI Για να γεµίσουµε τα κενά των µεταβλητών που περιέχουν χαµένες τιµές µε την βοήθεια της µεθόδου ΜΙ, ακολουθούµε την εξής διαδικασία µε το SPSS: Analyze Descriptive Statistics Descriptives σχήµα 5.10 και µας εµφανίζεται ένα παράθυρο, όπου επιλέγουµε την µεταβλητή που περιέχει τις χαµένες τιµές και της οποίας των µέσω όρο θέλουµε να βρούµε, όπως φαίνεται και στο σχήµα 5.11 σχήµα 5.11 68
Έπειτα στον Output Viewer του SPSS, µας εµφανίζεται ο µέσος όρος και συµπληρώνουµε τα κενά που περιέχουν χαµένες τιµές, µε την τιµή αυτή. 5.4.3 Γέµισµα µε την βοήθεια της µεθόδου EM Για να γεµίσουµε τα κενά των µεταβλητών που περιέχουν χαµένες τιµές µε την βοήθεια της µεθόδου EM, ακολουθούµε την εξής διαδικασία µε το SPSS: Analyze Missing Value Analysis σχήµα 5.12 Στο παράθυρο που µας εµφανίζεται τοποθετούµε τις ανεξάρτητες µεταβλητές που θα πάρουν µέρος στη δηµιουργία του µοντέλου µας, τσεκάρουµε το κουτάκι EM, όπως φαίνεται στο παρακάτω σχήµα: 69
σχήµα 5.13 Στη συνέχεια επιλέγουµε Variables και ξεχωρίζουµε τις predicted από τις predictor µεταβλητές, (σχήµα 5.14) σχήµα 5.14 70
Κάνοντας save τα αρχείο αυτό σε µία θέση που το ορίζουµε εµείς, ανοίγοντας το θα έχουµε τις µεταβλητές που περιείχαν χαµένες τιµές, συµπληρωµένες. 5.4.3 Γέµισµα µε την βοήθεια της µεθόδου RI Για να γεµίσουµε τα κενά των µεταβλητών που περιέχουν χαµένες τιµές µε την βοήθεια της µεθόδου RI, ακολουθούµε την ίδια ακριβώς διαδικασία µε αυτή της µεθόδου EM. 5.5 Παλινδρόµηση (Regression) Για να εκτελέσουµε την διαδικασία του Regression πρέπει να έχουµε µία ολοκληρωµένη βάση. Ακολουθούµε την παρακάτω διαδικασία µε το SPSS: Analyze Regression Linear σχήµα 5.15 71
Έπειτα µας εµφανίζεται ένα παράθυρο όπου συµπληρώνουµε τις ανεξάρτητες και τις εξαρτηµένες µεταβλητές και επιλέγουµε την µέθοδο που θέλουµε να γίνει η διαδικασία (stepwise) στην περίπτως;h µας. Έτσι έχουµε το παρακάτω σχήµα: σχήµα 5.16 Πατώντας ok µας εµφανίζεται στο Output Viewer του SPSS οι πίνακες των αποτελεσµάτων. Πηγαίνοντας στον πίνακα µε τις coefficients έχουµε τις τιµές που θέλουµε. 5.6 Τυπική απόκλιση (Standard Deviation (SD)) Για τον υπολογισµό του SD χρειαζόµαστε την τιµή της πρόβλεψης PRE. Για να δηµιουργήσουµε την PRE ακολουθούµε την ίδια διαδικασία που ακολουθήσαµε και παραπάνω µε την διαδικασία του Regression, αλλά πριν πατήσουµε ok, επιλέγουµε: 72
Save Unstandardized σχήµα 5.17 και στη βάση δεδοµένων µας προστίθεται η εκτίµηση PRE, στο τέλος των υπόλοιπων µεταβλητών. 73