Ανάλυση εδοµένων - Χρήση του στατιστικού πακέτου SPSS. 1 η ΕΝΟΤΗΤΑ ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ

Σχετικά έγγραφα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΔΡ. ΙΩΑΝΝΗΣ Σ. ΤΡΙΑΝΤΑΦΥΛΛΟΥ

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Λυμένες Ασκήσεις για το μάθημα:

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

1991 US Social Survey.sav

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Άσκηση 1. Πληθυσμός (Χ i1 )

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Άσκηση 2. i β. 1 ου έτους (Υ i )

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Περιγραφή των εργαλείων ρουτινών του στατιστικού

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική

ΕΝ ΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΑΣΚΗΣΗΣ 2 (Εργαστήρια µαθήµατος «Στατιστικά Προγράµµατα», τµ. Στατ. & Ασφ. Επιστ., 04-05) (Επιµέλεια: Ελευθεράκη Αναστασία)

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

κωδικοποίηση κτλ) Εισαγωγή δεδομένων με μορφή SPSS Εισαγωγή δεδομένων σε μορφή EXCEL Εισαγωγή δεδομένων σε άλλες μορφές

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Εργαστήριο στατιστικής Στατιστικό πακέτο S.P.S.S.

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

6 / 4 / Βιοστατιστικός, MSc, PhD

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Η ψηφιακή τεχνολογία στην ερευνητική δραστηριότητα Θέματα κουίζ. Υψηλάντης Γεώργιος, Βαβούρας Θεόδωρος Τμήμα Ιταλικής Γλώσσας & Φιλολογίας

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Ενδεικτικές ασκήσεις ΔΙΠ 50

Περιγραφική Στατιστική

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Εισαγωγή στη Στατιστική

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Στατιστική Επιχειρήσεων Ι

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ΒΙΟΣΤΑΤΙΣΤΙΚΗ Πρακτική με SPSS (1)

Απλή Γραμμική Παλινδρόμηση II

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Απλή Ευθύγραµµη Συµµεταβολή

ΕΠΑΝΑΛΗΠΤΙΚΟ ΒΙΝΤΕΟ ΣΤΑΤΙΣΤΙΚΗ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΑΣΚΗΣΗ 7 (ΛΥΣΗ) Στο αρχείο του SPSS θα υπάρχουν οι µεταβλητές,

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Μάθηµα 3 ο. Περιγραφική Στατιστική

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

Είδη Μεταβλητών. κλίµακα µέτρησης

Transcript:

Ανάλυση εδοµένων - Χρήση του στατιστικού πακέτου SPSS η ΕΝΟΤΗΤΑ ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ (Α) Καταγραφή δεδοµένων και επιλογή κατάλληλων ρυθµίσεων των µεταβλητών Η βασική οθόνη του στατιστικού πακέτου SPSS έχει την ακόλουθη µορφή: Στον παραπάνω πίνακα, γίνεται η καταγραφή των δεδοµένων που επιθυµούµε να αναλυθούν. Κάθε στήλη του πίνακα αποτελεί και ένα διαφορετικό χαρακτηριστικό (δηλαδή µία διαφορετική µεταβλητή (variable)), ενώ κάθε οριζόντια γραµµή αντιπροσωπεύει ένα διαφορετικό άτοµο (ή παρατήρηση) του δείγµατος που έχουµε στη διάθεση µας. Προκειµένου να διαµορφώσουµε κατάλληλα τις ρυθµίσεις που αφορούν την κάθε µεταβλητή (δηλαδή το κάθε διαφορετικό χαρακτηριστικό), επιλέγουµε το Variable View (βρίσκεται στην κάτω αριστερή γωνία της οθόνης) και εµφανίζεται µία άλλη οθόνη, όπως φαίνεται παρακάτω: Ακαδηµαϊκό Έτος -

Οι ρυθµίσεις που πρέπει να διαµορφωθούν για κάθε µία µεταβλητή χωριστά, είναι οι εξής: Name: εδώ δίνεται η ονοµασία της κάθε µεταβλητής Type: εδώ δηλώνεται το είδος της πληροφορίας που θα εισαχθεί σε κάθε µεταβλητή (δηλαδή σε κάθε στήλη του πίνακα δεδοµένων). Για παράδειγµα, αν η πληροφορία είναι ποσοτική, τότε ο κατάλληλος τύπος µεταβλητής που πρέπει να επιλεγεί είναι το Numeric, ενώ αν πρόκειται να εισάγουµε στη συγκεκριµένη στήλη λέξεις (γράµµατα), τότε θα επιλέξουµε τον τύπο String. Width: εδώ προσδιορίζεται το µέγιστο πλήθος ψηφίων (αν πρόκειται για αριθµό) ή γραµµάτων (αν πρόκειται για λέξη) που θα επιτρέπεται να εισαχθεί στη συγκεκριµένη στήλη Decimals: εδώ δηλώνεται ο αριθµός δεκαδικών ψηφίων που θέλουµε να εµφανίζονται στα αριθµητικά δεδοµένα της κάθε στήλης (προφανώς αν πρόκειται για πληροφορία τύπου String, τότε η συγκεκριµένη επιλογή γίνεται αυτόµατα. Measure: εδώ δηλώνεται το αν το χαρακτηριστικό που µελετάµε είναι ποσοτική µεταβλητή (Scale), ονοµαστική ποιοτική µεταβλητή (Nominal) ή διατάξιµη ποιοτική µεταβλητή (Ordinal). Ακαδηµαϊκό Έτος -

Αφού γίνουν οι κατάλληλες ρυθµίσεις στο Variable View, επιστρέφουµε στην αρχική οθόνη (επιλέγοντας το Data View), ώστε να εισάγουµε τα δεδοµένα. Για καλύτερη κατανόηση, ας θεωρήσουµε ένα παράδειγµα στο οποίο το αντικείµενο µελέτης είναι η ταχύτητα επεξεργασίας µίας σειράς ηλεκτρονικών υπολογιστών (εκ των οποίων οι πρώτοι 7 χρησιµοποιούν τον επεξεργαστή Α, ενώ οι υπόλοιποι τον επεξεργαστή Β). Η ποσοτική µεταβλητή (Scale) που θα χρησιµοποιηθεί για την καταγραφή των ταχυτήτων επεξεργασίας ονοµάζεται SPEED και µετριέται σε µονάδες GHz µε ένα δεκαδικό ψηφίο, ενώ η ποιοτική µεταβλητή (Nominal) που θα χρησιµοποιηθεί για την καταγραφή του επεξεργαστή που χρησιµοποιεί ο κάθε υπολογιστής ονοµάζεται PROCESSOR και είναι τύπου String. Ρυθµίζοντας κατάλληλα τις επιλογές στο Variable View, στη συνέχεια καταγράφουµε τις παρατηρειθείσες ταχύτητες των υπολογιστών καθώς και το είδος επεξεργαστή που χρησιµοποιούν στον πίνακα Data View, όπως φαίνεται ακολούθως: (Β) ιαχωρισµός αρχείου βάση ενός ποιοτικού χαρακτηριστικού Σε περίπτωση που ενδιαφερόµαστε να αναλύσουµε ξεχωριστά τα δεδοµένα που αφορούν τους υπολογιστές που χρησιµοποιούν τον επεξεργαστή Α και τον επεξεργαστή Β, τότε ακολουθώντας τη διαδικασία Data / Split File, επιλέγουµε τη µεταβλητή PROCESSOR ως µεταβλητή οµαδοποίησης (grouping variable), όπως φαίνεται και παρακάτω: 3 Ακαδηµαϊκό Έτος -

(Γ) ιαγραφή περιπτώσεων από το σύνολο των δεδοµένων Σε περίπτωση που επιθυµούµε να διαγράψουµε προσωρινά µία ή περισσότερες περιπτώσεις (παρατηρήσεις) από τον πίνακα των δεδοµένων, τότε ακολουθώντας τη διαδικασία Data / Select Cases, προσδιορίζουµε τη συνθήκη που θέλουµε να ισχύει ότι µία παρατήρηση να παραµένει ενεργή στο δείγµα. Σε διαφορετική περίπτωση, δηλαδή σε περίπτωση που µία ή περισσότερες παρατηρήσεις δεν ικανοποιούν τη συνθήκη που εµείς θα δηλώσουµε, τότε εκείνη (ή εκείνες) η παρατήρηση διαγράφεται προσωρινά από το δείγµα και δεν λαµβάνεται υπόψιν στη συνέχεια της ανάλυσης. Για παράδειγµα αν επιθυµούµε να αναλύσουµε µόνο εκείνα τα δεδοµένα που αφορούν ηλεκτρονικούς υπολογιστές οι οποίοι παρουσιάζουν ταχύτητες που υπερβαίνουν τα GHz, τότε ακολουθώντας τη διαδικασία Data / Select Cases, επιλέγουµε το πλήκτρο If Condition is satisfied και διατυπώνουµε τη συνθήκη: SPEED >, όπως φαίνεται στην ακόλουθη οθόνη: Ακαδηµαϊκό Έτος -

( ) Ταξινόµηση δεδοµένων βάση κάποιου ποσοτικού χαρακτηριστικού Σε περίπτωση που επιθυµούµε να τοποθετήσουµε σε αύξουσα ή φθίνουσα σειρά τα δεδοµένα βάση κάποιας συγκεκριµένης µέτρησης (ποσοτικής µεταβλητής), τότε ακολουθούµε τη διαδικασία Data / Sort Cases. Για παράδειγµα, αν θέλουµε να τοποθετήσουµε σε αύξουσα σειρά τους υπολογιστές βάση της ταχύτητας επεξεργασίας που παρουσιάζουν, τότε ακολουθώντας τη διαδικασία Data / Sort Cases, επιλέγουµε τη µεταβλητή SPEED να πάρει τη θέση κάτω από την έκφραση Sort By, ενώ ταυτόχρονα επιλέγουµε ως Sort Order (Τρόπος ταξινόµησης) το Ascending, δεδοµένου ότι επιθυµούµε να ταξινοµήσουµε τα δεδοµένα σε αύξουσα σειρά. Η παρακάτω οθόνη δείχνει τις προαναφερθείσες επιλογές: 5 Ακαδηµαϊκό Έτος -

(Ε) Υπολογισµός µίας νέας µεταβλητής µε τη βοήθεια κάποιας ήδη υπάρχουσας Σε περίπτωση που επιθυµούµε να δηµιουργήσουµε µία νέα µεταβλητή, χρησιµοποιώντας κάποια ήδη υπάρχουσα, τότε ακολουθούµε τη διαδικασία Transform / Compute Variable. Για παράδειγµα, αν θέλουµε να µετατρέψουµε τις ταχύτητες επεξεργασίας σε διαφορετικές µονάδες µέτρησης (από GHz σε MHz), τότε ακολουθώντας τη διαδικασία Transform / Compute Variable, αρχικά δηλώνουµε το όνοµα της νέας µεταβλητής κάτω από την έκφραση Target Variable, στη συνέχεια κάτω από την έκφραση Numeric Expression διατυπώνουµε τη σχέση βάση της οποίας θα υπολογιστεί η νέα µεταβλητή, όπως φαίνεται ακολούθως: Αξίζει να σηµειωθεί ότι, κατά τη διαδικασία υπολογισµού µίας νέας µεταβλητής (Transform / Compute Variable), υπάρχει δυνατότητα χρήσης πληθώρας µαθηµατικών και στατιστικών συναρτήσεων για τον κατάλληλο µετασχηµατισµό των δεδοµένων. 6 Ακαδηµαϊκό Έτος -

Ανάλυση εδοµένων - Χρήση του στατιστικού πακέτου SPSS η ΕΝΟΤΗΤΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Στις εξετάσεις του µαθήµατος της Στατιστικής του τµήµατος Πληροφορικής του Πανεπιστηµίου Πειραιώς (κατά τη χειµερινή εξεταστική περίοδο) προσήλθαν συνολικά φοιτητές και φοιτήτριες. Ο εξεταστής βαθµολόγησε τα γραπτά χρησιµοποιώντας την κλίµακα -3 (: λευκή κόλλα, 3: άριστα) και τα αποτελέσµατα δίνονται στους ακόλουθους πίνακες. ΦΟΙΤΗΤΕΣ ο έτος 6 6 3 8 3 ο έτος 9 6 3 6 8 ο έτος 3 6 8 6 9 3 5 ο έτος 3 8 3 6 ο έτος 9 ο έτος 3 ο έτος ΦΟΙΤΗΤΡΙΕΣ ο έτος 5 8 5 8 6 3 6 6 3 ο έτος 3 9 5 8 8 7 3 ο έτος 8 5 3 3 3 3 5 ο έτος 8 8 7 9 6 ο έτος 5 6 6 6 9 7 ο έτος 9 9 ο έτος α) Να εισάγετε µε κατάλληλο τρόπο τα παραπάνω δεδοµένα στο SPSS. 7 Ακαδηµαϊκό Έτος -

β) Να υπολογισθεί η µέση τιµή, η τυπική απόκλιση, η µεγαλύτερη και η µικρότερη τιµή των παραπάνω βαθµολογιών. Απάντηση. Ακολουθώντας τη διαδικασία: προκύπτει ο ακόλουθος πίνακας Analyze/Descriptive Statistics/Descriptives: grade Descriptive Statistics N Minimum Maximum Mean Std. Deviation grade 9,37 7,8 Valid N (listwise) όπου παρατηρούµε ότι η µέση τιµή είναι ίση µε.37. Αυτό πρακτικά σηµαίνει ότι η κεντρική τάση των φοιτητών και των φοιτητριών που συµµετείχαν στις εξετάσεις είναι λάβουν βαθµό γύρω στο.37. Πρόσθετα, η ελάχιστη και µέγιστη βαθµολογία είναι και 9 αντίστοιχα, ενώ η τυπική απόκλιση του δείγµατος των γραπτών ισούται µε 7.8. Η τυπική απόκλιση εκφράζει το βαθµό διασποράς των βαθµολογιών, δηλαδή περιγράφει το αν το δείγµα των βαθµολογιών αποτελείται από παρατηρήσεις που έχουν κοντινές ή µακρινές αποστάσεις µεταξύ τους. Ωστόσο, δεν υπάρχει κάποιο απόλυτο κριτήριο που να διαχωρίζει πότε ένα δείγµα θεωρείται ότι παρουσιάζει οµοιογένεια ή όχι. Για το λόγο αυτό, χρειάζεται να ορίσουµε µία ποσότητα που να έχει τη δυνατότητα να χαρακτηρίζει το εκάστοτε δείγµα ως οµοιογενές ή ετερογενές. Η ποσότητα αυτή ονοµάζεται συντελεστής µεταβλητότητας και υπολογίζεται ως ακολούθως: s CV =, x όπου s είναι η τυπική απόκλιση και x η µέση τιµή του δείγµατος. Για το συγκεκριµένο παράδειγµα, έχουµε τα εξής: 7.8 CV = =.7..37 εδοµένου ότι CV =.7>., το δείγµα των βαθµολογιών κρίνεται ετερογενές, δηλαδή οι βαθµολογίες δεν είναι κοντινές (παρουσιάζουν µεγάλο βαθµό µεταβλητότητας). γ) Να δοθεί ο πίνακας συχνοτήτων και το αντίστοιχο ραβδόγραµµα (bar-chart). Τι ποσοστό των φοιτητών-φοιτητριών έχει βαθµολογηθεί πάνω από τη βάση; Απάντηση. Ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies: grade 8 Ακαδηµαϊκό Έτος -

προκύπτει ο ακόλουθος πίνακας συχνοτήτων grade Valid Frequenc y Percent Valid Percent Cumulative Percent 6 6, 6, 6,,,,,,, 3,,, 3 3, 3, 7, 5,, 8, 6 3 3, 3, 3, 7,, 3, 8 8 8, 8,, 9,,,,, 5, 7 7, 7, 5, 6 6, 6, 58, 3 8 8, 8, 66, 6 6, 6, 7, 5 3 3, 3, 75, 6 9 9, 9, 8, 7,, 85, 8 3 3, 3, 88, 9,, 89,,, 9,,, 9,,, 93, 3,, 97,,, 98, 5,, 99, 9,,, Total,, όπου παρατηρούµε ότι το ποσοστό των φοιτητών/φοιτητριών που έχουν βαθµολογηθεί πάνω από τη βάση είναι ίσο µε (-7)%=8%. Το ζητούµενο ραβδόγραµµα δίνεται ακολούθως 5 C o u n t 5 3 5 6 7 8 9 3 5 6 7 8 9 3 5 9 grade 9 Ακαδηµαϊκό Έτος -

δ) Να υπολογισθεί η διάµεσος, τα τεταρτηµόρια, το 3% ποσοστηµόριο και η κορυφή των βαθµολογιών. Απάντηση. Ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies: grade και επιλέγοντας στο Statistics τα ακόλουθα: Median, Mode, Quartiles, Percentile 3% προκύπτει ο επόµενος πίνακας Statistics grade N Median Mode Percentiles Valid Missing 5 3 5 75,, 6,, 5,75 όπου παρατηρούµε ότι η διάµεσος (median) είναι ίση µε (αυτό πρακτικά σηµαίνει ότι 5 άτοµα έχουν βαθµολογηθεί µέχρι και 5 άτοµα πάνω από ), η κορυφή (mode) των παρατηρήσεων είναι ίση µε (αυτό πρακτικά σηµαίνει ότι η «δηµοφιλέστερη» βαθµολογία είναι το ), το πρώτο τεταρτηµόριο (Percentile 5%) είναι ίσο µε (αυτό πρακτικά σηµαίνει ότι 5 άτοµα έχουν βαθµολογηθεί µέχρι και τα υπόλοιπα άτοµα πάνω από ), το τρίτο τεταρτηµόριο (Percentile 75%) είναι ίσο µε 5.75, ενώ το ποσοστηµόριο 3% (Percentile 3%) ισούται µε 6. ε) Να κατασκευαστεί το ιστόγραµµα (histogram) συχνοτήτων των βαθµολογιών. Απάντηση. Ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Histogram: grade προκύπτει το ακόλουθο ιστόγραµµα: Ακαδηµαϊκό Έτος -

5 5 5 5 5 5 3 grade Mean =,37 Std. Dev. = 7,8 N = Παρατηρούµε ότι η βαθµολογία µηδέν παρουσιάζει τη µεγαλύτερη συχνότητα, ενώ βαθµολογίες από 8 έως 8, παρουσιάζουν σχετικά υψηλές συχνότητες, σε αντίθεση µε τις βαθµολογίες άνω του. στ) Να κατασκευαστεί το θηκόγραµµα (box-plot) των βαθµολογιών και να εξεταστεί αν υπάρχουν έκτροπες παρατηρήσεις. Απάντηση. Ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Boxplot: grade (µε επιλογή στο category axis τη µεταβλητή gender) προκύπτει το ακόλουθο θηκόγραµµα για τα δύο φύλα χωριστά Ακαδηµαϊκό Έτος -

3 5 5 5 gender Παρατηρούµε ότι για τους φοιτητές (gender=) οι βαθµολογίες έχουν µεγαλύτερη διασπορά σε σχέση µε τις βαθµολογίες των φοιτητριών (gender=), καθώς όπως φαίνεται και παραπάνω το 5% των γραπτών των φοιτητριών έχει συγκεντρωθεί σε µια µικρή σχετικά περιοχή σε αντίθεση µε το τι συµβαίνει µε τα γραπτά των φοιτητών. ζ) Να ορισθεί κατάλληλα µια νέα µεταβλητή, η οποία να εκφράζει τον τελικό βαθµό κάθε φοιτητή / φοιτήτριας στην κλίµακα έως. Στη συνέχεια, να δοθεί ο πίνακας συχνοτήτων της νέας αυτής µεταβλητής. Πόσα γραπτά έχουν περάσει τη βάση µε βαθµό πέντε (5); Να υπολογισθεί η µέση τιµή της νέας µεταβλητής, εξαιρώντας τα γραπτά που έχουν βαθµολογηθεί µε µηδέν (). Απάντηση. Ακολουθώντας τη διαδικασία: Transform/Compute Variable µετασχηµατίζουµε τη µεταβλητή grade σε µια νέα µεταβλητή fgrade χρησιµοποιώντας την ακόλουθη αριθµητική έκφραση (numeric expression) Trunc[grade/3+.5]. Για τη νέα µεταβλητή fgrade, που εκφράζει τις βαθµολογίες σε κλίµακα έως, ο πίνακας συχνοτήτων είναι ο ακόλουθος Ακαδηµαϊκό Έτος -

Valid,,, 3,, 5, 6, 7, 8,, Total fgrade Cumulative Frequency Percent Valid Percent Percent,,, 7 7, 7, 7, 5 5, 5, 3, 3 3, 3, 5,,, 66, 8 8, 8, 8, 5 5, 5, 89,,, 93, 6 6, 6, 99,,,,,, Όπως φαίνεται από τον παραπάνω πίνακα, υπάρχουν 8 γραπτά που έχουν περάσει τη βάση µε βαθµό 5. Για να εξαιρέσουµε τις βαθµολογίες που είναι µηδενικές, ακολουθούµε τη διαδικασία Data/Select Cases και στην επιλογή If condition is satisfied συµπληρώνουµε την έκφραση fgrade>. Στη συνέχεια, ακολουθώντας τη διαδικασία Analyze/Descriptive Statistics/Descriptives: fgrade υπολογίζουµε ότι η µέση βαθµολογία για τα µη µηδενικά γραπτά είναι ίση µε 3.6. η) Ποια είναι τα ποσοστά των φοιτητών και φοιτητριών στους εξεταζόµενους; Να κατασκευαστεί το αντίστοιχο κυκλικό διάγραµµα (pie-chart). Απάντηση. Ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Pie επιλέγουµε τη µεταβλητή gender προκειµένου να διαχωριστούν τα κοµµάτια του κυκλικού διαγράµµατος (define slices by) και προκύπτει το ακόλουθο διάγραµµα 3 Ακαδηµαϊκό Έτος -

gender 53,% 7,% θ) Να εξετασθεί το δείγµα των βαθµολογιών ως προς το βαθµό κύρτωσης και ασυµµετρίας που παρουσιάζει. Απάντηση. Ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies «κλικάρουµε» τις επιλογές Skewness και Kurtosis και τα αποτελέσµατα δίνονται ως ακολούθως: grade Statistics N Valid Missing Skewness,5 Std. Error of Skewness, Kurtosis -,69 Std. Error of Kurtosis,78 Όπως φαίνεται από τον παραπάνω πίνακα, η ασυµµετρία (skewness) είναι ίση µε,5. Προκειµένου να αξιολογήσουµε το δείγµα ως έντονα ασύµµετρο, θα πρέπει να υπολογίσουµε το ακόλουθο πηλίκο: Skewness,5 = =,6 std. error of Skewness, και να εξετάσουµε αν η τιµή που προέκυψε (δηλαδή ο αριθµός,6) είναι µεγαλύτερος από το ή όχι (οπότε αντίστοιχα θα χαρακτηρίσουµε το δείγµα ως Ακαδηµαϊκό Έτος -

έντονα θετικά ασύµµετρο ή όχι). Στο παράδειγµα µας, δεδοµένου ότι,6 <, συµπεραίνουµε ότι το δείγµα των βαθµολογιών, αν και παρουσίασε µία θετική τιµή του δείκτη ασυµµετρίας, ωστόσο ο βαθµός θετικής ασυµµετρίας του δεν αξιολογείται ως έντονος. Αξίζει να σηµειωθεί ότι η ασυµµετρία εξετάζει σε ποια µεριά ως προς τη µέση του δείγµατος, είναι κατανεµηµένες οι περισσότερες παρατηρήσεις του. Πιο συγκεκριµένα, αν σε ένα δείγµα οι περισσότερες παρατηρήσεις είναι µικρότερες από τη δειγµατική µέση τιµή, τότε λέµε ότι το δείγµα παρουσιάζει θετική ασυµµετρία, ενώ σε αντίθετη περίπτωση αρνητική ασυµµετρία. Σχετικά µε το βαθµό κύρτωσης που παρουσιάζει το δείγµα, φαίνεται από τον παραπάνω πίνακα ότι ο συντελεστής κύρτωσης είναι ίσος µε -,69. Γενικά, αν σε ένα δείγµα ο βαθµός συγκέντρωσης των παρατηρήσεων γύρω από την κορυφή του είναι µεγάλος, τότε λέµε ότι το δείγµα είναι λεπτόκυρτο (ή ισοδύναµα ο συντελεστής κύρτωσης είναι αρνητικός), ενώ σε αντίθετη περίπτωση πλατύκυρτο (ή ισοδύναµα ο συντελεστής κύρτωσης είναι θετικός). Στο παράδειγµα µας, ο συντελεστής κύρτωσης είναι αρνητικός και ίσος µε -,69. Ωστόσο για να δούµε αν ο βαθµός κύρτωσης είναι αµελητέος ή όχι, θα πρέπει να εξετάσουµε αν το διάστηµα που κατασκευάζεται µέσω του ακόλουθου τύπου: ( kurtosis Std. error of Kurtosis, kurtosis+ Std. error of Kurtosis) περιλαµβάνει το µηδέν ή όχι. Σύµφωνα µε τον παραπάνω πίνακα, έχουµε: (.69.78,.69+.78) = (.65,.7). εδοµένου ότι το παραπάνω διάστηµα περιλαµβάνει το µηδέν, αυτό σηµαίνει ότι ο βαθµός κύρτωσης είναι αµελητέος (για να αξιολογούσαµε το βαθµό κύρτωσης ως σηµαντικό (έντονο), θα έπρεπε το παραπάνω διάστηµα να µην περιελάµβανε το µηδέν). ι) Χρησιµοποιώντας τη µεταβλητή που εκφράζει το έτος φοίτησης (µε τιµές,3,...,) να ορισθεί κατάλληλα µια νέα µεταβλητή, η οποία θα δείχνει αν ο φοιτητής / φοιτήτρια βρίσκεται στο ο έτος, 3 ο έτος, ο έτος ή επί πτυχίω (5 ο έτος και άνω). Ποιο είναι το ποσοστό των εξεταζόµενων φοιτητών που βρίσκονται στο ο έτος, 3 ο έτος, ο έτος ή επί πτυχίω; Να κατασκευαστεί το αντίστοιχο κυκλικό διάγραµµα. Απάντηση. Με βάση τη µεταβλητή year δηµιουργούµε µια νέα µεταβλητή fyear ακολουθώντας τη διαδικασία: Transform/Recode Into Different Variables. Για τις τιµές,3, της µεταβλητής year η νέα µεταβλητή fyear θα λαµβάνει αντίστοιχα τις τιµές,3,. Αντίθετα, για όλες τις τιµές 5 και άνω της µεταβλητής year 5 Ακαδηµαϊκό Έτος -

η νέα µεταβλητή fyear θα λαµβάνει την τιµή 5. χρησιµοποιεί τη νέα µεταβλητή fyear δίνεται ακολούθως Το κυκλικό διάγραµµα που fyear, 3,, 5,,% 33,%,% 9,% κ) Να υπολογισθεί η µέση τιµή και να κατασκευαστεί το ιστόγραµµα και το θηκόγραµµα των βαθµών - ανά φύλο. Απάντηση. Προκειµένου να υπολογίσουµε περιγραφικά µέτρα στατιστικής ή διαγράµµατα για κάθε φύλο χωριστά (και όχι για όλα τα γραπτά µαζί, όπως πράξαµε σε προηγούµενα ερωτήµατα) ακολουθούµε την ακόλουθη διαδικασία Analyze/Descriptive Statistics/Explore. Στη συνέχεια, επιλέγουµε ως εξαρτηµένη µεταβλητή (στο πεδίο Dependent List) τη µεταβλητή fgrade και ως παράγοντα διαχωρισµού των γραπτών (στο πεδίο Factor List) τη µεταβλητή gender. Τελικά το ιστόγραµµα προκύπτει επιλέγοντας στα Plots το Histogram Histogram Histogram 5 for gender= for gender= 9 6 8 y c n e u q 6 r e F 3, 5,, fgrade Mean =,957 Std. Dev. =,6868 N = 7, 5, fgrade Mean = 3,957 Std. Dev. =,75 N = 53 ενώ το θηκόγραµµα δίνεται ακολουθώντας την ίδια διαδικασία, όπως φαίνεται παρακάτω: 6 Ακαδηµαϊκό Έτος -

, 8, 6,,,, gender Αξίζει να σηµειωθεί ότι η έντονη µαύρη γραµµή που φαίνεται στα δύο θηκογράµµατα, εκφράζει τη διάµεσο του κάθε φύλου, ενώ το κάτω και άνω φράγµα (εκτός του κεντρικού παραλληλογράµµου) συµβολίζονται ως c,c αντιστοίχως και υπολογίζονται ως εξής: c = P,5 ( P P ) = Q,5 ( Q ), Q 5 75 5 3 c = +,5 ( P P ) = Q +,5 ( Q ) 75 5 3 3 P Q 75 7 Ακαδηµαϊκό Έτος -

Ανάλυση εδοµένων - Χρήση του στατιστικού πακέτου SPSS 3 η ΕΝΟΤΗΤΑ ΠΙΘΑΝΟΤΗΤΕΣ ΚΑΤΑΝΟΜΕΣ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ Άσκηση. Το ποσοστό των εισερχοµένων µηνυµάτων ηλεκτρονικής αλληλογραφίας (e-mails) στο δίκτυο του Πανεπιστηµίου Πειραιώς που χαρακτηρίζονται ως ύποπτα (Possible Spam) και διαγράφονται αυτόµατα, είναι ίσο µε %. Αν υποθέσουµε ότι κατά τη διάρκεια µίας ηµέρας αφιχθούν στο δίκτυο του Πανεπιστηµίου Πειραιώς 5 µηνύµατα, να προσδιοριστούν τα ακόλουθα: (i) (ii) (iii) (iv) η πιθανότητα ο αριθµός των µηνυµάτων που θα χαρακτηριστούν ως ύποπτα να µην υπερβαίνει τα 8. η πιθανότητα ο αριθµός των µηνυµάτων που θα χαρακτηριστούν ως ύποπτα να είναι τουλάχιστον. η πιθανότητα το πρώτο µήνυµα που θα χαρακτηριστεί ως ύποπτο να είναι το 5 ο µήνυµα που αφικνείται συνολικά στο δίκτυο του Πανεπιστηµίου κατά τη διάρκεια της συγκεκριµένης ηµέρας. η πιθανότητα το δέκατο µήνυµα που θα χαρακτηριστεί ως ύποπτο να είναι το 7 ο µήνυµα που αφικνείται συνολικά στο δίκτυο του Πανεπιστηµίου κατά τη διάρκεια της συγκεκριµένης ηµέρας. Απαντήσεις. Στο συγκεκριµένο Παράδειγµα, ο έλεγχος για το αν ένα ηλεκτρονικό µήνυµα που αφικνείται στο δίκτυο του Πανεπιστηµίου Πειραιώς είναι ύποπτο ή όχι, αποτελεί µία δοκιµή Bernoulli. Ας ορίσουµε ως επιτυχία της δοκιµής Bernoulli το ενδεχόµενο όπως ένα µήνυµα να κριθεί ύποπτο (το ενδεχόµενο αυτό συµβαίνει µε πιθανότητα p =. ) και ως αποτυχία της δοκιµής Bernoulli το ενδεχόµενο όπως ένα µήνυµα να µην κριθεί ύποπτο (το ενδεχόµενο αυτό συµβαίνει µε πιθανότητα q = p=.9 ). (i) Είναι σαφές ότι ο αριθµός Χ των µηνυµάτων που κρίνονται ύποπτα σε σύνολο 5 µηνυµάτων που αφικνούνται είναι µία τυχαία µεταβλητή που ακολουθεί ιωνυµική κατανοµή µε παραµέτρους ν = 5 και p =., όπου p είναι η πιθανότητα να κριθεί ένα ηλεκτρονικό µήνυµα ως ύποπτο, δηλαδή είναι η πιθανότητα επιτυχίας σε κάθε 8 Ακαδηµαϊκό Έτος -

µία από τις 5 δοκιµές Bernoulli που πραγµατοποιούνται. Στο συγκεκριµένο ερώτηµα ζητείται η πιθανότητα όπως η τυχαία µεταβλητή Χ να µην υπερβεί την τιµή 8, δηλαδή η πιθανότητα P ( 8). Προκειµένου να υπολογίσουµε την παραπάνω ποσότητα, θα πρέπει να χρησιµοποιήσουµε τη συνάρτηση κατανοµής της τυχαίας µεταβλητής Χ στο σηµείο 8. Πιο συγκεκριµένα, εφαρµόζουµε τα εξής: Transform / Compute Variable και χρησιµοποιώντας τη συνάρτηση CDF.BINOM(quant, n, p) επιλέγουµε quant = 8, n= 5, p=. και προκύπτει ότι P ( 8) =. 999989, δηλαδή η ζητούµενη πιθανότητα είναι ίση µε.999989. Αξίζει να σηµειωθεί ότι, χωρίς τη χρήση ηλεκτρονικού υπολογιστή, ο υπολογισµός της παραπάνω τιµής της συνάρτησης κατανοµής θα ήταν πρακτικά πολύ δύσκολος, µιας και η συγκεκριµένη πιθανότητα απαιτεί για τον υπολογισµό της την άθροιση 8 πιθανοτήτων απλών ενδεχοµένων, όπως φαίνεται ακολούθως: P ( 8) = P( = ) + P( = ) +... + P( = 8). (ii) Στο συγκεκριµένο ερώτηµα ζητείται η πιθανότητα όπως η τυχαία µεταβλητή Χ να είναι τουλάχιστον ίση µε, δηλαδή η πιθανότητα P ( ) = P( < ). Προκειµένου να υπολογίσουµε την παραπάνω ποσότητα, θα πρέπει να χρησιµοποιήσουµε τη συνάρτηση κατανοµής της τυχαίας µεταβλητής Χ στο σηµείο. Πιο συγκεκριµένα, εφαρµόζουµε τα εξής: Transform / Compute Variable και χρησιµοποιώντας τη συνάρτηση CDF.BINOM(quant, n, p) επιλέγουµε quant =, n= 5, p=. και προκύπτει ότι P ( < ) = P( 39) =, 555, δηλαδή η ζητούµενη πιθανότητα είναι ίση µε.555 =.9985. (iii) Στο συγκεκριµένο ερώτηµα πρέπει να ορίσουµε µία νέα τυχαία µεταβλητή Υ που εκφράζει το πλήθος των µηνυµάτων που αφικνούνται στο δίκτυο του Πανεπιστηµίου Πειραιώς και δεν χαρακτηρίζονται ως ύποπτα έως ότου εµφανισθεί το πρώτο µήνυµα που χαρακτηρίζεται ως ύποπτο. Συνεπώς, η τυχαία µεταβλητή Υ ακολουθεί τη Γεωµετρική κατανοµή µε παράµετρο p =.. Προκειµένου να υπολογίσουµε την πιθανότητα το πρώτο µήνυµα που θα χαρακτηριστεί ως ύποπτο να είναι το 5 ο µήνυµα που αφικνείται συνολικά στο δίκτυο του Πανεπιστηµίου κατά τη διάρκεια της συγκεκριµένης ηµέρας (δηλαδή πριν από αυτό θα πρέπει να έχουν προηγηθεί 9 µηνύµατα που δεν χαρακτηρίστηκαν ως ύποπτα), εφαρµόζουµε τα εξής: 9 Ακαδηµαϊκό Έτος -

Transform / Compute Variable και χρησιµοποιώντας τη συνάρτηση PDF.GEOM(quant,p) επιλέγουµε quant = 9, p=. και προκύπτει ότι P(Y = 9) =.636. (iv) Στο συγκεκριµένο ερώτηµα πρέπει να ορίσουµε µία νέα τυχαία µεταβλητή Q που εκφράζει το πλήθος των µηνυµάτων που αφικνούνται στο δίκτυο του Πανεπιστηµίου Πειραιώς και δεν χαρακτηρίζονται ως ύποπτα έως ότου εµφανισθεί το r οστό µήνυµα που χαρακτηρίζεται ως ύποπτο, όπου r =,..., 5. Συνεπώς, η τυχαία µεταβλητή Q ακολουθεί τη Αρνητική ιωνυµική κατανοµή µε παραµέτρους r = και p =.. Προκειµένου να υπολογίσουµε την πιθανότητα το δέκατο µήνυµα που θα χαρακτηριστεί ως ύποπτο να είναι το 7 ο µήνυµα που αφικνείται συνολικά στο δίκτυο του Πανεπιστηµίου κατά τη διάρκεια της συγκεκριµένης ηµέρας (δηλαδή πριν από αυτό θα πρέπει να έχουν προηγηθεί µόνο 9 µηνύµατα που χαρακτηρίστηκαν ως ύποπτα), εφαρµόζουµε τα εξής: Transform / Compute Variable και χρησιµοποιώντας τη συνάρτηση PDF.NEGΒΙΝ(quant, r, p) επιλέγουµε quant = 7, r =, p=. και προκύπτει ότι P ( = 7) =, 8. Άσκηση. Αν ο αριθµός των ασθενών που εισέρχονται σε µία κλινική κατά τη διάρκεια µίας ηµέρας ακολουθεί την κατανοµή Poisson µε παράµετρο λ = 3, να υπολογισθούν οι ακόλουθες πιθανότητες: (i) (ii) (iii) τουλάχιστον ασθενείς να εισαχθούν κατά τη διάρκεια µίας ηµέρας το πολύ 5 ασθενείς να εισαχθούν κατά τη διάρκεια µίας ηµέρας το πολύ 3 ασθενείς να εισαχθούν κατά τη διάρκεια µίας ηµέρας, δεδοµένου ότι γνωρίζουµε ότι έχουν εισαχθεί τουλάχιστον ασθενείς κατά τη διάρκεια της µέρας αυτής. Άσκηση 3. Έστω ότι οι βαθµοί των φοιτητών στο µάθηµα «Στατιστική Επιχειρήσεων ΙΙ» ακολουθεί την Κανονική κατανοµή µε παραµέτρους µ = 7, σ =. Αν επιλέξουµε τυχαία ένα δείγµα είκοσι φοιτητών που συµµετείχαν στις εξετάσεις του προαναφερθέντος µαθήµατος, να υπολογιστούν οι πιθανότητες: (i) ο βαθµός ενός τυχαία επιλεγόµενου φοιτητή του δείγµατος να είναι µεγαλύτερος από 8 Ακαδηµαϊκό Έτος -

(ii) (iii) ακριβώς φοιτητές εκ των φοιτητών του δείγµατος να έχουν βαθµολογηθεί πάνω από 8 ο βαθµός ενός τυχαία επιλεγόµενου φοιτητή του δείγµατος να µην ξεπερνά το 9. Ακαδηµαϊκό Έτος -

Ανάλυση εδοµένων - Χρήση του στατιστικού πακέτου SPSS η ΕΝΟΤΗΤΑ ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ Εταιρεία στατιστικών µελετών διεξήγαγε έρευνα για τη χρήση του κινητού τηλεφώνου σε πληθυσµό 5 ατόµων. Συγκεκριµένα κατέγραψε το µηνιαίο χρόνο οµιλίας του κάθε ατόµου στο κινητό τηλέφωνο (εξαρτηµένη µεταβλητή Υ ), την ηλικία του (ανεξάρτητη µεταβλητή Χ ), το ετήσιο οικογενειακό εισόδηµα του (ανεξάρτητη µεταβλητή Χ ) και τον αριθµό κλήσεων από το σταθερό του τηλέφωνο (ανεξάρτητη µεταβλητή Χ 3 ). Τα αποτελέσµατα της έρευνας δίνονται στον ακόλουθο πίνακα. Χρόνος Υ Ηλικία Χ Εισόδηµα (σε Ευρώ) Χ Κλήσεις Χ 3 8 38 6. 5 6 6. 5 3 67 7. 9 9 5. 7 5 3 55 7. 6 39 6.95 9 7 58 3. 6 8. 6 9 89 3 8. 8 99 9.5 68 9. 3 3 7. 3 7 5. 5 5 8 6. 3 5 7. 5 5 ίνονται : Y =.39, = 587, = 87.35, =. i i i i= i= i= i= 5 5 i3 Ακαδηµαϊκό Έτος -

(α) Να γίνει το διάγραµµα διασποράς (scatterplot) µεταξύ των (Χ, Υ), (Χ, Υ) και (Χ 3, Υ). Για κάθε ένα από τα διαγράµµατα, να προσαρµοσθεί η ευθεία των ελαχίστων τετραγώνων. Σχολιάστε τα αποτελέσµατα. Ξεκινώντας τη µελέτη των δεδοµένων µιας έρευνας, η γραφική απεικόνιση της εξαρτηµένης µεταβλητής Υ συναρτήσει των ερµηνευτικών, µας παρέχει µια πρώτη ένδειξη για την καταλληλότητα τους. Ακολουθώντας τη διαδικασία Graphs/ Scatter/Dot / Simple και τοποθετώντας τη µεταβλητή Υ στον κατακόρυφο άξονα (Y axis) και κάθε µία από τις µεταβλητές Χ, Χ, Χ 3 διαδοχικά στον οριζόντιο άξονα ( axis), κατασκευάζουµε τα ζητούµενα γραφήµατα. (β) Να βρεθεί το καλύτερο γραµµικό µοντέλο (µε βάση την αρχή ελαχίστων τετραγώνων) για την πρόβλεψη του χρόνου οµιλίας στο κινητό τηλέφωνο, χρησιµοποιώντας κάθε µία από τις ερµηνευτικές µεταβλητές Χ, Χ και Χ 3 χωριστά. Ποια από τις τρεις µεταβλητές (Χ, Χ ή Χ 3 ) είναι καλύτερη; Μετονοµάστε την σε Χ. Ως καλύτερο γραµµικό µοντέλο κρίνεται εκείνο, στο οποίο ερµηνεύεται µεγαλύτερο ποσοστό της συνολικής µεταβλητότητας. Ακολουθώντας τη διαδικασία Analyze/ Regression / Linear και επιλέγοντας τη µεταβλητή Υ ως εξαρτηµένη (Dependent) και κάθε µία από τις µεταβλητές Χ, Χ, Χ 3 διαδοχικά ως ανεξάρτητη µεταβλητή του µοντέλου (Independent), λαµβάνουµε τους συντελεστές προσδιορισµού των τριών µοντέλων, µε βάση τους οποίους καταλήγουµε στο καλύτερο µοντέλο. (γ) Να κατασκευάσετε κατάλληλα διαγράµµατα, ώστε να διαπιστώσετε γραφικά αν παραβιάζεται (i) η κανονικότητα των σφαλµάτων και (ii) η ανεξαρτησία των σφαλµάτων. (i) Είναι γνωστό ότι µία από τις βασικές προϋποθέσεις του γραµµικού µοντέλου παλινδρόµησης είναι τα σφάλµατα να ακολουθούν την κανονική κατανοµή. Για να ελέγξουµε γραφικά τη συγκεκριµένη υπόθεση, υπολογίζουµε τα τυποποιηµένα σφάλµατα (studentized residuals), ακολουθώντας τη διαδικασία Analyze/ Regression / Linear και στην επιλογή Save διαλέγουµε τα studentized residuals. Στη συνέχεια ακολουθώντας τη διαδικασία Analyze/ Descriptive Statistics / P-P Plot (Q-Q Plot) κατασκευάζουµε το P-P Plot(Q-Q Plot) επιλέγοντας ως µεταβλητή τη στήλη µε τα studentized residuals και ως test distribution την κανονική κατανοµή (Normal). Επιπροσθέτως, ο έλεγχος κανονικότητας των 3 Ακαδηµαϊκό Έτος -

σφαλµάτων µπορεί να γίνει και µε το στατιστικό τεστ Kolmogorov-Smirnov, ακολουθώντας τη διαδικασία Analyze/ Nonparametric Tests/ -Sample K-S χρησιµοποιώντας ως µεταβλητή (test variable) τη στήλη µε τα studentized residuals. (ii) Για να εξετάσουµε αν παραβιάζεται η ανεξαρτησία των σφαλµάτων κατασκευάζουµε διαγράµµατα διασποράς, ακολουθώντας τη διαδικασία Graphs/ Scatter/Dot / Simple και τοποθετώντας τη στήλη µε τα studentized residuals στον κατακόρυφο άξονα (Y axis) και κάθε µία από τις µεταβλητές Χ, Yˆ, i διαδοχικά στον οριζόντιο άξονα ( axis), όπου Yˆ είναι η στήλη µε τις προβλεπόµενες τιµές της εξαρτηµένης µεταβλητής Υ και i ο αύξοντας αριθµός των παρατηρήσεων. (δ) Να ελεγχθεί η ύπαρξη γραµµικής σχέσης ανάµεσα στην εξαρτηµένη µεταβλητή Υ και την ανεξάρτητη µεταβλητή Χ σε επίπεδο σηµαντικότητας α=5%. Ο έλεγχος για ύπαρξη γραµµικής σχέσης ανάµεσα στις µεταβλητές Χ, Υ ισοδυναµεί µε τον ακόλουθο στατιστικό έλεγχο Η : β =, Η : β. Η απόρριψη ή αποδοχή της µηδενικής υπόθεσης θα βασιστεί στο p-value του ελέγχου ή ισοδύναµα στην τιµή της στατιστικής συνάρτησης ˆ β T ( x) = ή s( ˆ β ) ισοδύναµα στο διάστηµα εµπιστοσύνης για την παράµετρο β. Όλα τα παραπάνω υπολογίζονται ακολουθώντας τη διαδικασία Analyze/Regression/Linear στον πίνακα Coefficients. (ε) Πόσος µηνιαίος χρόνος οµιλίας Υ αναµένεται για ένα άτοµο ηλικίας 5 ετών; (να γίνει σηµειακή εκτίµηση και να δοθεί το διάστηµα εµπιστοσύνης µε συντελεστή 99%). Στο ερώτηµα πρέπει να υπολογίσουµε τις προβλεπόµενες τιµές και το διάστηµα εµπιστοσύνης 99% µέσης πρόβλεψης για την εξαρτηµένη µεταβλητή Υ που δίνει το γραµµικό µοντέλο, ακολουθώντας τη διαδικασία Analyze/ Regression/Linear και στην επιλογή Save διαλέγοντας τα unstandardized predicted values και Mean prediction Intervals αντίστοιχα. Ακαδηµαϊκό Έτος -

(στ) Ποια είναι περίπου η ηλικία ενός ατόµου, το οποίο χρησιµοποιεί 5 λεπτά µηνιαίως το κινητό του τηλέφωνο; Για να δώσουµε τη συγκεκριµένη απάντηση, θα εφαρµόσουµε αντίστροφη παλινδρόµηση. Το µοντέλο που έχουµε επιλέξει είναι το ακόλουθο Y = ˆ β + βˆ και θέτοντας Y = 5, λύνουµε ως προς τη µεταβλητή Χ. (ζ) Να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σηµαντικότητας α=% Η : β =, Η : β >, Η : β =., Η : β.. Για τον έλεγχο Η : β =, Η : β >, στηριζόµενοι στον πίνακα Coefficients (ο οποίος λαµβάνεται ακολουθώντας τη διαδικασία Analyze/Regression/ Linear), αποφασίζουµε για την απόρριψη ή την αποδοχή της µηδενική υπόθεσης Η µε βάση το p-value του µονόπλευρου ελέγχου ή τη στατιστική ˆ β συνάρτηση T ( x) =. s( ˆ β ) Για τον έλεγχο Η : β =., Η : β., θέτω β = β., συνεπώς ο ζητούµενος έλεγχος ισοδυναµεί µε τον ακόλουθο Η : β, Η : β. = Εφαρµόζουµε το γραµµικό µοντέλο Y. = β + ˆ β (έχοντας προηγουµένως δηµιουργήσει τη µεταβλητή παραπάνω ελέγχου. Y. ) και παίρνουµε το p-value του (η) Σε ποιο σηµείο Χ (µεταξύ των 5 δοθέντων) βρίσκουµε το χειρότερο διάστηµα εµπιστοσύνης για την απλή πρόβλεψη και σε ποιο σηµείο Χ (µεταξύ των 5 δοθέντων) βρίσκουµε το καλύτερο διάστηµα εµπιστοσύνης για τη µέση πρόβλεψη; Να αιτιολογήσετε τις απαντήσεις σας και να δώσετε τα συγκεκριµένα διαστήµατα. Μελετώντας τους τύπους που δίνουν τα διαστήµατα εµπιστοσύνης για απλή και µέση πρόβλεψη, παρατηρούµε ότι, όσο περισσότερο απέχει η τιµή της µεταβλητής Χ από το µέσο όρο, τόσο αυξάνεται το εύρος του διαστήµατος, που µεταφράζεται σε 5 Ακαδηµαϊκό Έτος -

µείωση της ποιότητας (ακρίβειας) του. Συνεπώς το χειρότερο διάστηµα για απλή πρόβλεψη παρατηρείται στην τιµή Χ=7 (πιο µακρινή από ), ενώ το καλύτερο για µέση πρόβλεψη στο Χ= (πιο κοντινό στο ) και τα λαµβάνουµε ακολουθώντας τη διαδικασία Analyze/ Regression / Linear, όπου στην επιλογή Save διαλέγουµε τα Mean (για τη µέση πρόβλεψη) και Individual (για την ατοµική πρόβλεψη) Prediction Intervals διαµορφώνοντας τον κατάλληλο συντελεστή εµπιστοσύνης. (θ) Για τις µεταβλητές Χ, Υ που χρησιµοποιήθηκαν παραπάνω, εξετάστε ποιο από τα επόµενα µη γραµµικά µοντέλα είναι το καλύτερο. (i) Y = γ + γ ln + ε, (ii) Y = γ γ ε, (iii) Y = γ + γ + ε Με βάση το µοντέλο που επιλέξατε, να δοθεί διάστηµα εµπιστοσύνης 9% για το µηνιαίο χρόνο οµιλίας για ένα άτοµο ηλικίας ετών. Σε κάθε ένα από τα τρία µη γραµµικά µοντέλα, πραγµατοποιούµε τους κατάλληλους µετασχηµατισµούς ώστε να καταλήξουµε σε γραµµικό µοντέλο (Ακολουθούµε τη διαδικασία Transform/Compute και επιλέγοντας το όνοµα της νέας µεταβλητής (target variable) δηλώνουµε τον τρόπο υπολογισµού της (Numeric Expression)). (i) Y, ln Y (ii) Y ln Y,, β lnγ, β lnγ (iii) Εκτελώντας γραµµική παλινδρόµηση για κάθε ένα από τα τρία νέα γραµµικά µοντέλα ( ιαδικασία Analyze/Regression/Linear) συγκρίνουµε τις τιµές των συντελεστών προσδιορισµού τους. Για το µοντέλο που κρίνεται ως καλύτερο για πρόβλεψη της εξαρτηµένης µεταβλητής Υ, υπολογίζουµε το διάστηµα εµπιστοσύνης 9% για το µηνιαίο χρόνο οµιλίας για ένα άτοµο ηλικίας ετών Analyze/Regression/Linear/Save/Individual Prediction Interval 9%). 6 Ακαδηµαϊκό Έτος -