ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΔΡ. ΙΩΑΝΝΗΣ Σ. ΤΡΙΑΝΤΑΦΥΛΛΟΥ

Σχετικά έγγραφα

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Ανάλυση εδοµένων - Χρήση του στατιστικού πακέτου SPSS. 1 η ΕΝΟΤΗΤΑ ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Λυμένες Ασκήσεις για το μάθημα:

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Άσκηση 1. Πληθυσμός (Χ i1 )

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

τατιστική στην Εκπαίδευση II

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Έλεγχος ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (Crosstabs - Chi-Square Tests)

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΕΝ ΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΑΣΚΗΣΗΣ 2 (Εργαστήρια µαθήµατος «Στατιστικά Προγράµµατα», τµ. Στατ. & Ασφ. Επιστ., 04-05) (Επιµέλεια: Ελευθεράκη Αναστασία)

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Άσκηση 2. i β. 1 ου έτους (Υ i )

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Στατιστική Επιχειρήσεων Ι

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

6 / 4 / Βιοστατιστικός, MSc, PhD

1991 US Social Survey.sav

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Εργαστήριο στατιστικής Στατιστικό πακέτο S.P.S.S.

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ PSPP

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

Εισόδημα Κατανάλωση

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική

Εισαγωγή στη Στατιστική

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ Πρακτική με SPSS (1)

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

Απλή Γραμμική Παλινδρόμηση II

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

κωδικοποίηση κτλ) Εισαγωγή δεδομένων με μορφή SPSS Εισαγωγή δεδομένων σε μορφή EXCEL Εισαγωγή δεδομένων σε άλλες μορφές

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

Στατιστικές Υποθέσεις

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Transcript:

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΔΡ. ΙΩΑΝΝΗΣ Σ. ΤΡΙΑΝΤΑΦΥΛΛΟΥ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ -3 Ακαδημαϊκό Έτος -3

. ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ..... Καταγραφή δεδομένων και επιλογή κατάλληλων ρυθμίσεων των μεταβλητών..... Διαχωρισμός αρχείου βάση ενός ποιοτικού χαρακτηριστικού... 6.3. Διαγραφή περιπτώσεων από το σύνολο των δεδομένων... 7.. Ταξινόμηση δεδομένων βάση κάποιου ποσοτικού χαρακτηριστικού... 8.5. Υπολογισμός μίας νέας μεταβλητής με τη βοήθεια κάποιας ήδη υπάρχουσας 9. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ..... Μέση Τιμή, Διακύμανση, Τυπική Απόκλιση & Συντελεστής Μεταβλητότητας..... Πίνακας Συχνοτήτων και Ραβδόγραμμα (Bar Chart)... 3.3. Διάμεσος, Επικρατούσα Τιμή, Τεταρτημόρια & Ποστημόρια..... Ιστόγραμμα... 5.5. Θηκόγραμμα (Box Plot)... 6.6. Κυκλικό Διάγραμμα (Pie Chart).... 6.7. Κύρτωση και Ασυμμετρία... 7.8. Διαχείριση / Μετασχηματισμοί Δεδομένων (Εντολές Select Cases, Compute Variable & Recode Variable)... 9.9. Περιγραφικά Στατιστικά με χρήση της εντολής «Explore»... 3. ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ... 3 3.. Έλεγχος Κανονικότητας Kolmogorov-Smirnov & Έλεγχος t του Student για ένα δείγμα... 3 3.. Έλεχγος t για Ανεξάρτητα Δείγματα... 3.3. Έλεγχος Ανεξαρτησίας χ του Pearson... 7. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ... 9.. Διάγραμμα Διασποράς (Scatterplot)... 9.. Προσαρμογή Ευθείας Γραμμικής Παλινδρόμησης... 3 Ακαδημαϊκό Έτος -3

.3. Έλεγχος Κανονικότητας και Ανεξαρτησίας Σφαλμάτων... 3.. Έλεγχοι Υποθέσεων για τις Τιμές των Παραμέτρων της Γραμμικής Παλινδρόμησης... 3.5. Σημειακή Εκτίμηση... 3.6. Εφαρμογές / Παρουσίαση Αποτελεσμάτων Γραμμικής Παλινδρόμησης... 3 5. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ... 35 6. ΠΙΝΑΚΕΣ ΣΥΝΑΦΕΙΑΣ ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ... 5 3 Ακαδημαϊκό Έτος -3

. ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ.. Καταγραφή δεδομένων και επιλογή κατάλληλων ρυθμίσεων των μεταβλητών Η βασική οθόνη του στατιστικού πακέτου SPSS έχει την ακόλουθη μορφή: Στον παραπάνω πίνακα, γίνεται η καταγραφή των δεδομένων που επιθυμούμε να αναλυθούν. Κάθε στήλη του πίνακα αποτελεί και ένα διαφορετικό χαρακτηριστικό (δηλαδή μία διαφορετική μεταβλητή (variable)), ενώ κάθε οριζόντια γραμμή αντιπροσωπεύει ένα διαφορετικό άτομο (ή παρατήρηση) του δείγματος που έχουμε στη διάθεση μας. Προκειμένου να διαμορφώσουμε κατάλληλα τις ρυθμίσεις που αφορούν την κάθε μεταβλητή (δηλαδή το κάθε διαφορετικό χαρακτηριστικό), επιλέγουμε το Variable View (βρίσκεται στην κάτω αριστερή γωνία της οθόνης) και εμφανίζεται μία άλλη οθόνη, όπως φαίνεται παρακάτω: Ακαδημαϊκό Έτος -3

Οι ρυθμίσεις που πρέπει να διαμορφωθούν για κάθε μία μεταβλητή χωριστά, είναι οι εξής: Name: εδώ δίνεται η ονομασία της κάθε μεταβλητής Type: εδώ δηλώνεται το είδος της πληροφορίας που θα εισαχθεί σε κάθε μεταβλητή (δηλαδή σε κάθε στήλη του πίνακα δεδομένων). Για παράδειγμα, αν η πληροφορία είναι ποσοτική, τότε ο κατάλληλος τύπος μεταβλητής που πρέπει να επιλεγεί είναι το Numeric, ενώ αν πρόκειται να εισάγουμε στη συγκεκριμένη στήλη λέξεις (γράμματα), τότε θα επιλέξουμε τον τύπο String. Width: εδώ προσδιορίζεται το μέγιστο πλήθος ψηφίων (αν πρόκειται για αριθμό) ή γραμμάτων (αν πρόκειται για λέξη) που θα επιτρέπεται να εισαχθεί στη συγκεκριμένη στήλη Decimals: εδώ δηλώνεται ο αριθμός δεκαδικών ψηφίων που θέλουμε να εμφανίζονται στα αριθμητικά δεδομένα της κάθε στήλης (προφανώς αν πρόκειται για πληροφορία τύπου String, τότε η συγκεκριμένη επιλογή γίνεται αυτόματα. Measure: εδώ δηλώνεται το αν το χαρακτηριστικό που μελετάμε είναι ποσοτική μεταβλητή (Scale), ονομαστική ποιοτική μεταβλητή (Nominal) ή διατάξιμη ποιοτική μεταβλητή (Ordinal). 5 Ακαδημαϊκό Έτος -3

Αφού γίνουν οι κατάλληλες ρυθμίσεις στο Variable View, επιστρέφουμε στην αρχική οθόνη (επιλέγοντας το Data View), ώστε να εισάγουμε τα δεδομένα. Για καλύτερη κατανόηση, ας θεωρήσουμε ένα παράδειγμα στο οποίο το αντικείμενο μελέτης είναι η ταχύτητα επεξεργασίας μίας σειράς ηλεκτρονικών υπολογιστών (εκ των οποίων οι πρώτοι 7 χρησιμοποιούν τον επεξεργαστή Α, ενώ οι υπόλοιποι τον επεξεργαστή Β). Η ποσοτική μεταβλητή (Scale) που θα χρησιμοποιηθεί για την καταγραφή των ταχυτήτων επεξεργασίας ονομάζεται SPEED και μετριέται σε μονάδες GHz με ένα δεκαδικό ψηφίο, ενώ η ποιοτική μεταβλητή (Nominal) που θα χρησιμοποιηθεί για την καταγραφή του επεξεργαστή που χρησιμοποιεί ο κάθε υπολογιστής ονομάζεται PROCESSOR και είναι τύπου String. Ρυθμίζοντας κατάλληλα τις επιλογές στο Variable View, στη συνέχεια καταγράφουμε τις παρατηρειθείσες ταχύτητες των υπολογιστών καθώς και το είδος επεξεργαστή που χρησιμοποιούν στον πίνακα Data View, όπως φαίνεται ακολούθως:.. Διαχωρισμός αρχείου βάση ενός ποιοτικού χαρακτηριστικού Σε περίπτωση που ενδιαφερόμαστε να αναλύσουμε ξεχωριστά τα δεδομένα που αφορούν τους υπολογιστές που χρησιμοποιούν τον επεξεργαστή Α και τον επεξεργαστή Β, τότε ακολουθώντας τη διαδικασία Data / Split File, επιλέγουμε τη 6 Ακαδημαϊκό Έτος -3

μεταβλητή PROCESSOR ως μεταβλητή ομαδοποίησης (grouping variable), όπως φαίνεται και παρακάτω:.3. Διαγραφή περιπτώσεων από το σύνολο των δεδομένων Σε περίπτωση που επιθυμούμε να διαγράψουμε προσωρινά μία ή περισσότερες περιπτώσεις (παρατηρήσεις) από τον πίνακα των δεδομένων, τότε ακολουθώντας τη διαδικασία Data / Select Cases, προσδιορίζουμε τη συνθήκη που θέλουμε να ισχύει ότι μία παρατήρηση να παραμένει ενεργή στο δείγμα. Σε διαφορετική περίπτωση, δηλαδή σε περίπτωση που μία ή περισσότερες παρατηρήσεις δεν ικανοποιούν τη συνθήκη που εμείς θα δηλώσουμε, τότε εκείνη (ή εκείνες) η παρατήρηση διαγράφεται προσωρινά από το δείγμα και δεν λαμβάνεται υπόψιν στη συνέχεια της ανάλυσης. Για παράδειγμα αν επιθυμούμε να αναλύσουμε μόνο εκείνα τα δεδομένα που αφορούν ηλεκτρονικούς υπολογιστές οι οποίοι παρουσιάζουν ταχύτητες που υπερβαίνουν τα GHz, τότε ακολουθώντας τη διαδικασία Data / Select Cases, επιλέγουμε το πλήκτρο If Condition is satisfied και διατυπώνουμε τη συνθήκη: SPEED >, όπως φαίνεται στην ακόλουθη οθόνη: 7 Ακαδημαϊκό Έτος -3

.. Ταξινόμηση δεδομένων βάση κάποιου ποσοτικού χαρακτηριστικού Σε περίπτωση που επιθυμούμε να τοποθετήσουμε σε αύξουσα ή φθίνουσα σειρά τα δεδομένα βάση κάποιας συγκεκριμένης μέτρησης (ποσοτικής μεταβλητής), τότε ακολουθούμε τη διαδικασία Data / Sort Cases. Για παράδειγμα, αν θέλουμε να τοποθετήσουμε σε αύξουσα σειρά τους υπολογιστές βάση της ταχύτητας επεξεργασίας που παρουσιάζουν, τότε ακολουθώντας τη διαδικασία Data / Sort Cases, επιλέγουμε τη μεταβλητή SPEED να πάρει τη θέση κάτω από την έκφραση Sort By, ενώ ταυτόχρονα επιλέγουμε ως Sort Order (Τρόπος ταξινόμησης) το Ascending, δεδομένου ότι επιθυμούμε να ταξινομήσουμε τα δεδομένα σε αύξουσα σειρά. Η παρακάτω οθόνη δείχνει τις προαναφερθείσες επιλογές: 8 Ακαδημαϊκό Έτος -3

.5. Υπολογισμός μίας νέας μεταβλητής με τη βοήθεια κάποιας ήδη υπάρχουσας Σε περίπτωση που επιθυμούμε να δημιουργήσουμε μία νέα μεταβλητή, χρησιμοποιώντας κάποια ήδη υπάρχουσα, τότε ακολουθούμε τη διαδικασία Transform / Compute Variable. Για παράδειγμα, αν θέλουμε να μετατρέψουμε τις ταχύτητες επεξεργασίας σε διαφορετικές μονάδες μέτρησης (από GHz σε MHz), τότε ακολουθώντας τη διαδικασία Transform / Compute Variable, αρχικά δηλώνουμε το όνομα της νέας μεταβλητής κάτω από την έκφραση Target Variable, στη συνέχεια κάτω από την έκφραση Numeric Expression διατυπώνουμε τη σχέση βάση της οποίας θα υπολογιστεί η νέα μεταβλητή, όπως φαίνεται ακολούθως: 9 Ακαδημαϊκό Έτος -3

Αξίζει να σημειωθεί ότι, κατά τη διαδικασία υπολογισμού μίας νέας μεταβλητής (Transform / Compute Variable), υπάρχει δυνατότητα χρήσης πληθώρας μαθηματικών και στατιστικών συναρτήσεων για τον κατάλληλο μετασχηματισμό των δεδομένων. Ακαδημαϊκό Έτος -3

. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Στις εξετάσεις του μαθήματος της Στατιστικής του τμήματος Πληροφορικής του Πανεπιστημίου Πειραιώς (κατά τη χειμερινή εξεταστική περίοδο) προσήλθαν συνολικά φοιτητές και φοιτήτριες. Ο εξεταστής βαθμολόγησε τα γραπτά χρησιμοποιώντας την κλίμακα -3 (: λευκή κόλλα, 3: άριστα) και τα αποτελέσματα δίνονται στους ακόλουθους πίνακες. ΦΟΙΤΗΤΕΣ ο έτος 6 6 3 8 3 ο έτος 9 6 3 6 8 ο έτος 3 6 8 6 9 3 5 ο έτος 3 8 3 6 ο έτος 9 ο έτος 3 ο έτος ΦΟΙΤΗΤΡΙΕΣ ο έτος 5 8 5 8 6 3 6 6 3 ο έτος 3 9 5 8 8 7 3 ο έτος 8 5 3 3 3 3 5 ο έτος 8 8 7 9 6 ο έτος 5 6 6 6 9 7 ο έτος 9 9 ο έτος Εισάγουμε τα παραπάνω δεδομένα στο SPSS. Ακαδημαϊκό Έτος -3

.. Μέση Τιμή, Διακύμανση, Τυπική Απόκλιση & Συντελεστής Μεταβλητότητας Η μέση τιμή, η τυπική απόκλιση, η μεγαλύτερη και η μικρότερη τιμή των παραπάνω βαθμολογιών, ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Descriptives: grade Έτσι προκύπτει ο ακόλουθος πίνακας: Descriptive Statistics N Minimum Maximum Mean Std. Deviation grade 9,37 7,8 Valid N (listwise) Παρατηρούμε ότι η μέση τιμή είναι ίση με.37. Αυτό πρακτικά σημαίνει ότι η κεντρική τάση των φοιτητών και των φοιτητριών που συμμετείχαν στις εξετάσεις είναι λάβουν βαθμό γύρω στο.37. Πρόσθετα, η ελάχιστη και μέγιστη βαθμολογία είναι και 9 αντίστοιχα, ενώ η τυπική απόκλιση του δείγματος των γραπτών ισούται με 7.8. Η τυπική απόκλιση εκφράζει το βαθμό διασποράς των βαθμολογιών, δηλαδή περιγράφει το αν το δείγμα των βαθμολογιών αποτελείται από παρατηρήσεις που έχουν κοντινές ή μακρινές αποστάσεις μεταξύ τους. Ωστόσο, δεν υπάρχει κάποιο απόλυτο κριτήριο που να διαχωρίζει πότε ένα δείγμα θεωρείται ότι παρουσιάζει ομοιογένεια ή όχι. Για το λόγο αυτό, χρειάζεται να ορίσουμε μία ποσότητα που να έχει τη δυνατότητα να χαρακτηρίζει το εκάστοτε δείγμα ως ομοιογενές ή ετερογενές. Η ποσότητα αυτή ονομάζεται συντελεστής μεταβλητότητας και υπολογίζεται ως ακολούθως: s CV, x όπου s είναι η τυπική απόκλιση και x η μέση τιμή του δείγματος. Για το συγκεκριμένο παράδειγμα, έχουμε τα εξής: 7.8 CV.7..37 Δεδομένου ότι CV.7., το δείγμα των βαθμολογιών κρίνεται ετερογενές, δηλαδή οι βαθμολογίες δεν είναι κοντινές (παρουσιάζουν μεγάλο βαθμό μεταβλητότητας). Ακαδημαϊκό Έτος -3

.. Πίνακας Συχνοτήτων και Ραβδόγραμμα (Bar Chart) O πίνακας συχνοτήτων και το αντίστοιχο ραβδόγραμμα (bar-chart) δίνονται ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies: grade Grade Frequency Percent Valid Percent Cumulative Percent Valid 6 6, 6, 6,,,,,,, 3,,, 3 3, 3, 7, 5,, 8, 6 3 3, 3, 3, 7,, 3, 8 8 8, 8,, 9,,,,, 5, 7 7, 7, 5, 6 6, 6, 58, 3 8 8, 8, 66, 6 6, 6, 7, 5 3 3, 3, 75, 6 9 9, 9, 8, 7,, 85, 8 3 3, 3, 88, 9,, 89,,, 9,,, 9,,, 93, 3,, 97,,, 98, 5,, 99, 9,,, Total,, Παρατηρούμε ότι το ποσοστό των φοιτητών/φοιτητριών που έχουν βαθμολογηθεί πάνω από τη βάση είναι ίσο με (-7)%=8%. Το ζητούμενο ραβδόγραμμα δίνεται ακολούθως 3 Ακαδημαϊκό Έτος -3

5 C o u n t 5 3 5 6 7 8 9 3 5 6 7 8 9 3 5 9 grade.3. Διάμεσος, Επικρατούσα Τιμή, Τεταρτημόρια & Ποστημόρια Η διάμεσος, τα τεταρτημόρια, το 3% ποσοστημόριο και η επικρατούσα τιμή των βαθμολογιών υπολογίζονται ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies: grade και επιλέγοντας στο Statistics τα ακόλουθα: Median, Mode, Quartiles, Percentile 3% Έτσι προκύπτει ο επόμενος πίνακας: Statistics grade N Median Mode Percentiles Valid Missing 5 3 5 75,, 6,, 5,75 Ακαδημαϊκό Έτος -3

Παρατηρούμε ότι η διάμεσος (median) είναι ίση με (αυτό πρακτικά σημαίνει ότι 5 άτομα έχουν βαθμολογηθεί μέχρι και 5 άτομα πάνω από ), η επικρατούσα τιμή (mode) των παρατηρήσεων είναι ίση με (αυτό πρακτικά σημαίνει ότι η «δημοφιλέστερη» βαθμολογία είναι το ), το πρώτο τεταρτημόριο (Percentile 5%) είναι ίσο με (αυτό πρακτικά σημαίνει ότι 5 άτομα έχουν βαθμολογηθεί μέχρι και τα υπόλοιπα άτομα πάνω από ), το τρίτο τεταρτημόριο (Percentile 75%) είναι ίσο με 5.75, ενώ το ποσοστημόριο 3% (Percentile 3%) ισούται με 6... Ιστόγραμμα Το ιστόγραμμα (histogram) συχνοτήτων των βαθμολογιών. δίνεται ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Histogram: grade 5 5 5 5 5 5 3 grade Mean =,37 Std. Dev. = 7,8 N = Παρατηρούμε ότι η βαθμολογία μηδέν παρουσιάζει τη μεγαλύτερη συχνότητα, ενώ βαθμολογίες από 8 έως 8, παρουσιάζουν σχετικά υψηλές συχνότητες, σε αντίθεση με τις βαθμολογίες άνω του. 5 Ακαδημαϊκό Έτος -3

.5. Θηκόγραμμα (Box Plot) Το θηκόγραμμα (box-plot) των βαθμολογιών προκύπτει ακολουθώντας Graphs/Legacy Dialogs/Boxplot: grade (με επιλογή στο category axis τη μεταβλητή gender) Έτσι προκύπτει το ακόλουθο θηκόγραμμα για τα δύο φύλα 3 5 5 5 gender Παρατηρούμε ότι για τους φοιτητές (gender=) οι βαθμολογίες έχουν μεγαλύτερη διασπορά σε σχέση με τις βαθμολογίες των φοιτητριών (gender=), καθώς όπως φαίνεται και παραπάνω το 5% των γραπτών των φοιτητριών έχει συγκεντρωθεί σε μια μικρή σχετικά περιοχή σε αντίθεση με το τι συμβαίνει με τα γραπτά των φοιτητών..6. Κυκλικό Διάγραμμα (Pie Chart). To κυκλικό διάγραμμα (pie-chart) προκύπτει ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Pie επιλέγουμε τη μεταβλητή gender προκειμένου να διαχωριστούν τα τμήματα του κυκλικού διαγράμματος (define slices by) 6 Ακαδημαϊκό Έτος -3

gender 53,% 7,% Επομένως οι φοιτητές αντιπροσωπεύουν το 53% των εξεταζομένων και οι φοιτήτριες το 7% των εξεταζομένων..7. Κύρτωση και Ασυμμετρία Για να εξετασθεί το δείγμα των βαθμολογιών ως προς το βαθμό κύρτωσης και ασυμμετρίας που παρουσιάζει, ακολουθούμε τη διαδικασία: Analyze/Descriptive Statistics/Frequencies «κλικάρουμε» τις επιλογές Skewness και Kurtosis και τα αποτελέσματα δίνονται ως ακολούθως: Statistics grade N Valid Missing Skewness,5 Std. Error of Skewness, Kurtosis -,69 Std. Error of Kurtosis,78 7 Ακαδημαϊκό Έτος -3

Όπως φαίνεται από τον παραπάνω πίνακα, η ασυμμετρία (skewness) είναι ίση με,5. Προκειμένου να αξιολογήσουμε το δείγμα ως έντονα ασύμμετρο, θα πρέπει να υπολογίσουμε το ακόλουθο πηλίκο: Skewness,5,6 std. error of Skewness, και να εξετάσουμε αν η τιμή που προέκυψε (δηλαδή ο αριθμός,6) είναι μεγαλύτερος από το ή όχι (οπότε αντίστοιχα θα χαρακτηρίσουμε το δείγμα ως έντονα θετικά ασύμμετρο ή όχι). Στο παράδειγμα μας, δεδομένου ότι,6 <, συμπεραίνουμε ότι το δείγμα των βαθμολογιών, αν και παρουσίασε μία θετική τιμή του δείκτη ασυμμετρίας, ωστόσο ο βαθμός θετικής ασυμμετρίας του δεν αξιολογείται ως έντονος. Αξίζει να σημειωθεί ότι η ασυμμετρία εξετάζει σε ποια μεριά ως προς τη μέση του δείγματος, είναι κατανεμημένες οι περισσότερες παρατηρήσεις του. Πιο συγκεκριμένα, αν σε ένα δείγμα οι περισσότερες παρατηρήσεις είναι μικρότερες από τη δειγματική μέση τιμή, τότε λέμε ότι το δείγμα παρουσιάζει θετική ασυμμετρία, ενώ σε αντίθετη περίπτωση αρνητική ασυμμετρία. Σχετικά με το βαθμό κύρτωσης που παρουσιάζει το δείγμα, φαίνεται από τον παραπάνω πίνακα ότι ο συντελεστής κύρτωσης είναι ίσος με -,69. Γενικά, αν σε ένα δείγμα ο βαθμός συγκέντρωσης των παρατηρήσεων γύρω από την κορυφή του είναι μεγάλος, τότε λέμε ότι το δείγμα είναι λεπτόκυρτο (ή ισοδύναμα ο συντελεστής κύρτωσης είναι αρνητικός), ενώ σε αντίθετη περίπτωση πλατύκυρτο (ή ισοδύναμα ο συντελεστής κύρτωσης είναι θετικός). Στο παράδειγμα μας, ο συντελεστής κύρτωσης είναι αρνητικός και ίσος με -,69. Ωστόσο για να δούμε αν ο βαθμός κύρτωσης είναι αμελητέος ή όχι, θα πρέπει να εξετάσουμε αν το διάστημα που κατασκευάζεται μέσω του ακόλουθου τύπου: ( kurtosis Std. error of Kurtosis, kurtosis Std. error of Kurtosis) περιλαμβάνει το μηδέν ή όχι. Σύμφωνα με τον παραπάνω πίνακα, έχουμε: (.69.78,.69.78) (.65,.7). Δεδομένου ότι το παραπάνω διάστημα περιλαμβάνει το μηδέν, αυτό σημαίνει ότι ο βαθμός κύρτωσης είναι αμελητέος (για να αξιολογούσαμε το βαθμό κύρτωσης ως σημαντικό (έντονο), θα έπρεπε το παραπάνω διάστημα να μην περιελάμβανε το μηδέν). 8 Ακαδημαϊκό Έτος -3

.8. Διαχείριση / Μετασχηματισμοί Δεδομένων (Εντολές Select Cases, Compute Variable & Recode Variable) Για τα προηγούμενα δεδομένα α) Να ορισθεί κατάλληλα μια νέα μεταβλητή, η οποία να εκφράζει τον τελικό βαθμό κάθε φοιτητή / φοιτήτριας στην κλίμακα έως. Στη συνέχεια, να δοθεί ο πίνακας συχνοτήτων της νέας αυτής μεταβλητής. Πόσα γραπτά έχουν περάσει τη βάση με βαθμό πέντε (5); Να υπολογισθεί η μέση τιμή της νέας μεταβλητής, εξαιρώντας τα γραπτά που έχουν βαθμολογηθεί με μηδέν (). Απάντηση. Ακολουθώντας τη διαδικασία: Transform/Compute Variable μετασχηματίζουμε τη μεταβλητή grade σε μια νέα μεταβλητή fgrade χρησιμοποιώντας την ακόλουθη αριθμητική έκφραση (numeric expression) Trunc[grade/3+.5]. Για τη νέα μεταβλητή fgrade, που εκφράζει τις βαθμολογίες σε κλίμακα έως, ο πίνακας συχνοτήτων είναι ο ακόλουθος fgrade Valid,,, 3,, 5, 6, 7, 8,, Total Cumulative Frequency Percent Valid Percent Percent,,, 7 7, 7, 7, 5 5, 5, 3, 3 3, 3, 5,,, 66, 8 8, 8, 8, 5 5, 5, 89,,, 93, 6 6, 6, 99,,,,,, Όπως φαίνεται από τον παραπάνω πίνακα, υπάρχουν 8 γραπτά που έχουν περάσει τη βάση με βαθμό 5. Για να εξαιρέσουμε τις βαθμολογίες που είναι μηδενικές, ακολουθούμε τη διαδικασία Data/Select Cases και στην επιλογή If condition is satisfied συμπληρώνουμε την έκφραση fgrade>. 9 Ακαδημαϊκό Έτος -3

Στη συνέχεια, ακολουθώντας τη διαδικασία Analyze/Descriptive Statistics/Descriptives: fgrade υπολογίζουμε ότι η μέση βαθμολογία για τα μη μηδενικά γραπτά είναι ίση με 3.6. β) Χρησιμοποιώντας τη μεταβλητή που εκφράζει το έτος φοίτησης (με τιμές,3,...,) να ορισθεί κατάλληλα μια νέα μεταβλητή, η οποία θα δείχνει αν ο φοιτητής / φοιτήτρια βρίσκεται στο ο έτος, 3 ο έτος, ο έτος ή επί πτυχίω (5 ο έτος και άνω). Ποιο είναι το ποσοστό των εξεταζόμενων φοιτητών που βρίσκονται στο ο έτος, 3 ο έτος, ο έτος ή επί πτυχίω; Να κατασκευαστεί το αντίστοιχο κυκλικό διάγραμμα. Απάντηση. Με βάση τη μεταβλητή year δημιουργούμε μια νέα μεταβλητή fyear ακολουθώντας τη διαδικασία: Transform/Recode Into Different Variables. Για τις τιμές,3, της μεταβλητής year η νέα μεταβλητή fyear θα λαμβάνει αντίστοιχα τις τιμές,3,. Αντίθετα, για όλες τις τιμές 5 και άνω της μεταβλητής year η νέα μεταβλητή fyear θα λαμβάνει την τιμή 5. Το κυκλικό διάγραμμα που χρησιμοποιεί τη νέα μεταβλητή fyear δίνεται ακολούθως fyear, 3,, 5,,% 33,%,% 9,%.9. Περιγραφικά Στατιστικά με χρήση της εντολής «Explore» Για τα παραπάνω δεδομένα να υπολογισθεί η μέση τιμή και να δημιουργηθούν ιστόγραμμα, θηκόγραμμα των βαθμών - ανά φύλο. Ακαδημαϊκό Έτος -3

Προκειμένου να υπολογίσουμε περιγραφικά μέτρα στατιστικής ή διαγράμματα για κάθε φύλο χωριστά (και όχι για όλα τα γραπτά μαζί, όπως πράξαμε σε προηγούμενα ερωτήματα) ακολουθούμε την ακόλουθη διαδικασία Analyze/Descriptive Statistics/Explore. Στη συνέχεια, επιλέγουμε ως εξαρτημένη μεταβλητή (στο πεδίο Dependent List) τη μεταβλητή fgrade και ως παράγοντα διαχωρισμού των γραπτών (στο πεδίο Factor List) τη μεταβλητή gender. Τελικά το ιστόγραμμα προκύπτει επιλέγοντας στα Plots το Histogram Histogram 5 for gender= 9 6 3 Mean =,957 Std. Dev. = N 6868 = 7, 5,, fgrade Histogram for gender= 8 y c n e u q 6 re F, 5, fgrade Mean = 3,957 Std. Dev. =,75 N = 53 Το θηκόγραμμα δίνεται ακολουθώντας την ίδια διαδικασία, όπως φαίνεται παρακάτω: Ακαδημαϊκό Έτος -3

, 8, 6,,,, gender Αξίζει να σημειωθεί ότι η έντονη μαύρη γραμμή που φαίνεται στα δύο θηκογράμματα, εκφράζει τη διάμεσο του κάθε φύλου, ενώ το κάτω και άνω φράγμα (εκτός του κεντρικού παραλληλογράμμου) συμβολίζονται ως c,c αντιστοίχως και υπολογίζονται ως εξής: c P,5 ( P P ) Q,5 ( Q ), 5 75 5 3 Q c,5 ( P ),5 ( ) 75 P5 Q3 Q3 P75 Q Ακαδημαϊκό Έτος -3

3. ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ 3.. Έλεγχος Κανονικότητας Kolmogorov-Smirnov & Έλεγχος t του Student για ένα δείγμα Σε τυχαίο δείγμα 3 εργασιών που εκπονούνται από ηλεκτρονικούς υπολογιστές του Πανεπιστημίου Πειραιώς, καταγράφεται ο χρόνος περαίωσης τους (σε λεπτά), όπως φαίνεται στον ακόλουθο Πίνακα. Εργασία 3 5 6 7 8 9 3 Χρόνος. 3....7 5.5 3.. 5. 9.3 3.8..6 Να εξετασθεί σε επίπεδο σημαντικότητας 5% αν ο μέσος χρόνος περαίωσης μίας εργασίας σε ηλεκτρονικό υπολογιστή του Πανεπιστημίου Πειραιώς: (i) είναι ίσος ή διαφορετικός από 3 λεπτά, (ii) είναι ίσος ή υπερβαίνει τα 3 λεπτά. (i) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της άσκησης είναι οι ακόλουθες: H : έναντι H :, όπου 3 και είναι η άγνωστη πληθυσμιακή μέση τιμή των χρόνων περάτωσης των εργασιών. Προκειμένου να εφαρμόσουμε παραμετρικό έλεγχο για τη μέση τιμή του παραπάνω πληθυσμού, θα πρέπει πρώτα να εξετάσουμε αν τα δεδομένα που διαθέτουμε προσαρμόζονται ικανοποιητικά στην Κανονική κατανομή. Ακολουθώντας τη διαδικασία Analyze/ Nonparametric tests / Sample K-S, λαμβάνουμε τον ακόλουθο πίνακα: One-Sample Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (-tailed) a. Test distribution is Normal. b. Calculated from data. Mean Std. Deviation Absolute Positive Negative TIME 3 3,38,7,9,9 -,3,539,933 Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value για τον έλεγχο της κανονικότητας των δεδομένων είναι ίση με,933 >,5. Συνεπώς αποδεχόμαστε τη 3 Ακαδημαϊκό Έτος -3

μηδενική υπόθεση της καλής προσαρμογής των δεδομένων στην Κανονική κατανομή. Στη συνέχεια, ακολουθώντας τη διαδικασία Analyze/compare means/one sample T- test, κατασκευάζουμε τον ακόλουθο πίνακα One-Sample Test TIME Test Value = 3 95% Confidence Interval of the Mean Difference t df Sig. (-tailed) Difference Lower Upper,57,656,377 -,59,775 όπου παρατηρούμε ότι το p-value του παραπάνω ελέγχου για τη μέση τιμή των χρόνων περάτωσης των εργασιών στο Πανεπιστήμιο Πειραιώς είναι ίσο με.656, συνεπώς (σε επίπεδο σημαντικότητας 5%) δεν απορρίπτουμε τη μηδενική υπόθεση, γεγονός που σημαίνει ότι οι εργασίες στους Η/Υ του Πανεπιστημίου Πειραιώς απαιτούν κατά μέσο όρο 3 λεπτά προκειμένου να ολοκληρωθούν. (ii) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση του δεύτερου ερωτήματος της άσκησης είναι οι ακόλουθες: H : 3 έναντι H : 3. Χρησιμοποιώντας τα αποτελέσματα του προηγούμενου ερωτήματος, παρατηρούμε ότι η τιμή της στατιστικής συνάρτησης που χρησιμοποιήθηκε για τον παραπάνω έλεγχο είναι ίση με,57. Αυτό σημαίνει ότι, δεδομένου ότι το πρόσημο της συνάρτησης είναι θετικό και ταυτόχρονα η εναλλακτική υπόθεση του μονόπλευρου ελέγχου που διεξάγουμε είναι η H : 3, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με το μισό του p-value το αντίστοιχου δίπλευρου ελέγχου που διεξήχθη στο ερώτημα (i). Με άλλα λόγια, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με.656/ =.38, που σημαίνει ότι αποδεχόμαστε τη μηδενική υπόθεση. Συνεπώς συμπεραίνουμε ότι (σε επίπεδο σημαντικότητας 5%) είναι ορθότερο να πούμε ότι ο απαιτούμενος μέσος χρόνος περάτωσης μίας εργασίας σε έναν Η/Υ του Πανεπιστήμιου Πειραιά είναι στατιστικά ίσος με 3 λεπτά (δηλαδή ότι δεν διαφέρει σημαντικά από 3 λεπτά), παρά να διατυπώσουμε το συμπέρασμα ότι ο απαιτούμενος μέσος χρόνος υπερβαίνει σε σημαντικό βαθμό τα 3 λεπτά. 3.. Έλεχγος t για Ανεξάρτητα Δείγματα Ακαδημαϊκό Έτος -3

Προκειμένου να συγκριθεί η απόδοση δύο διαφορετικών τύπων επεξεργαστή δεδομένων Α και Β που χρησιμοποιεί μία συγκεκριμένη εταιρία φορητών ηλεκτρονικών υπολογιστών (Φ/Η/Υ), λαμβάνονται δύο τυχαία ανεξάρτητα δείγματα μεγέθους 5 Φ/Η/Υ που χρησιμοποιούν τον επεξεργαστή Α και Φ/Η/Υ που χρησιμοποιούν τον επεξεργαστή Β. Για τα δύο δείγματα Φ/Η/Υ (με τον επεξεργαστή Α και Β αντίστοιχα) έχουν καταγραφεί οι ταχύτητες επεξεργασίας δεδομένων (σε GHz) όπως φαίνεται στον ακόλουθο πίνακα. Δείγμα.5..3.9..7.87.9.99..8....9 Δείγμα.55.3.5.99..3..33.3..3 (i) (ii) Να εξετασθεί σε επίπεδο σημαντικότητας % αν η μέση ταχύτητα επεξεργασίας των δύο επεξεργαστών Α και Β είναι ίδια ή όχι. Να εξετασθεί σε επίπεδο σημαντικότητας % αν η μέση ταχύτητα επεξεργασίας του επεξεργαστή Α υπερβαίνει την ταχύτητα επεξεργασίας του επεξεργαστή Β. (i) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της άσκησης είναι οι ακόλουθες: όπου A B H : A B έναντι H :, A B, είναι οι πληθυσμιακές μέσες ταχύτητες επεξεργασίας δεδομένων των Η/Υ με επεξεργαστή Α και Β αντίστοιχα. Τοποθετούμε τις ταχύτητες επεξεργασίας και των δύο τύπων επεξεργαστή σε μία στήλη (μεταβλητή Samples) και σε μία δεύτερη στήλη (μεταβλητή Type) τις τιμές και για τον επεξεργαστή Α και τον επεξεργαστή Β αντίστοιχα. Προκειμένου να εφαρμόσουμε παραμετρικό έλεγχο για τη σύγκριση των μέσων ταχυτήτων των δύο επεξεργαστών, θα πρέπει πρώτα να εξετάσουμε αν τα δεδομένα που διαθέτουμε προσαρμόζονται ικανοποιητικά στην Κανονική κατανομή. Ακολουθώντας τη διαδικασία Analyze/ Nonparametric tests / Sample K-S, λαμβάνουμε τον ακόλουθο πίνακα: 5 Ακαδημαϊκό Έτος -3

One-Sample Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (-tailed) a. Test distribution is Normal. b. Calculated from data. Mean Std. Deviation Absolute Positive Negative SAMPLES 6,777,83,, -,83,6,89 Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value για τον έλεγχο της κανονικότητας των δεδομένων είναι ίση με,89 >,5. Συνεπώς αποδεχόμαστε τη μηδενική υπόθεση της καλής προσαρμογής των δεδομένων στην Κανονική κατανομή. Στη συνέχεια, ακολουθούμε τη διαδικασία Analyze/compare means/independent samples T-test και κατασκευάζουμε τον ακόλουθο πίνακα: Independent Samples Test SAMPLES Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper,57,83 -,,38 -,88,898 -,3968 -,9 -,3,3,37 -,88,88 -,3866 -,3 Από τον παραπάνω πίνακα, παρατηρούμε ότι p-value =.38, συνεπώς (σε επίπεδο σημαντικότητας 5%) απορρίπτουμε τη μηδενική υπόθεση, που σημαίνει ότι οι μέσες ταχύτητες επεξεργασίας των δύο επεξεργαστών διαφέρει στατιστικά σημαντικά. Αξίζει να σημειωθεί ότι διαλέξαμε το p-value της ης οριζόντιας γραμμής του πίνακα, καθώς ο έλεγχος ισότητας διακυμάνσεων (Levene s test) βγάζει ως αποτέλεσμα ότι οι διακυμάνσεις των δύο δειγμάτων από τους δύο επεξεργαστές είναι στατιστικά ίσες (equal variances assumed). (ii) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση του δεύτερου ερωτήματος της άσκησης είναι οι ακόλουθες: H : A B έναντι H :, A B Χρησιμοποιώντας τα αποτελέσματα του προηγούμενου ερωτήματος, παρατηρούμε ότι η τιμή της στατιστικής συνάρτησης που χρησιμοποιήθηκε για τον παραπάνω έλεγχο είναι ίση με,. Αυτό σημαίνει ότι, δεδομένου ότι το πρόσημο της συνάρτησης είναι αρνητικό και ταυτόχρονα η εναλλακτική υπόθεση του 6 Ακαδημαϊκό Έτος -3

μονόπλευρου ελέγχου που διεξάγουμε είναι η H :, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με τη συμπληρωματική πιθανότητα από το μισό του p- value του αντίστοιχου δίπλευρου ελέγχου που διεξήχθη στο ερώτημα (i). Με άλλα λόγια, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με (-.38)/ =.8, που σημαίνει ότι αποδεχόμαστε τη μηδενική υπόθεση. Συνεπώς συμπεραίνουμε ότι (σε επίπεδο σημαντικότητας 5%) είναι ορθότερο να πούμε ότι οι μέσες ταχύτητες επεξεργασίας των επεξεργαστών Α και Β είναι στατιστικά ίσος (δηλαδή ότι δεν διαφέρουν σημαντικά), παρά να διατυπώσουμε το συμπέρασμα ότι η μέση ταχύτητα επεξεργασίας του επεξεργαστή Α υπερβαίνει σε σημαντικό βαθμό τη μέση ταχύτητα επεξεργασίας του επεξεργαστή Β. A B 3.3. Έλεγχος Ανεξαρτησίας χ του Pearson Προκειμένου να ελεγχθεί η πιθανή εξάρτηση της εύρυθμης λειτουργίας ενός Η/Υ με το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του, έγινε σε Η/Υ καταγραφή τόσο του επιπέδου θερμοκρασίας του όσο και του αν η λειτουργία του παρουσίασε προβλήματα. Πιο συγκεκριμένα, για κάθε έναν Η/Υ γνωρίζουμε τα εξής: αν η θερμοκρασία στο εσωτερικό του ανέβηκε πάνω από ένα ανώτατο όριο (μεταβλητή Temp που για κάθε Η/Υ λαμβάνει την τιμή αν η θερμοκρασία στο εσωτερικό του δεν υπερέβη το ανώτατο όριο, και την τιμή σε διαφορετική περίπτωση) αν η λειτουργία του παρουσίασε δυσκολίες (μεταβλητή Status που για κάθε Η/Υ λαμβάνει την τιμή αν η λειτουργία του δεν παρουσίασε δυσκολίες, και την τιμή σε διαφορετική περίπτωση). Να ελεγχθεί σε επίπεδο σημαντικότητας 5% αν η εύρυθμη λειτουργία ενός Η/Υ επηρεάζεται ή όχι από το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του. Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της άσκησης είναι οι ακόλουθες: H : Η εύρυθμη λειτουργία του Η/Υ είναι ανεξάρτητη από τη θερμοκρασία έναντι H : Η εύρυθμη λειτουργία του Η/Υ εξαρτάται από τη θερμοκρασία. 7 Ακαδημαϊκό Έτος -3

Πρόκειται για έλεγχο ανεξαρτησίας δύο κατηγορικών μεταβλητών. Ακολουθώντας τη διαδικασία Analyze / Descriptive Statistics / Crosstabs, λαμβάνουμε τους ακόλουθους πίνακες: TEMP * STATUS Crosstabulation TEMP Total Count Expected Count % within TEMP % within STATUS Count Expected Count % within TEMP % within STATUS Count Expected Count % within TEMP % within STATUS STATUS Total 9 5 7,5 6,5, 6,3% 35,7%,% 6,3%,7% 53,8% 5 7 6,5 5,5,,7% 58,3%,% 35,7% 58,3% 6,% 6,, 6, 53,8% 6,%,%,%,%,% Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (-sided),33 b,9,576,8,3,7,79,58 6 a. Computed only for a x table Exact Sig. (-sided) Exact Sig. (-sided),3, b. cells (,%) have expected count less than 5. The minimum expected count is 5,5. Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value =.9, συνεπώς (σε επίπεδο σημαντικότητας 5%) δεν απορρίπτουμε τη μηδενική υπόθεση, που σημαίνει ότι η εύρυθμη λειτουργία ενός Η/Υ δεν εξαρτάται από το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του. 8 Ακαδημαϊκό Έτος -3

. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Εταιρεία στατιστικών μελετών διεξήγαγε έρευνα για τη χρήση του κινητού τηλεφώνου σε πληθυσμό 5 ατόμων. Συγκεκριμένα κατέγραψε το μηνιαίο χρόνο ομιλίας του κάθε ατόμου στο κινητό τηλέφωνο (εξαρτημένη μεταβλητή Υ ), την ηλικία του (ανεξάρτητη μεταβλητή Χ ), το ετήσιο οικογενειακό εισόδημα του (ανεξάρτητη μεταβλητή Χ ) και τον αριθμό κλήσεων από το σταθερό του τηλέφωνο (ανεξάρτητη μεταβλητή Χ 3 ). Τα αποτελέσματα της έρευνας δίνονται στον ακόλουθο πίνακα. Χρόνος Υ Ηλικία Χ Εισόδημα (σε Ευρώ) Χ Κλήσεις Χ 3 8 38 6. 5 6 6. 5 3 67 7. 9 9 5. 7 5 3 55 7. 6 39 6.95 9 7 58 3. 6 8. 6 9 89 3 8. 8 99 9.5 68 9. 3 3 7. 3 7 5. 5 5 8 6. 3 5 7. 5 5 Δίνονται : Y.39, 587, 87.35,. i i i i 5 i i 5 i i3.. Διάγραμμα Διασποράς (Scatterplot) Να γίνει το διάγραμμα διασποράς (scatterplot) μεταξύ των (Χ, Υ), (Χ, Υ) και (Χ 3, Υ). Για κάθε ένα από τα διαγράμματα, να προσαρμοσθεί η ευθεία των ελαχίστων τετραγώνων. Σχολιάστε τα αποτελέσματα. 9 Ακαδημαϊκό Έτος -3

Ξεκινώντας τη μελέτη των δεδομένων μιας έρευνας, η γραφική απεικόνιση της εξαρτημένης μεταβλητής Υ συναρτήσει των ερμηνευτικών, μας παρέχει μια πρώτη ένδειξη για την καταλληλότητα τους. Ακολουθώντας τη διαδικασία Graphs/ Scatter/Dot / Simple και τοποθετώντας τη μεταβλητή Υ στον κατακόρυφο άξονα (Y axis) και κάθε μία από τις μεταβλητές Χ, Χ, Χ 3 διαδοχικά στον οριζόντιο άξονα ( axis), κατασκευάζουμε τα ζητούμενα γραφήματα... Προσαρμογή Ευθείας Γραμμικής Παλινδρόμησης Να βρεθεί το καλύτερο γραμμικό μοντέλο (με βάση την αρχή ελαχίστων τετραγώνων) για την πρόβλεψη του χρόνου ομιλίας στο κινητό τηλέφωνο, χρησιμοποιώντας κάθε μία από τις ερμηνευτικές μεταβλητές Χ, Χ και Χ 3 χωριστά. Ποια από τις τρεις μεταβλητές (Χ, Χ ή Χ 3 ) είναι καλύτερη; Μετονομάστε την σε Χ. Ως καλύτερο γραμμικό μοντέλο κρίνεται εκείνο, στο οποίο ερμηνεύεται μεγαλύτερο ποσοστό της συνολικής μεταβλητότητας. Ακολουθώντας τη διαδικασία Analyze/ Regression / Linear και επιλέγοντας τη μεταβλητή Υ ως εξαρτημένη (Dependent) και κάθε μία από τις μεταβλητές Χ, Χ, Χ 3 διαδοχικά ως ανεξάρτητη μεταβλητή του μοντέλου (Independent), λαμβάνουμε τους συντελεστές προσδιορισμού των τριών μοντέλων, με βάση τους οποίους καταλήγουμε στο καλύτερο μοντέλο..3. Έλεγχος Κανονικότητας και Ανεξαρτησίας Σφαλμάτων Να κατασκευάσετε κατάλληλα διαγράμματα, ώστε να διαπιστώσετε γραφικά αν παραβιάζεται (i) η κανονικότητα των σφαλμάτων και (ii) η ανεξαρτησία των σφαλμάτων. (i) Είναι γνωστό ότι μία από τις βασικές προϋποθέσεις του γραμμικού μοντέλου παλινδρόμησης είναι τα σφάλματα να ακολουθούν την κανονική κατανομή. Για να ελέγξουμε γραφικά τη συγκεκριμένη υπόθεση, υπολογίζουμε τα τυποποιημένα σφάλματα (studentized residuals), ακολουθώντας τη διαδικασία Analyze/ Regression / Linear και στην επιλογή Save διαλέγουμε τα studentized residuals. Στη συνέχεια ακολουθώντας τη διαδικασία Analyze/ Descriptive Statistics / P-P Plot (Q-Q Plot) κατασκευάζουμε το P-P Plot(Q-Q Plot) επιλέγοντας ως μεταβλητή τη στήλη με τα studentized residuals και ως test distribution την κανονική κατανομή (Normal). Επιπροσθέτως, ο έλεγχος κανονικότητας των σφαλμάτων μπορεί να γίνει και με το στατιστικό τεστ Kolmogorov-Smirnov, 3 Ακαδημαϊκό Έτος -3

ακολουθώντας τη διαδικασία Analyze/ Nonparametric Tests/ -Sample K-S χρησιμοποιώντας ως μεταβλητή (test variable) τη στήλη με τα studentized residuals. (ii) Για να εξετάσουμε αν παραβιάζεται η ανεξαρτησία των σφαλμάτων κατασκευάζουμε διαγράμματα διασποράς, ακολουθώντας τη διαδικασία Graphs/ Scatter/Dot / Simple και τοποθετώντας τη στήλη με τα studentized residuals στον κατακόρυφο άξονα (Y axis) και κάθε μία από τις μεταβλητές Χ, Yˆ, i διαδοχικά στον οριζόντιο άξονα ( axis), όπου Yˆ είναι η στήλη με τις προβλεπόμενες τιμές της εξαρτημένης μεταβλητής Υ και i ο αύξοντας αριθμός των παρατηρήσεων... Έλεγχοι Υποθέσεων για τις Τιμές των Παραμέτρων της Γραμμικής Παλινδρόμησης Να ελεγχθεί η ύπαρξη γραμμικής σχέσης ανάμεσα στην εξαρτημένη μεταβλητή Υ και την ανεξάρτητη μεταβλητή Χ σε επίπεδο σημαντικότητας α=5%. Ο έλεγχος για ύπαρξη γραμμικής σχέσης ανάμεσα στις μεταβλητές Χ, Υ ισοδυναμεί με τον ακόλουθο στατιστικό έλεγχο Η : β =, Η : β. Η απόρριψη ή αποδοχή της μηδενικής υπόθεσης θα βασιστεί στο p-value του ελέγχου ή ισοδύναμα στην τιμή της στατιστικής συνάρτησης ˆ T ( x) ή s( ˆ ) ισοδύναμα στο διάστημα εμπιστοσύνης για την παράμετρο β. Όλα τα παραπάνω υπολογίζονται ακολουθώντας τη διαδικασία Analyze/Regression/Linear στον πίνακα Coefficients..5. Σημειακή Εκτίμηση Πόσος μηνιαίος χρόνος ομιλίας Υ αναμένεται για ένα άτομο ηλικίας 5 ετών; (να γίνει σημειακή εκτίμηση και να δοθεί το διάστημα εμπιστοσύνης με συντελεστή 99%). Στο ερώτημα πρέπει να υπολογίσουμε τις προβλεπόμενες τιμές και το διάστημα εμπιστοσύνης 99% μέσης πρόβλεψης για την εξαρτημένη μεταβλητή Υ που δίνει το γραμμικό μοντέλο, ακολουθώντας τη διαδικασία Analyze/ Regression/Linear και 3 Ακαδημαϊκό Έτος -3

στην επιλογή Save διαλέγοντας τα unstandardized predicted values και Mean prediction Intervals αντίστοιχα..6. Εφαρμογές / Παρουσίαση Αποτελεσμάτων Γραμμικής Παλινδρόμησης Για τα δεδομένα της ενότητας: (α) Ποια είναι περίπου η ηλικία ενός ατόμου, το οποίο χρησιμοποιεί 5 λεπτά μηνιαίως το κινητό του τηλέφωνο; Για να δώσουμε τη συγκεκριμένη απάντηση, θα εφαρμόσουμε αντίστροφη παλινδρόμηση. Το μοντέλο που έχουμε επιλέξει είναι το ακόλουθο Y ˆ ˆ και θέτοντας Y 5, λύνουμε ως προς τη μεταβλητή Χ. (β) Να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σημαντικότητας α=% Η : β =, Η : β >, Η : β =., Η : β.. Για τον έλεγχο Η : β =, Η : β >, στηριζόμενοι στον πίνακα Coefficients (ο οποίος λαμβάνεται ακολουθώντας τη διαδικασία Analyze/Regression/ Linear), αποφασίζουμε για την απόρριψη ή την αποδοχή της μηδενική υπόθεσης Η με βάση το p-value του μονόπλευρου ελέγχου ή τη στατιστική ˆ συνάρτηση T ( x). s( ˆ ) Για τον έλεγχο Η : β =., Η : β., θέτω., συνεπώς ο ζητούμενος έλεγχος ισοδυναμεί με τον ακόλουθο Εφαρμόζουμε το γραμμικό μοντέλο δημιουργήσει τη μεταβλητή ελέγχου. Η :, Η :. Y. ˆ (έχοντας προηγουμένως Y. ) και παίρνουμε το p-value του παραπάνω (γ) Σε ποιο σημείο Χ (μεταξύ των 5 δοθέντων) βρίσκουμε το χειρότερο διάστημα εμπιστοσύνης για την απλή πρόβλεψη και σε ποιο σημείο Χ (μεταξύ των 5 δοθέντων) 3 Ακαδημαϊκό Έτος -3

βρίσκουμε το καλύτερο διάστημα εμπιστοσύνης για τη μέση πρόβλεψη; Να αιτιολογήσετε τις απαντήσεις σας και να δώσετε τα συγκεκριμένα διαστήματα. Μελετώντας τους τύπους που δίνουν τα διαστήματα εμπιστοσύνης για απλή και μέση πρόβλεψη, παρατηρούμε ότι, όσο περισσότερο απέχει η τιμή της μεταβλητής Χ από το μέσο όρο, τόσο αυξάνεται το εύρος του διαστήματος, που μεταφράζεται σε μείωση της ποιότητας (ακρίβειας) του. Συνεπώς το χειρότερο διάστημα για απλή πρόβλεψη παρατηρείται στην τιμή Χ=7 (πιο μακρινή από ), ενώ το καλύτερο για μέση πρόβλεψη στο Χ= (πιο κοντινό στο ) και τα λαμβάνουμε ακολουθώντας τη διαδικασία Analyze/ Regression / Linear, όπου στην επιλογή Save διαλέγουμε τα Mean (για τη μέση πρόβλεψη) και Individual (για την ατομική πρόβλεψη) Prediction Intervals διαμορφώνοντας τον κατάλληλο συντελεστή εμπιστοσύνης. (δ) Για τις μεταβλητές Χ, Υ που χρησιμοποιήθηκαν παραπάνω, εξετάστε ποιο από τα επόμενα μη γραμμικά μοντέλα είναι το καλύτερο. (i) Y ln, (ii) Y, (iii) Y Με βάση το μοντέλο που επιλέξατε, να δοθεί διάστημα εμπιστοσύνης 9% για το μηνιαίο χρόνο ομιλίας για ένα άτομο ηλικίας ετών. Σε κάθε ένα από τα τρία μη γραμμικά μοντέλα, πραγματοποιούμε τους κατάλληλους μετασχηματισμούς ώστε να καταλήξουμε σε γραμμικό μοντέλο (Ακολουθούμε τη διαδικασία Transform/Compute και επιλέγοντας το όνομα της νέας μεταβλητής (target variable) δηλώνουμε τον τρόπο υπολογισμού της (Numeric Expression)). (i) Y, ln Y (ii) Y ln Y,, ln, ln (iii) Εκτελώντας γραμμική παλινδρόμηση για κάθε ένα από τα τρία νέα γραμμικά μοντέλα (Διαδικασία Analyze/Regression/Linear) συγκρίνουμε τις τιμές των συντελεστών προσδιορισμού τους. 33 Ακαδημαϊκό Έτος -3

Για το μοντέλο που κρίνεται ως καλύτερο για πρόβλεψη της εξαρτημένης μεταβλητής Υ, υπολογίζουμε το διάστημα εμπιστοσύνης 9% για το μηνιαίο χρόνο ομιλίας για ένα άτομο ηλικίας ετών Analyze/Regression/Linear/Save/Individual Prediction Interval 9%). (ε) Για τα άτομα ηλικίας έως και 5 ετών, να υπολογισθεί το διάστημα εμπιστοσύνης 95% για τον αναμενόμενο χρόνο ομιλίας στο κινητό. Για να μπορέσουμε να απαντήσουμε στο ερώτημα αυτό, θα πρέπει να απομονώσουμε από το δείγμα που διαθέτουμε, τα άτομα με ηλικία έως 5 ετών. Για να το πετύχουμε αυτό, ακολουθούμε τη διαδικασία Data/Select Cases/If Condition is satisfied και πληκτρολογώντας το κουμπί If, δηλώνουμε τη συνθήκη με βάση την οποία θα γίνει η επιλογή των παρατηρήσεων (cases) που θα παραμείνουν ενεργές στο δείγμα. Συγκεκριμένα στο ερώτημα αυτό, εισάγουμε τη συνθήκη 5, οπότε διαγράφονται από το δείγμα οι παρατηρήσεις στις οποίες η ηλικία είναι μεγαλύτερη από 5, ή ισοδύναμα παραμένουν στο δείγμα οι παρατηρήσεις με ηλικία έως και 5 ετών. Στη συνέχεια για να υπολογίσουμε το διάστημα εμπιστοσύνης 95% μέσης πρόβλεψης για την εξαρτημένη μεταβλητή Υ που δίνει το γραμμικό μοντέλο, ακολουθούμε τη διαδικασία Analyze/ Regression/Linear και στην επιλογή Save διαλέγουμε τα Mean prediction Intervals. 3 Ακαδημαϊκό Έτος -3

5. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Εταιρεία στατιστικών μελετών διεξήγαγε έρευνα για την κατανάλωση καυσίμου σε αυτοκίνητα. Συγκεκριμένα κατέγραψε πόσα μίλια διανύει ένα αυτοκίνητο με την κατανάλωση ενός λίτρου καυσίμου (εξαρτημένη μεταβλητή Υ), τον κυβισμό (σε κυβικές ίντσες) της μηχανής του κάθε αυτοκινήτου (ανεξάρτητη μεταβλητή Χ ), την ιπποδύναμη (ανεξάρτητη μεταβλητή Χ ), το βάρος του σε Lbs (ανεξάρτητη μεταβλητή Χ 3 ) και το χρόνο (σε δευτερόλεπτα) που χρειάζεται το αυτοκίνητο για να αποκτήσει ταχύτητα ίση με 6 μίλια/ώρα (ανεξάρτητη μεταβλητή Χ ). Τα αποτελέσματα της έρευνας δίνονται στον ακόλουθο πίνακα. Υ Χ Χ Χ 3 Χ Χ 5 8 37 3 35 5 35 65 3693,5 3 8 38 5 336 6 3 5 333 5 7 3 39,5 6 5 9 98 3 7 5 35 9 8 5 3 8,5 9 55 5 5 5 39 9 385 8,5 5 383 7 3563 3 6 369 8 3 5 87 67 7,5 5 5 376 9,5 5 55 5 386 6 3 95 37 5 7 98 95 833 5,5 8 8 99 97 77 5,5 9 85 587 6 7 97 88 3,5 Δίνονται : i Y 35, i i i 6, i i 335, i i3 688, i i 3,5. (α) Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που έχουν ως ερμηνευτικές μεταβλητές κάποιες από τις,, 3, και ως εξαρτημένη μεταβλητή την Y. Να βρεθεί το καλύτερο με βάση: i) το R, ii) το R adj, iii) το MSE p. 35 Ακαδημαϊκό Έτος -3

(β) Να βρεθεί το καλύτερο μοντέλο με βάση τη διαδικασία Stepwise regression και να περιγραφούν όλα τα ενδιάμεσα βήματα. (γ) Χρησιμοποιώντας τα κατάλληλα γραμμικά μοντέλα, i) να υπολογισθούν οι συντελεστές προσδιορισμού R, ii) να δοθεί η ερμηνεία τους Y., RY., RY., RY. (δ) Χρησιμοποιώντας το πλήρες μοντέλο, (i) να βρεθούν διαστήματα εμπιστοσύνης 95% για κάθε ένα από τα β, β, β, β 3, β, (ii) να δοθεί από κοινού δ.ε. (τουλάχιστον) 95% για τα β, β με τη μέθοδο Bonferroni (ε) Χρησιμοποιώντας το γραμμικό μοντέλο που αξιολογήθηκε ως το καλύτερο με βάση το R (adj), να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σημαντικότητας α=% (i) Η : β = και β =3, Η : β ή β 3, (ii) Η : 3β =β, Η : 3β β. (στ) Χρησιμοποιώντας το πλήρες μοντέλο, να βρεθούν διαστήματα εμπιστοσύνης 95% για τη μέση και ατομική πρόβλεψη του Υ, όταν Χ =3, Χ =5, Χ 3 =, Χ =9. (ζ) Θεωρούμε τη δείκτρια μεταβλητή Χ 5 που λαμβάνει την τιμή, αν το αυτοκίνητο καταναλώνει βενζίνη και την τιμή, αν καταναλώνει πετρέλαιο. Χρησιμοποιώντας το γραμμικό μοντέλο που αξιολογήθηκε ως το καλύτερο με βάση τη διαδικασία Stepwise regression, (i) να βρεθεί δ.ε 95% για τον αναμενόμενο επιπρόσθετο αριθμό μιλίων Υ, που που θα διανύσει ένα βενζινοκίνητο αυτοκίνητο με κυβισμό 3 ίντσες, έναντι ενός πετρελαιοκίνητου με τον ίδιο κυβισμό, (ii) να εξετασθεί σε επίπεδο σημαντικότητας % αν ο αριθμός των μιλίων που θα διανύσει ένα αυτοκίνητο επηρεάζεται από το αν είναι βενζινοκίνητο ή πετρελαιοκίνητο. (η) Θεωρούμε ότι η δείκτρια Χ 5 αλληλεπιδρά με τις ήδη υπάρχουσες μεταβλητές του μοντέλου, το οποίο επιλέχτηκε από τη διαδικασία Stepwise regression. Να εξετασθεί σε επίπεδο σημαντικότητας 5% αν ο αριθμός των μιλίων Υ που διανύει ένα αυτοκίνητο (με κυβισμό 39 ίντσες) με την κατανάλωση ενός λίτρου καυσίμου εξαρτάται από το αν το αυτοκίνητο καταναλώνει βενζίνη ή πετρέλαιο. Απαντήσεις (α) (i) Υπολογίζουμε το συντελεστή προσδιορισμού R για όλα τα δυνατά μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη 36 Ακαδημαϊκό Έτος -3

διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο μοντέλο περιέχει τουλάχιστον τη μεταβλητή Χ. R,885,899 3,885,887,9 3,9,887 3,9 3 Βέλτιστο μοντέλο με βάση το R είναι το ακόλουθο Y. (ii) Υπολογίζουμε το συντελεστή προσδιορισμού R adj για όλα τα δυνατά μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο περιέχει τουλάχιστον τη μεταβλητή Χ. R adj,878,888 3,87,87,88 3,886,866 3,878 3 37 Ακαδημαϊκό Έτος -3

Βέλτιστο μοντέλο με βάση το R adj είναι το ακόλουθο Y. (iii) Υπολογίζουμε το συντελεστή προσδιορισμού MSE P για όλα τα δυνατά μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο περιέχει τουλάχιστον τη μεταβλητή Χ. MSE p,3,87 3,5,3,98 3,97,3 3,3 3 Βέλτιστο μοντέλο με βάση το MSE p είναι το ακόλουθο Y. (β) Βήμα. Προσαρμόζουμε όλα τα απλά γραμμικά μοντέλα Y i i, i,,3,, και υπολογίζουμε για κάθε ένα από αυτά, την ποσότητα * MSR( i ) F. MSE( i ) Συγκεκριμένα παίρνουμε τα αποτελέσματα * MSR( ) * MSR( ) F 38,39 F, (,5), F 7,888 F, (,5) MSE( ) MSE( ) * MSR( 3 ) * MSR( ) F 3 8, F, (,5), F 5,6 F, (,5) MSE( ) MSE( ) 3 Επιλέγουμε τη μεταβλητή που μεγιστοποιεί την παραπάνω ποσότητα, δηλαδή τη μεταβλητή Χ, οπότε και την εισάγουμε στο μοντέλο. 38 Ακαδημαϊκό Έτος -3

Βήμα. Ξεκινώντας με το μοντέλο Y, προσαρμόζουμε όλα τα γραμμικά μοντέλα Y ένα από αυτά, την ποσότητα, i,3, και υπολογίζουμε για κάθε i * MSR( i / ) Fi,. MSE( / ) Παρατηρούμε ότι για καμιά μεταβλητή η παραπάνω ποσότητα δεν υπερβαίνει την τιμή F,3(,5), συνεπώς δεν μπορούμε να εισάγουμε στο μοντέλο άλλη μεταβλητή, με αποτέλεσμα με τη διαδικασία Stepwise Regression να καταλήγουμε στο συμπέρασμα ότι βέλτιστο μοντέλο είναι το εξής Y. i Η παραπάνω διαδικασία συνοψίζεται στον ακόλουθο πίνακα Variables Entered/Removed a i Model Variables Entered Variables Removed ENGINE, a. Dependent Variable: MPG Method Stepwise (Criteria: Probabilit y-of-f-to-e nter <=,5, Probabilit y-of-f-to-r emove >=,). SSR( / ) SSR(, ) SSR( ) 8,98 3,59 (γ) R Y., 566. SSE( ) SSE( ) 8,9 Αυτό σημαίνει ότι το ποσοστό της μεταβλητότητας που ερμηνεύει επιπλέον η μεταβλητή Χ, δεδομένου ότι στο μοντέλο υπάρχει η μεταβλητή Χ, είναι το 56,6% της μεταβλητότητας που δεν έχει ερμηνευθεί από τη Χ. SSR( / SSE( ) ) SSR(, ) SSR( SSE( ) ) 8,98 8,388 36,56 R Y., Αυτό σημαίνει ότι το ποσοστό της μεταβλητότητας που ερμηνεύει επιπλέον η μεταβλητή Χ, δεδομένου ότι στο μοντέλο υπάρχει η μεταβλητή Χ, είναι το,% της μεταβλητότητας που δεν έχει ερμηνευθεί από τη Χ. 39 Ακαδημαϊκό Έτος -3

Ο συντελεστής προσδιορισμού SSR( ) SSR( ) 8,388 R Y.,886. SSE SST 36,95 R Y. εκφράζει το ποσοστό της ανερμήνευτης μεταβλητότητας που ερμηνεύει η μεταβλητή Χ, δεδομένου ότι στο μοντέλο δεν υπάρχει άλλη μεταβλητή. Στη συγκεκριμένη περίπτωση το ποσοστό αυτό είναι 88,6%. SSR( ) SSR( ) 3,59 R Y.,7. SSE SST 36,95 Ο συντελεστής προσδιορισμού R Y. εκφράζει το ποσοστό της ανερμήνευτης μεταβλητότητας που ερμηνεύει η μεταβλητή Χ, δεδομένου ότι στο μοντέλο δεν υπάρχει άλλη μεταβλητή. Στη συγκεκριμένη περίπτωση το ποσοστό αυτό είναι 7%. Οι εκτιμήσεις ˆ ˆ, που λαμβάνουμε για τις παραμέτρους, προσαρμόζοντας τα γραμμικά μοντέλα Y, Y, Y δίνονται αντίστοιχα στους ακόλουθους πίνακες Model (Constant) ENGINE ACCEL a. Dependent Variable: MPG Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig.,65,77 5,6, -,85E-,6 -,8 -,7,,56,5,,6,53 Model (Constant) ENGINE a. Dependent Variable: MPG Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 7,76,93 3,3, -3,8E-,3 -,9 -,79, Ακαδημαϊκό Έτος -3

Model (Constant) ACCEL a. Dependent Variable: MPG Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 3,35,3,637,9,,69,86 7,53, Η εκτίμηση για την παράμετρο που παίρνουμε από το πρώτο μοντέλο είναι ˆ,85, ενώ από το δεύτερο είναι ˆ, 38. Αντίστοιχα η εκτίμηση για την παράμετρο που παίρνουμε από το πρώτο μοντέλο είναι ˆ, 56, ενώ από το τρίτο είναι ˆ,. Οι εκτιμήσεις αυτές διαφέρουν σημαντικά για την κάθε παράμετρο χωριστά, διότι οι μεταβλητές Χ, Χ είναι ισχυρά συσχετισμένες. (δ) (i) Τα διαστήματα εμπιστοσύνης 95% για κάθε μία από τις παράμετρους β, β, β, β 3, β χωριστά, δίνονται στον ακόλουθο πίνακα Model Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 3,6 5,39,87,,68 3,59 ENGINE -3,97E-, -,73-3,687, -,63 -,7 HORSEPOW3,356E-,,6,66,9 -,,78 WEIGHT -,7E-, -,9 -,58,876 -,3, ACCEL,99,5,,79, -,335,73 a. Dependent Variable: MPG (ii) Για να κατασκευάσουμε από κοινού δ.ε (τουλάχιστον) 95% a 5% για τις παραμέτρους,, χρειαζόμαστε διαστήματα εμπιστοσύνης για κάθε μία από a τις δύο παράμετρους με πιθανότητα σφάλματος %,5. Συνεπώς τα 97,5% δ.ε για τις παραμέτρους, δίνονται ακολούθως I ( ˆ s( ˆ ) t ( 3,97 5 (,5 / ), ˆ s( ˆ ) t,,, 3,97 5 (,5 / )),,) (,66,,) Ακαδημαϊκό Έτος -3

I ( ˆ ˆ ) (,5 / ), ˆ ( ˆ s ( t 5 s ) t 5 (,5 / )) (,99,5,,,99,5, ) (,,,8 ). Άρα το από κοινού 95% δ.ε για τις δύο παράμετρους είναι το εξής I I (,66,. ) (,,,8). (ε) Βέλτιστο μοντέλο με βάση το R adj είναι το ακόλουθο Y. Προσαρμόζοντας το παραπάνω μοντέλο, παίρνουμε τον ακόλουθο πίνακα Model (Constant) ENGINE HORSEPOW a. Dependent Variable: MPG Coefficients a Unstandardized Coefficients Standardi zed Coefficien ts B Std. Error Beta t Sig. 6,5,63,937, -,E-,8 -,3-5,3, 3,5E-,,38,583,3 Για τον παρακάτω έλεγχο σε ε.σ. % Η : β = και β =3, Η : β ή β 3, εφαρμόζοντας κατάλληλο μετασχηματισμό 3, προσαρμόζουμε το μοντέλο Y ( 3) Y 3 και παίρνουμε τους ακόλουθους πίνακες Model Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 3696,3 873,67 655,, a 3,866 7,87 36978, 9 a. Predictors: (Constant), HORSEPOW, ENGINE b. Dependent Variable: YY Ακαδημαϊκό Έτος -3

Model (Constant) ENGINE HORSEPOW a. Dependent Variable: YY Coefficients a Unstandardized Coefficients Standardi zed Coefficien ts B Std. Error Beta t Sig. 6,5,63,937, -,E-,8 -,35-5,3, -,968, -,967-8,97, F * SSR(, ) 3696,3 655 6, F,7 (,) άρα απορρίπτουμε τη SSE(, ) 3,866 3 7 μηδενική υπόθεση Η. Για τον παρακάτω έλεγχο σε ε.σ. % Η : 3β =β, Η : 3β β, εφαρμόζοντας κατάλληλο μετασχηματισμό 3, προσαρμόζουμε το μοντέλο Y 3 ) ( ), ( και απορρίπτουμε τη μηδενική υπόθεση (από τους αντίστοιχους πίνακες). (στ) Το δ.ε 95% για μέση πρόβλεψη είναι το εξής (.6,.5 ), ενώ το αντίστοιχο για ατομική πρόβλεψη δίνεται ακολούθως (3.37,.83 ). (ζ) (i) Προσαρμόζουμε το μοντέλο Y 5 5 και λαμβάνουμε τον ακόλουθο πίνακα Model (Constant) ENGINE 5 Unstandardized Coefficients a. Dependent Variable: MPG Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound 7,739,86 3,, 5,97 9,56-3,E-,3 -,9 -,, -,36 -,5 -,55,6 -, -,85,89 -,55,95 3 Ακαδημαϊκό Έτος -3

Για 5 έχουμε E ( Y ) 5. Για 5 έχουμε E ( Y ). Αφαιρώντας τις δύο σχέσεις κατά μέλη, λαμβάνουμε την ακόλουθη ισότητα 5 E( Y ) E ( Y ), συνεπώς το ζητούμενο δ.ε ταυτίζεται με το δ.ε για την παράμετρο β 5, το οποίο δίνεται στον παραπάνω πίνακα και είναι το ακόλουθο,55,,95. (ii) Στο ερώτημα αυτό ζητείται ο ακόλουθος έλεγχος Η : β 5 = έναντι Η : β 5. Από τον πίνακα του ερωτήματος (i), λαμβάνουμε ότι το p-value του συγκεκριμένου ελέγχου είναι ίσο με,89, συνεπώς σε επίπεδο σημαντικότητας % δεν απορρίπτουμε τη μηδενική υπόθεση και συμπεραίνουμε ότι ο αριθμός των μιλίων που θα διανύσει ένα αυτοκίνητο δεν επηρεάζεται από το αν είναι βενζινοκίνητο ή πετρελαιοκίνητο. (η) Προσαρμόζουμε το μοντέλο Y 5 5 6 5 και λαμβάνουμε τον ακόλουθο πίνακα Model Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 8,88,865 33,38, 6,98 3,65 ENGINE -3,E-,3 -,8 -,6, -, -,8 5-5,66,683 -,636-3,7,7-8,733 -,599 INTERACT,6E-,5,56,57,,,3 a. Dependent Variable: MPG Σε επίπεδο σημαντικότητας 5% η μεταβλητή Χ 5 και η αλληλεπίδραση 5 είναι στατιστικά σημαντικές, συνεπώς ο αριθμός των μιλίων Υ που διανύει ένα αυτοκίνητο με την κατανάλωση ενός λίτρου καυσίμου εξαρτάται από το αν το αυτοκίνητο καταναλώνει βενζίνη ή πετρέλαιο. Ακαδημαϊκό Έτος -3

6. ΠΙΝΑΚΕΣ ΣΥΝΑΦΕΙΑΣ ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ Πέντε διαφορετικές εταιρίες κατασκευάζουν δίσκους αποθήκευσης για ηλεκτρονικούς υπολογιστές. Προκειμένου να διερευνηθεί το αν ο δίσκος αποθήκευσης λειτουργεί σε ικανοποιητικό επίπεδο για χρονικό διάστημα πέραν της εγγύησης ή όχι εξαρτάται από το ποια εταιρεία τον έχει παρασκευάσει, λαμβάνουμε τυχαίο δείγμα δίσκων αποθήκευσης που έχουν παρασκευασθεί από τις παραπάνω πέντε εταιρίες και καταγράφεται για κάθε έναν από αυτούς το αν ο χρόνος ικανοποιητικής λειτουργίας τους υπερβαίνει την εγγύηση του ή όχι. Τα αποτελέσματα της έρευνας συνοψίζονται στον ακόλουθο πίνακα. ΥΠΕΡΒΑΙΝΕΙ ΤΗΝ ΕΓΓΥΗΣΗ ΕΤΑΙΡΙΑ 3 5 ΝΑΙ 33 8 9 ΟΧΙ 3 3 7 Να εξετασθεί σε επίπεδο σημαντικότητας 5% η ορθότητα του παραπάνω ισχυρισμού. Ακολουθώντας τη διαδικασία Analyze / Data / Weight cases δηλώνουμε ότι οι συνδυασμοί των επιπέδων των δύο παραγόντων «βαραίνουν» ανάλογα με τις συχνότητες που αυτοί παρουσιάζουν. Στη συνέχεια ακολουθώντας τη διαδικασία Analyze / Descriptive Statistics / Crosstabs καταλήγουμε στον ακόλουθο πίνακα: Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (-sided),66 a,3,797, 3,569,59 a. cells (,%) have expected count less than 5. The minimum expected count is 6,. 5 Ακαδημαϊκό Έτος -3