Περιγραφική Στατιστική

Σχετικά έγγραφα
Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Εισαγωγή στη Στατιστική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ειγµατοληπτική κατανοµή

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Κεφάλαιο 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. 1.1 Περιγραφή Στατιστικών εδοµένων. p i = f i n. (1.1) F i = f j όπου x j x i για j i. P i =

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Στατιστική Επιχειρήσεων Ι

Μάθηµα 3 ο. Περιγραφική Στατιστική

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

Κεφάλαιο 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ. 1.1 Περιγραφή Στατιστικών εδοµένων. p i = f i n. (1.1) F i = f j. P i = p j.

Περιγραφική Στατιστική

Μέτρα θέσης και διασποράς

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

Πίνακας κατανοµής συχνοτήτων και αθροιστικών συχνοτήτων. Σχετ.

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Εφαρμοσμένη Στατιστική

Κεφάλαιο 1 o Εξισώσεις - Ανισώσεις

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) Υπολογισμοί Παραμέτρων Πληθυσμού και Στατιστικών Δείγματος

Στατιστική για Χημικούς Μηχανικούς Περιγραφική Στατιστική. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Στατιστικοί πίνακες. Δημιουργία κλάσεων

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Κεφάλαιο 5. Οι δείκτες διασποράς

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

επ. Κωνσταντίνος Π. Χρήστου

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

Μάθηµα 14. Κεφάλαιο: Στατιστική

Περιγραφική στατιστική μεθοδολογία.

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος


ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Κεφάλαιο 6. Περιγραφική Στατιστική

Mέτρα (παράμετροι) θέσεως

Μ Ε Τ Ρ Α Δ Ι Α Σ Π Ο Ρ Α Σ.

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 2ο: ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑ Α

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

1) ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ - ΑΤΑΞΙΝΟΜΗΤΑ ΔΕΔΟΜΕΝΑ

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Λύσεις των ασκήσεων

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

ΚΕΦΑΛΑΙΟ 6 ΚΟΙΝΟΙ ΥΠΟΨΗΦΙΟΙ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Transcript:

Ιωάννης Παραβάντης Επίκουρος Καθηγητής Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών Πανεπιστήµιο Πειραιώς Φεβρουάριος 2010 Περιγραφική Στατιστική 1. εδοµένα Θεωρούµε το ακόλουθο σύνολο δεδοµένων (data set): NUM1 NUM2 1 1 1 2 3 3 3 3 3 4 5 5 5 6 6 6 6 6 7 6 6 8 7 7 9 9 9 10 99 Θα αναλύσουµε τα δεδοµένα αυτά µε γραφικές και αριθµητικές περιγραφικές µεθόδους, χωρίς να προβληµατιστούµε κατά πόσον αποτελούν δείγµα (sample) κάποιου πληθυσµού (population). Καταρχήν πρέπει να προβληµατιζόµαστε ως προς τη φύση και τις µονάδες µέτρησης των δεδοµένων που πρόκειται να αναλύσουµε. Στη συγκεκριµένη περίπτωση έχουµε ένα σύνολο δεδοµένων το οποίο έχει δυο µεταβλητές (variables), που ονοµάζονται NUM1 και NUM2. Η µεταβλητή NUM1 περιέχει 9 παρατηρήσεις (observations) ενώ η µεταβλητή NUM2 περιέχει 10 παρατηρήσεις. Εάν περιείχε και η µεταβλητή NUM1 10 παρατηρήσεις, θα λέγαµε ότι το σύνολο δεδοµένων έχει 10 παρατηρήσεις. Τι αντιπροσωπεύουν τα δεδοµένα και σε τι µονάδες µετριούνται; Στην περίπτωσή µας, και οι δυο µεταβλητές περιέχουν ακέραιους αριθµούς χωρίς διαστάσεις (dimensionless). Και οι δυο µεταβλητές, NUM1 και NUM2 είναι ποσοτικές (quantitative). Ας ξεκινήσουµε την ανάλυση των δεδοµένων αυτών. Εάν καταχωρήσουµε τα δεδοµένα µας στο στατιστικό πακέτο Statistix (έκδοση 9.0) και τα εκτυπώσουµε από το Statistix, φαίνονται ως εξής: 1

CASE NUM1 NUM2 1 1 1 2 3 3 3 3 3 4 5 5 5 6 6 6 6 6 7 6 6 8 7 7 9 9 9 10 M 99 Η πρώτη στήλη φέρει τον αύξοντα αριθµό των παρατηρήσεων (CASE). Παρατηρήστε επίσης ότι στην 10η γραµµή η µεταβλητή NUM1 έχει το σύµβολο Μ, που αντιπροσωπεύει ελλιπή δεδοµένα (missing data) στη θέση αυτή. Αρχικά θα παραστήσουµε τα δεδοµένα γραφικά. Μετά θα κάνουµε ότι αριθµητικές αναλύσεις. 2. Ιστογράµµατα Η σηµαντικότερη µορφή γραφικής αναπαράστασης ποσοτικών δεδοµένων είναι το ιστόγραµµα (histogram). Για να κατασκευάσουµε ένα ιστόγραµµα πρέπει πρώτα να φτιάξουµε ένα πίνακα συχνοτήτων (frequency table) των τιµών µιας µεταβλητής. Ένας τέτοιος πίνακας δείχνει την κάθε αριθµητική τιµή και πόσες φορές αυτή εµφανίζεται, δηλαδή τη συχνότητά της. Ακολουθούν πίνακες συχνοτήτων των µεταβλητών των δεδοµένων µας: Frequency Distribution of NUM1 Cumulative Value Freq Percent Freq Percent 1 1 11.1 1 11.1 3 2 22.2 3 33.3 5 1 11.1 4 44.4 6 3 33.3 7 77.8 7 1 11.1 8 88.9 9 1 11.1 9 100.0 Total 9 100.0 Frequency Distribution of NUM2 Cumulative Value Freq Percent Freq Percent 1 1 10.0 1 10.0 3 2 20.0 3 30.0 5 1 10.0 4 40.0 6 3 30.0 7 70.0 7 1 10.0 8 80.0 9 1 10.0 9 90.0 99 1 10.0 10 100.0 Total 10 100.0 2

Στους ανωτέρω πίνακες διακρίνουµε στήλες για τις τιµές (Value), τις απόλυτες συχνότητες (Freq), τις απόλυτες συχνότητες σε ποσοστό τοις εκατό (Percent), τις απόλυτες αθροιστικές συχνότητες (Cumulative Freq) και τις αθροιστικές συχνότητες σε ποσοστό τοις εκατό (Cumulative Percent). Με βάση τους ανωτέρω πίνακες συχνοτήτων, κατασκευάζουµε τα ακόλουθα ιστογράµµατα, ένα για κάθε µεταβλητή: Σχήµα 1. Ιστόγραµµα της NUM1 Σχήµα 2. Ιστόγραµµα της NUM2 Για την NUM1, θεωρήσαµε διαστήµατα ή τάξεις ή κλάσεις (classes) που ξεκινούν από το 1 και έχουν πλάτος 1, δηλαδή 0-1, 1-2 κλπ µέχρι και το 9-10. Στην περίπτωση του ιστογράµµατος της NUM2 λόγω της ύπαρξης της τιµής 99, αναγκαστήκαµε να φτιάξουµε κλάσεις που ξεκινούν από το 0 και έχουν πλάτος 5, δηλαδή 0-5, 5-10 κλπ έως και το 95-100. 3

Το ύψος των κόκκινων µπαρών (bars) σε κάθε κλάση δείχνει το πλήθος των τιµών που εµπίπτουν στην κλάση αυτή, δηλαδή είναι µεγαλύτερα ή ίσα του αριστερού άκρου και µικρότερα του δεξιού άκρου της κλάσης. Το ιστόγραµµα µιας µεταβλητής µας επιτρέπει να καθορίσουµε το σχήµα ή τη µορφή (shape) της κατανοµής της (distribution). Βασικά µας ενδιαφέρει να δούµε κατά πόσον µια µεταβλητή είναι οµοιόµορφα κατανεµηµένη (uniformly distributed) σε όλο το εύρος (range) των τιµών που παίρνει. Για παράδειγµα, από τα Σχήµατα 1 και 2 βλέπουµε ότι η µεταβλητή NUM1 είναι πιο οµοιόµορφα κατανεµηµένη στο διάστηµα 1-10 από ότι η µεταβλητή NUM2 στο διάστηµα 0-100. Ειδικά στην περίπτωση της NUM2 βλέπουµε ότι τα περισσότερα δεδοµένα είναι συγκεντρωµένα αριστερά, από το 0 µέχρι το 10. Υπάρχει µόνο ένα δεδοµένο (το 99) που βρίσκεται πολύ µακριά από τα υπόλοιπα, στο δεξιό άκρο του διαγράµµατος (Σχήµα 2). Τέτοια µακρινά και ασυνήθιστα σηµεία λέγονται ακραίες τιµές (outliers). Επίσης, µας ενδιαφέρει να δούµε κατά πόσον η κατανοµή µιας µεταβλητής µοιάζει µε την κανονική κατανοµή (normal distribution), που µοιάζει µε περίγραµµα καµπάνας. Ας θεωρήσουµε τον ακόλουθο εναλλακτικό πίνακα συχνοτήτων της µεταβλητής NUM1, που κατασκευάστηκε µε πλάτος κλάσης 2: Frequency Distribution of NUM1 Cumulative Low High Freq Percent Freq Percent 0 2 1 11.1 1 11.1 2 4 2 22.2 3 33.3 4 6 1 11.1 4 44.4 6 8 4 44.4 8 88.9 8 10 1 11.1 9 100.0 Total 9 100.0 Στο επόµενο σχήµα, απεικονίζουµε ιστόγραµµα βασισµένο στον ανωτέρω πίνακα συχνοτήτων. 4

Σχήµα 3. Ιστόγραµµα µε κανονική καµπύλη της NUM1 Πάνω από τις κόκκινες µπάρες του ιστογράµµατος έχουµε ζωγραφίσει µια πράσινη κανονική καµπύλη (normal curve) ώστε να συγκρίνουµε τη µορφή του ιστογράµµατος µε αυτή. Λόγω των λίγων τιµών (9) µε τις οποίες κατασκευάσαµε το ιστόγραµµα, δεν είµαστε σε θέση να εξάγουµε κάποιο χρήσιµο συµπέρασµα. Η µεταβλητή NUM1 µπορεί να είναι κανονικά κατανεµηµένη αν είχαµε περισσότερα δεδοµένα θα µπορούσαµε να είµαστε πιο σίγουροι. Πόσα δεδοµένα χρειάζονται; Στατιστική θεωρία και εµπειρία υποδεικνύουν ότι για να είµαστε πιο σίγουροι για την µορφή ενός ιστογράµµατος, πρέπει να έχουµε τουλάχιστον 5 τιµές σε κάθε κλάση. Μια εναλλακτική µορφή γραφικής απεικόνισης των δεδοµένων, το διάγραµµα κουτιού (box plot) θα την παρουσιάσουµε στην επόµενη ενότητα. 3. Πέντε αριθµοί και διαγράµµατα κουτιά Αφού απεικονίσουµε τα δεδοµένα διαγραµµατικά και ερµηνεύσουµε την κατανοµή και το σχήµα τους, περνάµε στο δεύτερο µέρος της περιγραφικής ανάλυσης, που είναι ο αριθµητικός υπολογισµός ορισµένων µεγεθών. Τα µεγέθη αυτά αφορούν αφενός µεν την κεντρική θέση (το «µέσο») αφετέρου δε τη διασπορά (το «άνοιγµα») των δεδοµένων και λέγονται µέτρα θέσεως (location) και διασποράς (spread). Καταρχήν, από τους πίνακες συχνοτήτων και τα ιστογράµµατα βλέπουµε την ελάχιστη τιµή (min), την µέγιστη τιµή (max) και το εύρος (range) των δεδοµένων. Στην περίπτωση της µεταβλητής NUM1, η ελάχιστη τιµή είναι 1, η µέγιστη τιµή είναι 9 και το εύρος είναι ίσο µε την µέγιστη µείον την ελάχιστη τιµή, δηλαδή 9 1 = 8. Για την NUM2, η ελάχιστη τιµή είναι 1, η µέγιστη τιµή είναι 99 και το εύρος ισούται µε 99 1 = 98. Βλέπουµε δηλαδή ότι το εύρος της NUM2 είναι πολύ µεγαλύτερο από αυτό της NUM1. Αυτό οφείλεται στην ύπαρξης µιας ακραίας τιµής, του 99. 5

Τα προηγούµενα αριθµητικά µεγέθη που υπολογίσαµε, αφορούν κυρίως τη διασπορά των δεδοµένων. Ας έλθουµε τώρα στα µέτρα θέσεως. Μέτρο θέσεως που µπορεί να υπολογιστεί εύκολα είναι η επικρατούσα τιµή (mode), που ισούται µε την πιο συχνή τιµή, δηλαδή την αριθµητική εκείνη τιµή που εµφανίζεται πιο πολλές φορές στα δεδοµένα. Στην περίπτωση της NUM1, όπως φαίνεται από τους πίνακες συχνοτήτων, επικρατούσα τιµή είναι το 6, που εµφανίζεται 3 φορές. Για αυτό τον λόγο η µπάρα που αντιστοιχεί στην κλάση 3-4 (που περιλαµβάνει αριθµούς µεγαλύτερους ή ίσους µε 3 και µικρότερους από 4) έχει το µεγαλύτερο ύψος στο Σχήµα 1. Στην περίπτωση της NUM2, επικρατούσα τιµή είναι και πάλι το 6, που επίσης εµφανίζεται 3 φορές. Σηµαντικό µέτρο θέσεως είναι η διάµεση τιµή (median) που λέγεται και διάµεσος. Η διάµεσος είναι η µεσαία τιµή σε ένα σύνολο δεδοµένων. Εάν ο αριθµός (το πλήθος) των δεδοµένων είναι µονός (odd) τότε διάµεσος είναι η τιµή που βρίσκεται ακριβώς στο µέσο (και έχει ίσο αριθµό δεδοµένων από κάτω και από πάνω). Εάν ο αριθµός (το πλήθος) των δεδοµένων είναι ζυγός (even) τότε παίρνουµε τις δυο µεσαίες τιµές, τις προσθέτουµε, τις διαιρούµε δια του 2 και βρίσκουµε τη διάµεση τιµή. Προσοχή: για να υπολογίσουµε τη διάµεσο, πρέπει πρώτα να ταξινοµήσουµε τα δεδοµένα από τη µικρότερη προς τη µεγαλύτερη τιµή! Ας ξαναδείξουµε τα δεδοµένα, που είναι ήδη ταξινοµηµένα από τη µικρότερη προς τη µεγαλύτερη τιµή: NUM1 NUM2 1 1 1 2 3 3 3 3 3 4 5 5 5 6 6 6 6 6 7 6 6 8 7 7 9 9 9 10 99 Η µεταβλητή NUM1 έχει 9 τιµές, συνεπώς η διάµεσος είναι η 5η τιµή, που ισούται µε 6. Η µεταβλητή NUM2 έχει 10 τιµές, συνεπώς η διάµεσος είναι το ηµιάθροισµα των δυο µεσαίων τιµών (5ης και 6ης): 6 + 6 12 = = 6 2 2 Παρατηρούµε ότι η διάµεσος τιµή της NUM2 είναι 6, όση δηλαδή και της NUM1! Αν συγκρίνουµε τις τιµές της NUM1 µε αυτές της NUM2 βλέπουµε ότι η είναι ακριβώς ίδιες µε εξαίρεση την ακραία τιµή 99 που έχει προστεθεί στην NUM2. Συµπεραίνουµε λοιπόν ότι η ύπαρξη της ακραίας τιµής δεν επηρέασε καθόλου τη διάµεσο! 6

Λέµε ότι η διάµεσος τιµή είναι ανθεκτική σε ακραίες τιµές. Ας υπολογίσουµε τώρα δυο άλλα µεγέθη, που είναι περισσότερο µέτρα διασποράς παρά µέτρα θέσεως, αλλά είναι συναφή µε την διάµεσο τιµή. Το πρώτο τεταρτηµόριο (first quartile) είναι η διάµεσος του χαµηλότερου (πρώτου) µισού των δεδοµένων (δηλαδή από τη διάµεσο και κάτω). Το πρώτο τεταρτηµόριο παριστάνεται µε Q1. Το τρίτο τεταρτηµόριο (third quartile) είναι η διάµεσος του υψηλότερου (δεύτερου) µισού των δεδοµένων (δηλαδή από τη διάµεσο και πάνω). Το τρίτο τεταρτηµόριο παριστάνεται µε Q3. Ανατρέχοντας και πάλι στο προηγούµενο πίνακα NUM1 NUM2 1 1 1 2 3 3 3 3 3 4 5 5 5 6 6 6 6 6 7 6 6 8 7 7 9 9 9 10 99 το πρώτο µισό της NUM1 είναι οι τιµές 1, 3, 3 και 5. Προσέξτε ότι αγνοούµε τη διάµεσο τιµή 6 γιατί εάν δεν την αγνοήσουµε θα αναγκαστούµε να την µετρήσουµε δυο φορές, µια στο κάτω µισό και µια στο πάνω µισό. Η διάµεσος του πρώτου µισού είναι το ηµιάθροισµα των µεσαίων τιµών (3 και 3): 3 + 3 6 Q1 = = = 3 2 2 Συνεπώς το πρώτο τεταρτηµόριο της NUM1 ισούται µε 3. Το δεύτερο µισό της NUM1 είναι οι τιµές 6, 6, 7 και 9. Η διάµεσος του δεύτερου µισού είναι το ηµιάθροισµα των µεσαίων τιµών (6 και 7): 6 + 7 13 Q3 = = = 6.5 2 2 Συνεπώς το τρίτο τεταρτηµόριο της NUM1 ισούται µε 6.5. Σε περίπτωση που αναρωτιόσαστε, ή έννοια του δεύτερου τεταρτηµορίου (Q2) ταυτίζεται µε την διάµεσο τιµή! Στην περίπτωση της NUM2 το πλήθος των δεδοµένων είναι ζυγό άρα χωρίζονται σε δυο µισά χωρίς να είναι απαραίτητο να εξαιρέσουµε κάποια µέση τιµή. Έτσι, φαίνεται εύκολα ποιο είναι το πρώτο και τρίτο τεταρτηµόριο της µεταβλητής NUM2: 7

Q1 = 3 Q3 = 7 Συνεπώς, το πρώτο τεταρτηµόριο της NUM2 ισούται µε 3 και το τρίτο µε 7. Βλέπουµε ότι, σε σχέση µε την NUM1, η ακραία τιµή της NUM2 (99) επηρέασε το Q3 (από 6.5 το αύξησε σε 7). Έχουµε λοιπόν υπολογίσει για τις NUM1 και NUM2 ελάχιστο, πρώτο τεταρτηµόριο, διάµεσο, τρίτο τεταρτηµόριο και µέγιστο. Αυτές οι 5 τιµές (το λεγόµενο five number summary) συνοψίζονται κατωτέρω: Descriptive Statistics Variable Minimum 1st Quarti Median 3rd Quarti Maximum NUM1 1.0000 3.0000 6.0000 6.5000 9.0000 NUM2 1.0000 3.0000 6.0000 7.5000 99.000 Μικρές διαφορές σε µερικές τιµές (π.χ. το Q3 είναι 7.5 και όχι 7) οφείλονται σε διαφορετικό τρόπο υπολογισµού από το στατιστικό πακέτο και δεν µας απασχολούν. Βάσει αυτών των τιµών, µπορούµε τώρα να χαράξουµε το διάγραµµα κουτί (box plot) στο οποίο αναφερθήκαµε στην προηγούµενη ενότητα: Σχήµα 4. ιάγραµµα κουτί της NUM1 8

Σχήµα 5. ιάγραµµα κουτί της NUM2 Σε ένα τέτοια διάγραµµα απεικονίζονται τα 5 µέτρα θέσεως και διασποράς που αναφέραµε προηγουµένως: το κατώτερο άκρο βρίσκεται στη θέση της ελάχιστης τιµής το κάτω άκρο του κουτιού δείχνει τη θέση του πρώτου τεταρτηµορίου (Q1) η γραµµή στο µέσο του κουτιού βρίσκεται στη θέση της διαµέσου το πάνω άκρο του κουτιού δείχνει τη θέση του τρίτου τεταρτηµορίου (Q3) τέλος, το ανώτατο άκρο βρίσκεται στη θέση της µέγιστης τιµής. Ειδικά για την NUM2, η τιµή 99 που είναι ακραία απεικονίζεται µε κύκλο πάνω-πάνω στο διάγραµµα και δεν λαµβάνεται υπόψη στον υπολογισµό των 5 µέτρων. Τα διαγράµµατα κουτιά είναι ιδιαίτερα χρήσιµα για να συγκρίνουµε τη θέση και τη διασπορά µεταβλητών: 9

Σχήµα 6. ιαγράµµατα κουτιά για NUM1 και NUM2 4. Μέσος όρος και τυπική απόκλιση Ερχόµαστε τώρα στο σηµαντικότερο µέτρο θέσεως: τον µέσο όρο ή µέση τιµή (mean ή average). Ο µέσος όρος υπολογίζεται εάν αθροίσουµε όλα τα δεδοµένα και διαιρέσουµε µε το πλήθος τους (δηλαδή τον αριθµό τους). Ο γενικός τύπος του µέσου όρου, x, για n δεδοµένα είναι x = x + x + Lx n 1 2 n όπου x 1, x 2 κλπ έως x n είναι τα αριθµητικά δεδοµένα. Ο µέσος όρος της µεταβλητής NUM1 είναι x + x + Lx 1 + 3 + 3 + 5 + 6 + 6 + 6 + 7 + 9 = = = 9 9 ενώ ο µέσος όρος της µεταβλητής NUM2 είναι x 1 2 9 x 5.11 x + x + Lx 1 + 3 + 3 + 5 + 6 + 6 + 6 + 7 + 9 + 99 10 10 1 2 10 = = = Παρατηρήστε ότι η προσθήκη της ακραίας τιµής 99 αύξησε τον µέσο όρο από 5.11 σε 14.5. Από την άλλη, θα θυµάστε ότι η διάµεσος τιµή δεν επηρεάστηκε και ήταν ίση µε 6 και τις δυο µεταβλητές (NUM1 και NUM2). Συµπεραίνουµε λοιπόν ότι η µέση τιµή, σε αντίθεση µε την διάµεση τιµή (και την επικρατούσα τιµή) επηρεάζεται από ακραίες τιµές. Στην κατωτέρω εκτύπωση του Statistix, επαληθεύουµε τις τιµές της µέσης τιµής για τις µεταβλητές NUM1 και NUM2: 5.11 και 14.5 αντίστοιχα (στη στήλη Mean). 10 14.5

Descriptive Statistics Variable Mean SD Variance NUM1 5.1111 2.4210 5.8611 NUM2 14.500 29.778 886.72 Το σηµαντικότερο µέτρο διασποράς είναι η τυπική απόκλιση (standard deviation). Ας δούµε αρχικά τον γενικό τύπο της τυπικής απόκλισης, s, για n δεδοµένα: s = n ( xi x) 1 n 1 2 όπου x είναι ο µέσος όρος. Ο τύπος αυτός περιέχει το άθροισµα των τετραγώνων των αποστάσεων των σηµείων από το µέσο όρο, του οποίου παίρνει την τετραγωνική ρίζα και διαιρεί µε το πλήθος των δεδοµένων µείον ένα (αυτό το µείον ένα θα γίνει κατανοητό σε µελλοντικό κεφάλαιο). ηλαδή η τυπική απόκλιση είναι, κατά κάποιον τρόπο, η µέση απόκλιση των δεδοµένων από το µέσο όρο! Ας υπολογίσουµε την τυπική απόκλιση της µεταβλητής NUM1: s = s = ( x x) + ( x x) + L + ( x x) 2 2 2 1 2 9 9 1 ( 1 5.11) + ( 3 5.11) + L + ( 9 5.11) 2 2 2 8 46.889 s = = 2.421 8 Οµοίως, η τυπική απόκλιση της µεταβλητής NUM2 είναι: s = s = ( x x) + ( x x) + L + ( x x) 2 2 2 1 2 10 10 1 ( 1 14.5) + ( 3 14.5) + L + ( 10 14.5) 2 2 2 9 46.889 s = = 29.778 9 Στην προηγούµενη εκτύπωση του Statistix, επαληθεύουµε λοιπόν και τις τιµές της τυπικής απόκλισης για τις µεταβλητές NUM1 και NUM2: 2.421 και 29.778 αντίστοιχα (στη στήλη SD). 11

Αναφέρουµε επίσης ότι η στήλη της διακύµανσης (variance) είναι απλά το τετράγωνο της τυπικής απόκλισης. Βλέπουµε πως η ακραία τιµή (99) αύξησε και την τιµή της τυπικής απόκλισης, από 2.421 (NUM1) σε 29.778 (NUM2). 12