1, X 2, X v. Οι τυχαίες µεταβλητές

Σχετικά έγγραφα
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Περιγραφική Στατιστική

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Μάθηµα 3 ο. Περιγραφική Στατιστική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

Πίνακας κατανοµής συχνοτήτων και αθροιστικών συχνοτήτων. Σχετ.

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

Περιγραφική Στατιστική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

Μάθηµα 14. Κεφάλαιο: Στατιστική

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Στατιστική

Εφαρμοσμένη Στατιστική


ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Α. α) ίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιµες, να αποδείξετε ότι: F (x)=f (x)+g (x).

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος.

ΜΕΘΟΔΟΛΟΓΙΑ & ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΕΦΑΛΑΙΟ 2 Ο «ΣΤΑΤΙΣΤΙΚΗ»

Βασικές έννοιες. Παραδείγµατα: Το σύνολο των φοιτητών που είναι εγγεγραµµένοι

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Συναρτήσεις. Ορισμός Συνάρτησης

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 2ο: ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑ Α

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ. B. Πώς ορίζεται ο συντελεστής μεταβολής ή συντελεστής. μεταβλητότητας μιας μεταβλητής X, αν x > 0 και πώς, αν

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΚΕΦΑΛΑΙΟ. 1. α. Tι ονοµάζεται συνάρτηση από το σύνολο Α στο σύνολο Β; β. Tι ονοµάζεται πραγµατική συνάρτηση πραγµατικής µεταβλητής;

Οµάδα (I): Οµάδα (II): Οµάδα (III):

ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ. Το σύνολο Α, που λέγεται πεδίο ορισµού της συνάρτησης,

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2012 ΕΚΦΩΝΗΣΕΙΣ

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

I2. Αριθμητικά περιγραφικά μέτρα

Κεφάλαιο 5. Οι δείκτες διασποράς

Βιοστατιστική ΒΙΟ-309

Η γραφική απεικόνιση µιας κατανοµής συχνότητας µπορεί να γίνει µε δύο τρόπους, µε ιστόγραµµα και µε πολυγωνική γραµµή.

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΘΕΜΑΤΑ ΠΑΝΕΛΛΑΔΙΚΩΝ-ΣΤΑΤΙΣΤΙΚΗΣ. Να γράψετε στο τετράδιο σας τον πίνακα των τιμών της μεταβλητής Χ σωστά συμπληρωμένο.

ΜΕΘΟΔΟΛΟΓΙΑ & ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΕΦΑΛΑΙΟ 2 Ο «ΣΤΑΤΙΣΤΙΚΗ»

Επαναληπτικό Διαγώνισµα Μαθηµατικά Γενικής Παιδείας Γ Λυκείου

Περιγραφική Στατιστική

Βιοστατιστική ΒΙΟ-309

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

F είναι ίσος µε ν. i ÏÅÖÅ ( ) h 3,f 3.

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΜΕΘΟΔΟΛΟΓΙΕΣ & ΑΣΚΗΣΕΙΣ ΓΙΑ ΤΑ ΜΑΘΗΜΑΤΙΚΑ Γ ΕΠΑΛ ΚΕΦΑΛΑΙΟ 1 Ο «ΣΤΑΤΙΣΤΙΚΗ»

ΗΛΙΑΣΚΟΣ ΦΡΟΝΤΙΣΤΗΡΙΑ. Γενικής Παιδείας Μαθηματικά Γ Λυκείου Στατιστική ΥΠΗΡΕΣΙΕΣ ΠΑΙΔΕΙΑΣ ΥΨΗΛΟΥ ΕΠΙΠΕΔΟΥ

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

ΚΕΦΑΛΑΙΟ 2 Γ ΙΕΥΘΥΝΣΗ ΑΘΗΝΑΣ - 5 Ο ΓΡΑΦΕΙΟ ΣΧΟΛΙΚΟ ΕΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΩΝ Ε ΟΜΕΝΩΝ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΚΑΙ ΓΡΑΦΙΚΕΣ ΜΕΘΟ ΟΥΣ

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

14 Εφαρµογές των ολοκληρωµάτων

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ

11 Το ολοκλήρωµα Riemann

Δρ. Ευστρατία Μούρτου

Ιωάννης Σ. Μιχέλης Μαθηματικός

ΘΕΜΑ 1ο Α. Να αποδειχθεί ότι για δύο ενδεχόμενα Α και Β ενός δειγματικού χώρου Ω ισχύει: P(A B) = P(A) + P(B) P(A B). Μονάδες 10

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

Μάθηµα 12. Κεφάλαιο: Στατιστική

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

ΘΕΜΑ 1 Ο ( ) ( )( ( )) ΘΕΜΑ 2 Ο ΘΕΜΑ 3 Ο. ισχύει : ( ) ( ) ( ) ( ) P A B = P A + P B P A B. P A P A P B P B

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 8 ΤΟ ΜΑΘΗΜΑ ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

ΕΙΣΑΓΩΓΙΚΑ. Κυριότεροι τύποι δεδοµένων. Έστω λοιπόν ένας πληθυσµός στα άτοµα του οποίου καταγράφουµε τις τιµές που παίρνει ένα (ή περισσότερα) συγκεκριµένο χαρακτηριστικό (π.χ. το µηνιαίο εισόδηµα, χρώµα µατιών, ύψος, ηλικία κ.λ.π.). Έτσι έχουµε µία τυχαία µεταβλητή Χ και αν από τον πληθυσµό θεωρήσουµε ένα τυχαίο δείγµα µεγέθους ν θα πάρουµε ν ανεξάρτητες και ισόνοµες τυχαίες µεταβλητές X...,, X, X. Οι τυχαίες µεταβλητές διακρίνονται ανάλογα µε το είδος των τιµών που µπορούν να πάρουν σε ποσοτικές και ποιοτικές.. Μία τυχαία µεταβλητή θα λέγεται ποσοτική (quanttate) αν παίρνει µόνο αριθµητικές τιµές όπως π.χ. ο αριθµός των παιδιών µιας οικογένειας. a. Αν το σύνολο των τιµών που παίρνει µία ποσοτική τυχαία µεταβλητή είναι πεπερασµένο ή αριθµήσιµο τότε θα µιλάµε για διακριτή (dscrete) τυχαία µεταβλητή. b. Αντίθετα, αν µία τυχαία µεταβλητή µπορεί να πάρει, θεωρητικά τουλάχιστον, κάθε τιµή ενός διαστήµατος ( α, β) µε α < β +, θα λέγεται συνεχής (contnuous).. Οι ποιοτικές ή κατηγορικές (qualtate, categorcal) τυχαίες µεταβλητές χαρακτηρίζονται από το γεγονός ότι οι τιµές τους µπορούν απλώς να ταξινοµηθούν σε κατηγορίες και δεν εκφράζουν απαραίτητα κάτι το µετρήσιµο (π.χ. το χρώµα των µατιών, η υγεία (κακή, µέτρια ή καλή) κλπ) a. Ο απλούστερος τύπος ποιοτικών τυχαίων µεταβλητών είναι αυτές που παίρνουν µόνο δύο τιµές (π.χ. το φύλο ενός ατόµου) και λέγονται διχοτοµικές (dchotomous).

58 ΠΙΝΑΚΕΣ ΣΥΧΝΟΤΗΤΩΝ Έστω Χ µία τυχαία µεταβλητή (χαρακτηριστικό) που αφορά τα άτοµα ενός πληθυσµού και X...,, X, X ένα τυχαίο δείγµα µεγέθους ν. Για ένα συγκεκριµένο δείγµα θα συµβολίζουµε µε x...,, x, x τις τιµές του χαρακτηριστικού για τα ν άτοµα του δείγµατος και µε τιµές από τα x..., y y..., y,, k ( ), x, x. k τις k διαφορετικές µεταξύ τους Συχνότητα (frequency) της τιµής y θα λέγεται το πλήθος των x, x,.., x που είναι ίσα µε (relate frequency) δηλαδή y, ενώ σχετική συχνότητα f θα λέγεται το αντίστοιχο ποσοστό, f k j j,,,..., k. Συνήθως οι ποσότητες y,, f, για ένα δείγµα,,..., k συγκεντρώνονται σε ένα συνοπτικό πίνακα που ονοµάζεται πίνακας συχνοτήτων.

59 Παράδειγµα : Σε ένα δείγµα 0 οικογενειών από µία περιοχή της Αθήνας, το επάγγελµα του πατέρα, ο µηνιαίος µισθός του πατέρα και ο αριθµός παιδιών της οικογένειας δίνονται στον πιο κάτω Πίνακα. Οικογένει α 5 6 7 8 9 0 5 6 7 8 9 0 εδοµένα ενός δείγµατος 0 οικογενειών. Επάγγελµα Πατέρα εργάτης οδηγός εργάτης δηµ. υπάλληλος δηµ. υπάλληλος δηµ. υπάλληλος δάσκαλος ιερέας οδηγός εργάτης δάσκαλος εργάτης εργάτης δηµ. υπάλληλος ιερέας δάσκαλος εργάτης δηµ. υπάλληλος δάσκαλος δηµ. υπάλληλος Μηνιαίος Μισθός πατέρα 700 750 800 700 800 500 900 000 600 600 700 600 800 700 900 000 900 650 750 800 Αριθµ. παιδιών Οικογένειας 0 0

60 Πίνακας συχνοτήτων για το επάγγελµα πατέρα 5 Εργάτης οδηγός δηµ. υπάλληλος δάσκαλος ιερέας Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι 6 6 0. 0. 0. 0. 0. Σύνολο 0.0 Πίνακας συχνοτήτων για το Μηνιαίο µισθό 5 6 7 8 50 60 65 70 75 80 90 00 Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι 0.05 0.5 0.05 0.0 0.0 0.0 0.5 0.0 Σύνολο 0.00 Πίνακας συχνοτήτων για τον αριθµό παιδιών 5 0 Ι Ι Ι Ι Ι Ι Ι Ι Ι Ι I Ι Ι Ι Ι I Ι Ι Ι Ι 0 0. 0. 0.5 0. 0. Σύνολο 0.0

6 Στην περίπτωση ποσοτικών τυχαίων µεταβλητών εκτός των ποσοτήτων, f χρησιµοποιούνται συνήθως και οι λεγόµενες αθροιστικές συχνότητες (cumulate frequences) N, καθώς και οι αθροιστικές σχετικές συχνότητες (cumulate relate frequences) F οι οποίες δίνουν το πλήθος και το ποσοστό αντίστοιχα των παρατηρήσεων που είναι µικρότερες ή ίσες του y. Αν τα µεγέθους δηλ., y, yk είναι διατεταγµένα κατά αύξουσα σειρά y..., y L yk είναι φανερό ότι y N + + L+,,,..., k, F f + f + L+ f,,,..., k, N, N N,,,..., k, f F, F F f,,,..., k.

6 Παράδειγµα : (συνέχεια του Παραδείγµατος ) Συµπληρώνοντας τους Πίνακες µε τις αντίστοιχες αθροιστικές και αθροιστικές σχετικές συχνότητες παίρνουµε: Πίνακας συχνοτήτων και αθρ. συχνοτήτων για το Μισθό 5 6 7 8 y 50 60 65 70 75 80 90 00 f 0.05 0.5 0.05 0.0 0.0 0.0 0.5 0.0 0.00 N 5 9 5 8 0 F 0.05 0.0 0.5 0.5 0.55 0.75 0.90.00 Πίνακας συχνοτήτων και αθρ. συχνοτήτων για αριθµό παιδιών 5 0 0 0. 0. 0.5 0. 0. 0.0 6 6 8 0 0. 0. 0.8 0.9.0

6 ΓΡΑΦΙΚΕΣ ΜΕΘΟ ΟΙ ΠΑΡΟΥΣΙΑΣΗΣ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ. Παρουσίαση ποιοτικών δεδοµένων: Για τη γραφική παράσταση ποιοτικών δεδοµένων χρησιµοποιούνται κυρίως δύο είδη διαγραµµάτων: το ραβδόγραµµα (barchart) και το κυκλικό διάγραµµα συχνοτήτων (pechart). a. Στο ραβδόγραµµα, οι κατηγορίες της τυχαίας µεταβλητής παριστάνονται στον οριζόντιο άξονα σαν ισοµήκη διαστήµατα (µε κενά συνήθως µεταξύ τους) ενώ οι αντίστοιχες συχνότητες ή σχετικές συχνότητες στον κατακόρυφο. Σχήµα : Ραβδόγραµµα Συχνοτήτων για τα δεδοµένα του Παραδείγµατος.

6 Σχήµα :Ραβδόγραµµα Σχετικών Συχνοτήτων για τα δεδοµένα του Παραδείγµατος. Σηµείωση: Μερικές φορές σε ένα ραβδόγραµµα συχνοτήτων ο ρόλος των δύο αξόνων είναι δυνατόν να αντιστραφεί όπως φαίνεται και στο επόµενο σχήµα Σχήµα : Ραβδόγραµµα Συχνοτήτων για το επάγγελµα (Παράδειγµα ).

65 b. Τα κυκλικά διαγράµµατα χρησιµοποιούν για την παράσταση των δεδοµένων ένα κύκλο χωρισµένο σε κυκλικά τµήµατα Σχήµα : Κυκλικό διάγραµµα συχνοτήτων για το επάγγελµα (Παράδειγµα ). Κάθε κυκλικό τµήµα αναφέρεται σε µία κατηγορία του χαρακτηριστικού και έχει τόξο συχνότητας ή σχετικής συχνότητας, δηλαδή α ανάλογο της αντίστοιχης 60 o α 60 f,,,..., k.

66. Παρουσίαση ποσοτικών δεδοµένων: Όταν τα δεδοµένα είναι ποσοτικά και το πλήθος k των διαφορετικών τιµών που πήραµε από το δείγµα είναι µικρό τότε αφού γίνει η πινακοποίηση των δεδοµένων σε ένα πίνακα συχνοτήτων µπορούµε να χρησιµοποιήσουµε για την γραφική τους παράσταση είτε ένα διάγραµµα συχνοτήτων (lne dagram) είτε ένα κυκλικό διάγραµµα συχνοτήτων. a. Το κυκλικό διάγραµµα συχνοτήτων σχηµατίζεται µε τον ίδιο ακριβώς τρόπο, όπως για τα ποιοτικά χαρακτηριστικά Σχήµα 5: Κυκλικό διάγραµµα συχνοτήτων για τον αριθµό παιδιών (Παράδειγµα ). b. Το διάγραµµα συχνοτήτων µοιάζει µε το ραβδόγραµµα µε µόνη διαφορά ότι αντί να χρησιµοποιούµε συµπαγή ορθογώνια, υψώνουµε σε κάθε y µία κάθετη γραµµή µε µήκος ίσο προς την αντίστοιχη συχνότητα ή σχετική συχνότητα

67 Σχήµα 6: ιάγραµµα συχνοτήτων για τον αριθµό παιδιών (Παράδειγµα ). Σηµείωση: Οι κορυφές των κατακόρυφων γραµµών ενώνονται µεταξύ τους σχηµατίζοντας το λεγόµενο πολύγωνο συχνοτήτων (frequency polygon) Σχήµα 7: Πολύγωνο συχνοτήτων για τον αριθµό παιδιών (Παράδειγµα ).

68 Σχήµα 8: Πολύγωνο σχετικών συχνοτήτων για τον αριθµό παιδιών (Παράδειγµα ). c. Για µικρά σύνολα δεδοµένων, µπορεί κανείς να χρησιµοποιήσει και το λεγόµενο σηµειόγραµµα (dot dagram) στο οποίο οι παρατηρήσεις παριστάνονται µε τελείες στις αντίστοιχες θέσεις ενός οριζόντιου άξονα. Παράδειγµα : Οι χρόνοι (σε mn) που χρειάστηκαν οι µαθητές µιας τάξης για να λύσουν ένα πρόβληµα µαθηµατικών ήταν,, 9, 8,, 5, 5, 6,,, 7,, 7,,,, 0, 7, 7, 9, 0,. Το αντίστοιχο σηµειόγραµµα φαίνεται στο επόµενο σχήµα:

69 Παράδειγµα : Ο αριθµός των ηµερών που επέζησαν οι πρώτοι 6 ασθενείς µετά από µεταµόσχευση καρδιάς στο Stanford ήταν 5,, 6, 6, 6, 6. Tα δεδοµένα αυτά παριστάνονται σε ένα σηµειόγραµµα όπως παρακάτω Το σηµειόγραµµα αυτό δείχνει γενικά µικρή διάρκεια ζωής µετά από µεταµόσχευση καρδιάς µε µία τιµή µάλλον µεγάλη (ακραία τιµή (outler)). Σηµείωση: Είναι φανερό ότι σε περίπτωση µεγάλου πλήθους δεδοµένων η κατασκευή του σηµειογράµµατος γίνεται αρκετά επίπονη.

70 ΙΣΤΟΓΡΑΜΜΑ Το πιο συνηθισµένο µέσο περιγραφής ποσοτικών δεδοµένων είναι το ιστόγραµµα (hstogram). Αυτό αποτελείται από διαδοχικά ορθογώνια των οποίων το ύψος διαλέγεται µε τέτοιο τρόπο ώστε το εµβαδόν του ορθογωνίου να είναι ίσο µε την αντίστοιχη συχνότητα ή σχετική συχνότητα της τιµής στην οποία αναφέρεται. Για διακριτά δεδοµένα, ως άκρα των βάσεων των ορθογωνίων διαλέγονται συνήθως τα µεσαία σηµεία µεταξύ των διαδοχικών y Σχήµα 9: Ιστόγραµµα Συχνοτήτων για τον αριθµό παιδιών (Παράδειγµα ). Αξίζει να σηµειωθεί ότι λόγω του τρόπου σχηµατισµού του ιστογράµµατος συχνοτήτων, το συνολικό εµβαδόν όλων των ορθογωνίων είναι ίσο µε το µέγεθος του δείγµατος ν.

7 Με παρόµοιο τρόπο σχηµατίζεται το ιστόγραµµα σχετικών συχνοτήτων, µε συνολικό εµβαδόν ίσο µε. Σχήµα 0: Ιστόγραµµα Σχετικών Συχνοτήτων Με ανάλογο τρόπο σχηµατίζονται και τα ιστογράµµατα αθροιστικών συχνοτήτων και αθροιστικών σχετικών συχνοτήτων Σχήµα : Ιστόγραµµα αθροιστικών συχνοτήτων

7 Σηµειώσεις: Οι µέθοδοι παρουσίασης ποσοτικών δεδοµένων που αναφέρθηκαν παραπάνω µπορούν να χρησιµοποιηθούν στην πράξη µόνο όταν ο αριθµός των διαφορετικών παρατηρήσεων είναι σχετικά µικρός. Στην αντίθετη περίπτωση είναι απαραίτητο να ταξινοµηθούν τα δεδοµένα σε µικρό πλήθος οµάδων και να θεωρούνται όµοιες όλες οι παρατηρήσεις που ανήκουν στην ίδια οµάδα. Έτσι µπορούµε να πάρουµε τις συχνότητες (απόλυτες ή σχετικές) και αθροιστικές συχνότητες των διαφόρων οµάδων και να προχωρήσουµε σε πινακοποίηση και γραφική παράσταση των δεδοµένων. Σχήµα : Ιστόγραµµα αθροιστικών σχετικών συχνοτήτων

7 Παράδειγµα 5: Η συγκέντρωση (σε µ gr / cm ) ενός συγκεκριµένου ρύπου σε δείγµατα αέρος που πάρθηκαν από 57 πόλεις των ΗΠΑ δίνεται από τον πίνακα Συγκέντρωση ( µ gr / cm ) ρύπου στον αέρα 57 πόλεων των ΗΠΑ. 68 6 7 0 6 8 79 7 5 65 5 7 5 6 8 8 5 5 57 5 9 8 7 50 8 6 69 7 7 9 8 9 6 0 9 9 Πηγή: Statstcal Abstract of the Unted States 970, σελ. 7. Αν πινακοποιήσουµε τα δεδοµένα µας µε βάση τις διαφορετικές τιµές των παρατηρήσεων έχουµε

7 Πίνακας συχνοτήτων y Συχνότη τα Σχετική Συχνότη τα Αθροιστι κή Συχνότη τα Αθρ. Σχετ. Συχνότη τα 5 6 7 8 9 0 5 6 7 8 9 0 5 6 7 8 9 0 6 9 5 7 8 0 6 8 5 6 7 9 50 5 57 6 65 68 69 7 79.056.075.075.075.05.056.05.056.070.070.05.05.05.05.05.056.056.075.075.075.075.056.075.05.075.075.075.075.075.075.075 5 6 8 6 0 6 8 0 7 0 7 8 50 5 5 5 5 55 56 57.056.070.0877.05.0.90.8.807.509..56.9.56.56.5965.69.708.79.768.75.779.86.8.877.897.9.998.97.969.985.0000

75 Το αντίστοιχο ιστόγραµµα συχνοτήτων, όπως φαίνεται στο επόµενο σχήµα δεν είναι καθόλου πληροφοριακό για τη φύση των δεδοµένων. Σχήµα : Ιστόγραµµα Συχνοτήτων Οµαδοποιώντας τις παρατηρήσεις σε διαστήµατα πλάτους 0 παίρνουµε τον επόµενο Πίνακα και σχήµα, τα οποία είναι πολύ περισσότερο κατατοπιστικά για την κατανοµή των δεδοµένων µας.

76 Πίνακας συχνοτήτων για τα (οµαδοποιηµένα) δεδοµένα Κλάση Κάτω όριο Ανω όριο Σχετική Συχνότ. Αθροιστ. Συχνότ. Αθρ. Σχετ. Συχνότητα 0.50 0.50 50.50 70.50 0.50 50.50 70.50 90.50 6 7.56.860.8.05 6 8 55 57.56.8.965.000 Σχήµα : Ιστόγραµµα Συχνοτήτων Σηµείωση: Είναι φανερό από το προηγούµενο παράδειγµα ότι η αυθαίρετη οµαδοποίηση µπορεί να οδηγήσει σε παραπλανητικά συµπεράσµατα για τα δεδοµένα που διαθέτουµε.

77 ΣΤΑ ΙΑ ΟΜΑ ΟΠΟΙΗΣΗΣ Ε ΟΜΕΝΩΝ Πρώτα επιλέγουµε τον αριθµό q των οµάδων ή διαστηµάτων ή κλάσεων. Ο αριθµός αυτός συνήθως ορίζεται αυθαίρετα από τον ερευνητή σύµφωνα µε την πείρα του. Υπάρχει όµως και ένας τύπος που µπορεί να χρησιµοποιηθεί ως οδηγός. Αυτός είναι γνωστός ως τύπος του Sturges και ορίζεται ως εξής: όπου q είναι ο αριθµός των κλάσεων και ν το µέγεθος του δείγµατος. q +. log0 Το δεύτερο βήµα είναι ο προσδιορισµός του πλάτους των κλάσεων (ίδιο για όλες τις κλάσεις). Το πλάτος (c) υπολογίζεται διαιρώντας το εύρος (R) του δείγµατος δια του αριθµού των διαστηµάτων. ηλαδή, c R q όπου το εύρος R max{ x,,,..., } mn{ x,,,..., } ορίζεται ως η διαφορά της µικρότερης παρατήρησης από την µεγαλύτερη.

78 Σηµείωση: Οι στρογγυλοποιήσεις που πιθανόν θα χρειαστούν πρέπει να γίνουν προς τα επάνω ώστε τα q διαστήµατα πλάτους c να καλύψουν όλες τις διαθέσιµες παρατηρήσεις. Το τρίτο βήµα είναι ο καθορισµός των διαστηµάτων. Το πρώτο διάστηµα διαλέγεται συνήθως έτσι ώστε να περιέχει τη µικρότερη παρατήρηση και το τελευταίο να περιέχει τη µεγαλύτερη. Σηµείωση: Η επιλογή του σηµείου αρχής του πρώτου διαστήµατος να γίνεται έτσι ώστε καµιά από τις παρατηρήσεις µας να µη συµπίπτει µε άκρο του διαστήµατος για να αποφεύγονται αµφισβητήσεις σχετικά µε το διάστηµα στο οποίο βρίσκεται κάθε παρατήρηση.

79 Παράδειγµα 5 (συνέχεια): Από τα δεδοµένα βρίσκουµε για τον αριθµό των κλάσεων q +. log0 57 +..76 6.8 7 ενώ το εύρος των παρατηρήσεων είναι R 79 67. Άρα R 67 c 9.6 0. q 7 Θεωρούµε σαν αρχή του πρώτου διαστήµατος το 9.5 (οπότε καµία παρατήρηση δεν πέφτει σε άκρο διαστήµατος) θα έχουµε τον επόµενο πίνακα. 5 6 7 Κάτω όριο 9.50 9.50 9.50 9.50 9.50 59.50 69.50 Πίνακας συχνοτήτων των δεδοµένων του Πίνακα.. Ανω όριο 9.50 9.50 9.50 9.50 59.50 69.50 79.50 Κέντρο y.50.50.50.50 5.50 6.50 7.50 5 9 0 Σχετική Συχνότ..0877..75.8.070.070.05 Αθροιστ Συχνότ 5 7 5 55 57 Αρθ. Σχετ. Συχνότητα.0877..5965.86.897.969.0000 Για το ιστόγραµµα συχνοτήτων, κατασκευάζουµε ορθογώνια παραλληλόγραµµα που έχουν βάσεις τα διαστήµατα των κλάσεων και ύψος τέτοιο, ώστε το εµβαδόν κάθε ορθογωνίου να ισούται µε την συχνότητα των παρατηρήσεων στην αντίστοιχη κλάση.

80 Ενώνοντας τα µέσα των άνω βάσεων των ορθογωνίων παραλληλογράµµων (και προσθέτοντας δύο ακόµη υποθετικές κλάσεις µε συχνότητα µηδέν δεξιά και αριστερά των πραγµατικών κλάσεων) σχηµατίζουµε το πολύγωνο συχνοτήτων. Σηµείωση: Προφανώς το εµβαδόν που περικλείεται κάτω από την πολυγωνική γραµµή και τον οριζόντιο άξονα είναι ίσο µε το άθροισµα των συχνοτήτων, δηλαδή µε το συνολικό αριθµό παρατηρήσεων. Σχήµα 5: Ιστόγραµµα συχνοτήτων (και πολύγωνο συχνοτήτων)

8 Σχήµα 6: Ιστόγραµµα αθροιστικών συχνοτήτων και αθροιστικό διάγραµµα (oge plot) Σηµείωση: Είναι δυνατό πολλές φορές δύο ιστογράµµατα που έχουν κατασκευαστεί από τις ίδιες παρατηρήσεις να δίνουν διαφορετικές εντυπώσεις. Οι διαφορές αυτές προκύπτουν συνήθως από το διαφορετικό αριθµό (και εύρος) κλάσεων που επιλέγονται για τα δεδοµένα. Η διαφορά που φαίνεται στα ιστογράµµατα των Σχηµάτων και 7 οφείλεται στο ότι στο µεν πρώτο ιστόγραµµα έχουν κλάσεις πλάτους 0 η κάθε µία ενώ στο δεύτερο 7 κλάσεις πλάτους 0 η κάθε µία. Σχήµα 7: Ιστόγραµµα Συχνοτήτων για τα δεδοµένα του Παραδείγµατος

8 ΦΥΛΛΟΓΡΑΦΗΜΑΤΑ (stem-leaf plots) Η κατασκευή ενός φυλλογραφήµατος γίνεται µε βάση τα παρακάτω βήµατα: Επιλέγουµε πρώτα τα stems (οδηγούντα ψηφία), και τα leaes (επόµενα ψηφία). Καταγράφουµε τα stems και τα leaes. ιατάσσουµε τα stems κατ αύξουσα τάξη γράφοντάς τα κατακόρυφα. Γράφουµε τα leaes στην ίδια γραµµή που βρίσκεται το αντίστοιχό τους stem. Ελέγχουµε αν έχουµε καταγράψει όλα τα leaes (ο αριθµός τους είναι φυσικά ίσος µε το συνολικό αριθµό παρατηρήσεων). Παράδειγµα 6: Ας υποθέσουµε ότι έχουµε τις εξής τιµές: 6. 0.9 0.0 0. 0.6 6. 99.0. Στρογγυλοποιώντας τα δεδοµένα στον πλησιέστερο ακέραιο και θεωρώντας σαν stem τις δεκάδες και leaf τις µονάδες παίρνουµε εδοµένα Ακέραιοι stems leaes 6. 0.9 0.0 0. 0.6 6. 99.0 6 0 0 6 99 9 6 0 0 6 9 εκάδες 9 0 Μονάδες 9 06 0 6

8 Παράδειγµα 5 (συνέχεια): Για τα δεδοµένα του Παραδείγµατος 5 έχουµε το παρακάτω φυλλογράφηµα. εκάδες 5 6 7 Φυλλογράφηµα Μονάδες 6 9 7 8 7 5 8 8 5 7 7 8 0 6 6 8 8 0 5 9 7 9 6 9 7 0 8 5 9 9 ιατάσσοντας κατ αύξουσα τάξη τα ψηφία (µονάδες που αντιστοιχούν σε κάθε δεκάδα), έχουµε το διατεταγµένο φυλλογράφηµα. εκάδες 5 6 7 ιατεταγµένο φυλλογράφηµα Μονάδες 6 9 5 5 5 7 7 7 7 8 8 8 0 0 6 6 8 8 5 6 7 8 9 9 9 0 7 5 8 9 9 Σηµείωση: Είναι φανερό ότι, η µορφή ενός φυλλογραφήµατος επηρεάζεται δραστικά από την επιλογή των stems.

8 Παράδειγµα 6: Η βαθµολογία 70 µαθητών σε ένα τεστ νοηµοσύνης (IQ) δίνεται από τον επόµενο πίνακα. Πίνακας Βαθµολογίας σε IQ test 70 µαθητών. 0 98 99 7 9 7 05 09 0 6 0 98 07 0 5 5 7 9 97 7 96 5 5 96 0 6 0 0 0 9 0 8 0 5 09 97 7 0 0 07 7 0 96 0 7 0 0 05 9 9 7 99 9 00 0 05 ιαλέγοντας σαν stem τις 0δες έχουµε το φυλλογράφηµα ιατεταγµένο φυλλογράφηµα (stem 0άδα) stems 9 * 0* * * * leaes 666778899 05557799 000000555556677779999 0007778 7

85 ιαλέγοντας σαν stem τις 5δες έχουµε το επόµενο φυλλογράφηµα ιατεταγµένο φυλλογράφηµα (stem 5άδα) stem 9 * o 9 0 * o 0 * o * o * o leaes 666778899 0 5557799 000000 555556677779999 000 7778 7 o *: πρώτη πεντάδα (0-) : δεύτερη πεντάδα (5-9) Σηµείωση: Τα φυλλογραφήµατα είναι στην πραγµατικότητα τα ιστογράµµατα µε στραµµένους τους άξονές τους κατά o 90. Το πλεονέκτηµα του φυλλογραφήµατος σε σχέση µε το ιστόγραµµα είναι ότι διατηρεί τις αρχικές παρατηρήσεις.

86 9 0 666778899 05557799 000000555556677779999 0007778 7 Σχήµα 8: Φυλλογράφηµα και Ιστόγραµµα (stem0άδα) 9 * o 9 0 * o 0 * o * o * o 666778899 0 5557799 000000 555556677779999 000 7778 7 Σχήµα 9: Φυλογράφηµα και Ιστόγραµµα (stem5άδα)

87 ΑΡΙΘΜΗΤΙΚΑ ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ιακρίνονται κυρίως σε δύο βασικές κατηγορίες: τα µέτρα θέσης ή κεντρικής τάσης (locaton measures, central tendency measures) τα µέτρα διασποράς ή µεταβλητότητας (measures of arablty, measures of arance, dsperson measures). Α) ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ Η ΘΕΣΗΣ Τα µέτρα κεντρικής τάσης είναι χρήσιµα για την περιγραφή της θέσης της κατανοµής από την οποία προέρχονται τα δεδοµένα. Θα ορίσουµε αρχικά τα µέτρα της κατηγορίας αυτής για την περίπτωση µη οµαδοποιηµένων δεδοµένων δηλαδή όταν διαθέτουµε τις πρωτογενείς παρατηρήσεις x, x,..., x ή ισοδύναµα τις διαφορετικές µεταξύ τους παρατηρήσεις, y, y k και τις αντίστοιχες συχνότητες. y...,. Μέση Τιµή (mean, mean alue) ή δειγµατική µέση τιµή (sample mean) λέγεται το άθροισµα των τιµών των παρατηρήσεων του δείγµατος δια του πλήθους των παρατηρήσεων δηλαδή x x.

88 Όταν χρησιµοποιούµε πίνακα συχνοτήτων, η µέση τιµή προκύπτει από τις ισοδύναµες εκφράσεις x k y k k f y. Παράδειγµα 7: Αν τα βάρη (σε kgr) 0 κοτόπουλων ενός ορνιθοτροφείου ήταν,,,,,,,, 6, η µέση τιµή του δείγµατος θα είναι x 5 /0. 5. Στον παρακάτω Πίνακα φαίνεται ο τρόπος υπολογισµού του δειγµατικού µέσου µε χρήση πίνακα συχνοτήτων y 6 5 y 5 6 0 5

89 (*) Ο δειγµατικός µέσος χρησιµοποιείται ευρύτατα ως αριθµητικό περιγραφικό µέτρο αφού είναι πολύ απλός στον υπολογισµό και για ένα σύνολο δεδοµένων καθορίζεται µονοσήµαντα. Έχει όµως τα µειονεκτήµατα να επηρεάζεται από. πιθανές ακραίες τιµές (π.χ. αν x τότε x 00) 0 0000 x,,,..., 00 και. να µην αντιστοιχεί πάντοτε σε λογική τιµή της τυχαίας µεταβλητής που εξετάζουµε (αν στο Παράδειγµα. υποθέσουµε ότι τα δεδοµένα αφορούν αριθµό παιδιών από δείγµα 0 οικογενειών τότε οι οικογένειες θα έχουν κατά µέσο όρο.5 παιδιά). δεν µπορεί να χρησιµοποιηθεί για την περιγραφή ποιοτικών χαρακτηριστικών.. Κορυφή (mode) ή επικρατούσα τιµή M 0 ενός συνόλου παρατηρήσεων ορίζεται η παρατήρηση µε τη µεγαλύτερη συχνότητα. Παράδειγµα 7 (συνέχεια): Από τον δεδοµένα είναι φανερό ότι M 0.

90. ιάµεσος (medan) δ ενός δείγµατος είναι η τιµή που χωρίζει το δείγµα σε δύο ίσα µέρη έτσι ώστε ο αριθµός των παρατηρήσεων που είναι µικρότερες ή ίσες από το δ να είναι ίσος µε τον αριθµό των παρατηρήσεων που είναι µεγαλύτερες ή ίσες από το δ. Έτσι αν διατάξουµε τις ν παρατηρήσεις x, x,..., x x L x και συµβολίσουµε µε ( ) () ( ) το αντίστοιχο διατεταγµένο δείγµα, τότε η διάµεσος δ ορίζεται από τη σχέση x δ x( x( r) r) + x( r+ ) αν αν ν r r. Παράδειγµα 7 (συνέχεια): Το διατεταγµένο δείγµα είναι,,,,,,,,,6 Οπότε, αφού ν 0 5 (για r5), έχουµε δ x (5) + x (6). Σηµείωση: Η διάµεσος είναι απλή στον υπολογισµό και δεν επηρεάζεται από ακραίες τιµές, δεν µπορεί όµως να χρησιµοποιηθεί για ποιοτικές τυχαίες µεταβλητές.

9. Ποσοστηµόρια (quantles): Το α-στο ποσοστηµόριο p α ( 0 <α < ) ενός συνόλου παρατηρήσεων είναι η τιµή για την οποία το α 00% των παρατηρήσεων είναι µικρότερες ή ίσες του p ακαι ( α)00% µεγαλύτερες ή ίσες του α p. Αν το 00 α β είναι ακέραιος (,,...,99) β τότε τα αντίστοιχα ποσοστηµόρια λέγονται εκατοστηµόρια (percentles). Συνήθως εξετάζουµε το 0 ο, 0ο,..., 90ο εκατοσστηµόρια τα οποία λέγονται δεκατηµόρια (decles) δεκατηµόριο αντίστοιχα). ( ο,ο,..., 9ο Ιδιαίτερο ενδιαφέρον παρουσιάζουν επίσης τα τεταρτηµόρια (quartles) που αντιστοιχούν σε α 0.5, 0.50, 0.75. Το p 0. 5 συµβολίζεται µε Q και λέγεται πρώτο τεταρτηµόριο ενώ το p 0. 75µε Q και λέγεται τρίτο τεταρτηµόριο. Είναι προφανές ότι το δεύτερο τεταρτηµόριο p 0. 50 συµπίπτει µε τη διάµεσο δ των παρατηρήσεων. Παράδειγµα 8: Για τις παρατηρήσεις,5,,, 6,,, (ν8), το Q θα πρέπει να αφήνει παρατηρήσεις του διατεταγµένου δείγµατος αριστερά και 6 δεξιά του. Εποµένως θα πρέπει να πάρουµε Q (+ ) /. 5. Όµοια Q (+ 5) /. 5.

9 Παρατήρηση: Οι ορισµοί που δόθηκαν παραπάνω για τα διάφορα µέτρα θέσης δεν µπορούν να χρησιµοποιηθούν όταν τα δεδοµένα δεν δίνονται ακριβώς, αλλά υπό µορφή πινάκων συχνοτήτων στους οποίους έχει γίνει οµαδοποίηση. Στην περίπτωση αυτή υποθέτουµε ότι οι τιµές στην κάθε κλάση κατανέµονται οµοιόµορφα οπότε οι παρατηρήσεις που ανήκουν σε αυτήν µπορούν να αντιπροσωπευθούν από την κεντρική τιµή της κλάσης (ηµιάθροισµα των άκρων της). Με βάση αυτή την παρατήρηση έχουµε τους επόµενους τύπους για τα πέντε µέτρα θέσης.. Μέση τιµή. Αυτή γράφεται στη µορφή x k y k f y όπου y η κεντρική τιµή της κλάσης και, f η αντίστοιχη συχνότητα και σχετική συχνότητα.. Κορυφή. Στα οµαδοποιηµένα δεδοµένα, επειδή οι αρχικές παρατηρήσεις δεν είναι διαθέσιµες δεν µπορούµε να καθορίσουµε την παρατήρηση µε τη µεγαλύτερη συχνότητα. Αντί αυτής λοιπόν θεωρούµε την επικρατούσα κλάση, δηλαδή την οµάδα µε τη µεγαλύτερη συχνότητα και υπολογίζουµε γραφικά τη κορυφή M 0 από το ιστόγραµµα όπως στο σχήµα

9 Σχήµα 0: Γραφικός προσδιορισµός της κορυφής. Από το σχήµα είναι φανερό ότι: Μ 0 L + EZ και αν συµβολίσουµε µε c : το πλάτος των κλάσεων (διαφορά µεταξύ της µεγαλύτερης συχνότητας + και της συχνότητας της προηγούµενης κλάσης) (διαφορά µεταξύ της µεγαλύτερης συχνότητας και της συχνότητας της επόµενης κλάσης) θα έχουµε: Εποµένως: AB, Γ, B c Γ. EZ AB ΒΓ AB+ Γ + c

9 και η κορυφή M 0 θα δίνεται από τον τύπο: M 0 L + c +.. ιάµεσος. Αρχικά υπολογίζουµε τη µεσαία κλάση δηλαδή το διάστηµα στο οποίο ανήκει η διατεταγµένη παρατήρηση µε σειρά ( +) / (αν το ν είναι άρτιος µας ενδιαφέρουν οι παρατηρήσεις µε σειρά / και ( +) / ) και ας συµβολίσουµε µε L το κάτω όριό της. Ο γραφικός υπολογισµός της διαµέσου δ βασίζεται στο ιστόγραµµα αθροιστικών συχνοτήτων (βλ. Σχήµα ) και γίνεται ως εξής: Από το µέσο του τµήµατος OH φέρνουµε παράλληλη µε τον άξονα των παρατηρήσεων και από το σηµείο όπου αυτή συναντά το αθροιστικό διάγραµµα φέρνουµε παράλληλη µε τον άξονα των συχνοτήτων. Το σηµείο τοµής της τελευταίας µε τον οριζόντιο άξονα είναι η διάµεσος δ των παρατηρήσεων. Από το σχήµα είναι φανερό ότι και αν συµβολίσουµε : c το πλάτος των κλάσεων δ L + EZ : τη συχνότητα της κλάσης µε κάτω όριο L N L (αθροιστική συχνότητα της κλάσης + + + µε άνω όριο το L ) θα έχουµε

95 AB, c AE N, c c c ΒΓ. Εποµένως EZ AE AB BΓ N c και η διάµεσος δ θα δίνεται από τον τύπο N δ L + c. Σχήµα : Γραφικός προσδιορισµός διαµέσου

96. Ποσοστηµόρια. ουλεύοντας όπως και στη διάµεσο µπορούµε να δείξουµε ότι το α-στο ποσοστηµόριο p α δίνεται από τον τύπο p α α N L + c, όπου: c: το πλάτος των κλάσεων L : το κάτω όριο της κλάσης που περιέχει την διατεταγµένη παρατήρηση µε σειρά [ α ν] : η συχνότητα της κλάσης µε κάτω όριο το L N L (αθροιστική συχνότητα της κλάσης + + + µε άνω όριο το L ) Ειδικά για το πρώτο ( α 0. 5 ) και τρίτο ( α 0. 75 Q Q L έχουµε τους τύπους L N + N + c, c. ) τεταρτηµόριο

97 Παράδειγµα 9: Η βαθµολογία των 8 µαθητών µιας τάξης σε ένα τεστ δίνεται στον επόµενο πίνακα Βαθµολογία 8 µαθητών µιας τάξης σε ένα τεστ. 5 8 0 9 0 0 5 9 6 8 7 6 9 0 7 Το αντίστοιχο διατεταγµένο φυλλογράφηµα είναι Φυλλογράφηµα των δεδοµένων (stems0αδες, leaesµονάδες) stems leaes 0 6 7 8 8 9 9 9 0 0 0 0 5 5 6 7 από όπου µπορούµε εύκολα να διαπιστώσουµε ότι Επίσης M 0, δ, Q (9+ 0) / 9. 5, Q. 8 x 8 x.57. 8 8

98 Οµαδοποιώντας τα δεδοµένα σε q +. log0 8 5.8 6 οµάδες παίρνουµε τον επόµενο πίνακα 5 6 Κάτω όριο 5.5 8.5.5.5 7.5 0.5 Άνω όριο 8.5.5.5 7.5 0.5.5 Κεντρική Τιµή y 7 0 6 9 Συχνότητα 6 0 Αθροιστ. y Συχνότητ 8 60 9 6 0 N 0 7 7 8 8 - οπότε α) x y k 8.78. β) Για την κορυφή έχουµε L 8.5, 6, 6, και ο τύπος (.) δίνει Μ 0 8.5+ 9.9. + γ) Για τη διάµεσο έχουµε L 8.5, 6, N και ο τύπος (.) δίνει δ 8.5+ 0.75. 6

99 δ) Για το πρώτο τεταρτηµόριο είναι L 8.5, 6, M και ο τύπος (.) δίνει 7 Q 8.5+ 9.06. 6 ε) Για το τρίτο τεταρτηµόριο έχουµε L.5,, N + 0 και ο τύπος (.5) δίνει 0 Q.5+.5. Σηµείωση: Όλες σχεδόν οι προσεγγιστικές τιµές που βρίσκονται µε βάση τα οµαδοποιηµένα δεδοµένα είναι αρκετά κοντά στις αντίστοιχες ακριβείς τιµές.

00 Β) ΜΕΤΡΑ ΙΑΣΠΟΡΑΣ Η ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ Παράλληλα λοιπόν µε τα µέτρα θέσης κρίνεται απαραίτητη και η εξέταση κάποιων µέτρων µεταβλητότητας, δηλαδή µέτρων που εκφράζουν τις αποκλίσεις των τιµών µίας µεταβλητής γύρω από τα µέτρα κεντρικής τάσης. Τέτοια µέτρα λέγονται µέτρα διασποράς ή µεταβλητότητας (measures of arablty, measures of arance, dsperson measures) και τα περισσότερο συνηθισµένα από αυτά είναι τα επόµενα:. Εύρος Κύµανση: Το απλούστερο από τα µέτρα διασποράς είναι το εύρος (Range) R που ορίζεται ως η διαφορά της ελάχιστης παρατήρησης από τη µέγιστη παρατήρηση. Σηµείωση: Όταν τα δεδοµένα είναι ταξινοµηµένα σε κατανοµή συχνότητας, το εύρος προκύπτει σαν διαφορά µεταξύ του κατώτερου ορίου του πρώτου διαστήµατος και του ανώτερου ορίου του τελευταίου διαστήµατος.. Ενδοτεταρτηµοριακή και Ηµιενδοτεταρτηµοριακή απόκλιση: Η ενδοτεταρτηµοριακή απόκλιση ή ενδοτεταρτηµοριακό εύρος (nterquantle deaton, nterquantle range) είναι η διαφορά του πρώτου τεταρτηµορίου Q από το τρίτο τεταρτηµόριο Q. a. Στο µεταξύ τους διάστηµα περιλαµβάνεται το 50% των τιµών του δείγµατος. b. Εποµένως όσο µικρότερο θα είναι αυτό το διάστηµα, τόσο µεγαλύτερη θα είναι η συγκέντρωση των τιµών και άρα µικρότερη η διασπορά των τιµών.

0 c. Το µισό της διαφοράς Q Q είναι το ηµιενδοτεταρτηµοριακό εύρος ή απόκλιση (semnterquantle deaton, sem-nterquantle range) και συµβολίζεται µε Q, Q Q Q. Το Q µετριέται µε τις ίδιες µονάδες της µεταβλητής και δεν εξαρτάται από όλες τις τιµές, αλλά µόνο από εκείνες που περιλαµβάνονται στον υπολογισµό των Q και Q.. Μέση Απόκλιση. Ως (δειγµατική) µέση απόκλιση (mean deaton) ορίζεται το µέγεθος MD x x Όσο µεγαλύτερη είναι η µέση απόκλιση, τόσο περισσότερο απέχουν οι τιµές της µεταβλητής από τη µέση τιµή. Σηµείωση: Όταν τα στατιστικά δεδοµένα δίνονται µε τη µορφή πινάκων συχνοτήτων, τότε η µέση απόκλιση δίνεται από τον τύπο MD k y x. (*) Ο ίδιος τύπος ισχύει και για οµαδοποιηµένα δεδοµένα, αν στη θέση των y χρησιµοποιήσουµε την κεντρική τιµή των αντίστοιχων κλάσεων.

0. ιασπορά ή ιακύµανση. Το πιο διαδεδοµένο µέτρο διασποράς είναι η δειγµατική διασπορά ή διακύµανση (arance) που ορίζεται από τη σχέση x x s ) (. Αυτή ισοδύναµα γράφεται στη µορφή x ν x x ν x s ) (. Στις περιπτώσεις δεδοµένων που δίνονται µε τη µορφή πινάκων συχνοτήτων η διασπορά µπορεί να υπολογισθεί από τον τύπο k x y s ) ( ή ισοδύναµα, ) ( x ν y y ν y s k k k. Σηµείωση: Ο ίδιος τύπος ισχύει και για οµαδοποιηµένα δεδοµένα, αρκεί στη θέση των y να χρησιµοποιήσουµε την κεντρική τιµή των αντίστοιχων κλάσεων.

0 5. Τυπική απόκλιση. Η τετραγωνική ρίζα της διασποράς είναι η τυπική απόκλιση (standard deaton) και συµβολίζεται µε s s ( x x) Όταν τα δεδοµένα δίνοντάι σε µορφή πινάκων συχνοτήτων η τυπική απόκλιση θα δίνεται από τη σχέση. s k k y y, Σηµείωση: Ο ίδιος τύπος θα ισχύει και για οµαδοποιηµένα δεδοµένα, αρκεί στη θέση των y να χρησιµοποιήσουµε την κεντρική τιµή των αντίστοιχων κλάσεων. Σηµείωση: Αν το ιστόγραµµα των δεδοµένων µοιάζει µε το σχήµα της κανονικής κατανοµής (καµπάνα του Gauss) τότε ) το 68% περίπου των παρατηρήσεων βρίσκεται στο διάστηµα µε άκρα τα σηµεία s x±, ) το 95% περίπου των παρατηρήσεων βρίσκεται στο διάστηµα µε άκρα τα σηµεία x± s, ) το 99% περίπου των παρατηρήσεων βρίσκεται στο διάστηµα µε άκρα τα σηµεία x± s, ) ισχύει προσεγγιστικά η σχέση R s.

0 Παράδειγµα 0: Σε δύο δείγµατα 8 οικογενειών είχαµε τον εξής αριθµό παιδιών: 5 6 7 8 είγµα Ι 0 είγµα ΙΙ 6 6 0 Τα σηµειογράµµατα των δύο δειγµάτων είναι τα εξής: Με βάση τα δεδοµένα αυτά µπορούµε να συµπληρώσουµε τους Πίνακες Συχνοτήτων

05 Υπολογισµός των µέτρων διασποράς για το δείγµα Ι. y 0 y x y x y 9 0 0 7 ( x) 6 0 7 y ( y x) 0 9 9 8 6 0 Υπολογισµός των µέτρων διασποράς για το δείγµα ΙΙ. 5 y 6 0 y x y x y 6 0 6 ( x) 6 6 y ( y x) 9 6 8 8 6 8 0 68 είγµα Ι: / 8. 75 MD, R 0 9, s 6/ 7 8.7, Q ( Q Q ) / ( ) /, s. 95. είγµα ΙΙ: 0 / 8. 5 MD, R 0 9, s 68/ 7 9.7, Q ( Q Q ) / (6 5) /.5, s. Παρατήρηση: Με µοναδική εξαίρεση το εύρος R, όλα τα µέτρα διασποράς του δευτέρου δείγµατος είναι µεγαλύτερα από τα αντίστοιχα του πρώτου.

06 ΘΗΚΟΓΡΑΜΜΑ (box-plot) Αρχικά υπολογίζουµε τα δύο τεταρτηµόρια Q και Q και τη διάµεσο δ (Q ). Μετά κατασκευάζουµε ένα ορθογώνιο µε την κάτω βάση στο Q και την άνω βάση στο Q Το µήκος των βάσεων του ορθογωνίου λαµβάνεται αυθαίρετα. Η διάµεσος παριστάνεται σαν ένα ευθύγραµµο τµήµα µέσα στο ορθογώνιο παράλληλο µε τις βάσεις. Στη συνέχεια διακεκοµµένες γραµµές εκτείνονται από τα µέσα των βάσεων του ορθογωνίου µέχρι τις οριακές (adjacent) τιµές που προκύπτουν ως εξής: o Η άνω τιµή ορίζεται ως η µεγαλύτερη παρατήρηση, η οποία είναι µικρότερη ή ίση από το Q +.5 ( Q Q ) Q Q. + o Η κατώτερη οριακή τιµή ορίζεται ως η µικρότερη παρατήρηση η οποία είναι µεγαλύτερη ή ίση από το Q.5 ( Q Q ) Q Q. o Εάν υπάρχουν ακόµη παρατηρήσεις που βρίσκονται έξω από το εύρος των δύο οριακών τιµών, αυτές καλούνται εξωτερικές τιµές και παριστάνονται µε κάποιο ιδιαίτερο σύµβολο (π.χ. * ή ).

07 Παράδειγµα : Ας θεωρήσουµε τα δεδοµένα του Παραδείγµατος... Τότε τα τεταρτηµόρια είναι 9. 5 Q, Q και η διάµεσος δ. Η άνω οριακή τιµή είναι η µεγαλύτερη παρατήρηση που είναι µικρότερη ή ίση από Q +.5 ( Q Q ) +.5 ( 9.5) 5.75 δηλαδή το 5. Όµοια η κάτω οριακή τιµή είναι η µικρότερη παρατήρηση που είναι µεγαλύτερη ή ίση από το Q.5 ( Q Q ) 9.5.5 ( 9.5) 5.75 δηλαδή το 6. Με βάση τα στοιχεία αυτά µπορούµε να σχεδιάσουµε το θηκόγραµµα του Σχήµατος. Είναι φανερό ότι για τα δεδοµένα αυτά υπάρχουν επίσης τρεις εξωτερικές τιµές προς τα άνω (οι τιµές 5,7 και ). Αναγράφοντας και τις παρατηρήσεις αυτές στο σχήµα συµπληρώνεται η κατασκευή του θηκογράµµατος των δεδοµένων του Πίνακα.. Σχήµα : Θηκόγραµµα

08 Παρατήρηση: Τα θηκογράµµατα είναι αρκετά χρήσιµα σε περίπτωση που έχουµε να συγκρίνουµε ταυτόχρονα διάφορους πληθυσµούς (διάφορα σύνολα παρατηρήσεων-δειγµάτων) Σχήµα

09 Γ) ΣΥΝΤΕΛΕΣΤΗΣ ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ Για ένα σύνολο (συνήθως θετικών) παρατηρήσεων, ο λόγος της δειγµατικής τυπικής απόκλισης προς τη δειγµατική µέση τιµή, δηλαδή το πηλίκο CV s x λέγεται συντελεστής µεταβλητότητας (coeffcent of araton). Συνήθως εκφράζεται και σαν ποσοστό, δηλαδή CV τυπικήαπόκλιση µέσητιµή τυπικήαπόκλιση 00% µέσητιµή. Ο συντελεστής µεταβλητότητας µπορεί να χρησιµοποιηθεί για συγκρίσεις οµάδων τιµών Αυτές εκφράζονται είτε σε διαφορετικές µονάδες µέτρησης, είτε εκφράζονται στην ίδια µονάδα µέτρησης αλλά έχουν εντελώς διαφορετικές µέσες τιµές. Είναι δηλαδή ένα µέτρο της σχετικής µεταβλητότητας των τιµών και όχι της απόλυτης µεταβλητότητας όπως είναι τα άλλα µέτρα διασποράς που έχουµε αναφέρει. Γενικά θα δεχόµαστε ότι ένα δείγµα τιµών µιας µεταβλητής θα είναι οµοιογενές εάν ο συντελεστής µεταβλητότητας δεν ξεπερνά το 0%. Προφανώς ο συντελεστής µεταβλητότητας είναι ανεξάρτητος από τις χρησιµοποιούµενες µονάδες µέτρησης των τιµών των διαφόρων µεταβλητών.

0 Παράδειγµα : Έστω ότι για τους µηνιαίους µισθούς 0 υπαλλήλων µιας εταιρείας Α είχαµε µέσο όρο 600 Ευρώ και τυπική απόκλιση 75 Ευρώ, ενώ για τους µισθούς 0 υπαλλήλων µιας δεύτερης εταιρείας Β είχαµε µέσο όρο 500 δολάρια και τυπική απόκλιση 70 δολάρια. Για να συγκρίνουµε την οµοιογένεια των µισθών στις δύο εταιρείες χρησιµοποιούµε τον συντελεστή µεταβλητότητας και όχι τις τυπικές αποκλίσεις (οι οποίες άλλωστε εκφράζονται και σε διαφορετικές µονάδες µέτρησης). Έτσι για την εταιρεία Α έχουµε CV A 75 00% 600.5% ενώ για την εταιρεία Β είναι 70 CV B 00% %. 500 Βλέπουµε δηλαδή ότι παρόλο που η τυπική απόκλιση των µισθών στην εταιρεία Α είναι µεγαλύτερη από την τυπική απόκλιση των µισθών στην εταιρεία Β, ο συντελεστής µεταβλητότητας δείχνει ότι ο βαθµός διασποράς των µισθών της Α είναι µικρότερος από το βαθµό διασποράς των µισθών στη Β.