Πίνακας-1 Επίπεδο εκπαίδευσης πατέρα 2



Σχετικά έγγραφα
Πίνακας-1 Επίπεδο εκπαίδευσης πατέρα 2

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Περιγραφική Στατιστική

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

i Σύνολα w = = = i v v i=

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Περιγραφική Στατιστική

Περιγραφική Στατιστική

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 2ο: ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑ Α

Η Κανονική Κατανομή. Εργαστήριο Μαθηματικών & Στατιστικής/ Γ. Παπαδόπουλος ( 81

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

I2. Αριθμητικά περιγραφικά μέτρα

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος.

ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Το Κεντρικό Οριακό Θεώρημα

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Εισαγωγή στη Στατιστική

Εισαγωγή στην Κανονική Κατανομή. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

Το Κεντρικό Οριακό Θεώρημα

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

f , Σύνολο 40 4) Να συμπληρώστε τον παρακάτω πίνακα f , , Σύνολο 5) Να συμπληρώστε τον παρακάτω πίνακα

Εφαρμοσμένη Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΦΥΛΛΑΔΙΟ ΑΣΚΗΣΕΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΠΑΝΟΣ ΣΑΡΑΚΗΝΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΑΣΚΗΣΕΙΣ Γ.Π. ΚΕΦ 1,2,3

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Το Κεντρικό Οριακό Θεώρημα

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

Βιοστατιστική ΒΙΟ-309

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Βιοστατιστική ΒΙΟ-309

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

ΜΑΘΗΜΑΤΙΚΑ. 1 ο ΔΙΑΓΩΝΙΣΜΑ. ΘΕΜΑ 1 ο Δίνεται η συνάρτηση f x. Ι. Το πεδίο ορισμού της f είναι:., 1 υ -1, B. 1, Γ. -1,., 1.

Παράδειγμα. Χρονολογικά δεδομένα. Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα (σε χιλιάδες $)

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 2 Ο

Βιοστατιστική ΒΙΟ-309

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Εισαγωγή στη Στατιστική

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Θηκόγραμμα - Boxplot. Παράδειγμα 1: Δίνονται οι παρακάτω 20 παρατηρήσεις μιας μεταβλητής x:

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΔΕΟ 13 ΤΟΜΟΣ Δ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ. B. Πώς ορίζεται ο συντελεστής μεταβολής ή συντελεστής. μεταβλητότητας μιας μεταβλητής X, αν x > 0 και πώς, αν

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Κεφάλαιο 9. Έλεγχοι υποθέσεων

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Ασκήσεις Άλγεβρας. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. B ΓΥΜΝΑΣΙΟΥ Άλγεβρα 265 ασκήσεις και τεχνικές σε 24 σελίδες. εκδόσεις. Καλό πήξιμο

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

δεδομένων με συντελεστές στάθμισης (βαρύτητας)

ΘΕΜΑΤΑ ΠΑΝΕΛΛΑΔΙΚΩΝ-ΣΤΑΤΙΣΤΙΚΗΣ. Να γράψετε στο τετράδιο σας τον πίνακα των τιμών της μεταβλητής Χ σωστά συμπληρωμένο.

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

ΜΕΘΟΔΟΛΟΓΙΑ & ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΕΦΑΛΑΙΟ 2 Ο «ΣΤΑΤΙΣΤΙΚΗ»

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Είδη Μεταβλητών. κλίµακα µέτρησης

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Transcript:

Περιγραφική Στατιστική Όπως, ήδη έχουμε αναφέρει, στόχος της Περιγραφικής Στατιστικής είναι, «η ανάπτυξη μεθόδων για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων» Για το σκοπό αυτό, έχουν αναπτυχθεί, Μέθοδοι πινακοποίησης των δεδομένων Μέθοδοι γραφικής παρουσίασης των δεδομένων Αριθμητικά περιγραφικά μέτρα Οι μέθοδοι παρουσίασης-περιγραφής δεδομένων αλλά και γενικότερα οι στατιστικές μέθοδοι, δεν εφαρμόζονται όλες σε όλους τους τύπους μεταβλητών Για παράδειγμα, στον Πίνακα- που ακολουθεί, παρουσιάζονται παρατηρήσεις για καθένα από τέσσερα χαρακτηριστικά είκοσι οικογενειών που επελέγησαν τυχαία από το σύνολο των οικογενειών μιας μικρής ελληνικής επαρχιακής πόλης Όπως, θα διαπιστώσουμε στη συνέχεια, οι δυνατότητες που έχουμε για την περιγραφή αυτών των δεδομένων δεν είναι ίδιες και για τα τέσσερα χαρακτηριστικά/μεταβλητές (επάγγελμα πατέρα, επίπεδο εκπαίδευσης πατέρα, μηνιαίο εισόδημα πατέρα και αριθμός παιδιών οικογένειας) Επίσης, η μέση τιμή πχ της μεταβλητής κατεύθυνση του ίχνους της κίνησης πάγων του Πίνακα-, ως έννοια είναι ανάλογη της μέσης τιμής της μεταβλητής μηνιαίο εισόδημα πατέρα του Πίνακα-, όμως η μέθοδος υπολογισμού της διαφοροποιείται σημαντικά Οικογένεια Επάγγελμα πατέρα Πίνακας- Επίπεδο εκπαίδευσης πατέρα Μηνιαίο εισόδημα πατέρα σε Αριθμός παιδιών Οικογένειας Εργάτης 4 Οδηγός 5 Εργάτης 6 4 Δημ Υπάλληλος 4 5 Δημ Υπάλληλος 6 6 Δημ Υπάλληλος 7 Δάσκαλος 8 8 Ιδιωτ Υπάλληλος 4 9 Οδηγός 4 Εργάτης Δάσκαλος 4 Δάσκαλος Δάσκαλος 6 4 Δημ Υπάλληλος 4 4 5 Ιδιωτ Υπάλληλος 8 6 Δάσκαλος 7 Εργάτης 8 8 Δημ Υπάλληλος 9 Δάσκαλος 5 Δημ Υπάλληλος 4 6 Τα αριθμητικά περιγραφικά μέτρα είναι αριθμητικά μεγέθη τα οποία βοηθούν στην περιγραφή της κατανομής των δεδομένων Πολλά από αυτά χρησιμοποιούνται και στη στατιστική συμπερασματολογία Τα αριθμητικά περιγραφικά μέτρα για τον πληθυσμό ονομάζονται παράμετροι (parameters) ενώ για το δείγμα ονομάζονται στατιστικά (summary statstcs) = Πρωτοβάθμια Εκπαίδευση, = Δευτεροβάθμια Εκπαίδευση, = Τριτοβάθμια Εκπαίδευση και 4=Μεταπτυχιακές Σπουδές Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 6

Πίνακας- Κατεύθυνση του ίχνους της κίνησης πάγων (σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου) 9 8 7 55 86 7 99 8 44 57 9 5 5 9 45 6 58 5 6 45 65 64 6 46 7 8 6 5 7 85 4 7 4 55 79 88 7 7 5 55 8 Στη συνέχεια, θα παρουσιάσουμε συνοπτικά τις δυνατότητες που μας προσφέρει η Περιγραφική Στατιστική ανά τύπο μεταβλητής Έστω x, x,, x, οι τιμές μιας μεταβλητής X σε δειγματοληπτικές ή πειραματικές k οι k διαφορετικές, μεταξύ τους, τιμές από τις, x, x μονάδες και y, y,, y ( k ν ) x, Έστω, επίσης, f, f,, f k οι σχετικές συχνότητες, ν, ν,, ν k οι απόλυτες συχνότητες, F, F,, Fk οι σχετικές αθροιστικές συχνότητες και N, N,, N k οι αθροιστικές συχνότητες των y, y,, y Ποσοτικές Μεταβλητές k Για τις ποσοτικές μεταβλητές, η Περιγραφική Στατιστική προσφέρει, μεταξύ άλλων, τις ακόλουθες δυνατότητες: Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων μιας ποσοτικής μεταβλητής περιλαμβάνει τις συχνότητες, τις σχετικές συχνότητες, τις αθροιστικές συχνότητες και τις σχετικές αθροιστικές συχνότητες των τιμών της Παράδειγμα-: Ο πίνακας συχνοτήτων των τιμών της μεταβλητής αριθμός παιδιών οικογένειας στο δείγμα του Πίνακα-, είναι: y ν f N F 4 6 5 6 8 8 9 4 Σύνολα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 7

Ο πίνακας συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα στο δείγμα του Πίνακα-, ομαδοποιημένων σε 6 κλάσεις, πλάτους η κάθε μια, είναι: Εισόδημα y 9 - (9 ] 5 5 ( ] 4 5 5 ( 5] 4 6 55 (5 7] 6 4 5 75 (7 9] 8 5 8 9 (9 ] > - Σύνολα Κατασκευή διαγραμμάτων Διάγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για διακριτές) Ιστόγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για συνεχείς κυρίως) Φυλλογράφημα Θηκόγραμμα ν Το ιστόγραμμα και τα πολύγωνα συχνοτήτων και σχετικών συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα στο δείγμα του Πίνακα- είναι : f N F Επισημαίνουμε ότι κάθε ορθογώνιο του ιστογράμματος σχεδιάζεται έτσι, ώστε, το εμβαδόν του να ισούται με τη συχνότητα (ή τη σχετική συχνότητα) της αντίστοιχης κλάσης 4 Επομένως το συνολικό εμβαδόν των ορθογωνίων είναι ίσο με το πλήθος των παρατηρήσεων (ή είναι ίσο με ) Επίσης, το εμβαδόν που περικλείεται μεταξύ του πολυγώνου συχνοτήτων ή σχετικών συχνοτήτων και του οριζόντιου άξονα είναι ίσο με ή με αντίστοιχα Οποιοδήποτε τμήμα αυτού του εμβαδού μπορεί να υπολογισθεί (ακριβέστερα, να εκτιμηθεί), δίνοντάς μας το ποσοστό των παρατηρήσεων που βρίσκονται μεταξύ δύο τιμών της μεταβλητής ή αριστερά μιας τιμής ή δεξιά μιας τιμής Όσο το μέγεθος του δείγματος αυξάνεται και το πλάτος των κλάσεων μειώνεται, το πολύγωνο συχνοτήτων παίρνει μορφή λείας καμπύλης η οποία ονομάζεται καμπύλη συχνοτήτων Είναι προφανές ότι η μορφή του ιστογράμματος επηρεάζεται δραστικά από την επιλογή των κλάσεων 4 Αν όλες οι κλάσεις έχουν ίδιο πλάτος, τότε προφανώς και τα ύψη των ορθογωνίων θα είναι ίσα με τις αντίστοιχες συχνότητες ή σχετικές συχνότητες Αν όμως οι κλάσεις δεν έχουν ίδιο πλάτος τότε, ίσα με τις αντίστοιχες συχνότητες ή τις σχετικές συχνότητες είναι μόνο τα εμβαδά και όχι τα ύψη Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 8

Οι καμπύλες συχνοτήτων, πέραν της προφανούς χρησιμότητάς τους στο πλαίσιο της Περιγραφικής Στατιστικής, έχουν μεγάλη σπουδαιότητα στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία 5 Οι καμπύλες συχνοτήτων μπορεί να έχουν διάφορες μορφές όπως: Όταν μια καμπύλη συχνοτήτων είναι συμμετρική ως προς τον κατακόρυφο άξονα που διέρχεται από την κορυφή της κατανομής, όπως η πρώτη από τις παραπάνω, τότε η κατανομή είναι συμμετρική Τα δύο άκρα της καμπύλης λέγονται ουρές της κατανομής και πλησιάζουν ασυμπτωτικά τον άξονα των τιμών Προφανώς, σε μια συμμετρική κατανομή, δεξιά και αριστερά του άξονα συμμετρίας βρίσκεται το ίδιο ποσοστό παρατηρήσεων (5%) Όταν η καμπύλη συχνοτήτων δεν είναι συμμετρική, δηλαδή, όταν δεξιά και αριστερά του κατακόρυφου άξονα που περνάει από την κορυφή δε βρίσκεται το ίδιο ποσοστό παρατηρήσεων, τότε η κατανομή είναι ασύμμετρη Υπάρχουν δύο είδη ασυμμετρίας: Θετική ασυμμετρία και αρνητική ασυμμετρία Μια καμπύλη συχνοτήτων παρουσιάζει 5 Γιατί είναι μαθηματικά μοντέλα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 9

θετική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται δεξιά της κορυφής, ενώ, παρουσιάζει αρνητική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται αριστερά της κορυφής Περισσότερα για το νόημα και την ερμηνεία του είδους της ασυμμετρίας αναφέρουμε στα επόμενα (σελ ) Θετική ασυμμετρία Αρνητική ασυμμετρία Τέλος, οι καμπύλες συχνοτήτων, ανάλογα με το βαθμό συγκέντρωσης των παρατηρήσεων στο μέσο και στα άκρα της κατανομής, διακρίνονται σε μεσόκυρτες, λεπτόκυρτες, και πλατύκυρτες: Μεσόκυρτη Λεπτόκυρτη Πλατύκυρτη Όταν η καμπύλη συχνοτήτων μιας κατανομής είναι συμμετρική και έχει κωδωνοειδές σχήμα η κατανομή ονομάζεται κανονική Η κανονική κατανομή είναι η πλέον χρησιμοποιούμενη κατανομή στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία Στο επόμενο κεφάλαιο θα εξηγήσουμε γιατί συμβαίνει αυτό Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Το ιστόγραμμα και το πολύγωνο σχετικών αθροιστικών συχνοτήτων της μεταβλητής μηνιαίο εισόδημα πατέρα του παραδείγματος-, είναι: Το εμβαδόν (και το ύψος) κάθε ορθογωνίου είναι ίσο με τη σχετική αθροιστική συχνότητα F της αντίστοιχης κλάσης (ή με την αθροιστική συχνότητα N ) Για παράδειγμα, μέχρι 5 μηνιαίο εισόδημα έχει το 55% των πατεράδων (όσο το εμβαδόν (και το ύψος) του ορθογωνίου που αντιστοιχεί στο διάστημα με δεξί άκρο την τιμή 5) Ερώτηση: Στα δύο σχήματα που ακολουθούν, φαίνονται τα πολύγωνα σχετικών συχνοτήτων και τα πολύγωνα σχετικών αθροιστικών συχνοτήτων δύο κατανομών δεδομένων Σχολιάστε τη σχετική θέση των αντίστοιχων πολυγώνων στα δύο σχήματα Απάντηση: Η κατανομή της οποίας το πολύγωνο συχνοτήτων και το πολύγωνο σχετικών αθροιστικών συχνοτήτων βρίσκονται δεξιότερα είναι στοχαστικά μεγαλύτερη (σκεφθείτε τι μπορεί να σημαίνει αυτό) Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Είναι προφανές, ότι με την ομαδοποίηση των παρατηρήσεων, χάνουμε σε πληροφορία αφού τόσο το ιστόγραμμα όσο και ο πίνακας συχνοτήτων δε διατηρούν τις αρχικές παρατηρήσεις Αυτό το πρόβλημα μπορεί να αντιμετωπισθεί με την κατασκευή του φυλλογραφήματος (steam-leaf plots) 6 των παρατηρήσεων Για τη μεταβλητή μηνιαίο εισόδημα πατέρα, του παραδείγματος μας, μπορούμε να κατασκευάσουμε το φυλλογράφημα: 4 5 9 4 () 5 9 6 5 7 5 8 9 Ως steam θεωρήσαμε τις εκατοντάδες και ως leaf τις δεκάδες Δηλαδή, η τιμή αναπαρίσταται με και η τιμή με Είναι φανερό ότι από ένα φυλλογράφημα μπορεί κανείς, αμέσως, να διαπιστώσει αν μια συγκεκριμένη τιμή ανήκει (και πόσες φορές) στο δείγμα κάτι το οποίο δεν είναι δυνατόν να γίνει από ένα ιστόγραμμα Για παράδειγμα, από το παραπάνω φυλλογράφημα εύκολα διαπιστώνουμε ότι η τιμή δεν υπάρχει στο δείγμα ενώ η τιμή 6 υπάρχει και μάλιστα τέσσερις φορές Το φυλλογράφημα, επηρεάζεται δραστικά από την επιλογή των steams όπως και το ιστόγραμμα επηρεάζεται δραστικά από την επιλογή των κλάσεων Αξίζει, επίσης, να σημειώσουμε ότι η εικόνα-μορφή ενός φυλλογραφήματος είναι ανάλογη με αυτήν του αντίστοιχου ιστογράμματος (αν στραφεί κατά 9 ) Σημείωση: Στην πρώτη από αριστερά στήλη του φυλλογραφήματος φαίνονται οι αθροιστικές συχνότητες από πάνω προς τα κάτω και από κάτω προς τα πάνω μέχρι το steam στο οποίο περιλαμβάνεται η διάμεσος (στο παράδειγμά μας μέχρι το steam 5) Ας δούμε ένα ακόμη παράδειγμα: Με steam τις μονάδες και leaf τα δέκατα, το φυλλογράφημα των παρατηρήσεων: 74, 67, 7, 7, 78, 88, 6, 5, 8, 64 και 57, σε 5 steams είναι: 5 7 5 6 47 () 7 48 8 8 HI 7 Σημείωση: Με ΗΙ συμβολίζεται ένα steam που περιλαμβάνει μια «ασυνήθιστα μεγάλη τιμή» 6 Είναι μια από τις μεθόδους-τεχνικές της διερευνητικής ανάλυσης δεδομένων Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Μέτρα θέσης-κεντρικής τάσης (locato measures-cetral tedecy measures) Τα μέτρα θέσης-κεντρικής τάσης μας δίνουν πληροφορίες για τη θέση της κατανομής των παρατηρήσεων Τα πλέον χρησιμοποιούμενα είναι η μέση τιμή, η διάμεσος, η κορυφή και τα ποσοστημόρια Μέση τιμή ή Αριθμητικός μέσος (mea) Η μέση τιμή ενός πληθυσμού συμβολίζεται με μ και η μέση τιμή ενός δείγματος με x k ν y ν k = x = x = = f y = = Από τον ορισμό της μέσης τιμής, είναι φανερό ότι αν οι τιμές x, x,, x είναι όλες μεταξύ τους ίσες, θα είναι ίσες με τη μέση τιμή τους Φαίνεται, δηλαδή, ότι με τη μέση τιμή επιδιώκεται να ορισθεί ένας «τυπικός εκπρόσωπος» των παρατηρήσεων Το γεγονός, όμως, ότι στον υπολογισμό της συμμετέχει το άθροισμα όλων των παρατηρήσεων, την καθιστά ευαίσθητη σε ακραίες-έκτροπες (outlyg ή uusual) παρατηρήσεις 7 Κατά συνέπεια, η μέση τιμή αποκρύπτει (από τον ανυποψίαστο) τις έκτροπες παρατηρήσεις Δηλαδή, όταν υπάρχουν έκτροπες παρατηρήσεις, η μέση τιμή δίνει παραπλανητική εικόνα αν θεωρηθεί «τυπικός εκπρόσωπος» των παρατηρήσεων Βέβαια, αν πάρουμε τις διαφορές των παρατηρήσεων από τη μέση τιμή τους, οι ακραίες τιμές αποκαλύπτονται Παράδειγμα-: Ο ιδιοκτήτης μιας μικρής επιχείρησης που απασχολεί πέντε εργαζομένους ισχυρίσθηκε σε δημοσιογράφο τοπικής εφημερίδας ότι οι εργαζόμενοι στην επιχείρησή του είναι πολύ καλά αμειβόμενοι αφού ο μέσος μισθός τους είναι Ο «υποψιασμένος» δημοσιογράφος ερεύνησε λεπτομερέστερα το θέμα και βρήκε ότι οι μισθοί των εργαζομένων ήταν 4, 4, 5, 7 και 8 αντίστοιχα! 8 Ο υπολογισμός της δειγματικής μέσης τιμής είναι πολύ απλός Στα επόμενα θα δούμε σχετικά παραδείγματα Ιδιότητες της μέσης τιμής Η μέση τιμή έχει, μεταξύ άλλων, τις παρακάτω ενδιαφέρουσες ιδιότητες: ( x x) = ( y x) ν = = k = Δηλαδή, το άθροισμα των αποστάσεων (αποκλίσεων) των παρατηρήσεων x, x,, x από τη μέση τιμή τους x, είναι Δηλαδή, η μέση τιμή είναι το σημείο ισορροπίας της κατανομής των δεδομένων Παράδειγμα-: Για την κατανομή, y ν 5 4 6 Σύνολο 7 Στο πλαίσιο όμως της Θεωρίας Πιθανοτήτων και της Στατιστικής Συμπερασματολογίας, αυτό είναι το μεγάλο της πλεονέκτημα! (βλ Κεντρικό Οριακό Θεώρημα στο επόμενο κεφάλαιο) 8 Ο μισθός των 8 ήταν του maager και συνιδιοκτήτη! Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

προφανώς, είναι x = 5 που σημαίνει ότι, αν στις θέσεις y ενός άξονα τοποθετήσουμε ως βάρη τις αντίστοιχες συχνότητες ν τότε ο άξονας θα έχει σημείο ισορροπίας τη θέση 5 Επίσης, αυτή η ιδιότητα μας λέει ότι αν από τις διαφορές x x γνωρίζουμε τις, τότε μπορούμε να υπολογίσουμε και τη -οστή Επομένως, μπορούμε να υπολογίσουμε το άθροισμα ( x x) αν γνωρίζουμε τους από τους όρους = του Στη συνέχεια του μαθήματος θα επανέλθουμε στη σημασία αυτής της ιδιότητας = ( x x) < = ( x λ ), λ Δηλαδή, το άθροισμα των τετραγώνων των αποκλίσεων των παρατηρήσεων x, x,, x από τη μέση τιμή τους x, είναι μικρότερο από το άθροισμα των τετραγώνων των αποκλίσεών τους από οποιαδήποτε άλλη τιμή λ Ή αλλιώς, το άθροισμα ( x λ) γίνεται ελάχιστο αν και μόνο αν λ = x = = Αν ω x + β τότε ω = x + β Δηλαδή, αν στις παρατηρήσεις x, x,, x προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε ο αριθμητικός μέσος τους θα αυξηθεί (ή θα μειωθεί) κατά την ίδια ποσότητα Αν ω = α χ τότε ω = α χ Δηλαδή, αν οι παρατηρήσεις x, x,, x, πολλαπλασιασθούν με την ίδια ποσότητα α, τότε ο αριθμητικός μέσος τους θα πολλαπλασιασθεί με την ίδια ποσότητα Γενικά, αν ω = α x + β τότε ω = α x + β Συνοπτικά, η μέση τιμή έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα: Πλεονεκτήματα Για τον υπολογισμό της χρησιμοποιούνται όλες οι τιμές Είναι μοναδική για κάθε σύνολο δεδομένων Είναι εύκολα κατανοητή Ο υπολογισμός της είναι σχετικά εύκολος Αξιοποιείται στη στατιστική συμπερασματολογία Μειονεκτήματα Επηρεάζεται πολύ από ακραίες τιμές Μπορεί να μην αντιστοιχεί σε δυνατή τιμή της μεταβλητής Δεν υπολογίζεται για ποιοτικά δεδομένα Είναι δύσκολος ο υπολογισμός της σε ομαδοποιημένα δεδομένα με ανοικτές τις ακραίες κλάσεις Σταθμικός αριθμητικός μέσος (weghted mea) Ο Σταθμικός αριθμητικός μέσος χρησιμοποιείται στις περιπτώσεις που τα x, x,, x έχουν διαφορετική αξία (διαφορετικό βάρος) w, w,, wν, αντίστοιχα Δίνεται από τον τύπο: Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 4

x = w = = w x w Περιγραφική Στατιστική Ο σταθμικός αριθμητικός μέσος διατηρεί τις ιδιότητες του αστάθμητου αριθμητικού μέσου Παράδειγμα-4: Ένας οδηγός φορτηγού διανομής τροφίμων, αγόρασε σε μια ημέρα πετρέλαιο από τρία διαφορετικά πρατήρια Από το πρώτο αγόρασε 6 λίτρα προς 75 το λίτρο, από το δεύτερο λίτρα προς 84 το λίτρο και από το τρίτο 5 λίτρα προς 76 το λίτρο Προφανώς, για να υπολογισθεί το μέσο ποσό που πλήρωσε ανά λίτρο ο οδηγός πρέπει να χρησιμοποιηθεί ο σταθμικός μέσος: x w = = = w x w 6 75 + 84 + 5 76 = = 799 ανά λίτρο 6 + + 5 Ο αριθμητικός μέσος των αριθμητικών μέσων k δειγμάτων μεγέθους αντίστοιχα, είναι, x k = = k = x Ουσιαστικά πρόκειται για σταθμικό αριθμητικό μέσο,,, k, Παράδειγμα-5: Αν το μέσο ύψος φοιτητών είναι 7 cm και το μέσο ύψος 5 φοιτητριών είναι 6 cm τότε το μέσο ύψος φοιτητών και φοιτητριών είναι x = = = x 7 + 5 6 = = 667 cm 5 Ερώτηση: Στην έκδοση της αμερικανικής κυβέρνησης Scece Idcators του 98, αναφέρεται ότι ο μέσος μισθός των γυναικών σε όλους τους επιστημονικούς τομείς είναι μόνο το 77% του μέσου μισθού των ανδρών επιστημόνων Στην ίδια πηγή όμως, αναφέρεται ότι σε κάθε επιστημονικό τομέα ξεχωριστά, ο μέσος μισθός των γυναικών είναι τουλάχιστον το 9% του μέσου μισθού των ανδρών Εξηγήστε πώς εμφανίζεται αυτή η φαινομενική διαφορά Απάντηση: Οι γυναίκες είναι συγκεντρωμένες στους τομείς που αμείβονται λιγότερο Έτσι, για τις γυναίκες, ο μέσος μισθός συνολικά θα είναι χαμηλότερος των ανδρών ακόμη και αν κερδίζουν το ίδιο ποσό με τους άνδρες σε κάθε τομέα ξεχωριστά Παρατηρήσεις: Αν θέλουμε να παραλείψουμε τις ακραίες τιμές από τον υπολογισμό της μέσης τιμής, μπορούμε να δημιουργήσουμε έναν ισοσταθμισμένο μέσο (trmmed mea) θέτοντας στον σταθμικό μέσο, βάρος για τις ακραίες τιμές που θέλουμε να παραληφθούν και βάρος για όλες τις υπόλοιπες Παρότι η μέση τιμή, ως μέτρο θέσης-τάσης δεν είναι πάντα το καταλληλότερο για την περιγραφή των δεδομένων (μάλιστα, μπορεί και να παραπλανήσει), εντούτοις, έχει μεγάλη σημασία και χρησιμοποιείται ευρέως στη Στατιστική Συμπερασματολογία Ένας από τους λόγους που συμβαίνει αυτό, είναι το γεγονός Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 5

Περιγραφική Στατιστική ότι ελαχιστοποιεί το άθροισμα ( x λ ) Αυτή η ιδιότητα της μέσης τιμής είναι = «πολύ καλή» μαθηματική ιδιότητα 9 και γι αυτό έχει επηρεάσει τον ορισμό και άλλων στατιστικών μέτρων Στη συνέχεια του μαθήματος θα αναφερθούμε και σε άλλους λόγους που δικαιολογούν τη μεγάλη χρησιμότητα της μέσης τιμής στη Στατιστική Συμπερασματολογία Κορυφή ή Επικρατούσα τιμή (mode) Η κορυφή του δείγματος συμβολίζεται με M Είναι η τιμή που εμφανίζεται στο δείγμα με την μεγαλύτερη συχνότητα και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα: Πλεονεκτήματα Υπολογίζεται εύκολα Είναι εύκολα κατανοητή Υπολογίζεται και από ελλιπή δεδομένα Δεν επηρεάζεται από ακραίες τιμές Υπολογίζεται και για ποιοτικά δεδομένα Μειονεκτήματα Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της Στη στατιστική συμπερασματολογία έχει περιορισμένη σημασία Δεν ορίζεται πάντα μονοσήμαντα Δηλαδή, μπορεί να υπάρχουν περισσότερες από μία ή και καθόλου Για τον υπολογισμό της σε ομαδοποιημένες παρατηρήσεις μπορεί να χρησιμοποιηθεί ο τύπος: c Δ M = L + Δ + Δ όπου, L είναι το κάτω άκρο της επικρατούσας κλάσης, c είναι το πλάτος της επικρατούσας κλάσης, Δ = ν ν η διαφορά της συχνότητας της προηγούμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης και Δ = ν ν + η διαφορά της συχνότητας της επόμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης Παρατήρηση: Πρέπει να επισημάνουμε ότι η κορυφή είναι, βέβαια, η τιμή με τη μεγαλύτερη συχνότητα, δηλαδή η πιο «δημοφιλής» τιμή, αλλά αυτό δε σημαίνει ότι είναι κατ ανάγκη και «πλειοψηφούσα» τιμή Μπορεί, μάλιστα, να αποτελεί ένα μικρό ποσοστό των παρατηρήσεων Διάμεσος (meda) Η διάμεσος του δείγματος συμβολίζεται με δ Είναι η τιμή x, για την οποία ισχύει ότι: το 5% των παρατηρήσεων είναι μικρότερες από αυτή και το υπόλοιπο 5% των παρατηρήσεων είναι μεγαλύτερες από αυτή Εκφράζει την κεντρική θέση της κατανομής των παρατηρήσεων και γι αυτό στη βιβλιογραφία συναντάται και ως μέσος θέσης (posto average) Αν το πλήθος των παρατηρήσεων είναι αριθμός περιττός τότε δ = x ( + ενώ, αν ) x + x ( ) ( + ) είναι άρτιος τότε δ = (με x () συμβολίζουμε τη -οστή παρατήρηση, σε αύξουσα διάταξη των παρατηρήσεων) Παρατηρείστε ότι ο αριθμός 5 ( + ) δίνει τη θέση της διαμέσου (εφόσον είναι ακέραιος) Αν δεν είναι ακέραιος, τότε η 9 Ικανοποιεί το κριτήριο των ελαχίστων τετραγώνων Επικρατούσα κλάση είναι η κλάση με τη μεγαλύτερη συχνότητα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 6

διάμεσος είναι ίση με το ημιάθροισμα των δύο τιμών που οι θέσεις τους είναι οι πλησιέστερες στον αριθμό 5 ( + ) Ας δούμε δύο παραδείγματα α) Έστω οι παρατηρήσεις, 5,, 9, 6, Τις διατάσσουμε σε αύξουσα σειρά:, 5, 6, 9, Η διάμεσος τιμή είναι αυτή που βρίσκεται στη θέση 5 (5 + ) =, άρα δ = 6 β) Έστω οι παρατηρήσεις,, 5, 6, 7,, 9 Τις διατάσσουμε σε αύξουσα σειρά:, 5, 6, 9,, 7 Επειδή ο αριθμός 5 ( + ) = 5 δεν είναι ακέραιος, η διάμεσος είναι το ημιάθροισμα της ης και της 4 ης παρατήρησης, δηλαδή, = ( 6 + 9) = 7 5 δ Για τον υπολογισμό της διαμέσου σε ομαδοποιημένες παρατηρήσεις, χρησιμοποιείται το πολύγωνο σχετικών αθροιστικών συχνοτήτων ή ο τύπος: N δ = L + c ν όπου, L είναι το κάτω άκρο της μεσαίας κλάσης, c είναι το πλάτος της μεσαίας κλάσης, ν είναι η συχνότητα της μεσαίας κλάσης και N είναι η αθροιστική συχνότητα της προηγούμενης από τη μεσαία κλάσης Στην επόμενη παράγραφο θα δώσουμε ένα παράδειγμα υπολογισμού της διαμέσου ομαδοποιημένων παρατηρήσεων Η διάμεσος έχει, μεταξύ άλλων, και την ακόλουθη ιδιότητα: = x δ < = x λ, λ Δηλαδή, το άθροισμα των απόλυτων αποκλίσεων των παρατηρήσεων x, x,, x από τη διάμεσό τους δ, είναι μικρότερο από το άθροισμα των απολύτων αποκλίσεών τους από οποιαδήποτε άλλη τιμή λ Ή αλλιώς, το άθροισμα x λ γίνεται ελάχιστο αν και μόνο αν λ = δ μειονεκτήματα: = Επίσης, έχει τα ακόλουθα πλεονεκτήματα και Πλεονεκτήματα Είναι εύκολα κατανοητή Δεν επηρεάζεται από ακραίες τιμές Υπολογίζεται και στην περίπτωση που οι ακραίες κλάσεις είναι ανοικτές Ο υπολογισμός της είναι απλός Είναι μοναδική σε κάθε σύνολο δεδομένων Μειονεκτήματα Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της Είναι δύσκολη η αξιοποίησή της στη στατιστική συμπερασματολογία Δεν υπολογίζεται για κατηγορικά δεδομένα Για τον υπολογισμό της μπορεί να χρειαστεί παρεμβολή Παρατήρηση: Η διάμεσος δεν επηρεάζεται ιδιαιτέρως από ακραίες τιμές Έτσι, για την περιγραφή παρατηρήσεων που εμφανίζουν ακραίες τιμές προτιμάται ως μέτρο θέσης από τη μέση τιμή η οποία επηρεάζεται πολύ από ακραίες τιμές Εξηγείται, έτσι, γιατί ο ΟΗΕ διακρίνει τις αναπτυσσόμενες από τις αναπτυγμένες χώρες, μεταξύ άλλων, από τη διάμεσο της ηλικίας των κατοίκων και όχι από τη μέση τιμή της ηλικίας Δηλαδή, γιατί ως μέτρο γήρανσης του πληθυσμού χρησιμοποιεί τη διάμεσο και όχι τη μέση τιμή Έτσι, μπορούμε, επίσης, να εξηγήσουμε γιατί στις διαπραγματεύσεις των συνδικαλιστών με τους εργοδότες για το ύψος των αποδοχών, συνήθως, οι συνδικαλιστές χρησιμοποιούν τη διάμεσο των αποδοχών ενώ οι εργοδότες τη μέση τιμή Μεσαία κλάση είναι η κλάση στην οποία ανήκει η διάμεσος Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 7

Ποσοστιαία σημεία ή Ποσοστημόρια (quatles) Τα ποσοστημόρια του δείγματος συμβολίζονται με p α Αποτελούν γενίκευση της έννοιας της διαμέσου και βοηθούν στην πληρέστερη περιγραφή της θέσης της κατανομής παρατηρήσεων Το ποσοστημόριο p α είναι η τιμή x, για την οποία ισχύει ότι: το α% των παρατηρήσεων είναι μικρότερες από αυτή και το υπόλοιπο (-α)% των παρατηρήσεων είναι μεγαλύτερες από αυτή Τα ποσοστημόρια διακρίνονται σε: Εκατοστημόρια (percetles) p, p,, p99 Δεκατημόρια (decles) αν p, p,, p9 Τεταρτημόρια (quartles) p 5 = Q, p5 = Q = δ, p75 = Q Τα ποσοστημόρια σε ομαδοποιημένες παρατηρήσεις μπορούν να υπολογισθούν από τον τύπο: a N pa = L + c ν όπου, L είναι το κάτω άκρο της κλάσης στην οποία βρίσκεται το p α, c είναι το πλάτος της, ν είναι η συχνότητά της και N είναι η αθροιστική συχνότητα της προηγούμενης κλάσης Το p α βρίσκεται στην κλάση που βρίσκεται η τιμή με σχετική αθροιστική συχνότητα α Παράδειγμα- (συνέχεια): Θα υπολογίσουμε τη διάμεσο και το ποσοστημόριο p 95 της κατανομής της μεταβλητής μηνιαίο εισόδημα πατέρα Εισόδημα y ν Γιατί σε αυτή την κλάση βρίσκεταιι η τιμή με σχετική αθροιστική συχνότητα 95 Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 8 f N F 9 - (9 ] 5 5 ( ] 4 5 5 ( 5] 4 6 55 (5 7] 6 4 5 75 (7 9] 8 5 8 9 (9 ] > - Σύνολα Για να υπολογίσουμε τη διάμεσο, δ = Q = p 5, των παρατηρήσεων εργαζόμαστε ως εξής: η διάμεσος βρίσκεται στην κλάση [, 5) γιατί όπως φαίνεται στη στήλη των σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων, σε αυτή την κλάση βρίσκεται η τιμή με σχετική αθροιστική συχνότητα 5 Επομένως, 5 N 5 5 δ = p5 = L + c = + 4667 ν 6 Ομοίως, υπολογίζουμε το ποσοστημόριο p 95 Προφανώς, το p 95 ανήκει στην κλάση [9, ) και επομένως, 95 N 95 8 p95 = L + c = 9 + = ν Παράδειγμα-6: Στον παρακάτω πίνακα συχνοτήτων δίνεται η κατανομή της βαθμολογίας 5 μαθητών Λυκείου Αν στο 5% των μαθητών με την υψηλότερη βαθμολογία δοθεί υποτροφία, τι βαθμό πρέπει να έχει ένας μαθητής για να πάρει υποτροφία;

Βαθμοί y ν N F [ ) 5 5 [ 4) 5 [4 6) 5 5 7 [6 8) 7 45 9 [8 ) 9 5 5 Περιγραφική Στατιστική Προφανώς, ζητούμενο είναι το ποσοστημόριο, 95 N 95 5 45 p = L + c = 8 + ν 5 95 = 9 Σημείωση: Προφανώς, τα ποσοστημόρια μπορούν να υπολογισθούν και γραφικά, από το πολύγωνο ή το ιστόγραμμα σχετικών αθροιστικών συχνοτήτων Δείτε στο πολύγωνο σχετικών αθροιστικών συχνοτήτων του παραπάνω παραδείγματος πώς προκύπτει γραφικά ότι p 9 95 = Σε ότι αφορά στον υπολογισμό των ποσοστημορίων, σημειώνουμε, τέλος, ότι σε μη ομαδοποιημένα δεδομένα, υπολογίζονται με τρόπο ανάλογο του τρόπου υπολογισμού της διαμέσου για μη ομαδοποιημένα δεδομένα Ας δούμε ένα παράδειγμα Παράδειγμα-7: Θα υπολογίσουμε τα τεταρτημόρια της κατανομής των παρατηρήσεων α) 6,, 5, 9, 6, 8,, 9, β) 5,,,,, 9,, 7,,,, 6, 8,, 5, 9,, 4, 9,,,, 6, 7,,, 8, α) Διατάσσουμε τις παρατηρήσεις σε αύξουσα σειρά:,,, 5, 6, 6, 8, 9, 9 Η θέση του Q είναι, 5 (9 + ) = 5 και επομένως, Q = + 5 ( ) = 5 Αντίστοιχα, η θέση του Q είναι, 75 (9 + ) = 7 5 και επομένως, Q = 8 + 5 (9 8) = 8 5 β) Για διευκόλυνσή μας, κατασκευάζουμε τον πίνακα συχνοτήτων (οι παρατηρήσεις στον πίνακα συχνοτήτων καταγράφονται σε αύξουσα διάταξη) y ν N f F 6 57 57 7 57 74 8 4 74 48 9 7 7 5 4 48 98 9 4 74 74 7857 4 57 84 5 5 74 898 6 6 57 986 7 7 57 964 8 57 Σύνολα 8 Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 9

Η θέση του Q είναι, 5 (8 + ) = 7 5 και επειδή ο αριθμός αυτός δεν είναι ακέραιος, βρίσκουμε το Q με παρεμβολή μεταξύ της 7 ης και της 8 ης θέσης ως εξής: Q = 9 + 5 ( 9) = 95 Αντίστοιχα, η θέση του Q είναι, 75 (8 + ) = 75 και επειδή ο αριθμός αυτός δεν είναι ακέραιος, βρίσκουμε το Q με παρεμβολή μεταξύ της ης και της ης θέσης ως εξής: Q = + 75 ( ) Ομοίως βρίσκουμε ότι Q = δ = = Επισημαίνουμε ότι στην περίπτωση που ο αριθμός που δίνει τη θέση του τεταρτημορίου δεν είναι ακέραιος, το πρόβλημα αντιμετωπίζεται και με άλλους τρόπους όπως, η συνήθης στρογγυλοποίηση ή το πρώτο τεταρτημόριο υπολογίζεται ως διάμεσος του πρώτου μισού του συνόλου των παρατηρήσεων και το τρίτο ως η διάμεσος του δεύτερου μισού του συνόλου των παρατηρήσεων Όμως δε θα επεκταθούμε περισσότερο σε θέματα υπολογισμού των ποσοστημορίων Θα επικεντρωθούμε στην ερμηνεία και τη χρησιμότητά τους Προσοχή: Τα τεταρτημόρια υποδιαιρούν την κατανομή των παρατηρήσεων σε «ίσα» τμήματα, όχι με όρους απόστασης, αλλά με όρους ποσοστών Δηλαδή, τα τμήματα αυτά είναι «ίσα» με την έννοια ότι περιέχουν ίσα ποσοστά παρατηρήσεων Έτσι, ίσες αποστάσεις μπορεί να περιέχουν διαφορετικά ποσοστά παρατηρήσεων και αντίστροφα, άνισες αποστάσεις μπορεί να περιέχουν ίδια ποσοστά παρατηρήσεων Τα τεταρτημόρια (γενικότερα, τα ποσοστημόρια) είναι μέτρα σχετικής θέσης και όχι σχετικής απόστασης Παρατηρείστε το σχήμα στο παράδειγμα-7 Μεταξύ των άνισων αποστάσεων 6 έως 95, 95 έως, έως και έως, βρίσκονται ίσα ποσοστά παρατηρήσεων (5%) Ερώτηση: Αν σε ένα σύνολο παρατηρήσεων η μικρότερη τιμή είναι και η μεγαλύτερη 8, γιατί η διάμεσος δεν είναι, κατ ανάγκη, 5 = ( + 8) ; Παρατηρήσεις: Τα ποσοστημόρια είναι μέτρα θέσης ιδιαιτέρως χρήσιμα στη μελέτη οικονομικών, κοινωνικών, δημογραφικών κα φαινομένων γιατί, μεταξύ άλλων, μας επιτρέπουν να απαντήσουμε σε ερωτήσεις που αφορούν συγκεκριμένες παρατηρήσεις Για παράδειγμα: μια συγκεκριμένη παρατήρηση, βρίσκεται κοντά στα άκρα ή κοντά στο κέντρο της κατανομής; ή πόσες παρατηρήσεις είναι μικρότερες από μια συγκεκριμένη παρατήρηση; Έτσι, αν σε μια κατανομή βαθμολογίας φοιτητών, είναι p 95 = 75 τότε, για έναν φοιτητή που έχει βαθμό πχ 8 μπορούμε να συμπεράνουμε ότι ανήκει στο 5% των φοιτητών με τη μεγαλύτερη βαθμολογία Τα ποσοστημόρια, όπως θα δούμε και στη συνέχεια, είναι χρήσιμα και για την περιγραφή της μορφής της κατανομής των παρατηρήσεων Αν τα ποσοστημόρια p και p α, δηλαδή, τα p και p 8, τα p και p 7, τα p 5 και p 75 κοκ, βρίσκονται σε ίση απόσταση από το κέντρο της κατανομής (τη διάμεσο), τότε η κατανομή είναι συμμετρική Τα ποσοστημόρια μπορούν να βοηθήσουν και στην αντιμετώπιση κάποιων πρακτικών προβλημάτων που μπορεί να αντιμετωπίζουν οι ερευνητές όπως, πχ αν συμβεί να μη γνωρίζουν τις κατώτερες ή τις ανώτερες τιμές των παρατηρήσεων Για παράδειγμα, αν ένας ερευνητής θέλει να υπολογίσει το χρόνο ζωής μιας ομάδας πειραματόζωων, πρέπει να περιμένει να πεθάνει και το τελευταίο πειραματόζωο προκειμένου να υπολογίσει το μέσο χρόνο ζωής τους Για να υπολογίσει, όμως, τη διάμεσο του χρόνου ζωής ή κάποιο άλλο ποσοστημόριο, δεν απαιτείται να περιμένει α Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

μέχρι να πεθάνουν όλα και έτσι κερδίζει χρόνο που μπορεί να είναι κρίσιμος για την εξέλιξη της έρευνάς του Σύγκριση της μέσης τιμής, της κορυφής και της διαμέσου Αν συγκρίνουμε αυτά τα τρία μέτρα θέσης με μαθηματικούς όρους, τότε, εύκολα μπορούμε να αποφανθούμε για το καλύτερο Δηλαδή, αν για παράδειγμα, θέσουμε ως κριτήριο την ελαχιστοποίηση του αθροίσματος ( x λ ) τότε το καλύτερο είναι η = μέση τιμή ενώ αν θέσουμε ως κριτήριο την ελαχιστοποίηση του αθροίσματος = x λ τότε το καλύτερο είναι η διάμεσος Αν, όμως, τα συγκρίνουμε με κριτήριο την καταλληλότητα περιγραφής της θέσης της κατανομής, τότε, φαίνεται να υπερέχει η διάμεσος Όμως, κάθε μέτρο θέσης, έχει την ιδιαίτερη αξία του για την περιγραφή της κατανομής των παρατηρήσεων, και επομένως, πρέπει όλα να μπορούμε να τα ερμηνεύουμε σωστά ώστε αφενός, να τα χρησιμοποιούμε σωστά και αφετέρου, να μην πέφτουμε θύματα πλάνης επιτηδείων ή ημιμαθών Παράδειγμα-8: Το ύψος της βροχής (σε mm) στην Αθήνα για τις ημέρες από --6 έως --6 ήταν: 86 9,5 4 8 85 Εύκολα διαπιστώνεται, ακόμη και με μια πρόχειρη ματιά στις παρατηρήσεις, ότι η μέση τιμή x = 7 παρέχει ελάχιστη πληροφορία για την εικόνα της κατανομής του ύψους της βροχής Όμως, τα ποσοστημόρια Q =, Q = δ =, Q = δίνουν πληρέστερη εικόνα για την πραγματική εικόνα της κατανομής που είναι η μεγάλη συγκέντρωση τιμών στο Σχετική θέση της μέσης τιμής, της κορυφής και της διαμέσου Για τη σχετική θέση της μέσης τιμής, της κορυφής και της διαμέσου μιας κατανομής, ισχύει, εν γένει, ο εξής κανόνας: Όταν η καμπύλη συχνοτήτων της κατανομής είναι συμμετρική ισχύει: x = δ = M Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει θετική ασυμμετρία ισχύει: x > δ > M Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει αρνητική ασυμμετρία ισχύει: x < δ < M Επισημαίνουμε ότι υπάρχουν περιπτώσεις κατανομών που αυτός ο κανόνας δεν ισχύει Εξαιρέσεις αυτού του κανόνα μπορεί, για παράδειγμα, να παρουσιασθούν σε κατανομές με πολύ «μακριά» ουρά, πχ προς τα αριστερά, αλλά με πολύ «παχιά» ουρά προς τα δεξιά Σε τέτοιες περιπτώσεις ενώ η κατανομή παρουσιάζει εμφανώς αρνητική ασυμμετρία, εντούτοις η μέση τιμή μπορεί να είναι μεγαλύτερη (να βρίσκεται δεξιά) της διαμέσου Ένα τέτοιο παράδειγμα κατανομής δίνεται στην άσκηση- Επίσης, εξαιρέσεις του κανόνα μπορούν να εμφανισθούν σε κατανομές που δεν είναι μονοκόρυφες καθώς και σε περιπτώσεις διακριτών κατανομών Ένα τέτοιο παράδειγμα διακριτής κατανομής δίνεται στην άσκηση- Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Ερώτηση: Έστω ότι η κατανομή των μισθών (μηνιαίων) των εργαζομένων μιας επιχείρησης παρουσιάζει θετική ασυμμετρία (όπως η τρίτη από τις παραπάνω κατανομές) με μέση τιμή και διάμεσο 5 Σε μια συνάντηση των εκπροσώπων των εργαζομένων με τον εργοδότη, ο εργοδότης αναφέρεται στον υψηλό μέσο μισθό ( ) Τι αντεπιχειρήματα, που να προκύπτουν από το είδος της ασυμμετρίας της κατανομής, έχουν οι εργαζόμενοι; Απάντηση: Ο μέσος μισθός είναι πράγματι, όμως, ποσοστό εργαζομένων μεγαλύτερο από το 5%, έχει μισθό μικρότερο από τον μέσο μισθό Μάλιστα το 5% έχει μισθό μικρότερο από 5 Είναι φανερό ότι, ακόμη και αν κάποιος μπορεί να ερμηνεύσει σωστά τα μέτρα θέσης, απαιτείται αρκετή εμπειρία για να μπορεί να συνοψίζει, να συνδυάζει και να συμπυκνώνει όλες τις πληροφορίες που αυτά δίνουν για την κατανομή Η διερευνητική ανάλυση δεδομένων με μια έξυπνη και πολύ απλή τεχνική μας βοηθάει να παρουσιάσουμε τα κυριότερα μέτρα θέσης με τέτοιο τρόπο που να διευκολύνεται πολύ η εξαγωγή συμπερασμάτων για την κατανομή Αναφερόμαστε στην κατασκευή θηκογράμματος (box plot) Το θηκόγραμμα είναι γνωστό και ως το διάγραμμα των πέντε αριθμών Πρόκειται για ένα ορθογώνιο με δύο κεραίες (whskers) το οποίο κατασκευάζεται ως εξής: η κάτω βάση του ορθογωνίου βρίσκεται στο Q και η πάνω στο Q Η διάμεσος δ αναπαριστάνεται με ένα οριζόντιο ευθύγραμμο τμήμα μέσα στο ορθογώνιο Το μήκος των βάσεων του ορθογωνίου λαμβάνεται αυθαίρετα Η πάνω και η κάτω κεραία, έχουν τη μορφή Τ και ανεστραμμένου Τ αντίστοιχα και εκτείνονται μέχρι τις οριακές τιμές που μπορεί να είναι: α) η μέγιστη και η ελάχιστη παρατήρηση β) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εσωτερικό φράγμα Q + 5 ( Q Q ) και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εσωτερικό φράγμα Q 5 ( Q Q ) γ) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εξωτερικό φράγμα Q + ( Q Q ) και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εξωτερικό φράγμα Q ( Q ) Q Παράδειγμα-7 (συνέχεια): Για την κατανομή του δείγματος του παραδείγματος-7 βρήκαμε, Q = 95, Q = και δ = Αν για τον υπολογισμό των οριακών τιμών χρησιμοποιήσουμε τα εσωτερικά φράγματα έχουμε: Το ανώτερο εσωτερικό φράγμα είναι Q + 5 ( Q Q ) = + 5 ( 95) = 65 άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με 5 (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από 65) Το κατώτερο εσωτερικό φράγμα είναι Q 5 ( Q Q ) = 95 5 ( 95) = 55 άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με 6 (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από 5,5) Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Περιγραφική Στατιστική 8 4 6 Ας δούμε τι πληροφορίες μας δίνει το θηκόγραμμα για την κατανομή του παραδείγματος Η κατανομή παρουσιάζει μια μικρή αρνητική ασυμμετρία διότι η διάμεσος βρίσκεται πιο κοντά στην πάνω πλευρά του ορθογωνίου Το 5% των παρατηρήσεων βρίσκεται σε ένα διάστημα ίσο με το ύψος του ορθογωνίου το οποίο είναι αρκετά «συμπιεσμένο» και, επιπλέον, τοποθετείται περίπου στη μέση του εύρος των παρατηρήσεων (εξαιρουμένων των ακραίων) Η κατανομή παρουσιάζει δυο ακραίες τιμές και μια εξαιρετικά ακραία 4 τιμή (είναι οι τιμές 6, 7 και ) Παράδειγμα-8 (συνέχεια): Το θηκόγραμμα του ύψους της βροχής, που φαίνεται παρακάτω, είναι φανερό ότι συνοψίζει με παραστατικό τρόπο τα συμπεράσματα που σχολιάσαμε στο παράδειγμα-8 και, επιπλέον, αναδεικνύει τις ακραίες τιμές του δείγματος 5 5 5 Διευκρίνηση: Το ανώτερο εσωτερικό φράγμα είναι Q + 5 ( Q Q ) = = + 5 ( ) =, άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από ) Το κατώτερο εσωτερικό φράγμα είναι Q 5 ( Q Q ) = 5 ( ) = 8 άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από 8) Το θηκόγραμμα προσφέρεται ιδιαιτέρως για την ανίχνευση ακραίων τιμών και για την αναγνώριση της συμμετρίας ή του είδους της ασυμμετρίας της κατανομής Αν το ευθύγραμμο τμήμα που αναπαριστά τη διάμεσο βρίσκεται στο μέσο του ορθογωνίου, η κατανομή είναι συμμετρική, αν βρίσκεται προς την κάτω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει θετική ασυμμετρία και τέλος, αν βρίσκεται προς την πάνω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει αρνητική ασυμμετρία Επίσης, τα θηκογράμματα είναι εξαιρετικά χρήσιμα για τη σύγκριση των κατανομών δύο ή περισσοτέρων δειγμάτων (θα δούμε σχετικό παράδειγμα στη συνέχεια) Σημειώνουμε, τέλος, ότι το θηκόγραμμα μπορεί να σχεδιασθεί και οριζόντια αντί κατακόρυφα Μια τιμή χαρακτηρίζεται ακραία αν βρίσκεται εκτός των εσωτερικών φραγμάτων 4 Μια τιμή χαρακτηρίζεται εξαιρετικά ακραία αν βρίσκεται εκτός και των εξωτερικών φραγμάτων Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Μέτρα διασποράς (dsperso measures) Στον παρακάτω πίνακα δίνονται τέσσερα διαφορετικά δείγματα μεγέθους πέντε το καθένα Πίνακας Δείγμα Ι Δείγμα ΙΙ Δείγμα ΙΙΙ Δείγμα IV 8 4 9 7 5 5 7 6 9 9 Εύκολα διαπιστώνεται ότι καθένα από τα τέσσερα δείγματα έχει μέση τιμή και διάμεσο επίσης Όμως, αν παρατηρήσουμε τα αντίστοιχα θηκογράμματα, αβίαστα προκύπτει ότι οι κατανομές τους διαφέρουν Πιο συγκεκριμένα, οι αποκλίσεις των παρατηρήσεων από τη μέση τιμή τους, έχουν πολύ διαφορετική μεταβλητότητα στα τέσσερα δείγματα Τα μέτρα διασποράς ορίσθηκαν για να περιγράφουν με αριθμητικά μεγέθη αυτή τη μεταβλητότητα 6 8 4 I II III IV Τα πλέον χρησιμοποιούμενα μέτρα διασποράς είναι το εύρος, η ενδοτεταρτημοριακή απόκλιση, η τυπική απόκλιση και η διασπορά 5 Εύρος (rage) και Ενδοτεταρτημοριακή Απόκλιση (terquatle devato) Ορίζεται ως η διαφορά της μικρότερης από τη μεγαλύτερη παρατήρηση ( R = x max xm ) του δείγματος Είναι το πιο απλό μέτρο διασποράς και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα: Πλεονεκτήματα Είναι πολύ απλό στον υπολογισμό Χρησιμοποιείται αρκετά στον έλεγχο ποιότητας Μπορεί να χρησιμοποιηθεί για την εκτίμηση της τυπικής απόκλισης Μειονεκτήματα Δε θεωρείται αξιόπιστο μέτρο διασποράς, επειδή βασίζεται μόνο στη μικρότερη και στη μεγαλύτερη παρατήρηση και συνεπώς είναι ευαίσθητο σε έκτροπες τιμές Δε χρησιμοποιείται για περαιτέρω στατιστική ανάλυση Αν χρησιμοποιήσουμε το εύρος για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραπάνω παραδείγματος, βλέπουμε ότι ενώ ανιχνεύει τη διαφορά στη μεταβλητότητα μεταξύ πχ των δειγμάτων Ι και ΙΙ (το Ι έχει εύρος -8 = 4 ενώ το ΙΙ έχει εύρος 6-4 = ) εντούτοις, δεν ανιχνεύει τη διαφορά που υπάρχει στη μεταβλητότητα μεταξύ των δειγμάτων ΙΙΙ και ΙV (και το III και το ΙV έχουν εύρος 9- = 8) Δηλαδή, υπάρχουν κατανομές που έχουν ίσες μέσες τιμές, ίσες διαμέσους και ίδιο εύρος και εντούτοις, διαφέρουν Δεν αρκεί επομένως το εύρος για να αποτυπωθεί αριθμητικά η μεταβλητότητα μιας κατανομής Είναι φανερό ότι αυτό οφείλεται στο ότι στον υπολογισμό του εμπλέκονται μόνο δυο παρατηρήσεις Για να αντιμετωπίσουμε αυτό το πρόβλημα μπορούμε να χρησιμοποιήσουμε ως μέτρο της μεταβλητότητας τη διαφορά Q Q για τον υπολογισμό της οποίας συμμετέχουν σαφώς περισσότερες παρατηρήσεις (όσες συμμετέχουν στον υπολογισμό των Q και 5 Ένα ακόμη μέτρο διασποράς είναι η μέση απόκλιση (mea devato): MD= x x = Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 4

Q ) Η διαφορά αυτή ονομάζεται ενδοτεταρτημοριακή απόκλιση (terquatle devato) 6 Επειδή μεταξύ των Q και Q βρίσκεται το 5% των παρατηρήσεων είναι φανερό ότι όσο μικρότερη είναι η ενδοτεταρτημοριακή απόκλιση τόσο μικρότερη είναι η μεταβλητότητα των παρατηρήσεων 7 Επίσης, σε αντίθεση με την τυπική απόκλιση και τη διασπορά (που θα δούμε στη συνέχεια), η ενδοτεταρτημοριακή απόκλιση δεν επηρεάζεται από ακραίες τιμές Αν χρησιμοποιήσουμε την ενδοτεταρτημοριακή απόκλιση για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραδείγματός μας, βλέπουμε ότι πλέον ανιχνεύονται όλες οι υπάρχουσες διαφορές μεταξύ των τεσσάρων δειγμάτων Επισήμανση: Αξίζει να επισημάνουμε, ότι το εύρος, σε αντίθεση με την ενδοτεταρτημοριακή απόκλιση, είναι πολύ ευαίσθητο σε αλλαγές στο μέγεθος του δείγματος Δηλαδή, είναι δυνατόν, αύξηση του μεγέθους του δείγματος ακόμη και κατά μια μονάδα να προκαλέσει δυσανάλογη αύξηση του εύρους Αν για παράδειγμα, οι παρατηρήσεις,,, 4, 4, 4 και 5 συμπληρωθούν με την παρατήρηση, το εύρος του δείγματος από 4 γίνεται 9! Τυπική απόκλιση (stadard devato) και Διασπορά (varace) Η τυπική απόκλιση του πληθυσμού συμβολίζεται με σ και του δείγματος με s s = ( x x) = x x ή = = k k s = ( y x) ν = y ν x = = Εύκολα αποδεικνύεται ότι η τυπική απόκλιση έχει τις ακόλουθες ιδιότητες: Αν οι παρατηρήσεις είναι μεταξύ τους ίσες τότε η τυπική απόκλιση τους είναι μηδέν (γιατί;) Αν ω = x + β τότε s ϖ = s Δηλαδή, αν στις παρατηρήσεις x, x,, xν προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε η τυπική τους απόκλιση δεν μεταβάλλεται Αν ω = α x τότε sϖ = α s Δηλαδή, αν οι παρατηρήσεις x, x,, xν πολλαπλασιασθούν με την ίδια ποσότητα α, τότε η τυπική απόκλισή τους θα πολλαπλασιασθεί με την ποσότητα α Γενικά, αν ω = α x + β τότε sϖ = α s Είναι φανερό ότι η τυπική απόκλιση απαντά στο ερώτημα: πόσο μακριά από τη μέση τιμή τους βρίσκονται οι παρατηρήσεις; Έτσι, όταν οι παρατηρήσεις δε διαφέρουν πολύ από τη μέση τιμή τους, η τυπική απόκλιση είναι μικρή, ενώ αντίθετα, η τυπική απόκλιση μεγαλώνει, όσο περισσότερο «διασκορπίζονται» οι παρατηρήσεις γύρω από τη μέση τιμή τους Δηλαδή, η τυπική απόκλιση μας δίνει ένα μέτρο της μέσης απόστασης-απόκλισης των παρατηρήσεων από τη μέση τιμή τους Συνεπώς, έχει νόημα να χρησιμοποιείται, μόνο σε συνδυασμό με τη μέση τιμή Πρακτικά, όμως, τι σημαίνει «μεγάλη» ή «μικρή» τυπική απόκλιση; Ας προσπαθήσουμε να απαντήσουμε μέσα από συγκεκριμένα προβλήματα ) Αν για καθένα από τα τέσσερα δείγματα του Πίνακα-, υπολογίσουμε την τυπική απόκλισή του, παίρνουμε, 6, 47, 7 και 8 αντίστοιχα Μπορούμε να 6 Ανάλογα ορίζεται η ενδοδεκατημοριακή απόκλιση p9 p 7 Η ενδοτεταρτημοριακή απόκλιση αποτελεί την «καρδιά» της κατανομής Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 5