Πίνακας-1 Επίπεδο εκπαίδευσης πατέρα 2

Σχετικά έγγραφα
Πίνακας-1 Επίπεδο εκπαίδευσης πατέρα 2

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Περιγραφική Στατιστική

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Περιγραφική Στατιστική

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

i Σύνολα w = = = i v v i=

Περιγραφική Στατιστική

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

I2. Αριθμητικά περιγραφικά μέτρα

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 2ο: ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑ Α

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος.

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

Εισαγωγή στη Στατιστική

Εισαγωγή στην Κανονική Κατανομή. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Η Κανονική Κατανομή. Εργαστήριο Μαθηματικών & Στατιστικής/ Γ. Παπαδόπουλος ( 81

Το Κεντρικό Οριακό Θεώρημα

Εφαρμοσμένη Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

f , Σύνολο 40 4) Να συμπληρώστε τον παρακάτω πίνακα f , , Σύνολο 5) Να συμπληρώστε τον παρακάτω πίνακα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΦΥΛΛΑΔΙΟ ΑΣΚΗΣΕΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΠΑΝΟΣ ΣΑΡΑΚΗΝΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Βιοστατιστική ΒΙΟ-309

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Το Κεντρικό Οριακό Θεώρημα

Βιοστατιστική ΒΙΟ-309

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 2 Ο

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ. B. Πώς ορίζεται ο συντελεστής μεταβολής ή συντελεστής. μεταβλητότητας μιας μεταβλητής X, αν x > 0 και πώς, αν

ΑΣΚΗΣΕΙΣ Γ.Π. ΚΕΦ 1,2,3

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

Βιοστατιστική ΒΙΟ-309

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

ΜΑΘΗΜΑΤΙΚΑ. 1 ο ΔΙΑΓΩΝΙΣΜΑ. ΘΕΜΑ 1 ο Δίνεται η συνάρτηση f x. Ι. Το πεδίο ορισμού της f είναι:., 1 υ -1, B. 1, Γ. -1,., 1.

Το Κεντρικό Οριακό Θεώρημα

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Θηκόγραμμα - Boxplot. Παράδειγμα 1: Δίνονται οι παρακάτω 20 παρατηρήσεις μιας μεταβλητής x:

Εισαγωγή στη Στατιστική

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Mέτρα (παράμετροι) θέσεως

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΔΕΟ 13 ΤΟΜΟΣ Δ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΘΕΜΑΤΑ ΠΑΝΕΛΛΑΔΙΚΩΝ-ΣΤΑΤΙΣΤΙΚΗΣ. Να γράψετε στο τετράδιο σας τον πίνακα των τιμών της μεταβλητής Χ σωστά συμπληρωμένο.

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

δεδομένων με συντελεστές στάθμισης (βαρύτητας)

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

ΗΜΟΣΘΕΝΕΙΟ ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΠΑΙΑΝΙΑΣ Γ ΛΥΚΕΙΟΥ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ

ΜΕΘΟΔΟΛΟΓΙΑ & ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΕΦΑΛΑΙΟ 2 Ο «ΣΤΑΤΙΣΤΙΚΗ»

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ασκήσεις Άλγεβρας. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. B ΓΥΜΝΑΣΙΟΥ Άλγεβρα 265 ασκήσεις και τεχνικές σε 24 σελίδες. εκδόσεις. Καλό πήξιμο

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

ΚΕΦΑΛΑΙΟ 8 ΤΟ ΜΑΘΗΜΑ ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

Συναρτήσεις. Ορισμός Συνάρτησης

Transcript:

Περιγραφική Στατιστική Όπως, ήδη έχουμε αναφέρει, στόχος της Περιγραφικής Στατιστικής είναι, «η ανάπτυξη μεθόδων για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων» Για το σκοπό αυτό, έχουν αναπτυχθεί, Μέθοδοι πινακοποίησης των δεδομένων Μέθοδοι γραφικής παρουσίασης των δεδομένων Αριθμητικά περιγραφικά μέτρα Οι μέθοδοι παρουσίασης-περιγραφής δεδομένων αλλά και γενικότερα οι στατιστικές μέθοδοι, δεν εφαρμόζονται όλες σε όλους τους τύπους μεταβλητών Για παράδειγμα, στον Πίνακα- που ακολουθεί, παρουσιάζονται παρατηρήσεις για καθένα από τέσσερα χαρακτηριστικά είκοσι οικογενειών που επελέγησαν τυχαία από το σύνολο των οικογενειών μιας μικρής ελληνικής επαρχιακής πόλης Όπως, θα διαπιστώσουμε στη συνέχεια, οι δυνατότητες που έχουμε για την περιγραφή αυτών των δεδομένων δεν είναι ίδιες και για τα τέσσερα χαρακτηριστικά/μεταβλητές (επάγγελμα πατέρα, επίπεδο εκπαίδευσης πατέρα, μηνιαίο εισόδημα πατέρα και αριθμός παιδιών οικογένειας) Επίσης, η μέση τιμή πχ της μεταβλητής κατεύθυνση του ίχνους της κίνησης πάγων του Πίνακα-, ως έννοια είναι ανάλογη της μέσης τιμής της μεταβλητής μηνιαίο εισόδημα πατέρα του Πίνακα-, όμως η μέθοδος υπολογισμού της είναι διαφορετική Οικογένεια Επάγγελμα πατέρα Πίνακας- Επίπεδο εκπαίδευσης πατέρα Μηνιαίο εισόδημα πατέρα σε Αριθμός παιδιών οικογένειας Εργάτης 4 Οδηγός 5 Εργάτης 6 4 Δημ Υπάλληλος 4 5 Δημ Υπάλληλος 6 6 Δημ Υπάλληλος 7 Δάσκαλος 8 8 Ιδιωτ Υπάλληλος 4 9 Οδηγός 4 Εργάτης Δάσκαλος 4 Δάσκαλος Δάσκαλος 6 4 Δημ Υπάλληλος 4 4 5 Ιδιωτ Υπάλληλος 8 6 Δάσκαλος 7 Εργάτης 8 8 Δημ Υπάλληλος 9 Δάσκαλος 5 Δημ Υπάλληλος 4 6 Τα αριθμητικά περιγραφικά μέτρα είναι αριθμητικά μεγέθη τα οποία βοηθούν στην περιγραφή της κατανομής των δεδομένων Πολλά από αυτά χρησιμοποιούνται και στη στατιστική συμπερασματολογία Τα αριθμητικά περιγραφικά μέτρα για τον πληθυσμό ονομάζονται παράμετροι (parameters) ενώ για το δείγμα ονομάζονται στατιστικά (summary statstcs) = Πρωτοβάθμια Εκπαίδευση, = Δευτεροβάθμια Εκπαίδευση, = Τριτοβάθμια Εκπαίδευση και 4=Μεταπτυχιακές Σπουδές Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 6

Πίνακας- Κατεύθυνση του ίχνους της κίνησης πάγων (σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου) 9 8 7 55 86 7 99 8 44 57 9 5 5 9 45 6 58 5 6 45 65 64 6 46 7 8 6 5 7 85 4 7 4 55 79 88 7 7 5 55 8 Στη συνέχεια, θα παρουσιάσουμε συνοπτικά τις δυνατότητες που μας προσφέρει η Περιγραφική Στατιστική ανά τύπο μεταβλητής Έστω x, x,, x, οι τιμές μιας μεταβλητής X σε δειγματοληπτικές ή πειραματικές k οι k διαφορετικές, μεταξύ τους, τιμές από τις, x, x μονάδες και y, y,, y ( k ν ) x, Έστω, επίσης, f, f,, f k οι σχετικές συχνότητες, ν, ν,, ν k οι απόλυτες συχνότητες, F, F,, Fk οι σχετικές αθροιστικές συχνότητες και N, N,, N k οι αθροιστικές συχνότητες των y, y,, y Ποσοτικές Μεταβλητές k Για τις ποσοτικές μεταβλητές, η Περιγραφική Στατιστική προσφέρει, μεταξύ άλλων, τις ακόλουθες δυνατότητες: Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων μιας ποσοτικής μεταβλητής περιλαμβάνει τις συχνότητες, τις σχετικές συχνότητες, τις αθροιστικές συχνότητες και τις σχετικές αθροιστικές συχνότητες των τιμών της Παράδειγμα-: Ο πίνακας συχνοτήτων των τιμών της μεταβλητής αριθμός παιδιών οικογένειας στο δείγμα του Πίνακα-, είναι: y ν f N F 4 6 5 6 8 8 9 4 Σύνολα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 7

Ο πίνακας συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα στο δείγμα του Πίνακα-, ομαδοποιημένων σε 6 κλάσεις, πλάτους η κάθε μια, είναι: Εισόδημα y 9 - (9 ] 5 5 ( ] 4 5 5 ( 5] 4 6 55 (5 7] 6 4 5 75 (7 9] 8 5 8 9 (9 ] > - Σύνολα Κατασκευή διαγραμμάτων Διάγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για διακριτές) Ιστόγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για συνεχείς κυρίως) Φυλλογράφημα Θηκόγραμμα ν Το ιστόγραμμα και τα πολύγωνα συχνοτήτων και σχετικών συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα στο δείγμα του Πίνακα- είναι : f N F Επισημαίνουμε ότι κάθε ορθογώνιο του ιστογράμματος σχεδιάζεται έτσι, ώστε, το εμβαδόν του να ισούται με τη συχνότητα (ή τη σχετική συχνότητα) της αντίστοιχης κλάσης 4 Επομένως το συνολικό εμβαδόν των ορθογωνίων είναι ίσο με το πλήθος των παρατηρήσεων (ή είναι ίσο με ) Επίσης, το εμβαδόν που περικλείεται μεταξύ του πολυγώνου συχνοτήτων ή σχετικών συχνοτήτων και του οριζόντιου άξονα είναι ίσο με ή με αντίστοιχα Οποιοδήποτε τμήμα αυτού του εμβαδού μπορεί να υπολογισθεί (ακριβέστερα, να εκτιμηθεί), δίνοντάς μας το ποσοστό των παρατηρήσεων που βρίσκονται μεταξύ δύο τιμών της μεταβλητής ή αριστερά μιας τιμής ή δεξιά μιας τιμής Όσο το μέγεθος του δείγματος αυξάνεται και το πλάτος των κλάσεων μειώνεται, το πολύγωνο συχνοτήτων παίρνει μορφή λείας καμπύλης η οποία ονομάζεται καμπύλη συχνοτήτων Είναι προφανές ότι η μορφή του ιστογράμματος επηρεάζεται δραστικά από την επιλογή των κλάσεων 4 Αν όλες οι κλάσεις έχουν ίδιο πλάτος, τότε προφανώς και τα ύψη των ορθογωνίων θα είναι ίσα με τις αντίστοιχες συχνότητες ή σχετικές συχνότητες Αν όμως οι κλάσεις δεν έχουν ίδιο πλάτος τότε, ίσα με τις αντίστοιχες συχνότητες ή τις σχετικές συχνότητες είναι μόνο τα εμβαδά και όχι τα ύψη Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 8

Οι καμπύλες συχνοτήτων, πέραν της προφανούς χρησιμότητάς τους στο πλαίσιο της Περιγραφικής Στατιστικής, έχουν μεγάλη σπουδαιότητα στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία 5 Οι καμπύλες συχνοτήτων μπορεί να έχουν διάφορες μορφές όπως: Όταν μια καμπύλη συχνοτήτων είναι συμμετρική ως προς τον κατακόρυφο άξονα που διέρχεται από την κορυφή της κατανομής, όπως η δεύτερη από τις παραπάνω, τότε η κατανομή είναι συμμετρική Τα δύο άκρα της καμπύλης λέγονται ουρές της κατανομής και πλησιάζουν ασυμπτωτικά τον άξονα των τιμών Προφανώς, σε μια συμμετρική κατανομή, δεξιά και αριστερά του άξονα συμμετρίας βρίσκεται το ίδιο ποσοστό παρατηρήσεων (5%) Όταν η καμπύλη συχνοτήτων δεν είναι συμμετρική, δηλαδή, όταν δεξιά και αριστερά του κατακόρυφου άξονα που περνάει από την κορυφή δε βρίσκεται το ίδιο ποσοστό παρατηρήσεων, τότε η κατανομή είναι ασύμμετρη Υπάρχουν δύο είδη ασυμμετρίας: θετική ασυμμετρία και αρνητική ασυμμετρία Μια καμπύλη συχνοτήτων παρουσιάζει 5 Γιατί είναι μαθηματικά μοντέλα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 9

θετική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται δεξιά της κορυφής, ενώ, παρουσιάζει αρνητική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται αριστερά της κορυφής Περισσότερα για το νόημα και την ερμηνεία του είδους της ασυμμετρίας αναφέρουμε στα επόμενα (σελ ) Θετική ασυμμετρία Αρνητική ασυμμετρία Τέλος, οι καμπύλες συχνοτήτων, ανάλογα με το βαθμό συγκέντρωσης των παρατηρήσεων στο μέσο και στα άκρα της κατανομής, διακρίνονται σε μεσόκυρτες, λεπτόκυρτες, και πλατύκυρτες: Μεσόκυρτη Λεπτόκυρτη Πλατύκυρτη Όταν η καμπύλη συχνοτήτων μιας κατανομής είναι συμμετρική και έχει κωδωνοειδές σχήμα η κατανομή ονομάζεται κανονική Η κανονική κατανομή είναι η πλέον χρησιμοποιούμενη κατανομή στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία Στο επόμενο κεφάλαιο θα εξηγήσουμε γιατί συμβαίνει αυτό Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Το ιστόγραμμα και το πολύγωνο σχετικών αθροιστικών συχνοτήτων της μεταβλητής μηνιαίο εισόδημα πατέρα του παραδείγματος-, είναι: Το εμβαδόν (και το ύψος) κάθε ορθογωνίου είναι ίσο με τη σχετική αθροιστική συχνότητα F της αντίστοιχης κλάσης (ή με την αθροιστική συχνότητα N ) Για παράδειγμα, μέχρι 5 μηνιαίο εισόδημα έχει το 55% των πατεράδων (όσο το εμβαδόν (και το ύψος) του ορθογωνίου που αντιστοιχεί στο διάστημα με δεξί άκρο την τιμή 5) Ερώτηση: Στα δύο σχήματα που ακολουθούν, φαίνονται τα πολύγωνα σχετικών συχνοτήτων και τα πολύγωνα σχετικών αθροιστικών συχνοτήτων δύο κατανομών δεδομένων Σχολιάστε τη σχετική θέση των αντίστοιχων πολυγώνων στα δύο σχήματα Απάντηση: Η κατανομή της οποίας το πολύγωνο συχνοτήτων και το πολύγωνο σχετικών αθροιστικών συχνοτήτων βρίσκονται δεξιότερα είναι στοχαστικά μεγαλύτερη (σκεφθείτε τι μπορεί να σημαίνει αυτό) Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Είναι προφανές, ότι με την ομαδοποίηση των παρατηρήσεων, χάνουμε σε πληροφορία αφού τόσο το ιστόγραμμα όσο και ο πίνακας συχνοτήτων δε διατηρούν τις αρχικές παρατηρήσεις Αυτό το πρόβλημα μπορεί να αντιμετωπισθεί με την κατασκευή του φυλλογραφήματος (steam-leaf plots) 6 των παρατηρήσεων Για τη μεταβλητή μηνιαίο εισόδημα πατέρα, του παραδείγματος μας, μπορούμε να κατασκευάσουμε το φυλλογράφημα: 4 5 9 4 () 5 9 6 5 7 5 8 9 Ως steam θεωρήσαμε τις εκατοντάδες και ως leaf τις δεκάδες Δηλαδή, η τιμή αναπαρίσταται με και η τιμή με Είναι φανερό ότι από ένα φυλλογράφημα μπορεί κανείς, αμέσως, να διαπιστώσει αν μια συγκεκριμένη τιμή ανήκει (και πόσες φορές) στο δείγμα κάτι το οποίο δεν είναι δυνατόν να γίνει από ένα ιστόγραμμα Για παράδειγμα, από το παραπάνω φυλλογράφημα εύκολα διαπιστώνουμε ότι η τιμή δεν υπάρχει στο δείγμα ενώ η τιμή 6 υπάρχει και μάλιστα τέσσερις φορές Το φυλλογράφημα, επηρεάζεται δραστικά από την επιλογή των steams όπως και το ιστόγραμμα επηρεάζεται δραστικά από την επιλογή των κλάσεων Αξίζει, επίσης, να σημειώσουμε ότι η εικόνα-μορφή ενός φυλλογραφήματος είναι ανάλογη με αυτήν του αντίστοιχου ιστογράμματος (αν στραφεί κατά 9 ) Σημείωση: Στην πρώτη από αριστερά στήλη του φυλλογραφήματος φαίνονται οι αθροιστικές συχνότητες από πάνω προς τα κάτω και από κάτω προς τα πάνω μέχρι το steam στο οποίο περιλαμβάνεται η διάμεσος (στο παράδειγμά μας μέχρι το steam 5) Ας δούμε ένα ακόμη παράδειγμα: Με steam τις μονάδες και leaf τα δέκατα, το φυλλογράφημα των παρατηρήσεων: 74, 67, 7, 7, 78, 88, 6, 5, 8, 64 και 57, σε 5 steams είναι: 5 7 5 6 47 () 7 48 8 8 HI 7 Σημείωση: Με ΗΙ συμβολίζεται ένα steam που περιλαμβάνει μια «ασυνήθιστα μεγάλη τιμή» 6 Είναι μια από τις μεθόδους-τεχνικές της διερευνητικής ανάλυσης δεδομένων Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Μέτρα θέσης-κεντρικής τάσης (locato measures-cetral tedecy measures) Τα μέτρα θέσης-κεντρικής τάσης μας δίνουν πληροφορίες για τη θέση της κατανομής των παρατηρήσεων Τα πλέον χρησιμοποιούμενα είναι η μέση τιμή, η διάμεσος, η κορυφή και τα ποσοστημόρια Μέση τιμή ή Αριθμητικός μέσος (mea) Η μέση τιμή ενός πληθυσμού συμβολίζεται με μ και η μέση τιμή ενός δείγματος με x k ν y ν k = x = x = = f y = = Από τον ορισμό της μέσης τιμής, είναι φανερό ότι αν οι τιμές x, x,, x είναι όλες μεταξύ τους ίσες, θα είναι ίσες με τη μέση τιμή τους Φαίνεται, δηλαδή, ότι με τη μέση τιμή επιδιώκεται να ορισθεί ένας «τυπικός εκπρόσωπος» των παρατηρήσεων Το γεγονός, όμως, ότι στον υπολογισμό της συμμετέχει το άθροισμα όλων των παρατηρήσεων, την καθιστά ευαίσθητη σε ακραίες-έκτροπες (outlyg ή uusual) παρατηρήσεις 7 Κατά συνέπεια, η μέση τιμή αποκρύπτει (από τον ανυποψίαστο) τις έκτροπες παρατηρήσεις Δηλαδή, όταν υπάρχουν έκτροπες παρατηρήσεις, η μέση τιμή δίνει παραπλανητική εικόνα αν θεωρηθεί «τυπικός εκπρόσωπος» των παρατηρήσεων Βέβαια, αν πάρουμε τις διαφορές των παρατηρήσεων από τη μέση τιμή τους, οι ακραίες τιμές αποκαλύπτονται Παράδειγμα-: Ο ιδιοκτήτης μιας μικρής επιχείρησης που απασχολεί πέντε εργαζομένους ισχυρίσθηκε σε δημοσιογράφο τοπικής εφημερίδας ότι οι εργαζόμενοι στην επιχείρησή του είναι πολύ καλά αμειβόμενοι αφού ο μέσος μισθός τους είναι Ο «υποψιασμένος» δημοσιογράφος ερεύνησε λεπτομερέστερα το θέμα και βρήκε ότι οι μισθοί των εργαζομένων ήταν 4, 4, 5, 7 και 8 αντίστοιχα! 8 Ο υπολογισμός της δειγματικής μέσης τιμής είναι πολύ απλός Στα επόμενα θα δούμε σχετικά παραδείγματα Ιδιότητες της μέσης τιμής Η μέση τιμή έχει, μεταξύ άλλων, τις παρακάτω ενδιαφέρουσες ιδιότητες: ( x x) = ( y x) ν = = k = Δηλαδή, το άθροισμα των αποστάσεων (αποκλίσεων) των παρατηρήσεων x, x,, x από τη μέση τιμή τους x, είναι Δηλαδή, η μέση τιμή είναι το σημείο ισορροπίας της κατανομής των δεδομένων Παράδειγμα-: Για την κατανομή, y ν 5 4 6 Σύνολο 7 Στο πλαίσιο όμως της Θεωρίας Πιθανοτήτων και της Στατιστικής Συμπερασματολογίας, αυτό είναι το μεγάλο της πλεονέκτημα! (βλ Κεντρικό Οριακό Θεώρημα στο επόμενο κεφάλαιο) 8 Ο μισθός των 8 ήταν του maager και συνιδιοκτήτη! Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

προφανώς, είναι x = 5 που σημαίνει ότι, αν στις θέσεις y ενός άξονα τοποθετήσουμε ως βάρη τις αντίστοιχες συχνότητες ν τότε ο άξονας θα έχει σημείο ισορροπίας τη θέση 5 Επίσης, αυτή η ιδιότητα μας λέει ότι αν από τις διαφορές x x γνωρίζουμε τις, τότε μπορούμε να υπολογίσουμε και τη -οστή Επομένως, μπορούμε να υπολογίσουμε το άθροισμα ( x x) αν γνωρίζουμε τους από τους όρους = του Στη συνέχεια του μαθήματος θα επανέλθουμε στη σημασία αυτής της ιδιότητας = ( x x) < = ( x λ ), λ Δηλαδή, το άθροισμα των τετραγώνων των αποκλίσεων των παρατηρήσεων x, x,, x από τη μέση τιμή τους x, είναι μικρότερο από το άθροισμα των τετραγώνων των αποκλίσεών τους από οποιαδήποτε άλλη τιμή λ Ή αλλιώς, το άθροισμα ( x λ) γίνεται ελάχιστο αν και μόνο αν λ = x = = Αν ω x + β τότε ω = x + β Δηλαδή, αν στις παρατηρήσεις x, x,, x προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε ο αριθμητικός μέσος τους θα αυξηθεί (ή θα μειωθεί) κατά την ίδια ποσότητα Αν ω = α χ τότε ω = α χ Δηλαδή, αν οι παρατηρήσεις x, x,, x, πολλαπλασιασθούν με την ίδια ποσότητα α, τότε ο αριθμητικός μέσος τους θα πολλαπλασιασθεί με την ίδια ποσότητα Αν ω = α x + β τότε ω = α x + β Συνοπτικά, η μέση τιμή έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα: Πλεονεκτήματα Για τον υπολογισμό της χρησιμοποιούνται όλες οι τιμές Είναι μοναδική για κάθε σύνολο δεδομένων Είναι εύκολα κατανοητή Ο υπολογισμός της είναι σχετικά εύκολος Αξιοποιείται στη στατιστική συμπερασματολογία Μειονεκτήματα Επηρεάζεται πολύ από ακραίες τιμές Μπορεί να μην αντιστοιχεί σε δυνατή τιμή της μεταβλητής Δεν υπολογίζεται για ποιοτικά δεδομένα Είναι δύσκολος ο υπολογισμός της σε ομαδοποιημένα δεδομένα με ανοικτές τις ακραίες κλάσεις Σταθμικός αριθμητικός μέσος (weghted mea) Ο Σταθμικός αριθμητικός μέσος χρησιμοποιείται στις περιπτώσεις που τα x, x,, x έχουν διαφορετική αξία (διαφορετικό βάρος) w, w,, wν, αντίστοιχα Δίνεται από τον τύπο: Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 4

x = w = = w x w Περιγραφική Στατιστική Ο σταθμικός αριθμητικός μέσος διατηρεί τις ιδιότητες του μη σταθμισμένου αριθμητικού μέσου Παράδειγμα-4: Ένας οδηγός φορτηγού διανομής τροφίμων, αγόρασε σε μια ημέρα πετρέλαιο από τρία διαφορετικά πρατήρια Από το πρώτο αγόρασε 6 λίτρα προς 75 το λίτρο, από το δεύτερο λίτρα προς 84 το λίτρο και από το τρίτο 5 λίτρα προς 76 το λίτρο Προφανώς, για να υπολογισθεί το μέσο ποσό που πλήρωσε ανά λίτρο ο οδηγός πρέπει να χρησιμοποιηθεί ο σταθμικός μέσος: x w = = = w x w 6 75 + 84 + 5 76 = = 799 ανά λίτρο 6 + + 5 Ο αριθμητικός μέσος των αριθμητικών μέσων k δειγμάτων μεγέθους αντίστοιχα, είναι, x k = = k = x Ουσιαστικά πρόκειται για σταθμικό αριθμητικό μέσο,,, k, Παράδειγμα-5: Αν το μέσο ύψος φοιτητών είναι 7 cm και το μέσο ύψος 5 φοιτητριών είναι 6 cm τότε το μέσο ύψος φοιτητών και φοιτητριών είναι x = = = x 7 + 5 6 = = 667 cm 5 Ερώτηση: Στην έκδοση της αμερικανικής κυβέρνησης Scece Idcators του 98, αναφέρεται ότι ο μέσος μισθός των γυναικών σε όλους τους επιστημονικούς τομείς είναι μόνο το 77% του μέσου μισθού των ανδρών επιστημόνων Στην ίδια πηγή όμως, αναφέρεται ότι σε κάθε επιστημονικό τομέα ξεχωριστά, ο μέσος μισθός των γυναικών είναι τουλάχιστον το 9% του μέσου μισθού των ανδρών Εξηγήστε πώς εμφανίζεται αυτή η φαινομενική διαφορά Απάντηση: Οι γυναίκες είναι συγκεντρωμένες στους τομείς που αμείβονται λιγότερο Έτσι, για τις γυναίκες, ο μέσος μισθός συνολικά θα είναι χαμηλότερος των ανδρών ακόμη και αν κερδίζουν το ίδιο ποσό με τους άνδρες σε κάθε τομέα ξεχωριστά Παρατηρήσεις: Αν θέλουμε να παραλείψουμε τις ακραίες τιμές από τον υπολογισμό της μέσης τιμής, μπορούμε να δημιουργήσουμε έναν ισοσταθμισμένο μέσο (trmmed mea) θέτοντας στον σταθμικό μέσο, βάρος για τις ακραίες τιμές που θέλουμε να παραληφθούν και βάρος για όλες τις υπόλοιπες Παρότι η μέση τιμή, ως μέτρο θέσης-τάσης δεν είναι πάντα το καταλληλότερο για την περιγραφή των δεδομένων (μάλιστα, μπορεί και να παραπλανήσει), εντούτοις, έχει μεγάλη σημασία και χρησιμοποιείται ευρέως στη Στατιστική Συμπερασματολογία Ένας από τους λόγους που συμβαίνει αυτό, είναι το γεγονός Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 5

Περιγραφική Στατιστική ότι ελαχιστοποιεί το άθροισμα ( x λ ) Αυτή η ιδιότητα της μέσης τιμής είναι = «πολύ καλή» μαθηματική ιδιότητα 9 και γι αυτό έχει επηρεάσει τον ορισμό και άλλων στατιστικών μέτρων Στη συνέχεια του μαθήματος θα αναφερθούμε και σε άλλους λόγους που δικαιολογούν τη μεγάλη χρησιμότητα της μέσης τιμής στη Στατιστική Συμπερασματολογία Κορυφή ή Επικρατούσα τιμή (mode) Η κορυφή του δείγματος συμβολίζεται με M Είναι η τιμή που εμφανίζεται στο δείγμα με την μεγαλύτερη συχνότητα και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα: Πλεονεκτήματα Υπολογίζεται εύκολα Είναι εύκολα κατανοητή Υπολογίζεται και από ελλιπή δεδομένα Δεν επηρεάζεται από ακραίες τιμές Υπολογίζεται και για ποιοτικά δεδομένα Μειονεκτήματα Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της Στη στατιστική συμπερασματολογία έχει περιορισμένη σημασία Δεν ορίζεται πάντα μονοσήμαντα Δηλαδή, μπορεί να υπάρχουν περισσότερες από μία ή και καθόλου Για τον υπολογισμό της σε ομαδοποιημένες παρατηρήσεις μπορεί να χρησιμοποιηθεί ο τύπος: c Δ M = L + Δ + Δ όπου, L είναι το κάτω άκρο της επικρατούσας κλάσης, c είναι το πλάτος της επικρατούσας κλάσης, Δ = ν ν η διαφορά της συχνότητας της προηγούμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης και Δ = ν ν + η διαφορά της συχνότητας της επόμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης Παρατήρηση: Πρέπει να επισημάνουμε ότι η κορυφή είναι, βέβαια, η τιμή με τη μεγαλύτερη συχνότητα, δηλαδή η πιο «δημοφιλής» τιμή, αλλά αυτό δε σημαίνει ότι είναι κατ ανάγκη και «πλειοψηφούσα» τιμή Μπορεί, μάλιστα, να αποτελεί ένα μικρό ποσοστό των παρατηρήσεων Διάμεσος (meda) Η διάμεσος του δείγματος συμβολίζεται με δ Είναι η τιμή x, για την οποία ισχύει ότι: το 5% των παρατηρήσεων είναι μικρότερες από αυτή και το υπόλοιπο 5% των παρατηρήσεων είναι μεγαλύτερες από αυτή Εκφράζει την κεντρική θέση της κατανομής των παρατηρήσεων και γι αυτό στη βιβλιογραφία συναντάται και ως μέσος θέσης (posto average) Αν το πλήθος των παρατηρήσεων είναι αριθμός περιττός τότε δ = x ( + ενώ, αν ) x + x ( ) ( + ) είναι άρτιος τότε δ = (με x () συμβολίζουμε τη -οστή παρατήρηση, σε αύξουσα διάταξη των παρατηρήσεων) Παρατηρείστε ότι ο αριθμός 5 ( + ) δίνει τη θέση της διαμέσου (εφόσον είναι ακέραιος) Αν δεν είναι ακέραιος, τότε η 9 Ικανοποιεί το κριτήριο των ελαχίστων τετραγώνων Επικρατούσα κλάση είναι η κλάση με τη μεγαλύτερη συχνότητα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 6

διάμεσος είναι ίση με το ημιάθροισμα των δύο τιμών που οι θέσεις τους είναι οι πλησιέστερες στον αριθμό 5 ( + ) Ας δούμε δύο παραδείγματα α) Έστω οι παρατηρήσεις, 5,, 9, 6, Τις διατάσσουμε σε αύξουσα σειρά:, 5, 6, 9, Η διάμεσος τιμή είναι αυτή που βρίσκεται στη θέση 5 (5 + ) =, άρα δ = 6 β) Έστω οι παρατηρήσεις,, 5, 6, 7,, 9 Τις διατάσσουμε σε αύξουσα σειρά:, 5, 6, 9,, 7 Επειδή ο αριθμός 5 ( + ) = 5 δεν είναι ακέραιος, η διάμεσος είναι το ημιάθροισμα της ης και της 4 ης παρατήρησης, δηλαδή, = ( 6 + 9) = 7 5 δ Για τον υπολογισμό της διαμέσου σε ομαδοποιημένες παρατηρήσεις, χρησιμοποιείται το πολύγωνο σχετικών αθροιστικών συχνοτήτων ή ο τύπος: N δ = L + c ν όπου, L είναι το κάτω άκρο της μεσαίας κλάσης, c είναι το πλάτος της μεσαίας κλάσης, ν είναι η συχνότητα της μεσαίας κλάσης και N είναι η αθροιστική συχνότητα της προηγούμενης από τη μεσαία κλάσης Στην επόμενη παράγραφο θα δώσουμε ένα παράδειγμα υπολογισμού της διαμέσου ομαδοποιημένων παρατηρήσεων Η διάμεσος έχει, μεταξύ άλλων, και την ακόλουθη ιδιότητα: = x δ < = x λ, λ Δηλαδή, το άθροισμα των απόλυτων αποκλίσεων των παρατηρήσεων x, x,, x από τη διάμεσό τους δ, είναι μικρότερο από το άθροισμα των απολύτων αποκλίσεών τους από οποιαδήποτε άλλη τιμή λ Ή αλλιώς, το άθροισμα x λ γίνεται ελάχιστο αν και μόνο αν λ = δ μειονεκτήματα: = Επίσης, έχει τα ακόλουθα πλεονεκτήματα και Πλεονεκτήματα Είναι εύκολα κατανοητή Δεν επηρεάζεται από ακραίες τιμές Υπολογίζεται και στην περίπτωση που οι ακραίες κλάσεις είναι ανοικτές Ο υπολογισμός της είναι απλός Είναι μοναδική σε κάθε σύνολο δεδομένων Μειονεκτήματα Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της Είναι δύσκολη η αξιοποίησή της στη στατιστική συμπερασματολογία Δεν υπολογίζεται για κατηγορικά δεδομένα Για τον υπολογισμό της μπορεί να χρειαστεί παρεμβολή Παρατήρηση: Η διάμεσος δεν επηρεάζεται ιδιαιτέρως από ακραίες τιμές Έτσι, για την περιγραφή παρατηρήσεων που εμφανίζουν ακραίες τιμές προτιμάται ως μέτρο θέσης από τη μέση τιμή η οποία επηρεάζεται πολύ από ακραίες τιμές Εξηγείται, έτσι, γιατί ο ΟΗΕ διακρίνει τις αναπτυσσόμενες από τις αναπτυγμένες χώρες, μεταξύ άλλων, από τη διάμεσο της ηλικίας των κατοίκων και όχι από τη μέση τιμή της ηλικίας Δηλαδή, γιατί ως μέτρο γήρανσης του πληθυσμού χρησιμοποιεί τη διάμεσο και όχι τη μέση τιμή Έτσι, μπορούμε, επίσης, να εξηγήσουμε γιατί στις διαπραγματεύσεις των συνδικαλιστών με τους εργοδότες για το ύψος των αποδοχών, συνήθως, οι συνδικαλιστές χρησιμοποιούν τη διάμεσο των αποδοχών ενώ οι εργοδότες τη μέση τιμή Μεσαία κλάση είναι η κλάση στην οποία ανήκει η διάμεσος Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 7

Ποσοστιαία σημεία ή Ποσοστημόρια (quatles) Τα ποσοστημόρια του δείγματος συμβολίζονται με p α Αποτελούν γενίκευση της έννοιας της διαμέσου και βοηθούν στην πληρέστερη περιγραφή της θέσης της κατανομής παρατηρήσεων Το ποσοστημόριο p α είναι η τιμή x, για την οποία ισχύει ότι: το α% των παρατηρήσεων είναι μικρότερες από αυτή και το υπόλοιπο (-α)% των παρατηρήσεων είναι μεγαλύτερες από αυτή Τα ποσοστημόρια διακρίνονται σε: Εκατοστημόρια (percetles) p, p,, p99 Δεκατημόρια (decles) αν p, p,, p9 Τεταρτημόρια (quartles) p 5 = Q, p5 = Q = δ, p75 = Q Τα ποσοστημόρια σε ομαδοποιημένες παρατηρήσεις μπορούν να υπολογισθούν από τον τύπο: a N pa = L + c ν όπου, L είναι το κάτω άκρο της κλάσης στην οποία βρίσκεται το p α, c είναι το πλάτος της, ν είναι η συχνότητά της και N είναι η αθροιστική συχνότητα της προηγούμενης κλάσης Το p α βρίσκεται στην κλάση που βρίσκεται η τιμή με σχετική αθροιστική συχνότητα α Παράδειγμα- (συνέχεια): Θα υπολογίσουμε τη διάμεσο και το ποσοστημόριο p 95 της κατανομής της μεταβλητής μηνιαίο εισόδημα πατέρα Εισόδημα y ν Γιατί σε αυτή την κλάση βρίσκεταιι η τιμή με σχετική αθροιστική συχνότητα 95 Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 8 f N F 9 - (9 ] 5 5 ( ] 4 5 5 ( 5] 4 6 55 (5 7] 6 4 5 75 (7 9] 8 5 8 9 (9 ] > - Σύνολα Για να υπολογίσουμε τη διάμεσο, δ = Q = p 5, των παρατηρήσεων εργαζόμαστε ως εξής: η διάμεσος βρίσκεται στην κλάση [, 5) γιατί όπως φαίνεται στη στήλη των σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων, σε αυτή την κλάση βρίσκεται η τιμή με σχετική αθροιστική συχνότητα 5 Επομένως, 5 N 5 5 δ = p5 = L + c = + 4667 ν 6 Ομοίως, υπολογίζουμε το ποσοστημόριο p 95 Προφανώς, το p 95 ανήκει στην κλάση [9, ) και επομένως, 95 N 95 8 p95 = L + c = 9 + = ν Παράδειγμα-6: Στον παρακάτω πίνακα συχνοτήτων δίνεται η κατανομή της βαθμολογίας 5 μαθητών Λυκείου Αν στο 5% των μαθητών με την υψηλότερη βαθμολογία δοθεί υποτροφία, τι βαθμό πρέπει να έχει ένας μαθητής για να πάρει υποτροφία;

Βαθμοί y ν N F [ ) 5 5 [ 4) 5 [4 6) 5 5 7 [6 8) 7 45 9 [8 ) 9 5 5 Περιγραφική Στατιστική Προφανώς, ζητούμενο είναι το ποσοστημόριο, 95 N 95 5 45 p = L + c = 8 + ν 5 95 = 9 Σημείωση: Προφανώς, τα ποσοστημόρια μπορούν να υπολογισθούν και γραφικά, από το πολύγωνο ή το ιστόγραμμα σχετικών αθροιστικών συχνοτήτων Δείτε στο πολύγωνο σχετικών αθροιστικών συχνοτήτων του παραπάνω παραδείγματος πώς προκύπτει γραφικά ότι p 9 95 = Σε ότι αφορά στον υπολογισμό των ποσοστημορίων, σημειώνουμε, τέλος, ότι σε μη ομαδοποιημένα δεδομένα, υπολογίζονται με τρόπο ανάλογο του τρόπου υπολογισμού της διαμέσου για μη ομαδοποιημένα δεδομένα Ας δούμε ένα παράδειγμα Παράδειγμα-7: Θα υπολογίσουμε τα τεταρτημόρια της κατανομής των παρατηρήσεων α) 6,, 5, 9, 6, 8,, 9, β) 5,,,,, 9,, 7,,,, 6, 8,, 5, 9,, 4, 9,,,, 6, 7,,, 8, α) Διατάσσουμε τις παρατηρήσεις σε αύξουσα σειρά:,,, 5, 6, 6, 8, 9, 9 Η θέση του Q είναι, 5 (9 + ) = 5 και επομένως, Q = + 5 ( ) = 5 Αντίστοιχα, η θέση του Q είναι, 75 (9 + ) = 7 5 και επομένως, Q = 8 + 5 (9 8) = 8 5 β) Για διευκόλυνσή μας, κατασκευάζουμε τον πίνακα συχνοτήτων (οι παρατηρήσεις στον πίνακα συχνοτήτων καταγράφονται σε αύξουσα διάταξη) y ν N f F 6 57 57 7 57 74 8 4 74 48 9 7 7 5 4 48 98 9 4 74 74 7857 4 57 84 5 5 74 898 6 6 57 986 7 7 57 964 8 57 Σύνολα 8 Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 9

Η θέση του Q είναι, 5 (8 + ) = 7 5 και επειδή ο αριθμός αυτός δεν είναι ακέραιος, βρίσκουμε το Q με παρεμβολή μεταξύ της 7 ης και της 8 ης θέσης ως εξής: Q = 9 + 5 ( 9) = 95 Αντίστοιχα, η θέση του Q είναι, 75 (8 + ) = 75 και επειδή ο αριθμός αυτός δεν είναι ακέραιος, βρίσκουμε το Q με παρεμβολή μεταξύ της ης και της ης θέσης ως εξής: Q = + 75 ( ) Ομοίως βρίσκουμε ότι Q = δ = = Επισημαίνουμε ότι στην περίπτωση που ο αριθμός που δίνει τη θέση του τεταρτημορίου δεν είναι ακέραιος, το πρόβλημα αντιμετωπίζεται και με άλλους τρόπους όπως, η συνήθης στρογγυλοποίηση ή το πρώτο τεταρτημόριο υπολογίζεται ως διάμεσος του πρώτου μισού του συνόλου των παρατηρήσεων και το τρίτο ως η διάμεσος του δεύτερου μισού του συνόλου των παρατηρήσεων Όμως δε θα επεκταθούμε περισσότερο σε θέματα υπολογισμού των ποσοστημορίων Θα επικεντρωθούμε στην ερμηνεία και τη χρησιμότητά τους Προσοχή: Τα τεταρτημόρια υποδιαιρούν την κατανομή των παρατηρήσεων σε «ίσα» τμήματα, όχι με όρους απόστασης, αλλά με όρους ποσοστών Δηλαδή, τα τμήματα αυτά είναι «ίσα» με την έννοια ότι περιέχουν ίσα ποσοστά παρατηρήσεων Έτσι, ίσες αποστάσεις μπορεί να περιέχουν διαφορετικά ποσοστά παρατηρήσεων και αντίστροφα, άνισες αποστάσεις μπορεί να περιέχουν ίδια ποσοστά παρατηρήσεων Τα τεταρτημόρια (γενικότερα, τα ποσοστημόρια) είναι μέτρα σχετικής θέσης και όχι σχετικής απόστασης Παρατηρείστε το σχήμα στο παράδειγμα-7 Μεταξύ των άνισων αποστάσεων 6 έως 95, 95 έως, έως και έως, βρίσκονται ίσα ποσοστά παρατηρήσεων (5%) Ερώτηση: Αν σε ένα σύνολο παρατηρήσεων η μικρότερη τιμή είναι και η μεγαλύτερη 8, γιατί η διάμεσος δεν είναι, κατ ανάγκη, 5 = ( + 8) ; Παρατηρήσεις: Τα ποσοστημόρια είναι μέτρα θέσης ιδιαιτέρως χρήσιμα στη μελέτη οικονομικών, κοινωνικών, δημογραφικών κα φαινομένων γιατί, μεταξύ άλλων, μας επιτρέπουν να απαντήσουμε σε ερωτήσεις που αφορούν συγκεκριμένες παρατηρήσεις Για παράδειγμα: μια συγκεκριμένη παρατήρηση, βρίσκεται κοντά στα άκρα ή κοντά στο κέντρο της κατανομής; ή πόσες παρατηρήσεις είναι μικρότερες από μια συγκεκριμένη παρατήρηση; Έτσι, αν σε μια κατανομή βαθμολογίας φοιτητών, είναι p 95 = 75 τότε, για έναν φοιτητή που έχει βαθμό πχ 8 μπορούμε να συμπεράνουμε ότι ανήκει στο 5% των φοιτητών με τη μεγαλύτερη βαθμολογία Τα ποσοστημόρια, όπως θα δούμε και στη συνέχεια, είναι χρήσιμα και για την περιγραφή της μορφής της κατανομής των παρατηρήσεων Αν τα ποσοστημόρια p και p α, δηλαδή, τα p και p 8, τα p και p 7, τα p 5 και p 75 κοκ, βρίσκονται σε ίση απόσταση από το κέντρο της κατανομής (τη διάμεσο), τότε η κατανομή είναι συμμετρική Τα ποσοστημόρια μπορούν να βοηθήσουν και στην αντιμετώπιση κάποιων πρακτικών προβλημάτων που μπορεί να αντιμετωπίζουν οι ερευνητές όπως, πχ αν συμβεί να μη γνωρίζουν τις κατώτερες ή τις ανώτερες τιμές των παρατηρήσεων Για παράδειγμα, αν ένας ερευνητής θέλει να υπολογίσει το χρόνο ζωής μιας ομάδας πειραματόζωων, πρέπει να περιμένει να πεθάνει και το τελευταίο πειραματόζωο προκειμένου να υπολογίσει το μέσο χρόνο ζωής τους Για να υπολογίσει, όμως, τη διάμεσο του χρόνου ζωής ή κάποιο άλλο ποσοστημόριο, δεν απαιτείται να περιμένει α Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

μέχρι να πεθάνουν όλα και έτσι κερδίζει χρόνο που μπορεί να είναι κρίσιμος για την εξέλιξη της έρευνάς του Σύγκριση της μέσης τιμής, της κορυφής και της διαμέσου Αν συγκρίνουμε αυτά τα τρία μέτρα θέσης με μαθηματικούς όρους, τότε, εύκολα μπορούμε να αποφανθούμε για το καλύτερο Δηλαδή, αν για παράδειγμα, θέσουμε ως κριτήριο την ελαχιστοποίηση του αθροίσματος ( x λ ) τότε το καλύτερο είναι η = μέση τιμή ενώ αν θέσουμε ως κριτήριο την ελαχιστοποίηση του αθροίσματος = x λ τότε το καλύτερο είναι η διάμεσος Αν, όμως, τα συγκρίνουμε με κριτήριο την καταλληλότητα περιγραφής της θέσης της κατανομής, τότε, φαίνεται να υπερέχει η διάμεσος Όμως, κάθε μέτρο θέσης, έχει την ιδιαίτερη αξία του για την περιγραφή της κατανομής των παρατηρήσεων, και επομένως, πρέπει όλα να μπορούμε να τα ερμηνεύουμε σωστά ώστε αφενός, να τα χρησιμοποιούμε σωστά και αφετέρου, να μην πέφτουμε θύματα πλάνης επιτηδείων ή ημιμαθών Παράδειγμα-8: Το ύψος της βροχής (σε mm) στην Αθήνα για τις ημέρες από --6 έως --6 ήταν: 86 9,5 4 8 85 Εύκολα διαπιστώνεται, ακόμη και με μια πρόχειρη ματιά στις παρατηρήσεις, ότι η μέση τιμή x = 7 παρέχει ελάχιστη πληροφορία για την εικόνα της κατανομής του ύψους της βροχής Όμως, τα ποσοστημόρια Q =, Q = δ =, Q = δίνουν πληρέστερη εικόνα για την πραγματική εικόνα της κατανομής που είναι η μεγάλη συγκέντρωση τιμών στο Σχετική θέση της μέσης τιμής, της κορυφής και της διαμέσου Για τη σχετική θέση της μέσης τιμής, της κορυφής και της διαμέσου μιας κατανομής, ισχύει, εν γένει, ο εξής κανόνας: Όταν η καμπύλη συχνοτήτων της κατανομής είναι συμμετρική ισχύει: x = δ = M Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει θετική ασυμμετρία ισχύει: x > δ > M Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει αρνητική ασυμμετρία ισχύει: x < δ < M Επισημαίνουμε ότι υπάρχουν περιπτώσεις κατανομών που αυτός ο κανόνας δεν ισχύει Εξαιρέσεις αυτού του κανόνα μπορεί, για παράδειγμα, να παρουσιασθούν σε κατανομές με πολύ «μακριά» ουρά, πχ προς τα αριστερά, αλλά με πολύ «παχιά» ουρά προς τα δεξιά Σε τέτοιες περιπτώσεις ενώ η κατανομή παρουσιάζει εμφανώς αρνητική ασυμμετρία, εντούτοις η μέση τιμή μπορεί να είναι μεγαλύτερη (να βρίσκεται δεξιά) της διαμέσου Ένα τέτοιο παράδειγμα κατανομής δίνεται στην άσκηση- Επίσης, εξαιρέσεις του κανόνα μπορούν να εμφανισθούν σε κατανομές που δεν είναι μονοκόρυφες καθώς και σε περιπτώσεις διακριτών κατανομών Ένα τέτοιο παράδειγμα διακριτής κατανομής δίνεται στην άσκηση- Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Ερώτηση: Έστω ότι η κατανομή των μισθών (μηνιαίων) των εργαζομένων μιας επιχείρησης παρουσιάζει θετική ασυμμετρία (όπως η τρίτη από τις παραπάνω κατανομές) με μέση τιμή και διάμεσο 5 Σε μια συνάντηση των εκπροσώπων των εργαζομένων με τον εργοδότη, ο εργοδότης αναφέρεται στον υψηλό μέσο μισθό ( ) Τι αντεπιχειρήματα, που να προκύπτουν από το είδος της ασυμμετρίας της κατανομής, έχουν οι εργαζόμενοι; Απάντηση: Ο μέσος μισθός είναι πράγματι, όμως, ποσοστό εργαζομένων μεγαλύτερο από το 5%, έχει μισθό μικρότερο από τον μέσο μισθό Μάλιστα το 5% έχει μισθό μικρότερο από 5 Είναι φανερό ότι, ακόμη και αν κάποιος μπορεί να ερμηνεύσει σωστά τα μέτρα θέσης, απαιτείται αρκετή εμπειρία για να μπορεί να συνοψίζει, να συνδυάζει και να συμπυκνώνει όλες τις πληροφορίες που αυτά δίνουν για την κατανομή Η διερευνητική ανάλυση δεδομένων με μια έξυπνη και πολύ απλή τεχνική μας βοηθάει να παρουσιάσουμε τα κυριότερα μέτρα θέσης με τέτοιο τρόπο που να διευκολύνεται πολύ η εξαγωγή συμπερασμάτων για την κατανομή Αναφερόμαστε στην κατασκευή θηκογράμματος (box plot) Το θηκόγραμμα είναι γνωστό και ως το διάγραμμα των πέντε αριθμών Πρόκειται για ένα ορθογώνιο με δύο κεραίες (whskers) το οποίο κατασκευάζεται ως εξής: η κάτω βάση του ορθογωνίου βρίσκεται στο Q και η πάνω στο Q Η διάμεσος δ αναπαριστάνεται με ένα οριζόντιο ευθύγραμμο τμήμα μέσα στο ορθογώνιο Το μήκος των βάσεων του ορθογωνίου λαμβάνεται αυθαίρετα Η πάνω και η κάτω κεραία, έχουν τη μορφή Τ και ανεστραμμένου Τ αντίστοιχα και εκτείνονται μέχρι τις οριακές τιμές που μπορεί να είναι: α) η μέγιστη και η ελάχιστη παρατήρηση β) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εσωτερικό φράγμα Q + 5 ( Q Q ) και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εσωτερικό φράγμα Q 5 ( Q Q ) γ) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εξωτερικό φράγμα Q + ( Q Q ) και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εξωτερικό φράγμα Q ( Q ) Q Παράδειγμα-7 (συνέχεια): Για την κατανομή του δείγματος του παραδείγματος-7 βρήκαμε, Q = 95, Q = και δ = Αν για τον υπολογισμό των οριακών τιμών χρησιμοποιήσουμε τα εσωτερικά φράγματα έχουμε: Το ανώτερο εσωτερικό φράγμα είναι Q + 5 ( Q Q ) = + 5 ( 95) = 65 άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με 5 (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από 65) Το κατώτερο εσωτερικό φράγμα είναι Q 5 ( Q Q ) = 95 5 ( 95) = 55 άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με 6 (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από 5,5) Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Περιγραφική Στατιστική 8 4 6 Ας δούμε τι πληροφορίες μας δίνει το θηκόγραμμα για την κατανομή του παραδείγματος Η κατανομή παρουσιάζει μια μικρή αρνητική ασυμμετρία διότι η διάμεσος βρίσκεται πιο κοντά στην πάνω πλευρά του ορθογωνίου Το 5% των παρατηρήσεων βρίσκεται σε ένα διάστημα ίσο με το ύψος του ορθογωνίου το οποίο είναι αρκετά «συμπιεσμένο» και, επιπλέον, τοποθετείται περίπου στη μέση του εύρος των παρατηρήσεων (εξαιρουμένων των ακραίων) Η κατανομή παρουσιάζει δυο ακραίες τιμές και μια εξαιρετικά ακραία 4 τιμή (είναι οι τιμές 6, 7 και ) Παράδειγμα-8 (συνέχεια): Το θηκόγραμμα του ύψους της βροχής, που φαίνεται παρακάτω, είναι φανερό ότι συνοψίζει με παραστατικό τρόπο τα συμπεράσματα που σχολιάσαμε στο παράδειγμα-8 και, επιπλέον, αναδεικνύει τις ακραίες τιμές του δείγματος 5 5 5 Διευκρίνηση: Το ανώτερο εσωτερικό φράγμα είναι Q + 5 ( Q Q ) = = + 5 ( ) =, άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από ) Το κατώτερο εσωτερικό φράγμα είναι Q 5 ( Q Q ) = 5 ( ) = 8 άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από 8) Το θηκόγραμμα προσφέρεται ιδιαιτέρως για την ανίχνευση ακραίων τιμών και για την αναγνώριση της συμμετρίας ή του είδους της ασυμμετρίας της κατανομής Αν το ευθύγραμμο τμήμα που αναπαριστά τη διάμεσο βρίσκεται στο μέσο του ορθογωνίου, η κατανομή είναι συμμετρική, αν βρίσκεται προς την κάτω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει θετική ασυμμετρία και τέλος, αν βρίσκεται προς την πάνω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει αρνητική ασυμμετρία Επίσης, τα θηκογράμματα είναι εξαιρετικά χρήσιμα για τη σύγκριση των κατανομών δύο ή περισσοτέρων δειγμάτων (θα δούμε σχετικό παράδειγμα στη συνέχεια) Σημειώνουμε, τέλος, ότι το θηκόγραμμα μπορεί να σχεδιασθεί και οριζόντια αντί κατακόρυφα Μια τιμή χαρακτηρίζεται ακραία αν βρίσκεται εκτός των εσωτερικών φραγμάτων 4 Μια τιμή χαρακτηρίζεται εξαιρετικά ακραία αν βρίσκεται εκτός και των εξωτερικών φραγμάτων Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos)

Μέτρα διασποράς (dsperso measures) Στον παρακάτω πίνακα δίνονται τέσσερα διαφορετικά δείγματα μεγέθους πέντε το καθένα Πίνακας Δείγμα Ι Δείγμα ΙΙ Δείγμα ΙΙΙ Δείγμα IV 8 4 9 7 5 5 7 6 9 9 Εύκολα διαπιστώνεται ότι καθένα από τα τέσσερα δείγματα έχει μέση τιμή και διάμεσο επίσης Όμως, αν παρατηρήσουμε τα αντίστοιχα θηκογράμματα, αβίαστα προκύπτει ότι οι κατανομές τους διαφέρουν Πιο συγκεκριμένα, οι αποκλίσεις των παρατηρήσεων από τη μέση τιμή τους, έχουν πολύ διαφορετική μεταβλητότητα στα τέσσερα δείγματα Τα μέτρα διασποράς ορίσθηκαν για να περιγράφουν με αριθμητικά μεγέθη αυτή τη μεταβλητότητα 6 8 4 I II III IV Τα πλέον χρησιμοποιούμενα μέτρα διασποράς είναι το εύρος, η ενδοτεταρτημοριακή απόκλιση, η τυπική απόκλιση και η διασπορά 5 Εύρος (rage) και Ενδοτεταρτημοριακή Απόκλιση (terquatle devato) Ορίζεται ως η διαφορά της μικρότερης από τη μεγαλύτερη παρατήρηση ( R = x max xm ) του δείγματος Είναι το πιο απλό μέτρο διασποράς και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα: Πλεονεκτήματα Είναι πολύ απλό στον υπολογισμό Χρησιμοποιείται αρκετά στον έλεγχο ποιότητας Μπορεί να χρησιμοποιηθεί για την εκτίμηση της τυπικής απόκλισης Μειονεκτήματα Δε θεωρείται αξιόπιστο μέτρο διασποράς, επειδή βασίζεται μόνο στη μικρότερη και στη μεγαλύτερη παρατήρηση και συνεπώς είναι ευαίσθητο σε έκτροπες τιμές Δε χρησιμοποιείται για περαιτέρω στατιστική ανάλυση Αν χρησιμοποιήσουμε το εύρος για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραπάνω παραδείγματος, βλέπουμε ότι ενώ ανιχνεύει τη διαφορά στη μεταβλητότητα μεταξύ των δειγμάτων Ι και ΙΙ (το Ι έχει εύρος -8 = 4 ενώ το ΙΙ έχει εύρος 6-4 = ) εντούτοις, δεν ανιχνεύει τη διαφορά που υπάρχει στη μεταβλητότητα μεταξύ των δειγμάτων ΙΙΙ και ΙV (και το III και το ΙV έχουν εύρος 9- = 8) Δηλαδή, υπάρχουν κατανομές που έχουν ίσες μέσες τιμές, ίσες διαμέσους και ίδιο εύρος και εντούτοις, διαφέρουν Δεν αρκεί επομένως το εύρος για να αποτυπωθεί αριθμητικά η μεταβλητότητα μιας κατανομής Είναι φανερό ότι αυτό οφείλεται στο ότι στον υπολογισμό του εμπλέκονται μόνο δυο παρατηρήσεις Για να αντιμετωπίσουμε αυτό το πρόβλημα μπορούμε να χρησιμοποιήσουμε ως μέτρο της μεταβλητότητας τη διαφορά Q Q για τον υπολογισμό της οποίας συμμετέχουν σαφώς περισσότερες παρατηρήσεις (όσες συμμετέχουν στον υπολογισμό των Q και 5 Ένα ακόμη μέτρο διασποράς είναι η μέση απόκλιση (mea devato): MD= x x = Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 4

Q ) Η διαφορά αυτή ονομάζεται ενδοτεταρτημοριακή απόκλιση (terquatle devato) 6 Επειδή μεταξύ των Q και Q βρίσκεται το 5% των παρατηρήσεων είναι φανερό ότι όσο μικρότερη είναι η ενδοτεταρτημοριακή απόκλιση τόσο μικρότερη είναι η μεταβλητότητα των παρατηρήσεων 7 Επίσης, σε αντίθεση με την τυπική απόκλιση και τη διασπορά (που θα δούμε στη συνέχεια), η ενδοτεταρτημοριακή απόκλιση δεν επηρεάζεται από ακραίες τιμές Αν χρησιμοποιήσουμε την ενδοτεταρτημοριακή απόκλιση για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραδείγματός μας, βλέπουμε ότι πλέον ανιχνεύονται όλες οι υπάρχουσες διαφορές μεταξύ των τεσσάρων δειγμάτων Επισήμανση: Αξίζει να επισημάνουμε, ότι το εύρος, σε αντίθεση με την ενδοτεταρτημοριακή απόκλιση, είναι πολύ ευαίσθητο σε αλλαγές στο μέγεθος του δείγματος Δηλαδή, είναι δυνατόν, αύξηση του μεγέθους του δείγματος ακόμη και κατά μια μονάδα να προκαλέσει δυσανάλογη αύξηση του εύρους Αν για παράδειγμα, οι παρατηρήσεις,,, 4, 4, 4 και 5 συμπληρωθούν με την παρατήρηση, το εύρος του δείγματος από 4 γίνεται 9! Τυπική απόκλιση (stadard devato) και Διασπορά (varace) Η τυπική απόκλιση του πληθυσμού συμβολίζεται με σ και του δείγματος με s s = ( x x) = x x ή = = k k s = ( y x) ν = y ν x = = Εύκολα αποδεικνύεται ότι η τυπική απόκλιση έχει τις ακόλουθες ιδιότητες: Αν οι παρατηρήσεις είναι μεταξύ τους ίσες τότε η τυπική απόκλιση τους είναι μηδέν (γιατί;) Αν ω = x + β τότε s ϖ = s Δηλαδή, αν στις παρατηρήσεις x, x,, xν προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε η τυπική τους απόκλιση δεν μεταβάλλεται Αν ω = α x τότε sϖ = α s Δηλαδή, αν οι παρατηρήσεις x, x,, xν πολλαπλασιασθούν με την ίδια ποσότητα α, τότε η τυπική απόκλισή τους θα πολλαπλασιασθεί με την ποσότητα α Γενικά, αν ω = α x + β τότε sϖ = α s Είναι φανερό ότι η τυπική απόκλιση απαντά στο ερώτημα: πόσο μακριά από τη μέση τιμή τους βρίσκονται οι παρατηρήσεις; Έτσι, όταν οι παρατηρήσεις δε διαφέρουν πολύ από τη μέση τιμή τους, η τυπική απόκλιση είναι μικρή, ενώ αντίθετα, η τυπική απόκλιση μεγαλώνει, όσο περισσότερο «διασκορπίζονται» οι παρατηρήσεις γύρω από τη μέση τιμή τους Δηλαδή, η τυπική απόκλιση μας δίνει ένα μέτρο της μέσης απόστασης-απόκλισης των παρατηρήσεων από τη μέση τιμή τους Συνεπώς, έχει νόημα να χρησιμοποιείται, μόνο σε συνδυασμό με τη μέση τιμή Πρακτικά, όμως, τι σημαίνει «μεγάλη» ή «μικρή» τυπική απόκλιση; Ας προσπαθήσουμε να απαντήσουμε μέσα από συγκεκριμένα προβλήματα ) Αν για καθένα από τα τέσσερα δείγματα του Πίνακα-, υπολογίσουμε την τυπική απόκλισή του, παίρνουμε, 6, 47, 7 και 8 αντίστοιχα Μπορούμε να 6 Ανάλογα ορίζεται η ενδοδεκατημοριακή απόκλιση p9 p 7 Η ενδοτεταρτημοριακή απόκλιση αποτελεί την «καρδιά» της κατανομής Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 5

ισχυρισθούμε ότι η μεταβλητότητα, πχ του δείγματος IV είναι μεγαλύτερη από τη μεταβλητότητα του δείγματος I επειδή είναι 8>6; Η απάντηση είναι ναι, γιατί τα δείγματα έχουν την ίδια μέση τιμή Αν, όμως, επιχειρήσουμε να συγκρίνουμε τις μεταβλητότητες δύο ή περισσοτέρων δειγμάτων που έχουν άνισες μέσες τιμές, με βάση μόνο τις τυπικές αποκλίσεις τους, τότε είναι πολύ πιθανό να οδηγηθούμε σε λάθος συμπεράσματα Το ίδιο θα συμβεί αν συγκρίνουμε, με βάση μόνο τις τυπικές αποκλίσεις τους, τις μεταβλητότητες δύο ή περισσοτέρων δειγμάτων που μετρώνται σε διαφορετικές μονάδες Παράδειγμα-9: Έστω δύο δείγματα με, x = 5, s = και x = 5, s =, αντίστοιχα Μπορούμε να ισχυρισθούμε ότι το δεύτερο δείγμα παρουσιάζει μεγαλύτερη μεταβλητότητα από το πρώτο, επειδή >; Φυσικά όχι, αφού «άλλο στα 5 και άλλο στα 5» Είναι, επομένως, λογικό να αναζητήσουμε ένα μέτρο το οποίο να εκφράζει την τυπική απόκλιση των παρατηρήσεων ως ποσοστό της μέσης τιμής τους Δηλαδή, ένα μέτρο σχετικής μεταβλητότητας Ένα τέτοιο μέτρο, είναι ο συντελεστής μεταβλητότητας (coeffcet of varato): s CV = % x Έτσι, αν συγκρίνουμε τις τυπικές αποκλίσεις των δύο δειγμάτων, αφού προηγουμένως κάθε μια τη δούμε ως ποσοστό της μέσης τιμής με βάση την οποία υπολογίσθηκε, δηλαδή, αν υπολογίσουμε τους συντελεστές μεταβλητότητας CV, παρατηρούμε ότι: για το πρώτο δείγμα είναι CV = 5 % = % και για το δεύτερο δείγμα είναι CV = 5 % = 8% Δηλαδή, στο πρώτο δείγμα η τυπική απόκλιση είναι το % της μέσης τιμής του ενώ στο δεύτερο δείγμα η τυπική απόκλιση είναι το 8% της μέσης τιμής του Συνεπώς, η μεγαλύτερη μεταβλητότητα παρουσιάζεται στο πρώτο και όχι στο δεύτερο δείγμα (μάλιστα είναι = 5 φορές μεγαλύτερη!) Από τα παραπάνω, είναι φανερό, ότι ο CV μπορεί να χρησιμοποιηθεί: Ως μέτρο σύγκρισης της μεταβλητότητας δύο ή περισσοτέρων δειγμάτων που έχουν διαφορετικές μέσες τιμές ή διαφορετικές μονάδες μέτρησης Ως μέτρο ομοιογένειας ενός δείγματος (αν σε ένα δείγμα είναι CV<% τότε το δείγμα θεωρείται ομοιογενές) ) Ας δούμε ένα ακόμη πρακτικό πρόβλημα Παράδειγμα-: Ένας φοιτητής, βαθμολογήθηκε στις εξετάσεις του Ιουνίου στο μάθημα της Στατιστικής με 8 Ένας άλλος φοιτητής βαθμολογήθηκε στο ίδιο μάθημα στις εξετάσεις του Ιουνίου με 7 Με κριτήριο το βαθμό στις εξετάσεις, ποιος από τους δύο φοιτητές είναι καλύτερος στη Στατιστική; Αν δε βιαστούμε να απαντήσουμε, διαπιστώνουμε ότι, ουσιαστικά, μας ζητούν να συγκρίνουμε «ανόμοια πράγματα», αφού πρέπει να συγκρίνουμε δυο τιμές η κάθε μια από τις οποίες ανήκει σε διαφορετική κατανομή Η τιμή 8 ανήκει στην κατανομή βαθμολογίας των εξετάσεων του Ιουνίου ενώ η τιμή 7 ανήκει στην κατανομή της βαθμολογίας των εξετάσεων του Ιουνίου Για να συγκριθούν επομένως οι δύο τιμές, πρέπει να προσδιορισθεί πρώτα η θέση της κάθε μίας μέσα στην κατανομή της Έτσι, αν οι βαθμολογίες των φοιτητών τον Ιούνιο είχαν μέση τιμή 75 και τυπική απόκλιση 6 και τον Ιούνιο του είχαν μέση τιμή 55 και τυπική 8 75 5 απόκλιση τότε είναι προφανές ότι το κλάσμα = = + 8 εκφράζει την 6 6 Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 6 8

απόσταση-απόκλιση της τιμής 8 από τη μέση τιμή της κατανομής της, σε μονάδες τυπικής απόκλισης Δηλαδή, δείχνει «πόσες φορές χωράει η τυπική απόκλιση 6 7 55 στην απόσταση 8 7 5» Ομοίως, το κλάσμα = = + 4 5 δείχνει «πόσες φορές χωράει η τυπική απόκλιση στην απόσταση 7 5 5» Είναι, πλέον, φανερό ότι ο βαθμός 7 είναι καλύτερος από το βαθμό 8 με την έννοια ότι απέχει από τη μέση τιμή της κατανομής του +4 τυπικές αποκλίσεις ενώ ο βαθμός 8 απέχει από τη μέση τιμή της δικής του κατανομής +8 τυπικές αποκλίσεις Δηλαδή, ο βαθμός 7 είναι 4 τυπικές αποκλίσεις μεγαλύτερος από τη μέση τιμή της κατανομής του ενώ ο βαθμός 8 είναι 8 τυπικές αποκλίσεις μεγαλύτερος από τη μέση τιμή της δικής του κατανομής Η τυπική απόκλιση των παρατηρήσεων μπορεί, επομένως, να χρησιμοποιηθεί ως μονάδα μέτρησης της απόστασης των παρατηρήσεων από τη μέση τιμή τους x x Αν μετασχηματίσουμε κάθε τιμή x, σε, δημιουργούμε μια νέα κατανομή, s x x x x xν x,,, s s s x x Ας συμβολίσουμε τις νέες τιμές με z, δηλαδή, z = Οι z -τιμές έχουν τις s ακόλουθες, πολύ ενδιαφέρουσες, ιδιότητες: Η z -τιμή μιας τιμής x, εκφράζει, σε μονάδες τυπικής απόκλισης, την απόσταση της x από τη μέση τιμή x Αν μια z -τιμή είναι θετική αυτό σημαίνει ότι η τιμή x είναι μεγαλύτερη από τη μέση τιμή ενώ αν είναι αρνητική σημαίνει ότι η τιμή x είναι μικρότερη από τη μέση τιμή Η μέση τιμή των z -τιμών είναι πάντα και η τυπική τους απόκλιση είναι πάντα Δηλαδή, z = και s z = (Η απόδειξη είναι προφανής αν παρατηρήσουμε ότι ο x x μετασχηματισμός z = είναι της γνωστής μας μορφής z = α x + β με s x α = και β = ) s s Ίσες αποστάσεις z -τιμών μιας κατανομής, έχουν ταυτόσημο νόημα Για παράδειγμα, η διαφορά μεταξύ των z-τιμών και 5 είναι ταυτόσημη με τη διαφορά μεταξύ των z-τιμών και 5 Και οι δύο διαφορές δείχνουν μια απόσταση μισής τυπικής απόκλισης Στις z-τιμές το έχει νόημα, δηλαδή, δεν ορίζεται συμβατικά-αυθαίρετα Η z-τιμή σημαίνει «έλλειψη απόστασης», δηλαδή, η τιμή x συμπίπτει με τη μέση τιμή x Η μορφή της κατανομής των z -τιμών είναι όμοια με τη μορφή της κατανομής των x τιμών (διατηρούνται πχ οι ασυμμετρίες ή η συμμετρία) Έτσι, αν η κατανομή των x τιμών έχει μορφή κανονικής κατανομής, τότε και η κατανομή των z -τιμών θα έχει μορφή κανονικής κατανομής Οι z-τιμές μπορούν να χρησιμοποιηθούν για την ανίχνευση ακραίων τιμών Στη συνέχεια θα δούμε σχετικά παραδείγματα Τέλος, οι z-τιμές μπορούν να χρησιμοποιηθούν για τη σύγκριση τιμών που ανήκουν σε διαφορετικές κατανομές Ας δούμε ένα ακόμη παράδειγμα Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 7

Παράδειγμα-: Στην Ελλάδα, ως γνωστόν, η βαθμολογία των αποφοίτων δευτεροβάθμιας εκπαίδευσης δίνεται σε κλίμακα από μέχρι Στις ΗΠΑ, συνήθως δίνεται σε μια κλίμακα από μέχρι 4 Σε πολλές άλλες χώρες δίνεται σε κλίμακα από μέχρι Σε ένα σχολείο των ΗΠΑ η κατανομή της βαθμολογίας των αποφοίτων έχει μέση τιμή, και τυπική απόκλιση, σε ένα ελληνικό σχολείο έχει μέση τιμή 4 και τυπική απόκλιση και σε ένα ολλανδικό έχει μέση τιμή 76 και τυπική απόκλιση 7 Πώς μπορούμε να συγκρίνουμε το βαθμό 6 ενός μαθητή του σχολείου των ΗΠΑ με το βαθμό 84 ενός μαθητή του ελληνικού σχολείου και με το βαθμό 9 ενός μαθητή του ολλανδικού σχολείου; 6 84 4 Οι αντίστοιχες z-τιμές των βαθμών είναι: = +, = + και 9 76 = + Συνεπώς, οι τρεις μαθητές πήραν τα απολυτήριά τους με βαθμούς που 7 βρίσκονται σε ίσες αποστάσεις πάνω από τη μέση βαθμολογία του σχολείου τους Παρατήρηση: Οι z-τιμές είναι ένα μέτρο σχετικής απόστασης Επομένως, όταν χρησιμοποιούνται για τη σύγκριση τιμών που ανήκουν σε διαφορετικές κατανομές, θα πρέπει οι κατανομές αυτές να έχουν παραπλήσιες μορφές Διαφορετικά, η πληροφορία που θα πάρουμε από τη σύγκριση z-τιμών θα είναι διφορούμενη-ασαφής (θυμηθείτε ότι με όρους ποσοστών, ίσες αποστάσεις μπορεί να περιέχουν πολύ διαφορετικά ποσοστά παρατηρήσεων) Ας δούμε ένα παράδειγμα Παράδειγμα-: Στον παρακάτω πίνακα φαίνονται οι τιμές που πήραμε από δύο δείγματα μεγέθους Δείγμα Ι 746 677 74 7 78 884 6 59 85 64 57 Δείγμα ΙΙ 94 84 874 877 96 8 6 9 76 474 Ακόμη και με μια πρόχειρη ματιά στις τιμές, εύκολα διαπιστώνουμε ότι οι δύο κατανομές διαφέρουν σημαντικά αφού στην Ι οι τιμές κατανέμονται μεταξύ 45 και 95 με μια ακραία τιμή προς τα δεξιά, ενώ στη ΙΙ υπάρχει μεγάλη συγκέντρωση τιμών μεταξύ 85 και 95 και οι υπόλοιπες κλάσεις έχουν από μία μόνο τιμή (εκτός από μια που έχει δύο τιμές) Παρόλα αυτά, οι δύο κατανομές έχουν ίσες μέσες τιμές και ίσες τυπικές αποκλίσεις ( x = 7 5 και s = 9 ) Η τιμή 6 ανήκει και στα δύο δείγματα 6 75 και επομένως θα έχει ίδια z-τιμή και στα δύο δείγματα z = = 7 9 Δηλαδή, η τιμή 6 και στα δύο δείγματα βρίσκεται 7 τυπικές αποκλίσεις αριστερά της μέσης τιμής Αυτό όμως δεν «εμποδίζει» καθόλου να είναι η πραγματικότητα για Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 8

την τιμή 6 πολύ διαφορετική στις δύο κατανομές Αν παρατηρήσουμε τα αντίστοιχα ιστογράμματα των κατανομών βλέπουμε ότι στην κατανομή Ι η τιμή 6 έχει «δεσπόζουσα θέση» (βρίσκεται στο mastream της κατανομής) ενώ στην ΙΙ βρίσκεται μόνη της και περιβάλλεται από κλάσεις με μια μόνο τιμή! Η σύγκριση, επομένως, δύο z-τιμών από διαφορετικές κατανομές, δεν αποδίδει την πραγματική εικόνα αν οι κατανομές έχουν διαφορετική μορφή ) Άραγε μπορούμε, με βάση την τυπική απόκλιση, να καθορίσουμε διαστήματα γύρω από τη μέση τιμή εντός των οποίων να βρίσκεται συγκεκριμένο ποσοστό παρατηρήσεων 8 ; Η απάντηση είναι ότι μπορούμε Η ανισότητα του Chebyshev μας λέει ότι: το ποσοστό των παρατηρήσεων που βρίσκεται πχ στο διάστημα ( x s, x + s) είναι τουλάχιστον 75% Άρα, όσο πιο «στενό» είναι αυτό το διάστημα (δηλαδή όσο πιο μικρή είναι η τυπική απόκλιση), τόσο πιο κοντά στη μέση τιμή είναι οι παρατηρήσεις και κατά συνέπεια τόσο πιο μικρή είναι η μεταβλητότητα των παρατηρήσεων Γενικότερα, η ανισότητα του Chebyshev μας λέει ότι: το ποσοστό των παρατηρήσεων που βρίσκονται στο διάστημα ( x ks, x + ks) είναι τουλάχιστον ( k ) για κάθε k > ή αλλιώς, η πιθανότητα μια τυχαία επιλεγμένη τιμή της μεταβλητής να ανήκει στο διάστημα ( x ks, x + ks) είναι τουλάχιστον ( k ) για κάθε k > Ειδική περίπτωση: 9 Αν η κατανομή του δείγματος είναι κανονική τότε ισχύει ο ακόλουθος κανόνας, γνωστός στη βιβλιογραφία ως εμπειρικός κανόνας (emprcal rule) γιατί πολύ συχνά επαληθεύεται εμπειρικά σε διάφορα φαινόμενα και πειράματα (και όχι γιατί δε μπορεί να αποδειχθεί θεωρητικά, αφού όπως θα δούμε, μπορεί να αποδειχθεί): Στο διάστημα ( x s, x + s) βρίσκεται περίπου το 68% των παρατηρήσεων Στο διάστημα ( x s, x + s) βρίσκεται περίπου το 95% των παρατηρήσεων Στο διάστημα ( x s, x + s) βρίσκονται όλες σχεδόν οι παρατηρήσεις (997%) 8 Δηλαδή κάτι ανάλογο με τα διαστήματα που καθορίζουμε με βάση τα ποσοστημόρια Πχ γνωρίζουμε ότι στο διάστημα p9 p βρίσκεται το 8% των παρατηρήσεων 9 Καθόλου «ειδική περίπτωση», όπως θα δούμε στο επόμενο κεφάλαιο Εργαστήριο Μαθηματικών&Στατιστικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos) 9