Περιγραφή ποιοτικών δεδομένων. Περιγραφή ποιοτικών δεδομένων. Περιγραφή ποιοτικών δεδομένων. Περιγραφή ποιοτικών δεδομένων.

Σχετικά έγγραφα
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Βιοστατιστική ΒΙΟ-309

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Εισαγωγή στη Στατιστική

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

2) Περιγραφή ιακριτών Ποσοτικών εδοµένων

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

I2. Αριθμητικά περιγραφικά μέτρα

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

Περιγραφική Στατιστική

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

Περιγραφική Στατιστική

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Α. α) ίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιµες, να αποδείξετε ότι: F (x)=f (x)+g (x).

Μ Ε Τ Ρ Α Δ Ι Α Σ Π Ο Ρ Α Σ.

Εφαρμοσμένη Στατιστική

Μάθηµα 3 ο. Περιγραφική Στατιστική

ΚΕΦΑΛΑΙΟ 6 ΚΟΙΝΟΙ ΥΠΟΨΗΦΙΟΙ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Ποσοτικές Μέθοδοι., Εισηγητής: Ν.Κυρίτσης, MBA, Ph.D. Candidate,,

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΔΕΟ 13 ΤΟΜΟΣ Δ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΘΕΜΑΤΑ Α : ΕΚΦΩΝΗΣΕΙΣ - ΛΥΣΕΙΣ

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

Στατιστική Ι Ασκήσεις 3

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

03 _ Παράμετροι θέσης και διασποράς. Γούργουλης Βασίλειος Καθηγητής Τ.Ε.Φ.Α.Α. Σ.Ε.Φ.Α.Α. Δ.Π.Θ.

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές Διερευνητική Ανάλυση Δεδομένων

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.


ΚΕΦΑΛΑΙΟ. 1. α. Tι ονοµάζεται συνάρτηση από το σύνολο Α στο σύνολο Β; β. Tι ονοµάζεται πραγµατική συνάρτηση πραγµατικής µεταβλητής;

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

Ενδεικτικές ασκήσεις ΔΙΠ 50

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

Παράδειγμα. Χρονολογικά δεδομένα. Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα (σε χιλιάδες $)

Εισαγωγή στη Στατιστική

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος.

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Mέτρα (παράμετροι) θέσεως

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

i Σύνολα w = = = i v v i=

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ. B. Πώς ορίζεται ο συντελεστής μεταβολής ή συντελεστής. μεταβλητότητας μιας μεταβλητής X, αν x > 0 και πώς, αν

Στατιστική Ι. Ενότητα 1: Βασικές Έννοιες. Δρ. Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 2 Ο


Transcript:

Στατιστική Ι Ενότητα: MέθοδοιΠεριγραφικής Στατιστικής Δρ. Χρήστος Εμμανουηλίδης Επίκουρος Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Χ. Εμμανουηλίδης, cemma@eco.auth.gr Θεματολογία Παρουσίαση δεδομένων με Πίνακες Πίνακας (κατανομή) συχνοτήτων(απόλυτες, σχετικές, % συχνότητες) Παρουσίαση δεδομένων με Γραφήματα Ραβδόγραμμα, κυκλικό διάγραμμα, ιστόγραμμα πολύγωνο συχνοτήτων Ομαδοποίηση ποσοτικών δεδομένων Περιγραφικά μέτρα θέσης, διασποράς, και μορφής Κεντρική τάση: Μέσος, διάμεσος, επικρατούσα τιμή Μη-κεντρική τάση: ποσοστιαία σημεία, τεταρτημόρια Διασπορά: Εύρος, διακύμανση, τυπική απόκλιση, ενδοτεταρτημοριακό εύρος Σχετική διασπορά (συντελεστής μεταβλητότητας) Εμπειρικός κανόνας για καμπανοειδείς κατανομές Μορφή: Λοξότητα και κύρτωση Ανίχνευση ακραίων τιμών Σύνοψη πέντε αριθμών Θηκόγραμμα Χ. Εμμανουηλίδης, cemma@eco.auth.gr Περιγραφή ποιοτικών δεδομένων Πίνακες Πίνακες συχνοτήτων Γραφήματα Ραβδόγραμμα Κυκλικό διάγραμμα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Περιγραφή ποιοτικών δεδομένων Πίνακας (κατανομή) συχνοτήτων πίνακας που καταγράφει τη συχνότητα (απόλυτη, σχετική ή ποσοστιαία) των δεδομένων με τιμές σε καθεμιά κατηγορία ή κλάση. Συμβολισμοί: = τιµές της Χ, =,...,, = πλήθος κατηγοριών f = απόλυτες συχνότητες f = σχετικές συχνότητες F = αθροιστικές συχνότητες Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 Περιγραφή ποιοτικών δεδομένων Περιγραφή ποιοτικών δεδομένων Παράδειγμα με τοspss (Statstcs Pacage for the Socal Sceces) Εκπαιδευτικό επίπεδο (Χ) =6400 ατόμων Αθροιστική συχνότητα Παράδειγμα με τοspss Γραφήματα Ραβδόγραμμα Συχνότητες % Συχνότητες Συχνότητα Ποσοστιαία συχνότητα = σχετική συχνότητα 00 κατηγοριών Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Χ. Εμμανουηλίδης, cemma@eco.auth.gr PDF processed wth CutePDF evaluato edto www.cutepdf.com

Περιγραφή ποιοτικών δεδομένων Παράδειγμα με τοspss Γραφήματα Κυκλικό διάγραμμα %Συχνότητα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Πίνακες Πίνακες συχνοτήτων(μετά από ομαδοποίηση) Γραφήματα Ιστόγραμμα(με πολύγωνο ή προσαρμοσμένη καμπύλη συχνοτήτων) Oμαδοποίηση σε τάξεις ίσου εύρους Εμπειρικός κανόνας για το πλήθος και το εύρος των τάξεων = cel( +.443 l ) ( ) c cel ma m Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Παράδειγμα με το SPSS Ηλικία (σε έτη, =50) { } = Παράδειγμα με το SPSS Ηλικία (σε έτη, =50) { } = 4 46 35 6 34 36 37 40 46 67 36 44 34 63 6 7 38 35 7 64 5 3 45 60 6 37 35 58 44 44 6 46 46 3 54 50 48 43 35 45 5 55 9 3 4 4 8 30 6 Πώς µπορούµε να περιγράψουµε την κατανοµή των δεδοµένων; 5 6 7 9 30 3 3 3 34 34 35 35 35 35 36 36 37 37 38 40 4 4 4 43 44 44 44 45 45 46 46 46 46 48 50 5 54 55 58 60 6 6 6 6 63 64 67 7 8 ιάταξη των δεδοµένων σε αύξουσα σειρά m = 5, = 8 ma Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0 Παράδειγμα με το SPSS Ηλικία (σε έτη, =50) { } = 5 6 7 9 30 3 3 3 34 34 35 35 35 35 36 36 37 37 38 40 4 4 4 43 44 44 44 45 45 46 46 46 46 48 50 5 54 55 58 60 6 6 6 6 63 64 67 7 8 Χ. Εμμανουηλίδης, cemma@eco.auth.gr m = 5, = 8 ma Παράδειγμα με τοspss Πίνακες συχνοτήτων(μετά από ομαδοποίηση) Ηλικία (σε έτη, =50) = 50, = cel( +.443 l 50) = 7 ma = 8, m = 5 c = cel ( ma m ) = 0 «άγκυρα» όρια τάξεων Ως άγκυρα µπορεί να οριστεί οποιαδήποτε τιµή, έστω α για την οποία a και + c m a ma Χ. Εμμανουηλίδης, cemma@eco.auth.gr Χ. Εμμανουηλίδης, cemma@eco.auth.gr

0 5 0 5 0 5 3 0 0 5 0 5 0 5 3 0 Παράδειγμα με τοspss Γραφήματα (μετά από ομαδοποίηση) Ηλικία (σε έτη, =50) = 50, = cel( +.443 l 50) = 7 ma = 8, m = 5 c = cel ( ma m ) = 0 Παράδειγμα με τοspss Γραφήματα (μετά από ομαδοποίηση) Ηλικία (σε έτη, =50) = 50, = cel( +.443 l 50) = 7 ma = 8, m = 5 c = cel ( ma m ) = 0 Πολύγωνο συχνοτήτων Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 Επίδραση πλήθους τάξεων () Μηνιαίες πωλήσεις 50 καταστημάτων Επίδραση πλήθους τάξεων () Μηνιαίες πωλήσεις 50 καταστημάτων 5 0 0 5 Για = 6 η κατανοµή φαίνεται µονόκορφη 5 0 Για = 8 η κατανοµή φαίνεται δίκορφη 0 5 5 0 400 7774 449 53 8797 47 646 sales Εμμανουηλίδης, cemma@eco.auth.gr Χ. 5 0 400 6856 96 367 53 7879 0634 3390 646 sales Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Επίδραση πλήθους τάξεων () Μηνιαίες πωλήσεις 50 καταστημάτων 0 Χαρακτηριστικά ποσοτικών δεδομένων Θέση (κεντρική τάση) f()/ 0.00 0.05 0.0 0.5 0.0 Για = 0η κατανοµή συνεχίζει να κυριαρχείται από δύο κορυφές. Πιθανά µια υποψία τρίτης κορυφής; 8 6 4 0 400 6305 8509 074 98 53 737 953 737 394 646 Μεταβλητότητα (διασπορά) f()/ 0.00 0.05 0.0 0.5 0.0 sales Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3

Χαρακτηριστικά ποσοτικών δεδομένων Σχήμα κατανομής Λοξότητα Κύρτωση (+) Θετική (δεξιά) (0) Μηδενική (Συµµετρία) (-) Αρνητική (αριστερή) (+) Λεπτόκυρτη (0) Μεσόκυρτη (Κανονική) (-) Πλατύκυρτη Γενικές µορφές λοξότητας Γενικές µορφές κύρτωσης Μέτρα θέσης ή κεντρικής τάσης Κεντρική τάση η τάση των δεδομένων να συγκεντρώνονται γύρω από συγκεκριμένες αριθμητικές τιμές Συνήθη μέτρα κεντρικής τάσης: Αριθμητικός μέσος Διάμεσος Επικρατούσα τιμή ή τύπος Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0 Αριθμητικός μέσος Το «κέντρο βάρους» των δεδομένων Δειγματικός μέσος = =, = µέγ. δείγµατος Μέσος πληθυσμού Ν = µ =, N = µέγ. πληθυσµού Ν Χ. Εμμανουηλίδης, cemma@eco.auth.gr Επαναλαμβανόμενες τιμές (παράδειγμα) Αριθµός παιδιών (=00) { } = Τιµή Συχνότητα 0 0 0 3 5 3 0 4 3 0 3 Κατανοµή συχνοτήτων f 0 33 8 3 4 4 3 5 Άθροισµα 00 Χ. Εμμανουηλίδης, cemma@eco.auth.gr Επαναλαμβανόμενες τιμές (παράδειγμα) Αριθµός παιδιών (=00) Τιµή Συχνότητα f f 0 33 0 8 8 4 3 4 4 4 3 5 5 Άθροισµα 00 9 f = 9 = = =.9 00 f = Επαναλαμβανόμενες τιμές Κ : πλήθος διαφορετικών τιµών (Κ ) {,,, Κ } : το σύνολο των διαφορετικών τιµών { f, f,, f Κ } : συχνότητες των διαφορετικών τιµών Μέσος f = = f = = = f Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4

Ομαδοποιημένα δεδομένα (παράδειγμα) Ηλικία (σε έτη, =50) Τάξεις f 5-4 5-34 9 35-44 7 45-54 0 55-64 9 65-74 75-84 Άθροισµα 50 Ποιος είναι ο αριθµητικός µέσος; Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Ομαδοποιημένα δεδομένα (παράδειγμα) Ηλικία (σε έτη, =50) Τάξεις f f 5-4 9.5 39 5-34 9 9.5 65.5 35-44 7 39.5 67.5 45-54 0 49.5 495 55-64 9 59.5 535.5 65-74 69.5 39 75-84 79.5 79.5 Άθροισµα 50 5 f = 5 = = = 44.5 50 f Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 = Τιµή από τα µη οµαδοποιηµένα δεδοµένα: = 44.3 Ομαδοποιημένα δεδομένα Κ : πλήθος τάξεων (Κ ) {,,, Κ } : κεντρικές τιµές των τάξεων { f, f,, f Κ } : συχνότητες των τάξεων Μέσος f = = f = = = f Ομαδοποιημένα δεδομένα (παράδειγμα) Χρεώσεις υπηρεσιών κινητής τηλεφωνίας (=50) Χρέωση ( ) Συχνότητα Τάξεις f 50-60 60-70 3 70-80 6 80-90 7 90-00 7 00-0 5 Άθροισµα 50 Ποιος είναι ο αριθµητικός µέσος; Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Ομαδοποιημένα δεδομένα (παράδειγμα) Χρεώσεις υπηρεσιών κινητής τηλεφωνίας (=50) Ιδιότητες του αριθμητικού μέσου Εγκλεισμός Έστω παρατηρήσεις {,,, }. Ισχύει: Χρέωση ( ) Συχνότητα Κεντρ. Τιµή Τάξεις f f 50-60 55 0 60-70 3 65 845 70-80 6 75 00 80-90 7 85 595 90-00 7 95 665 00-0 5 05 55 Άθροισµα 50 3940 f = 3940 = = = 78.8 50 f = m ma Γραμμικός μετασχηματισμός α, β = σταθερές = α + β = α + β Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 30 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5

Ιδιότητες του αριθμητικού μέσου Γραμμικός μετασχηματισμός παράδειγμα Σε κατηγορία μισθωτών οι καθαρές μέσες μηνιαίες αποδοχές ανέρχονται στα 00. Με την εφαρμογή προγράμματος περικοπών, οι αποδοχές μειώθηκαν για κάθε μισθωτό κατά 0% και επιβλήθηκε μηνιαία έκτακτη εισφορά 00. Ποιές είναι οι νέες καθαρές μέσες μηνιαίες αποδοχές στην κατηγορία; Πόσο μεταβλήθηκαν ποσοστιαία; (Απάντηση: 760, μεταβλήθηκαν περίπου κατά -36.7%) Ιδιότητες του αριθμητικού μέσου Το άθροισμα των αποστάσεων (αποκλίσεων) των τιμών από τον μέσο είναι μηδέν = ( ) = 0 Απόδειξη: Αναπτύξτε τη σχέση και χρησιμοποιήστε τον ορισμό του μέσου Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 Ιδιότητες του αριθμητικού μέσου Το άθροισμα των τετραγωνικών αποκλίσεων των τιμών από τον μέσο είναι ελάχιστο a R, ( ) ( a) = = Το άθροισµα τωντετραγωνικών αποκλίσεων µετρά πόσο απέχει συνολικάη κεντρική τιµή από όλες τις τιµές των δεδοµένων δίνοντας µεγαλύτερη βαρύτητα στις µεγάλες αποκλίσεις απ ότι στις µικρές. Απόδειξη: Βρείτε το ελάχιστο της συνάρτησης ( ) ( ), = f a = a a R Χ. Εμμανουηλίδης, cemma@eco.auth.gr 33 Ιδιότητες του αριθμητικού μέσου Ο αριθμητικός μέσος αριθμητικών μέσων είναι γραμμικός συνδυασμός των μέσων Έστω σύνολα με πλήθος παρατηρήσεων σε κάθε σύνολο ίσο με, =,,,. Αν ο αριθμητικός μέσος των παρατηρήσεων σε κάθε σύνολο είναι, τότε o μέσος όλων των δεδομένων είναι: = = = =, όπου = = = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 34 Ιδιότητες του αριθμητικού μέσου Αριθμητικός μέσος μέσων παράδειγμα Βιομηχανικός κλάδος απαρτίζεται από 300 επιχειρήσεις οι οποίες κατανέμονται σε 3 υπο-κλάδους με αναλογίες 0.6, 0.5, και 0.5 αντίστοιχα. Οι μέσες ετήσιες πωλήσεις σε κάθε υπο-κλάδο είναι (σε εκατομ. ) 0, 55, και 80 αντίστοιχα. Ποιες είναι οι μέσες ετήσιες πωλήσεις στον κλάδο; (Απάντηση: 00.5 εκατομ. ) Πλεονεκτήματα και μειονεκτήματα του αριθμητικού μέσου Πλεονεκτήματα Λαμβάνει υπόψη όλα τα δεδομένα Είναι εκτιμητής όλων των τιμών των δεδομένων Είναι καλός εκτιμητής της μέσης τιμής του πληθυσμού Μειονεκτήματα Είναι ευαίσθητος στην παρουσία ακραίων τιμών Είναι ανεπαρκές μέτρο θέσης σε έντονα ασύμμετρες κατανομές Χ. Εμμανουηλίδης, cemma@eco.auth.gr 35 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 36 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6

Πλεονεκτήματα και μειονεκτήματα του αριθμητικού μέσου Παράδειγμα επηρεασμού από μια ακραία τιμή ' 0 (ακραία τιμή = άτυπα μεγάλη ή μικρή τιμή) { } { } εδοµένα:,, 3, 4,5, 6, 7,8,9,0 = 0, = 5.5 Ακραία τιµή: = = = 00, τότε = 4.5 Αν υπάρχει µια ακραία τιµή, ο µέσος έλκεται γραµµικά προς αυτήν 0 0 40 60 0 80 00 cemma@eco.auth.gr Χ. Εμμανουηλίδης, 37 6 8 0 4 = = + = 0 Πλεονεκτήματα και μειονεκτήματα του αριθμητικού μέσου Παράδειγμα ανεπάρκειας σε έντονα ασύμμετρες κατανομές Συµµετρική κατανοµή Έντονα ασύµµετρη κατανοµή µέσος (είναι αντιπροσωπευτικός του συνόλου των δεδοµένων) µέσος (δεν είναι αντιπροσωπευτικός του συνόλου των δεδοµένων) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 38 Διάμεσος Η μεσαία τιμή των δεδομένων όταν αυτά διαταχθούν σε αύξουσα ή φθίνουσα σειρά Συμβολίζεται ως m Υπολογίζεται ως + η παρατήρηση όταν το είναι περιττός ο μέσος της και παρατηρήσεων αν το + είναι άρτιος Επικρατούσα τιμή ή τύπος (τ) Η τιμή με τη μεγαλύτερη συχνότητα εμφάνισης Ένα σύνολο δεδομένων μπορεί να έχει περισσότερες από μια επικρατούσες τιμές (δηλ. η κατανομή τους περισσότερες από μια κορυφές) Ομαδοποιημένα δεδομένα έχουν επικρατούσα τάξη την τάξη με τη μεγαλύτερη συχνότητα Δεν επηρεάζεται από ακραίες τιμές Έχει νόημα και για ποιοτικά δεδομένα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 39 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 40 Παράδειγμα: 3 5 6 8 8 9 Mέσος = Διάμεσος η δηλ η5 η παρατήρηση, 8 Επικρατούσα τιμή = 8 + 3 + 5 + 6 + 8 + 8 + 9 + + 63 = = 9 9 = = + 0.5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 7 Επαναλαμβανόμενες τιμές (παράδειγμα) Αριθµός παιδιών (=00) Τιµή Συχνότητα Aθρ. Συχν f F 0 33 33 8 6 8 3 4 96 4 3 99 5 00 Άθροισµα 00 Επικρατούσα τιµή: τ = 0 ιάµεσος: m = + 00 + = = 50.5 50η παρατ., = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4 50 5η παρατ., = 5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7

Ομαδοποιημένα δεδομένα (παράδειγμα) Χρεώσεις υπηρεσιών κινητής τηλεφωνίας (=50) Ομαδοποιημένα δεδομένα (παράδειγμα) Χρεώσεις υπηρεσιών κινητής τηλεφωνίας (=50) Χρέωση ( ) Συχνότητα Αθρ. Συχν. Τάξεις f F 50-60 60-70 3 5 70-80 6 3 80-90 7 38 90-00 7 45 00-0 5 50 Άθροισµα 50 Επικρατούσα τάξη: 70 80 ιάµεσος: + 50 + = = 5.5 ανάµεσα στην 5η και 6η παρατ. δηλ. στην = 3 τάξη Χρέωση ( ) Συχνότητα Αθρ. Συχν. Τάξεις f F 50-60 60-70 3 5 70-80 6 3 80-90 7 38 90-00 7 45 00-0 5 50 Άθροισµα 50 ιάµεσος: = 3 Ως την τιµή L = 70 έχουµε F - = 5 παρατ. Ως την / = 5η παρ. αποµένουν / - F = 5 5 = 0 παρ. - Χ. Εμμανουηλίδης, cemma@eco.auth.gr 43 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 44 Ομαδοποιημένα δεδομένα (παράδειγμα) Χρεώσεις υπηρεσιών κινητής τηλεφωνίας (=50) Ομαδοποιημένα δεδομένα - Διάμεσος f κ =f 3 =6παρατηρήσεις Χρέωση ( ) Συχνότητα Αθρ. Συχν. Τάξεις f F 50-60 60-70 3 5 70-80 6 3 80-90 7 38 90-00 7 45 00-0 5 50 Άθροισµα 50 ιάµεσος: = 3 L = 70 F - = 5 / = 5 / - F = 0 - η η 3η 0η 70 5η 6η 80 / - F κ- =0 παρατηρήσεις Χ. Εμμανουηλίδης, cemma@eco.auth.gr 45 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 46 Οµαδοποιηµένα δεδοµένα - ιάµεσος f κ =f 3 =6παρατηρήσεις που καθεµιά καταλαµβάνει εύρος c/f κ =0/6=0.65 και υποθέτουµε ότι βρίσκεται στο µέσο του αντίστοιχου διαστήµατος η η 3η 0η 70 80 5η 6η / - F κ- =0 παρατηρήσεις m=70+00.65=76.5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 47 Ομαδοποιημένα δεδομένα - Διάμεσος f κ =f 3 =6παρατηρήσεις εύρους c/f κ =0/6=0.65 m=76.5 η η 3η 0η 70 5η 6η 80 / - F κ- = 0 παρατηρήσεις c 0 50 m = L + ( Fκ- ) = 70 + ( 5) = 76.5 f 6 κ Χ. Εμμανουηλίδης, cemma@eco.auth.gr 48 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8

Ομαδοποιημένα δεδομένα Διάμεσος Μέθοδος γραμμικής παρεμβολής: Υποθέτοντας ομοιόμορφη κατανομή των τιμών μέσα στο ταξικό διάστημα που περιέχει τη διάμεσο, τότε c m = L + ( F ), f = η πρώτη τάξη της οποίας η F / L = κάτω όριο του ταξικού διαστήµατος που περιέχει τη διάµεσο c = εύρος ταξικού διαστήµατος f = συχνότητα ταξικού διαστήµατος F = αθροιστική συχνότητα του προηγούµενου ταξικού διαστήµατος Χ. Εμμανουηλίδης, cemma@eco.auth.gr 49 Ιδιότητες της διαμέσου Tο άθροισμα των απόλυτων αποκλίσεων των τιμών από τη διάμεσο είναι ελάχιστο. a R, m a = = Το άθροισµα τωναπόλυτων αποκλίσεων µετρά το πόσο απέχει συνολικάη υποψήφια κεντρική τιµή από όλες τις τιµές των δεδοµένων. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 50 Ιδιότητες της διαμέσου Ένας γραμμικός μετασχηματισμός των δεδομένων συνεπάγεται τον αντίστοιχο γραμμικό μετασχηματισμό της διαμέσου. α, β = σταθερές = α + β m = α + β m Δε μπορούμε να την χειριστούμε αλγεβρικά: από τις διαμέσους μερών των δεδομένων δε μπορεί να προκύψει η διάμεσος του συνόλου Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Πλεονεκτήματα και μειονεκτήματα της διαμέσου Πλεονεκτήματα Δεν επηρεάζεται από ακραίες τιμές Μπορεί να χρησιμοποιηθεί και για διατακτικά δεδομένα Είναι καλός εκτιμητής της διαμέσου του πληθυσμού Μειονεκτήματα Δε μπορούμε να την χειριστούμε αλγεβρικά: από τις διαμέσους μερών των δεδομένων δε μπορεί να προκύψει η διάμεσος του συνόλου. Επηρεάζεται από διακυμάνσεις δειγματοληψίας περισσότερο από τον μέσο και συνεπώς δεν είναι τόσο ικανοποιητική ως εκτιμητής της κεντρικής θέσης. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5 Σύγκριση μέσου και διαμέσου Σύγκριση μέσου και διαμέσου Ανθεκτικότητα σε ακραίες τιμές Οι ακραίες τιμές είναι μη τυπικές και δε βοηθούν στην αναγνώριση κεντρικών τιμών. Επομένως θέλουμε η εκτίμηση κεντρικής θέσης να μην είναι πολύ ευαίσθητη σε ακραίες τιμές. Ακρίβεια εκτίμησης Υποθέστε έναν πληθυσμό που είναι συμμετρικός. Τότε, ο μέσος (μ) ταυτίζεται με την διάμεσο (Μ) 50% 50% Σύγκριση:Όταν υπάρχουν λίγες ακραίες τιμές, ο μέσος μπορεί να μην είναι αντιπροσωπευτικός (ιδιαίτερα όταν οι ακραίες τιμές συγκεντρώνονται σε μια πλευρά της διάταξης) σε αντίθεση με τη διάμεσο που είναι ανθεκτικότερη. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 53 Είναι πιθανότερο η διάμεσος ή ο μέσος σε ένα τυχαίο δείγμα να είναι πιο κοντά στην πραγματική τυπική τιμή του πληθυσμού; Χ. Εμμανουηλίδης, cemma@eco.auth.gr 54 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9

Σύγκριση μέσου και διαμέσου Ακρίβεια εκτίμησης Υπολογισμός της πιθανότητας αυτής με προσομοίωση: Σύγκριση μέσου και διαμέσου. Επιλέγουμε με τυχαίο τρόπο μεγάλο αριθμό δειγμάτων συγκεκριμένου μεγέθους () από τον πληθυσμό. Υπολογίζουμε σε καθένα από αυτά το μέσο και τη διάμεσο 3. Κατασκευάζουμε τα αντίστοιχα ιστογράμματα σχετικών συχνοτήτων, τα οποία εκτιμούν τις κατανομές πιθανότητας του δειγματικού μέσου και διαμέσου αντίστοιχα. Αυτές ονομάζονται κατανομές δειγματοληψίαςτου μέσου και της διαμέσου αντίστοιχα. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 55 Κατανοµή δειγµατικών µέσων Κατανοµή δειγµατικών διαµέσων από 000δείγµατα µεγέθους =5από κανονικό πληθυσµό Ν(µ=70,σ =8) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 56 Σύγκριση μέσου και διαμέσου Ακρίβεια εκτίμησης Συμπέρασμα Και οι δύο κατανομές έχουν τον ίδιο μέσο (70), ίδιον με αυτόν του πληθυσμού Όμως, η κατανομή του δειγματικού μέσου έχει μικρότερη διασπορά, που σημαίνει ότι είναι πιθανότερο ο δειγματικός μέσος να είναι πιο κοντά στην τυπική τιμή του πληθυσμού απ ότι η δειγματική διάμεσος. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 57 Σύγκριση μέσου και διαμέσου Ακρίβεια εκτίμησης Συμπέρασμα Ο μέσος είναι πιο συχνά ακριβέστερος από τη διάμεσο, όταν δεν υπάρχουν ακραίες τιμές Αυτό οφείλεται στο ότι η διάμεσος χρησιμοποιεί λιγότερη πληροφορία από τον μέσο: Η διάμεσος είναι ένας μέσος όρος μιας ή το πολύ δύο μεσαίων παρατηρήσεων, ενώ ο μέσος είναι ο μέσος όρος όλων των παρατηρήσεων. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 58 Χαρακτηριστικά ποσοτικών δεδομένων Σχήμα κατανομής Λοξότητα Κύρτωση (+) Θετική (δεξιά) (0) Μηδενική (Συµµετρία) (-) Αρνητική (αριστερή) (+) Λεπτόκυρτη (0) Μεσόκυρτη (Κανονική) (-) Πλατύκυρτη Γενικές µορφές λοξότητας Γενικές µορφές κύρτωσης Χ. Εμμανουηλίδης, cemma@eco.auth.gr 59 Μορφή κατανομών δεδομένων Λοξότητα συντελεστής λοξότητας όπου ( ) m G = 3 3/ m m = ( ) r = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 60 r η κεντρική ροπή r-τάξης Αν G > 0 δεξιά λοξότητα G = 0 συµµετρία (απουσία λοξότητας) G < 0 αριστερή λοξότητα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0

0.4 0.3 0. 0. 0.0 0.4 0.3 0. 0. 0.0 0.4 0.3 0. 0. 0.0-3. -.5 -.8 -. -0.5 0. 0.9.6.3 3.0 3.7 0...4 3.5 4.6 5.8 6.9 8. 9. 0.4.5 -.5-0.4-9. -8. -6.9-5.8-4.6-3.5 -.4 -. -0. Μορφή κατανομών δεδομένων Λοξότητα κατανομών και μέτρα θέσης Συμμετρική κατανομή = m = τ Δεξιά (θετική) λοξότητα > m > τ Αριστερή (αρνητική) λοξότητα < m < τ < m < τ > m > τ = m = τ Μορφή κατανομών δεδομένων Λοξότητα κατανομών και μέτρα θέσης Παράδειγμα: Χρέωση πελατών σε Χρέωση ( ) Συχνότητα Αθρ. Συχν. Τάξεις f F 50-60 60-70 3 5 70-80 6 3 80-90 7 38 90-00 7 45 00-0 5 50 Άθροισµα 50 Μέτρα θέσης : = 78.8 m = 76.5 τ 75 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6 Συχνότητα Μορφή κατανομών δεδομένων Λοξότητα κατανομών και μέτρα θέσης Παράδειγμα: Χρέωση πελατών σε τ < m < δεξιά λοξότητα 8 6 4 0 8 6 4 G = 0.49 40 50 60 70 80 90 00 0 0 G > 0 δεξιά λοξότητα Χρέωση ( ) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 63 Μορφή κατανομών δεδομένων Λοξότητα κατανομών και μέτρα θέσης Παρατήρηση: Για διακριτές κατανομές (με έναν τύπο) οι προηγούμενες σχέσεις διάταξης δεν ισχύουν πάντοτε. Υπάρχουν διακριτές κατανομές με λοξότητα κάποιου είδους για τις οποίες οι αντίστοιχη σχέση διάταξης για τα μέτρα θέσης δεν ισχύει Χ. Εμμανουηλίδης, cemma@eco.auth.gr 64 Μορφή κατανομών δεδομένων Λοξότητα κατανομών και μέτρα θέσης Παρατήρηση: Για διακριτές κατανομές (με έναν τύπο) οι προηγούμενες σχέσεις διάταξης δεν ισχύουν πάντοτε. 00 800 400 Παράδειγμα 0 Μέτρα θέσης : =.8 m =.0 τ =.0 Η λοξότητα είναι δεξιά αλλά δεν ισχύει η σχέση > m > τ διότι έχουµε πολλές επαναλαµβανόµενες τιµές (α) ίσες µε την τιµή της διαµέσου, και (β) µικρότερες από αυτή 3 4 umber of ds 5 Στατιστική Τμήμα ΑΠΘ Εμμανουηλίδης, Ι, Ο.Ε. Χ. cemma@eco.auth.gr 65 Μορφή κατανομών δεδομένων Κύρτωση συντελεστής κυρτότητας όπου Αν m 4 G = f, m f (.) δηλώνει συνάρτηση των ορισµάτων στην παρένθεση G > 0 θετική κύρτωση (λεπτόκυρτη) G = 0 µηδενική κύρτωση (µεσόκυρτη) G < 0 αρνητική κύρτωση (πλατύκυρτη) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 66 Χ. Εμμανουηλίδης, cemma@eco.auth.gr

Μέτρα μη-κεντρικής τάσης Ποσοστιαία σημεία Για ένα σύνολο δεδομένων σε αύξουσαή φθίνουσα διάταξη, τοp-ποσοστιαίο σημείοείναι η τιμή για την οποία το πολύ p% των δεδομένων έχουν τιμή μικρότερη ή ίση από αυτήνκαι τουλάχιστοντο(00-p)% των δεδομένων έχουν τιμή μεγαλύτερη από αυτήν p% (00-p)% p-ποσοστιαίο σηµείο εδοµένα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 67 Μέτρα μη-κεντρικής τάσης Τεταρτημόρια Το5 ο (συμβολίζεται Q), το50 ο (η διάμεσος, ή αλλιώςq), και το75 ο (συμβολίζεται Q3) ποσοστιαίο σημείο Χωρίζουν το διατεταγμένο σύνολο τιμών σε τέσσερα ισομεγέθη υποσύνολα 5% 5% 5% 5% εδοµένα Q Q Q 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 68 Μέτρα μη-κεντρικής τάσης Υπολογισμός ποσοστιαίων σημείων (ένας από τους δυνατούς τρόπους) Στα διατεταγμένα δεδομένα, υπολογίζουμε τη θέση του p-ποσοστιαίου σημείου = ( + ) p /00 Με γραμμική παρεμβολή, υπολογίζουμε την τιμή του p-ποσοστιαίου σημείου Αν = ακέραιος : Αν = δεκαδικός : p-ποσοστιαίο σηµείο = p-ποσοστιαίο σηµείο = ( t( )( ) t( ) + ) t( ) + t( ) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 69 Μέτρα μη-κεντρικής τάσης Παράδειγμα Ηλικία σε δείγμα =50ατόμων (σε έτη) αύξουσα διάταξη 5 7 7 7 7 30 3 3 33 33 33 35 35 36 36 36 37 37 38 39 39 40 40 40 4 4 43 44 44 44 45 45 47 48 50 53 54 57 58 6 6 6 63 64 66 69 70 70 7 Να υπολογιστούν τα τεταρτημόρια (Q, Q, Q3) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 70 η 3η Μέτρα μη-κεντρικής τάσης Παράδειγμα Για το ο τεταρτημόριο (Q) : = ( + ) p /00 = 5 5 /00 =.75 5 7 7 7 7 30 3 3 33 33 33 35 35 36 36 36 37 37 38 39 39 40 40 40 4 4 43 44 44 44 45 45 47 48 50 53 54 57 58 6 6 6 63 64 66 69 70 70 7 ( t( ))( + ) Q = + t( ) t( ) t( ) 3 ( ) ( ) = + 0.75 = 33 + 0.75 35 33 = 34.5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 5η 6η Μέτρα μη-κεντρικής τάσης Παράδειγμα Για το ο τεταρτημόριο (m ή Q) : = ( + ) p /00 = 5 50 /00 = 5.5 5 7 7 7 7 30 3 3 33 33 33 35 35 36 36 36 37 37 38 39 39 40 40 40 4 4 43 44 44 44 45 45 47 48 50 53 54 57 58 6 6 6 63 64 66 69 70 70 7 ( t( ))( + ) Q = + t( ) t( ) t( ) ( ) ( ) = + 0.5 = 40 + 0.5 4 40 = 40.5 5 6 5 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7 Χ. Εμμανουηλίδης, cemma@eco.auth.gr

38η 39η Μέτρα μη-κεντρικής τάσης Παράδειγμα Για το 3ο τεταρτημόριο (m ή Q3) : = ( + ) p /00 = 5 75 /00 = 38.5 5 7 7 7 7 30 3 3 33 33 33 35 35 36 36 36 37 37 38 39 39 40 40 40 4 4 43 44 44 44 45 45 47 48 50 53 54 57 58 6 6 6 63 64 66 69 70 70 7 ( t( ))( + ) Q = + 3 t( ) t( ) t( ) 38 39 38 ( ) ( ) = + 0.5 = 54 + 0.5 57 54 = 54.75 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 73 Μέτρα μη-κεντρικής τάσης Παρατήρηση: Όταν το πλήθος των παρατηρήσεων είναι μικρό, δεν είναι δυνατόν να επιτευχθούν ακριβώς τα ονομαστικά ποσοστά κάλυψης των ποσοστιαίων σημείων. Π.χ. στο παράδειγμα της ηλικίας Κάλυψη Q= 00 /50 =4% (< 5%) Κάλυψη Q= 00 5/50 =50% (O) Κάλυψη Q3= 00 38/50 =76% (> 75%) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 74 Μεταβλητότηταείναιη διασπορά των δεδομένων γύρω από ένα μέτρο κεντρικής τάσης Συνήθη μέτρα μεταβλητότητας (ή διασποράς): Εύρος Διακύμανση και τυπική απόκλιση Ενδοτεταρτημοριακό εύρος Χρησιμότητα Παρέχουν πληροφορία για το πόσο αντιπροσωπευτικά για τα δεδομένα είναι τα μέτρα θέσης Είναι χρήσιμα για τη σύγκριση συνόλων δεδομένων Είναι μέτρα της αβεβαιότητας που περιέχουν τα δεδομένα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 75 Εύρος Η διαφορά ανάμεσα στη μέγιστη και την ελάχιστη τιμή R = ma - m Τείνει να αυξάνει όταν το αυξάνει Ευαίσθητο σε ακραίες τιμές(δηλ. ασυνήθιστα μεγάλες ή μικρές τιμές) Δε λαμβάνει υπόψη την κατανομή των δεδομένων Χ. Εμμανουηλίδης, cemma@eco.auth.gr 76 Διακύμανση N ( µ ) Διακύμανση πληθυσμού = σ = N Είναι η μέση τετραγωνική απόκλιση των δεδομένων από το μέσο τους Δειγματική διακύμανση Είναι ευαίσθητη σε ακραίες τιμές = ( ) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 77 s = Δειγματική διακύμανση ( ) = s = O παρονομαστής είναι -αντί για, ώστε η δειγματική διακύμανση να είναι αμερόληπτος εκτιμητής της διακύμανσης του πληθυσμού Αμερόληπτος εκτιμητής = σε πολύ μεγάλο αριθμό (έστω ν στο πλήθος)τυχαίων δειγμάτων μεγέθους, o μέσος όρος των υπολογισμένων δειγματικών διακυμάνσεων ταυτίζεται με την διακύμανση του πληθυσμού v s = σ = lm v v Χ. Εμμανουηλίδης, cemma@eco.auth.gr 78 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3

Δειγματική διακύμανση Αν χρησιμοποιήσουμε ως παρονομαστή το, τότε η s θα υποεκτιμάσυστηματικά την σ (δηλ. η s θα είναι και τις περισσότερες φορές μικρότερη από την σ, αλλά και η μέση τιμή της θα είναι μικρότερη από την σ ) Παράδειγμα Υπολογιστικό πείραμα: Ο πληθυσμός είναι οι ακέραιοι Μέσος: µ = 50 Διακύμανση: σ = 850 N { } { } = 0,,,...,00, N = 0 = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 79 Δειγματική διακύμανση Παράδειγμα Υπολογιστικό πείραμα: Θα πάρουμε ν=00,000 τυχαία δείγματα μεγέθους =5 Θα υπολογίσουμε σε κάθε δείγμα τη διακύμανση με παρονομαστή (α) -και (β). Θα καταγράψουμε την κατανομή των υπολογισμένων διακυμάνσεων με τους τρόπους (α) και (β) Θα υπολογίσουμε -τις μέσες τιμές των δύο αυτών κατανομών και -πόσες φορές ο τρόπος (α) οδηγεί σε εκτιμήσεις που απέχουν λιγότερο από το σ σε σχέση με τον τρόπο (β) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 80 Δειγματική διακύμανση Παράδειγμα Υπολογιστικό πείραμα: Τρόπος α (-) s = 850 σ Τρόποςβ() =5 s = 650 < σ Παρατήρηση: 650 = 850 Ο τρόπος (α) είναι ακριβέστερος του τρόπου (β) στο 60% των δειγµάτων (δηλ. µε πιθανότητα 0.6) Probablty desty 0.0000 0.000 0.0004 0.0006 0.0008 0.000 0.00 0 500 000 500 000 500 σ = 850 varace s Τρόπος β () Τρόπος α (-) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 650 Τυπική απόκλιση = ιακύµανση Μετράται με τιςίδιες μονάδες με τα δεδομένα, και συνεπώς είναι συγκρίσιμη με τον μέσο Εμπειρικός κανόνας για«καμπανοειδείς» κατανομές Περίπου 68%, 95%, και 99.7% των δεδομένων βρίσκονται μεταξύ,, και 3 τυπικών αποκλίσεων γύρω από τον μέσο αντίστοιχα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8 Εμπειρικός κανόνας για«καμπανοειδείς» κατανομές Εναλλακτικός τύπος υπολογισμού διακύμανσης s = Προκύπτει από τον ορισμό και τη σχέση ( ) = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 83 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 84 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4

Υπολογισμός διακύμανσης από την κατανομή συχνοτήτων επαναλαμβανόμενες τιμές Έστω οι τιμές {,,, } που εμφανίζονται με συχνότητες { f, f,, f }.Τότε: s ( ) f f = = = = Παράδειγμα: Έτη σε συνεχή απασχόληση Έτη 0 f 5 f 0 0 f 3 3 3 45 90 80 3 3 96 88 4 84 336 5 8 90 450 6 7 0 6 7 84 588 Άθροισμα 83 569 477 f = 569 = = = 3. 83 f = s = = 477 83 (3.) 3.89 = = 8 8 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 85 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 86 Υπολογισμός διακύμανσης από την κατανομή συχνοτήτων ομαδοποιημένες τιμές Χρησιμοποιείται η ίδια σχέση, όπου οι κεντρικές τιμές και f οι συχνότητες των τάξεων s ( ) f f = = = = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 87 Παράδειγμα: Χρέωση πελατών Χρέωση ( ) Τάξεις ( ) f f f f 50-60 55 0 3.88 6050 60-70 3 65 845 475.7 5495 70-80 6 75 00 3.04 90000 80-90 7 85 595 69.08 50575 90-00 7 95 665 837.08 6375 00-0 5 05 55 343. 555 Άθροισµα 50 3940 9378 39850 ( ) f f = 3940 = 9378 = = = 78.8, s = = = 9.39 50 49 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 88 Ιδιότητες της διακύμανσης Αν όλες οι τιμές είναι ίσες μεταξύ τους, τότε Γραμμικός μετασχηματισμός Παρατήρηση: αν s = 0 α, β = σταθερές = α + β s = β s β = s = s Ιδιότητες της διακύμανσης Γραμμικός μετασχηματισμός παράδειγμα Σε κατηγορία μισθωτών οι καθαρές μέσες μηνιαίες αποδοχές ανέρχονται στα 00 και η διακύμανσή τους σε 4400. Με την εφαρμογή προγράμματος περικοπών, οι αποδοχές μειώθηκαν για κάθε μισθωτό κατά 0% και επιβλήθηκε μηνιαία έκτακτη εισφορά 00. Πόση είναι η διακύμανση των νέων καθαρών μηνιαίων αποδοχών στην κατηγορία; (Απάντηση: 96 ) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 89 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 90 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5

Ιδιότητες της διακύμανσης Hδιακύμανση διακυμάνσεων είναι γραμμικός συνδυασμός των διακυμάνσεων: Έστω σύνολαμε πλήθος παρατηρήσεων σε κάθε σύνολο ίσο με, =,,,. Αν ο μέσος και η διακύμανση των παρατηρήσεων σε κάθε σύνολο είναι και s αντίστοιχα, τότε η διακύμανση του ενιαίου συνόλου είναι: s s = ( ) + = όπου ο αριθµητικός µέσος του ενιαίου συνόλου και το µέγεθος του ενιαίου συνόλου Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Ιδιότητες της διακύμανσης Δηλαδή, = =, = = = s s = ( ) + = Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9 Σχετική διασπορά Ο συντελεστής σχετικής διασποράς ορίζεται ως s cv = και δηλώνει πόσο μεγάλη είναι η τυπική απόκλιση σχετικά με τον μέσο. Χρησιμοποιείται για τη σύγκριση της μεταβλητότητας ανάμεσα σε δύο ή περισσότερα σύνολα παρατηρήσεων, όταν: Οι παρατηρήσεις στα σύνολα εκφράζονται στις ίδιες μονάδες αλλά οι αριθμητικοί μέσοι διαφέρουν σημαντικά Οι παρατηρήσεις στα σύνολα δεν εκφράζονται στις ίδιες μονάδες Ο μέσος πρέπει να είναι σημαντικά διαφορετικός του μηδενός Παράδειγμα Σχετική διασπορά Σε κατηγορία μισθωτών οι καθαρές μέσες μηνιαίες αποδοχές ανέρχονται στα 00 και η διακύμανσή τους σε 4400. Με την εφαρμογή προγράμματος περικοπών, οι αποδοχές μειώθηκαν για κάθε μισθωτό κατά 0% και επιβλήθηκε μηνιαία έκτακτη εισφορά 00. Μεταβλήθηκε η σχετική διασπορά των καθαρών μηνιαίων αποδοχών στην κατηγορία; Χ. Εμμανουηλίδης, cemma@eco.auth.gr 93 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 94 Σχετική διασπορά Παράδειγμα Πριν τις περικοπές: A = 00, sa = 4400 = 0 0 cva = = 0. 00 Μετά τις περικοπές: = 760, s = 96 = 96 96 cvb = = 0.63 760 Η σχετική διασπορά αυξήθηκε B Χ. Εμμανουηλίδης, cemma@eco.auth.gr 95 B Ενδοτεταρτημοριακό εύρος (Η ή IQR) Η διαφορά ανάμεσα στο3 ο και στο ο τεταρτημόριο H = Q3 Q Είναι το εύρος του μεσαίου 50%των διατεταγμένων δεδομένων Δεν επηρεάζεται από ακραίες τιμές (είναι μέτρο «ανθεκτικό σε ακραίες τιμές») Χ. Εμμανουηλίδης, cemma@eco.auth.gr 96 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6

Παράδειγμα Ηλικία σε δείγμα =50ατόμων (σε έτη) αύξουσα διάταξη 5 7 7 7 7 30 3 3 33 33 33 35 35 36 36 36 37 37 38 39 39 40 40 40 4 4 43 44 44 44 45 45 47 48 50 53 54 57 58 6 6 6 63 64 66 69 70 70 7 Να υπολογιστεί το ενδοτεταρτημοριακό εύρος (Η) Χ. Εμμανουηλίδης, cemma@eco.auth.gr 97 Παράδειγμα Ηλικία σε δείγμα =50ατόμων (σε έτη) αύξουσα διάταξη 5 7 7 7 7 30 3 3 33 33 33 35 35 36 36 36 37 37 38 39 39 40 40 40 4 4 43 44 44 44 45 45 47 48 50 53 54 57 58 6 6 6 63 64 66 69 70 70 7 Q = 34.5, Q = 54.75 3 H = Q Q = 54.75 34.5 = 0.5 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 98 Αναγνώριση ακραίων τιμών Ακραία τιμή μια ασυνήθιστα μεγάλη ή μικρή τιμή των δεδομένων Αιτίες: Λάθος στη μέτρηση Λάθος στην καταγραφή των τιμών Σπάνιο(τυχαίο)γεγονός χαρακτηριστικό του πληθυσμού Ανίχνευση Θηκόγραμμα Χ. Εμμανουηλίδης, cemma@eco.auth.gr 99 Θηκόγραμμα Βασίζεται στη σύνοψη των 5 αριθμών Ανίχνευση ακραίων τιμών {, Q, Q, Q, } m 3 ma Πιθανή ακραία τιμή «Μύστακες» Εσωτερικός φράκτης: [Q-.5Η, Q3+.5Η] όχι στο σχήμα Εξωτερικός φράκτης: : [Q-3Η, Q3+3Η] όχι στο σχήμα Φέρουμε γραμμές («μύστακες»)μέχρι τις τιμές των δεδομένων εντός του εσωτερικού φράκτη που είναι πιο κοντάστα όριά του Χ. Εμμανουηλίδης, cemma@eco.auth.gr 00 Q 3 Διάμεσος Q Ανίχνευση ακραίων τιμών Θηκόγραμμα Πιθανή ακραία τιμή «Μύστακες» Κανόνας τιμές ανάμεσα στον εσωτερικό και εξωτερικό φράκτη είναι ύποπτες για ακρότητα και σημειώνονται συνήθως με ο τιμές εκτός του εξωτερικού φράκτη θεωρούνται ακραίες και σημειώνονται συνήθως με * Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0 Q 3 Διάμεσος Q Θηκόγραμμα - Χρησιμότητα Αποκαλύπτει ακραίες ή ύποπτες τιμές για ακρότητα Προσδιορίζει τη θέση των δεδομένων με την απεικόνιση της διαμέσου Προσδιορίζει τη διασπορά των δεδομένων με το μήκος του παραλληλογράμμου (ενδοτεταρτημοριακόεύρος) και των γραμμών («μύστακες») Προσδιορίζει τη λοξότητα της κατανομής: Αν το μέρος του παραλληλογράμμου αριστερά της διαμέσου είναι μεγαλύτερο από το μέρος δεξιά ή/και η αριστερή γραμμή μεγαλύτερη από αυτήν δεξιά, τότε η κατανομή έχει αριστερή λοξότητα και αντίστροφα. Χ. Εμμανουηλίδης, cemma@eco.auth.gr 0 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7

Τέλος ενότητας Χ. Εμμανουηλίδης, cemma@eco.auth.gr 03 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8