Σ ΤΑΤ Ι Σ Τ Ι Κ Η MBA I

Σχετικά έγγραφα
Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Βιοστατιστική ΒΙΟ-309

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Περιγραφική Στατιστική

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Μάθηµα 3 ο. Περιγραφική Στατιστική

Εισαγωγή στη Στατιστική

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

Περιγραφική Στατιστική

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Εισαγωγή στη Στατιστική

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές Διερευνητική Ανάλυση Δεδομένων

Ποσοτικές Μέθοδοι., Εισηγητής: Ν.Κυρίτσης, MBA, Ph.D. Candidate,,

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Εφαρμοσμένη Στατιστική

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

Στατιστική Επιχειρήσεων Ι

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Εισαγωγή στην Κανονική Κατανομή. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

1 ο ΜΑΘΗΜΑ Εισαγωγή στη Στατιστική

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΑΣΚΗΣΕΙΣ Γ.Π. ΚΕΦ 1,2,3

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

F x h F x f x h f x g x h g x h h h. lim lim lim f x

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΚΕΦΑΛΑΙΟ. 1. α. Tι ονοµάζεται συνάρτηση από το σύνολο Α στο σύνολο Β; β. Tι ονοµάζεται πραγµατική συνάρτηση πραγµατικής µεταβλητής;

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Α. α) ίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιµες, να αποδείξετε ότι: F (x)=f (x)+g (x).

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

Mέτρα (παράμετροι) θέσεως

Η Κανονική Κατανομή. Κανονικές Κατανομές με την ίδια διασπορά και διαφορετικές μέσες τιμές.

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Στατιστική Επιχειρήσεων 1 Μάθημα του A Εξαμήνου

i Σύνολα w = = = i v v i=

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

ΩΚΕΑΝΟΓΡΑΦΙΑ. Πρακτική Άσκηση 4- Θεωρητικό Υπόβαθρο ΕΦΑΡΜΟΣΜΕΝΗ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΤΟΜΕΑΣ ΓΕΩΓΡΑΦΙΑΣ & ΚΛΙΜΑΤΟΛΟΓΙΑΣ ΤΜΗΜΑ ΓΕΩΛΟΓΙΑΣ & ΓΕΩΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΟΥ ΕΠΑ.Λ. Δ. Ε. ΚΟΝΤΟΚΩΣΤΑΣ ΜΑΘΗΜΑΤΙΚΟΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

Transcript:

Σ ΤΑΤ Ι Σ Τ Ι Κ Η MBA I

Τι κάνει η Στατιστική

Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες φορές, με την χρήση και την επεξεργασία ενός μοναδικού δείγματος. 3

Στη Διοίκηση των Επιχειρήσεων Παρέχει μεθόδους για τη συνοπτική παρουσίαση των αριθμητικών δεδομένων. Βοηθά στην εξαγωγή αξιόπιστων συμπερασμάτων. Οδηγεί σε ασφαλείς προβλέψεις που αφορούν τις επιχειρηματικές δραστηριότητες. Συμβάλλει στη λήψη αποφάσεων για τη βελτίωση των επιχειρηματικών διαδικασιών. 4

Δύο κύριοι κλάδοι της Στατιστικής Περιγραφική (Descriptive) Το σύνολο των μεθόδων που χρησιμοποιούμε για την οργάνωση, την παρουσίαση και την περιγραφή ενός συνόλου δεδομένων. Επαγωγική (Inferential) Το σύνολο των μεθόδων που χρησιμοποιούμε ώστε από τα δεδομένα ενός υποσυνόλου να εξάγουμε συμπεράσματα για τα χαρακτηριστικά ολόκληρου του συνόλου. 5

Το βασικό λεξιλόγιο της Στατιστικής

Μεταβλητή (Variable) Κάθε χαρακτηριστικό ενός αντικειμένου ή ενός ατόμου. Δεδομένα (Data) Οι τιμές που καταγράφονται για μία μεταβλητή. Οι μεταβλητές είναι τα χαρακτηριστικά των ατόμων ή των αντικειμένων τα οποία ενδιαφερόμαστε να μελετήσουμε. Διαφοροποιούνται από άτομο σε άτομο, από αντικείμενο σε αντικείμενο, από περιοχή σε περιοχή ή αλλάζουν με το πέρασμα του χρόνου. Οι τιμές που συλλέγουμε όταν παρατηρούμε τα αντικείμενα αποτελούν τα δεδομένα της μεταβλητής ή, με άλλα λόγια, τα δεδομένα που πρόκειται να αναλυθούν. 7

Πληθυσμός (Population) Το σύνολο όλων των οντοτήτων που επιθυμούμε να μελετήσουμε ως προς ένα ή περισσότερα χαρακτηριστικά του. Δείγμα (sample) Μέρος του πληθυσμού που επιλέγεται για την ανάλυση. Δείγμα Πληθυσμός στόχος 8

Παράμετρος πληθυσμού (parameter) Μέτρο, που συνοψίζει κάποιο χαρακτηριστικό του πληθυσμού. Η αριθμητική του τιμή υπολογίζεται από το σύνολο του πληθυσμού και είναι μοναδική. Στατιστικό ή στατιστική δείγματος (statistic) Μέτρο, που συνοψίζει κάποιο χαρακτηριστικό του δείγματος. Η αριθμητική του τιμή υπολογίζεται από το δείγμα. Διαφορετικά δείγματα αποδίδουν, κατά κανόνα, διαφορετική τιμή σε ένα στατιστικό. 9

Παράμετρος vs. Στατιστικό Πληθυσμός Δείγμα 1 Σε ένα κουτί υπάρχουν 100 χάρτινες καρδούλες, 20 από τις οποίες είναι καφέ. Επομένως, στον πληθυσμό, η αναλογία για τις καφέ καρδούλες είναι 20 0,20 100 Η αναλογία λ στον πληθυσμό είναι μία παράμετρος του πληθυσμού. Στο δείγμα, η αναλογία για τις καφέ καρδούλες είναι 2 p1 0,18 11 Η αναλογία p στο δείγμα, είναι ένα στατιστικό του δείγματος. Η τιμή του στατιστικού p1 = 0,18 που υπολογίζεται από το δείγμα, είναι μία εκτίμηση της αντίστοιχης παραμέτρου λ στον πληθυσμό. 10

Παράμετρος Στατιστικό Εκτίμηση Ας υποθέσουμε ότι από τον προηγούμενο πληθυσμό επιλέγουμε ένα δεύτερο δείγμα. Πληθυσμός Δείγμα 2 Η τιμή της αναλογίας λ στον πληθυσμό, για τις καφέ καρδούλες, παραμένει ίδια. Παρατηρούμε όμως, ότι η τιμή της αναλογίας p στο δείγμα είναι διαφορετική. 3 p2 0,21 14 Η τιμή p2 = 0,21 είναι επίσης μία εκτίμηση της παραμέτρου λ. Η τιμή μιας παραμέτρου είναι μοναδική, αλλά συνήθως άγνωστη. Η τιμή ενός στατιστικού είναι διαφορετική από δείγμα σε δείγμα. Η τιμή από ένα στατιστικό είναι μια εκτίμηση της πραγματικής, αλλά συνήθως άγνωστης τιμής, της αντίστοιχης παραμέτρου στον πληθυσμό. Διαφορετικά δείγματα δίνουν διαφορετικές εκτιμήσεις για την ίδια παράμετρο. Η στατιστική εγγυάται ότι κάθε δείγμα που επιλέγεται ακολουθώντας τους κανόνες της δειγματοληψίας θα δώσει μια βέλτιστη εκτίμηση της παραμέτρου. 11

Είδη Μεταβλητών Κλίμακες Μέτρησης

Είδη μεταβλητών Ποσοτικές (Quantitative) ή Αριθμητικές (Numerical) Αντιστοιχούν στα χαρακτηριστικά που μπορούν να μετρηθούν, με την κοινή έννοια του όρου. Κατηγορικές (Categorical) ή Ποιοτικές (qualitative) Καταγράφουν κάποιο ποιοτικό (μη μετρήσιμο) χαρακτηριστικό. Τιμή μεταβλητής Το αποτέλεσμα που προκύπτει από τη μέτρηση ή την καταγραφή της. 13

Ποσοτικές μεταβλητές Διακριτές (discrete) Τιμές από αριθμήσιμο σύνολο (πεπερασμένο ή άπειρο) Χ: Το πλήθος των μαθημάτων που μπορεί να δηλώσει ένας φοιτητής. Τιμές από το σύνολο {1, 2,.,8} Υ: Το πλήθος των αυτοκινήτων που παιρνούν από μία διαστάυρωση σε μία ημέρα. Τιμές από το σύνολο {0, 1, 2,.} Συνεχείς (continuous) Τιμές από ένα διάστημα πραγματικών αριθμών. T: Η διάρκεια λειτουργίας ενός ηλεκτρικού λαμπτήρα ( σε h) Τιμές στο διάστημα (0, 10.000) Η τιμή που καταγράφουμε όταν μετρούμε μία συνεχή μεταβλητή είναι, τις περισσότερες φορές, μία προσέγγιση της πραγματικής τιμής η οποία εξαρτάται από την ακρίβεια του οργάνου μέτρησης. 14

Ποιοτικές μεταβλητές Ονομαστικές (nominal) Οι τιμές τους είναι λέξεις, δηλαδή «χαρακτηρισμοί» ή «ετικέτες», και μεταξύ τους δεν υπάρχει καμιά σχέση ιεραρχίας. W: Το χρώμα των μαλλιών Τιμές από το σύνολο {ξανθό, καστανό, μαύρο} Διατακτικές (ordinal) Οι τιμές τους είναι και πάλι λέξεις, αλλά μεταξύ τους υπάρχει ιεραρχία. Q: Ποιότητα διαμονής σε ένα τουριστικό θέρετρο. Τιμές από το σύνολο {κακή, μέτρια, καλή, εξαιρετική} και μεταξύ των χρωμάτων δεν έχει νόημα να θεωρήσουμε κάποια ιεραρχία. και η ιεραχία μεταξύ των χαρακτηρισμών έχει νόημα. 15

Οργάνωση και παρουσίαση ποσοτικών δεδομένων (ομαδοποίηση)

Τίποτα καλύτερο από ένα παράδειγμα. Κάναμε μια έρευνα, για να μελετήσουμε το ύψος της ατομικής δαπάνης (έξοδα μετακίνησης, καφέδες, τσιγάρα, κ.λ.π.) των εργαζομένων. Για το σκοπό αυτό, ρωτήσαμε 45 εργαζόμενους και πήραμε τις παρακάτω απαντήσεις. 3,7 6,7 4,4 6,2 4,1 6,0 5,1 5,3 2,8 5,3 5,3 1,4 5,4 7,5 3,0 6,6 1,1 4,7 1,6 1,7 4,4 5,5 3,0 9,4 6,5 1,4 5,5 5,4 5,8 6,8 4,2 6,0 2,4 6,1 5,6 6,8 5,6 5,8 6,0 7,4 2,5 6,2 3,9 4,7 3,1 Μπορείτε, κοιτάζοντας τα παραπάνω δεδομένα, να πείτε κάτι για την ατομική δαπάνη των εργαζομένων; Μάλλον, όχι. Χρειαζόμαστε μια «οργανωμένη» παρουσίαση των δεδομένων και αυτή, στην περίπτωση των ποσοτικών δεδομένων, λέγεται ομαδοποίηση. 17

Πίνακας συχνοτήτων Ατομική Δαπάνη /ημέρα [ ) Κέντρο Συχνότητα Αθροιστική xi fi Συχνότητα % Σχετική Συχνότητα % Σχετική Αθροιστική Συχνότητα 1,0 2,5 1,75 6 6 13,33 13,33 2,5 4,0 3,25 7 13 15,56 28,89 4,0 5,5 4,75 12 25 26,67 55,56 5,5 7,0 6,25 17 42 37,78 93,33 7,0 8.5 7,75 2 44 4,44 97,78 8,5 10 9,25 1 45 2,22 100,00 ΣΥΝΟΛΑ n = 45 100,00 p i Fi 12 από τους 45 εργαζόμενους δαπανούν 4 έως 5,5 /ημέρα. 26,67% των εργαζομένων που ρωτήθηκαν, δαπανούν 4 έως 5,5 /ημέρα. 55,56% των εργαζομένων που ρωτήθηκαν, δαπανούν λιγότερα από 5,5 /ημέρα. 100 55,56 = 44,44% των εργαζομένων που ρωτήθηκαν, δαπανούν 5,5 έως 10 /ημέρα. 18

Σχετική Συχνότητα % Ιστόγραμμα Σχετικών Συχνοτήτων 40 35 37,78 30 25 26,67 20 15 10 13,33 15,56 5 4,44 2,22 0 1,0 2,5 2,5 4,0 4,0 5,5 5,5 7,0 7,0 8.5 8,5 10 Ατομική Δαπάνη ( /ημέρα) Κατασκευάζεται από τη στήλη των % σχετικών συχνοτήτων του πίνακα συχνοτήτων. Επομένως, μας δίνει τις ίδιες πληροφορίες. Αναπαριστά τον τρόπο με τον οποίο οι τιμές της μεταβλητής στο δείγμα κατανέμονται στις κλάσεις. Το ιστόγραμμα που κατασκευάζεται από το δείγμα είναι ένα «αποτύπωμα», μια «ακτινογραφία» του πληθυσμού, είναι το «παράθυρο μας στον κόσμο». 19

Σχετική Αθροιστική Συχνότητα % Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων 100 90 80 70 60 50 40 30 20 10 0 93,33 97,78 100 55,56 28,89 13,33 1,0 2,5 2,5 4,0 4,0 5,5 5,5 7,0 7,0 8.5 8,5 10 Ατομική Δαπάνη ( /ημέρα) Κατασκευάζεται από τη στήλη των % σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων. Επομένως, μας δίνει τις ίδιες πληροφορίες. Αναπαριστά τον τρόπο, την «ταχύτητα» με τον οποίο οι τιμές της μεταβλητής στο δείγμα συσσωρεύονται σταδιακά στις κλάσεις. 20

Συνεχείς Τυχαίες Μεταβλητές Ιστογράμματα και Πολύγωνα Συναρτήσεις Κατανομής

Πίνακας Συχνοτήτων για το βάρος των παραγόμενων απορριμάτων στις 28 χώρες της Ευρωπαϊκής Ένωσης, το 2013. (ΠΗΓΗ: EUROSTAT) Βάρος παραγόμενων απορριμάτων Kgr/κεφαλή [ ) Κέντρο Συχνότητα Αθροιστική xi fi Συχνότητα % Σχετική Συχνότητα p i % Σχετική Αθροιστική Συχνότητα Fi 250 350 300 6 6 21,43 21,43 350 450 400 8 14 28,57 50,00 450 550 500 7 21 25,00 75,00 550 650 600 5 26 17,86 92,86 650 750 700 2 28 7,14 100 ΣΥΝΟΛΑ n = 28 100,00 ΜΕΤΑΒΛΗΤΗ ΠΛΗΘΥΣΜΟΣ Χ: Το βάρος των παραγόμενων απορριμάτων (Kgr/κεφαλή) Οι 28 χώρες της Ευρωπαϊκής Ένωσης 22

Σχετική Συχνότητα (%) Το ιστόγραμμα των συχνοτήτων (frequency histogram) απεικονίζει το σχήμα, τη μορφή της κατανομής. Για ισοπλατείς κλάσεις, και λαμβάνοντας ως μονάδα μέτρησης το εύρος τους, το ύψος και το πλάτος ενός ορθογωνίων είναι ίσα με τη συχνότητα της αντίστοιχης κλάσης. Το συνολικό εμβαδό των ορθογωνίων είναι 100 (ή 1). 30,00 25,00 20,00 15,00 10,00 21,43 28,57 25,00 17,86 5,00 7,14 0,00 ΠΗΓΗ: EUROSTAT 250-350 350-450 450-550 550-650 650-750 Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) Παρατηρούμε την αυξημένη συγκέντρωση τιμών στις κλάσεις 350 450 και 450 550. Η κατανομή εμφανίζει μία μόνον κορυφή. Φαίνεται επίσης να μην είναι συμμετρική, καθώς οι παρατητήσεις εκτείνονται προς τα δεξιά περισσότερο απ ότι προς τα αριστερά. 23

Σχετική Συχνότητα (%) Το πολύγωνο των συχνοτήτων (frequency polygon) μας επιτρέπει να κατανοήσουμε το σχήμα της κατανομής. Είναι ιδιαίτερα χρήσιμο όταν θέλουμε να συγκρίνουμε σύνολα δεδομένων. 30,00 28,57 25,00 25,00 20,00 15,00 21,43 17,86 10,00 7,14 5,00 0,00 ΠΗΓΗ: EUROSTAT 300 400 500 600 700 Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) Στο πολύγωνο των συχνοτήτων τα κέντρα των κλάσεων χρησιμοποιούνται ως «αντιπρόσωποι» των κλάσεων και, μαζί με δύο υποθετικά κέντρα μηδενικής συχνότητας στα αριστερά της πρώτης κλάσης και στα δεξιά της τελευταίας κλάσης, συνδέονται με ευθύγραμμα τμήματα, σχηματίζοντας το πολύγωνο των συχνοτήτων. 24

Κάτω από το πολύγωνο των συχνοτήτων Χωρίζουμε τώρα το πολύγωνο σε τραπέζια και δύο ορθογώνια τρίγωνα. Το εμβαδό καθενός από αυτά τα χωρία, χρησιμοποιώντας πάντα ως μονάδα μέτρησης το εύρος των κλάσεων, είναι μια εκτίμηση του ποσοστού συγκέντρωσης (της πυκνότητας) των τιμών της μεταβλητής στην αντίστοιχη κλάση. Το άθροισμα όλων των εμβαδών είναι ίσο με 1 (ή 100%). Στο 26,785 % περίπου, των χωρών της Ε.Ε. το βάρος των παραγόμενων απορριμάτων είναι 400 500 Kgr/κεφαλή. 25

Σχετική Συχνότητα (%) Συνάρτηση Κατανομής ( ή Πυκνότητας) Πιθανότητας Probability Distribution (Density) Function 30,00 f(x) 25,00 20,00 15,00 10,00 5,00 0,00 250 300 400 500 600 700 750 ΠΗΓΗ: -5,00 ΕΛΣΤΑΤ Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) Τέλος, πάνω στο πολύγωνο συχνοτήτων μιας συνεχούς μεταβλητής προσαρμόζουμε μια λεία καμπύλη. Αυτή η καμπύλη δεν είναι τίποτα άλλο παρά η γραφική παράσταση μιας συνάρτης f(x). Μια τέτοια συνάρτηση ονομάζεται συνάρτηση κατανομής πιθανότητας (probability distribution function) ή συνάρτηση πυκνότητας πιθανότητας (probability density function) της συνεχούς τυχαίας μεταβλητής Χ. 26

Συναρτήσεις πυκνότητας και υπολογισμός πιθανοτήτων Είδαμε παραπάνω πώς, χρησιμοποιώντας το πολύγωνο των συχνοτήτων, μπορούμε να υπολογίσουμε (για την ακρίβεια να εκτιμήσουμε) το ποσοστό των τιμών της μεταβλητής που συγκεντρώνονται σε κάθε μια από τις κλάσεις που έχουμε ορίσει. Αυτό το ίδιο ποσοστό, είναι ταυτόχρονα και μία εκτίμηση της πιθανότητας η μεταβλητής μας να παίρνει τιμή στο συγκεκριμένο διάστημα. Για παράδειγμα, η πρόταση «Στο 26,785 % περίπου, των χωρών της Ε.Ε. το βάρος των παραγόμενων απορριμάτων είναι από 400 500 Kgr/κεφαλή» είναι ισοδύναμη με την πρόταση «Η πιθανότητα για μια χώρα της Ε.Ε. το βάρος των παραγόμενων απορριμάτων να είναι 400 500 Kgr/κεφαλή, εκτιμάται σε 0,26785 (ή 26,785%). Το μειονέκτημα με το πολύγωνο των συχνοτήτων είναι ότι δεν μπορούμε να δώσουμε εύκολα τις απαντήσεις για κάθε διάστημα, αλλά μόνον για τα διαστήματα που ορίζονται από τις κλάσεις. Πώς λοιπόν μπορούμε να απαντήσουμε στην ερώτηση «Ποιά η πιθανότητα για μια χώρα της Ε.Ε., το βάρος των παραγόμενων απορριμάτων να είναι 520 630 Kgr/ κεφαλή;» 27

Συναρτήσεις πυκνότητας και υπολογισμός πιθανοτήτων f f x x A 630 520 630 P X A f x dx 520 Η ζητούμενη πιθανότητα, υπολογίζεται από το εμβαδόν του χωρίου Α που ορίζεται από τη γραφική παράσταση της συνάρτησης πυκνότητας f(x), τον οριζόντιο άξονα και τα κάθετα ευθύγραμμα τμήματα στα σημεία 520 και 630. Έτσι, το πρόβλημα ανάγεται στον υπολογισμό ενός ορισμένου ολοκληρώματος, δηλαδή 630 520 630 P X A f x dx 520 28

Ιδιότητες των συναρτήσεων πυκνότητας πιθανότητας Οι συναρτήσεις πυκνότητας πιθανότητας που περιγράφουν την κατανομή μιας συνεχούς τυχαίας μεταβλητής έχουν τις παρακάτω ιδιότητες. 1) Το συνολικό εμβαδόν κάτω από μία καμπύλη πυκνότητας πιθανότητας είναι ίσο με 1. Δηλαδή f x dx 1 E 1 f x 2) Μια συνάρτηση πυκνότητας πιθανότητας παίρνει μόνον μη αρνητικές τιμές, και επομένως η γραφική της παράσταση βρίσκεται πάνω από τον οριζόντιο άξονα. Δηλαδή f x 0 29

Υπολογισμός πιθανοτήτων από τη συνάρτηση πυκνότητας 1) Για μια συνεχή τυχαία μεταβλητή Χ, η πιθανότητα να πάρει ακριβώς μία συγκεκριμένη τιμή είναι 0,δηλαδή a 0 P X 2) Η πιθανότητα να έχει τιμές σε ένα διάστημα (α, b), υπολογίζεται από το εμβαδόν κάτω από την καμπύλη της πυκνότητας που ορίζεται από τα άκρα του διαστήματος, δηλαδή b P a X b f x dx a f x 3) Η πιθανότητα να έχει τιμές μικρότερες από έναν έναν αριθμό α, υπολογίζεται από το εμβαδόν κάτω από την καμπύλη της πυκνότητας στα αριστερά του α, δηλαδή P X a f x dx a f x α 30

Σετική Αθροιστική Συχν τητα ( % ) Το ιστόγραμμα των αθροιστικών συχνοτήτων (cumulative percentage histogram) μας δείχνει τον τρόπο με τον οποίο συγκεντρώνονται οι τιμές της μεταβλητής. 100,00 100,00 90,00 92,86 80,00 70,00 75,00 60,00 50,00 50,00 40,00 30,00 20,00 21,43 10,00 0,00 ΠΗΓΗ: EUROSTAT 250 350 450 550 650 750 Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) Παρατηρούμε ότι ήδη μέχρι την την δεύτερη κλάση έχει συγκεντρωθεί το 50% των τιμών της μεταβλητής. Αυτό σημαίνει ότι στο 50% του δείγματος οι τιμές της μεταβλητής είναι μικρότρες από το άνω άκρο της δεύτερης κλάσης. Επομένως, για το έτος 2013 στις μισές χώρες της Ε.Ε. το βάρος των παραγόμενων απορριμάτων ήταν μικρότερο από 450 Kgr/ κεφαλή. 31

Σχετική Αθροιστική Συχνότητα ( % ) Το πολύγωνο των αθροιστικών συχνοτήτων (cumulative percentage polygon ή ogive) μας δίνει τις ίδιες πληροφορίες με το ιστόγραμμα των αθροιστικών συχνοτήτων. Επίσης, χρησιμεύει όταν θέλουμε να συγκρίνουμε σύνολα δεδομένων 100,00 90,00 80,00 70,00 60,00 75,00 92,86 100,00 50,00 50,00 40,00 30,00 20,00 21,43 10,00 0,00 ΠΗΓΗ: EUROSTAT 250 350 450 550 650 750 Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) Για την κατασκευή του χρησιμοποιούμε τα άνω δεξιά άκρα των κλάσεων και το κάτω αριστερό άκρο της πρώτης κλάσης, τα οποία συνδέονται με εθύγραμμα τμήματα. Μεγάλη κλίση ενός τμήματος φανερώνει αυξημένη και απότομη συγκέντρωση τιμών στην κλάση που ορίζεται από τα άκρα του. 32

Η χρησιμότητα της αθροιστικής συνάρτησης κατανομής F(600)=0.85 F 250 350 450 550 600 650 750 ΠΗΓΗ: EUROSTAT Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) Η συνάρτηση αθροιστικής κατανομής μας επιτρέπει να υπολογίσουμε την πιθανότητα η μεταβλητής μας να παίρνει τιμές μικρότερες ή ίσες από έναν δοσμένο αριθμό. Για παράδειγμα, η πιθανότητα για μια χώρα της Ε.Ε. το βάρος των παραγόμενων απορριμάτων να είναι το πολύ 600 Kgr/ είναι F P X 600 600 0.85 33

Υπολογισμός πιθανοτήτων από την αθροιστική συνάρτηση κατανομής. F(b) F (x) F(b) F(α) F(α) α b x 1) Για μια συνεχή τυχαία μεταβλητή, η πιθανότητα να έχει τιμές μικρότερες ή ίσες ενός αριθμού α, υπολογίζεται από την τιμή της αθροιστικής συνάρτησης κατανομής στο α, δηλαδή P X a F a 2) Η πιθανότητα να έχει τιμές σε ένα διάστημα (α, b) υπολογίζεται από τη διαφορά των τιμών της αθροιστικής συνάρτησης στα άκρα του διαστήματος, δηλαδή P a x b F b F a 34

Αριθμητικά Περιγραφικά Μέτρα

Τα αριθμητικά περιγραφικά μέτρα (numerical descriptive measures) είναι αριθμοί που συμβάλουν στην περιγραφή της κατανομής μιας τυχαίας μεταβλητής. Ονομάζονται παράμετροι του πληθυσμού (parameters) όταν υπολογίζονται από τον πληθυσμό και τότε η τιμή τους είναι μοναδική. Κατά κανόνα, η τιμή μιας παραμέτρου στον πληθυσμό δεν μπορεί να υπολογιστεί. Και είναι ακριβώς αυτή η άγνωστη ποσότητα την οποία η Στατιστική προσπαθεί να «εντοπίσει» και για την οποία προσπαθεί να «μιλήσει». Ονομάζονται στατιστικά (statistics) όταν υπολογίζονται από ένα δείγμα του πληθυσμού. Προφανώς, από διαφορετικά δείγματα προκύπτουν διαφορετικές τιμές για ένα στατιστικό. Στις περισσότερες περιπτώσεις όμως, η τιμή του στατιστικού είναι η βέλτιστη εκτίμηση της αντίστοιχης παραμέτου στο πληθυσμό, ενώ η ορθή χρήση των μεθόδων της Στατιστικής μας επιτρέπει να εξάγουμε αξιόπιστα συμπεράσματα για την παράμετρο και, συνεπώς, για τον πληθυσμό. 36

Τα αριθμητικά περιγραφικά μέτρα ορίζονται στον πληθυσμό, αλλά υπολογίζονται (εκτιμώνται) από ένα δείγμα. Παράμετρος στον πληθυσμό ο «στόχος» μας. Γνωστός, αλλά μακρινός και δισδιάκριτος. Τιμή μοναδική αλλά άγνωστη. Στατιστικό δείγματος το «όπλο» μας Από διαφορετικά δείγματα, προκύπτουν διαφορετικές τιμές. Οι περισσότρες θα βρίσκονται πολύ κοντά στον στόχο. (Πάντα υπάρχει η πιθανότητα να αστοχίσουμε!!) Τα «εργαλεία» της Στατιστικής κατασκευάζονται με τέτοιο τρόπο, ώστε η πιθανότητα αστοχίας (σφάλματος) να είναι όσο το δυνατόν μικρότερη. 37

Μέτρα Κεντρικής Τάσης

Τα Μέτρα Κεντρικής Τάσης (Central Tendency Measures) μας πληροφορούν, το καθένα με διαφορετικό τρόπο, για το «κέντρο» της κατανομής. Προσπαθούν να αποτυπώσουν με τρόπο μαθηματικό, τις διαισθητικές αντιλήψεις που έχουμε όταν αναφέρουμε ή ακούμε τη λέξη «κέντρο». Τί δηλώνει, για παράδειγμα, κάποιος όταν λέει, «Η πλατεία Αριστοτέλους είναι το κέντρο της Θεσσαλονίκης»; Την ποιό πολυσύχναστη πλατεία; Το μέρος που πρέπει να επισκεφτεί κάποιος για να αποκτήσει την ποιο ξεκάθαρη εικόνα για την πόλη; Το γεωγραφικό της κέντρο; Ταυτίζονται οι παραπάνω ιδιότητες, ή μπορούμε να μιλάμε για διαφορετικά «κέντρα;». Και αν έχουμε διαφορετικά κέντρα ποιό είναι το καταλληλότερο, το ποιο αντιπροσωπευτικό του πληθυσμού; 39

Ο Αριθμητικός Μέσος (Arithmetic Mean) Ο αριθμητικός μέσος (arithmetic mean) ή απλά μέσος (mean) ή μέση τιμή της μεταβλητής Χ στον πληθυσμό συμβολίζεται με και ορίζεται να είναι το πηλίκο x1 x2 xn N όπου x1, x2,, xn οι τιμές της μεταβλητής στον πληθυσμό και N το μέγεθος του πληθυσμού. Εκτιμάται από τον δειγματικό αριθμητικό μέσο (sample arithmetic mean) ή δειγματική μέση τιμή της μεταβλητής Χ (sample mean value). Η δειγματική μέση τιμή συμβολίζεται με X και υπολογίζεται από το στατιστικό x1 x2 xn X n όπου x1, x2,, xn οι τιμές της μεταβλητής στον πληθυσμό και το μέγεθος του δείγματος. n 40

Ο Αριθμητικός Μέσος και το είδος της πληροφορίας που μας δίνει o Αντιπροσωπεύει τον πληθυσμό, και είναι το σημείο που χρησιμοποιούμε για να αξιολογήσουμε την απόκλιση ενός τυχαίου αντικειμένου του πληθυσμού από τον «κανόνα». Για παράδειγμα, αν το μέσο μηνιαίο εισόδημα των εργαζομένων εκτιμάται σε 1.000, τότε θα χαρακτηρίσουμε ως υψηλόμισθο κάποιον που αμοίβεται με 1400. o Υπολογίζει την αναμενόμενη (ή προσδοκόμενη) τιμή. Αυτό σημαίνει ότι αν επιλέξουμε τυχαία ένα αντικείμενο από τον πληθυσμό και μετρήσουμε κάποιο χαρακτηριστικό του, αναμένουμε (προσδοκούμε, ελπίζουμε) ότι η τιμή που θα βρούμε θα βρίσκεται κοντά στον αριθμητικό μέσο του χαρακτηριστικού. Για παράδειγμα, αν έχουμε την πληροφορία ότι το μέσο κέρδος για ένα τυχερό παιχνίδι εκτιμάται σε 50 τότε, στην περίπτωση που παίξουμε, προσδοκούμε σε κέρδος της τάξης των 40-50. 41

Ο Αριθμητικός Μέσος ως σημείο ισορροπίας της Κατανομής Μια ακόμη ερμηνεία του αριθμητικού μέσου είναι αυτή του σημείου ισοοροπίας μιας κατανομής. Δηλαδή, τοποθετώντας μοναδιαία βάρη στις θέσεις των τιμών της μεταβλητής πάνω σε μία βαθμονομημένη ράβδο αμελητέου βάρους, αυτή θα ισορροπίσει στην ένδειξη που συμπίπτει με τον αριθμητικό μέσο. 2 2 1 1 1 1 2 3 4 5 6 7 8 9 10 11 ΑΡΙΘΜΗΤΙΚΟΣ ΜΕΣΟΣ = 7 Αυτό σημαίνει ότι αν ο πληθυσμός μας γινόταν ξαφνικά απολύτως ομοιογενής ως προς το χαρακτηριστικό που μελετάμε, αν για κάποιο λόγο εξέλειπε η μεταβλητότητα, τότε, για όλα τα αντικείμενα του πληθυσμού η τιμή του αυτού του χαρακτηριστικού θα ταυτιζόταν με τον αριθμητικό μέσο. Στο παράδειγμά μας, όλες οι μετρήσεις θα στοιβάζονταν στο 7. 42

Πλεονεκτήματα Μειονεκτήματα Στον υπολογισμό του χρησιμοποιούνται όλες οι τιμές του δείγματος. Παράγει μία μοναδική τιμή. Υπολογίζεται εύκολα. Χρησιμοποιείται για περεταίρω στατιστική ανάλυση. Επηρεάζεται από ακραίες τιμές. Όταν η κατανομή της μεταβλητής εμφανίζει έντονη θετική ή αρνητική ασυμμετρία, τότε ο μέσος είναι ακατάλληλος ως μέτρο κεντρικής τάσης δηλαδή δεν μπορεί να θεωρηθεί ως κατάλληλος αντιπρόσωπος του πληθυσμού. Σε κάποιες περιπτώσεις δεν αποτελεί τιμή της μεταβλητής. Πλεονεκτήματα και Μειονεκτήματα του Αριθμητικού Μέσου 43

Η Επικρατούσα τιμή ή Τύπος (Mode) Η επικρατούσα τιμή μιας μεταβλητής Χ στον πληθυσμό, είναι η τιμή που εμφανίζεται τις περισσότερες φορές. Θα συμβολίζουμε με Εκτιμάται από την δειγματική κορυφή την οποία θα συμβολίζουμε με M o. Παρακάτω βλέπετε το γραφικό προσδιορισμό της επικρατούσας τιμής. 44

Η Επικρατούσα Τιμή και το είδος της πληροφορίας που μας δίνει Όταν για μία συνεχή μεταβλητή Χ μας δίνεται η επικρατούσα τιμή, τότε γνωρίζουμε το μεγαλύτερο ποσοστό του πληθυσμού συγκεντρώνεται γύρω από από αυτή την τιμή. Αν, για παράδειγμα, μας δοθεί η πληροφορία ότι η επικρατούσα τιμή του μηνιαίου εισοδήματος των εργαζομένων εκτιμήθηκε σε 780, τότε γνωρίζουμε ότι στο μεγαλύτερο ποσοστό των εργαζομένων οι μηνιαίες αποδοχές είναι περίπου 780. Η αξία βέβαια της παραπάνω πληροφορία εξαρτάται από τιμή του ποσοστού. Μια τιμή μπορεί να είναι επικρατούσα σε σχέση με τις υπόλοιπες αλλά αυτό δεν σημαίνει κατ ανάγκη ότι είναι και «ισχυρή». Έτσι, στα ομαδοποιημένα δεδομένα, είναι πολλές φορές προτιμότερο να αναφερόμαστε στην επικρατούσα κλάση και στο αντίστοιχο ποσοστό, λαμβάνοντας ως αντιπρόσωπο το κέντρο της. Για παράδειγμα, «στο μεγαλύτερο ποσοστό των εργαζομένων ( 35%) οι μηνιαίες αποδοχές είναι περίπου 750» 45

Πλεονεκτήματα Μειονεκτήματα Σε μία συμμετρική μονοκόρυφη κατανομή είναι επίσης αμερόληπτη εκτιμήτρια του μέσου και της διαμέσου. Υπολογίζεται εύκολα. Στον υπολογισμό της δεν χρησιμοποιούνται όλες οι τιμές του δείγματος. Δεν έχει πάντα μοναδική τιμή. Δεν χρησιμοποιείται για περεταίρω στατιστική ανάλυση. Πλεονεκτήματα και Μειονεκτήματα της Επικρατούσας Τιμής 46

Η Διάμεσος (Median) Η διάμεσος τιμή της μεταβλητής Χ στον πληθυσμό, βρίσκεται σε εκείνη τη θέση που χωρίζει τον διατεταγμένο πληθυσμό σε δύο ίσα μέρη. Θα τη συμβολίζουμε Εκτιμάται από την δειγματική διάμεσο την οποία θα συμβολίζουμε με ή και υπολογίζεται από τα παρακάτω στατιστικά M d M e όταν το πλήθος όταν το πλήθος n n Md x n 1 2 των παρατηρήσεων του δείγματος είναι περιττό x n x n 1 2 2 M d 2 των παρατηρήσεων είναι άρτιο. Οι τύποι χρησιμοποιούνται αφού τα δεδομένα διαταχθούν σε n n 1 αύξουσα σειρά, ενώ τα σύμβολα και δηλώνουν θέση στην 2 2 παραπάνω σειρά κατάταξης. 47

Η Διάμεσος και το είδος της πληροφορίας που μας δίνει Η διάμεσος χωρίζει τον διατεταγμένο πληθυσμό σε δύο ίσα, ως προς το πλήθος τους, μέρη. 50% του πληθυσμού 50% του πληθυσμού M d Επομένως, όταν για μία συνεχή μεταβλητή Χ μας δίνεται η διάμεσος γνωρίζουμε ότι στο μισό πληθυσμό η μεταβλητή έχει τιμές μικρότερες ή ίσες της διαμέσου και στον υπόλοιπο μισό έχει τιμές μεγαλύτερες ή ίσες της διαμέσου. Αν, για παράδειγμα, μας δοθεί η πληροφορία ότι η διάμεσος του μηνιαίου εισοδήματος των εργαζομένων εκτιμήθηκε σε 1000, τότε ξέρουμε ότι στο 50 % των εργαζομένων οι μηνιαίες αποδοχές δεν υπερβαίνουν τα 1000 το μήνα και, αντίστοιχα, στο 50 % των εργαζομένων οι μηνιαίες αποδοχές είναι τουλάχιστον 1000 το μήνα. 48

Διάμεσος και Συνάρτηση Πυκνότητας f(x) 0.5 0.5 Αν στο σημείο της διαμέσου φέρουμε μία κάθετη προς τον οριζόντιο άξονα ευθεία, τότε αυτή θα χωρίσει την καμπύλη της πυκνότητας σε δύο χωρία με εμβαδόν 0.5 το καθένα. Στο παραπάνω σχήμα, το κόκκινο βέλος σημειώνει το μέσο της έκτασης των τιμών της μεταβλητής και παρατηρούμε ότι η διάμεσος δεν συμπτίπτει με αυτό το σημείο. Είναι σημαντικό να κατανοήσουμε ο ορισμός της διαμέσου δεν έχει σχέση με το μέσο των τιμών της μεταβλητής, αλλά με διαχωρισμό του πληθυσμού σε δύο ίσα μέρη. 49

Πλεονεκτήματα Μειονεκτήματα Παράγει μία μοναδική τιμή. Υπολογίζεται εύκολα. Δεν επηρεάζεται από ακραίες τιμές. Όταν η κατανομή εμφανίζει έντονη θετική ή αρντική ασυμμετρία, τότε η διάμεσος θεωρείται καταλληλότερη ως μέτρο κεντρικής τάσης από ότι ο μέσος Στον υπολογισμό της δεν εισέρχονται όλες οι παρατηρήσεις του δείγματος Δεν μπορεί να χρησιμοποιηθεί για περεταίρω στατιστική ανάλυση. Πλεονεκτήματα και Μειονεκτήματα της Διαμέσου 50

Μορφές Κατανομών και Μέτρα Κεντρικής Τάσης Τα ιστογράμματα συχνοτήτων που προκύπτουν από την ομαδοποίηση των δεδομένων, συνεπώς και οι καμπύλες των συναρτήσεων πυκνότητας που προκύπτουν από αυτά, έχουν πολλές διαφορετικές μορφές. Κάθε καμπύλη συγκρίνεται και ταξινομείται έχοντας ως πρότυπο την καμπύλη της Κανονικής Κατανομής. μ = τ = δ = 2 μ = τ = δ = 2 μ = τ = δ = 4 Όλες οι καμπύλες που προκύπτουν από Κανονικούς πληθυσμούς έχουν τα εξής κονινά χαρακτηριστικά: Μία κορυφή Σχήμα «καμπάνας» (κωδονοειδής καμπύλη - bell shaped curve) Μέση Τιμή = Διαμέσο Τιμή = Επικρατούσα Τιμή Συμμετρία ως προς τον άξονα που διέρχεται από την κορυφή της καμπύλης 51

Ασυμμετρία ή Λοξότητα (Skewness) Θετική Ασυμμετρία (ή Λοξότητα) (Positive or right skewed) Ωφείλεται στην παρουσία κάποιων μεγάλων τιμών της μεταβλητής. M M X o d M M X και 0 o d Αρνητική Ασυμμετρία (ή Λοξότητα) (Negative or left skewed) Ωφείλεται στην παρουσία κάποιων μικρών τιμών της μεταβλητής. X M και d M o 0 0 Συντελεστής Ασυμμετρίας Όταν υπάρχει συμμετρία X M d M o Όταν η ασυμμετρία είναι έντονη, ο μέσος είναι ακατάληλος ως μέτρο κεντρικής τάσης, και προτιμάται η διάμεσος. 52

Είδη Κύρτωσης (Kurtosis) 0 Λεπτόκυρτη (Leptokurtic) είναι η συμμετρική κατανομή, στην οποία εμφανίζεται αυξημένη πυκνότητα γύρω από το κέντρο της. Η καμπύλη δεν είναι πλέον κωδονοειδής και δεν έχουμε Κανονική Κατανομή. Πλατύκυρτη (Platykurtic) είναι η συμμετρική κατανομή, στην οποία η πυκνότητα γύρω από το κέντρο της είναι πολύ χαμηλή. Η καμπύλη δεν είναι πλέον κωδονοειδής και δεν έχουμε Κανονική Κατανομή. 0 Συντελεστής Κύρτωσης Όταν 0 η κατανομή είναι μεσόκυρτη (mesokurtic) και έχει την κωδονοειδή μορφή μιας Κανονικής Κατανομής. 53

Μέτρα Σχετικής Θέσης

Εκατοστημόρια (Percentiles) και τεταρτημόρια (Quartiles) Το p εκατοστημόριο ενός συνόλου δεδομένων είναι εκείνη η τιμή που αφήνει στα αριστερά της το p% των παρατηρήσεων και δεξιά της το υπόλοιπο (100 p)%, όταν αυτές διαταχθούν σε αύξουσα σειρά. Τα εκατοστημόρια που χρησιμοποιούμε συνήθως είναι: Το 25 ο εκατοστημόριο ή 1 ο τεταρτημόριο To 50 ο εκατοστημόριο ή 2 ο τεταρτημόριο Το 75 ο εκατοστημόριο ή 3 ο τεταρτημόριο Q 1 Q 2 Q 3 55

Μέτρα Μεταβλητότητας

Τα Μέτρα Μεταβλητότητας (Variability Measures) έχουν ως στόχο να παρουσιάσουν με τρόπο συνοπτικό τη μεταβλητότητα (ή διασπορά) των δεδομένων. Πρόκειται για δείκτες που στοχεύουν στη μέτρηση της ανομοιογένειας του πληθυσμού. Στο σχήμα βλέπουμε δύο συμμετρικές κατανομές με το ίδιο κέντρο (επομένως ίδιο μέσο, ίδια διάμεσο και επικρατούσα τιμή) Διαφέρουν όμως πολύ ως προς τη διασπορά των τιμών τους. Παρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες γύρω από το μέσο από ότι στη δεύτερη. Και λέμε ότι έχουμε μικρότερη διασπορά των τιμών. Μαρίνα Σύρπη (2016) 57

Εύρος (Range) Το εύρος της κατανομής των τιμών μιας μεταβλητής Χ, είναι απλώς η διαφορά της μικρότερης από τη μεγαλύτερη τιμή. R x x max Το εύρος μας δίνει μια εικόνα για την έκταση που καταλαμβάνουν τα δεδομένα, δεν μετρά όμως τη συνολική διασπορά, καθώς στον υπολογισμό του δεν εισέρχονται οι υπόλοιπες τιμές. min Τα παραπάνω σύνολα δεδομένων έχουν το ίδιο εύρος, όμως δεν έχουν την ίδια διασπορά. Παίρνοντας ως αρχή των μετρήσεων το κέντρο, είναι προφανές ότι στο άθροισμα των γεωμετρικών αποστάσεων των σημείων από το κέντρο, στο δεύτερο σύνολο είναι πολύ μεγαλύτερο από ότι στο πρώτο. Επίσης, η αναφορά μόνον της τιμής του εύρους δεν μας δίνει καμία πληροφορία για τη θέση των δεδομένων. Έτσι, είναι προτιμότερο αντί του εύρους να παρουσιάζουμε τη μέγιστη και την ελάχιστη τιμή. 58

Η Διακύμανση ή Διασπορά (Variance) Η διακύμανση ή διασπορά είναι ο σημαντικότερος από τους δείκτες μεταβλητότητας και, μαζί με τον αριθμητικό μέσο, χρησιμοποιείται πολύ στις μεθόδους της επαγωγικής στατιστικής. Η διακύμανση στον πληθυσμό, συμβολίζεται με 2 και ορίζεται ως η μέση τιμή των τετραγώνων των αποκλίσεων όλων των τιμών της μεταβλητής από τον αριθμητικό μέσο 2 1 N N i 1 X i 2 Εκτιμάται από τη δειγματική διακύμανση, η οποία συμβολίζεται με και υπολογίζεται από το στατιστικό 2 1 s X X n n i 1 i 1 2 s 2 Όσο περισσότερες είναι οι τιμές της μεταβλητής που βρίσκονται μακριά από τον αριθμητικό μέσο, τόσο μεγαλύτερη είναι η διασπορά. 59

Διακύμανση Ερμηνεία και Προβλήματα Όταν η τιμή της διακύμανσης μιας μεταβλητής Χ είναι μεγάλη, τότε ξέρουμε οι τιμές της είναι διασκορπισμένες σε μεγάλη έκταση γύρω από τη μέση τιμή. Ταυτόχρονα, αυτό μας δίνει τη δυνατότητα να χαρακτηρίσουμε τον πληθυσμό ως ανομοιογενή ή ευμετάβλητο, ως έναν πληθυσμό από τον οποίο λείπει η σταθερότητα. Θα λέγαμε ότι αντιστοιχεί σε εκφράσεις όπως «ή του ύψους ή του βάθους», «ικανός για το καλύτερο και το χειρότερο». Ένα πρόβλημα που αντιμετωπίζουμε με τη διακύμανση είναι οι μονάδες μέτρησής της. Καθώς για τον υπολογισμό της οι αποστάσεις υψώνονται στο τετράγωνο, υψώνονται μαζί τους στο τετράγωνο και οι μονάδες μέτρησης της μεταβλητής. Επιπλέον οι τιμές της διακύμανσης είναι κατά κανόνα πολύ μεγάλοι αριθμοί και αυτό καθιστά την ερμηνεία της, σχεδόν αδύνατη. Για παράδειγμα, τι μπορούμε να καταλάβουμε αν κάποιος μας πληροφορήσει ότι η διακύμανση του χρόνου που χρειάζεται για να 2 πάει στη δουλειά του είναι 225 min. Είναι μικρή ή μεγάλη; Προφανώς, δεν καταλαβαίνουμε τίποτα! 60

Η Τυπική Απόκλιση (Standard Deviation) Η επιστροφή στις μονάδες μέτρησης της μεταβλητής επιτυγχάνεται με την τυπική απόκλιση, η οποία ορίζεται ως η τετραγωνική ρίζα της διασποράς. Η τυπική απόκλιση στον πληθυσμό, συμβολίζεται με και ορίζεται από τη σχέση 2 Εκτιμάται από τη δειγματική τυπική απόκλιση, η οποία συμβολίζεται με s και υπολογίζεται από το στατιστικό s s 2 Επομένως, εάν η διακύμανση του χρόνου που χρειάζεται για να πάει κάποιος στη δουλειά του είναι 2 225min τότε η τυπική απόκλιση θα είναι 2 s 225min 225 min 15 min Αν υποθέσουμε ότι ο μέσος χρόνος για να πάει στη δουλειά του είναι 1h, τότε αποκτούμε μια πρώτη «εικόνα» για το χρόνο που χρειάζεται να φτάσει στη δουλειά του, δηλαδή 1 h ± 15 min. Και πάλι όμως, δεν είμαστε σε θέση να χαρακτηρίσουμε τη μεταβλητότητα ως μικρή ή μεγάλη. 61

Ο Συντελεστής Μεταβλητότητας (Coefficient of Variation) Για να μπορέσουμε, να χαρακτηρίσουμε μια διασπορά ως μικρή ή μεγάλη, αλλά και για να μπορέσουμε να συγκρίνουμε τη διασπορά μεταβλητών με διαφορετικές μονάδες μέτρησης (για παράδειγμα, να απαντήσουμε στο ερώτημα το βάρος ή το ύψος των ανθρώπων εμφανίζει μεγαλύτερη μεταβλητότητα), χρειαζόμαστε έναν δείκτη απαλλαγμένο από τις μονάδες μέτρησης. Ο δείκτης αυτός είναι ο συντελεστής μεταβλητότητας, ο οποίος ορίζεται ως το πηλίκο της τυπικής απόκλισης προς τον αριθμητικό μέσο. Ο % συντελεστής μεταβλητότητας στον πληθυσμό εκτιμάται από τον δειγματικό συντελεστή μεταβλητότητας και υπολογίζεται από το στατιστικό s cv % 100 X Για παράδειγμα, η μεταβλητότητα του χρόνου που χρειάζεται να πάει στη δουλειά του κάποιος, όταν η μέσος είναι 1h και η τυπική απόκλιση 15min, εκτιμάται σε s 15 cv % 100 100 25% X 60 62

Ο Συντελεστής Μεταβλητότητας Ερμηνεία και χρήσεις Ο Συντελεστής Μεταβλητότητας, εκφράζει την τυπική απόκλιση ως ποσοστό της μέσης τιμής. Χρησιμοποιείται για να συγκρίνουμε τη μεταβλητότητα διαφορετικών συνόλων δεδομένων όταν: o Οι τιμές στα δύο σύνολα δεν έχουν τις ίδιες μονάδες μέτρησης. o Οι τιμές στα δύο σύνολα έχουν τις ίδιες μονάδες μέτρησης, αλλά οι αριθμητικοί τους μέσοι είναι διαφορετικοί. Επίσης, χρησιμοποιείται ως μέτρο ομοιογένειας ενός σνόλου δεδομένων. Αν για ένα σύνολο δεδομένων cv% < 10%, το σύνολο θεωρείται ομοιογενές (μικρής μεταβλητότητας). Διαφορετικά θεωρείται ανομοιογενές (μεγάλης μεταβλητότητας) Έτσι, αν η μεταβλητότητα του χρόνου που χρειάζεται κάποιος για να πάει στη δουλειά του εκτιμάται σε 25%, τότε καταλαβαίνουμε ότι χρόνοι παρουσιάζουν μεγάλη μεταβλητότητα, δηλαδή υπάρχουν ημέρες που φτάνει πολύ γρηγορότερα από τη μία ώρα αλλά και ημέρες που χρειάζεται πολύ περισσότερο από μία ώρα. 63

Ενδοτεταρτημοριακό Εύρος (Interquartile Range) Η διαφορά Q3 Q1 ανάμεσα στο 1 ο και 3 ο τεταρτημόριο ονομάζεται Ενδοτεταρτημοριακό Εύρος (IQR) Συγκεντρώνει το 50% των παρατρήσεων που βρίσκονται γύρω από τη διάμεσο. 64

Σχέση Ενδοτεταρτημοριακού Εύρους και Μεταβλητότητας Στο διάστημα ανάμεσα στο 1 ο και στο 3 ο τεταρτημόριο περιέχεται το 50% των παρατηρήσεων. Όταν το ενδοτεταρτημοριακά εύρος Q3 Q1 είναι μικρό, τότε γνωρίζουμε ότι το 50% των παρατηρήσεων συγκεντρώνεται σε ένα μικρό διάστημα και, επομένως, η μεταβλητότητα των δεδομένων είναι μικρή. Αντίθετα, όταν έχουμε μεγάλο ενδοτεταρτημοριακό εύρος, τότε γνωρίζουμε ότι η μεταβλητότητα των δεδομένων είναι μεγάλη. 65