Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Σχετικά έγγραφα
Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Συλλογή και Παρουσίαση Δεδομένων

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Περιγραφική Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

Σ Τ Α Τ Ι Σ Τ Ι Κ Η Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ.

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Εισαγωγή στη Στατιστική

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

4.4 ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ. B. Πώς ορίζεται ο συντελεστής μεταβολής ή συντελεστής. μεταβλητότητας μιας μεταβλητής X, αν x > 0 και πώς, αν

Στατιστική Επιχειρήσεων Ι

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Βιοστατιστική ΒΙΟ-309

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

Ασκήσεις Άλγεβρας. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. B ΓΥΜΝΑΣΙΟΥ Άλγεβρα 265 ασκήσεις και τεχνικές σε 24 σελίδες. εκδόσεις. Καλό πήξιμο

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Στατιστική. Βασικές έννοιες

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Περιγραφική Στατιστική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Κεφάλαιο Δύο Γραφήματα και Πίνακες Περιγραφικές Τεχνικές

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΜΕΛΕΤΗ ΒΑΣΙΚΩΝ ΣΥΝΑΡΤΗΣΕΩΝ

Βιοστατιστική ΒΙΟ-309

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 2 Περιγραφικές Τεχνικές

Στατιστικοί πίνακες. Δημιουργία κλάσεων

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος.

Δρ. Ευστρατία Μούρτου

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

ΣΥΝΑΡΤΗΣΕΩΝ. f3 x = και

Μαθηματικά & Στοιχεία Στατιστικής Γενικής Παιδείας για την Γ Λυκείου. Αν έχετε κάνει σωστά τους υπολογισμούς σας, μεταφοράς ενός

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Βιοστατιστική ΒΙΟ-309

Εφαρμοσμένη Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Κεφάλαιο 1 o Εξισώσεις - Ανισώσεις

ΚΕΦΑΛΑΙΟ 2 ο : ΣΤΑΤΙΣΤΙΚΗ

Συναρτήσεις. Ορισμός Συνάρτησης

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

3.2 Πίνακες και Γραφήματα για Επαναλαμβανόμενες Τιμές

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Περιγραφική Στατιστική

Κεφάλαιο 3 Περιγραφή Γεωγραφικών Δεδομένων Βασικοί Γεωστατιστικοί Δείκτες

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

επ. Κωνσταντίνος Π. Χρήστου

2.5. Τα 16 τµήµατα ενός Λυκείου έχουν τους Οι αποστάσεις (σε Km) των Σε ένα κυκλικό διάγραµµα παριστάνονται

ΘΕΜΑΤΑ ΠΑΝΕΛΛΑΔΙΚΩΝ-ΣΤΑΤΙΣΤΙΚΗΣ. Να γράψετε στο τετράδιο σας τον πίνακα των τιμών της μεταβλητής Χ σωστά συμπληρωμένο.

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Παράδειγμα. Χρονολογικά δεδομένα. Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα (σε χιλιάδες $)

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Στατιστική. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Γενικής κεφάλαιο ασκήσεις. Kglykos.gr. εκδόσεις. Καλό πήξιμο. Ι δ ι α ί τ ε ρ α μ α θ ή μ α τ α

ΜΕΘΟΔΟΛΟΓΙΑ & ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΕΦΑΛΑΙΟ 2 Ο «ΣΤΑΤΙΣΤΙΚΗ»

ΜΕΘΟΔΟΛΟΓΙΑ & ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΕΦΑΛΑΙΟ 2 Ο «ΣΤΑΤΙΣΤΙΚΗ»

Εισαγωγή στην Κανονική Κατανομή. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

τα βιβλία των επιτυχιών

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

Η γραφική απεικόνιση µιας κατανοµής συχνότητας µπορεί να γίνει µε δύο τρόπους, µε ιστόγραµµα και µε πολυγωνική γραµµή.

Ορισμός Τετραγωνική ονομάζεται κάθε συνάρτηση της μορφής y = αx 2 + βx + γ με α 0.

ΚΕΦΑΛΑΙΟ 8 ΤΟ ΜΑΘΗΜΑ ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

Μαθηματική Εισαγωγή Συναρτήσεις

ΦΥΛΛΑΔΙΟ ΑΣΚΗΣΕΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΠΑΝΟΣ ΣΑΡΑΚΗΝΟΣ

i Σύνολα w = = = i v v i=

Transcript:

Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε «ποιο είδος βιβλίων προτιμάτε να διαβάζετε στον ελεύθερο χρόνο σας;» Λογοτεχνικά (Λ) Αστυνομικά (Α) Επιστημονικά / Ιστορικά (Ε) Κανένα ή άλλο (Κ) Η περιγραφή των δεδομένων γίνεται με βάση τις συχνότητες Πόσα άτομα από το δείγμα μας βρίσκονται σε κάθε κατηγορία (ομάδα) της μεταβλητής που εξετάζουμε ; Δεν μας ενδιαφέρει η απάντηση του κάθε ατόμου ξεχωριστά, αλλά πόσα άτομα βρίσκονται σε καθεμία από τις 4 κατηγορίες Έστω ότι βρήκαμε τις συχνότητες 8 Λ 11 Α 4 Ε 2 Κ 1 2

Κατασκευάζουμε τον πίνακα με τις συχνότητες και τις σχετικές συχνότητες Είδος Απόλυτες Σχετικές Ποσοστά βιβλίων συχνότητες συχνότητες (%) f i f i /n f i *100/n Λογοτεχνικά 8 0,32 32 Αστυνομικά 11 0,44 44 Επιστημονικά 4 0,16 16 Κανένα 2 0,08 8 Σύνολο 25 1,00 100 Κάποιοι βασικοί κανόνες κατάρτισης στατιστικών πινάκων Να είναι ξεκάθαρο τι περιέχει κάθε γραμμή στήλη Για δεδομένα μιας μεταβλητής, οι γραμμές συνήθως παριστάνουν τις τιμές (κατηγορίες) της μεταβλητής που εξετάζουμε Να αποφεύγονται, κατά το δυνατόν, κενά πεδία Να αποφεύγονται τα πολλά δεκαδικά ψηφία 3 4

Σε περίπτωση παρουσίασης πολλών πινάκων, να υπάρχει σαφής αρίθμηση Στο τέλος του πίνακα αναφέρουμε την πηγή των στατιστικών στοιχείων Υποσημειώσεις χρησιμοποιούνται όταν είναι απαραίτητη κάποια επεξήγηση για τα στοιχεία του πίνακα ή για τον τρόπο της έρευνας o Π.χ. μονάδες μέτρησης o Τρόπος δειγματοληψίας Παράδειγμα (από το βιβλίο) ΠΙΝΑΚΑΣ Απασχολούμενοι ανά φύλο και περιοχή συνήθους διαμονής (1989) Περιοχές Άνδρες Γυναίκες Άνδρες (%) Γυναίκες (%) Αστικές 1437800 723700 60,27 56,30 Ημιαστικές 275500 132200 11,55 10,28 Αγροτικές 672200 429600 28,18 33,42 Σύνολο 2385500 1285500 100,00 100,00 Παράδειγμα ενός πίνακα που δίνει στοιχεία για δύο μεταβλητές (περιοχή φύλο) Οι περιοχές (αστικές/ημιαστικές/αγροτικές) παριστάνουν τις γραμμές του πίνακα, το φύλο τις στήλες του πίνακα. 5 6

Κάποιοι κανόνες για την παρουσίαση στατιστικών στοιχείων με διαγράμματα Πριν επιλέξουμε το είδος του διαγράμματος, καλό θα είναι να σκεφτούμε: Τι από τα παραπάνω δεν είναι το διάγραμμα αυτό, που αναφέρεται στα δεδομένα του παραδείγματος (είδος βιβλίων που διαβάζει το δείγμα των 25 ατόμων); 1. Τι ακριβώς θέλουμε να παρουσιάσουμε με το διάγραμμα; 2. Τι είδους είναι η μεταβλητή που εξετάζουμε; 3. Τι είδους είναι τα δεδομένα μας (π.χ. χρονολογικά, διαστρωμματικά, μεικτά); Ένα διάγραμμα θα πρέπει να είναι παραστατικό να διευκολύνει την κατανόηση και να παρουσιάζει τα βασικά χαρακτηριστικά της μεταβλητής σαφές να μη δημιουργεί σύγχυση ακριβές να μην παραπλανά τον αναγνώστη 1 2 3 4 7 8

Μία άλλη μορφή κυκλικού διαγράμματος Όταν τα δεδομένα που μελετάμε είναι ποιοτικά (ονομαστικά) δεδομένα, ή διακριτά δεδομένα, 1 2 3 4 τότε τα δύο κυριότερα είδη διαγραμμάτων που χρησιμοποιούμε είναι κυκλικά διαγράμματα ραβδογράμματα Και τα δύο απεικονίζουν συχνότητες (ή σχετικές συχνότητες) που αντιστοιχούν στις τιμές (κατηγορίες) της μεταβλητής Τρισδιάστατα διαγράμματα είναι στα αλήθεια χρήσιμα ; ιδιαίτερα για μονοδιάστατα δεδομένα ; ικανοποιούν τα παραπάνω χαρακτηριστικά (σαφήνεια, ακρίβεια κλπ) ; o Στην πρώτη περίπτωση οι συχνότητες παριστάνονται με κυκλικούς τομείς o Στη δεύτερη με κατακόρυφες γραμμές (ή ορθογώνια) 9 10

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Χρησιμοποιείται μόνο όταν οι τιμές της μεταβλητής έχουν ένα σταθερό άθροισμα (συνήθως 100%, όταν μιλάμε για σχετικές συχνότητες) Είναι χρήσιμο μόνο όταν υπάρχουν αποκλίσεις στις συχνότητες της μεταβλητής από τη μία κατηγορία στην άλλη o ένα κυκλικό διάγραμμα με 7 κατηγορίες που έχουν περίπου την ίδια συχνότητα δε μας είναι χρήσιμο ο αριθμός των κατηγοριών δε θα πρέπει να είναι πολύ μεγάλος Επίσης, σε ένα κυκλικό διάγραμμα καλό είναι να αναφέρονται και οι σχετικές συχνότητες μαζί με τα ονόματα των κατηγοριών Διαφορετικά το διάγραμμα παρέχει πληροφορίες μόνο για την ποιοτική (όχι την ποσοτική) σχέση μεταξύ των κατηγοριών Όταν τα δεδομένα μας είναι διατάξιμα, καλό είναι οι γειτονικές κατηγορίες να εμφανίζονται συνεχόμενα Όταν θέλουμε να δώσουμε έμφαση σε κάποια κατηγορία, μπορούμε να αποκόψουμε τον αντίστοιχο τομέα από το διάγραμμα (υπάρχει τέτοια επιλογή στο Excel) 11 12

Οδηγίες κατασκευής ραβδογραμμάτων 1. Σε ένα σύστημα ορθογωνίων συντεταγμένων, εργαζόμαστε στο πρώτο τεταρτημόριο. 2. Στον άξονα των Χ απεικονίζουμε τις κατηγορίες της μεταβλητής Τα διαστήματα που αντιστοιχούν σε κάθε κατηγορία έχουν ίσο μήκος και ισαπέχουν μεταξύ τους. 3. Στον άξονα των Y απεικονίζουμε τις συχνότητες. 4. Για κάθε κατηγορία, σχεδιάζουμε ένα παραλληλόγραμμο με ύψος ανάλογο με τη συχνότητα της αντίστοιχης κατηγορίας. Πλεονεκτήματα ενός ραβδογράμματος έναντι ενός κυκλικού διαγράμματος 1. Το ραβδόγραμμα κατασκευάζεται εύκολα με το χέρι 2. Με ένα ραβδόγραμμα μπορούμε να διακρίνουμε εύκολα και μικρές διαφορές μεταξύ συχνοτήτων o σε ένα κυκλικό διάγραμμα, ανάμεσα σε δύο κατηγορίες με σχ. συχνότητες 15,1% και 14,9% δεν είναι εύκολο να εντοπίσουμε τη μεγαλύτερη 3. Το ραβδόγραμμα μπορεί να χρησιμοποιηθεί όταν έχουμε πολλές κατηγορίες της μεταβλητής 13 14

4. Με το ραβδόγραμμα μπορούμε εύκολα να μελετήσουμε περισσότερα από ένα χαρακτηριστικά του πληθυσμού ταυτόχρονα 5. Με το ραβδόγραμμα είναι ευκολότερο να κάνουμε συγκρίσεις ανάμεσα σε δύο ή περισσότερα διαγράμματα. Ένα πλεονέκτημα που έχει το κυκλικό διάγραμμα είναι ότι μας δίνει μια καλύτερη εικόνα για τη σχέση που έχει μία συχνότητα με το άθροισμα όλων των συχνοτήτων στο δείγμα Π.χ. είναι εύκολο να διακρίνουμε αν σε μια κατηγορία αντιστοιχεί περισσότερο από το 50% των συχνοτήτων. 15 16

Μέθοδοι για συνεχή δεδομένα Παραδείγματα συνεχών μεταβλητών: o Ύψος, βάρος, μήκος, θερμοκρασία, μηνιαίος μισθός, μηνιαία έξοδα (μιας οικογένειας) κλπ. Πώς θα απεικονίσουμε γραφικά τα δεδομένα, π.χ. το βάρος που αντιστοιχεί σε ένα δείγμα 30 ατόμων; Το πιθανότερο είναι πως στο δείγμα υπάρχουν 30 διαφορετικές τιμές Παράδειγμα (από το βιβλίο Κ. Τσίμπου Φ. Γεωργιακώδη, Πίνακας 4.1) Βάρος 30 ατόμων σε κιλά 79,6 72,3 86,1 75,0 67,3 74,1 76,7 79,9 89,9 76,2 78,6 73,0 85,8 78,0 80,8 81,4 65,1 81,8 76,5 66,8 79,6 77,1 80,1 72,3 78,3 67,9 76,5 73,0 83,9 70,0 Αναζητάμε τη μέγιστη και ελάχιστη τιμή διατάσσουμε τα δεδομένα Άρα δεν έχει νόημα να χρησιμοποιήσουμε συχνότητες για τα ακατέργαστα δεδομένα Αντί γι αυτό, χωρίζουμε τα δεδομένα σε ομάδες και απεικονίζουμε γραφικά τις συχνότητες αυτών των ομάδων 65,1 66,8 67,3 67,9 70,0 72,3 72,3 73,0 73,0 74,1 75,0 76,2 76,5 76,5 76,7 77,1 78,0 78,3 78,6 79,6 79,6 79,6 80,1 80,8 81,4 81,8 83,9 85,8 86,1 89,9 Μέγιστη τιμή 89,9 κιλά Ελάχιστη τιμή 65,1 κιλά Το εύρος των τιμών στο δείγμα = 24,8 κιλά = R 17 18

Στρογγυλοποιούμε (προς τα κάτω) την ελάχιστη τιμή 65,1 65 κιλά Στρογγυλοποιούμε (προς τα πάνω) τη μέγιστη τιμή 89,9 90 κιλά Οπότε το αντίστοιχο εύρος είναι 90-65 = 25 κιλά Χωρίζουμε το εύρος αυτό σε κλάσεις ή διαστήματα Πόσα διαστήματα επιλέγουμε; o Σπάνια λιγότερα από 5 ή περισσότερα από 15 Πολύ λίγα διαστήματα ελάχιστη πληροφορία για την κατανομή των τιμών του δείγματος (άρα και του πληθυσμού) Π.χ. είναι αυτή η κατανομή συμμετρική; Πόσο συγκεντρωμένες είναι οι τιμές του δείγματος γύρω από τη μέση τους τιμή; Πάρα πολλά διαστήματα πιθανόν κάποια, ή και πολλά, από αυτά, να είναι κενά (χωρίς παρατηρήσεις) Το διάγραμμα που προκύπτει είναι συνήθως ασαφές και προκαλεί σύγχυση Πλάτος διαστήματος τάξεων δ = R k επιθυμητό πλήθος διαστημάτων Ένας τρόπος επιλογής του k είναι ο εμπειρικός τύπος του Sturges k = ο μικρότερος ακέραιος που είναι μεγαλύτερος ή ίσος από 1 + log(n) / log (2) = 1 + 3,322 log(n) o Ο λογάριθμος εδώ είναι με βάση το 10, και o n είναι το πλήθος των παρατηρήσεων 19 20

Ο τύπος δίνει n k 30 6 50 7 100 8 200 9 500 10 1000 11 2000 12 Επιλέγοντας k = 5 στο παράδειγμα, έχουμε Κλάση Απόλυτες συχνότητες Σχετικές συχνότητες Κεντρική τιμή τάξης 65-69 4 0,13 67,5 70-74 6 0,20 72,5 75-79 12 0,40 77,5 80-84 5 0,17 82,5 85-89 3 0,10 87,5 Για τα δεδομένα του παραδείγματος (n = 30), αν επιλέξουμε 6 κλάσεις, τότε το πλάτος κάθε κλάσης θα είναι R 25 δ = = = k 6 4,167, δηλαδή δεκαδικός αριθμός (καλύτερα να αποφεύγεται). 21 22

Παρατηρήσεις Επιλογή διαστάσεων στο σχεδιάγραμμα 1. Η 1 η κλάση περιλαμβάνει όλες τις τιμές στο διάστημα [65,70), η 2 η στο διάστημα [70,75) κοκ. Οπότε αντί του συμβολισμού 65-69, 70-74 κλπ, θα μπορούσαμε να είχαμε χρησιμοποιήσει το συμβολισμό 65-70, 70-75 κλπ, με τη σύμβαση ότι τα διαστήματα είναι ανοιχτά προς τα πάνω. Αν a,b είναι τα μήκη των αξόνων x,y αντίστοιχα που απεικονίζονται στο διάγραμμα, τότε επιλέγουμε τα a,b έτσι ώστε 1 2 b a 3 4 2. Στην ουσία για ομαδοποιημένα δεδομένα θεωρούμε ότι όλες οι παρατηρήσεις που ανήκουν σε ένα διάστημα είναι συγκεντρωμένες στην κεντρική τιμή αυτού του διαστήματος. Αυτό δημιουργεί πρόβλημα όταν το πλάτος κάθε διαστήματος είναι μεγάλο. Συνήθως το ανώτερο σημείο του κατακόρυφου άξονα είναι μία τιμή λίγο μεγαλύτερη από τη μέγιστη συχνότητα των κλάσεων 23 24

Εδώ ο άξονας των x έχει μήκος μικρότερο από αυτό του άξονα των συχνοτήτων Ένα καλύτερο διάγραμμα είναι το παρακάτω 25 26

Πολύγωνο συχνοτήτων Το πολύγωνο συχνοτήτων για το παράδειγμα με Χρήσιμο για συγκρίσεις δύο ή περισσοτέρων τα βάρη 30 ατόμων κατανομών Προκύπτει από το ιστόγραμμα ενώνοντας τα μέσα των άνω πλευρών των ορθογωνίων Κλείνουμε την πολυγωνική γραμμή ξεκινώντας από το μέσο του διαστήματος αριστερά από το πρώτο ορθογώνιο και καταλήγοντας στο μέσο του διαστήματος δεξιά από το τελευταίο ορθογώνιο Για να μπορούν να γίνουν συγκρίσεις θα πρέπει τα ιστογράμματα να αναφέρονται σε σχετικές συχνότητες Συχνότητα Histogram 14 12 10 8 6 4 2 0 67,5 72,5 77,5 82,5 87,5 Βάρος Frequency 27 28

Καμπύλη συχνοτήτων Είδη κατανομών Τι γίνεται όταν το πλήθος των παρατηρήσεων είναι πολύ μεγάλο; Γενικά έχουμε 4 είδη κατανομών ανάλογα με το σχήμα τους : Καθώς το μέγεθος του δείγματος αυξάνει, μεγαλώνει και ο αριθμός των διαστημάτων στη γραφική παράσταση (ιστόγραμμα, αντίστοιχα πολύγωνο συχνοτήτων) Για πολύ μεγάλο πλήθος διαστημάτων, το πολύγωνο συχνοτήτων προσεγγίζει μία ομαλή καμπύλη, την καμπύλη συχνοτήτων. Αυτή με τη σειρά της προσεγγίζει τη θεωρητική κατανομή του πληθυσμού από τον οποίο προήλθε το δείγμα. o Μονοκόρυφες κατανομές o Κατανομές σχήματος U o Κατανομές σχήματος J o Άλλες κατανομές Οι μονοκόρυφες κατανομές διακρίνονται σε : Συμμετρικές κατανομές Κατανομές με θετική ασυμμετρία Κατανομές με αρνητική ασυμμετρία (βλ. Σχήμα 4.5 στο βιβλίο) Παράδειγμα συμμετρικής κατανομής είναι η κανονική κατανομή 29 30

Μία γραφική παράσταση, αντίστοιχη με το ιστόγραμμα, που χρησιμοποιείται (κυρίως) για διακριτά δεδομένα, είναι το φυλλογράφημα (stem and leaf diagram) Παράδειγμα καμπύλης συχνοτήτων από συμμετρική κατανομή Παράδειγμα Έστω ότι έχουμε τα παρακάτω δεδομένα, τα οποία έχουν διαταχθεί κατ αύξουσα τιμή : 8, 13, 16, 25, 26, 29, 30, 32, 37, 38, 40, 41, 44, 47, 49, 51, 54, 55, 58, 61, 63, 67, 75, 78, 82, 86, 95 Εδώ τα διακριτά δεδομένα είναι διψήφιοι αριθμοί. Το ψηφίο των δεκάδων είναι ο μίσχος (ή κορμός) Το ψηφίο των μονάδων είναι το φύλλο Παράδειγμα καμπύλης συχνοτήτων από θετικά ασύμμετρη (αριστερά στο σχήμα) και αρνητικά ασύμμετρη (δεξιά στο σχήμα) κατανομή 31 32

0 8 1 3 6 2 5 6 9 3 0 2 7 8 4 0 1 4 7 9 5 1 4 5 8 6 1 3 7 7 5 8 8 2 6 9 5 Το σχήμα μοιάζει με ένα ιστόγραμμα που έχει περιστραφεί κατά 90 ο. Εδώ π.χ. υπάρχει ένδειξη ότι η κατανομή είναι συμμετρική. Πλεονεκτήματα Μπορεί πολύ εύκολα να κατασκευαστεί με το χέρι Σε αντίθεση με το ιστόγραμμα, το φυλλογράφημα χρησιμοποιεί τις ακριβείς τιμές όλων των παρατηρήσεων Μας δείχνει τη μορφή της κατανομής (π.χ. αν είναι μονοκόρυφη, αν έχει θετική ή αρνητική ασυμμετρία κλπ) Μπορούν εύκολα να εντοπιστούν ακραίες (έκτροπες) παρατηρήσεις Τι γίνεται όταν τα δεδομένα έχουν περισσότερα από δύο ψηφία; 33 34

Παράδειγμα (από το βιβλίο Κ. Τσίμπου - Φ. Γεωργιακώδη) Τα δεδομένα αφορούν την επίδοση 20 ατόμων σε ένα ψυχολογικό τεστ 700 709 755 764 841 855 855 872 872 873 873 879 920 928 928 946 1000 1070 1105 1117 Επιλέγω το ψηφίο των εκατοντάδων σαν μίσχο, τα άλλα δύο ψηφία είναι τα φύλλα στο διάγραμμα Εύκολα διαπιστώνουμε ότι οι τιμές 855, 872, 873, 928 εμφανίζονται δύο φορές (επικρατούσα τιμή) υπάρχει ένδειξη για θετική ασυμμετρία στην κατανομή Το φυλλογράφημα μπορεί να χρησιμοποιηθεί και για συνεχή δεδομένα Αυτό μπορεί να γίνει είτε απευθείας (π.χ. όταν υπάρχει ένα ακέραιο και ένα δεκαδικό ψηφίο) είτε με αποκοπή των δεκαδικών ψηφίων 7 00 09 55 64 8 41 55 55 72 72 73 73 79 9 20 28 28 46 10 00 70 11 05 17 35 36

Παράδειγμα Χρησιμοποιούμε τα δεδομένα από προηγούμενο παράδειγμα (βάρος 30 ατόμων σε κιλά) διατεταγμένο δείγμα 65,1 66,8 67,3 67,9 70,0 72,3 72,3 73,0 73,0 74,1 75,0 76,2 76,5 76,5 76,7 77,1 78,0 78,3 78,6 79,6 79,6 79,6 80,1 80,8 81,4 81,8 83,9 85,8 86,1 89,9 Εδώ ο μίσχος αντιστοιχεί σε μία πεντάδα (όχι δεκάδα) 6* 5 6 7 7 7 0 2 2 3 3 4 7* 5 6 6 6 6 7 8 8 8 9 9 9 8 0 0 1 1 3 8* 5 6 9 (πρβλ. το ιστόγραμμα προηγουμένως) Διώχνουμε τα δεκαδικά ψηφία, οπότε ο πίνακας γίνεται 65 66 67 67 70 72 72 73 73 74 75 76 76 76 76 77 78 78 78 79 79 79 80 80 81 81 83 85 86 89 Εδώ Η επικρατούσα τιμή είναι 76 Η διάμεσος είναι 76,5 (ο μέσος όρος της 15 ης και 16 ης παρατήρησης) Υπάρχει ένδειξη για τη συμμετρία της κατανομής. 37 38