Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Σχετικά έγγραφα
Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές Διερευνητική Ανάλυση Δεδομένων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Περιγραφική Στατιστική

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Εισαγωγή στη Στατιστική

Στατιστική Επιχειρήσεων Ι

ΘΕΜΑΤΑ Α : ΕΚΦΩΝΗΣΕΙΣ - ΛΥΣΕΙΣ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Εφαρμοσμένη Στατιστική

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η MBA I

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ & ΕΚΠΑΙΔΕΥΣΗ

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Εισαγωγή στη Στατιστική

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

ΚΕΦΑΛΑΙΟ 2 ΔΙΕΥΘΥΝΣΗ ΔΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ ΝΟΜΟΥ ΧΑΝΙΩΝ ΣΧΟΛΙΚΟ ΕΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΚΑΙ ΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΥΣ

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

I2. Αριθμητικά περιγραφικά μέτρα

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

1) ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ - ΑΤΑΞΙΝΟΜΗΤΑ ΔΕΔΟΜΕΝΑ

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΩΚΕΑΝΟΓΡΑΦΙΑ. Πρακτική Άσκηση 4- Θεωρητικό Υπόβαθρο ΕΦΑΡΜΟΣΜΕΝΗ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΤΟΜΕΑΣ ΓΕΩΓΡΑΦΙΑΣ & ΚΛΙΜΑΤΟΛΟΓΙΑΣ ΤΜΗΜΑ ΓΕΩΛΟΓΙΑΣ & ΓΕΩΠΕΡΙΒΑΛΛΟΝΤΟΣ

Μάθηµα 3 ο. Περιγραφική Στατιστική

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Βιοστατιστική ΒΙΟ-309

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΔΕΟ 13 ΤΟΜΟΣ Δ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Βιοστατιστική ΒΙΟ-309

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Περιγραφική Στατιστική. Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Περιγραφική Στατιστική

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Βιοστατιστική ΒΙΟ-309

Μ Ε Τ Ρ Α Δ Ι Α Σ Π Ο Ρ Α Σ.

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

1. Hasil Pengukuran Kadar TNF-α. DATA PENGAMATAN ABSORBANSI STANDAR TNF α PADA PANJANG GELOMBANG 450 nm


ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

Ποσοτικές Μέθοδοι., Εισηγητής: Ν.Κυρίτσης, MBA, Ph.D. Candidate,,

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Στατιστική Ι Ασκήσεις 3

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΚΕΦΑΛΑΙΟ 6 ΚΟΙΝΟΙ ΥΠΟΨΗΦΙΟΙ

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

Transcript:

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis Περιλαμβάνει ένα σύνολο αριθμητικών και γραφικών μεθόδων, που μας επιτρέπουν να αποκτήσουμε μια πρώτη εικόνα για την κατανομή των τιμών της μεταβλητής στον πληθυσμό. Μας βοηθά στον εντοπισμό «προβληματικών» τιμών, δηλαδή των τιμών της μεταβλητής που είναι απομακρυσμένες από το σώμα των υπόλοιπων τιμών και να τις χαρακτηρίσουμε ως ακραίες ή έκτροπες ή, ακόμα και λανθασμένες και να αποφασίσουμε για τον τρόπο που θα τις διαχειριστούμε. Επίσης, μας βοηθά να διαγνώσουμε την Κανονικότητα του πληθυσμού, δηλαδή ελέγξουμε εάν τα δεδομένα μας προέρχονται από έναν πληθυσμό που ακολουθεί την Κανονική Κατανομή. Αυτό είναι ιδιαίτερα σημαντικό, καθώς πολλές από τις μεθόδους της Στατιστικής που χρησιμοποιούμε για την περαιτέρω ανάλυση των δεδομένων προϋποθέτουν την Κανονικότητα του πληθυσμού. 1. Αριθμητικές Μέθοδοι 1.1 Μέρα Κεντρικής Τάσης Ο Αριθμητικός Μέσος (Arithmetic Mean) X Εκτιμά τη μέση τιμή στον πληθυσμό Για συμμετρικές (ή σχεδόν συμμετρικές) κατανομές, ο μέσος είναι σημείο του άξονα συμμετρίας (ή πολύ κοντά σε αυτόν). Η Δειγματική Διάμεσος (Sample Median) Εκτιμά τη διάμεσο τιμή στον πληθυσμό. M d ή Q 2 Είναι η μεσαία από τις τιμές του δείγματος όταν αυτές διαταχθούν σε αύξουσα, συνήθως, σειρά. Όταν μας δίνεται η διάμεσος, γνωρίζουμε ότι στο 50% του δείγματος (αντίστοιχα του πληθυσμού) οι τιμές της μεταβλητής που μελετούμε είναι μικρότερες από την διάμεσο τιμή. Σε συμμετρικές (ή σχεδόν συμμετρικές) κατανομές, ο αριθμητικός μέσος και η διάμεσος συμπίπτουν (ή βρίσκονται πολύ κοντά). Σε μονοκόρυφες κατανομές με ασυμμετρία, ο μέσος απομακρύνεται από τη διάμεσο προς την κατεύθυνση που εμφανίζεται η «ουρά» της κατανομής. Σε περιπτώσεις έντονης ασυμμετρίας, η διάμεσος είναι προτιμότερη ως μέτρο κεντρικής τάσης (θεωρείται, δηλαδή, καλύτερος εκπρόσωπος του πληθυσμού)

2 Η Δειγματική Επικρατούσα Τιμή (Sample Mode) Εκτιμά την επικρατούσα τιμή στον πληθυσμό. M o Είναι η τιμή με τη μεγαλύτερη συχνότητα εμφάνισης. Χρησιμοποιείται λιγότερο από τον μέσο και τη διάμεσο. 1.2 Μέτρα Σχετικής Θέσης Τα τεταρτημόρια (quartiles) ενός δείγματος ή ενός πληθυσμού είναι εκείνες οι τιμές που χωρίζουν το δείγμα (αντίστοιχα τον πληθυσμό) σε τέσσερα ισοπληθή μέρη. 1 ο τεταρτημόριο ή Q 1 Στο 25% του δείγματος (αντίστοιχα) του πληθυσμού οι τιμές της μεταβλητής είναι μικρότερες από το Q 1, ενώ στο υπόλοιπο 75% μεγαλύτερες από το Q 1. 2 ο τεταρτημόριο ή Q 2 Στο 50% του δείγματος (αντίστοιχα) του πληθυσμού οι τιμές της μεταβλητής είναι μικρότερες από το Q 2, ενώ στο υπόλοιπο 50% είναι μεγαλύτερες. 3 ο τεταρτημόριο ή Q 3 Στο 75% του δείγματος (αντίστοιχα) του πληθυσμού οι τιμές της μεταβλητής είναι μικρότερες από το Q 3, ενώ στο υπόλοιπο 25% είναι μεγαλύτερες. 1.3 Μέτρα μεταβλητότητας Η δειγματική διασπορά (sample variance) standard deviation) s 2 s και η δειγματική τυπική απόκλιση(sample Εκτιμούν τη διασπορά 2 και την τυπική απόκλιση στον πληθυσμό. Όταν η διασπορά (αντίστοιχα η τυπική απόκλιση) είναι αυξημένη γνωρίζουμε ότι υπάρχουν τιμές τις μεταβλητής αρκετά απομακρυσμένες από το μέσο. Σε μία Κανονική Κατανομή, το 95% των τιμών της μεταβλητής βρίσκεται εντός των ορίων 2. Ο συντελεστής μεταβλητότητας (coefficient of variation) cv % Σύνολα δεδομένων για τα οποία cv% 10% θεωρούνται ομοιογενή (μικρής μεταβλητότητας) Το ενδοτεταρτημοριακό εύρος IQR (Interquartile Range) IQR Q3 Q1 : Περιέχει το 50% των κεντρικών παρατηρήσεων. Μικρό ενδοτεταρτημοριακό εύρος, σημαίνει μικρή μεταβλητότητα των δεδομένων. Το ενδοτεταρτημοριακό εύρος είναι περισσότερο ανθεκτικό ως μέτρο της διασποράς από ότι η διασπορά και η τυπική απόκλιση, δηλαδή δεν επηρεάζεται από την παρουσία ακραίων τιμών. Μαρίνα Σύρπη

3 Επίσης, στην Κανονική Κατανομή το ενδοτεραρτημοριακό εύρος είναι περίπου ίσο με 4 τα 4/3 της τυπικής απόκλισης. Δηλαδή IQR. 3 1.4 Μέτρα Ασυμμετρίας και Κύρτωσης Ο δείκτης ασυμμετρίας (Skewness) είναι μέτρο της ασυμμετρίας μιας κατανομής. Για μια συμμετρική κατανομή 0. Για κατανομή με θετική ασυμμετρία 0 και M o M e X Για κατανομή με αρνητική ασυμμετρία 0 και X Me Mo Επιπλέον, εάν γνωρίζουμε το τυπικό σφάλμα (standard error) του συντελεστή ασυμμετρίας τότε μπορούμε να χρησιμοποιήσουμε τον παρακάτω βοηθητικό πίνακα: Σχέση και se.. 2 se.. Συμπέρασμα κατανομή συμμετρική 2 se.. και >0 κατανομή με θετική ασυμμετρία 2 se.. και <0 κατανομή με αρνητική ασυμμετρία Ο δείκτης κύρτωσης (kurtosis) μιας κατανομής συγκρίνει «οξύτητα» της κατανομής με αυτήν της Κανονικής Κατανομής. Για μια μεσόκυρτη κατανομή 0 Για μια λεπτόκυρτη κατανομή 0 Για μια πλατύκυρτη κατανομή 0 Επιπλέον, εάν γνωρίζουμε το τυπικό σφάλμα (standard error) του συντελεστή ασυμμετρίας τότε μπορούμε να χρησιμοποιήσουμε τον παρακάτω βοηθητικό πίνακα: Σχέση και se.. μεσόκυρτη 2 se.. 2 se.. και >0 λεπτόκυρτη 2 se.. και <0 πλατύκυρτη Συμπέρασμα Σημειώσεις Στατιστικής

4 2. Γραφικές Μέθοδοι 2.1 Ιστογράμματα Το ιστόγραμμα είναι το κύριο γράφημα που χρησιμοποιούμε για τη διερευνητική ανάλυση των δεδομένων. Αποτελείται από ορθογώνια, κατά κανόνα ίσου πλάτους, με το ύψος κάθε ορθογωνίου να ισούται είτε με το πλήθος είτε με την αναλογία είτε με το ποσοστό των τιμών της μεταβλητής που ανήκουν στην κλάση. Ένα ζήτημα που αντιμετωπίζουμε με τα ιστογράμματα είναι η επιλογή του πλήθους των κλάσεων, καθώς ο αριθμός του πλήθους των κλάσεων μπορεί να επηρεάσει τη μορφή του ιστογράμματος. Παρόλο που τα στατιστικά προγράμματα που χρησιμοποιούμε για την επεξεργασία των δεδομένων προσδιορίζουν αυτόματα των αριθμό των κλάσεων, τα περισσότερα από αυτά μας επιτρέπουν να αλλάζουμε αυτό τον αριθμό και να πειραματιζόμαστε. Σε πολλές περιπτώσεις για την επιλογή του πλήθους των κλάσεων χρησιμοποιούμε τον εμπειρικό τύπο πλήθος κλάσεων 1 1.443 ln( n), n το μέγεθος του δείγματος 2.2 Θηκογράμματα και απομακρυσμένα σημεία Μία ιδιαίτερα χρήσιμη γραφική τεχνική για μονοδιάστατα δεδομένα είναι τα θηκογράμματα. Τα θηκογράμματα μας πληροφορούν για το κέντρο των δεδομένων, τη συμμετρία ή για το είδος της ασυμμετρίας αλλά και για ακραίες τιμές. Επίσης, τα θηκογράμματα είναι πολύ χρήσιμα όταν θέλουμε να συγκρίνουμε διαφορετικά σύνολα δεδομένων. Για την κατασκευή ενός θηκογράμματος χρησιμοποιούνται 5 στατιστικά: Η ελάχιστη τιμή (min), το 1 ο τεταρτημόριο Q 1, το 2 ο τεταρτημόριο Q 2 που είναι η διάμεσος, το 3 ο τεταρτημόριο Q 3 και η μέγιστη τιμή (max). Επίσης, για την κατασκευή του θηκογράμματος, αλλά και για το χαρακτηρισμό των «απομακρυσμένων σημείων» χρησιμοποιούμε τους παρακάτω κανόνες: Σημεία που βρίσκονται σε απόσταση μεγαλύτερη από 1.5 Q Q είτε από το Q 3 χαρακτηρίζονται ως ακραία σημεία. μονάδες, είτε από το Q 1 3 1 Σημεία που βρίσκονται σε απόσταση μεγαλύτερη από 3 Q Q από το Q 3 χαρακτηρίζονται ως έκτροπα σημεία. μονάδες, είτε από το Q 1 είτε 3 1 Για να κατασκευάσουμε ένα θηκόγραμμα σχεδιάζουμε αρχικά ένα ορθογώνιο, με την κάτω βάση του να βρίσκεται στο 1 ο τεταρτημόριο και την επάνω βάση του στο 3 ο τεταρτημόριο. Μέσα σε αυτό το ορθογώνιο σχεδιάζουμε ένα ευθύγραμμο τμήμα, εκεί όπου βρίσκεται η διάμεσος. Μαρίνα Σύρπη

5 Στη συνέχεια, ξεκινώντας από τα μέσα των βάσεων σχεδιάζουμε δύο ευθύγραμμα τμήματα, τους μύστακες. Έκτροπο σημείο Ακραίο σημείο Άκρο άνω μύστακα: Εδώ, σε απόσταση το πολύ 1.5 Q3 Q1 μονάδων από το Q 3 άνω μύστακας IQR Q3 Q1 Διάμεσος κάτω μύστακας Θηκόγραμμα με κατακόρυφο προσανατολισμό Άκρο κάτω μύστακα: Εδώ, στο ελάχιστο (min) σημείο Το μήκος των μυστάκων καθορίζεται ως εξής: Εάν δεν υπάρχουν ακραία (και κατά συνέπεια έκτροπα σημεία) οι μύστακες φέρονται μέχρι το μέγιστο σημείο, ο άνω μύστακας και μέχρι το ελάχιστο σημείο, ο κάτω μύστακας. Εάν υπάρχουν ακραία σημεία, οι μύστακες φέρονται μέχρι τα σημεία που δεν απέχουν απόσταση μεγαλύτερη από 1.5( Q3 Q1). Στην περίπτωση αυτή, σημειώνουμε τα ακραία σημεία, συνήθως με μία κουκίδα. Εάν, επιπλέον, υπάρχουν και έκτροπα σημεία, τα σημειώνουμε χρησιμοποιώντας διαφορετικό σύμβολο. Σημειώσεις Στατιστικής

6 Απομακρυσμένα σημεία Να σημειώσουμε εδώ ότι ο όρος «ακραίο σημείο» δεν καλά ορισμένος στη στατιστική και πολλές φορές ο χαρακτηρισμός ενός σημείου ως ακραίο ή ως έκτροπο εξαρτάται από τη συγκεκριμένη εφαρμογή. Ωστόσο, αυτό δεν μας δημιουργεί κάποιο πρόβλημα. Το θηκόγραμμα είναι μία τεχνική της διερευνητικής ανάλυσης των δεδομένων από την οποία αντλούμε πληροφορίες και όχι μια διαδικασία εξαγωγής οριστικών συμπερασμάτων. Τιμές οι οποίες, κατά την κατασκευή ενός θηκογράμματος, χαρακτηρίζονται ως ακραίες ή ως έκτροπες είναι απλώς «ύποπτες» τιμές, δηλαδή τιμές οι οποίες μπορεί να είναι λανθασμένες ή να είναι ασυνήθιστες. Επιπλέον, το πλήθος των σημείων που χαρακτηρίζονται ως ακραία εξαρτάται από το μέγεθος του δείγματος και από το σχήμα της κατανομής. Για παράδειγμα, σε δεδομένα που προέρχονται από Κανονικό πληθυσμό το 0,7% των τιμών χαρακτηρίζονται ως ακραία, και μοιράζονται πάνω και κάτω από το θηκόγραμμα. Το θηκόγραμμα μας δίνει πολύτιμες πληροφορίες για την ασυμμετρία και την κύρτωση της κατανομής. Ασυμμετρία Σε μία συμμετρική κατανομή, η διάμεσος εμφανίζεται στο μέσο του θηκογράμματος και οι μύστακες έχουν το ίδιο μήκος. Στις κατανομές που εμφανίζουν θετική ασυμμετρία η διάμεσος απομακρύνεται από την επάνω βάση του ορθογωνίου και μετακινείται προς τα κάτω. Προφανώς όσο ποιο έντονη γίνεται η θετική ασυμμετρία τόσο περισσότερο μετακινείται η διάμεσος προς τα κάτω. Επιπλέον, ο πάνω μύστακας είναι μεγαλύτερος από τον κάτω. Καθώς αυξάνεται η θετική ασυμμετρία, ο πάνω μύστακας γίνεται ολοένα μεγαλύτερος. Αντίστροφα, που εμφανίζουν αρνητική ασυμμετρία η διάμεσος μετακινείται προς την επάνω βάση του θηκογράμματος και μεγαλώνει το μήκος του κάτω μύστακα. Κύρτωση Στις λεπτόκυρτες κατανομές οι μύστακες έχουν μεγάλο μήκος, ενώ στις πλατύκυρτες κατανομές το μήκος των μυστάκων είναι μικρό. Μεταβλητότητα Σε σύνολα δεδομένων με μικρή μεταβλητότητα, ενδοτεταρτημοριακό εύρος IQR Q3 Q1 είναι μικρό. Αυτό σημαίνει ότι το ύψος του ορθογωνίου δεν θα είναι μεγάλο. Ορθογώνια με μεγάλο ύψος, αποτελούν ένδειξη ότι στα δεδομένα μας αυξημένη μεταβλητότητα. Μαρίνα Σύρπη

Σχετική Συχνότητα (%) 7 Παράδειγμα 1 ΔΕΙΚΤΗΣ ΜΑΖΑΣ ΣΩΜΑΤΟΣ Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων Υπολογίσαμε το δείκτη μάζας σώματος, από ένα δείγμα 120 ενήλικων ανδρών. Παρακάτω βλέπουμε το ιστόγραμμα των σχετικών συχνοτήτων (%) καθώς και τις εκτιμήσεις των αριθμητικών μέτρων, όπως αυτές προκύπτουν από τα ομαδοποιημένα δεδομένα. Χρησιμοποιώντας αυτά τα στοιχεία, θα περιγράψουμε την κατανομή για τον δείκτη μάζας σώματος των ενηλίκων ανδρών που ασκούν καθιστικό επάγγελμα. 25,00 21,67 22,50 20,00 15,00 13,33 15,00 10,00 10,83 5,00 2,50 5,83 5,00 3,33 0,00 17,5-20,0 20,0-22,5 22,5-25,0 25,0-27,5 27,5-30,0 30,0-32,5 32,5-35,0 35,0-37,5 37,5-40,0 Δείκτης Μάζας Σώματος (Kgr/m 2 ) Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) Αριθμητικός Μέσος Διάμεσος X M e 2 = 27,125 Kgr/m = 26.36 Kgr/m 2 Τι παρατηρούμε: 1. Τη μορφή του ιστογράμματος των σχετικών συχνοτήτων. Είναι ένα μονοκόρυφο ιστόγραμμα, το οποίο εμφανίζει θετική Επικρατούσα Τιμή M o = 26.27 Kgr/m 2 ασυμμετρία. Διασπορά s 2 = 22.47 (Kgr/m 2 ) 2 Τυπική Απόκλιση s = 4.74 Kgr/m 2 Συντελεστής Μεταβλητότητας cv 1 % = 17.47 % Συντελεστής Ασυμμετρίας γ 1 = 0.16 Συντελεστής Κύρτωσης α = 0.26 Πίνακας Αριθμητικών Περιγραφικών Μέτρων Υπολογισμοί από Ομαδοποιημένα Δεδομένα 2. Τη σχετική θέση των μέτρων κεντρικής τάσης Εδώ M o = 26.27 <M e = 26,36 <X = 27.25 Για άλλη μια φορά εμφανίζεται θετική ασυμμετρία, χωρίς όμως o μέσος να είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο. 3. Ο συντελεστής ασυμμετρίας είναιγ = 0.16 > 0, ένδειξη θετικής ασυμμετρίας. 4. Ο συντελεστής κύρτωσης είναι α 2 =-0.26 < 0, ένδειξη ότι μπορεί να είναι πλατύκυρτη. 5. Ο συντελεστής μεταβλητότητας είναι 17.47% > 10% και είναι αρκετά αυξημένος. Σημειώσεις Στατιστικής

Σχετική Αθροιστική Συχνότητα ( % ) Σχετική Συχνότητα (%) 8 25,00 20,00 21,67 22,50 15,00 13,33 15,00 10,00 10,83 5,00 0,00 17,5-20,0 2,50 20,0-22,5 22,5-25,0 25,0-27,5 27,5-30,0 30,0-32,5 5,83 32,5-35,0 35,0-37,5 5,00 37,5-40,0 3,33 Δείκτης Μάζας Σώματος Πολύγωνο Σχετικών Συχνοτήτων ( % ) Για το πολύγωνο των σχετικών συχνοτήτων, τα κέντρα των κλάσεων ενώνονται με ευθύγραμμα τμήματα. Το πολύγωνο των σχετικών συχνοτήτων μας δίνει τις ίδιες πληροφορίες με το ιστόγραμμα. Ιστόγραμμα και Πολύγωνο Σχετικών Αθροιστικών Συχνοτήτων 100,00 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10,00 0,00 96,67 100,00 91,67 85,83 75,00 60,00 37,50 15,83 2,50 17,5-20,0 20,0-22,5 22,5-25,0 25,0-27,5 27,5-30,0 30,0-32,5 32,5-35,0 35,0-37,5 37,5-40,0 Δείκτης Μάζας Σώματος (Kgr/m 2 ) Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Το ιστόγραμμα των αθροιστικών συχνοτήτων μας δείχνει τον τρόπο με τον οποίο συγκεντρώνονται οι τιμές της μεταβλητής. Μαρίνα Σύρπη

9 Για παράδειγμα, βλέπουμε ότι το 37,5% των ενήλικων ανδρών έχουν δείκτη μάζας σώματος μικρότερο του 25, ενώ το υπόλοιπο 100 37,5 = 62,5% μεγαλύτερο από 25. Επομένως, περίπου 62% των ενηλίκων ανδρών έχουν μεγαλύτερο από το φυσιολογικό βάρος. Επίσης, παρατηρούμε ότι 75% έχουν δείκτη μάζας σώματος μικρότερο του 30 και, συνεπώς, 25% έχουνε δείκτη μάζας σώματος μεγαλύτερο του 30. Επομένως, το 25% περίπου των ενήλικων ανδρών είναι υπέρβαροι. 100 90 80 70 60 50 40 30 20 10 0 91,67 96,67 100,00 85,83 75,00 60,00 37,50 15,83 2,50 17,5 20 22,5 25 27,5 30 32,5 35 37,5 40 Πολύγωνο Σχετικών Αθροιστικών Συχνοτήτων ( % ) Σημειώσεις Στατιστικής

10 ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Παρατηρούμε μια σχετικά ικανοποιητική προσαρμογή στην Κανονική Κατανομή. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. BMI,082 120,055,963 120,002 a. Lilliefors Significance Correction Επειδή το δείγμα μας είναι μεγαλύτερο των 50 παρατηρήσεων, η Κανονικότητα ελέγχεται από το Kolmogorov Smirnov. Επειδή Sig. = 0.055 > 0.05, και μπορούμε να ισχυριστούμε ότι τα δεδομένα μας προέρχονται από Κανονικό πληθυσμό. Μαρίνα Σύρπη

11 Πίνακας Στατιστικών Statistics BMI N Valid 120 Missing 0 Mean (Αριθμητικός Μέσος) 27,1008 Median (Διάμεσος) 26,5500 Mode (Επικρατούσα Τιμή) 26,2700 Std. Deviation (Τυπική Απόκλιση) 4,60574 Variance (Διασπορά) 21,213 Skewness (Ασυμμετρία),606 Std. Error of Skewness (τυπικό σφάλμα του συντελεστή ασυμμετρίας),221 Kurtosis (Κύρτωση) -,149 Std. Error of Kurtosis (τυπικό σφάλμα του συντελεστή κύρτωσης),438 Range (Εύρος) 20,50 Minimum (Ελάχιστη Τιμή) 18,30 Maximum (Μέγιστη Τιμή) 38,80 Sum 3252,10 25 (1 ο τεταρτημόριο - Q 1 ) 23,6250 Percentiles (τεταρτημόρια) 50 (2 ο τεταρτημόριο - Q 2 ) 26,5500 75 (3 ο τεταρτημόριο - Q 3 ) 29,9500 IQR (Ενδοτεταρτημοριακό εύρος) 6,3250 Τα στατιστικά στο SPSS, υπολογίζονται από τα δεδομένα και όχι με ομαδοποίηση. Για το λόγο αυτό παρατηρούνται διαφορές από τα προηγούμενα που έχουν υπολογιστεί για ομαδοποιημένα δεδομένα. ( α ) Για να διαπιστώσουμε την ασυμμετρία και το είδος της: 2 se..( ) 2 0,221 0,442 και 0,606 0,606 0,442 Επομένως, 2 se.. και 0 άρα έχουμε θετική ασυμμετρία. ( β ) Για να διαπιστώσουμε το είδος της κύρτωσης: 2 se..( ) 2 0,438 0,876 και 0,149 0,149 0,876 Επομένως, 2 se.. και η κατανομή είναι μεσόκυρτη. Σημειώσεις Στατιστικής

12 Θηκόγραμμα Εμφανίζεται θετική ασυμμετρία ο πάνω μύστακας είναι μεγαλύτερος από τον κάτω. Δεν παρατηρούνται ακραίες ή έκτροπες τιμές. Διαπιστώσεις για την Κατανομή του Δείκτη Μάζας Σώματος Η κατανομή του δείκτη μάζας σώματος των ενηλίκων ανδρών φαίνεται να ακολουθεί την Κανονική Κατανομή. Είναι μεσόκυρτη και ο δείκτης σημαντικότητας για το test Kolmogorov Smirnov είναι 0,055 0,05 Εμφανίζει μια μικρή θετική ασυμμετρία, καθώς M o = 26,27 <M e = 26,55 <X = 27,10 και, επιπλέον, 2 se.. και 0. Η θετική ασυμμετρία οφείλεται στην παρουσία κάποιων μεγάλων τιμών της μεταβλητής. Αποτέλεσμα είναι ο αριθμητικός μέσος να είναι ελαφρώς απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. Από το ιστόγραμμα των σχετικών συχνοτήτων προκύπτει ότι 44,17 % των ενηλίκων ανδρών έχουν δείκτη μάζας σώματος 22,5 27,5 Kgr/m 2 «Ο μέσος δείκτης μάζας σώματος των ενηλίκων ανδρών εκτιμάται σε 27,10 Kgr/m 2» Μαρίνα Σύρπη

13 «Οι μισοί από τους ενηλίκους άνδρες έχουν δείκτη μάζας σώματος μικρότερο από, περίπου, 26,55 Kgr/m 2». Ισοδύναμα, μπορούμε να πούμε ότι «Οι μισοί από τους ενηλίκους άνδρες έχουν δείκτη μάζας σώματος μεγαλύτερο από, περίπου, 26,55 Kgr/m 2». «Το μεγαλύτερο ποσοστό των ενηλίκων που ασκούν καθιστικό επάγγελμα ( 22,5%) έχουν δείκτη μάζας σώματος περίπου 26,27 Kgr/m 2». «Το 25% των ενηλίκων ανδρών, έχουν δείκτη μάζας σώματος μικρότερο από, περίπου, 23,625 Kgr/m 2 περίπου, ενώ το 75% μεγαλύτερο». «Το 75% των ενηλίκων, έχουν δείκτη μάζας σώματος μικρότερο από 29,95 Kgr/m 2 περίπου, ενώ το 25% μεγαλύτερο». Τέλος, «το 50% των ενηλίκων ανδρών έχουν δείκτη μάζας σώματος από 23,625 Kgr/m 2 έως 29,95 Kgr/m 2, περίπου». Ο συντελεστής μεταβλητότητας είναι αρκετά αυξημένος (17,47%). Σημειώσεις Στατιστικής

Σχετική Συχνότητα (%) 14 Εφαρμογή 2 ΤΙΜΕΣ ΓΛΥΚΟΖΗΣ ΣΤΟ ΠΛΑΣΜΑ ΤΟΥ ΑΙΜΑΤΟΣ ΕΝΗΛΙΚΩΝ (20 74 ΕΤΩΝ) Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων Μετρήσαμε τα επίπεδα γλυκόζης στο πλάσμα αίματος, σε 100 ενήλικες 20 74 ετών. Παρακάτω βλέπουμε το ιστόγραμμα των σχετικών συχνοτήτων (%) καθώς και τις εκτιμήσεις των αριθμητικών μέτρων, όπως αυτές προκύπτουν από τα ομαδοποιημένα δεδομένα. Χρησιμοποιώντας αυτά τα στοιχεία, θα περιγράψουμε την κατανομή για την τιμή της γλυκόζης στον ορό αίματος των ενηλίκων 20 74 ετών. 40 37 35 33 30 25 20 15 10 5 0 6 7 6 4 3 2 1 1 70-80 80-90 90-100 100-110 110-120 120-130 130-140 140-150 150-160 160-170 Τιμές Γλυκόζης (mg/dl) Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) Αριθμητικός Μέσος X = 97,6 mg/dl Διάμεσος M e = 92,97 mg/dl Επικρατούσα Τιμή M o = 91,18 mg/dl Διασπορά s 2 = 341.24 (mg/dl) 2 Τυπική Απόκλιση s = 18,47 mg/dl Συντελεστής Μεταβλητότητας cv 1 % = 18,93 % Συντελεστής Ασυμμετρίας γ 1 = 1.74 Συντελεστής Κύρτωσης α = 2,87 Πίνακας Αριθμητικών Περιγραφικών Μέτρων Υπολογισμοί από Ομαδοποιημένα Δεδομένα Τι παρατηρούμε: 1. Τη μορφή του ιστογράμματος των σχετικών συχνοτήτων. Είναι ένα μονοκόρυφο ιστόγραμμα, το οποίο φαίνεται να έχει έντονη θετική ασυμμετρία. 2. Τη σχετική θέση των μέτρων κεντρικής τάσης Εδώ M o = 91,18 <M e = 92,97 <X = 97,6 Για άλλη μια φορά προκύπτει θετική ασυμμετρία, με το μέσο να είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. 3. Ο συντελεστής ασυμμετρίας είναιγ = 1,74 >> 0. Η κατανομή φαίνεται να απέχει πολύ από μια συμμετρική κατανομή οποία γ = 0. 4. Ο συντελεστής κύρτωσης είναι α 2 =2,87 > 0. Η κατανομή φαίνεται να είναι λεπτόκυρτη και να απέχει από την μεσόκυρτη κανονική κατανομή, για την οποία α = 0. 5. Ο συντελεστής μεταβλητότητας είναι 18,93% > 10% και είναι μεγάλος. Μαρίνα Σύρπη

Σχετική Αθροιστική Συχότητα (%) 15 40 37 35 30 33 25 20 15 10 5 0 6 7 6 3 2 1 1 4 75 85 95 105 115 125 135 145 155 165 Πολύγωνο Σχετικών Συχνοτήτων ( % ) Ιστόγραμμα και Πολύγωνο Σχετικών Αθροιστικών Συχνοτήτων 100 90 83 87 93 95 96 99 100 80 76 70 60 50 40 39 30 20 10 0 6 70-80 80-90 90-100 100-110 110-120 120-130 130-140 140-150 150-160 160-170 Τιμές Γλυκόζης (mg/dl) Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Σημειώσεις Στατιστικής

16 76% των ενηλίκων 20 74 ετών έχουν τιμές γλυκόζης στο πλάσμα του αίματος, χαμηλότερες από 90 mg/dl και μόνον 24% έχουν τιμές υψηλότερες από 90 mg/dl. Παρατηρείται αυξημένη συγκέντρωση τιμών στις χαμηλές κλάσεις. 100 90 83 87 93 95 96 99 100 80 76 70 60 50 40 39 30 20 10 0 6 70 80 90 100 110 120 130 140 150 160 Πολύγωνο Σχετικών Αθροιστικών Συχνοτήτων (%) Μαρίνα Σύρπη

17 ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Παρατηρούμε μια σχετικά ικανοποιητική προσαρμογή στην Κανονική Κατανομή. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Glucose,220 100,000,807 100,000 a. Lilliefors Significance Correction Επειδή το δείγμα μας είναι μεγαλύτερο των 50 παρατηρήσεων, η Κανονικότητα ελέγχεται από το Kolmogorov Smirnov. Επειδή Sig. = 0.000 < 0.05, συμπεραίνουμε ότι τα δεδομένα μας δεν προέρχονται από Κανονικό Πληθυσμό. Σημειώσεις Στατιστικής

18 Πίνακας Στατιστικών Statistics Glucose N Valid 100 Missing 0 Mean (Αριθμητικός Μέσος) 97,2000 Median (Διάμεσος) 91,5000 Mode (Επικρατούσα Τιμή) 90,00 Std. Deviation (Τυπική Απόκλιση) 17,96911 Variance (Διασπορά) 322,889 Skewness (Ασυμμετρία) 1,806 Std. Error of Skewness (τυπικό σφάλμα του συντελεστή ασυμμετρίας) 0,241 Kurtosis (Κύρτωση) 3,271 Std. Error of Kurtosis (τυπικό σφάλμα του συντελεστή κύρτωσης),478 Range (Εύρος) 90,00 Minimum (Ελάχιστη Τιμή) 74,00 Maximum (Μέγιστη Τιμή) 164,00 Sum 9720,00 Percentiles (τεταρτημόρια) 25 (1 ο τεταρτημόριο - Q 1 ) 87,2500 50 (2 ο τεταρτημόριο -Q 2 ) 91,5000 75 (3 ο τεταρτημόριο - Q 3 ) 99,0000 IQR (Ενδοτεταρτημοριακό εύρος) 11, 75 ( α ) Για να διαπιστώσουμε την ασυμμετρία και το είδος της: 2 se..( ) 2 0,241 0,482 και 1,806 1,806 0,482 Επομένως, 2 se.. και 0, άρα έχουμε θετική ασυμμετρία. ( β ) Για να διαπιστώσουμε το είδος της κύρτωσης: 2 se..( ) 2 0,478 0,956 και 3,271 3,271 0,956 Επομένως, 2 se.. και 0, άρα η κατανομή είναι λεπτόκυρτη. Μαρίνα Σύρπη

19 Θηκόγραμμα Παρατηρούνται αρκετές ακραίες και έκτροπες τιμές προς τα επάνω. Παρατηρείται μικρό ενδοτεταρτημοριακό εύρος. Παρατηρείται θετική ασυμμετρία η διάμεσος είναι αρκετά κοντά στην κάτω βάση. Διαπιστώσεις για την Κατανομή της τιμής της γλυκόζης στο πλάσμα του αίματος Η κατανομή της τιμής της γλυκόζης στο πλάσμα του αίματος των ενηλίκων (20 74 ετών) δεν φαίνεται να ακολουθεί την Κανονική Κατανομή, καθώς: 1. Εμφανίζει έντονη θετική ασυμμετρία ( M o = 90 < M e = 91,5 < X = 97,6) και επιπλέον, 2 se.. και 0 2. Είναι λεπτόκυρτη, καθώς 2 se.. και 0 3. Ο δείκτης σημαντικότητας στον έλεγχο Kolmogorov Smirnov είναι 0.000 0.005 Σημειώσεις Στατιστικής

20 Η θετική ασυμμετρία οφείλεται στην παρουσία μεγάλων τιμών της μεταβλητής. Αποτέλεσμα είναι ο αριθμητικός μέσος να είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. Από το ιστόγραμμα των σχετικών συχνοτήτων προκύπτει στο 70% των ενηλίκων (20 74 ετών), η τιμή της γλυκόζης στον ορό του αίματος κυμαίνεται από 80 mg/dl έως 100 mg /dl. Επομένως, έχουμε υψηλή συγκέντρωση τιμών σε αυτό το διάστημα. Αυτό το διακρίνουμε και από το δείκτη κύρτωσης. Η κατανομή εμφανίζεται έντονα λεπτόκυρτη, που σημαίνει ότι έχουμε μεγάλη συγκέντρωση τιμών γύρω από την κορυφή της κατανομής. «Η μέση τιμή της γλυκόζης στο πλάσμα του αίματος των ενηλίκων (20 74 ετών) είναι περίπου 97,6 mg/dl» «Στους μισούς από τους ενήλικες 20 74 ετών η τιμή της γλυκόζης στο πλάσμα του αίματος είναι χαμηλότερη από, περίπου 92,97 mg/dl». Ισοδύναμα, μπορούμε να πούμε ότι «Στους μισούς από τους ενήλικες η τιμή της γλυκόζης είναι υψηλότερη από περίπου 92, 97 mg/dl». «Στο μεγαλύτερο ποσοστό των ενηλίκων 20 74 ετών ( 37 %) η τιμή της γλυκόζης στο πλάσμα του αίματος είναι περίπου 97,6 mg/dl. «Το 25% των ενηλίκων 20 74 ετών, έχουν τιμή γλυκόζης στο πλάσμα του αίματος χαμηλότερη από 87,25 mg/dl, και το υπόλοιπο 75 % υψηλότερη». «Το 75% των ενηλίκων 20 74 ετών, έχουν τιμή γλυκόζης στο πλάσμα του αίματος χαμηλότερη από 99 mg/dl, και το υπόλοιπο 25 % μεγαλύτερη». Το 50% των ενηλίκων 20 74 ετών, έχουν τιμή γλυκόζης από 87,25 mg/dl έως 99,00 mg/dl. Ο συντελεστής μεταβλητότητας είναι αρκετά αυξημένος (18,93%). Μαρίνα Σύρπη

Σχετική Αθροιστική Συχνότητα (%) Σχετική Συχνότητα (%) 21 Εφαρμογή 3 ΠΟΣΟΣΤΙΑΙΑ ΚΑΤΑΝΟΜΗ ΤΩΝ ΝΟΙΟΚΥΡΙΩΝ ΑΝΑΛΟΓΑ ΜΕ ΤΗ ΔΥΝΑΤΟΤΗΤΑ ΠΡΟΣΒΑΣΗ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΣΤΗΝ ΠΕΡΙΦΕΡΕΙΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων Παρακάτω βλέπουμε την κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο, για τους 38 Δήμους της Περιφέρειας Κεντρικής Μακεδονίας (Π.Κ.Μ.), 30 25 23,68 26,32 20 18,42 18,42 15 10 10,53 5 2,63 0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 Ποσοστό νοικοκυριών με πρόσβαση στο διαδίκτυο (%) ΠΗΓΗ: ΕΛΣΤΑΤ 2011 Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 100 97,37 100,00 90 80 70 60 68,42 78,95 50 40 42,11 30 20 10 0 0 18,42 0-10 10-20 20-30 30-40 40-50 50-60 60-70 Ποσοστό νοικοκυριών με πρόσβαση στο διαδίκτυο (%) ΠΗΓΗ: ΕΛΣΤΑΤ 2011 Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Σημειώσεις Στατιστικής

22 ΜΕΤΑΒΛΗΤΗ: Ποσοστό νοικοκυριών με πρόσβαση στο διαδίκτυο (%) ΠΛΗΘΥΣΜΟΣ: Οι Δήμοι της Περιφέρειας Κεντρικής Μακεδονίας ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Παρατηρούμε μια σχετικά ικανοποιητική προσαρμογή στην Κανονική Κατανομή. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Πρόσβαση_ΠΚΜ,090 38,200 *,964 38,263 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. Επειδή το δείγμα μας είναι μικρότερο των 50 παρατηρήσεων, η Κανονικότητα ελέγχεται από το Shapiro - Wilk. Επειδή Sig. = 0,263 > 0.05, συμπεραίνουμε ότι τα δεδομένα μας προέρχονται από Κανονικό Πληθυσμό. Μαρίνα Σύρπη

23 Πίνακας Στατιστικών Statistics Πρόσβαση_ΠΚΜ N Valid 38 Missing 0 Mean 34,7526 Std. Error of Mean 2,32253 Median 32,4000 Mode 32,33 Std. Deviation 14,31706 Variance 204,978 Coefficient of Variation (%) 41,197 Skewness,364 Std. Error of Skewness,383 Kurtosis -,605 Std. Error of Kurtosis,750 Range 54,10 Minimum 12,90 Maximum 67,00 Percentiles 25 24,1000 50 32,4000 75 44,0750 IQR 19,975 ( α ) Για να διαπιστώσουμε την ασυμμετρία και το είδος της: 2 se..( ) 2 0,383 0,766 και 0,364 0,364 0,766 Επομένως, 2 se.. και δεν προκύπτει ασυμμετρία ( β ) Για να διαπιστώσουμε το είδος της κύρτωσης: 2 se..( ) 2 0,750 1,500 και 0,605 0,605 1,500 Επομένως, 2 se.. και η κατανομή είναι μεσόκυρτη. Έτσι, για ακόμα μία φορά προκύπτει Κανονικότητα Σημειώσεις Στατιστικής

24 Θηκόγραμμα Εμφανίζεται θετική ασυμμετρία, καθώς ο πάνω μύστακας είναι μεγαλύτερος από τον κάτω και η διάμεσος είναι ποιο κοντά στην κάτω βάση του ορθογωνίου. Δεν παρατηρούνται ακραίες ή έκτροπες τιμές. Διαπιστώσεις για την Κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο Η κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο, για τους Δήμους της ΠΚΜ φαίνεται να ακολουθεί την Κανονική Κατανομή. Ο δείκτης σημαντικότητας για το test Shapiro Wilk είναι 0,263 0,05. M o = 32,33 < M e = 32,40 < X = 34,7526. Η μέση τιμή είναι ελαφρώς απομακρυσμένη από την επικρατούσα και την διάμεσο τιμή. Αυτό οφείλεται στην παρουσία κάποιων μεγάλων τιμών της μεταβλητής, γεγονός που αποτυπώνεται και στο θηκόγραμμα. Μαρίνα Σύρπη

25 Παρουσίαση των στατιστικών μέτρων X 34,7526 «Στους Δήμους της Π.Κ.Μ., το μέσο ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο, εκτιμάται 34,75%.» ΣΧΟΛΙΟ: Αυτό σημαίνει ότι, κατά κανόνα, στους παραπάνω Δήμους το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο είναι περίπου 34,75% (δηλαδή 1 στα 3 νοικοκυριά). Επομένως, εάν επιλέξουμε τυχαία έναν από τους παραπάνω Δήμους για να μετρήσουμε το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο περιμένουμε αυτό το ποσοστό να είναι κοντά στο 34,75%. M 32,40 e «Στους μισούς από τους Δήμους της Π.Κ.Μ. το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο δεν υπερβαίνει το 32,40%». M 32,33 «Στους περισσότερους από τους Δήμους της ΠΚΜ ( πρόσβαση στο διαδίκτυο είναι περίπου 32,33 %». 26,32%), το ποσοστό των νοικοκυριών με Q 24,100 Q 44,075 1 3 «Στους 1 από τους 4 Δήμους της Π.Κ.Μ. το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο δεν υπερβαίνει το 24,1%». «Στους 3 από τους 4 Δήμους της Π.Κ.Μ. το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο δεν υπερβαίνει το 44,075 %». «Στους μισούς από τους Δήμους της Π.Κ.Μ. τα ποσοστά των νοικοκυριών με πρόσβαση στο διαδίκτυο κυμαίνονται από 24,1% έως 44,075%» Θα μπορούσαμε να πούμε ότι αυτή είναι μία μεγάλη διακύμανση, κάτι που επιβεβαιώνεται και από τον συντελεστή μεταβλητότητας cv.. 41,197% που είναι ιδιαίτερα αυξημένος. Σημειώσεις Στατιστικής

26 Εφαρμογή 4 ΠΟΣΟΣΤΙΑΙΑ ΚΑΤΑΝΟΜΗ ΤΩΝ ΝΟΙΟΚΥΡΙΩΝ ΑΝΑΛΟΓΑ ΜΕ ΤΗ ΔΥΝΑΤΟΤΗΤΑ ΠΡΟΣΒΑΣΗ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΣΤΗΝ ΠΕΡΙΦΕΡΕΙΑ ΑΤΤΙΚΗΣ Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων Παρακάτω βλέπουμε την κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο, για τους 66 Δήμους της Περιφέρειας Αττικής (Π.Α.) 35 31,82 30 25 20 21,21 19,70 15 15,15 10 7,58 5 1,52 3,03 0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 ΠΗΓΗ ΕΛΣΤΑΤ, 2011 Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 100 90 92,42 100,00 80 70 72,73 60 50 40 40,91 30 20 10 0 19,70 0 1,52 4,55 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 ΠΗΓΗ: ΕΛΣΤΑΤ 2011 Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Μαρίνα Σύρπη

27 ΜΕΤΑΒΛΗΤΗ: ΠΛΗΘΥΣΜΟΣ: ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. ΠΡΟΣΒΑΣΗ_ΠΑ,118 66,023,972 66,140 a. Lilliefors Significance Correction Σημειώσεις Στατιστικής

28 Πίνακας Στατιστικών Statistics ΠΡΟΣΒΑΣΗ_ΠΑ N Valid 66 Missing 0 Mean 52,0879 Std. Error of Mean 1,54505 Median 52,7500 Mode 55,22000 Std. Deviation 12,55208 Variance 157,555 Coefficient of Variation (%) 24,09773 Skewness -,490 Std. Error of Skewness,295 Kurtosis,057 Std. Error of Kurtosis,582 Range 57,50 Minimum 16,80 Maximum 74,30 Percentiles 25 47,4750 50 52,7500 IQR 75 60,3250 12,85 Μαρίνα Σύρπη

29 Θηκόγραμμα Διαπιστώσεις για την Κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο Σημειώσεις Στατιστικής

30 Παρουσίαση των στατιστικών μέτρων Μαρίνα Σύρπη