Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Σχετικά έγγραφα
Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές Διερευνητική Ανάλυση Δεδομένων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Περιγραφική Στατιστική

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Εισαγωγή στη Στατιστική

Εφαρμοσμένη Στατιστική

ΘΕΜΑΤΑ Α : ΕΚΦΩΝΗΣΕΙΣ - ΛΥΣΕΙΣ

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Στατιστική Επιχειρήσεων Ι

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Σ ΤΑΤ Ι Σ Τ Ι Κ Η MBA I

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ & ΕΚΠΑΙΔΕΥΣΗ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΚΕΦΑΛΑΙΟ 2 ΔΙΕΥΘΥΝΣΗ ΔΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ ΝΟΜΟΥ ΧΑΝΙΩΝ ΣΧΟΛΙΚΟ ΕΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΚΑΙ ΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΥΣ

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

I2. Αριθμητικά περιγραφικά μέτρα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Εισαγωγή στη Στατιστική

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΩΚΕΑΝΟΓΡΑΦΙΑ. Πρακτική Άσκηση 4- Θεωρητικό Υπόβαθρο ΕΦΑΡΜΟΣΜΕΝΗ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΤΟΜΕΑΣ ΓΕΩΓΡΑΦΙΑΣ & ΚΛΙΜΑΤΟΛΟΓΙΑΣ ΤΜΗΜΑ ΓΕΩΛΟΓΙΑΣ & ΓΕΩΠΕΡΙΒΑΛΛΟΝΤΟΣ

Μάθηµα 3 ο. Περιγραφική Στατιστική

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Βιοστατιστική ΒΙΟ-309

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

1. Hasil Pengukuran Kadar TNF-α. DATA PENGAMATAN ABSORBANSI STANDAR TNF α PADA PANJANG GELOMBANG 450 nm

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Περιγραφική Στατιστική. Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Βιοστατιστική ΒΙΟ-309

1) ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ - ΑΤΑΞΙΝΟΜΗΤΑ ΔΕΔΟΜΕΝΑ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Βιοστατιστική ΒΙΟ-309

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΔΕΟ 13 ΤΟΜΟΣ Δ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΚΕΦΑΛΑΙΟ 6 ΚΟΙΝΟΙ ΥΠΟΨΗΦΙΟΙ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ενότητα 3 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Περιγραφική Στατιστική

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Transcript:

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis Περιλαμβάνει ένα σύνολο αριθμητικών και γραφικών μεθόδων, που μας επιτρέπουν να αποκτήσουμε μια πρώτη εικόνα για την κατανομή των τιμών της μεταβλητής στον πληθυσμό. Μας βοηθά στον εντοπισμό «προβληματικών» τιμών, δηλαδή των τιμών της μεταβλητής που είναι απομακρυσμένες από το σώμα των υπόλοιπων τιμών και να τις χαρακτηρίσουμε ως ακραίες ή έκτροπες ή, ακόμα και λανθασμένες και να αποφασίσουμε για τον τρόπο που θα τις διαχειριστούμε. Επίσης, μας βοηθά να διαγνώσουμε την Κανονικότητα του πληθυσμού, δηλαδή ελέγξουμε εάν τα δεδομένα μας προέρχονται από έναν πληθυσμό που ακολουθεί την Κανονική Κατανομή. Αυτό είναι ιδιαίτερα σημαντικό, καθώς πολλές από τις μεθόδους της Στατιστικής που χρησιμοποιούμε για την περαιτέρω ανάλυση των δεδομένων προϋποθέτουν την Κανονικότητα του πληθυσμού. 1. Αριθμητικές Μέθοδοι 1.1 Μέρα Κεντρικής Τάσης Ο Αριθμητικός Μέσος (Arithmetic Mean) X Εκτιμά τη μέση τιμή στον πληθυσμό Για συμμετρικές (ή σχεδόν συμμετρικές) κατανομές, ο μέσος είναι σημείο του άξονα συμμετρίας (ή πολύ κοντά σε αυτόν). Η Δειγματική Διάμεσος (Sample Median) Εκτιμά τη διάμεσο τιμή στον πληθυσμό. M d ή M e ή Q 2 Είναι η μεσαία από τις τιμές του δείγματος όταν αυτές διαταχθούν σε αύξουσα, συνήθως, σειρά. Όταν μας δίνεται η διάμεσος, γνωρίζουμε ότι στο 50% του δείγματος (αντίστοιχα του πληθυσμού) οι τιμές της μεταβλητής που μελετούμε είναι μικρότερες από την διάμεσο τιμή. Σε συμμετρικές (ή σχεδόν συμμετρικές) κατανομές, ο αριθμητικός μέσος και η διάμεσος συμπίπτουν (ή βρίσκονται πολύ κοντά). Σε μονοκόρυφες κατανομές με ασυμμετρία, ο μέσος απομακρύνεται από τη διάμεσο προς την κατεύθυνση που εμφανίζεται η «ουρά» της κατανομής. Σε περιπτώσεις έντονης ασυμμετρίας, η διάμεσος είναι προτιμότερη ως μέτρο κεντρικής τάσης (θεωρείται, δηλαδή, καλύτερος εκπρόσωπος του πληθυσμού)

2 Η Δειγματική Επικρατούσα Τιμή (Sample Mode) Εκτιμά την επικρατούσα τιμή στον πληθυσμό. M o Είναι η τιμή με τη μεγαλύτερη συχνότητα εμφάνισης. Χρησιμοποιείται λιγότερο από τον μέσο και τη διάμεσο. 1.2 Μέτρα Σχετικής Θέσης Τα τεταρτημόρια (quartiles) ενός δείγματος ή ενός πληθυσμού είναι εκείνες οι τιμές που χωρίζουν το δείγμα (αντίστοιχα τον πληθυσμό) σε τέσσερα ισοπληθή μέρη. 1 ο τεταρτημόριο ή Q 1 Στο 25% του δείγματος (αντίστοιχα) του πληθυσμού οι τιμές της μεταβλητής είναι μικρότερες από το Q 1, ενώ στο υπόλοιπο 75% μεγαλύτερες από το Q 1. 2 ο τεταρτημόριο ή Q 2 Στο 50% του δείγματος (αντίστοιχα) του πληθυσμού οι τιμές της μεταβλητής είναι μικρότερες από το Q 2, ενώ στο υπόλοιπο 50% είναι μεγαλύτερες. ο τεταρτημόριο ή Q Στο 75% του δείγματος (αντίστοιχα) του πληθυσμού οι τιμές της μεταβλητής είναι μικρότερες από το Q, ενώ στο υπόλοιπο 25% είναι μεγαλύτερες. 1. Μέτρα μεταβλητότητας Η δειγματική διασπορά (sample variance) standard deviation) s 2 s και η δειγματική τυπική απόκλιση (sample Εκτιμούν τη διασπορά 2 και την τυπική απόκλιση στον πληθυσμό. Όταν η διασπορά (αντίστοιχα η τυπική απόκλιση) είναι αυξημένη γνωρίζουμε ότι υπάρχουν τιμές τις μεταβλητής αρκετά απομακρυσμένες από το μέσο. Σε μία Κανονική Κατανομή, το 95% των τιμών της μεταβλητής βρίσκεται εντός των ορίων 2. Ο συντελεστής μεταβλητότητας (coefficient of variation) cv % Σύνολα δεδομένων για τα οποία cv% 10% θεωρούνται ομοιογενή (μικρής μεταβλητότητας) Το ενδοτεταρτημοριακό εύρος IQR (Interquartile Range) IQR Q Q1 : Περιέχει το 50% των κεντρικών παρατηρήσεων. Μικρό ενδοτεταρτημοριακό εύρος, σημαίνει μικρή μεταβλητότητα των δεδομένων. Το ενδοτεταρτημοριακό εύρος είναι περισσότερο ανθεκτικό ως μέτρο της διασποράς από Μαρίνα Σύρπη

ότι η διασπορά και η τυπική απόκλιση, δηλαδή δεν επηρεάζεται από την παρουσία ακραίων τιμών. Επίσης, στην Κανονική Κατανομή το ενδοτεραρτημοριακό εύρος είναι περίπου ίσο με 4 τα 4/ της τυπικής απόκλισης. Δηλαδή IQR. 1.4 Μέτρα Ασυμμετρίας και Κύρτωσης Ο δείκτης ασυμμετρίας (Skewness) είναι μέτρο της ασυμμετρίας μιας κατανομής. Για μια συμμετρική κατανομή 0. Για κατανομή με θετική ασυμμετρία 0 και M o M e X Για κατανομή με αρνητική ασυμμετρία 0 και X M e M o Επιπλέον, εάν γνωρίζουμε το τυπικό σφάλμα (standard error) του συντελεστή ασυμμετρίας τότε μπορούμε να χρησιμοποιήσουμε τον παρακάτω βοηθητικό πίνακα: Σχέση και se.. 2 se.. Συμπέρασμα κατανομή συμμετρική 2 se.. και >0 κατανομή με θετική ασυμμετρία 2 se.. και <0 κατανομή με αρνητική ασυμμετρία Ο δείκτης κύρτωσης (kurtosis) μιας κατανομής συγκρίνει «οξύτητα» της κατανομής με αυτήν της Κανονικής Κατανομής. Για μια μεσόκυρτη κατανομή 0 Για μια λεπτόκυρτη κατανομή 0 Για μια πλατύκυρτη κατανομή 0 Επιπλέον, εάν γνωρίζουμε το τυπικό σφάλμα (standard error) του συντελεστή ασυμμετρίας τότε μπορούμε να χρησιμοποιήσουμε τον παρακάτω βοηθητικό πίνακα: Σχέση και se.. μεσόκυρτη 2 se.. 2 se.. και >0 λεπτόκυρτη 2 se.. και <0 πλατύκυρτη Συμπέρασμα Σημειώσεις Στατιστικής

4 2. Διερεύνηση Κανονικότητας ΚΡΙΤΗΡΙΑ 1 ο Μια κατανομή που είναι συμμετρική και μεσόκυρτη μπορεί να χαρακτηριστεί ως Κανονική. Επομένως, για να θεωρήσουμε κανονικότητα, θα πρέπει: 2 se.. και 2 se.. 2 ο 4 Μια κατανομή για την οποία IQR s,μπορεί να χαρακτηριστεί ως Κανονική ο Μια κατανομή για την οποία R 6s,μπορεί να χαρακτηριστεί ως Κανονική 4 ο Έλεγχος Κανονικότητας 0 1 : Τα δεδομένα προέρχονται από Κανονικό Πληθυσμό : Τα δεδομένα ΔΕΝ προέρχονται από Κανονικό Πληθυσμό Για, n 50 χρησιμοποιούμε το στατιστικό Shapiro Wilk Για, n 50 χρησιμοποιούμε το στατιστικό Kolmogorov Smirnov Όταν sig. 0.05, δεχόμαστε την 0, δηλαδή ότι τα δεδομένα προέρχονται από Κανονικό Πληθυσμό. Εάν ικανοποιείται κάποιο από τα παραπάνω κριτήρια, θα θεωρούμε ότι τα δεδομένα μας προέρχονται από Κανονικό Πληθυσμό. Γραφικές Μέθοδοι.1 Ιστογράμματα Το ιστόγραμμα είναι το κύριο γράφημα που χρησιμοποιούμε για τη διερευνητική ανάλυση των δεδομένων. Αποτελείται από ορθογώνια, κατά κανόνα ίσου πλάτους, με το ύψος κάθε ορθογωνίου να ισούται είτε με το πλήθος είτε με την αναλογία είτε με το ποσοστό των τιμών της μεταβλητής που ανήκουν στην κλάση. Ένα ζήτημα που αντιμετωπίζουμε με τα ιστογράμματα είναι η επιλογή του πλήθους των κλάσεων, καθώς ο αριθμός του πλήθους των κλάσεων μπορεί να επηρεάσει τη μορφή του ιστογράμματος. Παρόλο που τα στατιστικά προγράμματα που χρησιμοποιούμε για την επεξεργασία των δεδομένων προσδιορίζουν αυτόματα των αριθμό των κλάσεων, τα περισσότερα από αυτά μας επιτρέπουν να αλλάζουμε αυτό τον αριθμό και να πειραματιζόμαστε. Σε πολλές περιπτώσεις για την επιλογή του πλήθους των κλάσεων χρησιμοποιούμε τον εμπειρικό τύπο πλήθος κλάσεων 11.44 ln( n), n το μέγεθος του δείγματος Μαρίνα Σύρπη

5.2 Θηκογράμματα και απομακρυσμένα σημεία Μία ιδιαίτερα χρήσιμη γραφική τεχνική για μονοδιάστατα δεδομένα είναι τα θηκογράμματα. Τα θηκογράμματα μας πληροφορούν για το κέντρο των δεδομένων, τη συμμετρία ή για το είδος της ασυμμετρίας αλλά και για ακραίες τιμές. Επίσης, τα θηκογράμματα είναι πολύ χρήσιμα όταν θέλουμε να συγκρίνουμε διαφορετικά σύνολα δεδομένων. Για την κατασκευή ενός θηκογράμματος χρησιμοποιούνται 5 στατιστικά: Η ελάχιστη τιμή (min), το 1 ο τεταρτημόριο Q 1, το 2 ο τεταρτημόριο Q 2 που είναι η διάμεσος, το ο τεταρτημόριο Q και η μέγιστη τιμή (max). Επίσης, για την κατασκευή του θηκογράμματος, αλλά και για το χαρακτηρισμό των «απομακρυσμένων σημείων» χρησιμοποιούμε τους παρακάτω κανόνες: Σημεία που βρίσκονται σε απόσταση μεγαλύτερη από 1.5Q Q είτε από το Q χαρακτηρίζονται ως ακραία σημεία. μονάδες, είτε από το Q 1 1 Σημεία που βρίσκονται σε απόσταση μεγαλύτερη από Q Q από το Q χαρακτηρίζονται ως έκτροπα σημεία. μονάδες, είτε από το Q 1 είτε 1 Για να κατασκευάσουμε ένα θηκόγραμμα σχεδιάζουμε αρχικά ένα ορθογώνιο, με την κάτω βάση του να βρίσκεται στο 1 ο τεταρτημόριο και την επάνω βάση του στο ο τεταρτημόριο. Μέσα σε αυτό το ορθογώνιο σχεδιάζουμε ένα ευθύγραμμο τμήμα, εκεί όπου βρίσκεται η διάμεσος. Στη συνέχεια, ξεκινώντας από τα μέσα των βάσεων σχεδιάζουμε δύο ευθύγραμμα τμήματα, τους μύστακες. Σημειώσεις Στατιστικής

6 Έκτροπο σημείο Ακραίο σημείο Άκρο άνω μύστακα: Εδώ, σε απόσταση το πολύ 1.5 Q Q μονάδων από το Q 1 άνω μύστακας IQR Q Q1 Διάμεσος κάτω μύστακας Άκρο κάτω μύστακα: Εδώ, στο ελάχιστο (min) σημείο Θηκόγραμμα με κατακόρυφο προσανατολισμό Το μήκος των μυστάκων καθορίζεται ως εξής: Εάν δεν υπάρχουν ακραία (και κατά συνέπεια έκτροπα σημεία) οι μύστακες φέρονται μέχρι το μέγιστο σημείο, ο άνω μύστακας και μέχρι το ελάχιστο σημείο, ο κάτω μύστακας. Εάν υπάρχουν ακραία σημεία, οι μύστακες φέρονται μέχρι τα σημεία που δεν απέχουν απόσταση μεγαλύτερη από 1.5( Q Q1). Στην περίπτωση αυτή, σημειώνουμε τα ακραία σημεία, συνήθως με μία κουκίδα. Εάν, επιπλέον, υπάρχουν και έκτροπα σημεία, τα σημειώνουμε χρησιμοποιώντας διαφορετικό σύμβολο. Μαρίνα Σύρπη

7 Απομακρυσμένα σημεία Να σημειώσουμε εδώ ότι ο όρος «ακραίο σημείο» δεν καλά ορισμένος στη στατιστική και πολλές φορές ο χαρακτηρισμός ενός σημείου ως ακραίο ή ως έκτροπο εξαρτάται από τη συγκεκριμένη εφαρμογή. Ωστόσο, αυτό δεν μας δημιουργεί κάποιο πρόβλημα. Το θηκόγραμμα είναι μία τεχνική της διερευνητικής ανάλυσης των δεδομένων από την οποία αντλούμε πληροφορίες και όχι μια διαδικασία εξαγωγής οριστικών συμπερασμάτων. Τιμές οι οποίες, κατά την κατασκευή ενός θηκογράμματος, χαρακτηρίζονται ως ακραίες ή ως έκτροπες είναι απλώς «ύποπτες» τιμές, δηλαδή τιμές οι οποίες μπορεί να είναι λανθασμένες ή να είναι ασυνήθιστες. Επιπλέον, το πλήθος των σημείων που χαρακτηρίζονται ως ακραία εξαρτάται από το μέγεθος του δείγματος και από το σχήμα της κατανομής. Για παράδειγμα, σε δεδομένα που προέρχονται από Κανονικό πληθυσμό το 0,7% των τιμών χαρακτηρίζονται ως ακραία, και μοιράζονται πάνω και κάτω από το θηκόγραμμα. Το θηκόγραμμα μας δίνει πολύτιμες πληροφορίες για την ασυμμετρία και την κύρτωση της κατανομής. Ασυμμετρία Σε μία συμμετρική κατανομή, η διάμεσος εμφανίζεται στο μέσο του θηκογράμματος και οι μύστακες έχουν το ίδιο μήκος. Στις κατανομές που εμφανίζουν θετική ασυμμετρία η διάμεσος απομακρύνεται από την επάνω βάση του ορθογωνίου και μετακινείται προς τα κάτω. Προφανώς όσο ποιο έντονη γίνεται η θετική ασυμμετρία τόσο περισσότερο μετακινείται η διάμεσος προς τα κάτω. Επιπλέον, ο πάνω μύστακας είναι μεγαλύτερος από τον κάτω. Καθώς αυξάνεται η θετική ασυμμετρία, ο πάνω μύστακας γίνεται ολοένα μεγαλύτερος. Αντίστροφα, που εμφανίζουν αρνητική ασυμμετρία η διάμεσος μετακινείται προς την επάνω βάση του θηκογράμματος και μεγαλώνει το μήκος του κάτω μύστακα. Κύρτωση Στις λεπτόκυρτες κατανομές οι μύστακες έχουν μεγάλο μήκος, ενώ στις πλατύκυρτες κατανομές το μήκος των μυστάκων είναι μικρό. Μεταβλητότητα Σε σύνολα δεδομένων με μικρή μεταβλητότητα, ενδοτεταρτημοριακό εύρος IQR Q Q1 είναι μικρό. Αυτό σημαίνει ότι το ύψος του ορθογωνίου δεν θα είναι μεγάλο. Ορθογώνια με μεγάλο ύψος, αποτελούν ένδειξη ότι στα δεδομένα μας αυξημένη μεταβλητότητα. Σημειώσεις Στατιστικής

8 Παράδειγμα 1 ΔΕΙΚΤΗΣ ΜΑΖΑΣ ΣΩΜΑΤΟΣ ΕΝΗΛΙΚΩΝ ΑΝΔΡΩΝ (n=120) ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Παρατηρούμε ένα μονοκόρυφο ιστόγραμμα με θετική ασυμμετρία, και μια σχετικά ικανοποιητική προσαρμογή στην Κανονική Κατανομή. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. BMI,082 120,055,96 120,002 a. Lilliefors Significance Correction 0 1 : Τα δεδομένα προέρχονται από Κανονικό Πληθυσμό : Τα δεδομένα ΔΕΝ προέρχονται από Κανονικό Πληθυσμό Επειδή το δείγμα μας είναι μεγαλύτερο των 50 παρατηρήσεων, η Κανονικότητα ελέγχεται από το Kolmogorov Smirnov. Καθώς Sig. = 0.055 > 0.05, και μπορούμε να ισχυριστούμε ότι τα δεδομένα μας προέρχονται από Κανονικό πληθυσμό. Μαρίνα Σύρπη

9 Πίνακας Στατιστικών Statistics BMI N Valid 120 Missing 0 Mean (Αριθμητικός Μέσος) 27,1008 Median (Διάμεσος) 26,5500 Mode (Επικρατούσα Τιμή) 26,2700 Std. Deviation (Τυπική Απόκλιση) 4,60574 Variance (Διασπορά) 21,21 Coefficient of variation ( %) (Συντελεστής μεταβλητότητας %) 16,99 Skewness (Ασυμμετρία),606 Std. Error of Skewness (τυπικό σφάλμα του συντελεστή ασυμμετρίας),221 Kurtosis (Κύρτωση) -,149 Std. Error of Kurtosis (τυπικό σφάλμα του συντελεστή κύρτωσης),48 Range (Εύρος) 20,50 Minimum (Ελάχιστη Τιμή) 18,0 Maximum (Μέγιστη Τιμή) 8,80 Sum 252,10 Percentiles (τεταρτημόρια) 25 (1 ο τεταρτημόριο - Q 1 ) 2,6250 50 (2 ο τεταρτημόριο - Q 2 ) 26,5500 75 ( ο τεταρτημόριο - Q ) 29,9500 IQR (Ενδοτεταρτημοριακό εύρος) 6,250 Παρατηρούμε: 1. Τη σχετική θέση των μέτρων κεντρικής τάσης Εδώ M o = 26.27 < M e = 26.55 <X = 27.10 Έχουμε ένδειξη θετικής ασυμμετρίας, χωρίς όμως ο αριθμητικός μέσος να είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. 2. Ο συντελεστής ασυμμετρίας είναι γ = 0.61 > 0 και 2 s. e. (γ) = 2 0.22 = 0.44. Επομένως, γ = 0.61 > 0.44 = 2 s. e. (γ), και η κατανομή εμφανίζει θετική ασυμμετρία.. Ο συντελεστής κύρτωσης είναι α = 0.15 < 0 και 2 s. e. (α) = 2 0.44 = 0.88 Επομένως, α = 0.15 < 0.88= 2 s. e. (α) και η κατανομή είναι μεσόκυρτη. 4. R = 20.50 και 6s = 6 4.61 = 27.66. Επομένως, R = 20.50 27.66 = 6s και δεν προκύπτει κανονικότητα. Σημειώσεις Στατιστικής

10 5. IQR = 6. και s 4.61 4.15. 4 4 Επομένως, IQR = 6. 4.15 = 4 s και δεν προκύπτει κανονικότητα. 6. Ο συντελεστής μεταβλητότητας είναι 16.99 % > 10% και σχετικά αυξημένος. Θηκόγραμμα Εμφανίζεται θετική ασυμμετρία ο πάνω μύστακας είναι μεγαλύτερος από τον κάτω. Δεν παρατηρούνται ακραίες ή έκτροπες τιμές. Διαπιστώσεις για την Κατανομή του Δείκτη Μάζας Σώματος Κανονικότητα Η Κατανομή του Δείκτη Μάζας Σώματος, των ενηλίκων ανδρών, μπορεί να θεωρηθεί Κανονική, καθώς: Από τον Έλεγχο Kolmogorov Smirnov, έχουμε sig. 0.055 0.05 και, συνεπώς, η υπόθεση της Κανονικότητας δεν μπορεί να απορριφθεί. Ασυμμετρία και Κύρτωση Η κατανομή εμφανίζει θετική ασυμμετρία, αφού 0 και 0.61 0.44 2 se... Η θετική ασυμμετρία οφείλεται στην παρουσία κάποιων μεγάλων τιμών της μεταβλητής. Αποτέλεσμα είναι ο αριθμητικός μέσος να είναι ελαφρώς απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. Η κατανομή είναι μεσόκυρτη, αφού 0.15 0.88 2 se... Μαρίνα Σύρπη

11 Μέτρα Κεντρικής Τάσης Ο μέσος δείκτης μάζας σώματος των ενηλίκων ανδρών εκτιμάται σε 27.10 Kgr/m 2 Οι μισοί από τους ενήλικους άνδρες έχουν δείκτη μάζας σώματος μεγαλύτερο από, περίπου, 26.55 Kgr/m 2. Το μεγαλύτερο ποσοστό των ενηλίκων ανδρών ( 22,5%) έχουν δείκτη μάζας σώματος, περίπου 26.27 Kgr/m 2 Τεταρτημόρια Το 25% των ενηλίκων ανδρών έχουν δείκτη μάζας σώματος μικρότερο από, περίπου, 2.6 Kgr/m 2. Το 25% των ενηλίκων, έχουν δείκτη μάζας σώματος μεγαλύτερο από, περίπου, 29.95 Kgr/m 2. Επομένως το 25% περίπου των ενηλίκων ανδρών είναι υπέρβαροι. Το 50% των ενηλίκων ανδρών έχουν δείκτη μάζας σώματος από 2.6 Kgr/m 2 έως 29.95 Kgr/m 2, περίπου. Μεταβλητότητα Ο συντελεστής μεταβλητότητας είναι σχετικά αυξημένος (cv% = 19.99 % > 10%). Σημειώσεις Στατιστικής

12 Εφαρμογή 2 ΤΙΜΕΣ ΓΛΥΚΟΖΗΣ ΣΤΟ ΠΛΑΣΜΑ ΤΟΥ ΑΙΜΑΤΟΣ ΕΝΗΛΙΚΩΝ 20 74 ΕΤΩΝ (n=100) ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Παρατηρούμε ένα μονοκόρυφο ιστόγραμμα με έντονη θετική ασυμμετρία και μικρή προσαρμογή στην Κανονική Κατανομή. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Glucose,220 100,000,807 100,000 a. Lilliefors Significance Correction Επειδή το δείγμα μας είναι μεγαλύτερο των 50 παρατηρήσεων, η Κανονικότητα ελέγχεται από το Kolmogorov Smirnov. Επειδή Sig. = 0.000 < 0.05, συμπεραίνουμε ότι τα δεδομένα μας δεν προέρχονται από Κανονικό Πληθυσμό. Μαρίνα Σύρπη

1 Πίνακας Στατιστικών Statistics Glucose N Valid 100 Missing 0 Mean (Αριθμητικός Μέσος) 97,2000 Median (Διάμεσος) 91,5000 Mode (Επικρατούσα Τιμή) 90,00 Std. Deviation (Τυπική Απόκλιση) 17,96911 Variance (Διασπορά) 22,889 Coefficient of variation ( % ) (Συντελεστής μεταβλητότητας %) 18,49 Skewness (Ασυμμετρία) 1,806 Std. Error of Skewness (τυπικό σφάλμα του συντελεστή ασυμμετρίας) 0,241 Kurtosis (Κύρτωση),271 Std. Error of Kurtosis (τυπικό σφάλμα του συντελεστή κύρτωσης),478 Range (Εύρος) 90,00 Minimum (Ελάχιστη Τιμή) 74,00 Maximum (Μέγιστη Τιμή) 164,00 Sum 9720,00 Percentiles (τεταρτημόρια) 25 (1 ο τεταρτημόριο - Q 1 ) 87,2500 50 (2 ο τεταρτημόριο - Q 2 ) 91,5000 75 ( ο τεταρτημόριο - Q ) 99,0000 IQR (Ενδοτεταρτημοριακό εύρος) 11, 75 Παρατηρούμε: 1. Τη σχετική θέση των μέτρων κεντρικής τάσης Εδώ M o = 90 < M e = 91.5 <X = 97.2 Έχουμε ένδειξη θετικής ασυμμετρίας, με τον αριθμητικό μέσο να είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. 2. Ο συντελεστής ασυμμετρίας είναι γ = 1.81 > 0 και 2 s. e. (γ) = 2 0.24 = 0.48. Επομένως, γ = 1.81 > 0.48 = 2 s. e. (γ), και η κατανομή εμφανίζει θετική ασυμμετρία. Σημειώσεις Στατιστικής

14. Ο συντελεστής κύρτωσης είναι α =.27 > 0 και 2 s. e. (α) = 2 0.48 = 0.96 Επομένως, α =.27 > 0.96 = 2 s. e. (α) και η κατανομή είναι λεπτόκυρτη. 4. R = 90 και 6s = 6 17.97 = 108.82. Επομένως, R = 90 108.82 = 6s και δεν προκύπτει κανονικότητα. 5. IQR = 11.75 και s 0.48 0.64. 4 4 Επομένως, IQR = 11.75 0.64 = 4 s και δεν προκύπτει κανονικότητα. 6. Ο συντελεστής μεταβλητότητας είναι 18.49% > 10% και σχετικά αυξημένος. Θηκόγραμμα Παρατηρούνται αρκετές ακραίες και έκτροπες τιμές προς τα επάνω. Παρατηρείται μικρό ενδοτεταρτημοριακό εύρος. Παρατηρείται θετική ασυμμετρία η διάμεσος είναι αρκετά κοντά στην κάτω βάση. Μαρίνα Σύρπη

15 Διαπιστώσεις για την Κατανομή της τιμής της γλυκόζης στο πλάσμα του αίματος Κανονικότητα Η κατανομή της τιμής της γλυκόζης στο πλάσμα του αίματος των ενηλίκων (20 74 ετών) δεν φαίνεται να ακολουθεί την Κανονική Κατανομή, καθώς: Από τον Έλεγχο Kolmogorov Smirnov, έχουμε sig. 0.000 0.05 και συνεπώς η υπόθεση της Κανονικότητας απορρίπτεται. γ = 1.81 > 0.48 = 2 s. e. (γ), και η κατανομή εμφανίζει θετική ασυμμετρία. R 6s IQR 4 s Ασυμμετρία και Κύρτωση Η κατανομή εμφανίζει θετική ασυμμετρία, αφού 0 και γ = 1.81 > 0.48 = 2 s. e. (γ) Η θετική ασυμμετρία οφείλεται στην παρουσία μεγάλων τιμών της μεταβλητής. Αποτέλεσμα είναι ο αριθμητικός μέσος να είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. Η κατανομή είναι έντονα λεπτόκυρτη, αφού α > 0 και α =.27 >> 0.96 = 2 s. e. (α) Πράγματι, παρατηρούμε τη μεγάλη συσσώρευση των τιμών γύρω από την κορυφή της κατανομής. Στο 70% των ενηλίκων (20 74 ετών), η τιμή της γλυκόζης στον ορό του αίματος κυμαίνεται από 80 mg/dl έως 100 mg /dl. Μέτρα Κεντρικής Τάσης Η μέση τιμή της γλυκόζης στο πλάσμα του αίματος των ενηλίκων (20 74 ετών) είναι περίπου 97.6 mg/dl Στους μισούς από τους ενήλικες 20 74 ετών η τιμή της γλυκόζης στο πλάσμα του αίματος είναι χαμηλότερη από, περίπου 92.97 mg/dl. Στο μεγαλύτερο ποσοστό των ενηλίκων 20 74 ετών ( 7 %) η τιμή της γλυκόζης στο πλάσμα του αίματος είναι περίπου 97.6 mg/dl. Τεταρτημόρια Το 25% των ενηλίκων 20 74 ετών, έχουν τιμή γλυκόζης στο πλάσμα του αίματος χαμηλότερη από, περίπου, 87.25 mg/dl και το υπόλοιπο 75 % υψηλότερη. Το 75% των ενηλίκων 20 74 ετών, έχουν τιμή γλυκόζης στο πλάσμα του αίματος χαμηλότερη από, περίπου, 99 mg/dl, και το υπόλοιπο 25% μεγαλύτερη. Το 50% των ενηλίκων 20 74 ετών, έχουν τιμή γλυκόζης από 87.25 mg/dl έως 99.00 mg/dl, περίπου Μεταβλητότητα Ο συντελεστής μεταβλητότητας είναι αρκετά αυξημένος (cv% = 18.49 % > 10%). Σημειώσεις Στατιστικής

Σχετική Αθροιστική Συχνότητα (%) Σχετική Συχνότητα (%) 16 Εφαρμογή ΠΟΣΟΣΤΙΑΙΑ ΚΑΤΑΝΟΜΗ ΤΩΝ ΝΟΙΟΚΥΡΙΩΝ ΑΝΑΛΟΓΑ ΜΕ ΤΗ ΔΥΝΑΤΟΤΗΤΑ ΠΡΟΣΒΑΣΗ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΣΤΗΝ ΠΕΡΙΦΕΡΕΙΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων Παρακάτω βλέπουμε την κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο, για τους 8 Δήμους της Περιφέρειας Κεντρικής Μακεδονίας (Π.Κ.Μ.), 0,00 25,00 2,68 26,2 20,00 18,42 18,42 15,00 10,00 10,5 5,00 2,6 0,00 0-10 10-20 20-0 0-40 40-50 50-60 60-70 Ποσοστό νοικοκυριών με πρόσβαση στο διαδίκτυο (%) ΠΗΓΗ: ΕΛΣΤΑΤ 2011 Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 100 97,7 100,00 90 80 70 60 68,42 78,95 50 40 42,11 0 20 10 0 0 18,42 0-10 10-20 20-0 0-40 40-50 50-60 60-70 Ποσοστό νοικοκυριών με πρόσβαση στο διαδίκτυο (%) ΠΗΓΗ: ΕΛΣΤΑΤ 2011 Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Μαρίνα Σύρπη

17 ΜΕΤΑΒΛΗΤΗ: Ποσοστό νοικοκυριών με πρόσβαση στο διαδίκτυο (%) ΠΛΗΘΥΣΜΟΣ: Οι Δήμοι της Περιφέρειας Κεντρικής Μακεδονίας ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Παρατηρούμε μια σχετικά ικανοποιητική προσαρμογή στην Κανονική Κατανομή. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Πρόσβαση_ΠΚΜ,090 8,200 *,964 8,26 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. Επειδή το δείγμα μας είναι μικρότερο των 50 παρατηρήσεων, η Κανονικότητα ελέγχεται από το Shapiro - Wilk. Επειδή Sig. = 0,26 > 0.05, συμπεραίνουμε ότι τα δεδομένα μας προέρχονται από Κανονικό Πληθυσμό. Σημειώσεις Στατιστικής

18 Πίνακας Στατιστικών Statistics Πρόσβαση_ΠΚΜ N Valid 8 Missing 0 Mean 4,7526 Std. Error of Mean 2,225 Median 2,4000 Mode 2, Std. Deviation 14,1706 Variance 204,978 Coefficient of Variation (%) 41,197 Skewness,64 Std. Error of Skewness,8 Kurtosis -,605 Std. Error of Kurtosis,750 Range 54,10 Minimum 12,90 Maximum 67,00 Percentiles 25 24,1000 50 2,4000 75 44,0750 IQR 19,975 Παρατηρούμε: 1. Τη σχετική θέση των μέτρων κεντρικής τάσης Εδώ M o = 2. < M e = 2.40 < X = 4.75 Έχουμε ένδειξη θετικής ασυμμετρίας, αλλά ο αριθμητικός μέσος δεν είναι ιδιαίτερα απομακρυσμένος από τη διάμεσο και την επικρατούσα τιμή. 2. Ο συντελεστής ασυμμετρίας είναι γ = 0.6 > 0 και 2 s. e. (γ) = 2 0.8 = 0.76. Επομένως, γ = 0.6 < 0.76 = 2 s. e. (γ), και η κατανομή είναι συμμετρική.. Ο συντελεστής κύρτωσης είναι α = 0.61 < 0 και 2 s. e. (α) = 2 0.75 = 1.5 Επομένως, α = 0.61 < 1.5 = 2 s. e. (α) και η κατανομή είναι μεσόκυρτη. 4. R = 54.10 και 6s = 6 14.2 = 85.92. Επομένως, R = 54.10 85.92 = 6s και δεν προκύπτει κανονικότητα. 5. IQR = 19.98 και s 14.2 19.09. 4 4 Επομένως, IQR = 19.96 19.09 = 4 s και προκύπτει κανονικότητα. 6. Ο συντελεστής μεταβλητότητας είναι 41.197% > 10% και είναι πολύ αυξημένος. Μαρίνα Σύρπη

19 Διαπιστώσεις για την Κατανομή του ποσοστού των νοικοκυριών των Δήμων της ΠΚΜ με πρόσβαση στο διαδίκτυο. Κανονικότητα Η κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο, για τους Δήμους της ΠΚΜ φαίνεται να ακολουθεί την Κανονική Κατανομή, καθώς: Από τον Έλεγχο Shapiro Wilk, έχουμε sig. 0.26 0.05 και, συνεπώς, η υπόθεση της Κανονικότητας δεν απορρίπτεται. γ = 0.6 < 0.76 = 2 s. e. (γ), και η κατανομή είναι συμμετρική. α = 0.61 < 1.5 = 2 s. e. (α) και η κατανομή είναι μεσόκυρτη. IQR 4 s Ασυμμετρία και Κύρτωση Η κατανομή είναι συμμετρική, καθώς γ = 0.6 < 0.76 = 2 s. e. (γ) Η κατανομή είναι μεσόκυρτη, καθώς α = 0.61 < 1.5 = 2 s. e. (α) Μέτρα Κεντρικής Τάσης Στους Δήμους της Π.Κ.Μ., το μέσο ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο, εκτιμάται σε 4.75%. ΣΧΟΛΙΟ: Αυτό σημαίνει ότι, κατά κανόνα, στους παραπάνω Δήμους το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο είναι περίπου 4,75% (δηλαδή 1 στα νοικοκυριά). Επομένως, εάν επιλέξουμε τυχαία έναν από τους παραπάνω Δήμους για να μετρήσουμε το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο περιμένουμε αυτό το ποσοστό να είναι κοντά στο 4.75%. Στους μισούς από τους Δήμους της Π.Κ.Μ. το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο δεν υπερβαίνει το 2,40%, περίπου Στους περισσότερους από τους Δήμους της ΠΚΜ ( 26.2% ), το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο είναι περίπου 2. %. Τεταρτημόρια Στον 1 από τους 4 της Π.Κ.Μ., το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο εκτιμάται ότι δεν υπερβαίνει το 24.1%. Στους από τους 4 Δήμους της Π.Κ.Μ., το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο εκτιμάται ότι δεν υπερβαίνει το 44.08 %. Στους μισούς από τους Δήμους της Π.Κ.Μ. τα ποσοστά των νοικοκυριών με πρόσβαση στο διαδίκτυο κυμαίνονται από 24.1% έως 44.08%, περίπου. Μεταβλητότητα Ο συντελεστής μεταβλητότητας είναι πολύ αυξημένος (cv% = 41.197 % >> 10%). Σημειώσεις Στατιστικής

20 Επομένως, στην ΠΚΜ υπάρχουν νομοί στους οποίους το ποσοστό των νοικοκυριών με πρόσβαση στο διαδίκτυο είναι πολύ μεγαλύτερο του μέσου ποσοστού και νομοί στους οποίους είναι πολύ μικρότερο. Θηκόγραμμα Εμφανίζεται θετική ασυμμετρία, καθώς ο πάνω μύστακας είναι μεγαλύτερος από τον κάτω και η διάμεσος είναι ποιο κοντά στην κάτω βάση του ορθογωνίου. Δεν παρατηρούνται ακραίες ή έκτροπες τιμές. Μαρίνα Σύρπη

21 Εφαρμογή 4 ΠΟΣΟΣΤΙΑΙΑ ΚΑΤΑΝΟΜΗ ΤΩΝ ΝΟΙΟΚΥΡΙΩΝ ΑΝΑΛΟΓΑ ΜΕ ΤΗ ΔΥΝΑΤΟΤΗΤΑ ΠΡΟΣΒΑΣΗ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΣΤΗΝ ΠΕΡΙΦΕΡΕΙΑ ΑΤΤΙΚΗΣ Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων Παρακάτω βλέπουμε την κατανομή του ποσοστού των νοικοκυριών με πρόσβαση στο διαδίκτυο, για τους 66 Δήμους της Περιφέρειας Αττικής (Π.Α.) 5,00 1,82 0,00 25,00 20,00 21,21 19,70 15,00 15,15 10,00 7,58 5,00 1,52,0 0,00 0-10 10-20 20-0 0-40 40-50 50-60 60-70 70-80 ΠΗΓΗ ΕΛΣΤΑΤ, 2011 Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 100 90 92,42 100,00 80 70 72,7 60 50 40 40,91 0 20 10 0 19,70 0 1,52 4,55 0-10 10-20 20-0 0-40 40-50 50-60 60-70 70-80 ΠΗΓΗ: ΕΛΣΤΑΤ 2011 Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Σημειώσεις Στατιστικής

22 ΜΕΤΑΒΛΗΤΗ: ΠΛΗΘΥΣΜΟΣ: ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SPSS Ιστόγραμμα Συχνοτήτων και Έλεγχος Κανονικότητας Ιστόγραμμα Συχνοτήτων και Καμπύλη την Κανονικής Κατανομής Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. ΠΡΟΣΒΑΣΗ_ΠΑ,118 66,02,972 66,140 a. Lilliefors Significance Correction Μαρίνα Σύρπη

2 Πίνακας Στατιστικών Statistics ΠΡΟΣΒΑΣΗ_ΠΑ N Valid 66 Missing 0 Mean 52,0879 Std. Error of Mean 1,54505 Median 52,7500 Mode 55,22000 Std. Deviation 12,55208 Variance 157,555 Coefficient of Variation (%) 24,0977 Skewness -,490 Std. Error of Skewness,295 Kurtosis,057 Std. Error of Kurtosis,582 Range 57,50 Minimum 16,80 Maximum 74,0 Percentiles 25 47,4750 50 52,7500 IQR 75 60,250 12,85 Παρατηρούμε: Σημειώσεις Στατιστικής

24 Διαπιστώσεις για την Κατανομή του ποσοστού των νοικοκυριών των Δήμων της ΠΚΜ με πρόσβαση στο διαδίκτυο. Κανονικότητα Ασυμμετρία και Κύρτωση Μέτρα Κεντρικής Τάσης Τεταρτημόρια Μεταβλητότητα Μαρίνα Σύρπη

25 Θηκόγραμμα Σημειώσεις Στατιστικής