Δεδομένα (data) και Στατιστική (Statistics)

Δεδομένα (data) και Στατιστική (Statistics) Η Στατιστική (Statistics) ασχολείται με την ανάλυση δεδομένων (data analysis): Πρόσφατες παιδαγωγικές εξελίξεις υποδεικνύουν ότι η Στατιστική πρέπει και να διδάσκεται ως ανάλυση δεδομένων! 1

Περιγραφική Στατιστική (Descriptive Statistics) 2

Επαγωγική Στατιστική (Inferential Statistics) 3

Πληθυσμός (population), απογραφή (census) και δείγμα (sample) Για παράδειγμα, στην Ελλάδα απογραφή πληθυσμού γίνεται κάθε 10 χρόνια (1981, 1991, 2001 κλπ). 4

Πληθυσμός (population) και δείγμα (sample)1 5

Πληθυσμός (population) και δείγμα (sample)2 6

Δειγματοληψία (sampling) Ένα δείγμα πρέπει να συλλέγεται κατά τέτοιο τρόπο ώστε να είναι αντιπροσωπευτικό (representative) δηλαδή τα χαρακτηριστικά του να μοιάζουν με αυτά του πληθυσμού. Οι μέθοδοι που παρουσιάζονται στο μάθημα αυτό αφορούν το πιο κλασσικό είδος πιθανοτικής δειγματοληψίας (probabilistic sampling), το απλό τυχαίο δείγμα (simple random sample). 7

Τυχαίο δείγμα (random sample) και απλό τυχαίο δείγμα (Simple Random Sample) 8

Απλό τυχαίο δείγμα (Simple Random Sample) Κάθε στατιστική μονάδα έχει την ίδια πιθανότητα επιλογής Κάθε δυνατό δείγμα του ιδίου μεγέθους έχει την ίδια πιθανότητα επιλογής 9

Πίνακας τυχαίων αριθμών (random numbers) 10

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ Επιλογή τυχαίων αριθμών 11

Άλλα είδη δειγματοληψίας 12

Δειγματοληψία ευκολίας (Convenience Sampling) Στη δειγματοληψία ευκολίας επιλέγεται δείγμα που βολεύει τους ερευνητές. 13

Συστηματική δειγματοληψία (Systematic Sampling) Στη συστηματική δειγματοληψία, π.χ. ανοίγουμε τον τηλεφωνικό κατάλογο και επιλέγουμε κάθε εικοστό όνομα. 14

Δειγματοληψία κατά στοιβάδες (Cluster Sampling) Στη δειγματοληψία κατά στοιβάδες, ο πληθυσμός χωρίζεται σε στοιβάδες (π.χ. γεωγραφικές περιοχές) και μετά επιλέγονται όλα τα μέλη κάθε στοιβάδας. 15

Στρωματοποιημένη δειγματοληψία (Stratified Sampling) Τέλος, στη στρωματοποιημένη δειγματοληψία, ο πληθυσμός χωρίζεται σε (ομοειδείς) ομάδες, π.χ. άνδρες και γυναίκες, ακολούθως δε επιλέγεται τυχαίο δείγμα από κάθε υποομάδα. 16

Παράμετρος πληθυσμού (parameter) και στατιστικό μέγεθος δείγματος (statistic) Με τις μεθόδους της Επαγωγικής Στατιστικής (Inferential Statistics), προσπαθούμε να προβλέψουμε, με συγκεκριμένη αξιοπιστία (reliability), τις τιμές πληθυσμιακών παραμέτρων (parameters) βασιζόμενοι στις τιμές δειγματικών μεγεθών (statistics). 17

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ πληθυσμιακές παράμετροι (parameters) και δειγματικά μεγέθοι (statistics) 18

Σφάλματα σχετικά με δειγματοληψία Σφάλμα δειγματοληψίας (sampling error) παρατηρείται όταν το στατιστικό μέγεθος (sample statistic) διαφέρει από την πληθυσμιακή παράμετρο (population parameter). Αυτό μπορεί να συμβεί στη δειγματοληψία και οφείλεται σε τυχαία διακύμανση από ένα δείγμα σε άλλο. Μη δειγματοληπτικό σφάλμα (nonsampling error) παρατηρείται, π.χ. όταν επιλέγεται ακατάλληλο δείγμα ή γίνονται λάθη κατά τη μέτρηση ή συλλογή των δεδομένων. 19

Στατιστικό σφάλμα (bias) Η έννοια του στατιστικού σφάλματος (bias) είναι εξαιρετικά σημαντική στη στατιστική. Το στατιστικό σφάλμα έχει στενή σχέση με την έννοια του συστηματικού σφάλματος (systematic bias) το οποίο διαφέρει από την έννοια του τυχαίου σφάλματος (random error), για το οποίο γράφει η Wikipedia: An example of systematic bias would be the bias of a thermometer that always reads three degrees colder than the actual temperature because of an incorrect initial calibration or labelling, whereas one that gave random values within five degrees either side of the actual temperature would be considered a random error. 20

Ορισμός του στατιστικού σφάλματος (bias) στη Wikipedia In statistics, the term bias is used for describing several different concepts: A biased sample is one in which some members of the population are more likely to be included than others. The bias of an estimator is the difference between an estimator's expectation and the true value of the parameter being estimated. Omitted-variable bias is the bias that appears in estimates of parameters in a regression analysis when the assumed specification is incorrect, in that it omits an independent variable that should be in the model. In statistical hypothesis testing, a test is said to be unbiased when the probability of rejecting the null hypothesis exceeds the significance level when the alternative is true and is less than or equal to the significance level when the null hypothesis is true. Systematic bias or systemic bias are external influences that may affect the accuracy of statistical measurements. 21

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ εσφαλμένο δείγμα (biased sample) Example of biased sample, claiming as of June 2008, that only 54% of web browsers in use do not pass the Acid2 test. The statistics are from visitors to one website comprising mostly web developers. Προφανώς, επαγγελματίες που ασχολούνται με ανάπτυξη εφαρμογών στον παγκόσμιο ιστό, είναι πιο πιθανό να χρησιμοποιούν «καλύτερους» browsers! 22

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ Σφάλμα (bias) σε μεγάλη έρευνα αγοράς 23

Στατιστικό σφάλμα δειγματικού μεγέθους Γράφεται σχετικά με την ύπαρξη στατιστικού σφάλματος κατά τον υπολογισμό δειγματικού μεγέθους (statistic) στο http://www.onesmartclick.com: A statistic is positively biased if it tends to overestimate the parameter; a statistic is negatively biased if it tends to underestimate the parameter. An unbiased statistic is not necessarily an accurate statistic. If a statistic is sometimes much too high and sometimes much too low, it can still be unbiased. It would be very imprecise, however. A slightly biased statistic that systematically results in very small overestimates of a parameter could be quite efficient. 24

Είδη δεδομένων Ποσοτικά (quantitative) και ποιοτικά (qualitative) δεδομένα: Παραδείγματα: 25

Διακριτά (discrete) και συνεχή (continuous) δεδομένα 26

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ διακριτά και συνεχή δεδομένα 27

Μονάδες μέτρησης Είναι πολύ σημαντικό να γνωρίζουμε τις μονάδες μέτρησης των δεδομένων που εξετάζουμε, όπως δείχνει το κατωτέρω παράδειγμα: 28

Ονομαστικά (nominal) δεδομένα Η ομάδα ποδοσφαίρου που προτιμάτε αποτελεί ονομαστικό δεδομένο: 29

Τακτικά (ordinal) δεδομένα Τα τακτικά (ordinal) δεδομένα είναι ονομαστικά δεδομένα που μπορούν να ταξινομηθούν: Στα Πανεπιστήμια, παράδειγμα τακτικών δεδομένων είναι οι βαθμίδες των μελών ΔΕΠ: 1.Καθηγητής (Professor) 2.Αναπληρωτής Καθηγητής (Associate Professor 3.Επίκουρος Καθηγητής (Assistant Professor, π.χ. Παραβάντης) 4.Λέκτορας (Lecturer) 30

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ τακτικά (ordinal) δεδομένα 31

Δεδομένα διαστήματος (interval) Τα δεδομένα διαστήματος είναι αριθμητικά αλλά, από τη φύση τους, δεν έχουν σημείο μηδενισμού (δηλαδή σημείο στο οποίο δεν υπάρχει καθόλου η μετρούμενη ποσότητα). Κλασσικό παράδειγμα δεδομένων είναι η θερμοκρασία ( C ή F), όπως εξηγείται και στην επόμενη διαφάνεια. 32

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ δεδομένα διαστήματος (interval) 33

Δεδομένα αναλογίας (ratio) Τα δεδομένα αναλογίας ή κλίμακας (ratio) είναι τα πληρέστερα δεδομένα, από πλευράς πληροφόρησης. Σημαντική διαφορά τους από τα δεδομένα διαστήματος (interval) είναι ότι περιέχουν το σημείο του μηδενός. Ως εκ τούτου, έχει έννοια να εξετάζονται αναλογίες αυτών των δεδομένων, π.χ. ένας ενήλικας που ζυγίζει 80 κιλά είναι δυο φορές πιο βαρύς από ένα παιδί που ζυγίζει 40 κιλά! Περισσότερα για τη δυνατότητα έκφρασης αναλογίας στην επόμενη διαφάνεια. 34

ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΑΔΕΙΓΜΑ δεδομένα αναλογίας (ratio) Για να γίνει κατανοητή η διαφορά μεταξύ δεδομένων διαστήματος (interval) και αναλογίας (ratio): 35

Ανακεφαλαίωση τύπων δεδομένων 36