Κεφάλαιο 1. Εισαγωγικές Έννοιες

Σχετικά έγγραφα
ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Η γραφική απεικόνιση µιας κατανοµής συχνότητας µπορεί να γίνει µε δύο τρόπους, µε ιστόγραµµα και µε πολυγωνική γραµµή.

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Σ Τ Α Τ Ι Σ Τ Ι Κ Η Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ.

Συλλογή και παρουσίαση στατιστικών δεδομένων

Δειγματοληψία στην Ερευνα. Ετος

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

Μεθοδολογία της έρευνας και Ιατρική στατιστική

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Ποσοτική & Ποιοτική Ανάλυση εδοµένων Βασικές Έννοιες. Παιδαγωγικό Τµήµα ηµοτικής Εκπαίδευσης ηµοκρίτειο Πανεπιστήµιο Θράκης Αλεξανδρούπολη

Ερευνητική υπόθεση. Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές.

επ. Κωνσταντίνος Π. Χρήστου Κεφάλαιο 2

6. ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΚΑΤΑ ΟΜΑΔΕΣ (Cluster Sampling)

Βασικές έννοιες. Παραδείγµατα: Το σύνολο των φοιτητών που είναι εγγεγραµµένοι

ΔΕΙΓΜΑΤΟΛΗΨΙΑ. Ματσάγκος Ιωάννης-Μαθηματικός

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

Εισαγωγή στη Στατιστική

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

Στατιστική. Βασικές έννοιες

Περιγραφική Στατιστική

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

ΟΜΑΔΟΠΟΙΗΣΗ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

ειγµατοληψία ΜΕΘΟ ΟΛΟΓΙΑ ΤΗΣ ΕΡΕΥΝΑΣ Μέρη της Έρευνας Μέθοδος Πώς ερευνήθηκε το πρόβληµα? Μέθοδος

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Περιγραφική Στατιστική

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι. Τιµόθεος Αγγελίδης

Έρευνα Μάρκετινγκ. Η δευτερογενής έρευνα

Τίτλος Μαθήματος: Στατιστική Ι. Ενότητα: Δεδομένα και Στατιστική. Διδάσκων: Επίκ. Καθ. Αθανάσιος Λαπατίνας. Τμήμα: Οικονομικών Επιστημών

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας

ειγµατοληπτική κατανοµή

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

Δείγμα & Δειγματοληψία στην Έρευνα ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#252) Θυμηθείτε. Γιατί δειγματοληψία; Δειγματοληψία

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Σκοπός του μαθήματος

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Περιεχόμενα. Γιατί Ένας Manager Πρέπει να Ξέρει Στατιστική. Περιεχόμενα. Η Ανάπτυξη και Εξέλιξη της Σύγχρονης Στατιστικής

2.5. Τα 16 τµήµατα ενός Λυκείου έχουν τους Οι αποστάσεις (σε Km) των Σε ένα κυκλικό διάγραµµα παριστάνονται

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Τεχνικές Έρευνας. Εισήγηση 10 η Κατασκευή Ερωτηματολογίων

Μάθηµα 3 ο. Περιγραφική Στατιστική

Συλλογή και Παρουσίαση Δεδομένων

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Στατιστική Επιχειρήσεων ΙΙ

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Βασικές Αρχές Μέτρησης επ. Κων/νος Π. Χρήστου

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Στάδιο Εκτέλεσης

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

Διάλεξη 1 Βασικές έννοιες

ΙΕΡΕΥΝΗΣΗ ΤΗΣ ΑΚΡΙΒΕΙΑΣ ΤΩΝ ΗΜΟΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

Στατιστική Επιχειρήσεων Ι

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΗΜΟΣΘΕΝΕΙΟ ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΠΑΙΑΝΙΑΣ Γ ΛΥΚΕΙΟΥ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling)

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

Βασικές έννοιες της Στατιστικής: Πληθυσμός - Δείγμα

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Στατιστική Επιχειρήσεων 1 Μάθημα του A Εξαμήνου

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Λύση α) Μετά από την σχετική διαλογή ο πίνακας των συχνοτήτων και σχετικών συχνοτήτων είναι ο παρακάτω. Aθρ. Συχν N. συχν

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

Στατιστική Εισαγωγικές Έννοιες

Transcript:

Κεφάλαιο 1 Εισαγωγικές Έννοιες 1.0. Εισαγωγή Στατιστική είναι ένα σύνολο µεθόδων συλλογής και αναλύσεως στατιστικών δεδοµένων µε σκοπό την εξαγωγή συµπερασµάτων που αφορούν τα χαρακτηριστικά ενός πληθυσµού. Οι ρίζες της έχουν ηλικία 6000 ετών περίπου. ραστηριότητες όπως η συλλογή δηµογραφικών στοιχείων και τα τυχερά παγχνίδια, όπου υπάρχει αβεβαιότητα και συνεπώς ενδιαφέρον για τον υπολογισµό πιθανοτήτων, άρχισαν να εµφανίζονται γύρω στο 3500 π.χ. Ωστόσο, η Στατιστική άρχισε να παίρνει τη γνωστή της µορφή στις αρχές του 17ου µ.χ. αιώνα, προς το τέλος του οποίου άρχισε να εφαρµόζεται και στα Οικονοµικά, όταν ο W. Petty δηµοσίευσε το έργο του µε τίτλο Political Arithmetic. 1.1. Στατιστική µονάδα, πληθυσµός, δεδοµένα Θεωρείστε το ακόλουθο παράδειγµα. Σε µία τάξη Στατιστικής 120 φοιτητών και φοιτητριών, την οποία παρακολουθούν όλοι, ο διδάσκων ενδιαφέρεται να µάθει ποιό είναι το ποσοστό των φοιτητών που έχουν στοιχειώδεις γνώσεις του προγράµµατος Excel. Ζητά, λοιπόν, να σηκώσουν το χέρι τους όλοι όσοι έχουν στοιχειώδεις γνώσεις Excel. Έστω ότι 40 από τους 120 σηκώνουν χέρι. Στο παράδειγµα αυτό, ένας φοιτητής ή µία φοιτήτρια αποτελεί µία στατιστική µονάδα (statistical unit) το σύνολο των 120 φοιτητών αποτελούν το στατιστικό πληθυσµό (statistical population) ενώ οι 40 απαντήσεις «έχω γνώσεις Excel» και οι 80 «δεν έχω γνώσεις Excel» αποτελούν τα στατιστικά δεδοµένα (statistical data). Πιο γενικά, στατιστική µονάδα είναι η οντότητα, όπως µία επιχείρηση, ένα πρόσωπο ή ένα πράγµα, απ όπου αντλούµε τα στατιστικά δεδοµένα, δηλαδή τις πληροφορίες που χρειαζόµαστε για να µελετήσουµε ένα ή περισσότερα χαρακτηριστικά του πληθυσµού, ο οποίος αποτελείται από το σύνολο των στατιστικών µονάδων. 1

1.2. Χαρακτηριστικά των στατιστικών µονάδων Στο παραπάνω παράδειγµα, οι στατιστικές µονάδες του πληθυσµού έχουν όλες ένα κοινό χαρακτηριστικό, το οποίο τις επιτρέπει να αποτελούν µέλη του πληθυσµού: είναι φοιτητές και φοιτήτριες της τάξεως για την οποία γίνεται λόγος. Ως προς τα άλλα χαρακτηριστικά τους, µπορεί φυσικά να διαφέρουν. Εδώ, το χαρακτηριστικό που ενδιαφέρει τον ερευνητή είναι αν ένας φοιτητής ή φοιτήτρια έχει ή όχι βασικές γνώσεις Excel. Επειδή αυτούς που δηλώνουν ότι έχουν γνώσεις, δεν τους ρωτάει και πόσες, η µεταβλητή που µετράει το υπό µελέτη χαρακτηριστικό είναι δίτιµη (binary variable), δηλαδή παίρνει δύο µόνο τιµές, ας πούµε την τιµή 0 όταν ο φοιτητής δηλώνει ότι δεν έχει βασικές γνώσεις Excel και την τιµή 1 όταν έχει. Το παράδειγµα αυτό είναι παρόµοιο µ εκείνα όπου το ερευνώµενο χαρακτηριστικό είναι το φύλο (άνδρας ή γυναίκα;), η ιδιότητα να είναι κάποιος γονιός (έχει ή όχι τουλάχιστο ένα παιδί;), η γνώση µίας συγκεκριµένης γλώσσας (ξέρει ή όχι Αγγλικά;) κ.λπ. Αυτού του είδους τα χαρακτηριστικά ονοµάζονται ποιοτικά (qualitative characteristics), γιατί είναι δύσκολο ή αδύνατο να µετρηθούν. Στις περιπτώσεις αυτές, απλά ρωτάµε αν µία στατιστική µονάδα έχει ή όχι µία συγκεκριµένη ιδιότητα, η οποία µας ενδιαφέρει. Αντίθετα, τα χαρακτηριστικά που µπορούν εύκολα να µετρηθούν, όπως η ηλικία, το ύψος, το εισόδηµα και ο αριθµός παιδιών, ονοµάζονται ποσοτικά χαρακτηριστικά (quantitative characteristics). 1.3. Περιγραφική και Επαγωγική Στατιστική Το παραπάνω παράδειγµα εµπίπτει στη σφαίρα της Περιγραφικής Στατιστικής (Descriptive Statistics). Ο λόγος είναι ότι, για να καταλήξει ο διδάσκων σ ένα συµπέρασµα για το ποσοστό του πληθυσµού, πήρε πληροφορίες από όλες τις στατιστικές µονάδες του πληθυσµού. Έτσι, είναι σε θέση να γνωρίζει την αληθινή τιµή του ποσοστού αυτού, το οποίο στο παράδειγµα αυτό είναι (40/120) 100 =33,33%. Ωστόσο, ο όρος «περιγραφική στατιστική» αναφέρεται και στη συνοπτική παρουσίαση των κυριωτέρων χαρακτηριστικών ενός δείγµατος, όπως του µέσου όρου, της διακυµάνσεως κ.λπ. Συχνά, όµως, δεν έχουµε την πολυτέλεια να µπορούµε να συλλέξουµε τα στατιστικά δεδοµένα από όλες τις στατιστικές µονάδες 2

του πληθυσµού, είτε επειδή το κόστος (σε χρήµα ή χρόνο) είναι απαγορευτικό είτε επειδή δεν είναι καν δυνατό να γίνει κάτι τέτοιο. Για παράδειγµα, έστω ότι είσθε παραγωγός ηλεκτρικών λαµπτήρων και ότι ενδιαφέρεσθε να εκτιµήσετε τη µέση διάρκεια ζωής των λαµπτήρων που παράγετε. Αν δοκιµάζετε όλους τους λαµπτήρες, κάτι που είναι εξαιρετικά δύσκολο να γίνει, τότε θα µπορέσετε µεν να έχετε µία ακριβή εικόνα για τη µέση διάρκεια της ζωής τους, αλλά δεν θα έχετε λαµπτήρες για την αγορά! Στην πράξη, ένα ικανοποιητικό επίπεδο ακρίβειας των εκτιµήσεων επιτυγχάνεται συνήθως και µε τη δειγµατοληψία. Συνεπώς, η επιπλέον ακρίβεια, η οποία θα προέκυπτε αν είχαµε στη διάθεσή µας όλες τις στατιστικές µονάδες του πληθυσµού, δεν θα αντιστάθµιζε το επιπλέον κόστος που απαιτείται για την απόκτησή τους. Κατά κανόνα, λοιπόν, παίρνουµε ένα δείγµα αναλύουµε τις πληροφορίες που περιέχει για το χαρακτηριστικό που µας ενδιαφέρει και ανάγουµε τα συµπεράσµατα που προκύπτουν από την ανάλυση του δείγµατος στον πληθυσµό. Η µεθοδολογία αυτή ονοµάζεται Επαγωγική Στατιστική (Inferential Statistics). 1.4. Ασυνεχής και συνεχής µεταβλητή Οι µετρήσεις ενός χαρακτηριστικού παριστάνονται από µία µεταβλητή, η οποία συµβολίζεται µ ένα κεφαλαίο γράµµα, όπως το Χ. Αν η µεταβλητή αυτή παίρνει µόνο µεµονωµένες τιµές, µεταξύ των οποίων µεσολαβούν τιµές που η Χ είναι αδύνατο να πάρει, τότε η Χ ονοµάζεται ασυνεχής ή διακριτή µεταβλητή (discrete variable). Για παράδειγµα, αν Χ=αριθµός παιδιών µίας οικογένειας, τότε η Χ µπορεί να πάρει τις τιµές 0, 1, 2,..., αλλά δεν µπορεί να πάρει δεκαδικές τιµές. Αντίθετα, αν µία µεταβλητή µπορεί να πάρει οποιαδήποτε τιµή σ ένα ωρισµένο διάστηµα, τότε ονοµάζεται συνεχής µεταβλητή (continuous variable). Παραδείγµατα συνεχών µεταβλητών είναι η ηλικία, το ύψος, το βάρος, το εισόδηµα, η τιµή ενός αγαθού κ.ά. 1.5. Μέθοδοι συγκεντρώσεως στατιστικών δεδοµένων Υπάρχουν δύο ειδών µέθοδοι συγκεντρώσεως στατιστικών δεδοµένων, οι εξαντλητικές και οι δειγµατοληπτικές. Εξαντλητική (exaustive) είναι η µέθοδος που χρησιµοποιείται για τη συγκέντρωση στατιστικών δεδοµένων από ολόκληρο τον πληθυσµό, όπως είναι η 3

γνωστή σε όλους µας απογραφή (census). Μία δεύτερη εξαντλητική µέθοδος είναι η συνεχής καταγραφή, η οποία χρησιµοποιείται από διάφορες υπηρεσίες για την καταχώρηση γεγονότων που εµπίπτουν στην αρµοδιότητά τους. Ένα παράδειγµα είναι η καταγραφή από τις τοπικές αρχές των γεννήσεων, θανάτων, γάµων και άλλων γεγονότων που επηρεάζουν τη φυσική κίνηση του πληθυσµού. Όπως έχουµε ήδη τονίσει, όµως, στην πράξη συχνά καταφεύγουµε σε δειγµατοληπτικές µεθόδους (sampling methods), είτε επειδή αυτές κοστίζουν λιγώτερο από τις εξαντλητικές είτε επειδή είναι οι µόνες δυνατές. Ένα εύλογο ερώτηµα που προκύπτει σ αυτή την περίπτωση, όµως, είναι το κατά πόσο αντιπροσωπευτικό θα είναι το δείγµα και συνεπώς πόσο αξιόπιστα θα είναι τα συµπεράσµατά µας για τον πληθυσµό. Είναι ευνόητο ότι όσο µεγαλύτερο είναι το µέγεθος του δείγµατος τόσο πιο αξιόπιστα θα είναι τα αποτελέσµατα. Οι δειγµατοληπτικές µέθοδοι διακρίνονται σε τυχαίες (random), όπου η επιλογή του δείγµατος γίνεται κατά τρόπο µηχανικό και όπου η πιθανότητα µίας στατιστικής µονάδας να επιλεγεί είναι γνωστή και µεγαλύτερη από το µηδέν και σε µη πιθανοθεωρητικές (nonprobabilistic) ή κατευθυνόµενες, όπου η επιλογή γίνεται µε υποκειµενικά κριτήρια, οπότε κάποιες στατιστικές µονάδες µπορεί και να αποκλεισθούν και να µην έχουν πιθανότητα να επιλεγούν. Επειδή οι µέθοδοι της Στατιστικής Επαγωγής που θα εξετάσουµε αργότερα δεν ισχύουν όταν το δείγµα προέρχεται από κατευθυνόµενη δειγµατολειψία, δεν θ ασχοληθούµε περισσότερο µ αυτήν. Εδώ θα εξετάσουµε µε συντοµία µόνο τέσσερις µεθόδους τυχαίας δειγµατοληψίας: την απλή, τη συστηµατική, την κατά στρώµατα και την κατά οµάδες τυχαία δειγµατοληψία. Πρώτον, στην απλή τυχαία δειγµατοληψία (simple random sampling), όλες οι στατιστικές µονάδες και όλα τα δείγµατα µεγέθους n έχουν την ίδια πιθανότητα να επιλεγούν. Η µέθοδος αυτή µπορεί να εφαρµοσθεί κάνοντας χρήση των πινάκων τυχαίων αριθµών, οι οποίοι κατασκευάζονται µε τη βοήθεια ηλεκτρονικών υπολογιστών, κατά τρόπο ώστε κάθε ένας από τους αριθµούς 0, 1, 2,..., 9 να έχει πιθανότητα 1/10 ν αποτελέσει ψηφίο του πίνακα. Παράδειγµα 1.1. Οι παρακάτω αριθµοί αποτελούν τµήµα ενός πίνακα τυχαίων αριθµών. Η επιλογή του τµήµατος αυτού έγινε κατά τρόπο 4

αυθαίρετο. Οι αριθµοί παρουσιάζονται σε στήλες για οπτικούς µόνο λόγους, δηλαδή τα διαστήµατα πού φαίνονται ουσιαστικά δεν υπάρχουν. Έτσι, διαβάζοντας τους αριθµούς οριζόντια, παίρνουµε 1 7 6 2 3 4 7 4 4 1 2 7 κ.λπ. 17623 47441 27821 91845 01654 50375 23941 44848 45054 58410 92081 97624 73750 68343 40727 81203 73700 58730 06111 64486 64163 22132 22896 14305 Έστω ότι ο πληθυσµός που µας ενδιαφέρει αποτελείται από Ν=500 καταστήµατα και ότι θέλουµε να πάρουµε ένα δείγµα µεγέθους n=10 καταστηµάτων. Χρησιµοποιώντας τους παραπάνω τυχαίους αριθµούς, ποιά καταστήµατα θα συµπεριληφθούν στο δείγµα; Λύση. Κατ αρχή, αριθµούµε τα καταστήµατα του πληθυσµού µε τους αριθµούς 000, 001, 002,..., 499. Επειδή οι αριθµοί αυτοί είναι τριψήφιοι, θ αρχίσουµε να επιλέγουµε από τον παραπάνω πίνακα τριάδες διαδοχικών ψηφίων, απορρίπτοντας τις τριάδες που σχηµατίζουν αριθµούς µεγαλύτερους του 499, µέχρι να συµπληρώσουµε τους 10 αριθµούς του δείγµατος. ιαβάζοντας τους παραπάνω αριθµούς κάθετα, παίρνουµε τους εξής 10 αποδεκτούς αριθµούς: 176, 450, 234, 005, 127, 092, 006, 081, 111, 247. Το τυχαίο δείγµα (random sample) θ αποτελείται από τα 10 καταστήµατα που έχουν αυτούς σαν αύξοντες αριθµούς. Ας σηµειωθεί ότι οι αριθµοί 737, 545, 744, 841, 873, 821, 918, 976 και 644 απορρίφθηκαν επειδή είναι µεγαλύτεροι του 499, ενώ ο αριθµός 450 απορρίφθηκε τη δεύτερη φορά που σχηµατίσθηκε. εύτερον, θα εξετάσουµε τη µέθοδο της συστηµατικής τυχαίας δειγµατοληψίας (systematic random sampling) στα πλαίσια του παραδείγµατος της επιλογής του δείγµατος των 10 καταστηµάτων. Σε πρώτο στάδιο, αριθµούµε τα καταστήµατα µε τους αριθµούς 1, 2,..., 500. 1 (Ας σηµειωθεί ότι, γενικά, η αρίθµηση των στατιστικών µονάδων πρέπει να είναι τυχαία και άσχετη µε το χαρακτηριστικό που µας ενδιαφέρει.) Στη συνέχεια, υπολογίζουµε την ποσότητα λ=ν/n=500/10=50 και επιλέγουµε κατά τρόπο τυχαίο ένα αριθµό µεταξύ 1 και 50, π.χ., τον αριθµό 48. Τα 10 καταστήµατα του 1 Θα µπορούσαµε και εδώ να χρησιµοποιήσουµε τήν παραπάνω αρίθµηση, δηλαδή 000, 001, 002,..., 499. 5

δείγµατος θα έχουν αύξοντες αριθµούς αυτούς που σχηµατίζουν αριθµητική πρόοδο µε πρώτο όρο το 48 και κοινή διαφορά το 50, δηλαδή: 48, 98, 148, 198, 248, 298, 348, 398, 448 και 498. Τρίτον, η µέθοδος της κατά στρώµατα τυχαίας δειγµατοληψίας (stratified random sampling) είναι συχνά πιο κατάλληλη από τις δύο προηγούµενες όταν ο πληθυσµός είναι ανοµοιογενής ως προς το χαρακτηριστικό που µας ενδιαφέρει και σχετικά λίγες µόνο στατιστικές µονάδες διαφέρουν κατά πολύ από τις άλλες. Παράδειγµα 1.2. Στο Παρ. 1.1, έστω ότι µόνο 5 από τα 500 καταστήµατα είναι «πολύ µεγάλα», 100 είναι «µεσαίου µεγέθους» και 395 είναι «µικρά». Αν το χαρακτηριστικό που µας ενδιαφέρει είναι οι ηµερήσιες πωλήσεις των καταστηµάτων και χρησιµοποιήσουµε την απλή ή τη συστηµατική τυχαία δειγµατοληψία, είναι πιθανό τα «πολύ µεγάλα» καταστήµατα να µην εκπροσωπηθούν στο δείγµα, οπότε τα αποτελέσµατα θα είναι αναξιόπιστα. Σύµφωνα µε την κατά στρώµατα τυχαία δειγµατοληψία, κατ αρχή πρέπει να χωρίσουµε τον (αρχικά ανοµοιογενή) πληθυσµό σε στρώµατα (strata), κάθε ένα από τα οποία θα περιλαµβάνει οµοιογενείς στατιστικές µονάδες. (Φυσικά, πρέπει να φροντίσουµε ώστε µία συγκεκριµένη στατιστική µονάδα να ανήκει σε ένα και µόνο ένα στρώµα.) Στη συνέχεια, θα πάρουµε ένα τυχαίο δείγµα από κάθε στρώµα, χρησιµοποιώντας την απλή ή τη συστηµατική τυχαία δειγµατοληψία. Έτσι, αν χωρίσουµε τον πληθυσµό των Ν στατιστικών µονάδων σε L στρώµατα, τα οποία περιλαµβάνουν Ν 1, Ν 2,..., Ν L στοιχεία, αντίστοιχα, όπου Ν 1 + Ν 2 +... + Ν L =Ν και από το στρώµα j πάρουµε ένα δείγµα µεγέθους n j, όπου j=1, 2,..., L, τότε το µέγεθος του συνολικού δείγµατος θα είναι n 1 + n 2 +... + n L = n. Ένας απλός και συχνά χρήσιµος τρόπος 2 προσδιορισµού του µεγέθους δείγµατος n j είναι ο αναλογικός (proportional), σύµφωνα µε τον οποίο η αναλογία των στοιχείων του δείγµατος που προέρχονται από το στρώµα j, n j /n, είναι ίση µε την αναλογία των στοιχείων του πληθυσµού που ανήκουν στο στρώµα j, Ν j /Ν. ηλαδή, n j /n = Ν j /Ν. Συνεπώς, έχοντας αποφασίσει για το µέγεθος του συνολικού 2 Για εναλλακτικούς τρόπους, βλ. P. Newbold, Statistics for Business and Economics, 4-th Ed., Prentice-Hall, Englewood Cliffs, NJ, 1995, σελ. 758-774. 6

δείγµατος (n) και γνωρίζοντας τα µεγέθη Ν j και Ν, η τιµή του n j δίνεται από τον ακόλουθο τύπο: N j n j = n. (1.1) N Τέταρτον, η µέθοδος της κατά οµάδες τυχαίας δειγµατοληψίας (cluster random sampling) χρησιµοποιείται στις εξής περιπτώσεις: (α) όταν οι στατιστικές µονάδες του πληθυσµού είναι γεωγραφικά µακριά η µία από την άλλη, οπότε η χρήση µίας από τις τρεις προηγούµενες µεθόδους θα είναι δαπανηρή, αν αποφασισθεί οι συνεντεύξεις να παίρνονται εκ του σύνεγγυς και (β) όταν δεν υπάρχει ένας πλήρης κατάλογος των στατιστικών µονάδων του πληθυσµού και η κατάρτισή του θα κόστιζε πολύ. Σ αυτές τις περιπτώσεις, ο ερευνητής µπορεί να κατατάξει τις στατιστικές µονάδες του πληθυσµού σε µικρές οµάδες (clusters) να πάρει ένα τυχαίο δείγµα οµάδων (π.χ. µε τη µέθοδο της απλής τυχαίας δειγµατοληψίας) και κατόπιν να κάνει απογραφή σε κάθε µία από τις επιλεγείσες οµάδες του δείγµατος. Για παράδειγµα, έστω ότι ο στατιστικός πληθυσµός που ενδιαφέρει τον ερευνητή αποτελείται από όλα τα θερµοκήπια της Ελλάδος. Ο ερευνητής µπορεί να χωρίσει την Ελλάδα σε γεωγραφικά διαµερίσµατα (Θράκη, Ανατολική Μακεδονία κ.λπ.) να πάρει ένα τυχαίο δείγµα διαµερισµάτων µε τη µέθοδο της απλής τυχαίας δειγµατοληψίας και κατόπιν να επισκεφθεί όλα τα θερµοκήπια που υπάρχουν στα γεωγραφικά διαµερίσµατα που επελέγησαν. 1.6. Το ερωτηµατολόγιο και άλλα συναφή θέµατα Το ερωτηµατολόγιο (questionnaire) αποτελεί ένα από τα κυριώτερα µέσα συγκεντρώσεως στατιστικών δεδοµένων. Πρέπει να καταρτίζεται µε µεγάλη προσοχή, ώστε οι ερωτήσεις να είναι όσο το δυνατό πιο λίγες, ουσιώδεις, σαφείς, φυσικές και αµερόληπτες, έτσι ώστε να προδιαθέτουν τον ερωτώµενο να δίνει µε ειλικρίνεια και χωρίς δυσφορία απαντήσεις. Ακόµη, πρέπει να διατυπώνονται έτσι, ώστε να ελαχιστοποιείται ο αριθµός των λαθών. Για παράδειγµα, αντί της ερωτήσεως «τί ηλικία έχετε;», στην οποία η απάντηση είναι συνήθως ένας ακέραιος αριθµός (π.χ. 31 ετών), είναι προτιµότερο να ρωτήσουµε: «ποιά είναι η ηµεροµηνία γεννήσεώς σας;». Τέλος, θα 7

πρέπει να λαµβάνεται η απαραίτητη µέριµνα, έτσι ώστε το ερωτηµατολόγιο να περιλαµβάνει όλες τις ουσιώδεις ερωτήσεις. Συναφή µε την κατάρτιση του ερωτηµατολογίου θέµατα είναι και τα εξής. Πρώτον, πρέπει να ορισθεί επακριβώς ο πληθυσµός από τον οποίο πρόκειται να ληφθεί το δείγµα, έτσι ώστε να είναι φανερό σε ποιόν πληθυσµό θ αναφέρονται τα συµπεράσµατα της έρευνας. εύτερον, πρέπει να καθορισθεί ο τρόπος µε τον οποίο θα ζητηθεί από τις στατιστικές µονάδες να συµπληρώσουν τα ερωτηµατολόγια, όπως π.χ. µε επίσκεψη στο σπίτι, µε προσωπική ή τηλεφωνική συνέντευξη, µε το ταχυδροµείο κ.λπ. Στο σηµείο αυτό θα ληφούν υπ όψη παράγοντες όπως το κόστος (σε χρόνο και χρήµα) και η απροθυµία που συνήθως χαρακτηρίζει τα άτοµα ν απαντήσουν. Έτσι, αν τα ερωτηµατολόγια αποστέλλονται ταχυδροµικά, τότε αυτά πρέπει να συνοδεύονται από φακέλους µε επικολληµένα τα απαραίτητα γραµµατόσηµα και γραµµένη τη διεύθυνση στην οποία θα επιστραφούν. Τρίτον, πρέπει να διασφαλισθεί η αξιοπιστία των δεδοµένων. Αν π.χ. η έρευνα διεξάγεται από µία εταιρεία, είναι σωστό να προσλάβει προσωρινά οποιαδήποτε άτοµα για να κάνουν επισκέψεις σε σπίτια και να πάρουν συνεντεύξεις, ή µήπως θα πρέπει ν απασχολήσει εργαζοµένους της εταιρείας για το σκοπό αυτό; 3 Επειδή η αξιοπιστία των αποτελεσµάτων της έρευνας εξαρτάται από την ποιότητα των δεδοµένων, θα πρέπει αυτά να συλλέγονται από άτοµα τα οποία έχουν κάποια ειδίκευση σ αυτή την εργασία (π.χ. έχουν παρακολουθήσει ένα σεµινάριο) και από τα οποία είναι εύκολο να ζητηθούν ευθύνες. 1.7. Έλεγχος των ερωτηµατολογίων και ταξινόµηση των στατιστικών δεδοµένων Μετά τη συµπλήρωση των ερωτηµατολογίων, πρέπει αυτά να ελεγχθούν για τη συνέπεια και την ειλικρίνεια των απαντήσεων, για 3 Κάποτε, ο γράφων και αρκετοί άλλοι προσελήφθησαν προσωρινά από µία ιδιωτική εταιρεία για τη συλλογή δεδοµένων µε ερωτηµατολόγια, κάθε ένα από τα οποία είχε 20 σελίδες και χρειαζόταν τουλάχιστο µισής ώρας συνέντευξη για τη συµπλήρωσή του. Απ ό,τι διαπιστώθηκε, οι περισσότερες από τις «απαντήσεις» που σηµειώθηκαν στα ερωτηµατολόγια ήταν καρπός της φαντασίας των «ερευνητών»! 8

να ελαχιστοποιηθεί ο κίνδυνος χρήσεως ανακριβών στοιχείων. Για παράδειγµα, αν τα ερωτηµατολόγια αποστέλλονται µε το ταχυδροµείο, στην ερώτηση για την οικογενειακή κατάσταση, κάτω από την οποία µπορεί να υπάρχει µία λίστα µε όλες τις πιθανές καταστάσεις (άγαµος, έγγαµος, διαζευγµένος κ.λπ.), ο ερωτώµενος ίσως να σηµειώσει, κατά λάθος, όχι µόνο µία, αλλά δύο καταστάσεις. Η σωστή απάντηση ίσως βρεθεί από τη διασταύρωση της απαντήσεως σ αυτή την ερώτηση µε τις απαντήσεις στις άλλες ερωτήσεις. 1.8. Παρουσίαση των στατιστικών δεδοµένων µε πίνακες και διαγράµµατα Η παρουσίαση των στατιστικών δεδοµένων γίνεται µε πίνακες και διαγράµµατα. Ένας στατιστικός πίνακας πρέπει να έχει επικεφαλίδα, η οποία θα περιλαµβάνει τον αύξοντα αριθµό και τον τίτλο του πίνακα κυρίως σώµα, όπου θα παρουσιάζονται κατά τρόπο συστηµατικό τα στατιστικά δεδοµένα και βάση, όπου θα αναφέρονται οι πηγές και τυχόν διευκρινίσεις σε υποσηµειώσεις. Παράδειγµα 1.3. Ο Πίνακας 1.1 και το ιάγραµµα 1.1 που ακολουθούν δίνουν το µέγεθος του κυβερνητικού τοµέα (size of government), το οποίο εδώ ορίζεται ως το ποσοστό των δαπανών της γενικής κυβερνήσεως (υπουργεία, τοπικές αρχές και ταµεία κοινωνικής ασφαλίσεως) στο ΑΕΠ για έξη χώρες του ΟΟΣΑ, στις οποίες το ποσοστό αυτό κατά το έτος 1992 ξεπερνούσε το 50%. Πίνακας 1.1. Ποσοστό των δαπανών της γενικής κυβερνήσεως στο ΑΕΠ για έξη χώρες του ΟΟΣΑ για το έτος 1992 Χώρα Ποσοστό (%) Βέλγιο 54,6 ανία 58,2 Φινλανδία 56,1 Ιταλία 51,5 Ολλανδία 55,3 Σουηδία 64,6 Πηγή: ΟΟΣΑ, Economic surveys 1994-1995: Greece. 9

Αν ο Πίνακας 1.1 περιείχε δεδοµένα όχι από έξη, αλλά από 50 χώρες, τότε η σύγκριση του µεγέθους του κυβερνητικού τοµέα των διαφόρων χωρών θα ήταν δυσχερής και χρονοβόρα. Η σύγκριση µπορεί, ωστόσο, να γίνει εύκολα και µε µία µόνο µατιά, αν κατασκευάσουµε ένα διάγραµµα, όπως το ιάγραµµα 1.1. 70 60 50 40 30 20 10 0 Βέλγιο ανία Φινλανδία Ιταλία Ολλανδία Σουηδία ιάγραµµα 1.1. Τo µέγεθος της γενικής κυβερνήσεως σε έξη χώρες του ΟΟΣΑ κατά το έτος 1992 1.9. ιάφοροι τύποι πινάκων και διαγραµµάτων O Πίνακας 1.1 αναφέρεται σε ένα µόνο χαρακτηριστικό, οπότε επιτρέπει απλές µόνο συγκρίσεις. Γι αυτό, ανήκει στην κατηγορία των απλών πινάκων. Μία άλλη κατηγορία πινάκων είναι οι σύνθετοι πίνακες, όπου η κατανοµή των παρατηρήσεων γίνεται σύµφωνα µε δύο χαρακτηριστικά, όπως π.χ. εισόδηµα και ηλικία. Τέτοιους πίνακες θα συναντήσουµε σε επόµενα κεφάλαια (βλ. π.χ. Κεφ. 4, 10 και 16). Όσο για στατιστικά διαγράµµατα, υπάρχουν πολλών ειδών. Το ιάγραµµα 1.1 που είδαµε πιο πάνω είναι ένα ραβδοειδές διάγραµµα (bar chart). Ένα άλλο είδος στατιστικού διαγράµµατος που συναντούµε συχνά είναι το χρονολογικό διάγραµµα (time plot), το οποίο µας δείχνει την εξέλιξη µίας µεταβλητής κατά τη διάρκεια µίας δεδοµένης χρονικής περιόδου. Στον οριζόντιο άξονα ενός χρονολογικού διαγράµµατος µετρούµε το χρόνο, ενώ στον κάθετο άξονα µετρούµε τη µεταβλητή ή τις µεταβλητές που µας ενδιαφέρουν. Παράδειγµα 1.4. Το ιάγραµµα 1.2 παρακάτω δείχνει την εξέλιξη ενός δείκτη του κατά κεφαλή Ακαθαρίστου Εγχωρίου Προϊόντος 10

(ΑΕΠ) στην Ελλάδα σε σχέση µ αυτό της Ευρωπαϊκής Ενώσεως (ΕΕ), όπου ο δείκτης αυτός είναι κατασκευασµένος κατά τρόπο ώστε για όλες τις 15 χώρες της ΕΕ να είναι ίσος µε 100 κάθε έτος. 70 69 68 67 66 65 64 63 1992 1993 1994 1995 1996 1997 1998 1999 2000 ιάγραµµα 1.2. Κατά κεφαλή ΑΕΠ στην Ελλάδα σε σχέση µε την ΕΕ (ΕΕ-15=100) Πηγή: Κρατικός Προϋπολογισµός 2000. Εισηγητική Έκθεση Υπουργού Εθν. Οικονοµίας και Οικονοµικών, Αθήνα 1999, σελ. 29. Το ιάγραµµα 1.2 φανερώνει ότι, ενώ ο δείκτης είναι πολύ χαµηλότερος του 100, εν τούτοις ακολουθεί ανοδική πορεία τα τελευταία χρόνια. Συνεπώς, αν η τάση αυτή συνεχιστεί, τότε το επίπεδο «ευηµερίας» του µέσου Έλληνα θα συγκλίνει τελικά σ αυτό του µέσου Ευρωπαίου πολίτη. 1.10. Πίνακες και διαγράµµατα συχνοτήτων Ένα είδος απλού πίνακα που συναντούµε συχνά στη Στατιστική είναι ο πίνακας συχνοτήτων (frequency table), ο οποίος δίνει τις τιµές µίας µεταβλητής (ή τα ταξικά της διαστήµατα, αν η µεταβλητή είναι συνεχής) και για κάθε τιµή (ή ταξικό διάστηµα) την αντίστοιχη συχνότητα. Παράδειγµα 1.5. Ο Πίνακας 1.2 παρακάτω είναι ένας πίνακας κατανοµής συχνοτήτων των αγάµων µητέρων ηλικίας 10-19 ετών σύµφωνα µε τον αριθµό των παιδιών τους (σύνολο Ελλάδος, απογραφή της 17-3-1991): 11

Πίνακας 1.2. Άγαµες µητέρες ηλικίας 10-19 ετών στην Ελλάδα κατά την απογραφή της 17-3-1991 Αριθµός παιδιών Αριθµός µητέρων 1 93 2 39 3 8 4 10 Σύνολο Ν=150 Πηγή: Αποτελέσµατα της απογραφής πληθυσµού - κατοίκων της 17ης Μαρτίου 1991, Τόµ. ΙΙ, Ε.Σ.Υ.Ε. Αθήνα 1998, σελ. 271. Το ιάγραµµα 1.3, το οποίο ακολουθεί, απεικονίζει τα στοιχεία του Πίνακα 1.2: Αριθµός µητέρων 100 80 60 40 20 0 1 2 3 4 Αριθµός παιδιών ιάγραµµα 1.3. Άγαµες µητέρες ηλικίας 10-19 ετών κατά τον αριθµό των παιδιών τους Στον Πίνακα 1.2 και το ιάγραµµα 1.3 έχουµε ένα παράδειγµα κατανοµής συχνοτήτων (frequency distribution), όπου οι συχνότητες είναι απόλυτες (absolute frequencies), δηλαδή µας λένε πόσες φορές παρατηρήθηκε η κάθε τιµή της µεταβλητής Χ=αριθµός παιδιών µίας άγαµης µητέρας ηλικίας 10-19 ετών την 17-3-91 στην Ελλάδα. Ας παραστήσουµε την απόλυτη συχνότητα της τιµής X=x i µε f i. Προσθέτουµε τώρα στον Πίνακα 1.2 και µία ακόµη στήλη, η οποία δίνει τις σχετικές συχνότητες (relative frequencies), p i. Οι τελευταίες υπολογίζονται µε τη διαίρεση κάθε µίας από τις απόλυτες συχνότητες 12

µε το σύνολο των παρατηρήσεων, Ν. (Στο παράδειγµά µας, Ν=150.) ηλαδή, p i = f i /Ν. Συνεπώς, το άθροισµα των σχετικών συχνοτήτων για όλες τις τιµές της Χ είναι ίσο µε 1, εφόσον το άθροισµα των απολύτων συχνοτήτων είναι ίσο µε Ν. Γενικά, αν η µεταβλητή Χ παίρνει k τιµές και το σύνολο των παρατηρήσεων που έχουµε είναι n, τότε p 1 + p 2 +... + p k = (f 1 + f 2 +... + f k )/n = n/n =1. Προσθέτουµε ακόµη δύο στήλες για τις αθροιστικές συχνότητες (cumulative frequencies), απόλυτες (F i ) και σχετικές (Φ i ), οι οποίες υπολογίζονται συσσωρευτικά. Για παράδειγµα, η αθροιστική απόλυτη συχνότητα που αντιστοιχεί στην τιµή Χ=1 είναι F 1 =93, αυτή που αντιστοιχεί στην τιµή Χ=2 είναι F 2 =132 (=93+39) κ.λπ. Έτσι, προκύπτουν ο Πίνακας 1.3 και το ιάγραµµα 1.4: Πίνακας 1.3. Πίνακας συχνοτήτων για το Παρ. 1.5 Χ=x i f i p i F i Φ i 1 93 0,620 93 0,620 2 39 0,260 132 0,880 3 8 0,053 140 0,933 4 10 0,067 150 1 Σύνολο Ν=150 1 F i 150 100 50 0 0 1 2 3 4 5 Χ i ιάγραµµα 1.4. ιάγραµµα αθροιστικών συχνοτήτων για το Παρ. 1.5 13

Στο Παρ. 1.5, η µεταβλητή Χ είναι ασυνεχής, γι αυτό και το ιάγραµµα 1.3 είναι ένα ακιδωτό διάγραµµα συχνοτήτων. Για τον ίδιο λόγο, στο ιάγραµµα 1.4 οι οριζόντιες γραµµές δεν είναι ενωµένες µεταξύ τους. Ας δούµε τώρα µία συνεχή κατανοµή συχνοτήτων, οπότε, αντί µεµονωµένων τιµών της Χ, θα έχουµε ταξικά διαστήµατα ή απλά τάξεις (classes) και, αντί ακιδωτού διαγράµµατος, θα έχουµε ένα ιστόγραµµα συχνοτήτων (frequency histogram). Για την κατάρτιση του πίνακα και του ιστογράµµατος συχνοτήτων, το πρώτο ερώτηµα που πρέπει ν απαντηθεί είναι: ποιός θα είναι ο αριθµός των τάξεων, k, στις οποίες θα κατατάξουµε ένα σύνολο n παρατηρήσεων; Ένας εµπειρικός τύπος που απαντά σ αυτό το ερώτηµα είναι ο τύπος του Sturges: k = 1 + 3,322 λογ(n), (1.2) όπου ο λογάριθµος έχει βάση το 10. 4 Συνήθως, στην παράµετρο k δίνεται µία (ακέραια) τιµή από 5 µέχρι 20. Το δεύτερο ερώτηµα που πρέπει ν απαντηθεί είναι: ποιό θα είναι το εύρος των τάξεων (class width), δ; Η απάντηση είναι: δ = d/k, (1.3) όπου d είναι το εύρος της µεταβλητής (range), δηλαδή η διαφορά της µικρότερης από τη µεγαλύτερη παρατήρηση. Παράδειγµα 1.6. Έστω ότι έχουµε τις παρακάτω παρατηρήσεις για τη µεταβλητή Χ=ποσότητα καπνού (γραµµάρια κατά µήνα) που κάπνιζαν n=50 καπνιστές πριν διαγνωσθούν ότι πάσχουν από καρκίνο του πνεύµονα: 1578 720 1381 587 524 550 1289 536 680 658 709 317 843 930 487 646 811 374 346 1459 972 771 487 258 315 717 833 1034 1164 564 773 990 527 556 541 1615 1490 682 516 388 91 822 425 1439 1142 1396 700 374 1388 740 4 Βλ. H.A. Sturges, The Choice of a Class Interval, Journal of the American Statistical Association 21, 1926, σελ. 65-66. 14

Χρησιµοποιώντας τον τύπο (1.2), βρίσκουµε k = 1 + 3,322 λογ(50) = 6,64 7. Και επειδή d = 1615-91 = 1524, από τον τύπο (1.3) προκύπτει ότι δ = 1524/7 218. Εποµένως, κάθε µία από τις επτά τάξεις θα έχει εύρος 218. Επειδή, όµως, 7 218 = 1526 = 1524 + 2, ας πάρουµε τους αριθµούς 90 και 1616 σαν το κατώτατο όριο της πρώτης και το ανώτατο όριο της τελευταίας τάξεως, αντί των πραγµατικών, που είναι 91 και 1615, αντίστοιχα. Επίσης, επειδή κάθε παρατήρηση πρέπει να ανήκει σε µία και µόνο µία τάξη, ας υιοθετήσουµε τον παρακάτω κανόνα: αν µία τιµή της µεταβλητής ανήκει στο όριο µεταξύ δύο τάξεων, δηλαδή µπορεί να θεωρηθεί ότι είναι το ανώτατο όριο της πρώτης και ταυτόχρονα το κατώτατο όριο της δευτέρας τάξεως, τότε θα θεωρείται ότι είναι το ανώτατο όριο της πρώτης. Τέλος, πρέπει να φροντίσουµε ώστε καµµία παρατήρηση να µην παραλειφθεί. Ο πίνακας συχνοτήτων είναι ο εξής: Πίνακας 1.4. Κατανοµή 50 καρκινοπαθών σύµφωνα µε την ποσότητα καπνού (γραµµάρια κατά µήνα) που κάπνιζαν πριν τη διάγνωση της αρρώστιας τους Τάξεις f i p i F i Φ i 90 308 2 0,04 2 0,04 308 526 11 0,22 13 0,26 526 744 16 0,32 29 0,58 744 962 7 0,14 36 0,72 962 1180 5 0,10 41 0,82 1180 1398 4 0,08 45 0,90 1398 1616 5 0,10 50 1,00 Σύνολο 50 1,00 Ακολουθούν το ιστόγραµµα συχνοτήτων, το πολύγωνο συχνοτήτων (frequency polygon) και η αθροιστική πολυγωνική γραµµή συχνοτήτων (ogive). Το πολύγωνο συχνοτήτων προκύπτει αν ενώσουµε τα µέσα των επάνω πλευρών του ιστογράµµατος µε ευθείες γραµµές. Όπως δείχνουν τα ιαγράµµατα 1.5 και 1.6, συµπεριλαµβάνουµε και δύο επιπλέον άδεια ταξικά διαστήµατα (που έχουν το ίδιο εύρος µε τα άλλα), ένα πριν από την τάξη 90-308 και ένα µετά από την τάξη 1398-1616. Έτσι, το πολύγωνο αρχίζει από το µέσο του πρώτου άδειου διαστήµατος και τελειώνει στο µέσο του 15

δευτέρου. Η κατασκευή αυτή επιτρέπει το εµβαδόν του πολυγώνου να είναι ίσο µε τό εµβαδόν του ιστογράµµατος, όπως πρέπει να είναι. Την αρχή αυτή θα πρέπει να την έχουµε υπ όψη µας και για την περίπτωση που µία ή περισσότερες από τις ενδιάµεσες τάξεις είναι άδειες, δηλαδή χωρίς παρατηρήσεις. f i 16 12 8 4 90 308 526 744 962 1180 1398 1616 X ιάγραµµα 1.5. Το ιστόγραµµα και το πολύγωνο συχνοτήτων για τα δεδοµένα του Πίνακα 1.4 50 F i 40 30 20 10 90 308 526 744 962 1180 1398 1616 X ιάγραµµα 1.6. Η αθροιστική πολυγωνική γραµµή για τα δεδοµένα του Πίνακα 1.4 16

Σε ωρισµένες περιπτώσεις, ίσως να θέλουµε µερικές τάξεις να έχουν µεγαλύτερο εύρος από τις άλλες. Για παράδειγµα, αν µία από τις ενδιάµεσες τάξεις είναι άδεια, τότε ίσως να θέλουµε να τη βάλουµε µαζί µε µία από τις γειτονικές, οπότε θα προκύψει µία τάξη µε εύρος διπλάσιο από αυτό των άλλων τάξεων. Σ αυτή την περίπτωση, θα πρέπει να κατασκευάσουµε το ιστόγραµµα, έτσι ώστε το εµβαδόν του ιστού που αντιστοιχεί στην τάξη i να είναι ίσο µε p i. Αυτό µπορεί να γίνει ως εξής. Έστω ότι h i =ύψος του ιστού i και δ i =εύρος της τάξεως i. Ο ιστός i του ιστογράµµατος θα πρέπει να έχει ύψος h i = p i /δ i. (1.4) Ο αριθµός h i ονοµάζεται σχετική συχνότητα ανά µονάδα εύρους της τάξεως i. Συνεπώς, Eµβαδόν του ιστού i = δ i h i = δ i (p i /δ i ) = p i. (1.5) Το ιστόγραµµα που κατασκευάζεται κατ αυτόν τον τρόπο ονοµάζεται ιστόγραµµα σχετικών συχνοτήτων (relative frequency histogram). Ασκήσεις 1.1. Αναφέρατε δύο ασυνεχή και δύο συνεχή ποσοτικά χαρακτηριστικά των εργαζοµένων µίας επιχειρήσεως. Επίσης, δύο ποιοτικά. 1.2. Έστω ότι σας ενδιαφέρει να εκτιµήσετε το µέσο εισόδηµα των νοικοκυριών του νοµού Ιωαννίνων, χρησιµοποιώντας ένα δείγµα 20 νοικοκυριών. Υποθέστε ότι το σύνολο των νοικοκυριών είναι 50000. (α) Αν το επέτρεπε ο χρόνος και τα χρήµατα που έχετε στη διάθεσή σας για την αποπεράτωση της έρευνας αυτής, θα χρησιµοποιούσατε ένα δείγµα µεγαλύτερο από 20 παρατηρήσεις; Εξηγείστε. (β) Αν σας προτείνουν να χρησιµοποιήσετε τον τηλεφωνικό κατάλογο της περιοχής για την επιλογή των 20 νοικοκυριών που θα συµπεριληφθούν στο δείγµα, θα το δεχόσαστε ή όχι και γιατί; 17

(γ) Υποθέστε τώρα ότι έχετε στη διάθεσή σας τα µητρώα της περιοχής, όπου είναι καταχωρηµένα κατ αλφαβητική σειρά όλα τα νοικοκυριά µε αύξοντα αριθµό από 00000 µέχρι 49999. Εξηγείστε πώς θα επιλέξετε τα 20 νοικοκυριά του δείγµατος µε τη µέθοδο της συστηµατικής τυχαίας δειγµατοληψίας. (δ) Στην προηγούµενη ερώτηση, υποθέστε ότι θέλετε να επιλέξετε τα 20 νοικοκυριά µε τη µέθοδο της απλής τυχαίας δειγµατοληψίας και ότι για το σκοπό αυτό αποφασίζετε να χρησιµοποιήσετε το παρακάτω υποσύνολο 60 τυχαίων αριθµών. Τί αύξοντες αριθµούς θα έχουν τα 20 νοικοκυριά του δείγµατος; 0004 5896 8286 6649 2195 4259 3564 8835 4023 2059 1154 8862 4643 8289 3563 9031 4722 1071 5587 9542 8008 1716 8030 1967 7926 2236 7805 5092 3733 9531 8777 3087 6144 3315 5048 3029 2764 6923 3587 1368 8062 2150 6017 5071 3262 7510 1076 9099 7506 6739 2197 1883 1250 4199 6316 8041 7838 1782 0476 9367 1.3. είτε τους αριθµούς που δίνονται στην ερώτηση 1.2(δ) όπως ακριβώς φαίνονται, δηλαδή ως τετραψήφιους αριθµούς και θεωρείστε ότι αποτελούν ένα τυχαίο δείγµα παρατηρήσεων από 60 άτοµα για τη µεταβλητή Χ=αριθµός ωρών εργασίας ενός ατόµου στη διετία 1997-1998 σε µία χώρα. (α) Χρησιµοποιώντας πέντε ίσα ταξικά διαστήµατα, 0-1999, 2000-3999 κ.λπ., να κατασκευάσετε ένα πίνακα συχνοτήτων, απολύτων και σχετικών, συµπεριλαµβανοµένων των αθροιστικών συχνοτήτων. (β) Να κατασκευάσετε το ιστόγραµµα και το πολύγωνο συχνοτήτων, καθώς επίσης και την αθροιστική πολυγωνική γραµµή συχνοτήτων. Σας εκπλήσσει η µορφή του ιστογράµµατος; Αν τα παραπάνω στοιχεία δεν προέρχονταν από τους πίνακες τυχαίων αριθµών, αλλά από µία πραγµατική οικονοµία, τότε θα σας εξέπλησσε η µορφή του ιστογράµµατος συχνοτήτων; Εξηγείστε. 18