ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Σχετικά έγγραφα
Περιεχόμενα. Γιατί Ένας Manager Πρέπει να Ξέρει Στατιστική. Περιεχόμενα. Η Ανάπτυξη και Εξέλιξη της Σύγχρονης Στατιστικής

Γλωσσική μεταβλητότα:

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Περιεχόμενα. Πρόλογος... 15

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Βιοστατιστική ΒΙΟ-309

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Στατιστική Επιχειρήσεων Μάθημα 1 ο

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Δειγματοληψία στην Ερευνα. Ετος

Εισαγωγή στη Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Στατιστική Επιχειρήσεων Ι

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Είδη Μεταβλητών. κλίµακα µέτρησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Μάθηµα 3 ο. Περιγραφική Στατιστική

Περιγραφική Στατιστική

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

Αναλυτική Στατιστική

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Σ Τ Α Τ Ι Σ Τ Ι Κ Η Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ.

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Βασικές Αρχές Μέτρησης επ. Κων/νος Π. Χρήστου

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

Στατιστική Επιχειρήσεων 1 Μάθημα του A Εξαμήνου

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Βασικές έννοιες. Παραδείγµατα: Το σύνολο των φοιτητών που είναι εγγεγραµµένοι

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες

ΤΙ ΕΙΝΑΙ ΣΤΑΤΙΣΤΙΚΗ; Στατιστική είναι η διαδικασία εξαγωγής πληροφορίας από τα δεδομένα. Διαχείριση Πληροφοριών 1.1

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

Διάλεξη 1 Βασικές έννοιες

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

Γ. Πειραματισμός - Βιομετρία

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ενδεικτικές ασκήσεις ΔΙΠ 50

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Γ. Πειραματισμός Βιομετρία

Συλλογή και Παρουσίαση Δεδομένων

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

Ερευνητική υπόθεση. Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές.

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΣΠΟΥΔΑΣΤΗΡΙΟ ΚΟΙΝΩΝΙΟΛΟΓΙΑΣ ΠΑΣΠΕ ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΚΟΙΝΩΝΙΚΩΝ ΕΡΕΥΝΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗ ΜΕΘΟΔΟΛΟΓΙΑ ΚΑΙ ΤΙΣ ΤΕΧΝΙΚΕΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Περιεχόμενα Ορίζοντας την επιστήμη της Στατιστικής Είδη Στατιστικής Ανάλυσης Βασικές έννοιες της Στατιστικής Είδη Στατιστικής Ανάλυσης Βασικές έννοιες Στατιστικής Συλλογή Δεδομένων Δειγματοληψία Στατιστικοί Πίνακες Γραφικές Παραστάσεις Στατιστικά Μέτρα Στατιστικές διαδικασίες Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 2

Ορίζοντας μια Επιστήμη Η Στατιστική είχε μια μητέρα που αφιέρωσε τη ζωή της στο να διατηρεί με μεθοδικό τρόπο τα αρχεία των διαφόρων κυβερνητικών υπηρεσιών κι ένα τζογαδόρο πατέρα που στηρίχθηκε στα μαθηματικά για να αυξήσει την επιδεξιότητά του στα τυχερά παιγνίδια. Από τη συστηματική και τυπική μητέρα προήλθε η Περιγραφική Στατιστική. Από το ριψοκίνδυνο και διανοούμενο πατέρα προήλθε η Στατιστική Συμπερασματολογία (Επαγωγική Στατιστική) Η ΣΤΑΤΙΣΤΙΚΗ ορίζεται σήμερα ως η επιστήμη που σχετίζεται με τις επιστημονικές μεθόδους συλλογής, παρουσίασης, αξιολόγησης και γενίκευσης (: εξαγωγής συμπερασμάτων) της πληροφορίας. Η ρίζα της λέξης στατιστική αναζητείται στην λατινική λέξη status (κοινωνία, κράτος) και παραπέμπει στην καταγραφή και αρχειοθέτηση ποσοτικών μεγεθών. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 3

Η επιστήμη της Στατιστικής Η ιδιαιτερότητα της Στατιστικής ως επιστήμης είναι ότι, ενώ στο επίπεδο της θεωρίας είναι μαθηματικά, στο επίπεδο της εφαρμογής χρησιμοποιεί το πλαίσιο όλων σχεδόν των άλλων γνωστικών περιοχών: οι κοινωνικο-οικονομικοί δείκτες, η εξέλιξη των φυσικών φαινομένων, οι επιδημιολογικές μελέτες, οι κλινικές δοκιμές φαρμάκων, ο ποιοτικός έλεγχος των προϊόντων, η εκτίμηση της στάσης των πολιτών πάνω σ ένα θέμα, το καθάρισμα μιας δορυφορικής εικόνας, η αναζήτηση διαδικασιών αξιολόγησης οικολογικών συστημάτων, Είναι μόνον μερικές από τις περιπτώσεις που η Στατιστική συνεργάστηκε επιτυχώς με άλλες επιστήμες (Πληροφορική, Οικονομία, Βιολογία, Ιατρική, Χημεία, Ψυχολογία, κλπ) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 4

Ιστορικά Αρχαίος κόσμος: Στοιχειώδεις συλλογές στατιστικών στοιχείων από τους Βαβυλώνιους, Αιγυπτίους και Κινέζους Ρωμαϊκή Αυτοκρατορία: Ύπαρξη ενός οργανωμένου συστήματος καταγραφής των κρατικών αγαθών censere (: προς φορολόγηση) census (: απογραφή) Μεσαίωνας (Αγγλία) : Domesday Book (1086): στατιστική απογραφή όλων των παραγωγικών μονάδων (αγροτεμάχια, καλλιέργειες, μεταλλεία, ιχθυοτροφεία, κλπ) την εποχή του William the Conqueror (1027-1087). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 5

Είδη Στατιστικής Ανάλυσης Ι Οι μέθοδοι της περιγραφικής στατιστικής αποτελούν το επιστημονικό εργαλείο για τη συγκέντρωση, ταξινόμηση και παρουσίαση των πρωτογενών δεδομένων σε εύληπτη μορφή (άθροιση και σύνοψη των δεδομένων) Η στατιστική συμπερασματολογία (Επαγωγική) περιλαμβάνει τις μεθόδους με τις οποίες καθίσταται δυνατή η προσέγγιση των χαρακτηριστικών του συνόλου των δεδομένων (πληθυσμός) δια της μελέτης των χαρακτηριστικών αυτών επί ενός (μικρού) υποσυνόλου των δεδομένων (δείγμα). Με άλλα λόγια τα εργαλεία της στατιστικής συμπερασματολογίας επάγουν συμπεράσματα από το δείγμα στον πληθυσμό (γίνεται προσπάθεια να εξαχθούν από τα δεδομένα νόμοι, κανόνες και συμπεράσματα των οποίων η ισχύς να ξεπερνά το επίπεδο των παρατηρήσεων που έχουμε. (Εξαγωγή Συμπερασμάτων και/ ή αποφάσεων για έναν πληθυσμό με βάση τα δειγματικά αποτελέσματα). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 6

Είδη Στατιστικής Ανάλυσης ΙΙ 1. Περιγραφική στατιστική (descriptive statistics) ταξινομήσεις δεδομένων πίνακες, διαγράμματα κλπ. μαθηματική περιγραφή εύρος τιμών (range), μέσος όρος (average, mean value), διάμεσος (median), κορυφή (mode) διακύμανση (variance), τυπική απόκλιση (standard deviation) κλπ. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 7

Είδη Στατιστικής Ανάλυσης ΙΙΙ 2. Επαγωγική στατιστική (inferential statistics) Δειγματοληπτικός έλεγχος ερευνητικών υποθέσεων βάσει μιας στατιστικής διαδικασίας Πληθυσμός Δείγμα Χαρακτηριστικά του δείγματος Ποσοτικοποίηση Κατανομή Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 8

Βασικές έννοιες - Πληθυσμός - Δείγμα Με τον όρο πληθυσμός εννοούμε ένα σύνολο ατόμων ή αντικειμένων ή οποιονδήποτε άλλων οντοτήτων, για τα οποία ενδιαφερόμαστε να βγάλουμε συμπεράσματα σε σχέση με κάποιες ιδιότητες που αφορούν τα στοιχεία του. Ο πληθυσμός πρέπει να είναι καλά ορισμένος, να περιγράφεται δηλαδή με κάποιες ιδιότητες των στοιχείων που τον αποτελούν, σε τρόπο ώστε να μπορεί οποιοσδήποτε να αποφανθεί μονοσήμαντα αν κάποιο στοιχείο είναι μέλος του (: ικανοποιεί τις ιδιότητες) ή όχι (: δεν ικανοποιεί τις ιδιότητες). Δείγμα είναι το υποσύνολο των υποκειμένων που επιλέγονται από τον πληθυσμό για να χρησιμοποιηθούν στην ανάλυση. Το δείγμα πρέπει να επιλεγεί με τρόπο ώστε να εξασφαλίζεται, η δυνατότητα γενίκευσης των συμπερασμάτων που θα βγάλουμε. (Είναι προφανές ότι όσο μικρότερο είναι το δείγμα τόσο μεγαλύτερο αναμένεται να είναι και το λάθος που υπεισέρχεται στο αποτέλεσμα.) Αντιπροσωπευτικό Δείγμα: Δείγμα το οποίο αποτελεί μικρογραφία του πληθυσμού από τον οποίο προέρχεται Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 9

Βασικές έννοιες Χαρακτηριστικά - Ποσοτικοποίηση Χαρακτηριστικά του δείγματος (πληθυσμού) Εξαρτημένες μεταβλητές Ανεξάρτητες μεταβλητές Τι ορίζεται ως εξαρτημένη και τι ως ανεξάρτητη μεταβλητή εξαρτάται απολύτως από τον τρόπο που διατυπώνεται η ερευνητική υπόθεση. Ποσοτικοποίηση Ονομαστικά (namable) χαρακτηριστικά Απαρίθμηση: μέτρηση των μελών του πληθυσμού ή του δείγματος Μετρήσιμα (measurable) χαρακτηριστικά Ποσόστωση: μέτρηση του κατά πόσο ένα μέλος του δείγματος εκδηλώνει ένα χαρακτηριστικό Εργαλείο μέτρησης - Μονάδα μέτρησης - Κλίμακα μέτρησης Ονομαστική /κατηγορική κλίμακα (nominal scale) Τακτική κλίμακα (ordinal scale) Διαστημική κλίμακα / κλίμακα διαστημάτων (interval scale) Αναλογική κλίμακα (ratio scale) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 10

Βασικές έννοιες Μέτρηση Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποιους λογικά καθορισμένους κανόνες. Κλίμακα Μέτρησης: Κάθε χαρακτηριστικό που μετράμε απαιτεί και διαφορετικούς κανόνες σύμφωνα με τους οποίους θα του προσδώσουμε αριθμητικά δεδομένα. Κάθε συγκεκριμένο σετ από τέτοιους κανόνες ονομάζεται κλίμακα μέτρησης Κατηγορική Κλίμακα: Οι αριθμοί της κλίμακας χρησιμοποιούνται μόνο ως σύστημα κατηγοριοποίησης Ιεραρχική Κλίμακα: Οι αριθμοί της κλίμακας χρησιμοποιούνται για να αποδώσουν θέση σε μια ομάδα Κλίμακα Ίσων Διαστημάτων: Τα διαστήματα ανάμεσα στις τιμές της κλίμακας είναι ίσα σε όλο το μήκος της Αναλογική Κλίμακα: Η κλίμακα που έχει το «απόλυτο μηδέν» και στην οποία η αναλογίες έχουν νόημα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 11

Βασικές έννοιες Μεταβλητές Ι Μεταβλητή: Κάθε ιδιότητα ενός αντικειμένου ή μια κατάσταση που παίρνει διαφορετικές τιμές (Π.χ.: Το βάρος, η νοημοσύνη, η στάση απέναντι στο ρατσισμό Είδη Μεταβλητών Ποσοτικές (Όταν αναφέρεται σε σχέση με μετρήσεις ποσοτήτων) Ποιοτικές (Όταν αναφέρεται σε σχέση με πιθανές κατηγορίες) Ασυνεχείς (Παίρνει ένα μόνο συγκεκριμένο αριθμό) Συνεχείς (Παίρνει κάθε τιμή της κλίμακας) Εξαρτημένη Μεταβλητή (Η μεταβλητή που μετράμε) Ανεξάρτητη Μεταβλητή (Η μεταβλητή που χειριζόμαστε) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 12

Βασικές έννοιες Μεταβλητές ΙΙ Ποιοτικές: θεωρούνται οι μεταβλητές που δεν μπορούν να εκφραστούν αριθμητικά αλλά διακρίνονται σε συγκεκριμένες κατηγορίες ή ομάδες που ονομάζονται διαβαθμίσεις ή κλάσεις ή ιδιότητες. Επομένως στις ποιοτικές μεταβλητές δεν υπάρχουν κλίμακες μέτρησης. π.χ. Η μεταβλητή ΦΥΛΟ με δύο διαβαθμίσεις 1. Άνδρας και 2. Γυναίκα. Ποσοτικές: θεωρούνται οι μεταβλητές στις οποίες μπορούμε να αντιστοιχίσουμε έναν αριθμό μιας συγκεκριμένης κλίμακας. Τα στατιστικά δεδομένα αποτελούν στην περίπτωση αυτή μια σειρά αριθμητικών μετρήσεων. Π.χ. Η μεταβλητή ΗΛΙΚΙΑ με τιμές 18, 35, 67... Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 13

Βασικές έννοιες Μεταβλητές (3) Μια ποσοτική μεταβλητή διακρίνεται σε: Συνεχής : μια ποσοτική μεταβλητή θα ονομάζεται συνεχής όταν μπορεί να λάβει οποιαδήποτε τιμή μέσα σε ένα διάστημα πραγματικών αριθμών π.χ. Ηλικία, Βάρος, Ύψος Ασυνεχής ή διακριτή: Όταν οι τιμές που αυτή μπορεί να λάβει είναι μεμονωμένες, δηλαδή υπάρχουν τιμές της μεταξύ των οποίων δεν είναι δυνατό να υπάρξει άλλη τιμή της. Π.χ. Αριθμός Παιδιών Οικογένειας, Μηνιαίες Πωλήσεις Αυτοκινήτων Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 14

Βασικές έννοιες Μεταβλητές (4) Εξαρτημένη μεταβλητή: Αυτή η μεταβλητή υποτίθεται ότι είναι το αποτέλεσμα, το οποίο εξαρτάται από την καθορισμένη αξία της ανεξάρτητης μεταβλητής (π.χ., η επιθετική συμπεριφορά). Ανεξάρτητη μεταβλητή: Αλλαγές σ' αυτή την μεταβλητή υποτίθεται ότι προκαλούν αλλαγές στην εξαρτημένη μεταβλητή Πειραματική Ομάδα: Η πειραματική ομάδα αποτελείται από εκείνα τα υποκείμενα που εκτίθενται στην ανεξάρτητη μεταβλητή. Ομάδα Ελέγχου: Η ομάδα ελέγχου αποτελείται από εκείνα τα υποκείμενα που είτε δεν εκτίθενται καθόλου στην ανεξάρτητη μεταβλητή είτε εκτίθενται εν μέρει στην ανεξάρτητη μεταβλητή. Τυχαία Επιλογή: Η ομάδα στην οποία τοποθετείται κάθε υποκείμενο (πειραματική ή ελέγχου) καθορίζεται από μια τυχαία διαδικασία έτσι ώστε, κατά μέσο όρο, οι ομάδες να μην διαφέρουν κατά πολύ πριν από τον έλεγχο της ανεξάρτητης μεταβλητής. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 15

Βασικές έννοιες - Κατανομή κανονική κατανομή (normal distribution) ασύμμετρη κατανομή (skewed distribution) Επιδόσεις μαθητών 100 80 60 40 Τουρκόφ. Πομακόφ. 20 0 [0,25] (25,50] (50,75] (75,100] Δύο είδη γλωσσικών ζητημάτων στον Τύπο Σύνολο άρθρων Zήτημα 1 (Α) Ζήτημα 2 (Α) Ζήτημα 3 (Β) Ζήτημα 4 (Β) χρόνος Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 16

Δεδομένα Γιατί Χρειαζόμαστε Δεδομένα; Για να έχουμε την πρώτη ύλη για τη διεξαγωγή μίας δημοσκόπησης ή δειγματοληπτικής μελέτης Για να μετρήσουμε την απόδοση μιας υπηρεσίας ή μιας διαδικασίας παραγωγής. Για να αξιολογήσουμε συμμόρφωση σε κάποια αποδεκτά πρότυπα. Για να μπορέσουμε να διαμορφώσουμε εναλλακτικούς τρόπους δράσης Για να ικανοποιήσουμε την περιέργεια μας Να περιγράψουμε σχέσεις μεταξύ χαρακτηριστικών Να κάνουμε προβλέψεις Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 17

Συλλογή Δεδομένων Πηγές Δεδομένων Δεδομένα Άμεση Συλλογή Έμμεση Συλλογή Παρατήρηση Πειραματισμός Έρευνα Κατάλογοι Βάσεων Δεδομένων Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 18

Δειγματοληψία Γιατί κάνουμε δειγματοληψία Λιγότερο χρονοβόρα από ότι μία απογραφή Λιγότερο δαπανηρή στην διεκπεραίωση από απογραφή Λιγότερο επίπονη και πιο πρακτική στη διαχείριση από ότι μία απογραφή του πληθυσμού υπό διερεύνηση (target population) Μεταξύ της επί μέρους εμπειρίας (δείγμα) για τα αντικείμενα που έχουμε και στη γενίκευση πως αυτό που διαπιστώσαμε ισχύει για όλο το σύνολο (πληθυσμός) μεσολαβεί η έννοια της αντιπροσωπευτικότητας. Αν το υποσύνολο/δείγμα που μελετήσαμε είναι αντιπροσωπευτικό του συνόλου/πληθυσμού τότε έχουμε το δικαίωμα να αποφανθούμε πως όσα παρατηρήσαμε στο υποσύνολο αυτό ισχύουν για όλο το σύνολο. Τρόποι σχηματισμού αντιπροσωπευτικών δειγμάτων : Απλή τυχαία δειγματοληψία Στρωματοποιημένη δειγματοληψία Δειγματοληψία κατά ομάδες Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 19

Σχεδιασμός Δειγματοληπτικών Ερευνών (1) Γράψτε μία συνοδευτική επιστολή Αναφέρετε το σκοπό και το αντικείμενο της μελέτης, Εξηγήστε τη σημασία της απόκρισης, Παρέχετε διαβεβαιώσεις για την ανωνυμία των συμμετεχόντων, Προσφέρετε ένα δώρο-κίνητρο για τη συμμετοχή στην μελέτη Επιλογή κατάλληλου τρόπου συλλογής δεδομένων Αξιόπιστοι βασικοί τρόποι Προσωπική συνέντευξη, Τηλεφωνική συνέντευξη, Ταχυδρομική έρευνα Λιγότερο Αξιόπιστοι τρόποι επιλογής (όχι κατάλληλων για συμπερασματολογία που αφορά τον πληθυσμό) Τηλεοπτικές Δημοσκοπήσεις, Διαδικτυακές Δημοσκοπήσεις, Δημοσκοπήσεις εντύπων (εφημερίδων ή περιοδικών ), Ερωτηματολόγια Προϊόντων ή υπηρεσιών Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 20

Σχεδιασμός Δειγματοληπτικών Ερευνών (2) Σαφής Προσδιορισμός Κατηγοριών Εντοπισμός ολοκληρωμένων και μη- επικαλυπτόμενων κατηγοριών που αντανακλούν το θέμα Διατύπωση Σαφών ερωτημάτων. Τα ερωτήματα θα πρέπει να είναι τόσο ξεκάθαρα διατυπωμένα ώστε να μην υπάρχει περίπτωση παρερμηνείας. Όροι παγκοσμίως αποδεκτοί θα πρέπει να χρησιμοποιούνται (Επιστημονικοί και εξειδικευμένοι όροι να αποφεύγονται) Έλεγχος της Δειγματοληπτικής Πειραματικά δοκιμάστε την μελέτη σε μία μικρή ομάδα συμμετεχόντων έτσι ώστε να εκτιμήσετε την σαφήνεια και τη διάρκεια ή το μέγεθος της (Πιλοτική ή Πειραματική μελέτη) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 21

Τύποι δειγματοληπτικών μεθόδων (1) Δείγματα Μη τυχαία Δειγματοληψία Τυχαία Δειγματοληψία Κρίση Απλή Τυχαία Κομμάτι Μερίδιο σε συγκεκριμένο Χρόνο Συστηματική Στρωματοποιημένη Κατά Συστάδες Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 22

Τύποι δειγματοληπτικών μεθόδων (2) Απλή Τυχαία Δειγματοληψία Κάθε άτομο ή αντικείμενο από το πλαίσιο δειγματοληψίας έχει ίση πιθανότητα επιλογής Η επιλογή μπορεί να γίνει με ή χωρίς επανατοποθέτηση (επανάθεση) Το τυχαίο δείγμα το αποκτούμε με τη βοήθεια πινάκων (ψευδο)τυχαίων αριθμών ή από προσομοίωση τους με τη χρήση Η/Υ. Συστηματική Δειγματοληψία Αποφασίζουμε το μέγεθος του δείγματος: n Διαιρούμε το πλαίσιο των N ατόμων σε ομάδες με πλήθος k: k=ν/n Τυχαία επιλέγουμε ένα άτομο από την 1 η ομάδα Επιλέγουμε ένα άτομο ανα k Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 23

Τύποι δειγματοληπτικών μεθόδων (3) Στρωματοποιημένη Δειγματοληψία Ο πληθυσμός χωρίζεται σε 2 ή περισσότερες ομάδες σύμφωνα με ένα κοινό χαρακτηριστικό (π.χ. Επίπεδο σπουδών) Πραγματοποιούμε απλή τυχαία δειγματοληψία σε κάθε ομάδα Τα παραπάνω δείγματα τα ενώνουμε σε ένα Δειγματοληψία κατά Συστάδες Ο πληθυσμός Χωρίζεται σε «συστάδες» (ομάδες) αντιπροσωπευτικές του πληθυσμού Απλό τυχαίο δείγμα επιλέγεται από κάθε συστάδα Τα δείγματα ενώνονται σε ένα μεγάλο Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 24

Πλεονεκτήματα και Μειονεκτήματα Απλή τυχαία και συστηματική δειγματοληψία Εύκολες στη χρήση Μπορεί να είναι καλή αναπαραγωγή των χαρακτηριστικών του πληθυσμού. Στρωματοποιημένη Δειγματοληψία Εξασφαλίζει την εκπροσώπηση όλων των κατηγοριών στο δείγμα Δειγματοληψία κατά συστάδες Λιγότερο αποτελεσματικό (χρειάζεται μεγαλύτερο δείγμα για να έχουμε το ίδιο επίπεδο ακρίβειας) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 25

Εκτίμηση της αξίας μιας Δειγματοληπτικής Μελέτης Ποιός είναι ο σκοπός της μελέτης; Βασίζεται σε τυχαίο δείγμα ; Σφάλμα αντιπροσωπευτικότητας επιλογή σωστού πλαισίου δειγματοληψίας Σφάλμα μη απάντησης παρακολούθηση των ατόμων μελέτης Σφάλμα μέτρησης καλά ερωτήματα εξάγουν καλές αποκρίσεις (απαντήσεις) Σφάλμα Δειγματοληψίας υπάρχει πάντα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 26

Περιγράφω τα δεδομένα Περιγραφική Στατιστική Στατιστικοί Πίνακες Γραφικές Παραστάσεις Στατιστικά Μέτρα Μέτρα Κεντρικής Τάσης Μέτρα Διασποράς Ραβδογράμματα Ιστογράμματα Μέση Τιμή Εύρος Πίνακες Συχνοτήτων Κυκλικά Διαγράμματα Γραμμογράμματα Διάμεσος Επικρατούσα Τιμή Διασπορά Ποσοστιαία Σημεία Box Plots κλπ κλπ κλπ Η κατανομή δείχνεται με γραφήματα Η κατανομή δείχνεται με αριθμούς Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 27

Περιγραφικά στατιστικά Μέσος : X( n) Συμμετρική κατανομή αν X( n) Για συνεχή κατανομή, εκτίμησε cv και διάμεσος είναι κοντά = σ / µ με cv cv > 1: υποψήφιες κατανομή Γάμμα ή Weibull με παράμετρο α < 1 cv = 1: υποψήφια εκθετική κατανομή cv < 1: υποψήφιες κατανομή Γάμμα ή Weibull με παράμετρο α > 1 2 Για διακριτές κατανομές, εκτίμηση λόγοτ = σ τ < 1: υποψήφια διωνυμική τ = 1: υποψήφια Poisson τ > 1: υποψήφια αρνητική διωνυμική ή γεωμετρική ^ = S( n) / X( n) / µ με S 2 ( n) / X( n) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 28

τα τρία διαφορετικά διαθέσιμα εργαλεία Στατιστικοί πίνακες ομαδοποίηση των δεδομένων. Γραφικές παραστάσεις μια εικόνα αντί για χίλιες λέξεις. Στατιστικά μέτρα με τα μέτρα κεντρικής τάσης προσπαθούμε να προσδιορίσουμε το τυπικό, το πιο συνηθισμένο στα δεδομένα. τα μέτρα μεταβλητότητας βοηθούν στον εντοπισμό των διαφορών στα δεδομένα (χωρίς μεταβλητότητα δεν υπάρχει Στατιστική!) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 29

Στατιστικοί Πίνακες Η κατηγοριοποίηση (ομαδοποίηση, ταξινόμηση) ή γενικότερα η κατανομή των πρωτογενών δεδομένων σε κατηγορίες (ομάδες, τάξεις, διαστήματα) αποτελεί την πρώτη προσέγγιση στο πρόβλημα : του περιορισμού του όγκου της συστηματικής παρουσίασης κάθε τύπου μεταβλητής (ποιοτικής ή ποσοτικής) από την (Περιγραφική) Στατιστική. Στη σχετική βιβλιογραφία, οι όροι πίνακες συχνοτήτων και κατανομές συχνοτήτων χρησιμοποιούνται ταυτόσημα για να αποδώσουν την τεχνική οργάνωσης των τιμών μιας μεταβλητής σε κατηγορίες αλλά και την τελική παρουσίασή τους. Η γενική μορφή ενός πίνακα συχνοτήτων Κατηγορίες Συχνότητα Σχετική Συχνότητα (%) Αθροιστική Συχνότητα Σχετική Αθροιστ. Συχνότητα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 30

Γραφικές Παραστάσεις Ι Πριν την κατασκευή τους θα πρέπει να έχουμε στα χέρια μας τον αντίστοιχο πίνακα συχνοτήτων. Δεν προσφέρουν περισσότερη πληροφορία από εκείνη που περιέχεται στους αντίστοιχους πίνακες συχνοτήτων. Η αμεσότητα της εικόνας διευκολύνει στον εντοπισμό των διαφοροποιήσεων που υπάρχουν. Δίνουν μια χοντρική άποψη του προτύπου που (πιθανώς) υπάρχει στον πληθυσμό. Ποιοτικών μεταβλητών Ραβδόγραμμα, κυκλικό διάγραμμα Ποσοτικών μεταβλητών Ιστόγραμμα, πολύγωνο συχνοτήτων, πολύγωνο αθροιστικών συχνοτήτων, φυλογράφημα (steam and leaf), θηκόγραμμα (boxplot διάγραμμα) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 31

Γραφικές Παραστάσεις ΙΙ Ραβδόγραμμα Κατασκευάζουμε τον πίνακα συχνοτήτων της ποιοτικής μεταβλητής. Θεωρούμε το σύστημα των ορθογωνίων αξόνων. Κατά μήκος του οριζόντιου άξονα απεικονίζουμε τις κατηγορίες της μεταβλητής. Μεταξύ των κατηγοριών μεσολαβεί κενό διάστημα. Κατά μήκος του κατακόρυφου άξονα καταγράφουμε τις (σχετικές) συχνότητες της κάθε κατηγορίας. Κατασκευάζουμε ορθογώνια πάνω από κάθε κατηγορία της μεταβλητής με ύψος ίσο με τη συχνότητά της. Κυκλικό Διάγραμμα Το σύνολο των δεδομένων αντιστοιχεί στο εμβαδό ενός κύκλου. Κάθε κατηγορία ορίζει έναν κυκλικό τομέα εμβαδού Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 32

Γραφικές Παραστάσεις ΙΙΙ Ιστόγραμμα Κατασκευάζουμε τον πίνακα συχνοτήτων της ποσοτικής μεταβλητής. Θεωρούμε το σύστημα των ορθογωνίων αξόνων. Κατά μήκος του οριζόντιου άξονα απεικονίζουμε τις ομάδες της μεταβλητής. Οι ομάδες είναι τοποθετημένες η μία συνεχόμενη της άλλης χωρίς κενά για να φαίνεται η συνέχεια των δεδομένων. Κατά μήκος του κατακόρυφου άξονα καταγράφουμε τις (σχετικές) συχνότητες της κάθε ομάδας. Κατασκευάζουμε ορθογώνια πάνω από κάθε ομάδα της μεταβλητής με ύψος ίσο με τη (σχετική) συχνότητα. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 33

Γραφικές Παραστάσεις ΙV Φυλλογράφημα Διατάσσουμε τις παρατηρήσεις. Κάθε παρατήρηση χωρίζεται σε δύο μέρη: (τα οδηγούντα ψηφία steams και στα επόμενα leaves ). Διατάσσονται τα οδηγούντα ψηφία σε μια στήλη αρχίζοντας από τη μικρότερη τιμή. Δίπλα στη γραμμή που αντιστοιχεί στο καθένα από τα οδηγούν τα ψηφία γράφονται τα επόμενα ψηφία για κάθε παρατήρηση που έχει steam αυτό της γραμμής. Παράδειγμα για τη μεταβλητή Βαθμός_2 104 112 113 114 115 116 116 117 119 120 122 122 123 126 126 129 129 130 132 132 132 132 135 138 138 138 139 140 140 140 142 143 144 146 149 150 152 10 4 11 2 3 4 5 6 6 7 9 12 0 2 2 3 6 6 9 9 13 0 2 2 2 2 5 8 8 8 9 14 0 0 0 2 3 4 6 9 15 0 2 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 34

Ιστογράμματα Ένας πίνακας συχνοτήτων ή ένα ιστόγραμμα είναι χρήσιμα για τον προσδιορισμό του σχήματος της κατανομής Ο αριθμός των τάξεων εξαρτάται από: Τον αριθμό των παρατηρήσεων Τη διασπορά των δεδομένων Συνήθως: τετραγωνική ρίζα του αριθμού των παρατηρήσεων Για συνεχή δεδομένα: Αντιστοιχεί στην αθροιστική κατανομή πιθανότητας μιας θεωρητικής κατανομής Για διακριτά δεδομένα: Αντιστοιχεί στην αθροιστική κατανομή Αν υπάρχουν λίγα στοιχεία σε κάθε τάξη: συνένωσε διαδοχικές τάξεις Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 35

Ιστόγραμμα για συνεχή δεδομένα Δείγμα n = 100 χρόνων μεταξύ διαδοχικών αιτήσεων σε ένα Web server σε διαστήματα ενός λεπτού # αιτήσεων που φτάνουν ανά 10 δεύτερα περίπου σταθερός Μέσος = 0.534 s; median = 0.398; CV = 0.98 Εκθετική κατανομή; Δύο εναλλακτικά ιστογράμματα. Τι παρατηρείτε; Frequency Frequency Histogram 0.2 0.15 0.1 0.05 0 0.1 0.6 1.1 1.6 2.1 2.6 Bin Histogram 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0.25 0.75 1.25 1.75 2.25 2.75 Bin Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 36

Ιστόγραμμα για διακριτά δεδομένα Δείγμα n = 100 παρατηρήσεων για τον αριθμό των ειδών που ζητούνται από ένα εργαστήριο ανά εβδομάδα {(0,1), (1,3), (2,8), (3,14), (4, 18), (5,17), (6,16), (7,10), (8,8), (9,4), (10, 1)} Μέσος = 4.94, διακύμανση = 4.4, Λόγος τ = 0.9 Κατανομή Poisson; Histogram 0.2 0.16 0.12 h(x) 0.08 0.04 0 0 1 2 3 4 5 6 7 8 9 10 x Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 37

Πόσο καλή είναι η προσαρμογή Συνεχή δεδομένα σχεδίασε πάνω στο ιστόγραμμα και κάνε σύγκριση 0.4 0.35 0.3 Histogram Θεωρητικές Διακριτά δεδομένα σύγκρινε τη θεωρητική με την εμπειρική συχνότητα Frequency 0.25 0.2 0.15 0.1 0.05 0 0.25 0.75 1.25 1.75 2.25 2.75 Bin Κάνε ένα Quantile-Quantile Plot Histogram 0.2 0.16 h(x) 0.12 0.08 0.04 Εμπειρικές 0 0 1 2 3 4 5 6 7 8 9 10 x Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 38

Quantile-Quantile Plots Παρατηρήσεις σχετικά με τα q-q plot: Οι εμπειρικές τιμές ποτέ δεν είναι ακριβώς σε ευθεία Οι διατεταγμένες τιμές δεν είναι ανεξάρτητες μεταξύ τους, οπότε είναι απίθανο να είναι διεσπαρμένες Η διακύμανση στα άκρα είναι μεγαλύτερη απ ό,τι στο μέσο. Η γραμμικότητα στο μέσο είναι πιο σημαντική. Τα Q-Q plot μπορεί να χρησιμοποιηθούν για να ελέγξουν την ομοιογένεια δεδομένων Μπορούμε να ελέγξουμε αν μία κατανομή μπορεί να περιγράψει περισσότερα από ένα δείγματα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 39

Στατιστικά Μέτρα με τα μέτρα κεντρικής τάσης προσπαθούμε να προσδιορίσουμε το τυπικό, το πιο συνηθισμένο στα δεδομένα. τα μέτρα μεταβλητότητας βοηθούν στον εντοπισμό των διαφορών στα δεδομένα. Η ύπαρξη μόνο των μέτρων κεντρικής τάσης χωρίς αναφορά στα αντίστοιχα μέτρα μεταβλητότητας είναι παραπλανητική και χωρίς αξία. Ποιοτικών μεταβλητών (μόνο) Επικρατούσα τιμή (: η παρατήρηση που εμφανίζεται πιο συχνά) Ποσοτικές Μεταβλητές Διάμεσος, Μέση Τιμή, Ποσοστιαία Σημεία (Τεταρτημόρια) Box-Plot γράφημα Εύρος, Διασπορά (Τυπική Απόκλιση), Συντελεστής Μεταβλητότητας, Συντελεστές Λοξότητας και Κυρτότητας Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 40

Μέση τιμή Η μέση τιμή (mean value) είναι ο αριθμητικός μέσος όρος όλων των τιμών του δείγματος και όσο μεγαλύτερος είναι ο αριθμός των στοιχείων του δείγματος τόσο καλύτερα θεωρείται ότι αντιπροσωπεύει την πραγματική μέση τιμή όλων των δεδομένων. Υπολογίζεται αθροίζοντας όλες τις τιμές των στοιχείων του δείγματος και διαιρώντας με τον συνολικό αριθμό του δείγματος όπως στη σχέση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 41

Διακύμανση και Τυπική Απόκλιση Η διακύμανση και η τυπική απόκλιση περιγράφουν τον βαθμό διασποράς των δεδομένων και είναι χρήσιμες στατιστικές παράμετροι που μαζί με την μέση τιμή περιγράφουν συνοπτικά το δείγμα. Η τυπική απόκλιση είναι περισσότερο χρήσιμη και δείχνει πόσο καλά η μέση τιμή του δείγματος αντιπροσωπεύει το δείγμα. Συνήθως η έκφραση: μ ± 2σ είναι αντιπροσωπευτική του δείγματος και χρησιμοποιείται για να μας υποδείχνει τη μέση τιμή και τη διασπορά του δείγματος. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 42

Διάμεσος & Επικρατούσα τιμή Η διάμεσος ενός δείγματος (median) είναι η μεσαία κατά μέγεθος τιμή του δείγματος. Όταν το δείγμα έχει κανονική κατανομή τότε η μέση και διάμεσος τιμές συμπίπτουν. Βέβαια, αν και τα περισσότερα δείγματα που επεξεργάζεται αυτό το κεφάλαιο θεωρούνται κανονικής κατανομής εντούτοις είναι μόνο προσεγγιστικά κανονικά και επομένως η διάμεσος και μέση τιμή διαφέρουν. Είναι φανερό ότι για να ευρεθεί η διάμεσος πρέπει πρώτα οι τιμές του δείγματος να διαταχθούν κατά αύξοντα μέγεθος. Η επικρατούσα τιμή (mode) είναι η τιμή με την μεγαλύτερη συχνότητα ή άλλως η τιμή του περισσότερο συχνού στοιχείου του δείγματος. Σε τελείως κανονική κατανομή η επικρατούσα πρέπει να είναι ταυτόσημη με την μέση τιμή, που φαίνεται και από την κορυφή της καμπύλης κατανομής. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 43

Έλεγχοι Η στατιστική δοκιμασία χρησιμοποιείται για την εξαγωγή συμπερασμάτων για ένα συγκεκριμένο σύνολο (ή πληθυσμό) από ένα δείγμα, για το οποίο γνωρίζουμε ότι προέρχεται από το εν λόγω σύνολο. Επίσης, για να εξακριβώσουμε εάν μία σειρά μετρήσεων που έγινε σε ένα δείγμα διαφέρει από ίδιες μετρήσεις που έγιναν σε ένα άλλο δείγμα, και κατ' επέκταση πιθανόν να συμπεράνουμε ότι τα δύο δείγματα διαφέρουν ή δεν διαφέρουν, χρησιμοποιούνται διάφορες στατιστικές δοκιμασίες σημαντικότητας (significance tests), όπως το Student's t-test ή το χ 2 -test. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 44

Στατιστικές διαδικασίες Ι Έλεγχος υποθέσεων (hypothesis testing) ερευνητική /εναλλακτική υπόθεση (research / alternative hypothesis, Η Α ) υπάρχει ιδιαίτερη σχέση μεταξύ ποσοτικοποιήσιμων χαρακτηριστικών ενός πληθυσμού μηδενική υπόθεση (null hypothesis, Η 0 ) δεν υπάρχει καμία ιδιαίτερη σχέση μεταξύ των χαρακτηριστικών Στις στατιστικές διαδικασίες δεν αποδεικνύουμε την ερευνητική υπόθεση απευθείας αλλά έμμεσα, έχοντας απορρίψει τη μηδενική υπόθεση. Η ερευνητική υπόθεση συνάγεται ως λογική συνέπεια της άρνησης της μηδενικής υπόθεσης. ακρίβεια του ελέγχου η υπόθεση πρέπει να είναι συμβατή με τα διαθέσιμα δεδομένα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 45

Στατιστικές διαδικασίες ΙΙ Από τη στατιστική διαδικασία προκύπτει μια αριθμητική τιμή, που συγκρίνεται με τις τιμές σε μια γνωστή θεωρητική κατανομή. Π.χ., το t-test δίνει μια τιμή t που μπορεί να συγκριθεί με τη θεωρητική κατανομή των τιμών t (Student s distribution). Αν η τιμή που προέκυψε από τη στατιστική διαδικασία είναι πολύ κοντά στη μέση τιμή των t, τότε μάλλον έχει προκύψει κατά τύχη. Αν απέχει σημαντικά από τη μέση τιμή, τότε κατά πάσα πιθανότητα δεν προέκυψε τυχαία. Πόσο πρέπει να απέχει από τη μέση τιμή η αριθμητική τιμή που προκύπτει από μια στατιστική διαδικασία; Ποια είναι η στατιστική σημαντικότητα των συμπερασμάτων; Συνήθως θεωρείται ικανοποιητική p<0,05 (5% πιθανότητα λάθους) ή p<0,01 (1% πιθανότητα λάθους) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 46

Στατιστικές διαδικασίες ΙΙΙ Η συσχέτιση δύο μεταβλητών (ανεξάρτητης- εξαρτημένης) δεν σημαίνει απαραιτήτως ότι υπάρχει αιτιακή σχέση μεταξύ τους. «Κι όμως, το Ίντερνετ επικοινωνεί με την ανάγνωση! Σύμφωνα με μια έρευνα, βασικός παράγων της αναγνωστικής συμπεριφοράς των πολιτών μέσης και κατώτερης εκπαιδευτικής βαθμίδας είναι η σχέση του με τις νέες τεχνολογίες. Όσο πιο εξοικειωμένοι είναι με τη χρήση τους (υπολογιστές, Ίντερνετ, ΑΤΜ, κινητό) τόσο περισσότερο διαβάζουν, επισημαίνει η έρευνα.» Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 47

Στατιστικές διαδικασίες χ 2 Μη παραμετρική στατιστική διαδικασία που συνήθως χρησιμοποιείται για να ελεγχθεί η τυχόν αλληλεξάρτηση στις κατανομές δύο ονομαστικών χαρακτηριστικών ενός πληθυσμού ή δείγματος. Πότε χρησιμοποιείται Δεδομένα από έναν πληθυσμό ή από ένα δείγμα Δεδομένα για δύο τουλάχιστον ονομαστικά (μη μετρήσιμα) χαρακτηριστικά Δύο αλληλοαποκλειόμενες τιμές Υπόθεση Ελέγχεται εάν τα δύο χαρακτηριστικά λειτουργούν από κοινού: εάν τα μέλη ενός πληθυσμού που έχουν (ή δεν έχουν) μια συγκεκριμένη τιμή για ένα χαρακτηριστικό, επίσης έχουν (ή δεν έχουν) μια συγκεκριμένη τιμή και για το άλλο. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 48

χ 2 Παράδειγμα Fishman (1966) Γλωσσικός παράγοντας Ακαθάριστο εθνικό προϊόν Ομοιογένεια Ανομοιογένεια Πολύ Υψηλό / Μέσο 27 15 Χαμηλό / Πολύ χαμηλό 25 47 42 [=27+15] X 52 [=27+25] = 2.184, 2.184 / 114 [= 27+15+25+ 47] = 19,2 κ.ο.κ. Γλωσσικός παράγοντας Ακαθάριστο εθνικό προϊόν Ομοιογένεια Ανομοιογένεια Πολύ Υψηλό / Μέσο 19,2 22,8 Χαμηλό / Πολύ χαμηλό 32,8 39,2 χ2 = (27-0,5-19,2)2/19,2 + (25+0,5-32,8)2/32.8 + = 8,19 χ 2 = 8,19, p<0,005 49 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 49

Στατιστικές διαδικασίες t-test Παραμετρική στατιστική διαδικασία που ελέγχει εάν οι μέσοι όροι των τιμών που προέρχονται από δύο δείγματα διαφέρουν σημαντικά μεταξύ τους. Πότε χρησιμοποιείται :Δεδομένα από δύο δείγματα ή δύο υποσύνολα ενός δείγματος. Το δείγμα ορίζεται από ένα ονομαστικό χαρακτηριστικό. Εξετάζονται δεδομένα για το ίδιο μετρήσιμο χαρακτηριστικό Υπόθεση: Ελέγχεται εάν τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό σε σχέση με το χαρακτηριστικό του οποίου γίνεται μέτρηση (εάν δηλαδή τα δύο δείγματα διαφέρουν σημαντικά σε σχέση με το χαρακτηριστικό αυτό). Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 50

t-test Παράδειγμα Milroy (1980) Μέση συχνότητα % [ ] (hat) Άντρες 52,0 Γυναίκες 34,7 H τιμή t είναι ο λόγος των παρατηρούμενων διαφορών στους μέσους όρους και μιας μέτρησης που ονομάζεται τυπικό σφάλμα στη διαφορά μεταξύ των μέσων όρων (standard error of the difference between means), η οποία μετράει τη διαφορά που θα προέκυπτε μεταξύ των μέσων όρων αν υπεισέρχονταν μόνο τυχαίοι παράγοντες. Η τιμή t υπολογίζεται διαιρώντας τη διαφορά μεταξύ των μέσων όρων (52,0-34,7 = 17,3) με το τυπικό σφάλμα. Στην ερμηνεία της τιμής t συνυπολογίζονται επίσης οι «βαθμοί ελευθερίας» (degrees of freedom). t=3,06, p<0,01 (η διαφορά που παρατηρήθηκε είναι, κατά τρεις φορές περίπου, μεγαλύτερη από την αναμενόμενη τυχαία διαφορά μεταξύ των μέσων όρων) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 51

Ανάλυση διακύμανσης (ANOVA) Παραμετρική στατιστική διαδικασία που ελέγχει τη διαφορά στις μέσες τιμές προκειμένου να αποφασιστεί αν η διακύμανση μεταξύ δύο ή περισσότερων ομάδων είναι μεγαλύτερη από τη διακύμανση εντός των ομάδων. Δύο είδη αναλύσεων: α) μονοδιάστατoς σχεδιασμός (one-way design). β) παραγοντικός σχεδιασμός (factorial design), συνήθως δισδιάστατος (two-way design). Πότε χρησιμοποιείται Μονοδιάστατος σχεδιασμός: παρόμοιες συνθήκες με το t-test, αλλά εφαρμόζεται σε οποιοδήποτε αριθμό δειγμάτων εφόσον αντιπροσωπεύουν διαφορετικά επίπεδα του ίδιου γενικού χαρακτηριστικού Παραγοντικός σχεδιασμός: περισσότερα του ενός ονομαστικά χαρακτηριστικά χρησιμοποιούνται για τον ορισμό των ομάδων Υπόθεση Ελέγχουμε τη διαφορά στις μέσες τιμές για να εξακριβώσουμε εάν η διακύμανση είναι μεγαλύτερη μεταξύ των ομάδων απ ό,τι εντός των ομάδων (εάν δηλ. η διακύμανση γύρω από το συνολικό μέσο όρο είναι μεγαλύτερη από τη διακύμανση γύρω από το μέσο όρο κάθε ομάδας). Τα ονομαστικά χαρακτηριστικά προσδιορίζουν τις κύριες επιδράσεις (main effects). ο παραγοντικός σχεδιασμός επιτρέπει επίσης να εξακριβώσουμε τυχόν συνδυασμένες επιδράσεις (interaction effects) των χαρακτηριστικών. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 52

Συσχέτιση (Correlation) - r Παραμετρική στατιστική διαδικασία που ελέγχει κατά πόσο δύο ή περισσότερα χαρακτηριστικά μεταβάλλονται ταυτοχρόνως. Συντελεστής r (Pearsonian r / Pearson product-moment correlation). Πότε χρησιμοποιείται Όταν έχουμε μόνο ένα δείγμα που δεν διαιρείται σε υποσύνολα και κάνουμε μετρήσεις για δύο χαρακτηριστικά του δείγματος. Τα χαρακτηριστικά είναι μετρήσιμα σε διαστημική ή αναλογική κλίμακα Υπόθεση Υποθέτουμε ότι οι δύο μετρήσεις μεταβάλλονται ταυτοχρόνως (προς την ίδια κατεύθυνση: θετική συσχέτιση, σε αντίθετες κατευθύνσεις: αρνητική συσχέτιση). Η σημαντικότητα του r ελέγχεται με t-test. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 53

ΤΕΛΟΣ ΕΡΩΤΗΣΕΙΣ Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων Διαφάνεια 54