Στοιχεία Επαγωγικής Στατιστικής

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΑΔΟΣΗ 1Οη (Θ) Στοιχεία Επαγωγικής Στατιστικής 1

Ανεξάρτητες Μεταβλητές Είναισταθερές που ο ερευνητής χειρίζεται ανεξάρτητα από τι τις επηρεάζει, ή προσδιορίζει τι τις επηρεάζει. Αυτές καθορίζονταιεκ των προτέρω.για παράδειγμα εξετάζουμε μια στατιστική μονάδα (π.χ. τον φοιτητή) ανεξάρτητα των μεταβλητών ύψους, βάρους, οικογενειακής κατάστασης, κλπ. Στα μαθηματικά αποδίδεται ως συνάρτηση της ανεξάρτητης (χ) από την εξαρτημένη (y) μεταβλητή, όπου y = f(x). Η ανεξάρτητη μεταβλητή μπορεί να είναι ποσοτική ή ποιοτική. 2

Εξαρτημένη Μεταβλητή Είναι η μεταβλητή που ερευνάται στη μελέτη. Σε ορισμένες περιπτώσεις είναι το αποτέλεσμα μιας πειραματικής διαδικασίας. Η μεταβλητότητα στην εξαρτημένη μεταβλητή λογικά εξαρτάται από τις συνθήκες που χειρίζεται ο ερευνητής στη μελέτη. Στις πιο πολλές μελέτες, οι εξαρτημένες μεταβλητές είναι εκείνες που ο ερευνητής στοχεύει να κατανοήσει, να εξηγήσει ή να προβλέψει.αποτελούν εκείνο το μεγεθος που ο ερευνητής μετρά στα άτομα μετά την έκθεση τους στην ανεξάρτητη μεταβλητή. 3

Στόχοι της επαγωγικής στατιστικής Εκτίμηση(estimation): Χρησιμοποιώντας τις μετρήσεις ενός δείγματος εκτιμούμε τις παραμέτρους του πληθυσμού. Έλεγχος Σημαντικότητας (significance testing): Αξιολογούμε το κατά πόσο διαφορές που εμφανίζονται σε διαφορετικές ομάδες του δείγματος ή σε διαφορετικές εξαρτημένες μεταβλητές είναι πραγματικές ή προκύπτουν τυχαία. 4

Έλεγχος στατιστικής σημαντικότητας Όταν ελέγχουμε την στατιστική σημαντικότητα στην ουσία ελέγχουμε την πιθανότητα μια υπόθεση που έχουμε διαμορφώσει για τα δεδομένα μας να βγει αληθινή ή να διαψευσθεί. Η υπόθεση που κάνουμε για τα δεδομένα μας λέγεται «ερευνητική υπόθεση» και συμβολίζεται με το Η1. Στην υπόθεση αυτή θεωρούμε ότι υπάρχει μια διαφορετική συμπεριφορά ομάδων ή μεταβλητών. Η εναλλακτική υπόθεση που θα ισχύσει για τα δεδομένα μας αν η ερευνητική δεν αποδειχθεί λέγεται «μηδενική υπόθεση» και συμβολίζεται με το Η0. Σε αυτήν την περίπτωση θεωρούμε ότι οι ομάδες που εξετάζουμε ή οι μεταβλητές δεν εμφανίζουν διαφορές. 5

Παραδείγματα ερευνητικών υποθέσεων Διαφορές Ομάδων Η1: Οι γυναίκες χρησιμοποιούν πιο συχνά πληθυντικό ευγενείας από τους άνδρες στον χώρο εργασίας. Η0: Οι γυναίκες και οι άνδρες δενεμφανίζουν διαφορές στη συχνότητα χρήσης του πληθυντικού ευγενείας στον χώρο εργασίας. Σχέση μεταβλητών Η1: Το μέσο μήκος των λέξεων ενός κειμένου σχετίζεται με την δυσκολία κατανόησής του Η0: Το μέσο μήκος των λέξεων ενός κειμένου δεν σχετίζεται με την δυσκολία κατανόησής του. 6

Επίπεδο σημαντικότητας Η πιθανότητα (p)που ο ερευνητής θέτει ως όριο για να απορρίψει την μηδενική υπόθεση ονομάζεται «επίπεδο σημαντικότητας»(significance level). Συχνά στις κοινωνικές επιστήμες το επίπεδο σημαντικότητας τίθεται στο 0,05 τουλάχιστον ή αλλιώς διατυπωμένο, θεωρούμε (κατά μία έννοια) ότι αν επαναλάβουμε το πείραμα ή την έρευνα 100 φορές θα πρέπει να επιβεβαιώσουμε το αποτέλεσμά μας τουλάχιστον 95 φορές. 7

Επίπεδο σημαντικότητας Η τιμή p-value είναι το μικρότερο επίπεδο σημαντικότητας (α) στο οποίο η αρχική υπόθεση μπορεί να επαληθευθεί ή απορριφθεί. Hτιμή p-value δεν είναι η πιθανότητα ότι η μηδενική υπόθεση (H0) είναι σωστή, αυτό που παρέχει είναι η πιθανότητα, αν η ίσχυε η μηδενική υπόθεση, να βρίσκαμε ισχυρές αντίθετες ενδείξεις. 8

Επίπεδο σημαντικότητας Για του υπολογισμός της p-value χρησιμοποιούνται: Χ = μέση τιμή(μέσος όρος) του δείγματος, μ0= πιο πιθανή (ή υποτιθέμενη) τιμή του πληθυσμού, sή σ = τυπική απόκλιση του δείγματος (n 30) ή του πληθυσμού, n = μέγεθος τυχαίου δείγματος η τιμή Ζ (Ζ score) (πίνακες κανονικής κατανομής) η τιμή z0 9

Πίνακες κανονικής κατανομής (Ζ) 10

Επίπεδο σημαντικότητας ως p-value Από τους Πίνακες της κατανομής Ζ βρίσκουμε την επιφάνεια που αντιστοιχεί στο z0. Αν z0 < 0 τότε αφαιρούμε από την μονάδα (το 1). Το αποτέλεσμα είναι η p-value, δηλαδή το μικρότερο επίπεδο σημαντικότητας που οδηγεί σε απόρριψη της Η0. 11

Επίπεδο σημαντικότητας ως p-value Στις προηγούμενες γραφικές παραστάσεις η σκιασμένη περιοχή ονομάζεται «περιοχή απόρριψης»και αντιστοιχεί στην τιμή Z0(Περιοχή = 0,05 ή 5% για την δοκιμή " απλής ουράς" και Περιοχή = 0,025 ή 2,5% για την δοκιμή " διπλής ουράς" ). 12

Επίπεδο σημαντικότητας Το επίπεδο σημαντικότητας σε άλλες επιστήμες μπορεί να διαφέρει σημαντικά αφού υπάρχουν επιστήμες (Φαρμακολογία, Ιατρική) όπου αβεβαιότητες της τάξης του 5% μεταφράζονται σε χαμένες ανθρώπινες ζωές. Έτσι τίθενται επίπεδα σημαντικότητας αρκετά μικρότερα. Συνηθισμένα επίπεδα είναι: 0,01 και 0,001. 14

Η βασική δομή της ερευνητικής διαδικασίας 1. Θέτουμε την ερευνητική υπόθεση (Η) και την μηδενική υπόθεση (Η0). 2. Διεξάγουμε την έρευνα. 3. Ελέγχουμε την μηδενική υπόθεση. 1. Θέτουμε το επίπεδο σημαντικότητας. 2. Επιλέγουμε το/τα στατιστικό/ά τεστ και υπολογίζουμε την στατιστική τιμή σημαντικότητας επαλήθευσης των υποθέσεων. 3. Συγκρίνουμε την στατιστική τιμή με την κρίσιμη τιμή του/των τεστ όπως αναγνωρίζεται γενικά. 15

Τύπου Ι (α-λάθος): Είδη στατιστικού λάθους Συμβαίνει όταν ο ερευνητής απορρίπτει τη μηδενική υπόθεση και αποδέχεται την ερευνητική όταν στην ουσία η μηδενική είναι ορθή και θα έπρεπε να γίνει αποδεκτή Τύπου ΙΙ (β-λάθος) ή λάθος αποδοχής: Αποτελεί το αντίθετο του α λάθους και συνίσταται στην αποδοχή της μηδενικής υπόθεσης όταν αυτή στην πραγματικότητα δεν ισχύει. Η0 ορθή Η0 λανθασμένη Αποδοχή Η0 Σωστό β-λάθος Απόρριψη Η0 α-λάθος Σωστό 16

Αναλύοντας διαφορές μεταξύ ομάδων Ορισμένα στατιστικά τεστ Κατηγορικά δεδομένα: χ 2 Αριθμητικά δεδομένα συνεχούς κατανομής: t testκαι z test (προαναφέρθηκε) ANOVA Αριθμητικά δεδομένα μη-συνεχούς κατανομής: Median test Mann-Whitney U test Kruskal-Wallis test και άλλα.. 17

Στατιστική σε κατηγορικές μεταβλητές 18

Το χ2 τεστ σε κατηγορικά δεδομένα Το χ2 είναι το κατάλληλο κριτήριο για την περίπτωση που τα δεδομένα της έρευνας είναι κατηγορικά. Το χ2 μπορεί να χρησιμοποιηθεί για να ερμηνεύσει τη συχνότητα κατηγοριών που προέρχονται μόνο από ένα δείγμα(δείκτης δείκτης προσαρμογής ή καταλληλότητας chi square as a goodness of fit test), ή από δυο ή περισσότερα δείγματαδείγματα (χ2 για ανεξαρτησία - chi square as a test of independence). Τα δεδομένα πρέπει να έχουν τη μορφή συχνοτήτων. Το τεστ ουσιαστικά εξετάζει τη σχέση μεταξύ των κατηγοριών στις στήλες και τις γραμμές ενός πίνακα. 19

χ 2 με μια μεταβλητή Το τεστ μετράει τη συχνότητα σε κάθε κατηγορία της μεταβλητής(ονομάζονται παρατηρημένες συχνότητες observed frequencies ή Ο). Στη συνέχεια υπολογίζεται η αναμενόμενη συχνότητα (expected frequencyή Ε) στις σχετικές κατηγορίες. Αυτή είναι η συχνότητα που θα εμφανιζόταν αν ίσχυε η μηδενική υπόθεση. 20

χ 2 με μια μεταβλητή Η τιμή χ 2 προκύπτει από τον ακόλουθο τύπο(επόμενη διαφάνεια), όπου Σ το άθροισμα και αποτιμάται με ειδικούς πίνακες (βλέπε επόμενη διαφάνεια). Γενικά, απορρίπτουμε τη μηδενική υπόθεση αν η τιμή του χ2 που υπολογίστηκε είναι μεγαλύτερη από την τιμή της θεωρητικής κατανομής του χ2 (κρίσιμη τιμή) για επίπεδο στατιστικής σημαντικότητας α και για βαθμούς ελευθερίας k-1: 21

Δοκιμή χ 2 22

χ 2 με δύο μεταβλητές Το στατιστικό κριτήριο χ2 μπορεί να χρησιμοποιηθεί, κατά δεύτερον, ως στατιστικό κριτήριο για τον έλεγχο της ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών(π.χ. ανθεκτικότητα μίας ομάδας φυτών σε μία ασθένεια και ευπάθεια μιας άλλης ομάδας στην ίδια ασθένεια (βλέπε παράδειγμα επόμενου πίνακα). Μπορεί να χρησιμοποιηθεί, δηλαδή, για να εξετάσουμε αν δύο μεταβλητές που διασταυρώνονται (οριζόντιες γραμμές) σε έναν πίνακα είναι ανεξάρτητες ή εξαρτημένεςκαι αν οι συχνότητες των διαφόρων κατηγοριών μπορούν να προκύψουν τυχαία ή είναι συστηματικές, αντίστοιχα(για τον έλεγχο, προσθέτουμε τις τιμές χ2 των δύο κατηγοριών/classes). 23

Το χ2 στο στατιστικό πακέτο SPSS SPSS: X 2 Έλεγχος ανεξαρτησίας για κατηγορικές μεταβλητές. 24

Στατιστική σε ποσοτικές μεταβλητές 25

Στατιστική επεξεργασία αριθμητικών δεδομένων Σύγκριση μέσου/ων όρου/ων δείγματος/ωνt-test Σύγκριση διακυμάνσεων F-test Ανάλυση παραλλακτικότητας (ANOVA) Ανάλυση συν-παραλλακτικότητας (ANCOVA) Mann-Whitney U-test σε ανεξάρτητες μεταβλητές μη κανονικής κατανομής Kruskal-Wallis H-test, μη παραμετρικές μέθοδοι 26

Τ (t) test 27

Αριθμητικά δεδομένα t-test Οι ερευνητές χρησιμοποιούν επίσης το t-testόταν θέλουν να εξετάσουν κατά πόσο η διαφορά μεταξύ δύο ομάδωνσε κάποια διακύμανση που μπορεί να μετρηθεί σε αριθμητική κλίμακαείναι πραγματική και όχι τυχαία. Υπάρχουν δύο είδη: t-test ανεξάρτητων δειγμάτων(independent sample t-test), t-test εξαρτημένων δειγμάτων (related measures t- test ή dependent sample t-test). 28

Μονό ή οne sample T-TEST Έστω ότι έχουμε n μετρήσεις y1έως ynτυχαία επιλεγμένες από ομοιόμορφα κατανεμημένο πληθυσμό με άγνωστες παραμέτρους μ(m), σ(s) 2. Το one sample T-TESTεξετάζει αν ο μέσος μ διαφέρει από την υποτιθέμενη τιμή c.η μηδενική υπόθεση ενός one sample T-TEST είναι: y H0 : m c c t t( n 1) S y y y i 2 2 n : ο μέσος, ( y y) s i : η διακύμανση n 1 (παραλλακτικότητα), s S n y : το τυπικό σφάλμα και n: ο αριθμός των παρατηρήσεων. Η στατιστική τιμή tακολουθεί την κατανομή πιθανότητας Student με (n-1) βαθμούς ελευθερίας. 29

Διπλό ή Paired T-TEST: Dependent samples Τα T-TESTσυγκρίνουν τους μέσους δύο δειγμάτων. Δύο μεταβλητές μπορεί να είναι (ή όχι) ανεξάρτητες. Όταν κάθε στοιχείο ενός δείγματος αντιστοιχίζεται με στοιχείο από άλλο δείγμα τότε έχουμε ζεύγος Paired T-TEST, που είναι χρήσιμο στη σύγκριση καταστάσεων «πριν» και «μετά».βασίζεται στη διαφορά των τιμών των ζευγών των δύο δειγμάτων: d i y 1i y2i Η διαφορά αυτή λογίζεται ως μία μεταβλητή, οπότε από Paired T- TEST μετασχηματίζουμε σε one sample T-TEST (χρησιμοποιούνται οι εξισώσεις της προηγούμενης διαφάνειας). Η μηδενική υπόθεση είναι ότι ο μέσος των διαφορών των παρατηρήσεων του πληθυσμού είναι D0(μηδέν, εκτός και αν ορίζεται διαφορετικά). Εφόσον η μηδενική υπόθεση απορριφθεί, πρέπει να υπάρχει σημαντική διαφορά (επίδραση) μεταξύ των δύο δειγμάτων (αποτελέσματα«πριν» και «μετά»). 30

Ερμηνεία για το t test 31

Πίνακας κρίσιμων τιμών για το t test LEVEL OF SIGNIFICANCE FOR ONE-TAILED TEST.05.025.01.005.001.0005 LEVEL OF SIGNIFICANCE FOR TWO-TAILED TEST df.10.05.02.01.002.001 1 6.314 12.706 31.820 63.657 318.309 636.619 2 2.920 4.303 6.965 9.925 22.327 31.599 3 2.353 3.182 4.541 5.841 10.215 12.924 4 2.132 2.776 3.747 4.604 7.173 8.610 5 2.015 2.571 3.365 4.032 5.893 6.869 6 1.943 2.447 3.143 3.707 5.208 5.959 7 1.895 2.365 2.998 3.499 4.785 5.408 8 1.860 2.306 2.896 3.355 4.501 5.041 9 1.833 2.262 2.821 3.250 4.297 4.781 10 1.812 2.228 2.764 3.169 4.144 4.587 11 1.796 2.201 2.718 3.106 4.025 4.437 12 1.782 2.179 2.681 3.055 3.930 4.318 13 1.771 2.160 2.650 3.012 3.852 4.221 14 1.761 2.145 2.624 2.977 3.787 4.140 15 1.753 2.131 2.602 2.947 3.733 4.073 16 1.746 2.120 2.583 2.921 3.686 4.015 17 1.740 2.110 2.567 2.898 3.646 3.965 18 1.734 2.101 2.552 2.878 3.610 3.922 19 1.729 2.093 2.539 2.861 3.579 3.883 20 1.725 2.086 2.528 2.845 3.552 3.850 21 1.721 2.080 2.518 2.831 3.527 3.819 22 1.717 2.074 2.508 2.819 3.505 3.792 23 1.714 2.069 2.500 2.807 3.485 3.768 24 1.711 2.064 2.492 2.797 3.467 3.745 25 1.708 2.060 2.485 2.787 3.450 3.725 26 1.706 2.056 2.479 2.779 3.435 3.707 27 1.703 2.052 2.473 2.771 3.421 3.690 28 1.701 2.048 2.467 2.763 3.408 3.674 29 1.699 2.045 2.462 2.756 3.396 3.659 30 1.697 2.042 2.457 2.750 3.385 3.646 50 1.676 2.009 2.403 2.678 3.261 3.496 100 1.660 1.984 2.364 2.626 3.174 3.390 00 1.645 1.960 2.326 2.576 3.090 3.291 Degrees of freedom are related to sample size (n-1). 32

Παράδειγμα Έστω ότι ένας ερευνητής χρησιμοποιεί το t-testγια να διακρίνει την διαφορά στη χρήση παθητικής φωνής μεταξύ ανδρών και γυναικών. Η ερευνητική υπόθεση που θα διαμορφώσει μπορεί να είναι μονόδρομη (one-tailed) ή δίδρομη(two-tailed). Δηλ. μπορεί να υποθέσει ότι οι άνδρες χρησιμοποιούν μεγαλύτερο ποσοστό από τις γυναίκες (μονόδρομη υπόθεση) ή να υποθέσει γενικά ότι άνδρες και γυναίκες χρησιμοποιούν διαφορετικά ποσοστά δίχως όμως να έχει συγκεκριμένη ιδέα για το ποιο φύλο χρησιμοποιεί περισσότερο την παθητική φωνή (δίδρομη υπόθεση). Έπειτα από τη συλλογή τωνδεδομένωνο ερευνητής επιλέγει το κατάλληλο στατιστικό τεστ για να συγκρίνει τη διαφορά στους μέσους όρους των δύο φύλων (το κατάλληλο τεστ είναι το t-test). 33

Παράδειγμα Επιλέγει ο ερευνητής το επίπεδο σημαντικότηταςτο οποίο τις περισσότερες φορές είναι το 0,05. Υπολογίζει την στατιστική τιμή του t-test. Υπολογίζει τους βαθμούς ελευθερίας του t-testοι οποίοι είναι n-1 (n ο αριθμός τιμών) μιας μεταβλητής. Συγκρίνει την στατιστική τιμή του t-testμε την κρίσιμη τιμή που εμφανίζεται στον πίνακα κρίσιμων τιμών t-test. Αν η τιμή είναι μεγαλύτερη τότε ο ερευνητής αποφασίζει να απορρίψει την μηδενική υπόθεση (Η0) και να δεχθεί την ερευνητική με πιθανότητα λάθους 0,05 ή 5%. 34

Το στατιστικό πακέτο SPSS SPSS: Έλεγχοι υποθέσεων για τη διαφορά των μέσων 2 ανεξάρτητων δειγμάτων (t test και Mann-Whitney-Wilcoxon test). Ο έλεγχος κανονικότητας θα καθορίσει εάν θα χρησιμοποιήσουμε το t-test [κανονική κατανομή] ή το Mann-Whitney-Wilcoxon test [μη - κανονική κατανομή]. t-test στο SPSS: Analyze Compare Means Independent-Samples t-test Mann-Whitney-Wilcoxon test στο SPSS: Analyze Nonparametric tests Legacy Dialogs 2 Independent Samples 35

Περιορισμός t-test Τα T-TESTυποθέτουν ότι τα δείγματα προκύπτουν από κανονικά κατανεμημένο πληθυσμό με άγνωστες παραμέτρους. Για τις παραλλακτικότητες πρέπει να ισχύει σ1 2 = σ2 2 ειδάλλως τα T-TEST δεν είναι αξιόπιστα λόγω των διαφορετικών τυπικών αποκλίσεων και βαθμών ελευθερίας. 36

Ανάλυση διακύμανσης παραλλακτικότητας -διασποράς 38

Αριθμητικά δεδομένα Ανάλυση Διακύμανσης (Analysis of Variance ANOVA) Όταν θέλουμε να συγκρίνουμε περισσότερες από δύο ομάδες (π.χ. τρείς ομάδες) τότε το t-testείναι ακατάλληλο. Στην περίπτωση αυτή χρησιμοποιούμε την ΑΔ. Προϋπόθεση για να εφαρμόσουμε την ANOVA είναι η ύπαρξη μιας εξαρτημένης αριθμητικής μεταβλητής και η ύπαρξη μιας ή περισσότερων ανεξάρτητων κατηγορικών μεταβλητών. 39

Αριθμητικά δεδομένα Ανάλυση Διακύμανσης (Analysis of Variance ANOVA) Η ΑΔ επιτρέπει την σύγκριση πολλών μέσων όρων και λειτουργεί συγκρίνοντας την διακύμανση εντός της ομάδας και μεταξύ των ομάδων. Ο λόγος των δύο διακυμάνσεων είναι η τιμή Fη οποία έχει συγκεκριμένους βαθμούς ελευθερίας και η στατιστική σημαντικότητάς της ελέγχεται με βάσει σχετικούς πίνακες. Η ΑΔ εμφανίζει δύο γενικές μορφές: ΑΔ μιας ανεξάρτητης κατηγορικής μεταβλητής. ΑΔ πολλών ανεξάρτητων κατηγορικών μεταβλητών. 40

ANOVA μιας κατηγορικής μεταβλητής Έστω ότι θέλουμε να εξετάσουμε την επίδραση μιας εξαρτημένης κατηγορικής μεταβλητής σε πολλές ομάδες εξαρτημένων αριθμητικών μεταβλητών. Στην περίπτωση αυτή μπορούμε να χρησιμοποιήσουμε ANOVAγια να δούμε ποιες ομάδες εμφανίζουν διαφορετικούς μέσους όρους. H ANOVA θα δείξει αν τουλάχιστον δύο μ.ο. διαφέρουν σημαντικά μεταξύ τους (σημαντικό F μέσου τετραγώνου επεμβάσεων). 41

ANOVA μιας κατηγορικής μεταβλητής Η τιμή Fωστόσο δεν μας λέει ποιες ομάδες διαφέρουν από ποιες. Ειδικότερα χρειαζόμαστε να ξέρουμε ποιοι μέσοι όροι διαφέρουν στατιστικά σημαντικά από ποιους. Για να λυθεί αυτό το θέμα χρησιμοποιούμε τα τεστ πολλαπλής σύγκρισης (multiple comparison test), μερικά από τα οποία είναι: Scheffe test (το πιο συντηρητικό στην εκτίμηση), Tukey (δείχνει τη μικρότερη διαφορά μεταξύ των μέσων τιμών), Least Significant Difference (LSD) test(πολύ ανεκτικό, δείχνει συχνά διαφορές). 42

Παράδειγμα ANOVA Μεταβλητή χρόνος σε λεπτά για μεταφορά x εμπορεύματος. Επεμβάσεις 4 πιθανές διαδρομές: α: μέσα από την πόλη (μ.ο. 58 λεπτά), β: εσωτερική περιφερειακή (μ.ο. 46 λεπτά), γ: εξωτερική περιφερειακή (μ.ο. 41 λεπτά), δ: εθνική οδός (μ.ο. 32 λεπτά). Επαναλήψεις 20 δρομολόγια. Η ανάλυση της παραλλακτικότητας θα μας δείξει αν τουλάχιστον δύο μέσοι όροι διαφέρουν μεταξύ τους (F σημαντικό). Ο διαχωρισμός των μ.ο. θα δείξει σε επίπεδο σημαντικότητας π.χ. 5% ποιοι μ.ο. διαφέρουν μεταξύ τους. 43

Η ερμηνεία της τιμής F στην ANOVA σ2 = Variance x = Values given in a set of data x x = Mean of the data n = Total number of values. Ένα παράδειγμα, με μαύρες γραμμές οι τιμές και κόκκινες οι μέσοι. Όσο αυξάνει η τιμή F οι ομάδες διαφέρουν μεταξύ τους. 44

ANOVA δύο κατηγορικών μεταβλητών Η ANOVAμπορεί να περιλαμβάνει περισσότερες της μιας ανεξάρτητων μεταβλητών. Στην περίπτωση αυτή έχουμε την διερεύνηση της επίδρασης δύο ανεξάρτητων κατηγορικών μεταβλητών στην εξαρτημένη αριθμητική μεταβλητή. Υπολογίζοντας ANOVA 2 μεταβλητών παίρνουμε δύο τύπους Fτιμών. Ο πρώτος αναφέρεται στη γενική επίδραση της ανεξάρτητης μεταβλητής (main effects)και ο δεύτερος στην αλληλεπίδραση των δύο μεταβλητών (interaction effects). 45

Socioeconomic status (SES); body mass index (BMI). 46

Αποτελεί επέκταση της ANOVAκαι διερευνά περεταίρω την παραλλακτικότητα προσθέτοντας στην ανάλυση έναν η και περισσότερους συμπαράγοντες. ANCOVA Στο προηγούμενο παράδειγμα υποθέτουμε ότι μετά την ανάλυση οι διαδρομές γ και δ βρέθηκαν να διαφέρουν σημαντικά ως προς το χρόνο. Υποπτευόμαστε ότι τα αποτελέσματα επηρεάστηκαν από την ηλικία του οδηγού. Ορίζοντας ως συμπαράγοντα την ηλικία του οδηγού ``φιλτράρεται`` ένα κομμάτι της παραλλακτικότητας εντός της κάθε επέμβασης. 47

Παράδειγμα οθόνης επιλογής 49

Στατιστική σε αριθμητικές μεταβλητές που δεν ακολουθούν κανονική κατανομή 50

Έλεγχος κανονικότητας κατανομής - tests -Kolmogorov-Smirnov: Not sensitive to problems in the tails. For data sets > 50. - Shapiro-Wilks: Doesn't work well if several values in the data set are the same. Works best for data sets with < 50, but can be used with larger data sets< 2000. -W/S: Simple, but effective( w the range of data and s the standard deviation). - Jarque-Bera: Tests for skewness and kurtosis, very effective. - D Agostino: Powerful omnibus (skewness, kurtosis, centrality) test. 51

Mann-Whitney U-test Χρησιμοποιείται για τη σύγκριση διαφορών μεταξύ δύο ανεξάρτητων ομάδων. Η εξαρτημένη μεταβλητή μπορεί να είναι διάταξης (ordinal) ή συνεχής (continuous). Τα δεδομένα της εξαρτημένης μεταβλητής δεν ακολουθούν κανονική κατανομή, εμφανίζεται ισχυρή πλευρική κύρτωση. Οι κατανομές προς σύγκριση θα πρέπει ωστόσο να έχουν παρόμοια διάταξη (σχήμα). Είναι εν μέρει η μη-παραμετρική προσέγγιση του t-test. Συγκρίνει τις διάμεσες τιμές των ομάδων. Στην Η0, οι τιμές αυτές ταυτίζονται. 52

Kruskal-Wallis H Test Μη-παραμετρικό τεστ βασισμένο σε δεδομένα που είναι σε κατάταξη(π.χ. αύξουσα κλίμακα). Χρησιμοποιείται για να καθορίσει εάν υπάρχουν στατιστικά σημαντικές διαφορές μεταξύ δύο ή περισσοτέρων ομάδων μίας ανεξάρτητης μεταβλητής ή μίας εξαρτημένης συνεχούς μεταβλητής (continuous), ή μίας μεταβλητής διάταξης (ordinal). Θεωρείται η μη-παραμετρική προσέγγιση τηςanovaήμια επέκταση του U-test καθώς επιτρέπει τη σύγκριση περισσότερων των δύο ομάδων. Συγκρίνει επίσης, τις διάμεσες τιμές των ομάδων. 53

Στο διάγραμμα που βρίσκεται στα αριστερά παραπάνω, η κατανομή των βαθμολογιών για τις ομάδες "Καυκάσιοι","Αφροαμερικανοί" και "Ισπανόφωνοι" έχει το ίδιο σχήμα. Από την άλλη πλευρά, στο διάγραμμα στο πάνω δεξιά, η κατανομή βαθμολογιών για κάθε ομάδα δεν είναι ίδια (δηλ. έχουν διαφορετικά σχήματα και μεταβλητότητες). Εάν οι κατανομές έχουν το ίδιο σχήμα, μπορείτε να χρησιμοποιήσετε τη Στατιστική SPSS για να εκτελέσετε μια δοκιμή Kruskal-Wallis H, για να συγκρίνετε τους διάμεσους της εξαρτώμενης μεταβλητής σας (π.χ."score engagement") για τις διαφορετικές ομάδες της ανεξάρτητης μεταβλητής που σας ενδιαφέρει (π.χ. οι ομάδες, καυκάσιοι, αφροαμερικανοί και ισπανόφωνοι, για την ανεξάρτητη μεταβλητή, "εθνικότητα"). Ωστόσο, εάν οι κατανομές σας έχουν διαφορετικό σχήμα, μπορείτε να χρησιμοποιήσετε τη δοκιμή Kruskal-Wallis H για να συγκρίνετε μόνο τις μέσες τάξεις (συχνότητες). Οι παρόμοιες κατανομές σας επιτρέπουν να χρησιμοποιήσετε τις διαμέσους για να αξιολογήσετε μια μετατόπιση της θέσης μεταξύ των ομάδων (όπως απεικονίζεται στο διάγραμμα στα αριστερά παραπάνω). 54

SPSS: Ανάλυση διακύμανσης Μη παραμετρική ανάλυση διακύμανσης (τεστ Krustal-Wallis). Analyze Non parametric tests Legacy Dialogs K- independent Samples 55

Σχέσεις συσχετίσεις μεταξύ μεταβλητών 56

Σχέσεις μεταβλητών Εκτός από τις διαφορές ομάδων δεδομένων μπορούμε να μελετήσουμε τις σχέσεις διαφόρων μεταβλητών. Μπορούμε δηλαδή να μελετήσουμε τη συμπεριφορά μιας μεταβλητής όταν μια άλλη μεταβλητή αλλάζει. Οι πιθανές σχέσεις δύο μεταβλητών μπορεί να είναι οι ακόλουθες: Σχέση Γραμμική Μη γραμμική Μη σχέση 57

Γραμμική σχέση δύο μεταβλητών Η γραμμική σχέση εμφανίζεται γραφηματικά ως μια ευθεία γραμμή. Υπάρχουν δύο είδη γραμμικής συσχέτισης: Θετική γραμμική σχέση: Όταν μεγαλώνει η μία μεταβλητή μεγαλώνει και η άλλη. Αρνητική γραμμική σχέση: Όταν μεγαλώνει η μία μεταβλητή μικραίνει η άλλη. Η λ ι κ ί α Η λ ι κ ί α Εμπειρία Αυταπάτες 58

Μη γραμμική σχέση δύο μεταβλητών Όταν η σχέση δύο μεταβλητών δεν μπορεί να αναπαρασταθεί με μια ευθεία γραμμή τότε ονομάζεται μη γραμμική σχέση. Τα σημαντικότερα είδη μη γραμμικής σχέσης είναι: Καμπυλόγραμμη σχέση μορφής U. Ανάστροφη καμπυλόγραμμη σχέση μορφής U. Ύ π ν ο ς Α π ό δ ο σ η Εγρήγορση Άγχος 59

Συσχέτιση 60

Συσχέτιση (correlation) Η στατιστική έκφραση της σχέσης δύο μεταβλητών ονομάζεται συσχέτιση. Η συσχέτιση δύο μεταβλητών προσεγγίζεται από δύο μετρήσεις: Συντελεστής συσχέτισης (correlation coefficient): Μας δίνει τον τύπο και την ισχύ της συσχέτισης. Συντελεστής προσδιορισμού (coefficient of determination): Μας προσδιορίζει το ποσοστό της ποικιλίας της μιας μεταβλητής που εξαρτάται από την ποικιλία της άλλης. 61

Συντελεστής συσχέτισης - ΣΣ Ο ΣΣ αποτελεί την αριθμητική έκφραση του τύπου και της ισχύος της σχέσης δύο μεταβλητών. Ισχύς: Ο ΣΣ παίρνει τιμές από 0 έως 1: Το 0 υποδηλώνει ότι δεν υπάρχει καμία σχέση μεταξύ των δύο μεταβλητών. Το 1 υποδηλώνει ότι υπάρχει τέλεια σχέση μεταξύ των δύο μεταβλητών. Τύπος: Ο τύπος εμφανίζεται ως πρόσημο στον συντελεστή: Το + υποδηλώνει θετική σχέση μεταξύ των μεταβλητών. Το υποδηλώνει αρνητική σχέση μεταξύ των μεταβλητών. 62

Ερμηνεία των ΣΣ Δεν υπάρχει αντικειμενικός προσδιορισμός της ισχύος ενός ΣΣ. Ως γενικό οδηγό ωστόσο μπορούμε να ακολουθήσουμε τον παρακάτω πίνακα: < 0,20: Μικρή, σχεδόν ασήμαντη σχέση, 0,20 0,40: Χαμηλή συσχέτιση, σίγουρη, αλλά μικρή σχέση, 0,40 0,70: Μέτρια συσχέτιση, σημαντική σχέση, 0,70 0,90: Υψηλή συσχέτιση, έντονη σχέση, > 0,90: Πολύ υψηλή συσχέτιση, άμεσα εξαρτώμενη σχέση. 63

Είδη Συντελεστών Συσχέτισης Για αριθμητικές μεταβλητές σε κανονική κατανομή: Pearson product moment correlation ή Pearson s r Για μεταβλητές ποιοτικών δεδομένων (μη-κανονική κατανομή): Spearman rho(r s ): Διαδεδομένος ΣΣ όταν οι μεταβλητές που συγκρίνονται είναι κατατάξεις ως προς κάποιο χαρακτηριστικό. Συνήθως προτιμάται όταν οι κατατάξεις αυτές έχουν προκύψει από αριθμητικά δεδομένα. Kendall s tau(τ): Όταν δύο κριτές έχουν κατατάξει την ίδια σειρά αντικειμένων. Για κατηγορικές μεταβλητές Phi (Φ) & Cramer s V: Για πίνακες με κατηγορικά δεδομένα. 64

Pearson's r 65

Spearman's r 66

Συντελεστής Καθορισμού - ΣΚ Ο ΣΣ μας λέει αν και πόσο ισχυρά σχετίζονται δύο μεταβλητές. Ωστόσο, δεν μας προσδιορίζει το ποσοστό της διακύμανσης μιας μεταβλητής που οφείλεται στην ύπαρξη της άλλης. Ο ΣΚ (ή r 2 ) παίρνει τιμές από 0 έως 1 και προκύπτει από το τετράγωνο του ΣΣ. Π.χ. αν ο ΣΣ της σχέσης του μεγέθους μιας πρότασης και της ταχύτητας με την οποία αυτή κατανοείται είναι 0,91, τότε ο ΣΚ είναι 0,83. Μέγεθος πρότασης r 2 = 0,83 r= 0,91 Ταχύτητα κατανόησης της πρότασης 67

Ανάλυση παλινδρόμησης 68

Ανάλυση Παλινδρόμησης ΑΠ (Regression Analysis) Η ΑΠ χρησιμοποιείται για να εξηγήσει ή να προβλέψει τις τιμές μιας αριθμητικής μεταβλητής στηριζόμενη σε μία ή περισσότερες μεταβλητές μεικτής φύσης. Η μεταβλητή που ερευνάται ονομάζεται εξαρτημένη μεταβλητή, ενώ η μεταβλητή ή οι μεταβλητές που χρησιμοποιούνται για να την προβλέψουν ή να την εξηγήσουν ονομάζονται ανεξάρτητες μεταβλητές. Παραδείγματος χάρη, ας υποθέσουμε ότι ένας ερευνητής εξετάζει τη σχέση του μέσου μήκους λέξης ενός κειμένου και του μέσου μήκους πρότασης. Στην ΑΠ ο ερευνητής σχεδιάζει το ζεύγος τιμών των δύο μεταβλητών σε ένα διάγραμμα και στη συνέχεια προσαρμόζει μια ευθεία γραμμή μεταξύ των τιμών που έχουν παρατηρηθεί έτσι ώστε η γραμμή να απέχει το λιγότερο δυνατό από τα παρατηρημένα σημεία. 69

Ανάλυση Παλινδρόμησης ΑΠ (Regression Analysis) Η ΑΠ στην ουσία είναι η δημιουργία μιας εξίσωσης που εκφράζει τη σχέση των μεταβλητών της ανάλυσης. Για την περίπτωση των δύο μεταβλητών η εξίσωση έχει τη γενική μορφή: y= a + bxόπου: y = Εξαρτημένη μεταβλητή (Μέσο μήκος λέξης). a= Τομή (πόσο ψηλά στον y άξονα τέμνει η γραμμή. b= Κλίση (το μέγεθος σχέσης των δύο μεταβλητών ή πόσες μονάδες αυξάνεται το yσε κάθε μονάδα αύξησης του x). 70

Διάγραμμα Παλινδρόμησης 6,5 Sent.length Line Fit Plot Ave. Word Length Predicted Ave. Word Length 6 Ave. Word Length 5,5 5 4,5 4 5 10 15 20 25 30 35 40 Sent.length 71

Πολλαπλή Παλινδρόμηση ΠΠ (Multiple regression) Η ΑΠ μπορεί να επεκταθεί ώστε να συμπεριλάβει πολλές ανεξάρτητες μεταβλητές οι οποίες θα χρησιμοποιούνται ως όργανα πρόβλεψης (predictors) της εξαρτημένης μεταβλητής. Δεδομένου ότι τα περισσότερα φαινόμενα (φυσικά και κοινωνικά) έχουν πολυπαραγοντική φύση, η ΠΠ είναι η κατάλληλη ανάλυση για να διερευνήσει ποιοίπαράγοντες επηρεάζουν ένα φαινόμενο και πόσοο καθένας από αυτούς. Γενική μορφή: y= a + b 1 X 1 + b 2 x 2 + b n x n Προϋποθέσεις: Εξαρτημένη μεταβλητή: Αριθμητική. Ανεξάρτητες μεταβλητές: Αριθμητικές, Ποιοτικές, Κατηγορικές. Αριθμός ανεξάρτητων μεταβλητών προς μέγεθος δείγματος. Μη πολυσυγγραμμικότητα (multicollinearity). 72

Προϋποθέσεις Πολλαπλής Παλινδρόμησης Κωδικοποίηση ποιοτικών και κατηγορικών μεταβλητών: Για δεδομένα ποιοτικής ή κατηγορικής μεταβλητής κωδικοποιούμε τις διάφορες κατηγορίες με αριθμούς, π.χ. Άνδρες=1, Γυναίκες=2, Πολύ=3, Αρκετά=2, Λίγο=1 κ.ά. Οι αριθμητικές μεταβλητές που σχηματίζονται ονομάζονται dummy variablesαφού στην ουσία είναι κατηγορικές με αριθμητική κωδικοποίηση. 73

Λογιστική Παλινδρόμηση ΛΠ (Logistic Regression) Η ΠΠ δεν μπορεί να χρησιμοποιηθεί όταν η εξαρτημένη μεταβλητή είναι κατηγορική. Στην περίπτωση αυτή χρησιμοποιούμε ένα ειδικό είδος παλινδρόμησης, την Λογιστική Παλινδρόμηση (ΛΠ). Η ΛΠ περιλαμβάνει μια δίτιμη εξαρτημένη κατηγορική μεταβλητή και μια σειρά από ανεξάρτητες μεταβλητής μεικτής φύσης. Το σημαντικότερο πλεονέκτημά της είναι ότι είναι ανθεκτική σε παραβιάσεις κανονικότητας των δεδομένων γεγονός που την καθιστά πολύ σημαντική για την ανάλυση γλωσσικών δεδομένων. 74

SPSS- Παλινδρόμηση Analyze Regression Linear 75

Ανάλυση Συστάδων (cluster analysis) Η ΑΣ κατηγοριοποιεί ένα πλήθος παρατηρήσεων σε δύο ή περισσότερες αμοιβαία αποκλειόμενες ομάδες στηριζόμενη σε συνδυασμούς αριθμητικών μεταβλητών. Ο σκοπός της ΑΣ είναι να εντοπίσει ένα σύστημα που οργανώνει τις παρατηρήσεις σε ομάδες. Για παράδειγμα θα μπορούσαμε να διερευνήσουμε το κατά πόσο κάποιοι «υφομετρικοί δείκτες» (π.χ. μέσο μήκος λέξης, μέσο μήκος πρότασης κ.ά.) θα μπορούσαν να διακρίνουν μια σειρά από κείμενα και να τα κατατάξουν θεματικά. Μια σημαντική ιδιότητα της ΑΣ είναι ότι κατηγοριοποιεί τις παρατηρήσεις σε άγνωστες ομάδες. 76

Μια απλή ΑΣ Σε περιπτώσεις με μια ή δύο μεταβλητές μια απλή επισκόπηση των δεδομένων χρησιμοποιώντας ιστόγραμμα συχνότητας ή διάγραμμα διασποράς είναι αρκετή για να διαμορφώσουμε μια άποψη για τις δυνατές ομαδοποιήσεις. Στην περίπτωση αυτή η διάκριση σε ομάδες των κειμένων βάση της μέτρησης της λεξιλογικής πυκνότητας είναι σχεδόν προφανής. Σχετική συχνότητα 2,5 2,0 1,5 1,0,5 0,0 8 11 14 17 Λεξιλογική Πυκνότητα 19 22 25 28 30 77

Πίνακες εγγύτητας (proximities matrix) Η ΑΣ έχει ως αφετηρία με έναν πίνακα δεδομένων όπου τα δείγματα είναι σειρές και οι παρατηρήσεις κωδικοποιούνται ως στήλες. Από την αρχή ο πίνακας που δημιουργείται περιλαμβάνει τιμές που είναι μετρήσεις εγγύτητας ή διαφοροποιήσεως μεταξύ δύο παρατηρήσεων. Το επόμενο στάδιο μετά την μέτρηση των αποστάσεων είναι η διάκριση των δειγμάτων σε ομάδες βάσει των αποστάσεών τους. 78

Cluster Tree Case 1 Case 2 Case 3 Case 4 0 2 4 6 8 10 12 Distances 79

Μέθοδοι συσταδοποίησης Απλή διασύνδεση(simple linkage): (Nearest neighbour in SPSS/WIN)υπολογίζει την απόσταση μεταξύ των δύο υποομάδων ως την ελάχιστη απόσταση μεταξύ δύο μελών. Πλήρη διασύνδεση(complete linkage): (Furthest neighbour in SPSS/WIN) υπολογίζει την απόσταση ανάμεσα στις δύο υποομάδες ως την μέγιστη απόσταση μεταξύ οποιωνδήποτε μελών στις υποομάδες. Μέση διασύνδεση(average linkage): (Centroid Method in SPSS/WIN) υπολογίζει την απόσταση ανάμεσα στις υποομάδες ως τον μέσο όρο μεταξύ των δύο υποομάδων. 80

Βιβλιογραφία -Γ. Κ. Μικρός. «Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Βασικές αρχές της επαγωγικής στατιστικής». Έκδοση: 1.0. Αθήνα 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: http://opencourses.uoa.gr/courses/ill103. -Steel, R. G. D., Torrie, J. H., (1980), Principles and Procedures of Statistics, 2nd ed. New York: McGraw-Hill. -SAS Institute, (2015), SAS/STAT 14.1 User s Guide -Introduction to Analysis of Variance Procedures, Copyright 2015, SAS Institute Inc., Cary, NC, USA. -Κορνάρου Ε., Ρουμελιώτη Α. (2007) Η Δημόσια Υγεία στην Πρωτοβάθμια Φροντίδα Υγείας, Θέματα Επιδημιολογίας Μεθοδολογίας της Έρευνας και Στατιστικής, Εκδόσεις Παπαζήση. -Σαχίνη-Καρδάση Α. (2003) Μεθοδολογία Έρευνας, Εφαρμογές στο Χώρο της Υγείας, Γ Έκδοση, Εκδόσεις ΒΗΤΑ. -Τριχόπουλος Δ. (2002) Επιδημιολογία, Αρχές Μέθοδοι Εφαρμογές, Επιστημονικές Εκδόσεις ΠΑΡΙΣΙΑΝΟΣ. -Δημητρόπουλος Γ. Ευστάθιος (2001) Εισαγωγή στη Μεθοδολογία της Επιστημονικής Έρευνας, Ένα συστηματικό Δυναμικό Μοντέλο, Γ Έκδοση, Εκδόσεις «ΕΛΛΗΝ». 81