Μεθοδολογίες μελέτης απλότυπων σε μελέτες γενετικής συσχέτισης. Λούκας Αλέξιος

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μεθοδολογίες μελέτης απλότυπων σε μελέτες γενετικής συσχέτισης. Λούκας Αλέξιος"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΣΤΕΡΕΑΣ ΕΛΛΑΔΟΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΤΗ ΒΙΟΪΑΤΡΙΚΗ Μεθοδολογίες μελέτης απλότυπων σε μελέτες γενετικής συσχέτισης Λούκας Αλέξιος ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Επιβλέποντες Μπάγκος Παντελής, Επίκουρος Καθηγητής Ιωαννίδης Αναστάσιος, Επισκέπτης Επίκουρος Καθηγητής Λαμία, 2010

2 2

3 Εξεταστική επιτροπή 1. Μπάγκος Παντελής (επιβλέπων) 2. Αδάμ Μαρία 3. Ιωαννίδης Αναστάσιος (επιβλέπων) 3

4 4

5 ΕΥΧΑΡΙΣΤΙΕΣ Η εργασία αυτή έλαβε χώρα στην Λαμία, στο Πανεπιστήμιο Στερεάς Ελλάδος, στο Τμήμα Πληροφορικής με εφαρμογές στην βιοϊατρική. Η ολοκλήρωσή της οφείλεται όχι μόνο στον συγγραφέα, αλλά και στους ανθρώπους που ακολουθούν. Θα ήθελα να ευχαριστήσω τους επιβλέποντες καθηγητές μου κ. Μπάγκο Παντελή και κ. Ιωαννίδη Αναστάσιο που με επέλεξαν για την εκπόνηση της εργασίας αυτής, καθώς και για τις συμβουλές τους πάνω στο θέμα και το κείμενό της. Επίσης θα ήθελα να ευχαριστήσω τους φίλους, τους συμφοιτητές, την οικογένειά μου, τους γονείς μου αλλά και τον Σεβασμιώτατο Μητροπολίτη Ηλείας και Ωλένης Γερμανό Παρασκευόπουλο για την υποστήριξη που μου παρείχαν κατά την διάρκεια των σπουδών μου. 5

6 6

7 ΠΕΡΙΕΧΟΜΕΝΑ Εξεταστική επιτροπή...3 ΕΥΧΑΡΙΣΤΙΕΣ...5 ΠΕΡΙΕΧΟΜΕΝΑ...7 ΠΕΡΙΛΗΨΗ...9 ABSTRACT...11 ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ Εισαγωγή στους απλότυπους Το International HapMap project Μονονουκλεοτιδικός πολυμορφισμός Το πρόβλημα της εύρεσης του απλότυπου Τα γενετικά μοντέλα...23 ΚΕΦΑΛΑΙΟ 2 ΥΛΙΚΑ ΚΑΙ ΜΕΘΟΔΟΙ Ορισμός του προβλήματος Η εφαρμογή Stata Εκτίμηση του Linkage disequilibrium Είδη και μεθοδολογίες υπολογισμού του LD Μελέτες με ασθενείς και μάρτυρες Ο έλεγχος χ 2 του Pearson για την ανεξαρτησία δυο δειγμάτων Εκτίμηση μέγιστης πιθανοφάνειας Λογιστική παλινδρόμηση Πολυωνυμική λογιστική παλινδρόμηση Παλινδρόμηση Poisson Η εφαρμογή Haploview Μελέτες με μεταβλητή συνεχούς τιμής Απλή γραμμική παλινδρόμηση...73 ΚΕΦΑΛΑΙΟ 3 ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΖΗΤΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΑ Μελέτες απλότυπων με τις τιμές της HDL χοληστερίνης (συνεχής μεταβλητή) Μελέτες με ασθενείς και μάρτυρες (case-control) ΣΥΖΗΤΗΣΗ...95 Παράρτημα 1 απόρριψη της μηδενικής υπόθεσης...99 Παράρτημα 2 αποδοχή της μηδενικής υπόθεσης ΒΙΒΛΙΟΓΡΑΦΙΑ

8 8

9 ΠΕΡΙΛΗΨΗ Η απλοτυπική ανάλυση αποτελεί πλέον αναπόσπαστο κομμάτι της γονιδιωματικής ανάλυσης. Ο απλότυπος είναι ένα σύνολο πολυμορφισμών που παρουσιάζονται στο DNA και είναι στατιστικά συνδεδεμένοι μεταξύ τους λόγω γειτνίασης. Από τις κλασικές μεθόδους αλληλούχισης, η γνώση του γονότυπου δεν μας δίνει μονοσήμαντα την πληροφορία για τους απλότυπους και για αυτό μας χρειάζονται αλγόριθμοι στατιστικής φύσεως (το πρόβλημα της φάσης των απλότυπων). Στις μελέτες γενετικής συσχέτισης χρησιμοποιούνται ολοένα και περισσότερο οι απλότυποι για την διερεύνηση της συσχέτισης κοινών πολυμορφισμών με ασθένειες. Η δημιουργία του «χάρτη» του ανθρώπινου γονιδιώματος (HapMap) ανοίγει νέες πόρτες με την μεγάλη αυτή βάση δεδομένων και ενθαρρύνει την επιστημονική κοινότητα για περεταίρω ενασχόληση. Σε αυτήν εδώ την εργασία συνοψίζονται οι μέθοδοι που χρησιμοποιούνται σε μελέτες γενετικής συσχέτισης με απλότυπους, αναλύονται τα μαθηματικά μοντέλα για αυτές τις μεθόδους και παρουσιάζονται αναλυτικά παραδείγματα με την χρήση των λογισμικών Stata και Haploview. Η εφαρμογή των μεθόδων γίνεται σε πραγματικά δεδομένα τα οποία πήραμε από δημοσιευμένες μελέτες. Λέξεις Κλειδιά: Απλότυπος, Συσχέτιση, Μονοσημειακός Πολυμορφισμός, HapMap, Ασθενείς-Μάρτυρες, Ανάλυση 9

10 10

11 ABSTRACT Haplotype analysis constitutes an integral part of genomic analysis. A Haplotype is referred to as a set of single nucleotide polymorphisms that we see in certain DNA regions, and they are statistically associated. From the classic sequencing methods, the knowledge alone of the genotype, doen t give us all the information we need about haplotypes, that is why we need to use statistical inference algorithms (haplotype inference problem). In genetic association studies more and more we see haplotypes used for association between single nucleotide polymorphisms and diseases. The creation of the human genome map known as HapMap opens new doors with this large database and encourages the scientific community to further activity. In this thesis we summarize the methods that are used in genetical association with haplotypes and we analyze the mathematical models that these methods use. We present analytical examples with the use of Stata and Haploview software. These methods are applied in real data, taken from published studies. Key-Words: Haplotype, Association, Single Nucleotide Polymorphism, HapMap, Case-Control, Analysis 11

12 12

13 ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ 1.1 Εισαγωγή στους απλότυπους Η λέξη απλότυπος προέρχεται από τα παράγωγα «απλοειδής» και «γονότυπος». Ουσιαστικά είναι ένα σύνολο πολυμορφισμών σε διάφορα σημεία του DNA (εικόνα 1), οι οποίοι είναι στατιστικά συνδεδεμένοι μεταξύ τους, δηλαδή η εμφάνιση του ενός κάνει πολύ πιθανή και την εμφάνιση άλλων. Μεταδίδονται μαζί σαν ένα ενιαίο κομμάτι πάνω στο γενετικό υλικό (HapMap 2005). Έχοντας στην κατοχή την γνώση κάποιων απλότυπων για το γονιδίωμα του ανθρώπου, ίσως έχουμε στα χέρια μας πολύτιμες πληροφορίες που θα μας βοηθήσουν να διερευνήσουμε σε μεγαλύτερο βαθμό την γενετική συμπεριφορά κάποιων ασθενειών. Ήδη γίνεται μια παγκόσμια προσπάθεια για την καταγραφή ενός «χάρτη» απλότυπων του ανθρώπινου γονιδιώματος, ο οποίος θα Εικόνα 1: Η δομή του DNA περιγράφει κάποια κοινά πρότυπα στην γενετική διαφοροποίηση μεταξύ των ανθρώπων. 1.2 Το International HapMap project Ο χάρτης που αναφέρεται παραπάνω είναι ελεύθερα προσβάσιμος στους ερευνητές, ώστε να τους βοηθήσει να συσχετίσουν εκείνες τις γενετικές πληροφορίες που επηρεάζουν την υγεία, συμβάλουν στις ασθένειες, στην αλληλεπίδραση των οργανισμών με τα φάρμακα, αλλά και το ρόλο που παίζουν κάποιοι περιβαλλοντικοί παράγοντες. Μια τόσο μεγάλη μελέτη βέβαια διέπεται από κάποιους κανόνες μεθοδολογίας και ηθικής που δημοσιεύτηκαν από την ομάδα των ερευνητών (HapMap 2004). 13

14 Η έρευνα σήμερα στρέφεται κυρίως στους λεγόμενους «μονοσημειακούς πολυμορφισμούς» (Single nucleotide polymorphism ή SNP), οι οποίοι δηλώνουν μια σημειακή αλλαγή στο γενετικό υλικό. Υπάρχουν περίπου δέκα εκατομμύρια πολυμορφισμοί που παρατηρούνται στο ανθρώπινο γονιδίωμα. Από αυτούς, μια πολύ μικρή ομάδα είναι άμεσα συνδεδεμένη με ασθένειες, παρενέργειες κλπ. Σκοπός αυτού του «χάρτη» είναι πρώτον η διεύρυνση αυτής της μικρής ομάδας, και δεύτερον να κάνει προσβάσιμη την γενετική πληροφορία στους ερευνητές, οι οποίοι δεν θα χρειάζεται πλέον να ψάχνουν για πολυμορφισμούς (HapMap 2003). Σημαντική συμμετοχή σε αυτήν την προσπάθεια υπάρχει και από έναν Έλληνα επιστήμονα, τον Δρ. Πάνο Δελούκα ο οποίος μαζί με συναδέλφους του στο Sanger Center της Μ. Βρετανίας υλοποίησαν το HapMap project (εικόνα 2) ( Όπως εξηγεί ο κύριος Δελούκας με δηλώσεις του «το διεθνές πρόγραμμα HapMap δεν είναι παρά ένα εργαλείο το οποίο θα βοηθήσει στην αξιοποίηση της πληροφορίας που έχει προκύψει από την ανάγνωση του ανθρώπινου γονιδιώματος. Στην πράξη, θα δίνει το στίγμα κάποιων πολυμορφισμών με ιδιαίτερο ενδιαφέρον πάνω στο γονιδίωμα». Εικόνα 2: Ο Δρ. Πάνος Δελούκας Αυτός ο «χάρτης» θα χρησιμοποιεί τους πολυμορφισμούς ως σημεία αναφοράς πάνω στο γονιδίωμα, και ενδέχεται να επιταχύνει τον εντοπισμό γονιδίων που σχετίζονται με ασθένειες και ειδικότερα με ασθένειες όπου η περιβαλλοντική συνιστώσα παίζει καθοριστικό ρόλο στην έκφρασή τους. «Τα γονίδια των 14

15 μονογονιδιακών ασθενειών, αυτών δηλαδή που η αιτιολογία τους οφείλεται σε μεταλλάξεις ενός και μόνο γονιδίου, δεν αποτελούν αντικείμενο των δικών μας αναζητήσεων. Οι επιστήμονες έχουν αποτελεσματικούς τρόπους να τα εντοπίζουν. Αυτό που μας ενδιαφέρει είναι γονίδια τα οποία κάνουν κάποιους από μας πιο ευαίσθητους σε λοιμώξεις ή αυξάνουν τον κίνδυνο που διατρέχουμε να αναπτύξουμε διαβήτη ή άσθμα ή υπέρταση αν εκτεθούμε σε συγκεκριμένες συνθήκες. Σε τέτοιου είδους αναζητήσεις θα είναι πολύτιμο το HapMap. Για παράδειγμα, αν υποτεθεί ότι θα θέλαμε να αναζητήσουμε τη γενετική διαφορά που καθιστά κάποιους ανθρώπους πιο ευαίσθητους από άλλους στην εμφάνιση διαβήτη. Χωρίς το HapMap θα έπρεπε να πάρουμε δύο ομάδες ανθρώπων, ας πούμε ασθενείς με διαβήτη και υγιείς, και να εξετάσουμε ποιος από τους 10 εκατομμύρια SNP s είναι διαφορετικός στην ομάδα των ασθενών. Αντιλαμβάνεστε πόσο χρονοβόρα αλλά και ακριβή θα ήταν μια τέτοια διαδικασία, ειδικά καθώς θα έπρεπε να επαναληφθεί για όλες τις ασθένειες που μας ενδιαφέρουν...» μας λέει ο κ. Δελούκας (Deloukas and Bentley 2004). Σημαντικό στοιχείο στο θέμα του χάρτη είναι η γνωστή διαδικασία του ανασυνδυασμού του DNA (εικόνα 3), που ως γνωστό λαμβάνει χώρα κατά την διάρκεια της μείωσης των γαμετικών κυττάρων. Αυτό έχει ως αποτέλεσμα το γεγονός ότι ο καθένας μας έχει στα γαμετικά του κύτταρα ένα νέο σύνολο γενετικού υλικού, και όχι απλά ένα μείγμα από το DNA του πατέρα και της μητέρας μας. Ο ανασυνδυασμός έχει ιδιαιτερότητες οι οποίες αξιοποιούνται για τη δημιουργία του HapMap (HapMap 2003). Σύμφωνα με τον κ. Δελούκα «τα σημεία πάνω στα χρωμοσώματα που συμβαίνει ο ανασυνδυασμός δεν είναι τυχαία. Επίσης οι άνθρωποι είμαστε σχετικά νέο είδος, πράγμα που σημαίνει ότι δεν έχουν γίνει τόσο πολλοί ανασυνδυασμοί κατά τη διάρκεια των αιώνων. Αυτό που αναζητούμε και χαρτογραφούμε εμείς είναι κομμάτια DNA τα οποία έχουν περάσει αυτούσια. Πάνω σε αυτά τα κομμάτια υπάρχουν SNP s οι οποίοι, όταν ολοκληρωθεί το HapMap, θα λειτουργούν ως δείκτες για να καθοδηγούν τους ερευνητές στα σημεία του γονιδιώματος που πρέπει να ψάξουν προκειμένου να βρουν αυτό που τους ενδιαφέρει». 15

16 Εικόνα 3: Συνοπτικά ο ανασυνδιασμός του DNA Πρακτικά, αυτό που θα κάνουν οι ερευνητές όταν τελειώσει η δημιουργία του HapMap, θα είναι να αναζητούν αν οι άνθρωποι που φέρουν κάποια νόσο, φέρουν επίσης και κάποιους χαρακτηριστικούς πολυμορφισμούς. Αυτοί οι πολυμορφισμοί θα τους δείξουν σε ποιο σημείο πάνω στα χρωμοσώματα πρέπει να αναζητήσουν το γονίδιο που σχετίζεται με αυτή τη νόσο. Ο οργανισμός ο οποίος ξεκίνησε την κατασκευή αυτού του χάρτη ονομάζεται «International HapMap Project» (HapMap 2003) και ουσιαστικά είναι μια συνεργασία μεταξύ διαφόρων ερευνητών ακαδημαϊκών κέντρων, μη-κερδοσκοπικών βιοϊατρικών οργανώσεων και ιδιωτικών εταιριών σε Καναδά, Κίνα, Ιαπωνία, Νιγηρία, Ηνωμένο βασίλειο και Ηνωμένες πολιτείες Αμερικής (HapMap 2005). Το λογότυπο του οργανισμού φαίνεται στην εικόνα 6. Το project ξεκίνησε τον Οκτώβριο του 2002 και αρχικά εκτιμήθηκε ότι θα κρατούσε τρία χρόνια, ωστόσο βλέπουμε ότι συνεχίζεται ακόμη καθώς τον Μάιο του 2010 είχαμε ακόμη μια δημοσίευση γενετικών δεδομένων (HapMap3 Public Release #3). Οι ενδιαφερόμενοι ερευνητές μπορούν να βρίσκουν τα αποτελέσματα της χαρτογράφησης αυτής στον δικτυακό τόπο Η ιστοσελίδα επιτρέπει την περιήγηση σε όλες τις περιοχές του ανθρώπινου γονιδιώματος, προσφέροντας όλα τα καταγεγραμμένα στοιχεία όπως γνωστοί απλότυποι, πολυμορφισμοί, γονίδια, εσώνια-εξώνια κλπ. Σαν παράδειγμα στην εικόνα 4 που ακολουθεί, έχουμε επιλέξει μια περιοχή του χρωμοσώματος Χ προς επεξεργασία μέσω της εφαρμογής που παρέχεται από την ιστοσελίδα του HapMap. Η εφαρμογή μας δείχνει όλα τα δεδομένα που έχει καταχωρημένα και χωρίζει την 16

17 περιοχή του γονιδιώματος που ερευνούμε σε τρία επίπεδα μεγέθυνσης. Φυσικά μπορούμε να μεγενθύνουμε επιπλέον την εικόνα και να δούμε από πιο κοντά τις βάσεις. Όσο μεγεθύνουμε και μπαίνουμε σε λεπτομέρειες, τόσο περισσότερο φαίνονται οι καταχωρημένες πληροφορίες των πολυμορφισμών. Ο χρήστης μπορεί να διαλέξει και να εξειδικεύσει την αναζήτησή του με μια πληθώρα επιλογών, σε μια μεγάλη βάση βιολογικών δεδομένων, η οποία είναι εξαιρετικά οργανωμένη. Το μεγαλύτερο πλεονέκτημα είναι ότι είναι εντελώς ελεύθερη η προσπέλαση σε αυτήν, καθώς επίσης και ότι βρίσκεται φορτωμένη στο διαδίκτυο, πράγμα που την κάνει εύκολα προσβάσιμη από οποιοδήποτε μέρος. Εικόνα 4: Το χρωμόσωμα Χ στον χάρτη του HapMap 17

18 Εικόνα 5: Πως δημιουργούνται οι απλότυποι από τους πολυμορφισμούς 1.3 Μονονουκλεοτιδικός πολυμορφισμός Παρόλο που δυο οποιοιδήποτε άνθρωποι έχουν κοινό το 99.5% του γονιδιώματός τους (HapMap 2003), κάποιοι σε μια συγκεκριμένη θέση στο γενετικό τους υλικό μπορεί να έχουν την βάση Α (αδενίνη) ενώ κάποιοι άλλοι την G (γουανίνη). Μια τέτοια αλλαγή (A->G) είναι γνωστή με το όνομα μονονουκλεοτιδικός πολυμορφισμός (single-nucleotide polymorphism ή SNP) και μπορεί να συμβεί σε διάφορα μέρη του γονιδιώματος κατά την διάρκεια ζωής ενός οργανισμού. Κάθε περίπτωση (A ή G) ονομάζεται αλληλόμορφο. Μια απεικόνιση των αλληλόμορφων φαίνεται στην εικόνα 7, όπου η πλειοψηφία των ατόμων έχουν την βάση C (κυτοσίνη) ενώ εμφανίζεται σπάνια η T (θυμίνη). Το HapMap ασχολείται μόνο με κοινούς πολυμορφισμούς, δηλαδή με αυτούς όπου κάθε αλληλόμορφο υπάρχει τουλάχιστον στο 1% του πληθυσμού. Κάθε άνθρωπος έχει δυο αντίγραφα κάθε χρωμοσώματος, εκτός από τα χρωμοσώματα που καθορίζουν το φύλο. Για κάθε SNP, ο συνδυασμός των αλληλόμορφων που έχει ένα άτομο, ονομάζεται γονότυπος. Έτσι υπάρχει η διαδικασία εύρεσης του γονότυπου 18

19 ενός ατόμου, σε μια συγκεκριμένη περιοχή του γονιδιώματός του. Μια τέτοια διαδικασία γίνεται με δυο τρόπους. Σε εργαστήρια με την μέθοδο της ηλεκτροφόρησης, αλλά και με στατιστικές μέθοδους όπου χρησιμοποιούμε βέβαια την ήδη υπάρχουσα πληροφορία που έχουμε από το εργαστήριο. Σαν αποτέλεσμα Εικόνα 6: Το HapMap project και οι χώρες που το αποτελούν βρίσκουμε όλους τους πολυμορφισμούς και τα αλληλόμορφά τους για μια συγκεκριμένη περιοχή του DNA. Οι πολυμορφισμοί που βρίσκονται σε κοντινή θέση μεταξύ τους και πάνω στο ίδιο χρωμόσωμα, είναι συσχετισμένοι. Αυτό σημαίνει πως αν το αλληλόμορφο από έναν πολυμορφισμό είναι γνωστό, τότε τα αλληλόμορφα των διπλανών πολυμορφισμών, ίσως να μπορούμε να τα προβλέψουμε (HapMap 2003). Αυτό συμβαίνει επειδή κάθε πολυμορφισμός, εμφανίστηκε εξελικτικά ως μια σημειακή μετάλλαξη, η οποία στη συνέχεια πέρασε στους απογόνους περιβαλλόμενη από άλλες, πιο παλιές σημειακές μεταλλάξεις. Συνήθως βέβαια, πολυμορφισμοί που χωρίζονται από μεγάλη απόσταση, δεν εμφανίζουν συσχέτιση. Κάτι τέτοιο συμβαίνει λόγω του ότι χωρίζονται με την διαδικασία ανασυνδιασμού του DNA σε κάθε γενιά, με αποτέλεσμα το ανακάτεμα των ακολουθιών των αλληλόμορφων των δυο χρωμοσωμάτων. Ωστόσο η πληροφορία που ψάχνουμε είναι μια ακολουθία αλληλόμορφων πάνω σε ένα συγκεκριμένο χρωμόσωμα, η οποία δεν έχει διαχωριστεί με τον ανασυνδιασμό του DNA. Μια τέτοια ακολουθία ονομάζεται απλότυπος. Επίσης απλότυπος θεωρείται και ένα σύνολο από μονοσημειακούς πολυμορφισμούς, όχι απαραίτητα σε ακολουθία, αλλά σε μικρή απόσταση μεταξύ τους σε μια περιοχή του DNA (HapMap 2003). Για να βρούμε τους γενετικούς παράγοντες που εμπλέκονται σε μια ασθένεια, μπορούμε να ακολουθήσουμε την παρακάτω διαδικασία. Πρώτα πρέπει να βρεθεί μια περιοχή ενδιαφέροντος πάνω στο γονιδίωμα (π.χ. περιοχή γονιδίου), πιθανότατα γνωστή από προηγούμενες μελέτες. Έπειτα εντοπίζουμε σε αυτή την περιοχή ένα 19

20 σύνολο από πολυμορφισμούς οι οποίοι έχουν ισχυρή συσχέτιση μεταξύ τους. Το σύνολο των αλληλόμορφων από αυτούς τους πολυμορφισμούς θα μας δώσει τον απλότυπο αυτού του ατόμου. Η διαδικασία αυτή συνοψίζεται στην εικόνα 5. Στη συνέχεια βρίσκουμε τον απλότυπο αυτών των πολυμορφισμών σε ένα σύνολο ατόμων, κάποιων που να έχουν την ασθένεια, και κάποιων που να μην την έχουν. Με διάφορες συγκρίσεις μεταξύ των δυο αυτών ομάδων (ασθενείς μη ασθενείς) μπορούμε να καταλάβουμε ποιες περιοχές και ποιοι απλότυποι παίζουν κάποιο ρόλο στην εμφάνιση και την συμπεριφορά της ασθένειας (Fallin, Cohen et al. 2001). Εικόνα 7: Μια διαφορετική απεικόνιση του μονοσημειακού πολυμορφισμού 1.4 Το πρόβλημα της εύρεσης του απλότυπου Αντίθετα από τις σπάνιες κληρονομικές ασθένειες, συνδυασμοί διαφόρων γονιδίων αλλά και το περιβάλλον, παίζουν κάποιο ρόλο στην εμφάνιση πιο κοινών παθήσεων (όπως διαβήτης, καρκίνος, παθήσεις της καρδιάς, εγκεφαλικό, κατάθλιψη και άσθμα) αλλά και παρενεργειών στην λήψη κάποιων φαρμάκων (HapMap 2003). Για να μπορέσουμε να βρούμε τους γενετικούς παράγοντες που παίζουν ρόλο στην εμφάνιση των παραπάνω στοιχείων, θα πρέπει να είμαστε σε θέση να αποκτήσουμε στα χέρια μας την πλήρη γενετική ακολουθία κάποιων ατόμων. Θα χρειαστούμε κάποια άτομα που να έχουν την ασθένεια, αλλά και κάποια υγιή. Κατόπιν θα πρέπει να συγκρίνουμε τις ακολουθίες αυτών που έχουν την ασθένεια, και αυτών που είναι υγιείς, για διαφορές στο γονιδίωμά τους. Μία τέτοια μέθοδος είναι δύσκολο να επιτευχθεί διότι το κόστος του να αποκτήσουμε την πλήρη ακολουθία του γονιδιώματος ενός ατόμου είναι μεγάλο (HapMap 2003). Το HapMap 20

21 προτείνει μια πιο σύντομη μέθοδο η οποία περιγράφεται παρακάτω ως «το πρόβλημα της εύρεσης του απλότυπου» (Lin, Cutler et al. 2002). Ένα βασικό πρόβλημα των απλότυπων, είναι ότι αν έχουμε τον γονότυπο ενός ατόμου, είναι δύσκολο να καταλήξουμε σε συμπέρασμα για το ποιος θα είναι ο απλότυπός του. Στους διπλοειδείς οργανισμούς, όπου ανήκει και ο άνθρωπος, υπάρχουν δυο αντίγραφα κάθε χρωμοσώματος και κατά συνέπεια και δυο περιοχές ενδιαφέροντος. Ο απλότυπος ουσιαστικά είναι τα στοιχεία της περιοχής ενδιαφέροντος του ενός μόνο αντίγραφου, ενώ ο γονότυπος περιλαμβάνει τα στοιχεία και των δυο χρωμοσωμάτων. Στις ασθένειες οι οποίες επηρεάζονται από παραπάνω από ένα γονίδιο, είναι συνήθως πιο χρήσιμη η πληροφορία που μας δίνει ο απλότυπος συγκριτικά με τον γονότυπο. Η πληροφορία από την οποία αποτελείται ο απλότυπος, όπως αναφέραμε παραπάνω, είναι είτε η πλήρης DNA ακολουθία της περιοχής ενδιαφέροντος, είτε το σύνολο των μονοσημειακών πολυμορφισμών σε εκείνη την περιοχή. Η δεύτερη εκδοχή είναι αυτή η οποία κυριαρχεί, αλλά και η πιο χρήσιμη, επειδή περιέχει ακριβώς την πληροφορία που πρέπει να αναλυθεί χωρίς περιττά τμήματα. Το πρόβλημα αυτό της εύρεσης του απλότυπου μπορεί να αντιμετωπιστεί και ως υπολογιστικό πρόβλημα (Gusfield 2000), με την δημιουργία γονοτυπικών πινάκων, πινάκων δηλαδή που θα περιέχουν πληροφορία για περιοχές ενδιαφέροντος του γενετικού υλικού. Στις θέσεις των πινάκων αυτών θα υπάρχουν οι αριθμοί 0, 1 και 2. Για θέσεις του πίνακα όπου η αντίστοιχες περιοχές στα ομόλογα χρωμοσώματα είναι σε ομόζυγη κατάσταση θα αντιστοιχούν οι αριθμοί 0 ή 1 (κάθε SNP μπορεί να έχει δυο πιθανά αλληλόμορφα), ενώ για ετερόζυγη κατάσταση το 2. 21

22 Εικόνα 8: Το υπολογιστικό πρόβλημα της εύρεσης του απλότυπου Για ένα σύνολο n πινάκων θα έχουμε ως αποτέλεσμα ένα σύνολο από n δυαδικούς πίνακες, όπου κάθε δυαδικός πίνακας αντιστοιχεί σε έναν από τους αρχικούς. Αυτός ο δυαδικός πίνακας θα πρέπει να έχει 0 ή 1 και στις δυο θέσεις όπου ο αρχικός πίνακας είχε 0 ή 1. Επίσης για τον πίνακα που είχε το 2, θα πρέπει ο δυαδικός να έχει 0 στην πρώτη θέση και 1 στην δεύτερη ή αντίστροφα. Αυτοί οι δυαδικοί πίνακες μπορούν να γραφούν με διάφορους τρόπους, και δηλώνουν έτσι τις πιθανές μορφές των απλότυπων που μπορούν να προκύψουν. Για ένα άτομο με h ετερόζυγα σημεία προκύπτουν 2 h-1 ζευγάρια που θα μπορούσαν να είναι η λύση του προβλήματος της εύρεσης του απλότυπου (εικόνα 8). Ωστόσο χωρίς επιπλέον επεξεργασία των δυαδικών πινάκων δεν μπορούμε να βρούμε ποιές από τις πιθανές λύσεις είναι οι σωστές. Συνεπώς υπάρχει η ανάγκη χρήσης κάποιων γενετικών μοντέλων (Stephens and Donnelly 2003) για να μας καθοδηγήσουν προς την λύση. 22

23 1.4.1 Τα γενετικά μοντέλα Η εύρεση ενός απλότυπου μπορεί να γίνει και πειραματικά σε βιολογικά εργαστήρια (Clark 1990), αλλά αυτή η μέθοδος είναι αρκετά χρονοβόρα, απαιτεί πολύ εργασία και κοστίζει πολλά χρήματα. Για αυτό το λόγο χρησιμοποιούνται εναλλακτικά διαφόρων ειδών στατιστικές μέθοδοι, οι οποίες μπορούν αν χρησιμοποιηθούν σωστά να είναι σύντομες και έγκυρες, χωρίς μεγάλες χρηματικές απαιτήσεις (Lin and Fann 2009). Αυτές οι στατιστικές μέθοδοι μπορούν να χωριστούν σε τρεις κύριες κατηγορίες, τον αλγόριθμο του Clark, τον αλγόριθμο ΕΜ (expectation-maximization) και τις προσεγγίσεις του Bayes (Niu 2004). Επιπλέον έχουν προταθεί και άλλοι αλγόριθμοι πέρα από τους κλασικούς (Gusfield 2000). Ο αλγόριθμος του Clark (Clark 1990), αρχίζει με μια λίστα γνωστών απλότυπων από τα ευκρινή άτομα (άτομα δηλαδή που οι γονότυποι τους δεν έχουν ή έχουν μόνο μια ετερόζυγη περιοχή). Στη συνέχεια η μέθοδος επιχειρεί να αναλύσει και τους γονότυπους από τα εναπομείναντα άτομα χρησιμοποιώντας τους απλότυπους που βρήκε αρχικά και το συμπλήρωμά τους, δηλαδή με χρήση του εναλλακτικού τους αλληλόμορφου σε κάθε θέση, καθώς και τις συχνότητες τους. Κάποιες φορές ο αλγόριθμος αποτυγχάνει να αναγνωρίσει τους απλότυπους για όλα τα άτομα, λόγω του ότι αν βρεθεί σε λάθος μορφή κάποιος απλότυπος, αυτό θα οδηγήσει σε σφάλμα στα επόμενα βήματα. Παρ όλα αυτά ο αλγόριθμος του Clark είναι η πρώτη στατιστική μέθοδος για την απόκτηση πληροφορίας απλότυπων Εικόνα 9: Το λογότυπο της εφαρμογής Hap και έτσι θεμελιωδώς σημαντικός. Σαν είσοδο ο αλγόριθμος δέχεται n γονοτυπικούς πίνακες μήκους m. Όπως είπαμε παραπάνω αυτοί οι πίνακες περιέχουν τους αριθμούς 0, 1 ή 2. Οι θέσεις των πινάκων που έχουν τους αριθμούς 0 ή 1 θεωρούνται «αποφασισμένες» ενώ αυτές που έχουν 2 θεωρούνται «διφορούμενες». Ένας πίνακας που δεν έχει «διφορούμενες» θέσεις ονομάζεται και αυτός «αποφασισμένος», ενώ ένας πίνακας με «διφορούμενες» θέσεις ονομάζεται «διφορούμενος». Για δυο 23

24 διαφορετικούς πίνακες Α και Β η συγχώνευση τους δημιουργεί τον πίνακα ΑΒ ο οποίος χαρακτηρίζεται «διφορούμενος» και οι θέσεις όπου και ο Α και ο Β είχαν 0 ή 1, γίνονται 0 ή 1 αντίστοιχα. Οι θέσεις του ΑΒ όπου οι Α και Β είχαν (1 και 0) ή (0 και 1) αντίστοιχα παίρνουν την τιμή 2. Η μέθοδος του Clark αρχίζει με την ταυτοποίηση κάθε πίνακα με καμία ή μια «διφορούμενη» θέση, μιας και στην περίπτωση που δεν υπάρχει καμία «διφορούμενη» θέση ο απλότυπος που προκύπτει είναι ο ίδιος ο γονοτυπικός πίνακας απαράλλακτος. Στην περίπτωση που έχουμε μια «διφορούμενη» θέση τότε προκύπτουν δυο απλοτυπικοί πίνακες. Οι απλότυποι που προκύπτουν ονομάζονται «αρχικά αποφασισμένοι πίνακες». Το κύριο κομμάτι του αλγορίθμου του Clark επεκτείνεται με βάση τους «αρχικά αποφασισμένους πίνακες» και αποφασίζει για τους απομένοντες «διφορούμενους» πίνακες. Ο Clark πρότεινε τον ακόλουθο κανόνα που συνάγει τον επόμενο «αποφασισμένο» πίνακα, από έναν γονοτυπικό πίνακα Α και από έναν ήδη «αποφασισμένο» πίνακα Β. Ο «αποφασισμένος» πίνακας Β μπορεί να είναι είτε από τα δεδομένα εισόδου του αλγορίθμου, είτε από την προηγούμενη εφαρμογή αυτού του κανόνα. Ο κανόνας αυτός ονομάζεται «κανόνας απόφασης» και είναι ο εξής: Αν υποθέσουμε ότι ο πίνακας Α είναι «διφορούμενος» με h διφορούμενες θέσεις, και R ένας «αποφασισμένος» πίνακας ο οποίος αντιστοιχεί σε μια από τις 2 h πιθανές αναλύσεις του πίνακα Α, τότε ο Α είναι η συγχώνευση του ενός αντιγράφου του «αποφασισμένου» πίνακα R και ενός άλλου «αποφασισμένου» πίνακα NR (ο οποίος καθορίζεται με συγκεκριμένο τρόπο). Όλες οι αποφασισμένες θέσεις του Α αντιγράφονται στον πίνακα NR αντίθετα από ότι σε σχέση με τον R. Έτσι όταν ο πίνακας NR χαρακτηριστεί «αποφασισμένος», προστίθεται στο πλήθος των αποφασισμένων πινάκων, και ο πίνακας Α διαγράφεται από το σύνολο των πινάκων. Για παράδειγμα αν ο Α είναι 0212 και ο R είναι 0110, τότε ο NR είναι Η ερμηνεία αυτού είναι ότι αν οι δυο απλότυποι σε ένα άτομο είναι 0110 και 0011 τότε ο γονότυπος που παρατηρείται θα είναι Ο κανόνας απόφασης βγάζει συμπέρασμα για τον πίνακα 0212 με το σκεπτικό ότι ο 0110 είναι ένας απλότυπος στον πληθυσμό, για να αποφασίσει ότι ο 0011 είναι επίσης ένας απλότυπος του πληθυσμού. Όταν ο κανόνας απόφασης μπορεί να εφαρμοστεί για την εξαγωγή συμπεράσματος στον πίνακα NR από τους πίνακες Α και R, τότε μπορούμε να πούμε ότι ο R μπορεί να εφαρμοστεί στον Α. Είναι εύκολο να αποφανθούμε αν ένας 24

25 «αποφασισμένος» πίνακας R μπορεί να εφαρμοστεί σε έναν «διφορούμενο» πίνακα Α: Ο R μπορεί να εφαρμοστεί στον Α αν και μόνο αν ο Α δεν περιέχει καμία θέση s, τέτοια ώστε οι αποφασισμένες τιμές του Α και του R να διαφέρουν σε αυτή τη θέση s. Μια «αποφασισμένη» θέση s στον Α της οποίας η τιμή διαφέρει από αυτήν στον R λέγεται ότι σταματάει την δυνατότητα εφαρμογής του R στον Α. Για παράδειγμα ο 0110 δεν μπορεί να εφαρμοστεί στον 2012, γιατί η δεύτερη θέση εμποδίζει την εφαρμογή. Η διαδικασία αυτή από τον (Gusfield 2001), μας δίνει μια ιδέα για το πώς λειτουργεί ένας αλγόριθμος εύρεσης απλότυπων. Ο αλγόριθμος αυτός για να βγάλει συμπέρασμα για ένα σύνολο γονότυπων, πρέπει πρώτα να αναγνωρίσει το αρχικά «αποφασισμένο» σύνολο, και στη συνέχεια εφαρμόζει τον κανόνα απόφασης επαναληπτικά, μέχρι να χαρακτηριστούν όλοι οι γονότυποι «αποφασισμένοι» ή να μην υπάρχουν άλλοι γονότυποι που να μπορούν να χαρακτηριστούν «αποφασισμένοι». Ο αλγόριθμος ΕΜ αντί να καταλήξει σε έναν απλότυπο για κάθε άτομο, στοχεύει στην εκτίμηση της συχνότητας των απλότυπων με την μέγιστη πιθανοφάνεια. Αντιμετωπίζει τους γονότυπους σαν καταμετρημένα, αλλά ημιτελή δεδομένα με άγνωστους απλότυπους. Αρχίζοντας από μια αυθαίρετη συχνότητα απλότυπων, ενημερώνει αυτή την συχνότητα περιοδικά μέσα από κάθε ΕΜ κύκλο μέχρι να επιτευχθεί σύγκλιση. Οι προσεγγίσεις του Bayes περιλαμβάνουν μια ομάδα από πολύπλοκες διαδικασίες που βασίζονται στις Monte Carlo μεθόδους (Sun, Greenwood et al. 2007). Αυτές οι μέθοδοι είναι ένα είδος υπολογιστικών αλγόριθμων, οι οποίοι βασίζονται στην επανάληψη τυχαίας δειγματοληψίας για να υπολογίσουν αποτελέσματα. Χρησιμοποιούνται συνήθως στην προσομοίωση φυσικών, μαθηματικών, αλλά και βιολογικών συστημάτων. Την υλοποίηση όλων αυτών των μεθόδων καλείται να πραγματοποιήσει ο ηλεκτρονικός υπολογιστής, που ως γνωστόν, μπορεί να εκτελέσει μαθηματικές πράξεις με πολύ μεγάλη ταχύτητα. Έχουν δημιουργηθεί πολλές εφαρμογές οι οποίες βρίσκουν τον απλότυπο χρησιμοποιώντας τις παραπάνω μεθόδους που περιγράψαμε (Xu, Wu et al. 2004). 25

26 Εικόνα 10: Η εφαρμογή Haplo-i χρησιμοποιεί ένα μοντέλο του Bayes για την επίλυση του προβλήματος εύρεσης απλότυπων Τα πιο γνωστά προγράμματα τα οποία χρησιμοποιούν μεθόδους του Bayes (Sun, Greenwood et al. 2007) είναι τα: HAPLOTYPER, HAP(εικόνα 9), PHASE και HAPLOi (εικόνα 10). Και τα τρία αυτά προγράμματα δίνουν σαν αποτέλεσμα απλότυπους για κάθε άτομο. Οι διαφορές τους βρίσκονται κυρίως στις υποθέσεις για την προηγούμενη πιθανοτική κατανομή και στην υλοποίηση του υπολογιστικού αλγορίθμου. Για παράδειγμα το PHASE υποθέτει μια προηγούμενη κατανομή που προήλθε από ένα προσεγγιστικό μίγμα, ενώ το HAP και το HAPLOTYPER υποθέτουν μια Dirichlet προηγούμενη κατανομή (Xing, Jordan et al. 2007) η οποία ανήκει σε μια οικογένεια πολυπαραγοντικών κατανομών. Το PHASE βρέθηκε να έχει τα πιο ακριβή αποτελέσματα στην εύρεση του απλότυπου, τον υπολογισμό των συχνοτήτων και στις μελέτες συσχέτισης. Επιπλέον τα αποτελέσματά του δεν είχαν κανένα λάθος συγκριτικά με τους απλότυπους που προήλθαν από βιολογικά πειράματα. Οι άλλες δυο μέθοδοι του HAP και HAPLOTYPER είχαν επίσης χαμηλό ποσοστό λαθών. Συμπερασματικά και οι τρεις μέθοδοι έδωσαν συνεπή με την εργαστηριακή προσέγγιση αποτελέσματα, σε λιγότερο χρόνο και κόστος (Xu, Wu et al. 2004). 26

27 ΚΕΦΑΛΑΙΟ 2 ΥΛΙΚΑ ΚΑΙ ΜΕΘΟΔΟΙ 2.1 Ορισμός του προβλήματος Σκοπός αυτής της εργασίας είναι αρχικά να διερευνήσουμε την συμβολή των πολυμορφισμών στην συμπεριφορά κοινών παθήσεων (όπως διαβήτης, καρκίνος, παθήσεις της καρδιάς κλπ). Αν δηλαδή κάποια σύνολα απλότυπων ή ακόμη και μεμονωμένοι απλότυποι που βρίσκονται στο γονιδίωμα των ανθρώπων, παίζουν ή όχι σημαντικό ρόλο στην εμφάνιση κάποιας τέτοιας ασθένειας. Επίσης θέλουμε να προτείνουμε κάποιες απλές μεθόδους για την ανάλυση αυτού του τύπου βιολογικών δεδομένων. Τα δεδομένα των απλότυπων δίνονται από μελέτες που χωρίζονται σε δυο κύριες κατηγορίες. Μελέτες με ασθενείς και μάρτυρες, και μελέτες με μεταβλητή συνεχούς τιμής. 2.2 Η εφαρμογή Stata Το Stata είναι ένα στατιστικό πακέτο γενικής φύσεως το οποίο δημιουργήθηκε το 1985 από την εταιρία StataCorp και είναι ευρέως διαδεδομένο τόσο σε εταιρίες, όσο και σε ακαδημαϊκά κέντρα σε όλο τον κόσμο. Οι περισσότεροι χρήστες το προτιμούν για έρευνα, ειδικά σε τομείς όπως της οικονομίας, της κοινωνιολογίας και της επιδημιολογίας. Οι δυνατότητες της εφαρμογής αυτής περιλαμβάνουν: Διαχείριση των δεδομένων Στατιστική ανάλυση Γραφικές απεικονίσεις Προσομοιώσεις Προγραμματισμός από τον χρήστη Το όνομα Stata είναι μια συγχώνευση δυο λέξεων, statistics που σημαίνει στατιστική, και data, που σημαίνει δεδομένα. Υπάρχουν συνολικά τέσσερις εκδοχές του προγράμματος. Η πρώτη είναι κατασκευασμένη για πολυ-πύρινους υπολογιστές, η δεύτερη είναι ειδικά σχεδιασμένη για εξαιρετικά μεγάλες βάσεις δεδομένων, η τρίτη είναι η βασική έκδοση(και η πιο διαδεδομένη πιθανότατα) και τέλος η τέταρτη η οποία είναι για μικρού μεγέθους δεδομένα, κυρίως για εκπαιδευτική χρήση. 27

28 Στην κύρια οθόνη του προγράμματος υπάρχουν τέσσερα παράθυρα όπως φαίνεται και στην εικόνα 11, στο μεγαλύτερο από αυτά, το κεντρικό παράθυρο, εμφανίζονται τα αποτελέσματα των διεργασιών που εκτελεί η εφαρμογή (Results). Κάτω από το κύριο παράθυρο, είναι το παράθυρο των εντολών (Command), εκεί ο χρήστης πληκτρολογεί τις προς εκτέλεση εντολές. Τα δυο υπολειπόμενα παράθυρα έχουν βοηθητικό και πληροφοριακό ρόλο. Στο πάνω αριστερά, το επονομαζόμενο Review, καταγράφονται οι εντολές που έχουν εκτελεστεί από τον χρήστη μέχρι πρότινος. Και τέλος στο κάτω αριστερά, το επονομαζόμενο Variables βλέπουμε μια λίστα με τα ονόματα των υπαρχόντων μεταβλητών. Παρόλο που υπάρχει το παράθυρο των εντολών και οι χρήστες εισάγουν τα δεδομένα και πραγματοποιούν στατιστικούς ελέγχους με την μορφή εντολών, η εφαρμογή παρέχει και εναλλακτικό τρόπο, χρησιμοποιώντας το κλασικό μενού επιλογών στο πάνω μέρος της εικόνας 11(File Edit Prefs κ.λ.π.). Θα πρέπει να σημειωθεί πως για την εισαγωγή δεδομένων από το excel θα πρέπει οι μεταβλητές να είναι μια λέξη, ή εφόσον είναι δύο η περισσότερες να μην χωρίζονται με κενό, αλλά με το σύμβολο της κάτω παύλας «_». Εικόνα 11: Η κύρια οθόνη του Stata 28

29 2.3 Εκτίμηση του Linkage disequilibrium Στην πληθυσμιακή γενετική, ο όρος linkage disequilibrium που από εδώ και πέρα θα αναφερόμαστε ως LD, περιγράφει μη τυχαία συσχέτιση αλληλόμορφων σε δύο ή περισσότερα σημεία, τα οποία δεν βρίσκονται απαραίτητα στο ίδιο χρωμόσωμα. Δεν είναι το ίδιο με την γενετική συσχέτιση, η οποία περιγράφει την σχέση δύο ή περισσότερων θέσεων σε ένα χρωμόσωμα. Δύο περιοχές που βρίσκονται κοντά πάνω στην αλυσίδα του DNA είναι γενετικά συσχετισμένες με την έννοια ότι έχουν πολλές πιθανότητες μετά την διαδικασία του ανασυνδυασμού και της μείωσης να παραμείνουν και να κληρονομηθούν μαζί, στο ίδιο χρωμόσωμα. Έτσι ο όρος LD περιγράφει μια κατάσταση στην οποία κάποιοι συνδυασμοί αλληλόμορφων ή γενετικών δεικτών παρατηρούνται λιγότερο ή περισσότερο σε έναν πληθυσμό από ότι θα ήταν αναμενόμενο από μια τυχαία διάταξη απλότυπων κάποιων αλληλόμορφων με βάση τις συχνότητές τους. Η μη-τυχαία συσχέτιση μεταξύ πολυμορφισμών σε διαφορετικές θέσεις μετριέται από τον βαθμό του LD. Αριθμητικά είναι η διαφορά μεταξύ των παρατηρηθέντων και των αναμενόμενων (υποθέτουμε τυχαία κατανομή) συχνοτήτων των αλληλόμορφων (Devlin and Risch 1995). Ένα παράδειγμα είναι η εξάπλωση δύο σπάνιων ασθενειών στην Φιλανδία, όπου εκεί συγκριτικά με την υπόλοιπη Ευρώπη, η κυστική ίνωση εξαπλώνεται με αργό ρυθμό. Αντίθετα η έμφυτη χλωριούχος διάρροια (congenital chloride diarrhea) εξαπλώνεται γρήγορα. Και οι δύο ασθένειες οφείλονται σε μεταλλάξεις στο χρωμόσωμα 7, σε γειτονικά γονίδια. Κάτι τέτοιο μπορεί να σημαίνει διαφορές μεταξύ γενετικού υλικού Φιλανδών και υπόλοιπων Ευρωπαίων. Ο βαθμός του LD επηρεάζεται από διάφορους παράγοντες όπως η γενετική συσχέτιση, ο ρυθμός του ανασυνδυασμού, ο ρυθμός των μεταλλάξεων και τη δομή του πληθυσμού. Για παράδειγμα, κάποιοι οργανισμοί όπως τα βακτήρια, τα οποία αναπαράγονται χωρίς μείωση καθότι απλοειδή, παρουσιάζουν LD επειδή απουσιάζει ο ανασυνδυασμός και συνεπώς οι περιοχές που συνδέονται παραμένουν σταθερές Είδη και μεθοδολογίες υπολογισμού του LD Υπάρχουν διάφοροι τρόποι υπολογισμού της συσχέτισης όσον αφορά το LD. Για να κάνουμε τους υπολογισμούς, πρέπει πρώτα να ορίσουμε έναν πίνακα 2Χ2. Σύμφωνα με τους Devlin and Risch υποθέτουμε ότι έχουμε δύο περιοχές 29

30 ενδιαφέροντος στο γενετικό υλικό, και κάθε περιοχή έχει δύο αλληλόμορφα. Ένα αλληλόμορφο για την ασθένεια, και ένα κανονικό αλληλόμορφο τα οποία απομονώνονται στην πρώτη περιοχή ενδιαφέροντος. Τα άλλα δύο αλληλόμορφα τα οποία χρησιμοποιούνται ως γενετικοί δείκτες, απομονώνονται στην δεύτερη περιοχή (Devlin and Risch 1995). Σε αυτήν την περίπτωση τα δεδομένα μας μπορούν να πάρουν την μορφή του πίνακα 1. Παρατηρήστε τα σύνολα που καταγράφονται δεξιά και κάτω από τις απλοτυπικές συχνότητες, καθώς παίζουν σημαντικό ρόλο στους παρακάτω υπολογισμούς. Το n 11 είναι ο αριθμός των απλότυπων στο δείγμα που φέρουν το αλληλόμορφο της ασθένειας για το Α1. Το n A1 είναι ο συνολικός αριθμός των απλότυπων που φέρουν το Α1 αλληλόμορφο, n είναι ο αριθμός των απλότυπων που φέρουν το αλληλόμορφο της ασθένειας και n είναι ο συνολικός αριθμός των απλότυπων του δείγματος. Δείκτης Αλληλόμορφο για την ασθένεια Κανονικό αλληλόμορφο Α1 n Α2 n n n A1 n n A2 n n n Πίνακας 1: Διάταξη συχνοτήτων των απλότυπων σε 2Χ2 πίνακα Διαιρώντας αυτές τις ποσότητες με το n παίρνουμε τις αναμενόμενες συχνότητες και τις πιθανότητες p του δείγματος, (πίνακας 2). Αυτό μας βοηθάει σε διάφορους υπολογισμούς όπως για παράδειγμα, να βρούμε την πιθανότητα του να υπάρχει το αλληλόμορφο Α1 στον απλότυπο, δεδομένου ότι έχουμε αλληλόμορφο της ασθένειας. Αυτό σημαίνει ότι / A1/ έ 11 p p p. Ομοίως η πιθανότητα να έχουμε κανονικό αλληλόμορφο στον απλότυπο δεδομένου ότι υπάρχει μόνο το αλληλόμορφο Α2 είναι p ό/ 2 p22 / p 2. Βέβαια αυτές οι ποσότητες ( p ) είναι μόνο μια εκτίμηση κάποιων άγνωστων παραμέτρων, οι οποίες θα συμβολιστούν με. Χρησιμοποιούμε τα στους ακόλουθους ορισμούς, με την προϋπόθεση ότι αυτές οι άγνωστες ποσότητες υπολογίζονται από τις παρατηρούμενες ποσότητες του δείγματος. 30

31 Δείκτης Αλληλόμορφο για την ασθένεια Κανονικό αλληλόμορφο Α1 p Α2 p p p A1 p p A2 p p 1 Πίνακας 2: Κάθε πιθανότητα προκύπτει από τα στοιχεία του πίνακα 1 διαιρούμενα με το n Ο κοινός παρονομαστής για κάθε μέτρο του LD είναι, όπως αναφέραμε και πριν, η διαφορά μεταξύ παρατηρηθέντων και αναμενόμενων (υπό ανεξαρτησία) αριθμών των απλότυπων που έχουν το αλληλόμορφο της ασθένειας και βρίσκονται στον δείκτη Α1, ή τις ισοδύναμες εκφράσεις της σχέσης 1. D (1) Σύμφωνα με τους Hill and Weir, το πιο ευρέως χρησιμοποιούμενο μέτρο για τον υπολογισμό του LD είναι το τετράγωνο του μέτρου Δ. ( ) /2 1 2 (2) ή αλλιώς το 2 (Hill and Weir 1994). Άλλο ένα μέτρο που χρησιμοποιείται συχνά είναι το D. 31

32 D D min(, ) ' D min(, ) ' D (3) όπου η ποσότητα στον παρονομαστή είναι το μέγιστο D που θα μπορούσε να επιτευχθεί με τα δεδομένα του πίνακα. Αυτά τα δυο μέτρα ( D ', ) σχετίζονται με στατιστικές μεθόδους υπολογισμού της συσχέτισης. Συγκεκριμένα το Δ είναι ο συντελεστής συσχέτισης για έναν πίνακα 2Χ2. Επίσης το Δ είναι ανάλογο του r (σχέση 4) για έναν πίνακα 2Χ2. r ij n ij mˆ ( mˆ ij (1 pai )(1 p )) ij / 1/2 (4) όπου το p / υπολογίζεται ανάλογα με το αν οι δείκτες i, j αντιστοιχούν σε στήλη με το αλληλόμορφο της ασθένειας ή με το κανονικό αλληλόμορφο, και το m ij είναι ο αναμενόμενος αριθμός στο κελί ij. Άλλο ένα μέτρο συσχέτισης που χρησιμοποιείται στην επιδημιολογία για τον * υπολογισμό του LD είναι το, το οποίο ορίζεται ως: * 1 ( 1) 1 ( 1) 1 (5) { / }/{ / } είναι ο σχετικός κίνδυνος ή αλλιώς odds ratio. όπου σχέσης 6. * Το μπορούμε να το βρούμε μετά από κάποιες αλλαγές και στην μορφή της 32

33 (6) η οποία είναι μια προσέγγιση του κινδύνου του πληθυσμού σε μια μεγαλύτερη κλίμακα από αυτή των πληθυσμιακών συχνοτήτων τους. * Αυτό το μέτρο δεν είναι καινούργιο καθώς, όταν η ασθένεια είναι σπάνια * και οι απλότυποι έχουν δειγματοληφθεί τυχαία, τότε ισχύει ότι D ' : * (7) όμως D ' min(, ) (8) βλέπουμε ότι τα δύο κλάσματα των σχέσεων (7) και (8) συμπίπτουν. Άλλο ένα μέτρο το οποίο ενδείκνυται για χρήση σε μελέτες ασθενώνμαρτύρων είναι το d, το οποίο ορίζεται με την παρακάτω σχέση: d (9) 33

34 Επίσης υπάρχουν και άλλα φυσικά μέτρα για το LD, όπως είναι ο σχετικός λόγος των πιθανοτήτων (odds ratio) αλλά και το Q του Yule. (Clegg, Kidwell et al. 1976; Nei and Li 1980; Olson and Wijsman 1994). Ο λόγος των πιθανοτήτων ορίζεται ως: OR (10) με εύρος τιμών [0, ], ενώ το Q ως: OR 1 Q OR (11) με εύρος τιμών [ 1, 1]. Το τελευταίο κλάσμα της εξίσωσης 11 μας δείχνει την σχέση του Q με το δ. Στην πραγματικότητα οι αριθμητές των Δ, D, δ, d και Q είναι όλοι ίσοι με το D, καθώς αυτά τα μέτρα διαφέρουν μόνο κατά τους παρονομαστές τους, οι οποίοι έχουν την χρήση της τυποποίησης του D. Στον πίνακα 3 βλέπουμε συνοπτικά τα προαναφερθέντα μέτρα. 34

35 Σύμβολο Δ D δ d Q Τύπος ( ) / min(, ) Πίνακας 3: Μια σύνοψη των μέτρων υπολογισμού του LD 35

36 2.4 Μελέτες με ασθενείς και μάρτυρες Οι μελέτες με ασθενείς και μάρτυρες είναι ένα είδος επιδημιολογικών μελετών. Χρησιμοποιούνται για την αναγνώριση κάποιων παραγόντων που επηρεάζουν ασθένειες, είτε θετικά είτε αρνητικά. Η μελέτη γίνεται πάνω σε έναν πληθυσμό ατόμων τα οποία αποτελούνται από άτομα που έχουν κάποια ασθένεια και από άτομα υγιή, χωρίς όμως να παρουσιάζουν σημαντικές διαφορές από τους ασθενείς (Fallin, Cohen et al. 2001), έχουν δηλαδή τις ίδιες συνθήκες ζωής και έχουν επιλεγεί με τα ίδια κριτήρια. Αυτού του είδους οι μελέτες είναι ένα πολύ φθηνό εργαλείο που χρησιμοποιείται ευρέως και με μεγάλη ευκολία, από μικρές ομάδες ή ερευνητές. Το βασικό πλεονέκτημα είναι ότι δεν απαιτείται ιδιαίτερος εργαστηριακός εξοπλισμός καθώς βασίζονται στην στατιστική και όχι στην εργαστηριακή ανάλυση. Έχουν οδηγήσει σε σημαντικές ανακαλύψεις, αλλά έχουν το αρνητικό χαρακτηριστικό ότι μπορεί να υπάρχουν παράγοντες που δεν ξέρουμε, οι οποίοι επηρεάζουν κατά ένα ποσοστό το αποτέλεσμα. Παρακάτω ακολουθεί μια εικόνα ενός πίνακα ασθενών-μαρτύρων (εικόνα 12). Στις στήλες του πίνακα διαχωρίζονται οι ασθενείς και οι μάρτυρες, ενώ στις γραμμές βλέπουμε τους διάφορους παράγοντες που μπορεί να σχετίζονται με την ασθένεια. Κάποιοι βασικοί παράγοντες είναι το κάπνισμα, ο τόπος κατοικίας, η ηλικία και η ύπαρξη άλλων μορφών καρκίνου. Κάτω από την γραμμή κάθε παράγοντα, παρατηρούμε και το p-value, το οποίο δείχνει αν απορρίπτουμε ή δεχόμαστε την μηδενική υπόθεση, η οποία είναι ότι δεν υπάρχει συσχέτιση παράγοντα-ασθένειας. 36

37 Εικόνα 12: Χαρακτηριστικά ασθενών-μαρτύρων από μια μελέτη για την σχέση μεταξύ καρκίνου του πνεύμονα και επαγγέλματος (Consonni, De Matteis et al. 2010) 37

38 Σε αυτήν εδώ την εργασία τα δεδομένα έχουν την ίδια μορφή με την παραπάνω μελέτη. Η μόνη διαφορά είναι ότι οι παράγοντες κινδύνου δεν είναι ένα σύνολο από διατροφικές συνήθειες, ηλικίες κ.λ.π., αλλά από ένα σύνολο διαφορετικών απλότυπων. Έτσι η έρευνα επικεντρώνεται στο να διαπιστώσουμε κάποιες διαφορές ανάμεσα σε άτομα με διαφορετικό απλότυπο ώστε να μπορέσουμε να κάνουμε μια εκτίμηση για τον βαθμό που επηρεάζεται η ασθένεια από αυτόν. Συνεπώς για έναν πίνακα ασθενών και μαρτύρων θα έχουμε στην πρώτη στήλη τους ασθενείς (cases) και στην δεύτερη στήλη τους μάρτυρες (controls). Ενώ στην πρώτη γραμμή, τον απλότυπο τύπου 1, στην δεύτερη τον απλότυπο τύπου 2 κ.ο.κ. ασθενείς (cases) μάρτυρες (controls) απλότυπος απλότυπος απλότυπος n Πίνακας 4: Η κύρια μορφή των δεδομένων στις μελέτες με ασθενείς και μάρτυρες Με βάση τον πίνακα 4 μπορούμε να πραγματοποιήσουμε διάφορες στατιστικές διεργασίες με το πρόγραμμα Stata, οι οποίες θα μας βοηθήσουν να εξάγουμε κάποια συμπεράσματα. Τα δεδομένα σε αυτήν την εργασία έχουν την παρακάτω μορφή (εικόνα 13): 38

39 Εικόνα 13: Η μορφή των δεδομένων που εισάγονται στο Stata 39

40 Αφού αντιγράψουμε τα δεδομένα από τον πίνακα του excel, για να τα εισάγουμε στο Stata πληκτρολογούμε την εντολή «edit» στην κύρια οθόνη του, και στην συνέχεια στο παράθυρο που εμφανίζεται κάνουμε επικόλληση Ο έλεγχος χ 2 του Pearson για την ανεξαρτησία δυο δειγμάτων Υπάρχουν δύο έλεγχοι του Pearson. Ο πρώτος αναφέρεται σαν τεστ καλής προσαρμογής, και ο δεύτερος (ο οποίος χρησιμοποιείται και αναλύεται εδώ) αναφέρεται ως τεστ ανεξαρτησίας. Με αυτό τον έλεγχο, έχοντας δυο σύνολα δεδομένων, μπορούμε να ελέγξουμε κατά πόσο αυτά τα σύνολα είναι στατιστικώς συνδεδεμένα. Σαν μηδενική υπόθεση έχουμε το γεγονός ότι τα δυο σύνολα είναι στατιστικώς ανεξάρτητα. Τα δεδομένα οργανώνονται σε έναν πίνακα με r γραμμές και c στήλες, έπειτα υπολογίζεται για κάθε κελί του πίνακα η ακόλουθη θεωρητική συχνότητα: E i, j c O ik, k, j k 1 k 1 N r O (12) Αυτή η προσαρμογή μειώνει τους βαθμούς ελευθερίας κατά p r c 1. Τέλος υπολογίζουμε την τιμή του 2 X χρησιμοποιώντας την σχέση: X 2 r c O 2 i, j Ei, j E i 1 j 1 i, j (13) Ο αριθμός των βαθμών ελευθερίας είναι ίσος με τον αριθμό των κελιών του πίνακα, μείον τον αριθμό p. 2 Αν από αυτό το τεστ έχουμε σαν αποτέλεσμα πιθανότητα X ίση ή μικρότερη από 0.05, τότε η μηδενική υπόθεση απορρίπτεται και μπορούμε να πούμε ότι υπάρχει τυχαία συσχέτιση μεταξύ των δυο συνόλων. Αυτήν την πιθανότητα την υπολογίζουμε από την γραφική παράσταση της κατανομής 2 X (εικόνα 14). 40

41 Εικόνα 14: Η κατανομή 2 X Παραδείγματος χάρη για να πραγματοποιήσουμε αυτόν τον έλεγχο σε δεδομένα όπως αυτά της εικόνας 13, αφού πρώτα τα εισάγουμε στο Stata, εκτελούμε την εντολή: tabulate haplotype_nr case [fweight=frequency], row col chi2 Η εντολή tabulate δημιουργεί πίνακα συχνοτήτων μεταξύ των μεταβλητών haplotype_nr και case. Επιπλέον ορίζουμε ότι θέτουμε ως βάρος την συχνότητα, με την παράμετρο [fweight=frequency], και ζητάμε να γίνει ο έλεγχος X 2 με αναφορά ταυτόχρονα των σχετικών συχνοτήτων για κάθε γραμμή και κάθε στήλη (row col). Τα αποτελέσματα της οποίας είναι τα ακόλουθα (εικόνα 15): 41

42 Εικόνα 15: Αποτελέσματα του χ 2 του Pearson Στα αποτελέσματα αυτά παρατηρούμε ότι ο χ 2 έχει τιμή περίπου 48.6 και το p- value είναι κάτω από 0.05, αυτό δείχνει ότι υπάρχει τυχαία συσχέτιση μεταξύ του συνόλου των απλότυπων, και της ασθένειας. Ο έλεγχος αυτός έχει εισαγωγικό χαρακτήρα, καθώς όταν βλέπουμε πως υπάρχει τυχαία συσχέτιση μεταξύ των στοιχείων, μας προτρέπει να ασχοληθούμε παραπάνω με την συγκεκριμένη μελέτη. Στην αντίθετη περίπτωση κάτι τέτοιο θα ήταν πιθανότατα περιττό Εκτίμηση μέγιστης πιθανοφάνειας Η εκτίμηση μέγιστης πιθανοφάνειας είναι μια μέθοδος που χρησιμοποιούμε για την προσαρμογή ενός στατιστικού μοντέλου σε κάποια δεδομένα, καθώς επίσης και να κάνουμε μια εκτίμηση για τις παραμέτρους του μοντέλου αυτού. Για παράδειγμα ας υποθέσουμε ότι θέλουμε να ασχοληθούμε με το ύψος ενός πληθυσμού. Έχουμε ένα δείγμα ατόμων, αλλά όχι ολόκληρο των πληθυσμό (της χώρας, της κοινότητας κλπ), και καταγράφουμε τα ύψη τους. Θα πρέπει να υποθέσουμε ότι τα ύψη ακολουθούν κανονική κατανομή με κάποια άγνωστη μέση τιμή και διακύμανση. Τότε ο μέσος όρος του δείγματος είναι η εκτιμήτρια μέγιστης 42

43 πιθανοφάνειας του μέσου όρου ολόκληρου του πληθυσμού, όπως και η διακύμανση του δείγματος είναι η εκτιμήτρια μέγιστης πιθανοφάνειας της διακύμανσης του πληθυσμού Λογιστική παλινδρόμηση Στη στατιστική η λογιστική παλινδρόμηση χρησιμοποιείται για την πρόβλεψη της πραγματοποίησης ενός γεγονότος, με την προσαρμογή κάποιων δεδομένων σε μια λογιστική συνάρτηση. Είναι ένα γενικευμένο γραμμικό μοντέλο που χρησιμοποιείται για την εξαγωγή αποτελεσμάτων διωνυμικού τύπου. Δηλαδή ισχύει-δεν ισχύει. Για την πρόβλεψη αυτή γίνεται χρήση διαφόρων μεταβλητών, είτε κατηγορικών, είτε αριθμητικών (Agresti 2002). Για παράδειγμα η πιθανότητα για κάποιον να πάθει έμφραγμα μέσα σε μια συγκεκριμένη περίοδο, μπορεί να προβλεφθεί από τις γνώσεις που έχουμε για την ηλικία, το φύλο και τον δείκτη μάζας σώματος. Αυτό το μοντέλο χρησιμοποιείται σε μεγάλο βαθμό στις ιατρικές και κοινωνικές επιστήμες, αλλά και σε εφαρμογές του marketing όπως την πρόβλεψη των τάσεων του πελάτη για την αγορά ενός προϊόντος. Για να εξηγήσουμε την λογιστική παλινδρόμηση, πρέπει πρώτα να εξηγήσουμε την λογιστική συνάρτηση (εικόνα 16). Εικόνα 16: Η συνάρτηση f(z) με διάφορες τιμές του z στον άξονα των x Σαν είσοδο της συνάρτησης έχουμε τον αριθμό z, και σαν έξοδο έχουμε το f(z). Ο z παίρνει τιμές από το έως το ενώ το πεδίο τιμών της f(z) είναι το (0,1). Η μεταβλητή z απεικονίζει την έκθεση σε ένα σύνολο από ανεξάρτητες 43

44 μεταβλητές, ενώ η f(z) απεικονίζει την πιθανότητα ενός συγκεκριμένου αποτελέσματος, με βάσει τις παραπάνω μεταβλητές. Ο τύπος της συνάρτησης είναι ο εξής: f( z) z 1 e z z 1 e e 1 (14) Επιπλέον το z εκφράζει την συνολική συνεισφορά όλων των ανεξάρτητων μεταβλητών που χρησιμοποιήθηκαν στο μοντέλο, και είναι γνωστό και ως logit. z logit( p) (15) Το logit ενός αριθμού p από 0 μέχρι 1 δίνεται από τον παρακάτω τύπο: p log it( p) log log( p) log(1 p) 1 p (16) Η μεταβλητή z ορίζεται συνήθως σύμφωνα με τον παρακάτω τύπο: z x x x x k k (17) όπου το στοιχείο 0 ονομάζεται στοιχείο αναφοράς και τα 1, 2, 3 ονομάζονται συντελεστές παλινδρόμησης των x 1, x 2, x 3... x k αντίστοιχα.... Το στοιχείο αναφοράς είναι η τιμή του z όταν η τιμή όλων των ανεξάρτητων μεταβλητών είναι μηδέν (για παράδειγμα η τιμή του z όταν απεικονίζει την πιθανότητα καρδιακής προσβολής για ένα άτομο, χωρίς επιβαρυντικούς παράγοντες). k 44

45 Κάθε ένας από τους συντελεστές παλινδρόμησης παριστάνει το μέγεθος της συνεισφοράς του αντίστοιχου επιβαρυντικού παράγοντα. Ένας θετικός συντελεστής παλινδρόμησης δείχνει ότι ο αντίστοιχος παράγοντας αυξάνει την πιθανότητα πραγματοποίησης του αποτελέσματος, ενώ ένας αρνητικός συντελεστής παλινδρόμησης σημαίνει ότι ο αντίστοιχος παράγοντας μειώνει την πιθανότητα πραγματοποίησης του αποτελέσματος. Επιπλέον ένας μεγάλος συντελεστής παλινδρόμησης σημαίνει ότι ο αντίστοιχος παράγοντας επηρεάζει κατά πολύ την πιθανότητα πραγματοποίησης του αποτελέσματος, ενώ ένας συντελεστής παλινδρόμησης κοντά στο μηδέν έχει μικρή επιρροή στην πιθανότητα πραγματοποίησης του αποτελέσματος. Για να προσαρμόσουμε αυτό το μοντέλο στα δεδομένα μας, πρέπει να σκεφτούμε πως έχουμε μια κατηγορική μεταβλητή (case) για τους ασθενείς/μάρτυρες, η οποία παίζει το ρόλο της εξαρτημένης μεταβλητής, και μετά έχουμε τους απλότυπους που επηρεάζουν την κατάσταση της μεταβλητής αυτής θετικά ή αρνητικά, συνεπώς χρησιμοποιούνται ως ανεξάρτητες μεταβλητές. Έτσι μπορούμε να δημιουργήσουμε μια πιθανότητα εμφάνισης της ασθένειας, λαμβάνοντας υπόψη την επιρροή των απλότυπων. Έχουμε λοιπόν την πιθανότητα Py ( 1 j) του να είναι κάποιος ασθενής (δηλαδή y=1), έχοντας τον j απλότυπο. Το καλύτερο σενάριο θα ήταν να διαλέξουμε τον πιο κοινό απλότυπο (δηλαδή τον απλότυπο με την μεγαλύτερη συχνότητα) ως το στοιχείο αναφοράς, και να φτιάξουμε μια μεταβλητή για κάθε έναν από τους υπόλοιπους. Η μεταβλητή αυτή θα παίρνει τιμές z j 1 για τον j απλότυπο, και 0 σε όλες τις άλλες περιπτώσεις. Στην εικόνα 17 βλέπουμε ένα παράδειγμα τέτοιας μεταβλητής για τον απλότυπο 3, τον τρίτο δηλαδή κατά σειρά απλότυπο. Παρατηρούμε ότι μόνο η τρίτη θέση έχει τον αριθμό 1. Αν αναφερόμασταν πχ στον απλότυπο 6, το 1 θα ήταν στην έκτη κατά σειρά θέση. Εδώ οι απλότυποι είναι 7 στο σύνολο και απλά η διαδικασία επαναλαμβάνεται πολλές φορές. Αυτό το μοντέλο λοιπόν μπορεί να πραγματοποιηθεί ως εξής, (Wallenstein, Hodge et al. 1998): j j log it( ) log it P( y 1 j) z j j 0 j j j 2 r (18) 45

46 Εικόνα 17: Η μορφή της μεταβλητής που κωδικοποιεί τον απλότυπο 3 Για να εκτελέσουμε αυτόν τον έλεγχο στο Stata, αφού εισάγουμε τα δεδομένα, πρέπει να πληκτρολογήσουμε την παρακάτω εντολή: xi : logit case i.haplotype_nr [fweight=frequency] Με το xi στην αρχή της εντολής δηλώνουμε ότι θέλουμε να χρησιμοποιήσουμε μια κατηγορική μεταβλητή η οποία θα έχει έναν δείκτη. Αυτή θα είναι η haplotype_nr όπου βάζοντας μπροστά της το i. δηλώνουμε στο Stata ότι αυτή θα είναι η μεταβλητή μας. Πέρα από αυτά με την εντολή logit δηλώνουμε πως θέλουμε να κάνουμε λογιστική παλινδρόμηση με εξαρτημένη μεταβλητή την case και ανεξάρτητη την i.haplotype_nr. Επιπλέον θέλουμε να συμπεριλάβουμε τις συχνότητες των δεδομένων με την παράμετρο [fweight=frequency]. Και τα αποτελέσματα που εμφανίζονται στην οθόνη είναι τα εξής: 46

47 Εικόνα 18: Αποτελέσματα της λογιστικής παλινδρόμησης Στην εικόνα 18 βλέπουμε έξι στήλες. Η πρώτη στήλη με το όνομα case δείχνει τις διάφορες ανεξάρτητες μεταβλητές οι οποίες επηρεάζουν το συνολικό αποτέλεσμα της παλινδρόμησης. Παρατηρούμε ότι μια μεταβλητή δεν υπάρχει, πράγμα αναμενόμενο καθώς μια από τις μεταβλητές επιλέγεται ως το «στοιχείο αναφοράς» (_Ihaplotype_1). Στην δεύτερη στήλη έχουμε τους συντελεστές παλινδρόμησης που αντιστοιχούν στις ανεξάρτητες μεταβλητές. Στην επόμενη στήλη βλέπουμε έναν υπολογισμό της τυπικής απόκλισης. Στη συνέχεια βλέπουμε τις τιμές της ποσότητας z, η οποία όπως αναφέραμε παραπάνω είναι μια λογαριθμική διαφορά (σχέσεις 15, 16) και ισούται με το στοιχείο logit(p). Οι μεταβολές αυτής της ποσότητας δείχνουν ουσιαστικά την πορεία των υπολογισμών του μοντέλου καθώς υπολογίζεται η συνεισφορά κάθε συντελεστή παλινδρόμησης. Στη συνέχεια βλέπουμε τις τιμές του p-value. Ανάλογα με το διάστημα εμπιστοσύνης, αν η τιμή του p-value είναι μικρότερη από έναν οριακό αριθμό, τότε πρέπει να απορρίψουμε την αρχική υπόθεση που κάναμε στην αρχή του στατιστικού ελέγχου. Σε αυτήν εδώ την εργασία χρησιμοποιούμε διάστημα εμπιστοσύνης 95% πράγμα που σημαίνει πως ο οριακός αριθμός είναι το Η περιοχή μεταξύ των διακεκομμένων γραμμών καλύπτει το 95% της κατανομής, συνεπώς υπάρχει 95% πιθανότητα να έχουμε μια τιμή εντός αυτού του πλαισίου (εικόνα 19). Τέλος έχουμε την στήλη του διαστήματος εμπιστοσύνης. Αποτελείται από δυο αριθμούς, το κάτω όριο και το πάνω όριο. 47

48 Εικόνα 19: Το διάστημα εμπιστοσύνης και τα όριά του Υπάρχουν και άλλοι τρόποι απεικόνισης των αποτελεσμάτων. Όπως ξέρουμε, η παλινδρόμηση χρησιμοποιεί κατά την διάρκεια των υπολογισμών τον λόγο των πιθανοτήτων (σχέση 10). Για κάθε συντελεστή παλινδρόμησης ισχύει ότι exp( ) OR. i Για παράδειγμα στην συγκεκριμένη μελέτη, ο απλότυπος 1 έχει επιλεχθεί από το Stata ως στοιχείο αναφοράς. Αυτό σημαίνει πως οι επόμενοι απλότυποι θα εξεταστούν ως προς την απόκλισή τους από το στοιχείο αναφοράς, πράγμα που γίνεται με χρήση του πίνακα 5. case control haplotype haplotype Πίνακας 5: Απλότυποι σε σχέση με ασθένεια Υπολογίζοντας τον λόγο των πιθανοτήτων του πίνακα προκύπτει ότι: OR = Όταν ο λόγος είναι ίσος με την μονάδα, σημαίνει πως τα άτομα που έχουν τον απλότυπο 1, έχουν τον ίδιο κίνδυνο να εμφανίσουν την ασθένεια με τα άτομα που έχουν τον απλότυπο 2. Όταν ο λόγος είναι μεγαλύτερος από την μονάδα, τότε τα άτομα που έχουν τον απλότυπο 2 έχουν μεγαλύτερη πιθανότητα να εμφανίσουν την ασθένεια σε σύγκριση με αυτόυς που έχουν τον απλότυπο 1. Τέλος όταν ο λόγος είναι 48

49 μικρότερος από την μονάδα, τότε τα άτομα που έχουν τον απλότυπο 2 έχουν μικρότερη πιθανότητα να εμφανίσουν την ασθένεια σε σύγκριση με αυτούς που έχουν τον απλότυπο 1. Η ίδια διαδικασία θα επαναληφθεί για όλους τους απλότυπους της μελέτης και συνεπώς προκύπτουν και οι αντίστοιχοι λόγοι πιθανοτήτων. Αξίζει να σημειώσουμε πως κάθε φορά συγκρίνεται κάθε απλότυπος με τον πρώτο, ο οποίος έχει και την μεγαλύτερη συχνότητα, και συνεπώς έχουμε μια εκτίμηση του πόσο αλλάζουν οι πιθανότητες ασθένειας για διαφορετικούς απλότυπους σε σύγκριση με τον πιο κοινό. Με την ακόλουθη εντολή, το Stata μπορεί να μας εμφανίσει τους σχετικούς λόγους πιθανοτήτων (Odds ratio) που έχει υπολογίσει, κάτι που μπορεί να βοηθήσει στην καλύτερη ερμηνεία των αποτελεσμάτων: xi : logit case i.haplotype_nr [fweight=frequency], or Δεν αλλάζει κάτι στην λειτουργία της λογιστικής παλινδρόμησης, απλά προσθέτουμε σαν επιπλέον επιλογή το or. Το αποτέλεσμα φαίνεται στην εικόνα 20. Εικόνα 20: Αποτελέσματα της λογιστικής παλινδρόμησης με Odds Ratio Παρατηρούμε ότι η στήλη με τους συντελεστές παλινδρόμησης έχει αντικατασταθεί από τους λόγους πιθανοτήτων. Μετά την εκτέλεση της παλινδρόμησης, μπορούμε να εκτελέσουμε έναν έλεγχο πάνω στους συντελεστές (coefficients) για να δούμε ποιος από αυτούς 49

50 διαφέρει από τους υπόλοιπους, και να έχουμε μια ποσοτική εκτίμηση για την διαφορά αυτή. Ο έλεγχος αυτός έχει τις εξής υποθέσεις: H0 Όλοι οι συντελεστές είναι ίσοι με 0 H1 Κάποιοι ή όλοι οι συντελεστές δεν είναι 0 Για να εκτελέσουμε αυτή τη διαδικασία στο Stata πρέπει να πληκτρολογήσουμε την παρακάτω εντολή: testparm _Ihaplotype_* Έτσι δηλώνουμε ότι θέλουμε να κάνουμε τον έλεγχο αυτό στους συντελεστές της μεταβλητής _Ihaplotype_* η οποία προέκυψε από την παλινδρόμηση. Το σύμβολο * δηλώνει πως θέλουμε όλα τα περιεχόμενα της μεταβλητής αυτής. και τα αποτελέσματα φαίνονται στην εικόνα 21. Εικόνα 21: Τα αποτελέσματα του testparm Ουσιαστικά συγκρίνουμε όλους τους συντελεστές με τον ίδιο αριθμό (εδώ το 0) και μετράμε την απόστασή τους από αυτόν. Στην περίπτωση αποδοχής της H 0 οι διαφορές των συντελεστών δεν είναι μεγάλες και μπορούμε να συμπεράνουμε ότι δεν έχουμε κάποιον απλότυπο που να επηρεάζει κατά πολύ την ασθένεια. Αντίθετα στην H 1 βλέπουμε ότι υπάρχουν διαφορές, και αυτό μας προτρέπει να ερευνήσουμε ποιος ή ποιοι απλότυποι είναι που διαφέρουν. Επιπλέον υπολογίζεται και ο 2 X του Pearson, που δηλώνει το πόσο ισχυρή είναι η διαφορά και η ισότητα των συντελεστών αντίστοιχα. Αυτός ο έλεγχος μπορεί να γίνει για διάφορους συνδυασμούς απλότυπων και δεν είναι υποχρεωτικό να έχουμε μια εκτίμηση μόνο για το σύνολό τους. 50

51 Παραδείγματος χάρη μπορούμε να ελέγξουμε ένα ζευγάρι απλότυπων, μια τριάδα κλπ. Σε αυτήν την περίπτωση η σύνταξη της εντολής αλλάζει και γίνεται έτσι: test _Ihaplotype_3 _Ihaplotype_7 Έτσι ελέγχουμε την ομοιότητα των συντελεστών του απλότυπου 3 και του 7, βάζοντας απλά τον αντίστοιχο αριθμό στην θέση του * που είδαμε πιο πριν. Γίνεται σαφές ότι αυτός ο επιπλέον έλεγχος είναι απαραίτητος, διότι στα αποτελέσματα της εικόνας 21 βλέπουμε πως στο σύνολό τους οι απλότυποι διαφέρουν όλοι μεταξύ τους. Στην συνέχεια όμως θα δούμε πως ο 3 και ο 7 δεν έχουν στατιστικώς μεγάλη διαφορά (εικόνα 22) καθώς δεχόμαστε την μηδενική υπόθεση. Εικόνα 22: Αποτελέσματα του test για δυο μεταβλητές Βασικό κριτήριο πάντα για την αποδοχή ή απόρριψη της υπόθεσης είναι το p-value που όπως βλέπουμε στον πρώτο έλεγχο (εικόνα 21) είναι μικρότερο από 0.05 και συνεπώς δεν υπάρχει ισότητα, ενώ στον δεύτερο έλεγχο βλέπουμε τελικά ότι με p- value= οι απλότυποι 3 και 7 είναι στατιστικά ισοδύναμοι. Φυσικά μπορούμε να κάνουμε αυτόν τον έλεγχο με όσες από τις μεταβλητές που έχουν αντίστοιχο συντελεστή παλινδρόμησης επιθυμούμε, πχ: test _Ihaplotype_3 _Ihaplotype_7 _Ihaplotype_6 test _Ihaplotype_2 _Ihaplotype_5 _Ihaplotype_7 _Ihaplotype_4 Με αποτέλεσμα την εικόνα 23: 51

52 Εικόνα 23: αποτελέσματα του test για 3 και 4 μεταβλητές Πολυωνυμική λογιστική παλινδρόμηση Η πολυωνυμική λογιστική παλινδρόμηση είναι κατάλληλη για χρήση σε κατηγορικές, εξαρτημένες μεταβλητές, χρησιμοποιείται δηλαδή για την ανάλυση των σχέσεων μεταξύ μη μετρικών εξαρτημένων μεταβλητών με μετρικές ή διχοτομικές ανεξάρτητων μεταβλητών. Συγκρίνει πολλές ομάδες μέσα από ένα συνδιασμό δυαδικών λογιστικών παλινδρομήσεων. Αυτό συμβαίνει επειδή όταν οι κατηγορίες είναι δυο, η διαδικασία είναι ίδια ακριβώς με την δυαδική λογιστική παλινδρόμηση που αναφέρουμε παραπάνω. Το πολυωνιμικό αυτό μοντέλο, είναι μια άμεση επέκταση των λογιστικών μοντέλων, και ο τρόπος υπολογισμού του έχει κάποια κοινά στοιχεία με αυτά (Chen and Kao 2006). Ας υποθέσουμε ότι μια εξαρτημένη κατηγορική μεταβλητή έχει Μ κατηγορίες. Μια από τις τιμές της (συνήθως η πρώτη, η τελευταία, ή αυτή με την μεγαλύτερη συχνότητα) ορίζεται ως η κατηγορία αναφοράς. Αυτή η κατηγορία στην συνέχεια θα αποτελέσει κοινό παρονομαστή για όλες τις υπόλοιπες. Η πιθανότητα της σχέσης με άλλες κατηγορίες, συγκρίνεται με την πιθανότητα σχέσης με την κατηγορία αναφοράς. Για μια εξαρτημένη μεταβλητή με Μ κατηγορίες, απαιτείται ο υπολογισμός Μ-1 εξισώσεων, μια για κάθε κατηγορία εκτός της κατηγορίας αναφοράς, για να περιγράψουμε την σχέση της εξαρτημένης μεταβλητής με τις ανεξάρτητες. Έτσι, αν υποθέσουμε ότι για κατηγορία αναφοράς επιλέγεται η πρώτη, τότε για m = 2..M, έχουμε: 52

53 ln K PY ( i m) a X Z PY ( 1) i m mk ik mi k 1 (19) Συνεπώς για κάθε περίπτωση θα έχουμε Μ-1 υπολογισμένες λογαριθμικές ποσότητες, μια για κάθε κατηγορία, σε σχέση με την κατηγορία αναφοράς. Αξίζει να σημειωθεί πως όταν m=1, έχουμε σαν αποτέλεσμα στην σχέση 19 το ln(1) = 0 = Z 11. Όταν έχουμε εξαρτημένη μεταβλητή με παραπάνω από δυο κατηγορίες, ο υπολογισμός των πιθανοτήτων γίνεται κάπως πιο πολύπλοκος από την λογιστική παλινδρόμηση. Για m = 2 Μ, έχουμε: exp( Zmi ) PY ( i m) M 1 exp( Zmi ) m 2 (20) και για την κατηγορία αναφοράς: 1 PY ( i 1) M 1 exp( Zmi ) m 2 (21) Συνοπτικά η διαδικασία έχεις ως εξής: παίρνουμε τους Μ-1 λογάριθμους που υπολογίσαμε, και τους υψώνουμε ως εκθέτες με βάση τον αριθμό e. Μόλις γίνει αυτό, ο υπολογισμός των πιθανοτήτων είναι εύκολη υπόθεση. Αυτή η μέθοδος βασίζεται στην πιθανότητα επιρροής από παράγοντες, δεδομένης της κατάστασης (ασθενής ή μάρτυρας), όπως εφαρμόζεται στις μελέτες ασθενών και μαρτύρων. Οι απλότυποι χρησιμοποιούνται ως εξαρτημένες μεταβλητές και η κατάσταση (ασθενής/μάρτυρας) λαμβάνεται ως κατηγορία αναφοράς (base outcome) σε αυτήν την μέθοδο (McCullagh 1999). Είναι εύκολο να δούμε ότι οι συντελεστές της παλινδρόμησης ( j ) είναι προσεγγίσεις του σχετικού λόγου των πιθανοτήτων καθώς e j OR. 53

54 Φυσικά ο πρώτος συντελεστής 1=0 στην περίπτωση που χρησιμοποιείται ως κατηγορία αναφοράς. Αυτό το μοντέλο προτάθηκε για την ανάλυση δεδομένων απλότυπων πρώτα από τους (Chen and Kao 2006). Για να εκτελέσουμε αυτόν τον έλεγχο στο Stata, αφού εισάγουμε τα δεδομένα, πρέπει να πληκτρολογήσουμε την παρακάτω εντολή: xi: mlogit case i.haplotype_nr [fweight=frequency] Με το xi στην αρχή της εντολής δηλώνουμε ότι θέλουμε να χρησιμοποιήσουμε μια κατηγορική μεταβλητή η οποία θα έχει έναν δείκτη. Αυτή θα είναι η haplotype_nr όπου βάζοντας μπροστά της το i. δηλώνουμε στο Stata ότι αυτή θα είναι η μεταβλητή μας. Πέρα από αυτά με την εντολή mlogit δηλώνουμε πως θέλουμε να κάνουμε πολυωνυμική λογιστική παλινδρόμηση με εξαρτημένη μεταβλητή την case και ανεξάρτητη την i.haplotype_nr. Επιπλέον θέλουμε να συμπεριλάβουμε τις συχνότητες των δεδομένων με την παράμετρο [fweight=frequency]. Και τα αποτελέσματα εμφανίζονται στην εικόνα 24. Εικόνα 24: Αποτελέσματα της πολυωνυμικής παλινδρόμησης Παρατηρούμε ότι τα αποτελέσματα είναι ίδια με αυτά της προηγούμενης μεθόδου. Αυτό είναι αναμενόμενο καθώς υπάρχουν πολλές ομοιότητες. 54

55 Και σε αυτήν την περίπτωση μπορούμε να απεικονίσουμε τους σχετικούς λόγους των πιθανοτήτων με την παρακάτω εντολή: xi: mlogit case i.haplotype_nr [fweight=frequency], rrr Με το rrr (relative risk ratio) σαν πρόσθετη επιλογή, δηλαδή ο λόγος σχετικού κινδύνου, έχουμε το αποτέλεσμα της εικόνας 25. Εικόνα 25: Αποτελέσματα πολυωνυμικής παλινδρόμησης με relative risk ratio Και πάλι βλέπουμε την στήλη με τους συντελεστές να γίνεται λόγος σχετικού κινδύνου για κάθε απλότυπο. Στη συνέχεια μπορούμε να εκτελέσουμε τον έλεγχο ισότητας των συντελεστών με την παρακάτω εντολή: test [1] Και τα αποτελέσματα στην εικόνα 26 είναι ακριβώς ίδια με της λογιστικής παλινδρόμησης, απλώς αντί για την εντολή testparm χρησιμοποιούμε την test [1] και δεν είναι απαραίτητο να συμπεριλάβουμε την μεταβλητή με τους συντελεστές στην σύνταξη. 55

56 Εικόνα 26: Αποτελέσματα του test [1] Επίσης μπορούμε όπως αναφερθήκαμε και παραπάνω να εκτελέσουμε αυτόν τον έλεγχο όχι μόνο για το σύνολο, αλλά και για κάποιες ομάδες απλότυπων. Η μόνη διαφορά φαίνεται στην σύνταξη της εντολής, όπου βάζουμε άνω και κάτω τελεία πριν τις μεταβλητές που επιθυμούμε, σε αντίθεση με την λογιστική παλινδρόμηση: test [1]: _Ihaplotype_6 _Ihaplotype_7 Εικόνα 27: test[1] για δυο μεταβλητές Βλέπουμε ότι ο απλότυπος 7 είναι ίδιος με τον 6 (εικόνα 27), και μπορούμε να πούμε ότι οι απλότυποι 6 και 7 επηρεάζουν στην ίδια περίπου ένταση το αποτέλεσμα της παλινδρόμησης και κατ επέκταση την ασθένεια. Όσο αυξάνεται ο αριθμός των ελέγχων που κάνουμε, τόσο καλύτερη εικόνα έχουμε για το τι συμβαίνει. Φυσικά μπορούμε να κάνουμε αυτόν τον έλεγχο με όσες από τις μεταβλητές που έχουν αντίστοιχο συντελεστή παλινδρόμησης επιθυμούμε, πχ: test [1]: _Ihaplotype_3 _Ihaplotype_7 _Ihaplotype_6 test [1]: _Ihaplotype_2 _Ihaplotype_5 _Ihaplotype_7 _Ihaplotype_4 Με τα ακόλουθα αποτελέσματα (εικόνα 28): 56

57 Εικόνα 28: Αποτελέσματα του test [1] για 3 και 4 μεταβλητές 57

58 2.4.5 Παλινδρόμηση Poisson Αυτού του είδους η παλινδρόμηση σχετίζεται με την κατανομή Poisson (εικόνα 29), η οποία είναι μια κατανομή που εκφράζει την πιθανότητα εμφάνισης ενός αριθμού γεγονότων σε συγκεκριμένο χρόνο. Τα γεγονότα αυτά είναι ανεξάρτητα το ένα με το άλλο. Αν ο αναμενόμενος αριθμός των γεγονότων είναι λ, τότε η πιθανότητα να έχουμε ακριβώς n γεγονότα ( n 0,1,2,...) είναι: f( n, ) n e n! (22) Εικόνα 29: Η συνάρτηση μάζας πιθανότητας της κατανομής Poisson Η παλινδρόμηση Poisson είναι μια μορφή παλινδρόμησης που χρησιμοποιείται για να μοντελοποιήσει απαριθμήσιμα δεδομένα και πίνακες ενδεχομένων. Απαριθμήσιμα δεδομένα, είναι τα δεδομένα στα οποία οι παρατηρήσεις παίρνουν μη-μηδενικές ακέραιες τιμές, και προκύπτουν από μέτρημα, όχι κατηγοριοποίηση. Οι πίνακες ενδεχομένων χρησιμοποιούνται για να καταγράψουν και να αναλύσουν τη σχέση μεταξύ δυο ή περισσοτέρων μεταβλητών. Το μοντέλο χρησιμοποιεί μια μεταβλητή Y η οποία ακολουθεί κατανομή Poisson, καθώς και τον λογάριθμο της αναμενόμενης τιμής της μεταβλητής Y. Τα παραπάνω στοιχεία μπορούν να μοντελοποιηθούν από έναν γραμμικό συνδυασμό από 58

59 άγνωστες παραμέτρους. Το μοντέλο αυτό ονομάζεται και λογαριθμικό-γραμμικό (log-linear) μοντέλο, ειδικά όταν χρησιμοποιείται με πίνακες ενδεχομένων. Η πιο απλή περίπτωση με μια ανεξάρτητη μεταβλητή x, έχει την εξής μορφή: log( EY ( )) a bx (23) Αν y i είναι ανεξάρτητες παρατηρήσεις με αντίστοιχες τιμές x i για την μεταβλητή x τότε τα α και b μπορούν να υπολογιστούν από την μέγιστη πιθανοφάνεια αν ο αριθμός των ευδιάκριτων x είναι τουλάχιστον 2. Η παλινδρόμηση Poisson είναι κατάλληλη για διαβαθμιζόμενα δεδομένα, όπου η διαβάθμιση είναι ένα μέτρημα γεγονότων που λαμβάνουν χώρα σε μια συγκεκριμένη μονάδα παρατηρήσεων, διαιρούμενη από μια μονάδα μέτρησης της «έκθεσης» αυτής (exposure). Για παράδειγμα οι βιολόγοι μετρούν τον αριθμό των ειδών των δέντρων σε ένα δάσος όπου η διαβάθμιση θα είναι ο αριθμός των ειδών ανά τετραγωνικό χιλιόμετρο ή αυτοί που ασχολούνται με την δημογραφική επιστήμη μπορούν να μοντελοποιούν ρυθμούς θανάτων ανά γεωγραφικές περιοχές, ως τον αριθμό των θανάτων διαιρούμενο από άτομα/χρόνο. Γενικότερα οι ρυθμοί των γεγονότων μπορούν να υπολογιστούν ως γεγονότα ανά μονάδα χρόνου. Στα παραπάνω παραδείγματα η «έκθεση» είναι αντίστοιχα το τετραγωνικό χιλιόμετρο, τα άτομα/χρόνο και ο χρόνος. Στην παλινδρόμηση Poisson αυτό αντιμετωπίζεται ως ένα αντιστάθμισμα, όπου η μεταβλητή της «έκθεσης» εισάγεται στην δεξιά πλευρά της εξίσωσης και με μια παραμετροποίηση στην λογαριθμική ποσότητα (log(exposure)) περιορίζεται μέχρι το 1. log( EY ( )) log(exposure) a bx (24) το οποίο γίνεται: EY ( ) log( E( Y)) log(exposure) log( ) a bx exposure (25) 59

60 Ένα χαρακτηριστικό της κατανομής Poisson είναι ότι η μέση τιμή της είναι ίση με την διακύμανση. Κάποιες φορές όμως παρατηρούμε ότι η διακύμανση είναι μεγαλύτερη από την μέση τιμή. Κάτι τέτοιο είναι γνωστό με τον όρο υπερδιασπορά (Berk and MacDonald 2007) και δηλώνει ότι το μοντέλο δεν είναι κατάλληλο για τα δεδομένα. Συχνά ο λόγος που εμφανίζεται η υπερδιασπορά είναι η παράλειψη κάποιων επεξηγηματικών μεταβλητών. Άλλο ένα γνωστό πρόβλημα με την παλινδρόμηση Poisson είναι η παρουσία μεγάλου αριθμού μηδενικών. Αν εκτελούνται δυο διεργασίες, μια να αποφασίζει αν υπάρχουν μηδέν γεγονότα ή αν υπάρχουν, και μια άλλη Poisson διεργασία να υπολογίζει τον αριθμό των γεγονότων, τότε θα υπάρχουν παραπάνω μηδενικά από όσα μπορεί να προβλέψει μια παλινδρόμηση Poisson. Ένα παράδειγμα για αυτό θα ήταν η κατανομή των τσιγάρων που καπνίζονται μέσα σε μια ώρα από τα μέλη μιας ομάδας ατόμων, όπου στην ομάδα αυτή υπάρχουν και μη-καπνιστές. Αυτή η μέθοδος δουλεύει με την υπόθεση ότι οι παρατηρούμενες συχνότητες των απλότυπων αντιπροσωπεύουν μια τυχαία μεταβλητή η οποία ακολουθεί την κατανομή Poisson. Έτσι μπορούμε να εκτελέσουμε αυτό το μοντέλο, βάζοντας σαν εξαρτημένη μεταβλητή τις συχνότητες, και σαν παράγοντα επιρροής (ανεξάρτητες μεταβλητές) τους απλότυπους, αλλά και την κατάσταση (case/control). Ιστορικά αυτά τα λεγόμενα log-linear μοντέλα έχουν χρησιμοποιηθεί αρκετά νωρίς για ανάλυση απλότυπων, για παράδειγμα στον υπολογισμό του συνελεστή συσχέτισης (LD), (Weir and Wilson 1986) αλλά και σε μελέτες γενετικής συσχέτισης ασθενειών με απλότυπους (Tiret, Amouyel et al. 1991). Το μοντέλο αυτό μπορεί να διατυπωθεί με τον εξής τύπο: log( n ) y a z z y r j 0 0 j j j j j j j 2 j 2 r (26) Το οποίο είναι ένα μοντέλο για την περιγραφή των 2 x r πινάκων συνάφειας απλότυπων σε σχέση με την ασθένεια. Τα j είναι οι συντελεστές που αντιστοιχούν στην αλληλεπίδραση (interaction) απλότυπου-ασθένειας και είναι όμοια με αυτά της 60

61 λογιστικής και της πολυωνυμικής παλινδρόμησης. Εδώ βγαίνει εύκολα το συμπέρασμα πως οι συντελεστές a j και j είναι όμοιοι και στα τρία μοντέλα. Για να εκτελέσουμε αυτόν τον έλεγχο στο Stata, αφού εισάγουμε τα δεδομένα, πρέπει να πληκτρολογήσουμε την παρακάτω εντολή: xi: poisson frequency i.case*i.haplotype_nr Με το xi στην αρχή της εντολής δηλώνουμε ότι θέλουμε να χρησιμοποιήσουμε μια κατηγορική μεταβλητή η οποία θα έχει έναν δείκτη. Σε αυτή την περίπτωση θα είναι το γινόμενο των μεταβλητών case και haplotype_nr όπου βάζοντας μπροστά τους το i. δηλώνουμε στο Stata ότι είναι οι μεταβλητές μας. Πέρα από αυτά με την εντολή poisson δηλώνουμε πως θέλουμε να κάνουμε παλινδρόμηση Poisson με εξαρτημένη μεταβλητή την frequency και ανεξάρτητη την i.case*i.haplotype_nr. Και τα αποτελέσματα εμφανίζονται στην εικόνα 30: Εικόνα 30: Αποτελέσματα της παλινδρόμησης poisson 61

62 Τα τελικά αποτελέσματα που λαμβάνουμε υπόψη είναι οι μεταβλητές _IcasXhap_~i, i=2 7 οι οποίες φαίνονται στις γραμμές 8-13, στην στήλη frequency του πίνακα της εικόνας 30. Όπως και στις προηγούμενες μεθόδους, μπορούμε να εμφανίσουμε τα αποτελέσματα με την στήλη των λόγων των πιθανοτήτων κάθε απλότυπου: xi: poisson frequency i.case*i.haplotype_nr, irr Όπου εδώ το irr σημαίνει incidence-rate ratio (σχετικός λόγος πιθανοτήτων), και έχουμε το αποτέλεσμα της εικόνας 31. Εικόνα 31: Αποτελέσματα της παλινδρόμησης poisson με incidence-rate ratio Για την εκτέλεση του ελέγχου ισότητας των συντελεστών ισχύει η εντολή που χρησιμοποιούμε στην λογιστική παλινδρόμηση, απλά την εφαρμόζουμε στην μεταβλητή _IcasXhap_1_i, i=2.7. testparm _IcasXhap_1_* Όπου το σύμβολο * δηλώνει πως θέλουμε όλα τα περιεχόμενα της μεταβλητής _casxhap_1_. 62

63 Και το αποτέλεσμα είναι το αναμενόμενο (εικόνα 32): Εικόνα 32: Αποτελέσματα testparm για παλινδρόμηση poissson Όπως και με τις άλλες δυο μεθόδους, μπορούμε να κάνουμε αυτόν τον έλεγχο για διάφορους συνδιασμούς των συντελεστών, για παράδειγμα: test _IcasXhap_1_3 _IcasXhap_1_7 με αποτέλεσμα την εικόνα 33. Εικόνα 33: Αποτέλεσμα του test για δυο μεταβλητές Φυσικά μπορούμε να κάνουμε αυτόν τον έλεγχο με όσες από τις μεταβλητές που έχουν αντίστοιχο συντελεστή παλινδρόμησης επιθυμούμε, πχ: test _IcasXhap_1_3 _IcasXhap_1_6 _IcasXhap_1_7 test _IcasXhap_1_2 _IcasXhap_1_4 _IcasXhap_1_5 _IcasXhap_1_7 Άσχετα με το ποια είναι η στρατηγική δειγματοληψίας που δημιούργησε τα δεδομένα μας, είναι ευρέως γνωστό ότι τα αποτελέσματα της προσαρμογής αυτών των μοντέλων στα δεδομένα είναι σχεδόν όμοια (Agresti 2002). Επομένως η επιλογή του μοντέλου πρέπει να βασίζεται σε παράγοντες που έχουν να κάνουν με την αληθοφάνεια και την ερμηνευτικότητα των αποτελεσμάτων. Να μπορούν δηλαδή να αναλυθούν εύκολα, και να παράγουν χρήσιμα και ξεκάθαρα αποτελέσματα. Επίσης ένας παράγοντας που πρέπει να λάβουμε υπόψη είναι το πόσο εύκαμπτο μπορεί να 63

64 είναι το μοντέλο και να επιτρέπει αλλαγές στα δεδομένα ή τις παραμέτρους του. Έχει αποδειχτεί ότι οι υπολογισμοί μέγιστης πιθανοφάνειας που αποκτούμε από τα μοντέλα με την μέθοδο της αναμενόμενης πιθανοφάνειας (prospective likelihood) είναι ίδιοι με αυτούς που αποκτώνται με την μέθοδο της αναδρομικής πιθανοφάνειας (retrospective likelihood) (Prentice and Pyke 1979; Chen 2003). Η ισότητα της λογιστικής παλινδρόμησης και των μοντέλων Poisson έχουν επίσης χρησιμοποιηθεί στο παρελθόν για την δημιουργία μεθόδων για τον εντοπισμό της αλληλεπίδρασης γονιδίων σε βιολογικό επίπεδο, (Umbach and Weinberg 1997). Οι παραπάνω μέθοδοι είναι απλές προεκτάσεις των γενικευμένων γραμμικών μοντέλων και υποθέτουν πως α) Η απλοτυπική πιθανότητα ακολουθεί ένα αθροιστικό μοντέλο, β) Ότι η φάση του απλότυπου είναι γνωστή (βλέπε εισαγωγή το πρόβλημα εύρεσης του απλότυπου (Lin, Cutler et al. 2002)) και γ) ότι ο πληθυσμός είναι σε ισορροπία Hardy-Weinberg. Το γενετικό μοντέλο της κληρονομικότητας μπορεί να λειτουργήσει με την χρήση των «απλο-γονότυπων» αντί για τους γονότυπους στην ανάλυση. Αυτό πραγματοποιείται εύκολα με τις μεθόδους που παρουσιάστηκαν χρησιμοποιώντας όλους τους συνδυασμούς των απλότυπων ( hh 1 1, hh 1 2, κλπ). Ωστόσο στις μελέτες συσχέτισης με ασθενείς και μάρτυρες που χρησιμοποιούμε άτομα χωρίς συγγένεια, για να αντιμετωπίσουμε το πρόβλημα της εύρεσης του απλότυπου, χρησιμοποιούμε στατιστικές μεθόδους, συνήθως με χρήση του αλγορίθμου ΕΜ, ή κάποιον παρεμφερή (Niu 2004; Xu, Wu et al. 2004; Marchini, Cutler et al. 2006). Το να χρησιμοποιούμε τους απλότυπους σαν γνωστούς ίσως αποβεί προβληματικό (Lin and Huang 2007), επειδή όταν χρησιμοποιούμε πιθανοτικές μέθοδους, ο πιο πιθανός απλότυπος, δεν είναι απαραίτητα και ο σωστός. Για την αντιμετώπιση αυτών των προβλημάτων έχουν αναπτυχθεί διάφορες μέθοδοι κατά καιρούς, για παράδειγμα η πρόσθεση κάποιου βάρους στους απλότυπους σύμφωνα με την πιθανότητα εμφάνισής τους (Zaykin, Westfall et al. 2002; French, Lumley et al. 2006). Η διαδικασία της παλινδρόμησης δεν αλλάζει, απλά προσθέτουμε επιπλέον μια στήλη με όνομα prob στον πίνακα 4, η οποία περιέχει τις αντίστοιχες πιθανότητες για κάθε απλότυπο. Για παράδειγμα μετά την εισαγωγή των δεδομένων στο Stata εκτελούμε τις παρακάτω εντολές: expand frequency 64

65 Αυτή η εντολή επεκτείνει τα δεδομένα έτσι ώστε να μπορέσουμε να εφαρμόσουμε στην συνέχεια την λογιστική παλινδρόμηση αλλά με πιθανοτικά βάρη. Αυτό γίνεται με την εντολή: xi: logit case i.haplotype_nr [pweight=prob] Με το [pweight=prob]να δηλώνει πως θα χρησιμοποιήσουμε πιθανοτικά βάρη, θα λάβουμε δηλαδή υπόψιν την αλληλεπίδραση των απλότυπων με βάση την πιθανότητα που έχουν να είναι αληθείς. Οι τιμές των συντελεστών παλινδρόμησης βλέπουμε πως έχουν επηρεαστεί, αν συγκρίνουμε τις εικόνες 18 και 34. Εικόνα 34: Αποτελέσματα της λογιστικής παλινδρόμησης με πιθανοτικά βάρη Ένας άλλος τρόπος θα ήταν η περίπτωση της εντολής hapipf η οποία δέχεται γονοτυπικά δεδομένα και υπολογίζει αυτόματα την απλοτυπική φάση (Mander 2001). Επίσης έχουν αναπτυχθεί μέθοδοι τύπου score για αναμενόμενη πιθανότητα (Schaid, Rowland et al. 2002) και για αναδρομική πιθανότητα (Epstein and Satten 2003), καθώς και μέθοδους που αφορούν την αλληλεπίδραση των γονιδίων (Chen and Li 2008). Μια σύγκριση των μεθόδων έδειξε ότι τα αποτελέσματα είναι δύσκολο να συγκριθούν όταν η επιρροή του απλότυπου στην πιθανότητα της ασθένειας ακολουθεί ένα πολυπαραγοντικό μοντέλο. Ωστόσο για κυριαρχικά και υποχωρητικά μοντέλα, η 65

66 μέθοδος αναδρομικής πιθανότητας έχει αυξημένη αποτελεσματικότητα, χωρίς να παραμελούμε την αναμενόμενη πιθανότητα (Satten and Epstein 2004). Επίσης γραφικά μοντέλα έχουν προταθεί από τον Thomas (Thomas 2005), τα οποία επιδιώκουν την ανάλυση γονοτυπικών δεδομένων αντί για απλοειδή, και λογαριθμικά-γραμμικά μοντέλα από τον Baker (Baker 2005) ο οποίος συμπεριλαμβάνει κάποιους περιβαλοντικούς συντελεστές οι οποίοι συμβάλουν στο αποτέλεσμα και λαμβάνει επίσης υπόψη τυχόν αποκλίσεις από την ισορροπία Hardy- Weinberg. Ο Lin και συνεργάτες έχουν επεκτείνει τις μεθόδους που παρουσιάστηκαν παραπάνω, με το να συμπεριλάβουν διάφορα είδη δειγματοληψίας σε ένα ενοποιημένο πλαίσιο εργασίας (Lin, Zeng et al. 2005). Εφάρμοσαν τις μεθόδους τους σε μια μελέτη για τον καρκίνο του μαστού η οποία έδειξε κάποιες σημαντικές επιπλοκές του καπνίσματος σε απλότυπους σχετικά με τον καρκίνο αυτού του τύπου. 66

67 2.4.6 Η εφαρμογή Haploview Η εφαρμογή Haploview είναι ένα συχνά χρησιμοποιούμενο εργαλείο σε θέματα βιοπληροφορικής, το οποίο έχει δημιουργηθεί για την ανάλυση και την οπτικοποίηση ακολουθιών, αλλά και υπολογισμό της ανισορροπίας σύνδεσης (linkage disequilibrium) σε γενετικά δεδομένα. Επίσης είναι κατάλληλο για μελέτες γενετικής συσχέτισης, για την διαλογή κάποιων πολυμορφισμών και τέλος για τον υπολογισμό της συχνότητας των απλότυπων. Η εφαρμογή δημιουργήθηκε και εξελίσσεται από το εργαστήριο του Dr.Mark Daly στο ινστιτούτο του MIT/Harvard Broad Institute ( Εικόνα 35: Τα δεδομένα του linkage format Το Haploview μέχρι τώρα υποστηρίζει τις παρακάτω διαδικασίες: Μπορεί να υπολογίσει απλότυπους και ανισορροπία σύνδεσης με γονοτυπικά δεδομένα. Μπορεί να υπολογίσει την συχνότητα των απλότυπων στον πληθυσμό. Είναι δυνατή η εκτέλεση μελέτης γενετικής συσχέτισης με απλότυπους ή πολυμορφισμούς. Περιέχει υλοποίηση του αλγορίθμου επιλογής πολυμορφισμών ως δεικτών από τον Paul de Bakker. Υπάρχει η δυνατότητα λήψης δεδομένων από το HapMap, και τέλος μπορεί να απεικονίσει γραφικά τα αποτελέσματα όπως για παράδειγμα τα LD plots (Barrett 2009). 67

68 Στο πλαίσιο αυτής της εργασίας, έγινε εισαγωγή δεδομένων τα οποία παρέχονται ήδη από την εφαρμογή, και ακολουθεί μια αναφορά των αποτελεσμάτων. Τα δεδομένα γίνονται δεκτά σε πέντε συνολικά μορφές (linkage, Haps, HapMap, PHASE, PLINK) αλλά εμάς μας ενδιέφερε περισσότερο η πρώτη (linkage format) η οποία μπορούσε να χρησιμοποιηθεί και για μελέτες ασθενών - μαρτύρων. Τα αρχεία αυτών των δεδομένων είναι αρχεία.ped, και απαιτείται η χρήση ενός προγράμματος που ονομάζεται Makeped, για να αποκτήσουν την σωστή μορφή, και να είναι αποδεκτά από το Haploview. Επίσης υπάρχει ένα συνοδευτικό αρχείο το οποίο περιέχει πληροφορίες για την θέση κάθε πολυμορφισμού πάνω στο εκάστοτε χρωμόσωμα. Εικόνα 36: Οι πολυμορφισμοί και η θέση τους Στην εικόνα 35 βλέπουμε τα περιεχόμενα του linkage format. Στις πρώτες έξι στήλες καταγράφουμε κάποια δεδομένα που αφορούν τα άτομα. Στην πρώτη στήλη έχουμε ένα μοναδικό αλφαριθμητικό κωδικό που προσδιορίζει την οικογένεια που ανήκει το άτομο. Στην δεύτερη στήλη έχουμε έναν μοναδικό κωδικό που προσδιορίζει ένα άτομο. Στην τρίτη και τέταρτη στήλη έχουμε τους κωδικούς του πατέρα και της μητέρας του ατόμου αντίστοιχα. Στην πέμπτη στήλη έχουμε το φύλο 68

69 (1=αρσενικό, 2=θυλικό), ενώ στην έκτη στήλη έχουμε την κατάσταση επίδρασης. Η κατάσταση επίδρασης δηλώνει αν το άτομο αυτό επηρεάζεται από κάποιον παράγοντα που μελετάμε (0=άγνωστο, 1=δεν επηρεάζεται, 2=επηρεάζεται). Από την έβδομη στήλη και μετά γίνεται η καταγραφή των γονότυπων. Στην εικόνα 35 φαίνονται με αριθμούς (1-4), και η αντιστοιχία είναι 1=Α, 2=C, 3=G και 4=T. Ο χρήστης έχει τη δυνατότητα να εισάγει τα δεδομένα και με τους χαρακτήρες των βάσεων, δηλαδή A T G και C. Το αρχείο με τα δεδομένα αυτά, πρέπει να συνοδεύεται και από ένα αρχείο info, το οποίο περιέχει μια λίστα με τους πολυμορφισμούς που ερευνούμε (εικόνα 36), καθώς και την θέση τους στο χρωμόσωμα. Η θέση των πολυμορφισμών είναι ο αριθμός των βάσεων μετρώντας από την αρχή του χρωμοσώματος. Εικόνα 37: LD plot Αφού εισάγουμε τα δεδομένα, η εφαρμογή βγάζει κάποια αποτελέσματα. Το πρώτο είναι ένα διάγραμμα που δείχνει την συσχέτιση των πολυμορφισμών, και το πόσο ισχυρή είναι (εικόνα 37). Οι πιο ισχυρά σχετιζόμενοι πολυμορφισμοί ομαδοποιούνται και σχηματίζουν απλότυπους. Ο χρήστης έχει την δυνατότητα να επιλέξει έναν από τους διάφορους τρόπους που υπάρχουν για την επιλογή της ομάδας 69

70 των πολυμορφισμών που θα αποτελέσουν έναν απλότυπο, δεδομένου της ισχυρής μεταξύ τους συσχέτισης (Gabriel, Schaffner et al. 2002; Wang, Akey et al. 2002). Επίσης ο χρήστης μπορεί να επιλέξει χειροκίνητα άλλες περιοχές για ανάλυση και όχι απαραίτητα αυτές που επιλέγει αυτόματα το Haploview. Μετά την επιλογή των περιοχών συσχέτισης, η εφαρμογή δημιουργεί τους απλότυπους και υπολογίζει τις συχνότητές τους στον πληθυσμό. Αυτή η απεικόνιση φαίνεται στην εικόνα 39. Οι γραμμές απεικονίζουν την μετάβαση από μια περιοχή ισχυρής συσχέτισης στην επόμενη, και το πάχος της γραμμής είναι ανάλογο με την συχνότητα μετάβασης σε αυτήν την περιοχή. Η γραμμή απεικονίζει επίσης τον βαθμό συσχέτισης (LD) D μεταξύ των δυο περιοχών, χρησιμοποιώντας τον απλότυπο σαν το αλληλόμορφο για αυτήν την περιοχή. Διάφορες παράμετροι είναι στην επιλογή του χρήστη, όπως τα αλληλόμορφα να απεικονίζονται με γράμματα ή αριθμούς ή χρωματιστά κουτάκια, αλλά και η απεικόνιση μόνο των απλότυπων που ξεπερνούν ένα ρυθμιζόμενο κατώφλι (ή όριο) του πληθυσμού. Κάθε τετραγωνάκι στο σχήμα απεικονίζει την συσχέτιση μεταξύ δύο κάθε φορά πολυμορφισμών. Το χρώμα υποδεικνύει το πόσο μεγάλη είναι η συσχέτιση, για παράδειγμα το κόκκινο χρώμα σημαίνει πολύ ισχυρή συσχέτιση. Η εφαρμογή υπολογίζει τους συντελεστές συσχέτισης D και περίπτωσης βάσεων όπως φαίνεται στην εικόνα r καθώς και τις συχνότητες κάθε 70

71 Εικόνα 38: Τα στοιχεία που αντιστοιχούν σε ένα ζευγάρι πολυμορφισμών Το τελευταίο κομμάτι των αποτελεσμάτων αποτελείται από μια λίστα ζευγαριών πολυμορφισμών που εξετάσαμε. Κάθε πολυμορφισμός εξετάστηκε ως προς την συσχέτισή του με τους υπόλοιπους, με αποτέλεσμα μια λίστα που φαίνεται στην εικόνα 40. Για κάθε ζευγάρι υπολογίστηκε ο συντελεστής συσχέτισης 2 r, και η εφαρμογή μπορεί να εμφανίσει όλους τους πολυμορφισμούς οι οποίοι έχουν συντελεστή συσχέτισης πάνω από κάποιο όριο, το οποίο επίσης μπορεί να επιλεχθεί από τον χρήστη. Συνοπτικά έχουμε μια αναφορά που περιέχει n πολυμορφισμούς, και nxn υπολογισμούς συσχέτισης (γίνεται έλεγχος και με ζευγάρι δυο ίδιων πολυμορφισμών από το Haploview). 71

72 Εικόνα 39: Αποτελέσματα απλότυπων Εικόνα 40: Η λίστα με τις συσχετίσεις των πολυμορφισμών 72

73 2.5 Μελέτες με μεταβλητή συνεχούς τιμής Εκτός από τις μελέτες με ασθενείς και μάρτυρες, ασχοληθήκαμε και με ένα άλλο είδος μελετών που πραγματοποιούν απλοτυπική ανάλυση. Σε αυτή την περίπτωση έχουμε έναν παράγοντα κινδύνου, και ερευνούμε την σχέση του με τον εκάστοτε απλότυπο. Ψάχνουμε δηλαδή μια συσχέτιση μεταξύ απλότυπου και παράγοντα κινδύνου. Αυτό βέβαια δεν έχει μεγάλη διαφορά από τις μελέτες ασθενών και μαρτύρων, η μόνη διαφορά είναι ότι ο παράγοντας είναι μεταβλητή που δεν παίρνει δυο τιμές για κάθε άτομο. Είναι δηλαδή αριθμητική μεταβλητή και όχι κατηγορική. Χαρακτηριστικό παράδειγμα τέτοιου παράγοντα είναι οι τιμές της χοληστερόλης στο αίμα (Lu, Inazu et al. 2003). Συνεπώς θα έχουμε μια λίστα ανθρώπων οι οποίοι θα ανήκουν σε κάποια απλοτυπική ομάδα, και θα έχουν ο καθένας την δικιά του τιμή για την χοληστερόλη Απλή γραμμική παλινδρόμηση Η απλή γραμμική παλινδρόμηση είναι ένας στατιστικός έλεγχος που εξετάζει την σχέση μεταξύ δυο μεταβλητών X και Y. Η κύρια διαδικασία είναι ο υπολογισμός των ελάχιστων τετραγώνων των μεταβλητών, από μια ευθεία γραμμή η οποία περνάει μέσα από τις παρατηρήσεις στην γραφική παράσταση. Αυτή η ευθεία είναι τοποθετημένη με τέτοιο τρόπο, ώστε να ελαχιστοποιεί το άθροισμα των κάθετων αποστάσεων των στοιχείων από αυτήν (Eberly 2007). Το επίθετο «απλή» παλινδρόμηση αναφέρεται στο γεγονός ότι αυτή η παλινδρόμηση είναι η πιο απλή στην στατιστική. Όπως είδαμε υπάρχουν και άλλες μέθοδοι παλινδρόμησης. Η ευθεία που αναφέρεται παραπάνω έχει κλίση ίση με την συσχέτιση των δυο μεταβλητών X και Y διορθωμένη από τον λόγο των τυπικών αποκλίσεων των μεταβλητών αυτών. Αν υποθέσουμε ότι τα δεδομένα μας έχουν μέγεθος n με Y, X όπου i=1,2,..,n., τότε ο σκοπός μας είναι να βρούμε την εξίσωση της ευθείας: i i y x (27) η οποία θα ταιριάζει καλύτερα στα δεδομένα. Όταν λέμε ότι θα ταιριάζει καλύτερα αναφερόμαστε στην προσέγγιση των ελάχιστων τετραγώνων, έτσι ώστε να έχουμε το 73

74 μικρότερο άθροισμα (εικόνα 41). Αν συμβαίνει αυτό, τότε οι αριθμοί α και β λύνουν το ακόλουθο πρόβλημα ελαχιστοποίησης: min Q(, ), όπου, n n 2 2 ˆi i i i 1 i 1 Q(, ) ( y x ) (28) Με την χρήση μαθηματικής ανάλυσης ή γεωμετρίας αποδεικνύεται ότι οι τιμές των α και β που ελαχιστοποιούν την συνάρτηση Q είναι οι εξής: ˆ n ( x x)( y y) xy x y / n i i i i i j i 1 i 1 i 1 j 1 n n n i i i i 1 i 1 i 1 ( x x) ( x ) ( x) / n xy x y Cov [, x y] r 2 2 x x Var [] x n n n xy s s y x (29) ˆ y ˆ x (30) όπου r xy είναι ο συντελεστής συσχέτισης του δείγματος μεταξύ του X και Y, s x η τυπική απόκλιση του X και s y αντίστοιχα η τυπική απόκλιση του Y. Αν αντικαταστήσουμε τα ˆ και ˆ στην εξίσωση 30 προκύπτει η ακόλουθη μορφή: y y x x rxy s s y x (31) Αυτό δείχνει το ρόλο που παίζει ο συντελεστής συσχέτισης στην ευθεία της παλινδρόμησης. 74

75 Η ευθεία της παλινδρόμησης περνάει από το κέντρο μάζας ( x, y ). Το σύνολο των στοιχείων είναι μηδέν, εάν το μοντέλο περιλαμβάνει σφάλμα: n i 1 ˆ 0 i Τα ˆ και ˆ είναι αμερόληπτα, αυτό σημαίνει ότι ερμηνεύουμε το μοντέλο στοχαστικά, πράγμα που σημαίνει ότι πρέπει να υποθέσουμε πως για κάθε τιμή του x, η αντίστοιχη τιμή του y παράγεται σαν ένα μέσο αποτέλεσμα x με μια επιπλέον μεταβλητή σφάλματος ε. Αυτό το σφάλμα πρέπει να είναι κατά μέσο όρο μηδέν, για κάθε τιμή του x. Σύμφωνα με αυτήν την ερμηνεία οι εκτιμήτριες ελάχιστων τετραγώνων ˆ και ˆ θα είναι τυχαίες μεταβλητές, και θα εκτιμούν αμερόληπτα τις πραγματικές τιμές των α και β. Εικόνα 41: Απλή παλινδρόμηση που δείχνει την συσχέτιση μεταξύ πρώτου μισθού και μέσου όρου βαθμολογίας φοιτητών Στην περίπτωση των απλοτύπων χρησιμοποιούμε την πολλαπλή παλινδρόμηση με τον ακόλουθο μαθηματικό τύπο να προσαρμόζεται στα δεδομένα: y x x. x k k (32) 75

76 για k απλότυπους. Τα δεδομένα που παίρνουμε για την εκτέλεση της παλινδρόμησης έχουν γενικά την μορφή του πίνακα 6. Συνεχής μεταβλητή Απλότυπος Συχνότητα (πχ τιμή χοληστερόλης στο Διακύμανση αίμα) απλότυπ_ απλότυπ_ απλότυπ_n Πίνακας 6: Γενική μορφή των δεδομένων Τις περισσότερες φορές, η διακύμανση δεν μας δίνεται από τις μελέτες και συνεπώς πρέπει να την υπολογίσουμε. Για τον υπολογισμό αυτό χρησιμοποιούμε τον τύπο: 2 var sd / n (33) Αλλά επίσης χρήσιμος είναι και ο τύπος της τυπικής απόκλισης: 2 se sd 2 / n (34) και έτσι προκύπτουν άλλες δυο στήλες στον πίνακα 6 μια για την τυπική απόκλιση (sd) και μια για το 2 sd όπως φαίνεται στην εικόνα

77 Εικόνα 42: Τα δεδομένα στο excel για την απλή παλινδρόμηση Το Stata έχει την εντολή regress για την απλή παλινδρόμηση, αλλά σε αυτήν την εργασία χρησιμοποιούμε την διακύμανση σαν επιπλέον παράγοντα που επηρεάζει το αποτέλεσμα. Γι αυτό το λόγο χρησιμοποιείται η εντολή vwls (variance-weighted least-squares regression). Για να εκτελέσουμε αυτόν τον έλεγχο πληκτρολογούμε τις παρακάτω εντολές: gen se=sqrt(variance) Με την εντολή gen δημιουργούμε μια μεταβλητή se (standard error) η οποία θα χρειαστεί αργότερα και είναι η τετραγωνική ρίζα της διακύμανσης, όπως προκύπτει από τις σχέσεις 32 και 33. xi: vwls hdl i.haplotype_nr,sd(se) Με το xi στην αρχή της εντολής δηλώνουμε ότι θέλουμε να χρησιμοποιήσουμε μια κατηγορική μεταβλητή η οποία θα έχει έναν δείκτη. Με την εντολή vwls δηλώνουμε πως θέλουμε να κάνουμε vwls παλινδρόμηση με εξαρτημένη μεταβλητή την hdl και ανεξάρτητη την i.haplotype_nr. Χρησιμοποιούμε έμμεσα την διακύμανση βάζοντας σαν επιλογή μετά την εντολή το sd(se), αντί για την χρήση του fweight ή του aweight που είδαμε στις παλινδρομήσεις των μελετών ασθενών και μαρτύρων. Μετά την εκτέλεση της εντολής, έχουμε τα αποτελέσματα της εικόνας

78 Εικόνα 43: Αποτελέσματα της vwls παλινδρόμησης Όσον αφορά την ερμηνεία των αποτελεσμάτων, ισχύουν και εδώ οι βασικές αρχές της παλινδρόμησης. Κάθε απλότυπος έχει έναν συντελεστή που δηλώνει την ένταση της επιρροής στο συνολικό μοντέλο. Με το p-value βλέπουμε αν ισχύει η μηδενική υπόθεση ή όχι. Σε αυτήν την περίπτωση η εξαρτημένη μεταβλητή συνεχούς τιμής είναι τα επίπεδα της χοληστερόλης στο αίμα. Οι ανεξάρτητες μεταβλητές που επηρεάζουν τις τιμές της χοληστερόλης είναι οι διάφοροι απλότυποι, που σε αυτήν την έρευνα είναι οκτώ διαφορετικοί. Η μέθοδος αυτή της vwls παλινδρόμησης μπορεί να μας πει, ότι οι τιμές της εξαρτημένης μεταβλητής επηρεάζονται από κάποιον απλότυπο. Όταν έχουμε θετικό συντελεστή παλινδρόμησης αυτό σημαίνει πως ο απλότυπος αυτός συμβάλει στην αύξηση των τιμών HDL-c ή CETP αντίστοιχα. Ενώ αντίθετα ένα αρνητικό πρόσημο σημαίνει πως ο απλότυπος αυτός ρίχνει τις αντίστοιχες τιμές. Η τελευταία τιμή από τους συντελεστές παλινδρόμησης την εικόνα 43 μας δείχνει την τιμή της HDL που αντιστοιχεί στον πιο κοινό απλότυπο του δείγματος, δηλαδή τον πρώτο. Οι συντελεστές των υπόλοιπων απλότυπων δηλώνουν την απόκλιση από αυτή την τιμή. Για παράδειγμα η τιμή της HDL που αντιστοιχεί στον δεύτερο απλότυπο είναι 50.1, αν προσθέσουμε τον αντίστοιχο συντελεστή 5 θα έχουμε ως αποτέλεσμα την τιμή που αντιστοιχεί στα δεδομένα, δηλαδή 55.1 (πίνακας 7). 78

79 ΚΕΦΑΛΑΙΟ 3 ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΖΗΤΗΣΗ 3.1 ΑΠΟΤΕΛΕΣΜΑΤΑ Μελέτες απλότυπων με τις τιμές της HDL χοληστερίνης (συνεχής μεταβλητή) Συνολικά έγιναν τρεις παλινδρομήσεις, μια για κάθε μελέτη. Οι δυο από αυτές τις παλινδρομήσεις εμφάνισαν στατιστικά σημαντικά αποτελέσματα σύμφωνα με τον 2 X του Pearson που είδαμε παραπάνω (2.4.1), με p-value και Η παλινδρόμηση με το μικρότερο p-value είχε και τον υψηλότερο 2 X = Στο σύνολο μελετήθηκαν 22 απλότυποι σε σχέση με τις τιμές της HDL-χοληστερόλης αλλά και 5 απλότυποι σε σχέση με την συγκέντρωση της CETP (cholesterol ester transfer protein), μιας πρωτείνης η οποία μεταφέρει τα μόρια της χοληστερόλης στο αίμα. Η πρώτη μελέτη περιέχει απλοτυπική ανάλυση της περιοχής του υποκινητή του γονιδίου της CET πρωτείνης, και έχει τα δεδομένα που ψάχνουμε (Lu, Inazu et al. 2003). Αυτά αποτελούνται από οκτώ απλότυπους (εικόνα 44), τρείς από αυτούς επιδρούν αρνητικά στις τιμές της HDL-χοληστερόλης, ενώ από τους υπόλοιπους οι δυο έχουν αρκετά υψηλό συντελεστή παλινδρόμησης δείχνοντας ότι παίζουν σημαντικό ρόλο. Για τον τέταρτο απλότυπο ο συντελεστής είναι κοντά στο μηδέν, πράγμα που σημαίνει πως δεν επηρεάζει τόσο την HDL. Στατιστικά σημαντική επιρροή θεωρούμε όμως μόνο αυτήν του δεύτερου απλότυπου, καθώς μόνο εκεί βλέπουμε p-value μικρότερο από την τιμή 0.05 και μπορούμε να απορρίψουμε την υπόθεση πως δεν υπάρχει σχέση με την ασθένεια. Γενικά βλέπουμε επίσης ότι για τον 2 X στην μελέτη αυτή, το p-value είναι επίσης μεγαλύτερο από την προαναφερθείσα τιμή και συνεπώς είναι ένα στοιχείο που προδιαθέτει αρνητικά για την αξιοπιστία των αποτελεσμάτων. Τα δεδομένα που πήραμε από αυτήν την μελέτη φαίνονται στον πίνακα 7. 79

80 haplotype haplotype_nr frequency hdl sd sd_squared variance GCLCCCTGCTC B GASTTCTACCA B TCLTTCCGTCA B GCLTTCTGCCC B GCLCCTTGCCA B TCLTTCTACCA B GCLCCCTGCTA B TCLCTCCGTCA B Πίνακας 7: Απλοτυπικά δεδομένα για τις τιμές της hdl (mg/dl) Εικόνα 44: Η πρώτη και λιγότερο σημαντική παλινδρόμηση (Lu, Inazu et al. 2003) Η δεύτερη μελέτη η οποία αφορά την απλοτυπική ανάλυση του γονιδίου της CETP, είναι η πιο αξιόπιστη από πλευράς αποτελεσμάτων, με p-value < 0.05 και 2 X = Βλέπουμε αρκετούς απλότυπους να συμβάλουν σημαντικά στις τιμές της HDL, και επιπλέον με θετικούς συντελεστές παλινδρόμησης (εικόνα 45). Οι πρώτοι τρείς απλότυποι συμβάλουν με υψηλούς συντελεστές, ο απλότυπος 2 με συντελεστή 7.8, ο απλότυπος 3 με 11.3 και ο τέταρτος με συντελεστή Τα δεδομένα αυτής της μελέτης φαίνονται στον πίνακα 8. 80

81 haplotype haplotype_nr frequency hdl sd sd_squared variance a c c a b d e d b Πίνακας 8: Απλοτυπικά δεδομένα για τις τιμές της hdl (mg/dl) Εικόνα 45: Η παλινδρόμηση της ισχυρότερης σε στατιστική σημαντικότητα μελέτης (Bauerfeind, Knoblauch et al. 2002) Επιπλέον την μεγαλύτερη επιρροή φαίνεται να έχει ο απλότυπος 7, ο οποίος με p-value = έχει τον υψηλότερο συντελεστή παλινδρόμησης (17.1) από όλους και θεωρούμε ότι έχει αρκετά μεγάλη επιρροή στις τιμές της HDL. Όσον αφορά τους υπόλοιπους απλότυπους, παρουσιάζουν επίσης υψηλούς συντελεστές παλινδρόμησης, αλλά δεν είναι στατιστικά σημαντικοί καθώς το p-value είναι πάνω από το όριο που έχουμε θέσει στα πλαίσια του διαστήματος εμπιστοσύνης 95%. Στην Τρίτη και τελευταία μελέτη η οποία αφορά επίσης απλοτυπική ανάλυση στο γονίδιο της CETP, έχουμε πέντε απλότυπους και ερευνούμε την συσχέτισή τους με τις τιμές της HDL (εικόνα 46), αλλά και την συγκέντρωση της πρωτείνης CETP (εικόνα 47). Όσον αφορά την HDL, βλέπουμε γενικά πολύ μικρούς συντελεστές παλινδρόμησης, από τους οποίους δυο είναι στατιστικά σημαντικοί. Οστόσο η επιρροή τους είναι ουδέτερη, με συντελεστή παλινδρόμησης κοντά στο μηδέν δεν έχουμε ούτε θετική ούτε αρνητική επιρροή. Τα δεδομένα όσον αφορά τις τιμές της HDL φαίνονται στον πίνακα 9. 81

82 haplotype haplotype_nr frequency hdl se variance Πίνακας 9: Απλοτυπικά δεδομένα για τις τιμές της hdl (mmol/l) Εικόνα 46: Η παλινδρόμηση της μελέτης με το μεγαλύτερο δείγμα (HDL-c) (Klerkx, Tanck et al. 2003) Επίσης βλέπουμε στον δεύτερο απλότυπο έναν πολύ μεγάλο συντελεστή (- 1.66e-18) με το e-18 να σημαίνει μετακίνηση της υποδιαστολής κατά 18 θέσεις προς τα δεξιά) και p-value πολύ μεγαλύτερο από το αποδεκτό όριο. Αυτό ίσως οφείλεται στην μεγάλη διαφορά συχνοτήτων μεταξύ του απλότυπου 2 και του 1. Η αντίστοιχη παλινδρόμηση για τις τιμές της CETP έδειξε υψηλότερο από αυτήν της HDL. Οι συντελεστές παλινδρόμησης είναι όλοι κοντά στο μηδέν, και από αυτούς μόνο η επιρροή που αντιστοιχεί στον τέταρτο και πέμπτο απλότυπο είναι στατιστικά σημαντική. Η επιρροή αυτή είναι της τάξεως του για τον απλότυπο 4 και περίπου για τον απλότυπο 5. Σε συνδυασμό με την τιμή της CETP η οποία έιναι χαμηλότερη για τον απλότυπο αυτό, μπορούμε να συμπεράνουμε μια μικρή επιρροή, όχι όμως και για τις αντίστοιχες τιμές της HDL, όπου δεν υπάρχει σχεδόν καθόλου. Τα δεδομένα όσον αφορά τις τιμές της CETP φαίνονται στον πίνακα X 82

83 haplotype haplotype_nr frequency CETP se variance Πίνακας 10: Απλοτυπικά δεδομένα για τις τιμές της CETP (mg/ml) Εικόνα 47: Η παλινδρόμηση της μελέτης με το μεγαλύτερο δείγμα (CETP) (Klerkx, Tanck et al. 2003) Μελέτες με ασθενείς και μάρτυρες (case-control) Συνολικά πήραμε δεδομένα απλότυπων από 19 σχετικές μελέτες ασθενώνμαρτύρων οι οποίες αναφέρονται στην βιβλιογραφία. Για κάθε μελέτη εκτελέσαμε και τις τρείς μεθόδους που περιγράψαμε παραπάνω (λογιστική, πολυωνυμική και Poisson παλινδρόμηση), αν και σχεδόν ισοδύναμες (Agresti 2002) διαφέρουν αρκετά στην μέθοδο υλοποίησης και τον υπολογισμό των συντελεστών. Σε κάποιες μελέτες υπήρχαν δεδομένα απλότυπων για περισσότερα από ένα γονίδια, ή δυο και παραπάνω σύνολα απλότυπων, συνεπώς ο αριθμός των παλινδρομήσεων είναι μεγαλύτερος από τον αναμενόμενο αριθμό. Παρατηρήσαμε 8 μελέτες που είχαν p-value<0.05 στον έλεγχο 2 X πράγμα που κάνει τα αποτελέσματά τους στατιστικώς σημαντικά (Παράρτημα 1). Οι αντίστοιχοι 2 X είχαν αρκετά μεγάλο εύρος τιμών το οποίο βρίσκεται μεταξύ 76 και 9. Επίσης υπήρχε μεγάλη ποικιλία περιπτώσεων στα αποτελέσματα των παλινδρομήσεων. Για παράδειγμα είδαμε μελέτη με στατιστική σημαντικότητα, αλλά κανέναν απλότυπο να διαφοροποιείται από το σύνολο (Zee, Cook et al. 2005). Οι περισσότερες μελέτες που είχαν p-value>0.05 στον έλεγχο 2 X δεν είχαν ιδιαίτερα υψηλούς συντελεστές παλινδρόμησης και κατ επέκταση δεν φανέρωσαν κάποια συσχέτιση με την ασθένεια. Μια μελέτη η οποία είχε p-value λίγο πάνω από την περιοχή απόρριψης της μηδενικής υπόθεσης, δηλαδή λίγο παραπάνω από

84 εμφάνισε κάποια συσχέτιση με ασθένεια σε δυο απλότυπους (Kankova, Stejskalova et al. 2007). Τέλος υπήρξαν και μελέτες οι οποίες έδειξαν την συσχέτιση ενός και μόνο απλότυπου με την ασθένεια, καθώς μόνο για αυτόν τον απλότυπο η συσχέτιση ήταν στατιστικά σημαντική. Ακολουθεί η περαιτέρω ανάλυση κάποιων χαρακτηριστικών αποτελεσμάτων. Εικόνα 48: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Haplotypes extending across ACE are associated with Alzheimer s disease (Kehoe, Katzov et al. 2003) 84

85 Η πρώτη μελέτη που αναλύθηκε αφορούσε τη σχέση των απλότυπων του γονιδίου ACE με την ασθένεια του Alzheimer. Στα αποτελέσματα που βλέπουμε στην εικόνα 48, έχουμε μια καλή περίπτωση συσχέτισης. Παρατηρούμε υψηλό 2 X με p- value<0.05, πράγμα που σημαίνει αρκετά αξιόπιστα αποτελέσματα. Μπορούμε να διακρίνουμε στατιστική σημαντικότητα για τρείς απλότυπους συγκεκριμένα, τους 2, 4 και 5. Παρατηρούμε πως οι συντελεστές τους έχουν αρνητικό πρόσημο. Αυτό σημαίνει πως έχουν αρνητική επίδραση στην ασθένεια, μειώνουν δηλαδή τις πιθανότητες να εμφανιστεί αυτή η ασθένεια στο μέλλον. Ένα τμήμα των δεδομένων που χρησιμοποιήσαμε φαίνεται στον πίνακα 11. haplotype frequency haplotype_nr case frequency_percent AAT ,5 GTC ,33 GAT ,09 GAC ,04 ATC ,01 GTT ,01 AAC ,03 AAT ,45 GTC ,39 GAT ,08 GAC ,06 ATC ,01 GTT AAC ,02 Πίνακας 11: Απλοτυπικά δεδομένα ασθενών-μαρτύρων Για να δούμε καλύτερα τι συμβαίνει επαναλαμβάνουμε την πολυωνιμική παλινδρόμηση, και ζητάμε τους συντελεστές με την μορφή του σχετικού λόγου πιθανοτήτων (εικόνα 49). 85

86 Εικόνα 49: Απεικόνιση των συντελεστών με Odds ratio επέκταση της εικόνας 48 Βλέπουμε λοιπόν για τον δεύτερο απλότυπο ότι ο λόγος των πιθανοτήτων είναι περίπου Αν είχαμε σαν αποτέλεσμα τον αριθμό 1, αυτό θα σήμαινε πως δεν υπάρχει καμιά επίδραση από αυτόν τον απλότυπο και ότι η πιθανότητα ασθένειας δεν αυξάνεται αλλά ούτε μειώνεται όπως έχουμε πει παραπάνω. Συνεπώς αν αφαιρέσουμε τον αριθμό 0.84 από την μονάδα θα έχουμε σαν αποτέλεσμα τον αριθμό: Αυτός ο αριθμός αντιπροσωπεύει την αρνητική επιρροή του απλότυπου στην ασθένεια. Έτσι μπορούμε να πούμε ότι ο απλότυπος 2 μειώνει την πιθανότητα εμφάνισης αυτής της ασθένειας κατά 16%. Με το ίδιο σκεπτικό βλέπουμε ακόμη μεγαλύτερη επιρροή στον απλότυπο 4 κατά 27% και στον απλότυπο 5 κατά 57%. Σε μια άλλη μελέτη για την σχέση των απλότυπων του γονιδίου ADAM33 με το άσθμα, είχαμε στα δεδομένα περιπτώσεις όπου είχαν συχνότητα μηδέν. Οι απλότυποι αυτοί υπήρχαν μόνο σε ασθενείς, αλλά δεν παρατηρήθηκαν σε κανέναν μάρτυρα (Kedda, Duffy et al. 2006). Έτσι τα δεδομένα αντιμετωπίστηκαν διαφορετικά στην περίπτωση της λογιστικής παλινδρόμησης, στην οποία για τους απλότυπους αυτούς δεν υπολογίστηκε συντελεστής και εξαιρέθηκαν από την διαδικασία. Αυτό είναι αναμενόμενο καθώς αν δεν υπάρχουν καθόλου άτομα από μια ομάδα, τότε αυτόματα βγάζουμε το συμπέρασμα ότι σίγουρα αυτοί οι απλότυποι παίζουν κάποιο ρόλο, ανάλογα την ομάδα που βρίσκονται (ασθενείς/μάρτυρες). Με αυτόν τον τρόπο όμως, δεν μπορούμε να υπολογίσουμε αυτήν την σχέση ποσοτικά, καθώς δεν έχουμε ούτε p-value αλλά ούτε και συντελεστές παλινδρόμησης. Στη συνέχεια όμως παρατηρήσαμε ότι η πολυωνιμική και η Poisson παλινδρόμηση υπολόγισαν και τους απλότυπους αυτούς χάρη στις διαφορές υλοποίησης που έχουν (υπολογίζουν με διαφορετικό τρόπο τον σχετικό λόγο των πιθανοτήτων). Στην εικόνα 50 φαίνεται η λογιστική παλινδρόμηση και οι απλότυποι παραλείπονται από την διαδικασία, σε αντίθεση με την εικόνα 51, καθώς δεν μπορούμε να υπολογίσουμε 86

87 τον σχετικό λόγο πιθανοτήτων με μηδενική συχνότητα σε εκείνη τη θέση. Τα απλοτυπικά δεδομένα που επεξεργαστήκαμε φαίνονται στον πίνακα 12. Παρατηρήστε τις συχνότητες (στήλη frequency) των απλότυπων 14 και 15 (στήλη haplotype_nr) για ασθενείς (case=1) και μάρτυρες (case=0). haplotype haplotype_nr frequency case GCGAGCCCCA GCGCGTCCCA ACGAGCCCCA GCGCGTCCGA ATAAACACGA ACGCATCCCA GCGCGCCCCA GCGAGTCCCA ATGCACATCG ATGCGTCCCA ACGCGTCCGA GCGCGCCCGT GCAAGCACCA ATGAACCCGA ACGAGTCCCA ACGCACCCCA GCGAGCCCCA GCGCGTCCCA ACGAGCCCCA GCGCGTCCGA ATAAACACGA ACGCATCCCA GCGCGCCCCA GCGAGTCCCA ATGCACATCG ATGCGTCCCA ACGCGTCCGA GCGCGCCCGT GCAAGCACCA ATGAACCCGA ACGAGTCCCA ACGCACCCCA Πίνακας 12: Απλοτυπικά δεδομένα ασθενών-μαρτύρων 87

88 Εικόνα 50: Λογιστική παλινδρόμηση στα δεδομένα της μελέτης ADAM33 haplotypes are associated with asthma in a large Australian population (Kedda, Duffy et al. 2006) Η πολυωνιμική παλινδρόμηση ήταν η πιο βολική στην ερμηνεία των αποτελεσμάτων (εικόνα 52). Με υψηλό 2 X και p-value<0.05 έδειξε μεγάλη συσχέτιση στον απλότυπο 8 με σχετικό λόγο πιθανοτήτων Κάτι τέτοιο σημαίνει πως όποιος έχει τον απλότυπο 8, έχει 3,81 φορές παραπάνω κίνδυνο να εμφανίσει άσθμα σε σχέση με τον πιο κοινό απλότυπο. Οι υπόλοιποι απλότυποι δεν έδειξαν κάποια συσχέτιση σύμφωνα με τις μεθόδους παλινδρόμησης, καθώς τα p-value τους δεν κατέβηκαν κάτω από 0.05 και έτσι δεν απορρίψαμε την μηδενική υπόθεση, ότι δηλαδή οι απλότυποι δεν σχετίζονται με την ασθένεια. 88

89 Εικόνα 51: Πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης ADAM33 haplotypes are associated with asthma in a large Australian population (Kedda, Duffy et al. 2006) 89

90 Εικόνα 52: Απεικόνιση των συντελεστών με Odds ratio επέκταση της εικόνας 51 Άλλη περίπτωση αποτελεσμάτων ήταν αυτή της απλοτυπικής ανάλυσης του γονιδίου του υποδοχέα της αδρεναλίνης (Zee, Cook et al. 2005). Εδώ παρατηρήσαμε 2 στατιστική σημαντικότητα, αλλά υπήρξαν διαφορετικοί X μεταξύ λογιστικής και πολυωνιμικής παλινδρόμησης (εικόνα 53). Κάτι τέτοιο είναι αναμενόμενο καθώς και σε αυτήν την περίπτωση υπάρχουν απλότυποι με μηδενική συχνότητα. Ωστόσο κανένας από τους απλότυπους δεν έδειξε σημαντική συσχέτιση και τα p-value ήταν όλα παραπάνω από την περιοχή απόρριψης. Θα μπορούσαμε να πούμε για τον απλότυπο 2 ότι έχει μια μικρή τάση καθώς είναι μόλις μονάδες εκτός της περιοχής απόρριψης. Ίσως αν είχαμε μεγαλύτερο δείγμα να μπορούσαμε να βγάλουμε ένα καλύτερο συμπέρασμα για αυτόν τον απλότυπο. Τα δεδομένα που επεξεργαστήκαμε φαίνονται στον πίνακα

91 haplotype haplotype_nr frequency case G16-E27-T G16-Q27-I G16-Q27-T G16-E27-I R16-Q27-T R16-Q27-I R16-E27-T R16-E27-I G16-E27-T G16-Q27-I G16-Q27-T G16-E27-I R16-Q27-T R16-Q27-I R16-E27-T R16-E27-I Πίνακας 13: Απλοτυπικά δεδομένα ασθενών-μαρτύρων Ακόμη μια οριακή περίπτωση αποτελεσμάτων είχαμε και σε ακόμη μια μελέτη η οποία αφορούσε εκτίμηση γενετικού κινδύνου για την διαβητική νεφροπάθεια (Kankova, Stejskalova et al. 2007). Αυτή τη φορά όμως είχαμε οριακό 2 2 αριθμό p-value στον έλεγχο X. Είχαμε υψηλότερο X από την προηγούμενη μελέτη (Zee, Cook et al. 2005), αλλά το p-value είναι πάνω από την περιοχή απόρριψης κατά μονάδες. Συνεπώς θα πρέπει να αναφερθούμε σε αυτήν την μελέτη. Βλέπουμε στην εικόνα 55 ότι δυο απλότυποι εμφανίζουν σημαντική συσχέτιση, οι 4 και 5 έχουν p-value<0.05. Επαναλαμβάνουμε την λογιστική παλινδρόμηση και εκτυπώνουμε τα αποτελέσματα με Odds ratio στην εικόνα 54. Βλέπουμε λοιπόν πως οι απλότυποι 4 και 5 έχουν τον ίδιο σχετικό κίνδυνο για την ασθένεια, και αυτός είναι 2.21 φορές παραπάνω από τον απλότυπο με την μεγαλύτερη συχνότητα, δηλαδή τον πρώτο. Τα δεδομένα που επεξεργαστήκαμε φαίνονται παρακάτω στον πίνακα

92 haplotype haplotype_nr frequency case rare rare Πίνακας 14: Απλοτυπικά δεδομένα ασθενών-μαρτύρων 92

93 Εικόνα 53: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης "Haplotype Analysis of the β2 Adrenergic Receptor Gene and Risk of Myocardial Infarction in Humans (Zee, Cook et al. 2005) Εικόνα 54: Απεικόνιση των συντελεστών με Odds ratio επέκταση της εικόνας 54 93

94 Εικόνα 55: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Genetic risk factors for diabetic nephropathy on chromosomes 6p and 7q identified by the set-association approach (Kankova, Stejskalova et al. 2007) 94

95 3.2 ΣΥΖΗΤΗΣΗ Τα αποτελέσματα αυτής της εργασίας συμφώνησαν με αυτά των αντίστοιχων μελετών. Ο αριθμός των μελετών που κατέληγαν σε κάποιο τρανταχτό συμπέρασμα ήταν μικρός, αυτό οφείλεται στο ότι οι μελέτες αυτού του τύπου είναι κυρίως ερευνητικές και έτσι είναι νωρίς να γίνεται λόγος για σίγουρα αποτελέσματα, εκτός και αν τα στοιχεία είναι πολύ ενθαρρυντικά. Στα σημεία που υπήρξαν στατιστικώς σημαντικά αποτελέσματα, ήρθαν σε συμφωνία με τα δικά μας, και αυτό απέδειξε πως η μέθοδος της παλινδρόμησης αποτέλεσε ένα καλό και αξιόπιστο εργαλείο για την ανάλυση των δεδομένων. Ένα βασικό συμπέρασμα είναι ότι πρέπει κανείς να προσέχει την οργάνωση των δεδομένων στους πίνακες. Η κωδικοποίηση που γίνεται στο Stata έχει την αρχή να δεσμεύει τον πρώτο απλότυπο και να τον χρησιμοποιεί ως αυτόν με τη μεγαλύτερη συχνότητα. Σε αρκετές μελέτες όμως τα δεδομένα δεν ήταν ταξινομημένα κατά αύξουσα συχνότητα, και ως συνέπεια έπρεπε να αλλάξουν κατά την μεταφορά. Επίσης προσοχή χρειάζεται στην ομοιογένεια των δεδομένων. Ο τρόπος απεικόνισης μπορεί να διαφέρει από μελέτη σε μελέτη, καθώς και οι μονάδες μέτρησης. Σε πολλές περιπτώσεις χρειάστηκαν αλλαγές κυρίως στην μετατροπή των συχνοτήτων, αλλά και τις τιμές της χοληστερίνης στο αίμα. Για την ανάλυση των μελετών με μεταβλητή συνεχούς τιμής είχαμε σαν κατάλληλο εργαλείο την απλή γραμμική παλινδρόμηση, ωστόσο τα δεδομένα ήταν λίγα και αυτή η μέθοδος δεν παρουσίαζε αποτελέσματα. Έτσι χρησιμοποιήσαμε έναν άλλο τύπο παλινδρόμησης που παρέχει το Stata, την λεγόμενη vwls (variance weighted least squares) παλινδρόμηση, η οποία ταίριαξε στα δεδομένα καθώς θέλαμε να χρησιμοποιήσουμε ως παράγοντα και την διακύμανση των τιμών της χοληστερίνης. Όσον αφορά τις μελέτες με ασθενείς και μάρτυρες τα αποτελέσματα ήταν ενθαρρυντικά και έδειξαν πως με αυτές τις απλές μεθόδους μπορούμε να κάνουμε ανάλυση απλότυπων, αλλά και παρόμοιων δεδομένων όπως είναι οι γονότυποι αλλά και μεμονωμένοι πολυμορφισμοί. Η πιο κατάλληλη για την παρουσίαση των αποτελεσμάτων αποδείχθηκε η πολυωνιμική παλινδρόμηση λόγω της δομής της, ωστόσο η διαφορά της με την λογιστική δεν είναι μεγάλη οπτικά. Από την υπολογιστική όμως πλευρά η πολυωνυμική παλινδρόμηση έδειξε ένα βασικό πλεονέκτημα, το οποίο ήταν ο υπολογισμός των συντελεστών παλινδρόμησης με μεγαλύτερη ακρίβεια. Σε δυο περιπτώσεις η λογιστική παλινδρόμηση εξαίρεσε 95

96 κάποιους απλότυπους από την διαδικασία επειδή είχαν μηδενική συχνότητα, ενώ η πολυωνυμική όχι. Η Poisson αρκετές φορές δεν συμφωνούσε στους υπολογισμούς του p-value για τον 2, αλλά ούτε για τον ίδιο. Ωστόσο είχε το ίδιο αποτέλεσμα με τις υπόλοιπες στους συντελεστές παλινδρόμησης και στα αντίστοιχα p-value. Αυτό ίσως μας παροτρύνει να την χρησιμοποιούμε συνδιαστικά με τις άλλες, αλλά ίσως και καθόλου, ανάλογα κάθε περίπτωση. Πολύ σημαντικός παράγοντας που επηρεάζει την αξιοπιστία των αποτελεσμάτων είναι το μέγεθος του δείγματος. Ένας ικανοποιητικός αριθμός ατόμων μπορεί να συμβάλει στην εξαγωγή αξιόπιστων αποτελεσμάτων. Στις μελέτες που είδαμε ο μέσος αριθμός των ατόμων ήταν Υπήρξαν βέβαια περιπτώσεις πολύ κάτω από αυτό το πλαίσιο, αλλά και πολύ παραπάνω. Σε όσες περιπτώσεις είχαμε πολλά παραπάνω άτομα, παρατηρήσαμε πως αποφεύγαμε τις οριακές καταστάσεις των p-value και το αποτέλεσμα ήταν πιο ξεκάθαρο. Αυτές οι παλινδρομήσεις είναι η βάση στην οποία μπορεί να στηριχθεί κανείς στην ανάλυση τέτοιων δεδομένων, και αποτελούν εξέλιξη του υπολογισμού του σχετικού λόγου πιθανοτήτων (Odds ratio). Για την ακρίβεια στηρίζονται πάνω στο μαθηματικό αυτό εργαλείο. Αν λάβουμε υπόψη τα πρόσθετα που μπορούμε να βάλουμε σε αυτές τις μεθόδους, όπως τα πιθανοτικά βάρη, θα έχουμε στα χέρια μας απλά και χρήσιμα εργαλεία για απλοτυπική ανάλυση. Επιπλέον, σημαντικό είναι να ξέρουμε πως δεν μπορούμε να βγάλουμε εύκολα συμπέρασμα για μια ασθένεια, εάν οφείλεται ή όχι σε έναν απλότυπο, πολύ απλά γιατί υπάρχουν και άλλοι παράγοντες που επηρεάζουν την πορεία της. Οι απλότυποι αποτελούν ένα τμήμα της ανάλυσης του ανθρώπινου γονιδιώματος. Για την εξαγωγή κάποιου συμπεράσματος χρειάζεται αρκετός χρόνος έρευνας και στατιστικών μελετών. Το συμπέρασμα αυτής της εργασίας είναι πως θα πρέπει να συμπεριλαμβάνουμε στην μελέτη γενετικής συσχέτισης την ανάλυση των απλότυπων ως ένα παραπάνω στοιχείο που θα οδηγήσει σε κάποιο συμπέρασμα. Η βελτιστοποίηση αυτής της ανάλυσης ελπίζουμε πως θα οδηγήσει σε πιο αξιόπιστα και αληθή αποτελέσματα στο μέλλον. Η σημαντικότητα της απλοτυπικής ανάλυσης φαίνεται καθώς πολλές μελέτες πλέον την συμπεριλαμβάνουν στην δουλειά τους. Από την πρώτη εμφάνιση των απλοτυπικών αναλύσεων την δεκαετία του 90 και μέχρι σήμερα παρατηρούμε έναν αυξανόμενο αριθμό μελετών που περιέχουν τέτοια δεδομένα. Το μέλλον είναι αρκετά 96

97 υποσχόμενο καθώς ήδη αποτυπικά δεδομένα είναι διαθέσιμα και στο διαδίκτυο μέσω του HapMap project, πράγμα που ενθαρρύνει την ενασχόληση φοιτητών/ερευνητών με το θέμα. Ακολουθούν όλες οι υπόλοιπες μελέτες που δεν αναλύθηκαν. Τις χωρίσαμε σε 2 κατηγορίες. Η πρώτη κατηγορία είναι μελέτες με απόρριψη της μηδενικής υπόθεσης (p-value<0.05) του (p-value>0.05) του 2. 2 και η δεύτερη με αποδοχή της μηδενικής υπόθεσης 97

98 98

99 Παράρτημα 1 απόρριψη της μηδενικής υπόθεσης 99

100 100

101 haplotype haplotype_nr frequency case A 274 T C A 274 C T G 270 C T G 270 T C G 274 C T A 274 T C A 274 C T G 270 C T G 270 T C G 274 C T Πίνακας 15: Δεδομένα της μελέτης Brain-derived neurotrophic factor and risk of schizophrenia: An association study and meta-analysis (Qian, Zhao et al. 2007) Εικόνα 56: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Brain-derived neurotrophic factor and risk of schizophrenia: An association study and meta-analysis (Qian, Zhao et al. 2007) 101

102 haplotype haplotype_nr frequency percent case GAGCCCA ,31 1 GAGCCCG ,26 1 GGCACCG ,2 1 GGCACTG ,09 1 TGCACCG ,08 1 GAGCCCA ,3 1 GAGCCCG ,26 1 GGCACCG ,2 1 GGCACTG ,08 1 TGCACCG ,09 1 GAGCCCA ,32 0 GAGCCCG ,25 0 GGCACCG ,21 0 GGCACTG ,1 0 TGCACCG ,08 0 GAGCCCA ,28 0 GAGCCCG ,26 0 GGCACCG ,2 0 GGCACTG ,08 0 TGCACCG ,09 0 Πίνακας 16: Δεδομένα της μελέτης Genetic variation in IL6 gene and type 2 diabetes: tagging-snp haplotype analysis in large-scale case control study and meta-analysis (Qi, van Dam et al. 2006) 102

103 Εικόνα 57: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Genetic variation in IL6 gene and type 2 diabetes: tagging-snp haplotype analysis in large-scale case control study and meta-analysis (Qi, van Dam et al. 2006) 103

104 haplotype haplotype_nr frequency case CGGAT CGGTT CAGTT AAGTT AAATC Others CGGAT CGGTT CAGTT AAGTT AAATC Others Πίνακας 17: Δεδομένα της μελέτης Tagging SNPs in non-homologous end-joining pathway genes and risk of glioma (Liu, Zhang et al. 2007) για το γονίδιο XRCC5 104

105 Εικόνα 58: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Tagging SNPs in non-homologous end-joining pathway genes and risk of glioma (Liu, Zhang et al. 2007) για το γονίδιο XRCC5 105

106 haplotype haplotype_nr frequency case CAGGG CAAGG CGAAA GAAGG Others CAGGG CAAGG CGAAA GAAGG Others Πίνακας 18: Δεδομένα της μελέτης Tagging SNPs in non-homologous end-joining pathway genes and risk of glioma (Liu, Zhang et al. 2007) για το γονίδιο XRCC6 Εικόνα 59: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Tagging SNPs in non-homologous end-joining pathway genes and risk of glioma (Liu, Zhang et al. 2007) για το γονίδιο XRCC6 106

107 haplotype haplotype_nr frequency case GCCT AGTC GCTC ACTC ACCT others GCCT AGTC GCTC ACTC ACCT others Πίνακας 19: Δεδομένα της μελέτης Haplotypic variation in MRE11, RAD50 and NBS1 and risk of non-hodgkin s lymphoma (Rollinson, Kesby et al. 2006) Εικόνα 60: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Haplotypic variation in MRE11, RAD50 and NBS1 and risk of non-hodgkin s lymphoma (Rollinson, Kesby et al. 2006) 107

108 haplotype haplotype_nr frequency case TTGGAG CTGGGG TAGGAG TAGGAA TTGTAG TTSGAG TTGGAA CTGGAG TTGGGG Others TTGGAG CTGGGG TAGGAG TAGGAA TTGTAG TTSGAG TTGGAA CTGGAG TTGGGG Others Πίνακας 20: Δεδομένα της μελέτης Haplotype analysis of the RAGE gene: identification of a haplotype marker for diabetic nephropathy in type 2 diabetes mellitus (Kankova, Stejskalova et al. 2005) 108

109 Εικόνα 61: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Haplotype analysis of the RAGE gene: identification of a haplotype marker for diabetic nephropathy in type 2 diabetes mellitus (Kankova, Stejskalova et al. 2005) 109

110 110

111 Παράρτημα 2 αποδοχή της μηδενικής υπόθεσης 111

112 112

113 haplotype haplotype_nr case frequency GTG TCGA CCCC TCGC CGCC AGA GGG GTA GTG TCGA CCCC TCGC CGCC AGA GGG GTA Πίνακας 21: Δεδομένα της μελέτης Analysis of Candidate Genes on Chromosomes 5q and 19p in Celiac Disease (Latiano, Mora et al. 2007) 113

114 Εικόνα 62: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Analysis of Candidate Genes on Chromosomes 5q and 19p in Celiac Disease (Latiano, Mora et al. 2007) 114

115 haplotype haplotype_nr Frequency frequency_percent case GGGCA ,621 1 GGTTG , GGGCG , AGGCA , GAGCA , GGGCA , GGTTG , GGGCG ,088 0 AGGCA , GAGCA , Πίνακας 22: Δεδομένα της μελέτης Progesterone receptor polymorphisms and risk of breast cancer: results from two Australian breast cancer studies (Johnatty, Spurdle et al. 2008) Εικόνα 63: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Progesterone receptor polymorphisms and risk of breast cancer: results from two Australian breast cancer studies (Johnatty, Spurdle et al. 2008) 115

116 haplotype haplotype_nr frequency case CGC TTT CGT TGC CTT TGT TTC CTC CGC TTT CGT TGC CTT TGT TTC CTC Πίνακας 23: Δεδομένα της μελέτης Common ABCB1 polymorphisms are not associated with multidrug resistance in epilepsy using a gene-wide tagging approach (Leschziner, Andrew et al. 2007) 116

117 Εικόνα 64: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Common ABCB1 polymorphisms are not associated with multidrug resistance in epilepsy using a gene-wide tagging approach (Leschziner, Andrew et al. 2007) 117

118 haplotype haplotype_nr frequency case TTTCC CCCAT TTTCT CTTAT TTTCC CCCAT TTTCT CTTAT Πίνακας 24: Δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο ASPN Εικόνα 65: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο ASPN 118

119 haplotype haplotype_nr frequency case CC TC CT TT CC TC CT TT Πίνακας 25: Δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο COL2A1 Εικόνα 66: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο COL2A1 119

120 haplotype haplotype_nr frequency case AC AG GC AC AG GC Πίνακας 26: Δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο COMP Εικόνα 67: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο COMP 120

121 haplotype haplotype_nr frequency case CC CG TC TG CC CG TC TG Πίνακας 27: Δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο FRZB Εικόνα 68: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Sex and Ethnic Differences in the Association of ASPN, CALM1, COL2A1, COMP, and FRZB With Genetic Susceptibility to Osteoarthritis of the Knee (Valdes, Loughlin et al. 2007) Για το γονίδιο FRZB 121

122 haplotype haplotype_nr frequency case ATAA GGGG GTGA GGGA GTAA AGGG ATGA ATAA GGGG GTGA GGGA GTAA AGGG ATGA Πίνακας 28: Δεδομένα της μελέτης RGS4 is not a susceptibility gene for schizophrenia in Japanese: Association study in a large case-control population (Ishiguro, Horiuchi et al. 2007) 122

123 Εικόνα 69: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης RGS4 is not a susceptibility gene for schizophrenia in Japanese: Association study in a large case-control population (Ishiguro, Horiuchi et al. 2007) 123

124 haplotype haplotype_nr frequency case G T G T G C C G G A G C C C A T A G C G T G C C G G A G C C G G C A T T A C T T G G A A C C G C A T A G T G T G C C G G A G C C C A C A T T A C T T G G A A C C G C A T G G C G T G C C G G A G T C G G C A RARE G T G T G C C G G A G C C C A T A G C G T G C C G G A G C C G G C A T T A C T T G G A A C C G C A T A G T G T G C C G G A G C C C A C A T T A C T T G G A A C C G C A T G G C G T G C C G G A G T C G G C A RARE Πίνακας 29: Δεδομένα της μελέτης Polymorphism discovery in 62 DNA repair genes and haplotype associations with risks for lung and head and neck cancers (Michiels, Danoy et al. 2007) Για το γονίδιο MSH3 124

125 Εικόνα 70: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Polymorphism discovery in 62 DNA repair genes and haplotype associations with risks for lung and head and neck cancers (Michiels, Danoy et al. 2007) Για το γονίδιο MSH3 125

126 haplotype haplotype_nr frequency case A T C G A A C T A C A C C G A C C C G A A T C G A A C T A C A C C G A C C C G A Πίνακας 30: Δεδομένα της μελέτης Polymorphism discovery in 62 DNA repair genes and haplotype associations with risks for lung and head and neck cancers (Michiels, Danoy et al. 2007) Για το γονίδιο ERCC5 Εικόνα 71: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Polymorphism discovery in 62 DNA repair genes and haplotype associations with risks for lung and head and neck cancers (Michiels, Danoy et al. 2007) Για το γονίδιο ERCC5 126

127 haplotype haplotype_nr frequency case TT G C C A T C D G C C A T C TT A C C A C A TT G G A G T C RARE TT G C C A T C D G C C A T C TT A C C A C A TT G G A G T C RARE Πίνακας 31: Δεδομένα της μελέτης Polymorphism discovery in 62 DNA repair genes and haplotype associations with risks for lung and head and neck cancers (Michiels, Danoy et al. 2007) Για το γονίδιο RPA3 Εικόνα 72: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Polymorphism discovery in 62 DNA repair genes and haplotype associations with risks for lung and head and neck cancers (Michiels, Danoy et al. 2007) Για το γονίδιο RPA3 127

128 haplotype haplotype_nr frequency case TTGTCC CGAATT TTGACC TGAATT CGATTT CGAATC others TTGTCC CGAATT TTGACC TGAATT CGATTT CGAATC others Πίνακας 32: Δεδομένα της μελέτης Haplotypic variation in MRE11, RAD50 and NBS1 and risk of non-hodgkin s lymphoma (Rollinson, Kesby et al. 2006) 128

129 Εικόνα 73: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Haplotypic variation in MRE11, RAD50 and NBS1 and risk of non-hodgkin s lymphoma (Rollinson, Kesby et al. 2006) 129

130 haplotype haplotype_nr frequency case AACGCCT AACGCTC AGCACCC AACGCCC TACGCCT AACGGTC Rare AACGCCT AACGCTC AGCACCC AACGCCC TACGCCT AACGGTC Rare Πίνακας 33: Δεδομένα της μελέτης Effect of ATM, CHEK2 and ERBB2 TAGSNPs and haplotypes on endometrial cancer risk (Einarsdottir, Humphreys et al. 2007) Για το γονίδιο ATM 130

131 Εικόνα 74: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Effect of ATM, CHEK2 and ERBB2 TAGSNPs and haplotypes on endometrial cancer risk (Einarsdottir, Humphreys et al. 2007) Για το γονίδιο ATM 131

132 haplotype haplotype_nr frequency case GCCCCC GGCTGC GCCCCG ACCCGC GCTCGG GGCCGC Rare GCCCCC GGCTGC GCCCCG ACCCGC GCTCGG GGCCGC Rare Πίνακας 34: Δεδομένα της μελέτης Effect of ATM, CHEK2 and ERBB2 TAGSNPs and haplotypes on endometrial cancer risk (Einarsdottir, Humphreys et al. 2007) Για το γονίδιο CHEK2 132

133 Εικόνα 75: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Effect of ATM, CHEK2 and ERBB2 TAGSNPs and haplotypes on endometrial cancer risk (Einarsdottir, Humphreys et al. 2007) Για το γονίδιο CHEK2 133

134 haplotype haplotype_nr frequency case CGTGGT TGTAAC TATAAC TGGAGC CGTGGT TGTAAC TATAAC TGGAGC Πίνακας 35: Δεδομένα της μελέτης The Mannose-binding lectin (MBL2) haplotype and breast cancer: an association study in African American and Caucasian women (Bernig, Boersma et al. 2007) Εικόνα 76: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης The Mannose-binding lectin (MBL2) haplotype and breast cancer: an association study in African American and Caucasian women (Bernig, Boersma et al. 2007) 134

135 haplotype haplotype_nr frequency case G G G C A G G T T G G G G C G A G G C A G A G C A G G G C A G G T T G G G G C G A G G C A G A G C A Πίνακας 36: Δεδομένα της μελέτης Progesterone receptor polymorphisms and risk of breast cancer: results from two Australian breast cancer studies (Johnatty, Spurdle et al. 2008) Εικόνα 77: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Progesterone receptor polymorphisms and risk of breast cancer: results from two Australian breast cancer studies (Johnatty, Spurdle et al. 2008) 135

136 haplotype haplotype_nr frequency case G G C G A G G A A A G G C G G G G A A G G A A A G G A A A A G A A G G G A A G A G A C G A A A A A G A A A A A G G C G A G G A A A G G C G G G G A A G G A A A G G A A A A G A A G G G A A G A G A C G A A A A A G A A A A A Πίνακας 37: Δεδομένα της μελέτης Cholesteryl Ester Transfer Protein (CETP) Genetic Variation and Early Onset of Non-Fatal Myocardial Infarction (Meiner, Friedlander et al. 2008) 136

137 Εικόνα 78: Λογιστική, πολυωνιμική και Poisson παλινδρόμηση στα δεδομένα της μελέτης Cholesteryl Ester Transfer Protein (CETP) Genetic Variation and Early Onset of Non-Fatal Myocardial Infarction (Meiner, Friedlander et al. 2008) 137

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη Σημειακή εκτίμηση και εκτίμηση με διάστημα 11 η Διάλεξη Εκτιμήτρια Κάθε στατιστική συνάρτηση που χρησιμοποιείται για την εκτίμηση μιας παραμέτρου ενός πληθυσμού (π.χ. ο δειγματικός μέσος) Σημειακή εκτίμηση

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΒΙΟΛΟΓΟΣ

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΒΙΟΛΟΓΟΣ ΚΕΦΑΛΑΙΟ 5ον ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ ΤΙ ΠΡΕΠΕΙ ΝΑ ΞΕΡΩ 1. Τι είναι κυτταρικός κύκλος, και τα δυο είδη κυτταρικής διαίρεσης. 2. Από τα γεγονότα της μεσόφασης να μην μου διαφεύγει η αντιγραφή του γενετικού

Διαβάστε περισσότερα

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3, Συνάφεια μεταξύ ποιοτικών μεταβλητών Εκδ. #3, 19.03.2016 Ο έλεγχος ανεξαρτησίας χ 2 Ο έλεγχος ανεξαρτησίας χ 2 εφαρμόζεται για να εξετάσουμε τη συνάφεια μεταξύ δύο ποιοτικών μεταβλητών με την έννοια της

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Κεφάλαιο 5: Μενδελική Κληρονομικότητα

Κεφάλαιο 5: Μενδελική Κληρονομικότητα Κεφάλαιο 5: Μενδελική Κληρονομικότητα 1. Ο Mendel. α. εξέταζε σε κάθε πείραμά του το σύνολο των ιδιοτήτων του μοσχομπίζελου β. χρησιμοποιούσε αμιγή στελέχη στις ιδιότητες που μελετούσε γ. χρησιμοποιούσε

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Copyright 2009 Cengage Learning 15.1 Ένα Κοινό Θέμα Τι πρέπει να γίνει; Τύπος Δεδομένων; Πλήθος Κατηγοριών; Στατιστική Μέθοδος; Περιγραφή ενός πληθυσμού Ονομαστικά Δύο ή

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Κεφάλαιο 5: ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ

Κεφάλαιο 5: ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ Κεφάλαιο 5: ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ -ΘΕΩΡΙΑ- Κληρονομικότητα: Η ιδιότητα των ατόμων να μοιάζουν με τους προγόνους τους. Κληρονομικοί χαρακτήρες: Οι ιδιότητες που κληρονομούνται στους απογόνους. Γενετική:

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Μεθοδολογία επίλυσης ασκήσεων Γενετικής

Μεθοδολογία επίλυσης ασκήσεων Γενετικής Μεθοδολογία επίλυσης ασκήσεων Γενετικής Νόμοι του Mendel 1. Σε όλες τις ασκήσεις διασταυρώσεων αναφέρουμε τον 1 ο νόμο του Mendel (νόμο διαχωρισμού των αλληλόμορφων γονιδίων). 2. Σε ασκήσεις διυβριδισμού

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Τι είναι το FoundationOne ; Το FoundationOne είναι μια εξέταση που ανιχνεύει γενωμικές μεταβολές (π.χ. μεταλλάξεις) που είναι γνωστό ότι σχετίζονται με

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ 3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Πρόβλημα: Ένας ραδιοφωνικός σταθμός ενδιαφέρεται να κάνει μια ανάλυση για τους πελάτες του που διαφημίζονται σ αυτόν για να εξετάσει την ποσοστιαία μεταβολή των πωλήσεων

Διαβάστε περισσότερα

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40] Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική 8// (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [4] Τα τελευταία χρόνια παρατηρείται συνεχώς αυξανόμενο ενδιαφέρον για τη μελέτη της συγκέντρωσης

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΟΠ Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 18/09/2016 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΝΟΤΑ ΛΑΖΑΡΑΚΗ ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Η Χαρά

Διαβάστε περισσότερα

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας Εργαστήριο Υγιεινής Επιδημιολογίας και Ιατρικής Στατιστικής Ιατρική Σχολή, Πανεπιστήμιο Αθηνών Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας Δ. Παρασκευής Εργαστήριο Υγιεινής Επιδημιολογίας και

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται δύο κριτήρια απόρριψης απομακρυσμένων από τη μέση τιμή πειραματικών μετρήσεων ενός φυσικού μεγέθους και συγκεκριμένα

Διαβάστε περισσότερα

H ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ (PEARSON s r)

H ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ (PEARSON s r) 5 H ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ (PEARSON s r) Περίληψη Σκοπός του κεφαλαίου είναι η εφαρμογή της ανάλυσης συσχέτισης (Pearson r) μέσω του PASW. H ανάλυση συσχέτισης Pearson r χρησιμοποιείται για να εξεταστεί η

Διαβάστε περισσότερα

ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ. Ο Mendel καλλιέργησε φυτά σε διάστημα 8 ετών για να φτάσει στη διατύπωση των νόμων της κληρονομικότητας

ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ. Ο Mendel καλλιέργησε φυτά σε διάστημα 8 ετών για να φτάσει στη διατύπωση των νόμων της κληρονομικότητας ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ Ο Mendel καλλιέργησε 28.000 φυτά σε διάστημα 8 ετών για να φτάσει στη διατύπωση των νόμων της κληρονομικότητας Λόγοι επιτυχίας των πειραμάτων του Mendel 1. Μελέτησε μία ή δύο

Διαβάστε περισσότερα

Κεφάλαιο 6 Το τέλος της εποχής της Γενετικής

Κεφάλαιο 6 Το τέλος της εποχής της Γενετικής 1 Απόσπασμα από το βιβλίο «Πως να ζήσετε 150 χρόνια» του Dr. Δημήτρη Τσουκαλά Κεφάλαιο 6 Το τέλος της εποχής της Γενετικής Υπάρχει ένα δεδομένο στη σύγχρονη ιατρική που λειτουργεί όπως λειτουργούσε στην

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Εισαγωγή στην Ανάλυση Δεδομένων

Εισαγωγή στην Ανάλυση Δεδομένων ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 09-10-2015 Εισαγωγή στην Ανάλυση Δεδομένων Βασικές έννοιες Αν. Καθ. Μαρί-Νοέλ Ντυκέν ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 30-10-2015 1. Στατιστικοί παράμετροι - Διάστημα εμπιστοσύνης Υπολογισμός

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες ΕΙΣΑΓΩΓΗ Βασικές έννοιες Σε ένα ερωτηματολόγιο έχουμε ένα σύνολο ερωτήσεων. Μπορούμε να πούμε ότι σε κάθε ερώτηση αντιστοιχεί μία μεταβλητή. Αν θεωρήσουμε μια ερώτηση, τα άτομα δίνουν κάποιες απαντήσεις

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς Στατιστική Ανάλυση ιασποράς με ένα Παράγοντα One-Way Anova Χατζόπουλος Σταύρος Κεφάλαιο 8ο. Ανάλυση ιασποράς 8.1 Εισαγωγή 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς 8.3 Ανάλυση ιασποράς με

Διαβάστε περισσότερα

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής Copyright 2009 Cengage Learning 4.1 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής Δείκτες Κεντρικής Θέσης [Αριθμητικός] Μέσος, Διάμεσος, Επικρατούσα

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 10: Οικονομετρικά προβλήματα: Παραβίαση των υποθέσεων Β μέρος: Ετεροσκεδαστικότητα Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr

Διαβάστε περισσότερα

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω

Διαβάστε περισσότερα

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΙΕΘΝΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΣΧΕΣΕΩΝ ΚΑΙ ΑΝΑΠΤΥΞΗΣ ΜΑΘΗΜΑ: ΣΤΑΤΙΣΤΙΚΗ IΙ ΕΙΣΗΓΗΤΡΙΑ: ΣΑΒΒΑΣ ΠΑΠΑ ΟΠΟΥΛΟΣ ΠΑΛΑΙΑ ΘΕΜΑΤΑ ********************************************************************

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα. Εισαγωγή Μετρήσεις-Σφάλματα Πολλές φορές θα έχει τύχει να ακούσουμε τη λέξη πείραμα, είτε στο μάθημα είτε σε κάποια είδηση που αφορά τη Φυσική, τη Χημεία ή τη Βιολογία. Είναι όμως γενικώς παραδεκτό ότι

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

Δασική Γενετική Εισαγωγή: Βασικές έννοιες Δασική Γενετική Εισαγωγή: Βασικές έννοιες Χειμερινό εξάμηνο 2014-2015 Γενετική Πειραματική επιστήμη της κληρονομικότητας Προέκυψε από την ανάγκη κατανόησης της κληρονόμησης οικονομικά σημαντικών χαρακτηριστικών

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. Πιθανότητες. Τυχαίες μεταβλητές - Κατανομές ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 ΚΕΦΑΛΑΙΟ 2

ΠΕΡΙΕΧΟΜΕΝΑ. Πιθανότητες. Τυχαίες μεταβλητές - Κατανομές ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 ΚΕΦΑΛΑΙΟ 2 ΠΕΡΙΕΧΟΜΕΝΑ ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 Πιθανότητες 1.1 Πιθανότητες και Στατιστική... 5 1.2 ειγματικός χώρος Ενδεχόμενα... 7 1.3 Ορισμοί και νόμοι των πιθανοτήτων... 10 1.4 εσμευμένη πιθανότητα Ολική

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011 Εργαστήριο Μαθηματικών & Στατιστικής Γραπτή Εξέταση Περιόδου Φεβρουαρίου για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 5//. [] Η ποσότητα, έστω Χ, ενός συντηρητικού που περιέχεται σε φιάλες αναψυκτικού

Διαβάστε περισσότερα

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου 4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου Για την εκτίμηση των παραμέτρων ενός πληθυσμού (όπως η μέση τιμή ή η διασπορά), χρησιμοποιούνται συνήθως δύο μέθοδοι εκτίμησης. Η πρώτη ονομάζεται σημειακή εκτίμηση.

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ

ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ Σε αντίθεση με την διακριτή τυχαία μεταβλητή, μία συνεχής τυχαία μεταβλητή παίρνει μη-αριθμήσιμο (συνεχές) πλήθος τιμών. Δεν μπορούμε να καταγράψουμε το σύνολο των τιμών

Διαβάστε περισσότερα

Γ. Πειραματισμός - Βιομετρία

Γ. Πειραματισμός - Βιομετρία Γ. Πειραματισμός - Βιομετρία Πληθυσμοί και δείγματα Πληθυσμός Περιλαμβάνει όλες τις πιθανές τιμές μιας μεταβλητής, δηλαδή αναφέρεται σε μια παρατήρηση σε όλα τα άτομα του πληθυσμού Ο πληθυσμός προσδιορίζεται

Διαβάστε περισσότερα

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος 75 Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ 1.1. Τυχαία γεγονότα ή ενδεχόμενα 17 1.2. Πειράματα τύχης - Δειγματικός χώρος 18 1.3. Πράξεις με ενδεχόμενα 20 1.3.1. Ενδεχόμενα ασυμβίβαστα

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

Το πρόγραμμα συγχρηματοδοτείται 75% από το Ευρωπαϊκό κοινωνικό ταμείο και 25% από εθνικούς πόρους.

Το πρόγραμμα συγχρηματοδοτείται 75% από το Ευρωπαϊκό κοινωνικό ταμείο και 25% από εθνικούς πόρους. Το πρόγραμμα συγχρηματοδοτείται 75% από το Ευρωπαϊκό κοινωνικό ταμείο και 25% από εθνικούς πόρους. ΓΕΝΙΚΟ ΤΜΗΜΑ ΦΥΣΙΚΗΣ, ΧΗΜΕΙΑΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΛΙΚΩΝ ΕΡΓΑΣΤΗΡΙΑ ΦΥΣΙΚΗΣ ORIGIN ΕΙΣΑΓΩΓΙΚΟ ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ

Διαβάστε περισσότερα

9. Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση 9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική Ενότητα 3: Έλεγχοι υποθέσεων - Διαστήματα εμπιστοσύνης Δρ.Ευσταθία Παπαγεωργίου, Αναπληρώτρια Καθηγήτρια Οι ερευνητικές υποθέσεις Στην έρευνα ελέγχουμε

Διαβάστε περισσότερα

Επαναληπτικό μάθημα Βασικών επιδημιολογικών εννοιών. Ειρήνη Αγιαννιωτάκη

Επαναληπτικό μάθημα Βασικών επιδημιολογικών εννοιών. Ειρήνη Αγιαννιωτάκη Επιδημιολογία Επαναληπτικό μάθημα Βασικών επιδημιολογικών εννοιών Συγχυτικοί Παράγοντες Οι συγχυτικοί παράγοντες προκύπτουν όταν οι ομάδες των εκτεθέντων και των μη-εκτεθέντων (του υπό μελέτη πληθυσμού)

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Διάλεξη 1 Βασικές έννοιες

Διάλεξη 1 Βασικές έννοιες Εργαστήριο SPSS Ψ-4201 (ΕΡΓ) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

159141,9 64 x n 1 n

159141,9 64 x n 1 n Πιθανότητες Στατιστική: Λύσεις θεμάτων. Φεβρουάριος 9. Σειρά Α Ζήτημα ο : Μία ομάδα φοιτητών μετρά 64 φορές μία απόσταση s που δεν γνωρίζουν. Τα αποτελέσματα των μετρήσεων εμφανίζονται στον διπλανό πίνακα

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία 4. Εκτιμητική Στατιστική Συμπερασματολογία εκτιμήσεις των αγνώστων παραμέτρων μιας γνωστής από άποψη είδους κατανομής έλεγχο των υποθέσεων που γίνονται σε σχέση με τις παραμέτρους μιας κατανομής και σε

Διαβάστε περισσότερα

-ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΓΕΝΕΤΙΚΗΣ- Α. Εύρεση γαμετών

-ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΓΕΝΕΤΙΚΗΣ- Α. Εύρεση γαμετών -ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΓΕΝΕΤΙΚΗΣ- Α. Εύρεση γαμετών Για να βρίσκετε σωστά τους γαμέτες και να σχηματίζονται όλοι οι συνδυασμοί αλληλομόρφων σε αυτούς πρέπει να θυμάστε ότι κάθε γαμέτης περιέχει μόνο ένα

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE) ΔΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE) ΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE). Εισαγωγή Οι στατιστικές δοκιμασίες που μελετήσαμε μέχρι τώρα ονομάζονται παραμετρικές (paramtrc) διότι χαρακτηρίζονται από υποθέσεις σχετικές είτε για

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΣΜΕΝΗ ΝΕΥΡΟΑΝΑΤΟΜΙΑ» «Βιοστατιστική, Μεθοδολογία και Συγγραφή Επιστημονικής Μελέτης» Ενότητα 2: Έλεγχοι Υποθέσεων

Διαβάστε περισσότερα

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική // (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [] Επιλέξαμε φακελάκια (της μισής ουγκιάς) που περιέχουν σταφίδες από την παραγωγή μιας εταιρείας

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13 ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7 ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13 1.1. Εισαγωγή 13 1.2. Μοντέλο ή Υπόδειγμα 13 1.3. Η Ανάλυση Παλινδρόμησης 16 1.4. Το γραμμικό μοντέλο Παλινδρόμησης 17 1.5. Πρακτική χρησιμότητα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 8 ΑΝΙΣΟΡΡΟΠΙΑ ΣΥΝΔΕΣΗΣ

ΚΕΦΑΛΑΙΟ 8 ΑΝΙΣΟΡΡΟΠΙΑ ΣΥΝΔΕΣΗΣ ΚΕΦΑΛΑΙΟ 8 ΑΝΙΣΟΡΡΟΠΙΑ ΣΥΝΔΕΣΗΣ 1 Σύνοψη Στο κεφάλαιο αυτό θα µελετήσουµε την εξέλιξη δύο γενετικών τόπων όταν αυτοί είναι συνδεδεµένοι, δηλαδή όταν βρίσκονται σε ανισορροπία σύνδεσης. Θα δούµε πώς µετρούµε

Διαβάστε περισσότερα

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 0. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 0. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ Συχνά στην πράξη το μοντέλο της απλής γραμμικής παλινδρόμησης είναι ανεπαρκές για την περιγραφή της μεταβλητότητας που υπάρχει στην εξαρτημένη

Διαβάστε περισσότερα

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17 ΚΕΦΑΛΑΙΟ 17 ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο κεφάλαιο αυτό θα αναφερθούμε σε ένα άλλο πρόβλημα της Στατιστικής που έχει κυρίως (αλλά όχι μόνο) σχέση με τις παραμέτρους ενός πληθυσμού (τις παραμέτρους της κατανομής

Διαβάστε περισσότερα

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α) Τμήμα Διοίκησης Επιχειρήσεων (Αγ. Νικόλαος), Τ.Ε.Ι. Κρήτης Σελίδα 1 από 13 5η Εργαστηριακή Άσκηση Σκοπός: Η παρούσα εργαστηριακή άσκηση στοχεύει στην εκμάθηση κατασκευής γραφημάτων που θα παρουσιάζουν

Διαβάστε περισσότερα

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Βιοτεχνολογία Φυτών ΔΠΘ / Τμήμα Αγροτικής Ανάπτυξης ΠΜΣ Αειφορικά Συστήματα Παραγωγής και Περιβάλλον στη Γεωργία Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Αριστοτέλης Χ. Παπαγεωργίου Εργαστήριο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα