Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 17 ου Πανελληνίου Συνεδρίου Στατιστικής (2004), σελ. 399-408 ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΥΗΣΕΩΝ ΚΑΙ ΝΕΟΓΝΩΝ Γεωργία Στεφάνου και Τάσος Χριστοφίδης Τµήµα Μαθηµατικών και Στατιστικής Πανεπιστήµιο Κύπρου ΠΕΡΙΛΗΨΗ Το ερευνητικό πρόγραµµα ΝΕΟΓΝΟΣ επιχορηγείται από το Ίδρυµα Προώθησης Έρευνας (ΙΠΕ) της Κύπρου και ασχολείται µε τη στατιστική ανάλυση µετρήσεων που έγιναν τα τελευταία χρόνια σε έγκυους και σε νεογνά. Στόχοι του είναι η µελέτη της κατανοµής των δεδοµένων για κάθε ενδιαφέρον χαρακτηριστικό των κυήσεων και γεννήσεων, η προσπάθεια κατασκευής καµπυλών ανάπτυξης για τα νεογνά της Κύπρου και ο καθορισµός των παραγόντων και δηµογραφικών χαρακτηριστικών που συνοδεύουν τις οµάδες υψηλού κινδύνου των διαφόρων επιπλοκών και παθήσεων που αφορούν τις κυήσεις και τα νεογνά. Στη παρούσα φάση θα αναφερθούν οι τεχνικές που χρησιµοποιήθηκαν για τη στατιστική ανάλυση των δεδοµένων που έχει γίνει µέχρι τώρα και θα παρουσιαστούν τα πρώτα αποτελέσµατα. Η µελέτη της κατανοµής των βαρών των νεογνών καθώς και οι επιδράσεις κάποιων χαρακτηριστικών στο βάρος του νεογνού θα είναι κάποια από τα στοιχεία που θα παρουσιαστούν. 1. ΕΙΣΑΓΩΓΗ Η στατιστική ανάλυση των δεδοµένων, η οποία βασίζεται στη χρήση του στατιστικού πακέτου S-Plus, αφορά τη µελέτη των κατανοµών των δεδοµένων για κάθε χαρακτηριστικό που ενδιαφέρει και στηρίζεται σε σύγχρονες τεχνικές της στατιστικής θεωρίας καθώς και τον υπολογισµό κλασικών στατιστικών παραµέτρων όπως για παράδειγµα του µέσου, της διαµέσου, του εύρους, των τεταρτηµορίων και της τυπικής απόκλισης. 399
2. ΑΝΑΛΥΣΗ ΠΡΩΤΟΥ ΑΡΧΕΙΟΥ Ε ΟΜΕΝΩΝ Το πρώτο αρχείο που µελετήθηκε αφορά νεογνά που γεννήθηκαν µεταξύ των ετών 1990 και 1997. Η στατιστική ανάλυση έγινε για την ποσοτική µεταβλητή HWEIGHT (βάρος νεογέννητου) καθώς και για τις ποιοτικές µεταβλητές HP1 (αν το µωρό γεννήθηκε πρόωρα), HP3 (είδος τοκετού), HP6 (αν η έγκυος κάπνιζε πριν την εγκυµοσύνη), HP7 (αν η έγκυος κάπνιζε κατά τη διάρκεια της εγκυµοσύνης) και HP8 (αν η έγκυος έπαιρνε αντιβιοτικά κατά τη διάρκεια της εγκυµοσύνης). Τα αποτελέσµατα της ανάλυσης δείχνουν ότι το βάρος ενός νεογέννητου επηρεάζεται από το αν κάπνιζε η µητέρα πριν ή κατά τη διάρκεια της κύησης ή αν έπαιρνε αντιβιοτικά. Όπως είναι αναµενόµενο και όπως φαίνεται και στους παρακάτω πίνακες ο µέσος όρος βάρους νεογνών στις περιπτώσεις που η έγκυος δεν κάπνιζε πριν ή κατά τη διάρκεια της κύησης ή δεν έπαιρνε αντιβιοτικά είναι µεγαλύτερος από τον αντίστοιχο µέσο όρο στις περιπτώσεις που η έγκυος κάπνιζε ή έπαιρνε αντιβιοτικά. Στην περίπτωση µάλιστα των αντιβιοτικών η διαφορά των δύο µέσων όρων είναι αρκετά µεγάλη, 350gr περίπου (Εφαρµόζοντας το στατιστικό έλεγχο Kolmogorov-Smirnov βρήκαµε την p-value ίση µε µηδέν). Μέσος όρος βάρους νεογνών Μέσος όρος βάρους νεογνών Μέσος όρος βάρους νεογνών Έγκυες που δεν κάπνιζαν πριν την κύηση Έγκυες που κάπνιζαν πριν την κύηση 3254,15 3219,69 Έγκυες που δεν κάπνιζαν κατά τη διάρκεια της κύησης Έγκυες που κάπνιζαν κατά τη διάρκεια της κύησης 3254,03 3163,26 Έγκυες που δεν έπαιρναν αντιβιοτικά Έγκυες που έπαιρναν αντιβιοτικά 3255,52 2904,23 Επιπλέον, εξετάστηκε η ύπαρξη σχέσης µεταξύ των µεταβλητών HP1, HP6, HP7 και HP8. Κατάλληλοι διωνυµικοί έλεγχοι που έγιναν οδηγούν στα εξής συµπεράσµατα 1. Το ποσοστό πρόωρων νεογνών όταν η µητέρα κάπνιζε πριν την κύηση (7,3%) διαφέρει σηµαντικά από το αντίστοιχο ποσοστό νεογνών των οποίων η µητέρα δεν κάπνιζε (4,4%) (p-value=0). 2. Το ποσοστό πρόωρων νεογνών όταν η µητέρα κάπνιζε κατά τη διάρκεια της εγκυµοσύνης (10,6%) διαφέρει από το αντίστοιχο ποσοστό για τα νεογνά των οποίων η µητέρα δεν κάπνιζε (4,4%) (p-value=0). 400
3. Το ποσοστό πρόωρων νεογνών όταν η έγκυος έπαιρνε αντιβιοτικά (31,9%) είναι πολύ µεγαλύτερο από το ποσοστό πρόωρων νεογνών όταν η έγκυος δεν έπαιρνε (4,1%) (p-value=0). Επιπρόσθετα, διερευνήθηκε αν οι καισαρικές τοµές σχετίζονται µε το αν µία έγκυος κάπνιζε πριν ή κατά τη διάρκεια της κύησης ή έπαιρνε αντιβιοτικά. Στατιστικοί έλεγχοι που έγιναν οδήγησαν στο συµπέρασµα ότι τα ποσοστά καισαρικών όταν η έγκυος κάπνιζε πριν (27%) ή κατά τη διάρκεια της κύησης (26%) ή όταν έπαιρνε αντιβιοτικά (36,5%) διαφέρουν σηµαντικά και συγκεκριµένα είναι µεγαλύτερα από τα ποσοστά καισαρικών στις περιπτώσεις που η έγκυος δεν κάπνιζε πριν (20,5%) ή κατά τη διάρκεια της κύησης (20,8%) ή δεν έπαιρνε αντιβιοτικά (20,4%). Συγκεκριµένα οι p-values ήταν 0, 0,002 και 0 αντίστοιχα. Τέλος, χωρίζοντας τα νεογνά σε δύο κατηγορίες ανάλογα µε το αν γεννήθηκαν κανονικά ή µε καισαρική τοµή, βρήκαµε τους αντίστοιχους µέσους όρους βάρους (3260,63 gr και 3113,52 gr) και χρησιµοποιώντας το στατιστικό έλεγχο Kolmogorov-Smirnov καταλήξαµε στο συµπέρασµα ότι οι δύο µέσοι διαφέρουν σηµαντικά (p-value=0). 3. ΑΝΑΛΥΣΗ ΕΥΤΕΡΟΥ ΑΡΧΕΙΟΥ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΚΡΙΣΗ ΤΟΥ ΜΕ ΤΟ ΠΡΩΤΟ ΑΡΧΕΙΟ Το δεύτερο αρχείο που µελετήθηκε αφορά τα νεογνά που γεννήθηκαν µεταξύ των ετών 1998 και 2002. Η ανάλυση έγινε για τη µεταβλητή HWEIGHT (οι υπόλοιπες προαναφερθείσες µεταβλητές δεν είχαν καταγραφεί για αυτά τα έτη) και τα αποτελέσµατα συγκρίθηκαν µε τα αντίστοιχα αποτελέσµατα του πρώτου αρχείου. Η σύγκριση µας οδήγησε στο συµπέρασµα ότι το µέσο βάρος των νεογνών που γεννήθηκαν την περίοδο 1990-1997 (3228 gr) είναι µεγαλύτερο από το αντίστοιχο µέσο βάρος των νεογνών που γεννήθηκαν την περίοδο 1998-2002 (3157 gr). Κάνοντας τον έλεγχο Kolmogorov-Smirnov συµπεραίνουµε ότι διαφορά αυτή είναι στατιστικώς σηµαντική (p-value=0). Βλέποντας κάποια αριθµητικά αποτελέσµατα και κάποια θηκογράµµατα που δηµιουργήθηκαν παρατηρούµε ότι στα έτη 1990-1997 το 50% των νεογνών είχαν βάρη απο 2950 gr µέχρι 3540 gr ενώ τα έτη 1998-2002 τα βάρη των µισών νεογνών κυµαίνονται από 2890 gr µέχρι 3490 gr. 4. ΕΝΩΣΗ ΤΩΝ ΥΟ ΑΡΧΕΙΩΝ Αφού λοιπόν τα βάρη κάθε αρχείου εξετάσθηκαν ξεχωριστά και έγιναν συγκρίσεις των αποτελεσµάτων το δεύτερο βήµα ήταν να ενωθούν τα δύο αρχεία και να γίνει στατιστική ανάλυση όλων των δεδοµένων µαζί. Σε πρώτο στάδιο υπολογίστηκαν κλασικές στατιστικές παράµετροι όπως για παράδειγµα το µέσο βάρος των νεογνών το οποίο βρέθηκε 3202 gr και ξεχωρίσαµε τα αγόρια από τα κορίτσια. Τα δύο αρχεία που δηµιουργήθηκαν µελετήθηκαν ξεχωριστά. Αξίζει να σηµειωθεί ότι ο µέσος όρος βάρους των αγοριών (3264 gr) είναι κατά 100 gr 401
περίπου µεγαλύτερος από τον αντίστοιχο µέσο όρο των κοριτσιών (3137 gr). Στη συνέχεια µελετήθηκε η κατανοµή του βάρους όλων των νεογνών αλλά και για κάθε φύλο ξεχωριστά. 5. ΜΕΛΕΤΗ ΤΗΣ ΚΑΤΑΝΟΜΗΣ ΤΟΥ ΒΑΡΟΥΣ ΤΩΝ ΝΕΟΓΝΩΝ Η κατανοµή του ανθρώπινου βάρους είναι ένα από τα χαρακτηριστικά παραδείγµατα της κανονικής κατανοµής που εµφανίζονται στη φύση. Η ανάλυση των βαρών των νεογνών της Κύπρου από το 1990 µέχρι το 2002 µας παρέχει ένα καλό και πραγµατικό παράδειγµα ενός µεγάλου αρχείου δεδοµένων (περίπου 85000 παρατηρήσεων) µε κάποια προβλήµατα που προκύπτουν λόγω του µεγέθους του. Κατασκευάζοντας µε τη βοήθεια του S-Plus τις συναρτήσεις πυκνότητας πιθανότητας για τα τρία αρχεία (βάρη όλων των νεογνών, βάρη κοριτσιών και βάρη αγοριών) παρατηρούµε ότι τα βάρη µοιάζουν να ακολουθούν κανονική κατανοµή. Στο ίδιο συµπέρασµα καταλήγουµε συγκρίνοντας κάθε φορά την εµπειρική συνάρτηση κατανοµής του βάρους µε τη συνάρτηση κατανοµής κανονικής µε µέσο και διασπορά το δειγµατικό µέσο και δειγµατική διασπορά του βάρους. Ενδεικτικά παρουσιάζουµε δύο από τα προαναφερθέντα γραφήµατα Βάρη νεογνών από το 1990 µέχρι το 2002 Συνάρτηση πυκνότητας Σύγκριση εµπειρικής συνάρτησης µε πιθανότητας την κανονική 0.0008 0.0006 0.0004 0.0002 0.0000 0 2000 4000 6000 1000 2000 3000 4000 5000 Εφαρµόζοντας όµως και στα τρία αρχεία το στατιστικό έλεγχο Kolmogorov- Smirnov µε µηδενική υπόθεση τα αρχεία να προέρχονται από κανονική κατανοµή καταλήξαµε σε αντίθετα συµπεράσµατα από αυτά που καταλήξαµε κοιτάζοντας τα γραφήµατα. Και στις τρεις περιπτώσεις το p-value βρέθηκε µηδέν µε αποτέλεσµα οι µηδενικές υποθέσεις να απορρίπτονται. Γνωρίζοντας την αυστηρότητα του ελέγχου Kolmogorov-Smirnov εφαρµόσαµε στα δεδοµένα µας και ένα δεύτερο στατιστικό έλεγχο, τον έλεγχο Lilliefors. Η διαφορά των δύο ελέγχων είναι ότι ο δεύτερος υπολογίζεται µε βάση την εµπειρική συνάρτηση κατανοµής των τυποποιηµένων παρατηρήσεων και την τυποποιηµένη 402
κανονική κατανοµή ενώ ο πρώτος βασίζεται στην εµπειρική συνάρτηση κατανοµής των παρατηρήσεων και τη κανονική κατανοµή µε µέσο και διασπορά που καθορίζονται από τον ερευνητή. Τα συµπεράσµατα όµως και µε αυτό τον έλεγχο ήταν ίδια µε τα προηγούµενα. Και τα τρία αρχεία δεν ακολουθούσαν κανονική κατανοµή. Υποθέτοντας ότι η απόρριψη της υπόθεσης ότι τα δεδοµένα ακολουθούν κανονική κατανοµή ίσως να οφείλεται στα βάρη των νεογνών που γεννήθηκαν πρόωρα, αφαιρέσαµε τις πρόωρες γεννήσεις και από τα τρία αρχεία και ξανακάναµε την ίδια στατιστική ανάλυση. Παρόµοια µε προηγουµένως και ενώ οι συγκρίσεις των εµπειρικών κατανοµών µε τη κανονική και οι συναρτήσεις πυκνότητας πιθανότητας µας οδηγούν στο συµπέρασµα ότι τα δεδοµένα µας είναι κανονικά, οι έλεγχοι απορρίπτουν την κανονικότητα. Μελετώντας επιπλέον τα Q-Q normal plots καταλήγουµε στο ίδιο συµπέρασµα που οδηγηθήκαµε από τα άλλα γραφήµατα. Θεωρώντας ότι ίσως τελικά η συνεχής απόρριψη των µηδενικών υποθέσεων στους ελέγχους να οφείλεται στα µεγάλα µεγέθη των αρχείων, πήραµε από κάθε αρχείο (που δεν περιείχε τα πρόωρα) ένα τυχαίο δείγµα 1500 παρατηρήσεων και το χωρίσαµε σε τρία µικρότερα των 500 παρατηρήσεων το καθένα. Εφαρµόζοντας λοιπόν πάλι τον έλεγχο Kolmogorov-Smirnov διαπιστώσαµε ότι ενώ ο έλεγχος κανονικότητας απορρίπτεται για το δείγµα των 1500 παρατηρήσεων, για τα τρία µικρότερα δείγµατα οι έλεγχοι δεν απορρίπτονται πράγµα το οποίο δεν έπρεπε να συµβαίνει αφού τα τρία µικρότερα αρχεία προέρχονται από το δείγµα των 1500 παρατηρήσεων και άρα έπρεπε να έχουν την ίδια κατανοµή µε αυτό. Τα p-value που υπολογίστηκαν και οδηγούν στην απόρριψη ή µη της κανονικότητας φαίνονται στους παρακάτω πίνακες. Τυχαίο δείγµα 1500 παρατηρήσεων από το αρχείο 1990-2002 (µετά την αφαίρεση των προώρων) p-value 1500 παρατηρήσεις 0,005 1 η - 500 η παρατήρηση 0,0933 501 η - 1000 η παρατήρηση 0,2714 1001 η - 1500 η παρατήρηση 0,3561 Τυχαίο δείγµα 1500 παρατηρήσεων από το αρχείο αγοριών 1990-2002 (µετά την αφαίρεση των προώρων) p-value 1500 παρατηρήσεις 0,0011 1 η - 500 η παρατήρηση 0,2901 501 η - 1000 η παρατήρηση 0,1099 1001 η - 1500 η παρατήρηση 0,059 403
Τυχαίο δείγµα 1500 παρατηρήσεων από το αρχείο κοριτσιών 1990-2002 (µετά την αφαίρεση των προώρων) p-value 1500 παρατηρήσεις 0,0187 1 η - 500 η παρατήρηση 0,2039 501 η - 1000 η παρατήρηση 0,3554 1001 η - 1500 η παρατήρηση 0,311 Βλέποντας επιπλέον τα γραφήµατα όπου συγκρίνονται οι εµπειρικές συναρτήσεις κατανοµής των δειγµάτων µε την κανονική παρατηρούµε ότι το γράφηµα για το δείγµα των 1500 παρατηρήσεων είναι αρκετά καλύτερο από αυτά που αντιστοιχούν στα τρία υποσύνολά του, πράγµα το οποίο έρχεται σε πλήρη αντίφαση µε τους ελέγχους. Τα αποτελέσµατα αυτά ενισχύουν την υποψία ότι τα µεγάλα µεγέθη των αρχείων οδηγούσαν στην απόρριψη των µηδενικών υποθέσεων. Τυχαίο δείγµα 1500 παρατηρήσεων από το αρχείο 1990-2002 (χωρίς τα πρόωρα) 1500 παρατηρήσεις 1 η 500 η παρατήρηση 2000 2500 3000 3500 4000 4500 5000 501 η 1000 η παρατήρηση 1001 η 1500 η παρατήρηση 2000 2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000 2000 2500 3000 3500 4000 4500 404
Η ανάλυση των βαρών των νεογνών ολοκληρώθηκε κατασκευάζοντας ιστόγραµµα για τα έτη 1990-2002. ιαλέγοντας αρχικά το εύρος των διαστηµάτων να είναι 10gr και παρατηρώντας το ιστόγραµµα που σχηµατίστηκε ξαφνιαστήκαµε µε την ύπαρξη δύο καµπυλών µε το ίδιο κέντρο. Αυξάνοντας το εύρος των διαστηµάτων 10gr οι δύο καµπύλες εξακολουθούσαν να υφίστανται απλά η διαφορά τους δεν ήταν τόση όση στην πρώτη περίπτωση. Συνεχίσαµε αυξάνοντας το εύρος κάθε φορά 10gr. Όταν αυτό έγινε 50gr οι δύο καµπύλες δε ξεχώριζαν πια. Τέλος, διαλέγοντας το εύρος να είναι 100gr πήραµε ένα ιστόγραµµα αρκετά οµαλοποιηµένο µε σχήµα να µοιάζει αρκετά µε αυτό της κανονικής κατανοµής. Αυτό που ενδεχοµένως να συµβαίνει είναι ότι οι περισσότεροι γιατροί στρογγυλοποιούν τα βάρη των νεογνών, όταν τα καταγράφουν, µε αποτέλεσµα τα πλείστα βάρη να είναι πολλαπλάσια του 50. Η εξάρτηση της µορφής του ιστογράµµατος από το µήκος των διαστηµάτων επιβεβαιώνεται και από προηγούµενη ανάλυση δεδοµένων που αφορά όµως βάρη νεογνών στις ΗΠΑ (βλ. Schilling Watkins and Watkins (2002)). Ιστογράµµατα του βάρους για τα έτη 1990-2002 Εύρος 10 gr Εύρος 20 gr 4000 4000 3000 3000 2000 2000 1000 1000 0 500 1780 3060 4340 5620 6900 8180 0 500 1780 3060 4340 5620 6900 8180 Εύρος 50 gr Εύρος 100 gr 5000 8000 4000 6000 3000 4000 2000 1000 2000 0 500 1300 2100 2900 3700 4500 5300 6100 6900 7700 8500 0 500 1300 2100 2900 3700 4500 5300 6100 6900 7700 8500 405
6. ΕΠΙΛΟΓΟΣ Σε δεύτερη φάση η στατιστική επεξεργασία θα επικεντρωθεί στην αναγνώριση των οµάδων υψηλού κινδύνου που συνεπάγεται την επιστηµονική µελέτη των συχνοτήτων των διαφόρων επιπλοκών κατά τη διάρκεια της κύησης αλλά και των συχνοτήτων των διαφόρων παθήσεων που αφορούν τα νεογνά. Η µελέτη αυτή θα βασιστεί σε βιοχηµικά χαρακτηριστικά των εγκύων και των νεογνών που θα µας δοθούν από το Κέντρο Προληπτικής Παιδιατρικής της Κύπρου και ενδέχεται να οδηγήσει στην επιλογή αλγορίθµων µηχανικής µάθησης που θα επιδιώκουν την ανακάλυψη γνώσης για την όσο γίνεται πιο έγκαιρη πρόβλεψη/ διάγνωση ενδεχόµενων επιπλοκών ή παθήσεων, για την καλύτερη πρόληψη ή θεραπεία αυτών. ABSTRACT NEOGNOS is a research program funded by the Research Promotion Foundation of Cyprus. The statistical analysis of data collected on pregnant women and newborns in recent years, constitutes one of the main components of this research initiative. Among its main objectives is the study of the distribution of the data available for various characteristics of pregnancies and births, the construction of growth curves for newborns as well as the identification of factors and demographic characteristics which are related to high risk groups. ΑΝΑΦΟΡΕΣ Conover, W.J. (1980): Practical Nonparametric Statistics, 2 nd Ed., Wiley, New York. Schilling, M.F., Watkins, A.E. and Watkins, W. (2002): Is Human Height Bimodal? The Amer. Statist. 56 223-229. 406