ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ ΣΕ ΝΕΟΥΣ ΕΝΗΛΙΚΕΣ

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πρόγραμμα Μεταπτυχιακών Σπουδών Ιατρικής Πληροφορικής Διπλωματική Εργασία: ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ ΣΕ ΝΕΟΥΣ ΕΝΗΛΙΚΕΣ Φοιτητής: Τριμελής επιτροπή: Πολύδωρος Καμπακτσής Γεώργιος Γιαννόγλου, επιβλέπων Νικόλαος Μαγκλαβέρας Δημήτριος Κουφογιάννης Θεσσαλονίκη 2008

2 Στον αδελφό μου Αναστάση Καμπακτσή που ζει με απλότητα, καρτερικότητα και μεγαλοψυχία σ ένα κόσμο περίπλοκο, ανυπόμονο και επιφανειακό I

3 ΕΥΧΑΡΙΣΤΙΕΣ Πέρα από την ευγνωμοσύνη που οφείλω σε συγγενείς και φίλους για την υποστήριξη και κατανόηση τους, θα ήθελα να ευχαριστήσω τρεις επιστήμονες, χωρίς την βοήθεια των οποίων η διεξαγωγή της διπλωματικής εργασίας θα ήταν αδύνατη. Τον κ. Γεώργιο Γιαννόγλου, καθηγητή Καρδιολογίας, για την εμπιστόσυνη που μου έδειξε αναθέτοντας μου τη διπλωματική και για την υπομονή και πολύτιμη βοήθεια του κατά τη διάρκεια της διεξαγωγής της. Η μεγάλη του πείρα αποτέλεσε την επιστημονική πυξίδα μου σε όλη την πορεία της διπλωματικής. Τον κ. Βασίλιο Κουτκιά, διδάκτορα Ιατρικής Πληροφορικής, που μου έδειξε το δρόμο σε δύσκολες στιγμές και φώτισε την πορεία μου στην εξόρυξη δεδομένων. Τον κ. Αντώνιο Αντωνιάδη, υποψήφιο διδάκτορα Καρδιολογίας, που εμπνευσμένα με κατατόπισε στα ζητήματα στατιστικής επεξεργασίας. II

4 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1. ΠΕΡΙΛΗΨΗ 1 2. ΕΙΣΑΓΩΓΗ Η ΑΘΗΡΟΣΚΛΗΡΩΣΗ ΚΑΙ Ο ΡΟΛΟΣ ΤΟΥ ΙΜΤ Η ΑΘΗΡΟΣΚΛΗΡΩΣΗ Ο ΡΟΛΟΣ ΤΟΥ ΙΜΤ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΔΕΔΟΜΕΝΑ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΤΕΧΝΙΚΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ ΤΑ ΔΕΔΟΜΕΝΑ Ο ΣΤΟΧΟΣ ΤΗΣ ΔΙΠΛΩΜΑΤΙΚΗΣ Η ΔΙΑΡΘΡΩΣΗ ΤΗΣ ΔΙΠΛΩΜΑΤΙΚΗΣ 9 3. ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ ΚΑΘΑΡΙΣΜΟΣ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ ΕΛΑΤΤΩΣΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ ΤΕΧΝΙΚΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΟΡΙΣΜΟΙ ΚΑΙ ΠΛΑΙΣΙΟ ΥΠΟΣΤΗΡΙΞΗΣ - ΕΜΠΙΣΤΟΣΥΝΗΣ ΕΥΡΕΣΗ ΣΥΧΝΩΝ ΣΤΟΙΧΕΙΟΣΥΝΟΛΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΣ APRIORI ΕΞΟΡΥΞΗ ΚΑΝΟΝΩΝ ΑΠΟ ΣΥΧΝΑ ΣΤΟΙΧΕΙΟΣΥΝΟΛΑ ΠΡΟΕΚΤΑΣΕΙΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ ΓΕΝΙΚΑ ΕΝΤΡΟΠΙΑ (ΚΡΙΤΗΡΙΟ ΔΙΑΣΠΑΣΗΣ ΤΟΥ ID3) Ο ΑΛΓΟΡΙΘΜΟΣ ID ΠΡΟΕΚΤΑΣΕΙΣ ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑ ΔΕΔΟΜΕΝΑ ΚΑΙ Η ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΤΟΥΣ ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ ΚΑΙ ΠΕΡΙΟΡΙΣΜΟΙ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΡΗΣΗ ΤΟΥ ΣΥΝΤΕΛΕΣΤΗ ΣΥΣΧΕΤΙΣΗΣ ΧΡΗΣΗ ΜΕΘΟΔΟΥ ΕΠΙΛΟΓΗΣ ΥΠΟΣΥΝΟΛΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 40 III

5 5.4 ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ ΦΥΣΙΟΛΟΓΙΚΩΝ ΟΡΙΩΝ (ΒΑΣΕΙ ΙΑΤΡΙΚΗΣ ΓΝΩΣΗΣ) ΕΠΙΛΕΚΤΙΚΗ ΑΥΤΟΜΑΤΗ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΑ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ 45 1Ο ΔΕΝΔΡΟ: ΧΩΡΙΣ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΧΩΡΙΣ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ 46 2Ο ΔΕΝΔΡΟ: ΜΕ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΧΩΡΙΣ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ 47 3Ο ΔΕΝΔΡΟ: ΜΕ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ ΦΥΣΙΟΛΟΓΙΚΩΝ ΟΡΙΩΝ 48 4Ο ΔΕΝΔΡΟ: ΜΕ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΕΠΙΛΕΚΤΙΚΗ ΑΥΤΟΜΑΤΗ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ (ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ) 49 5Ο ΔΕΝΔΡΟ: ΜΕ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΕΠΙΛΕΚΤΙΚΗ ΑΥΤΟΜΑΤΗ ΔΙΑΚΡΙΤΟΠΟΙΗΣΗ (ΜΕ ΕΠΙΒΛΕΨΗ) ΣΧΟΛΙΑΣΜΟΣ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ 55 ΠΙΝΑΚΑΣ ΙΣΧΥΡΟΤΕΡΩΝ ΚΑΝΟΝΩΝ ΥΨΗΛΟΥ ΙΜΤ 58 ΠΙΝΑΚΑΣ ΙΣΧΥΡΟΤΕΡΩΝ ΚΑΝΟΝΩΝ ΧΑΜΗΛΟΥ ΙΜΤ 59 ΠΙΝΑΚΑΣ ΚΑΝΟΝΩΝ ΥΨΗΛΟΥ ΙΜΤ ΑΝΑ ΟΜΑΔΕΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 60 ΠΙΝΑΚΑΣ ΚΑΝΟΝΩΝ ΧΑΜΗΛΟΥ ΙΜΤ ΑΝΑ ΟΜΑΔΕΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 62 ΠΙΝΑΚΑΣ ΙΣΧΥΡΟΤΕΡΩΝ ΠΡΟΣΘΕΤΩΝ ΚΑΝΟΝΩΝ ΥΨΗΛΟΥ ΙΜΤ 64 ΠΙΝΑΚΑΣ ΙΣΧΥΡΟΤΕΡΩΝ ΠΡΟΣΘΕΤΩΝ ΚΑΝΟΝΩΝ ΧΑΜΗΛΟΥ ΙΜΤ ΣΧΟΛΙΑΣΜΟΣ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ 66 Α. ΚΑΝΟΝΕΣ ΥΨΗΛΟΥ ΙΜΤ (ΠΙΝΑΚΕΣ 6.4, 6.6, 6.8) 66 Β. ΚΑΝΟΝΕΣ ΧΑΜΗΛΟΥ ΙΜΤ (ΠΙΝΑΚΕΣ 6.5, 6.7, 6.9) ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΕΠΙ ΤΟΥ ΣΥΝΟΛΟΥ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΕΠΙ ΤΩΝ ΥΠΟΣΥΝΟΛΩΝ ΥΨΗΛΟΥ / ΧΑΜΗΛΟΥ ΙΜΤ ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΝΕΞΑΡΤΗΤΟΙ ΠΑΡΑΓΟΝΤΕΣ ΣΥΝΔΥΑΣΜΟΙ ΠΑΡΑΓΟΝΤΩΝ ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ 91 IV

6 1. Περίληψη Η αρτηριακή αποφρακτική νόσος στις διάφορες μορφές της αποτελεί σήμερα τη συχνότερη αιτία θανάτου στις χώρες του ανεπτυγμένου κόσμου. Η απόφραξη των αρτηριών οφείλεται κατά κύριο λόγο στο σχηματισμό αθηρωματικών πλακών. Ο προσδιορισμός των προδιαθεσικών παραγόντων της αθηροσκλήρωσης αποτελεί το πρώτο βήμα για την πρόληψη της αρτηριακής αποφρακτικής νόσου και κατ επέκταση για την ελάττωση της νοσηρότητας και θνησιμότητας από αυτήν. Στην παρούσα διπλωματική εργασία αναζητήθηκαν αιτιοπαθογενετικές συσχετίσεις μεταξύ κλινικοεργαστηριακών παραμέτρων και ανάπτυξης πρώιμων αθηρωματικών βλαβών σε καρωτίδες αρτηρίες νεαρών ενηλίκων. Στόχος ήταν να βρεθεί ποιες από τις παραμέτρους αυτές αποτελούν τους σημαντικότερους προδιαθεσικούς παράγοντες στην καρωτιδική αθηροσκλήρωση. Τα δεδομένα που είχαμε στη διάθεση μας αποτελούνται από κλινικές και εργαστηριακές παραμέτρους 25 υπερτασικών (μέση ηλικία 43) και 38 νορμοτασικών (μέση ηλικία 44.4) ενηλίκων. Για την εκτίμηση των αθηροσκληρωτικών βλαβών πραγματοποιήθηκε υπερηχογραφικός έλεγχος και μετρήθηκε το πάχος έσω μέσου χιτώνα καρωτίδων (IMT). Κανένας από τους 63 ενήλικες δεν έπασχε από συμπτωματική καρωτιδική νόσο. Για καθένα από αυτούς έχουν καταγραφεί συνολικά 82 παράμετροι οι οποίοι εντάσσονται στις εξής κατηγορίες: σωματομετρικές παράμετροι, επίπεδο μόρφωσης, τόπος διαμονής, διατητικές συνήθειες και κάπνισμα, ατομικό ιστορικό και φαρμακευτική αγωγή, οικογενειακό ιστορικό, συστολική και διαστολική αρτηριακή πίεση, αιματολογικές και βιοχημικές εξετάσεις. Η επεξεργασία των δεδομένων έγινε με στατιστικές τεχνικές (linear regression, logistic regression) και τεχνικές εξόρυξης δεδομένων (association rules, classification trees). Τα αποτελέσματα επαληθεύουν τη συσχέτιση μεταξύ υψηλού ΙΜΤ και κλασικών ανεξάρτητων παραγόντων αθηροσκλήρωσης, όπως η υπέρταση, η αυξημένη συστολική πίεση, η ελαττωμένη HDL χοληστερόλη και η αυξημένη LDL χοληστερόλη, τα αυξημένα τριγλυκερίδια και το κάπνισμα. Ενδιαφέρον παρουσίασε η αυξημένη γλυκόζη, καθώς αυτή σχετίστηκε θετικά με την αύξηση του ΙΜΤ εντός φυσιολογικών τιμών. Επίσης βρέθηκαν όρια γλυκόζης που σχετίζονται με αυξημένο ΙΜΤ χαμηλότερα των παθολογικών. Από τους μη κύριους παράγοντες αθηροσκλήρωσης, συσχέτιση με υψηλό ΙΜΤ εμφάνισε η παχυσαρκία και η αυξημένη ΤΚΕ. Αντίθετα, χαμηλά επίπεδα ΤΚΕ και μάλιστα χαμηλότερα των παθολογικών εμφανίστηκαν ως ανεξάρτητος παράγοντας χαμηλού ΙΜΤ. Το ίδιο παρουσιάστηκε και για χαμηλά επίπεδα ουρικού οξέος. Σελίδα 1

7 Ενδιαφέρον παρουσίασε επίσης η ισχυρή ανεξάρτητη συσχέτιση του χαμηλού μορφωτικού επιπέδου με το υψηλό ΙΜΤ. Ο συνδυασμοί των παραγόντων αυτών σχετίζονται κατά περίπτωση ισχυρότερα με υψηλό ή χαμηλό ΙΜΤ. Σελίδα 2

8 2. Εισαγωγή Στην παρούσα διπλωματική εργασία γίνεται εφαρμογή της γενικής μεθοδολογίας ανακάλυψης γνώσης για το πρόβλημα του προσδιορισμού προδιαθεσικών παραγόντων αθηροσκλήρωσης. Τα δεδομένα αφορούν παραμέτρους (χαρακτηριστικά) που μετρήθηκαν από ένα δείγμα ενηλίκων ηλικίας ετών, εκ των οποίων ένα σημαντικό ποσοστό (46%) εμφανίζουν αθηρωματικές βλάβες. Η αθηρωματική βλάβη εκτιμάται με την μέτρηση του Πάχους Μέσου Έσω Χιτώνα (ΙΜΤ) του τοιχώματος της καρωτίδας και χρησιμοποιούνται στατιστικές τεχνικές και τεχνικές εξόρυξης δεδομένων για την εξαγωγή συμπερασμάτων από τα δεδομένα, υπό μορφή μοντέλων αναπαράστασης γνώσης. Παρακάτω φαίνεται σχηματικά η γενική μεθοδολογία που ακολουθείται στη διπλωματική (Εικόνα 2.1). Διαθέσιμα δεδομένα Προεπεξεργασία δεδομένων Επεξεργασία Στατιστικές τεχνικές Τεχνικές εξόρυξης δεδομένων Αποτελέσματα ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Εικόνα 2.1: Μεθοδολογία ανακάλυψης γνώσης που ακολουθείται για τον προσδιορισμό προδιαθεσικών παραγόντων αθηροσκλήρωσης. Σελίδα 3

9 Στο εισαγωγικό αυτό κεφάλαιο θα αναφερθούμε αρχικά εν συντομία στην αθηροσκλήρωση και στο ΙΜΤ. Στη συνέχεια θα γίνει μια σύντομη αναφορά στα δεδομένα και στις τεχνικές επεξεργασίας που χρησιμοποιούνται ώστε τελικά να διατυπωθεί με σαφήνεια ο στόχος της διπλωματικής Η αθηροσκλήρωση και ο ρόλος του ΙΜΤ Η αθηροσκλήρωση Η απόφραξη των αρτηριών οδηγεί σε ισχαιμία, δηλαδή σε ανεπαρκή παροχή αρτηριακού αίματος και κατά συνέπεια στην ανάπτυξη ιστικής βλάβης. Οι διάφορες μορφές αποφρακτικής αρτηριακής νόσου αποτελούν σήμερα τη συχνότερη αιτία θανάτου στις χώρες του ανεπτυγμένου κόσμου [1]. Η απόφραξη των αρτηριών οφείλεται κατά κύριο λόγο στην αθηροσκλήρωση, η οποία ελαττώνει τον αυλό του αγγείου (Εικόνα 2.2). Εικόνα 2.2: Απόφραξη των αρτηριών από αθηροσκληρωτικές βλάβες Στην μελέτη της αθηροσκλήρωσης και των παθογενετικών μηχανισμών της, σημαντική βοήθεια μπορεί να προσφέρει η επεξεργασία υπαρχόντων δεδομένων, κατά την οποία αναζητούνται οι παράγοντες που σχετίζονται με την εμφάνιση αθηροσκληρωτικών βλαβών. Ο προσδιορισμός των παραγόντων κινδύνου της αθηροσκλήρωσης αποτελεί αδιαμφισβήτητα το πρώτο βήμα για την πρόληψη και την ελάττωση της νοσηρότητας και θνησιμότητας της αποφρακτικής αρτηριακής νόσου. Μετά από ερευνητικές μελέτες ετών, φαίνεται πως σημαντικότεροι ανεξάρτητοι παράγοντες κινδύνου της αθηροσκλήρωσης είναι η υπέρταση, το κάπνισμα, η αυξημένη ολική και LDL χοληστερόλη, η ελαττωμένη HDL χοληστερόλη, ο σακχαρώδης διαβήτης και η προχωρημένη ηλικία. Στους παράγοντες κινδύνου Σελίδα 4

10 περιλαμβάνονται επίσης η παχυσαρκία, το οικογενειακό ιστορικό πρώιμης στεφανιαίας νόσου και η μειωμένη σωματική δραστηριότητα (Πίνακας 2.1) [2-4]. Ωστόσο σήμερα υποστηρίζεται πως οι συμβατικοί παράγοντες κινδύνου μπορεί να μην είναι επαρκείς για την εκτίμηση του συνολικού κινδύνου της καρδιαγγειακής νόσου [5-7]. Για τον προσδιορισμό των προδιαθεσικών παραγόντων της αθηροσκλήρωσης, σημαντικές είναι οι μελέτες που γίνονται σε ασυμπτωματικούς ασθενείς, που όμως εμφανίζουν αθηροσκληρωτικές βλάβες. No Παράγοντες 1 Υψηλή LDL 2 Χαμηλή HDL 3 Ηλικία (άνδρες >45, γυναίκες >55) 4 Υπέρταση 5 Σακχαρώδης Διαβήτης 6 Κάπνισμα 7 Οικογενειακό ιστορικό 8 Μειωμένη σωματική άσκηση 9 Παχυσαρκία 10 Αυξημένα τριγλυκερίδια Πίνακας 2.1: Κύριοι παράγοντες κινδύνου για την αθηροσκλήρωση και την καρδιαγγειακή νόσο. Για τη μέτρηση και παρακολούθηση των αθηροσκληρωτικών βλαβών χρησιμοποιούνται απεικονιστικές τεχνικές όπως η Ενδοαγγειακή Υπερηχοτομογραφία (IVUS), η Αξονική Τομογραφία (CT) και ο Μαγνητικός Συντονισμός (MRI). Η πιο δημοφιλής όμως τεχνική σήμερα είναι το μη επεμβατικό, απλό Υπερηχογράφημα (B-mode US). Με τη χρήση κατά κανόνα αυτής της τεχνικής (και λιγότερο του IVUS) προσδιορίζεται σήμερα το Πάχος Έσω Μέσου Χιτώνα του αγγείου (ΙΜΤ) Ο ρόλος του ΙΜΤ Το καρωτιδικό ΙΜΤ (Intima Media Thickness) αποτελεί ένα εργαστηριακό μέτρο εκτίμησης τοπικών (των καρωτιδικών) αλλά και απομακρυσμένων (π.χ. των στεφανιαίων) αθηροσκληρωτικών βλαβών, καθώς έχει αποδειχτεί εκτός των άλλων πως σχετίζεται με αυξημένο κίνδυνο εμφράγματος του μυοκαρδίου και αγγειακού εγκεφαλικού επεισοδίου [8-12]. Ορίζεται ως η απόσταση μεταξύ της επιφάνειας που διαχωρίζει το ενδοθήλιο του Έσω Χιτώνα από τον αυλό του αγγείου και της επιφάνειας που διαχωρίζει το Μέσο Χιτώνα από το εσωτερικότερο στρώμα κολλαγόνου του Έξω Χιτώνα και προσδιορίζεται απεικονιστικά (Εικόνα 2.3) [13]. Σελίδα 5

11 Εικόνα 2.3: Μέτρηση του ΙΜΤ με υπερηχογραφικό σύστημα. Θα ήταν φυσικά επιθυμητή η μέτρηση του ΙΜΤ σε όλες τις αρτηρίες που αποτελούν συνηθισμένες εστίες αθηροσκλήρωσης, όπως τις στεφανιαίες. Το υπερηχογράφημα καρωτίδων ωστόσο, είναι μια απλή σχετικά, επαναλήψιμη και αξιόπιστη μέθοδος με την οποία μπορεί να μετρηθεί το ΙΜΤ μαζί με άλλα χαρακτηριστικά, του τοιχώματος και του αυλού των καρωτίδων. Σχετικά με τη σημασία του ΙΜΤ, η Ευρωπαΐκή Καρδιολογική Εταιρεία (European Society of Cardiology) έχει ανακοινώσει τα εξής [14]: Το ΙΜΤ είναι ανεξάρτητος προγνωστικός παράγοντας εγκεφαλικής και στεφανιαίας αθηροσκληρωτικής νόσου. Ο υπερηχογραφικός έλεγχος των καρωτίδων μπορεί να δώσει πληροφορίες που δεν συμπεριλαμβάνονται στους συμβατικούς παράγοντες κινδύνους και έτσι να βοηθήσει στη λήψη απόφασης για προληπτική θεραπεία. Η μεγάλη συνεισφορά της μέτρησης του ΙΜΤ λοιπόν, είναι πως μπορεί να εντοπίσει πρώιμες αθηροσκληρωτικές βλάβες σε ασυμπτωματικά στάδια της αποφρακτικής αρτηριακής νόσου. Από την άλλη πλευρά, στις ανακοινώσεις της Ευρωπαΐκής Καρδιολογικής Εταιρείας συμπεριλαμβάνονται τα εξής: Σελίδα 6

12 Ένας περιορισμός στη χρήση του ΙΜΤ είναι η έλλειψη αξιόπιστων δεδομένων που σχετίζουν το ΙΜΤ με ισχαιμικά γεγονότα που συμβαίνουν εντός 10ετίας. Δεν είναι ξεκάθαρο ακόμη πως το ΙΜΤ μπορεί να ενσωματωθεί στους υπάρχοντες αλγορίθμους κινδύνου που χρησιμοποιούνται σε ασυμπτωματικά άτομα. Ένας άλλος σοβαρότατος περιορισμός είναι πως δεν έχουν καθοριστεί καθολικώς αποδεκτά φυσιολογικά όρια για το ΙΜΤ. Το ΙΜΤ αυξάνει με την ηλικία και έχει μεγαλύτερες τιμές στους άνδρες (Πίνακας 2.2) [15]: Ηλικία [έτη] < >50 ΙΜΤ Γυναίκες [mm] <0,50 <0,65 <0,70 ΙΜΤ Άνδρες [mm] <0,55 <0,70 <0,80 Πίνακας 2.2: Φυσιολογικές τιμές ΙΜΤ σε συνάρτηση με ηλικία και φύλο. Σήμερα ωστόσο, είναι αποδεκτό από τους περισσότερους ειδικούς πως μέγιστη φυσιολογική τιμή του ΙΜΤ είναι τα 0.7mm [16]. Την τιμή αυτή χρησιμοποιούμε στην παρούσα διπλωματική Ανακάλυψη γνώσης και δεδομένα Ανακάλυψη γνώσης και τεχνικές επεξεργασίας δεδομένων Με τον όρο Ανακάλυψη Γνώσης καλείται μια διαδικασία κατά την οποία εφαρμόζονται ειδικοί αλγόριθμοι σε ένα μεγάλο συνήθως πλήθος δεδομένων με σκοπό την εξαγωγή γνώσης, βάσει της οποίας είναι δομημένα ή σχετίζονται τα δεδομένα και η οποία ήταν προηγουμένως άγνωστη [17]. Καθώς τα παραγόμενα δεδομένα αυξάνονται ολοένα και περισσότερο, η διαδικασία Ανακάλυψης Γνώσης εφαρμόζεται ολοένα και συχνότερα σε διαφορετικά γνωστικά αντικείμενα. Συχνά ο όρος είναι ταυτόσημος με την Εξόρυξη Δεδομένων, η οποία είναι το αποτέλεσμα των ομώνυμων αλγορίθμων. Στη παρούσα διπλωματική εργασία ο όρος Ανακάλυψη Γνώσης χρησιμοποιείται ευρύτερα, καθώς στις τεχνικές επεξεργασίας δεδομένων που χρησιμοποιήθηκαν συμπεριλαμβάνονται εκτός από τις τεχνικές εξόρυξης δεδομένων και στατιστικές τεχνικές. Από τις στατιστικές τεχνικές χρησιμοποιήθηκαν η Πολλαπλή Γραμμική Παλινδρόμηση (Multivariate Linear Regression) και η Λογιστική Παλινδρόμηση (Logistic Regression) για την αποκάλυψη των ανεξάρτητων συσχετίσεων ανάμεσα στα χαρακτηριστικά των δεδομένων και το ΙΜΤ αλλά και την παράλληλη δημιουργία μοντέλων πρόβλεψης του ΙΜΤ από τα χαρακτηριστικά αυτά. Σελίδα 7

13 Από τις τεχνικές εξόρυξης δεδομένων χρησιμοποιήθηκαν τα Δένδρα Απόφασης (Decision Trees) και οι Κανόνες Συσχέτισης (Association Rules), από τα οποία προκύπτουν εύληπτα μοντέλα αναπαράστασης της γνώσης. Όλες οι τεχνικές επεξεργασίας δεδομένων που αναφέρθηκαν, περιγράφονται θεωρητικά στη συνέχεια της διπλωματικής. Να σημειωθεί ακόμα πως η επιλογή τους ήταν κάθε άλλο παρά τυχαία: επιλέχθηκαν βάσει των απαιτήσεων που προκύπτουν από το στόχο της διπλωματικής Τα δεδομένα Τα δεδομένα που είχαμε στη διάθεση μας ελήφθησαν συνολικά από 63 ενήλικες ηλικίας ετών (μέση ηλικία 44). Για καθένα από τους 63 συμμετέχοντες καταγράφηκαν συνολικά 82 χαρακτηριστικά, τα οποία μπορούν να ενταχθούν στις εξής κατηγορίες: ΙΜΤ σωματομετρικές παράμετροι συστολική και διαστολική αρτηριακή πίεση αιματολογικές και βιοχημικές εξετάσεις διατητικές συνήθειες και κάπνισμα ατομικό ιστορικό και φαρμακευτική αγωγή οικογενειακό ιστορικό επίπεδο μόρφωσης περιοχή διαμονής Κανένας από τους συμμετέχοντες δεν εμφάνιζε συμπτωματική αποφρακτική αρτηριακή νόσο, παρόλο που σε σημαντικό ποσοστό (46% των συμμετεχόντων) βρέθηκε υψηλό ΙΜΤ, και άρα αθηροσκληρωτική βλάβη. Το γεγονός αυτό είναι ιδιαίτερα σημαντικό για τη διπλωματική, καθώς ερευνώνται οι προδιαθεσικοί παράγοντες της αθηροσκλήρωσης, οι οποίοι επιδρούν σε ένα πρώιμο στάδιο της παθογενετικής διαδικασίας Ο στόχος της διπλωματικής Πρωταρχικός στόχος της διπλωματικής εργασίας είναι ο προσδιορισμός προδιαθεσικών παραγόντων αθηροσκλήρωσης καρωτίδων μέσω της εφαρμογής σύγχρονων τεχνικών επεξεργασίας σε διαθέσιμα δεδομένα δείγματος νεαρών και ασυμπτωματικών ενηλίκων. Οι αθηροσκληρωτικές βλάβες προσδιορίστηκαν με τη μέτρηση του ΙΜΤ, ενώ οι προδιαθεσικοί παράγοντες αναζητήθηκαν ανάμεσα σε 82 επιλεγμένα και καταγεγραμμένα χαρακτηριστικά των 63 συμμετεχόντων. Σελίδα 8

14 Παράλληλα με τον προσδιορισμό των προδιαθεσικών παραγόντων, τα μοντέλα αναπαράστασης γνώσης των χρησιμοποιούμενων τεχνικών είναι σε θέση να ποσοτικοποιήσουν τη βαρύτητα με την οποία κάθε παράγοντας σχετίζεται με τις αθηροσκληρωτικές βλάβες. Επιπλέον, είναι πολύ σημαντικό πως τα ίδια τα μοντέλα μπορούν να λειτουργήσουν ως εργαλεία για την πρόβλεψη υψηλού ΙΜΤ και άρα για την αναγνώριση περιπτώσεων υψηλού κινδύνου ανάπτυξης αποφρακτικής αρτηριακής νόσου. Τα αποτελέσματα αναμένεται να επαληθεύσουν την ύπαρξη ήδη αναγνωρισμένων προδιαθεσικών παραγόντων στον ελληνικό χώρο αλλά και φιλοδοξούν ενδεχομένως να αποκαλύψουν νεότερους παράγοντες κινδύνου ιδιαίτερα κατά την πρώιμη και ασυμπτωματική φάση της ανάπτυξης της αποφρακτικής νόσου Η διάρθρωση της διπλωματικής Στη συνέχεια η διπλωματική εργασία διαρθρώνεται ως εξής: Τα κεφάλαια 3 4 αποτελούν το γενικό μέρος της διπλωματικής, στο οποίο περιέχεται το θεωρητικό υπόβαθρο των τεχνικών που εφαρμόστηκαν κατά την επεξεργασία των δεδομένων. Στο κεφάλαιο 3 περιγράφεται εν συντομία η προεπεξεργασία των δεδομένων ενώ στο κεφάλαιο 4 περιγράφονται οι αλγόριθμοι εξόρυξης δεδομένων και οι στατιστικές τεχνικές. Τα κεφάλαια 5 7 αποτελούν το ειδικό μέρος της διπλωματικής. Στο κεφάλαιο 5 περιγράφονται εν συντομία τα δεδομένα που είχαμε στη διάθεση μας καθώς και τα αποτελέσματα της προεπεξεργασίας τους. Στο κεφάλαιο 6 περιγράφονται αναλυτικά τα αποτελέσματα που προέκυψαν από την εφαρμογή των τεχνικών και γίνεται σύντομος σχολιασμός τους, ενώ στο κεφάλαιο 7 γίνεται συνολικός σχολιασμός των αποτελεσμάτων και επιχειρείται η εξαγωγή συμπερασμάτων. Τέλος στο κεφάλαιο 8 παρατίθεται ενδεικτική βιβλιογραφία. Σελίδα 9

15 Σελίδα 10

16 3. Προεπεξεργασία δεδομένων Η διαδικασία της ανακάλυψης γνώσης σε δεδομένα δεν εξαντλείται στην εφαρμογή στατιστικών τεχνικών και αλγορίθμων εξόρυξης δεδομένων. Αντίθετα, αποτελεί μια πιο σύνθετη διαδικασία τεσσάρων διακριτών σταδίων: συλλογή δεδομένων, προεπεξεργασία και επεξεργασία των δεδομένων και μετεπεξεργασία ή επεξεργασία των αποτελεσμάτων (Εικόνα 3.1) [18]. Knowledge Patterns Postprocessing Preprocessed Data Selected Data Featur Featur Featur e e Featur e Featur Featur e Featur e Featur e e Featur Featur e e e Prod Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct Prod uct uct Mining Data Preprocessing Selection Εικόνα 3.1: Στάδια της ανακάλυψης γνώσης σε δεδομένα. Με τον όρο προεπεξεργασία δεδομένων (data preprocessing) αναφερόμαστε σε ένα σύνολο τεχνικών που εφαρμόζονται στα συλλεχθέντα δεδομένα προτού αυτά δοθούν στους κύριους αλγορίθμους επεξεργασίας με σκοπό α) να καταστήσουν τα δεδομένα κατάλληλα για επεξεργασία από το συγκεκριμένο αλγόριθμο β) να βελτιώσουν την ποιότητα των δεδομένων και έτσι να οδηγήσουν σε καλύτερα αποτελέσματα και σε ελαττωμένη υπολογιστική ισχύ. Η προεπεξεργασία των δεδομένων αποτελείται από τεχνικές που μπορούν να ενταχθούν σε μια από τις παρακάτω κατηγορίες [19]: 1. Καθαρισμός δεδομένων (data cleaning) 2. Μετασχηματισμός δεδομένων (data transformation) 3. Ελάττωση δεδομένων (data reduction) Σελίδα 11

17 4. Διακριτοποίηση (discretization) 3.1. Καθαρισμός των δεδομένων Ο καθαρισμός των δεδομένων αντιμετωπίζει δύο κυρίως προβλήματα: α) Τις τιμές ορισμένων χαρακτηριστικών που λείπουν. Ο έλεγχος για τις τιμές που λείπουν συνήθως γίνεται αυτόματα με ειδικό λογισμικό που εντοπίζει τα «κενά» στα δεδομένα. Η αντιμετώπιση του προβλήματος αυτού, εφόσον οι τιμές των χαρακτηριστικών δεν μπορούν να συλλεχθούν, μπορεί να γίνει με αλγορίθμους που αντικαθιστούν τις τιμές αυτές με τις μέσες τιμές από το υπόλοιπο σύνολο των δεδομένων β) Το θόρυβο στα δεδομένα. Ο θόρυβος στα δεδομένα προκαλείται συνήθως από λάθη κατά τις μετρήσεις ή οφείλεται σε αβεβαιότητα μέτρησης. Ο έλεγχος για το θόρυβο μπορεί και πρέπει να γίνεται αρχικά από το χρήστη: μια απλή γραφική παράσταση ενός χαρακτηριστικού συνήθως αρκεί για να αποκαλύψει ανωμαλίες στην κατανομή των τιμών. Για παράδειγμα, ορισμένες τιμές μπορεί να αποκλίνουν από την κανονική κατανομή. Για τον περαιτέρω έλεγχο μπορούν να χρησιμοποιηθούν ειδικές στατιστικές δοκιμασίες που εκτιμούν την απόκλιση των δεδομένων. Ο θόρυβος, εφόσον η επαναμέτρηση δεν μπορεί να δώσει καλύτερο αποτέλεσμα, μπορεί να εξαλειφθεί αν αφαιρέσουμε τελείως την αντίστοιχη εγγραφή ή αν εφαρμόσουμε κάποιο μετασχηματισμό Μετασχηματισμός δεδομένων Η επιλογή του μετασχηματισμού των δεδομένων ως μεθόδου προεπεξεργασίας είναι αρκετά δύσκολο να αποφασιστεί με αυστηρά κριτήρια και τις περισσότερες φορές αποτελεί μια δοκιμασία δοκιμής και λάθους (trial and error). Υπάρχουν ωστόσο κάποιες περιπτώσεις που συνηγορούν υπέρ της. Ορισμένες φορές η είσοδος σε κάποιον αλγόριθμο του λόγου δύο χαρακτηριστικών αντί των ίδιων των χαρακτηριστικών οδηγεί σε καλύτερα αποτελέσματα (π.χ. λόγος βάρους/ύψους). Μια μορφή μετασχηματισμού είναι και η κανονικοποίηση των δεδομένων, κατά την οποία ο αλγόριθμος λειτουργεί αποδοτικότερα αν όλα τα χαρακτηριστικά κανονικοποιηθούν στην ίδια κλίμακα. Σε ορισμένες περιπτώσεις στατιστικών τεχνικών όπου ο έλεγχος έχει αποδείξει μη κανονικές κατανομές, ο λογαριθμικός μετασχηματισμος μπορεί να οδηγήσει σε κανονικότητα. Ο μετασχηματισμός των δεδομένων μπορεί να οδηγήσει σε καλύτερα αποτελέσματα ή και να εξαλείψει προβλήματα στα δεδομένα που φαίνονται εξ αρχής, απαιτείται όμως προσοχή γιατί μετασχηματίζοντας ένα μόνο χαρακτηριστικό αλλάζει η σχέση που αυτό πιθανόν έχει με τα υπόλοιπα χαρακτηριστικά. Αν λοιπόν ενδιαφερόμαστε να ανακαλύψουμε σχέσεις μεταξύ των δεδομένων και αποφασίσαμε να εφαρμόσουμε κάποιον μετασχηματισμό, τότε αυτός θα πρέπει να εφαρμοστεί σε όλα τα χαρακτηριστικά. Σελίδα 12

18 3.3. Ελάττωση δεδομένων Η ελάττωση των δεδομένων βασίζεται στο γεγονός η χρήσιμη πληροφορία συνήθως εντοπίζεται σε μια περιοχή του συνόλου των δεδομένων. Υπάρχουν αρκετά ισχυρά μαθηματικά εργαλεία που μπορούν να επιτύχουν συμπίεση των δεδομένων, με κυριότερο ίσως αντιπρόσωπο την Ανάλυση Πρωτεουσών Συνιστωσών (Principal Component Analysis). Στην τελευταία, ο n διάστατος χώρος των χαρακτηριστικών μετασχηματίζεται σε έναν άλλο χώρο, του οποίου οι άξονες περιέχουν ολοένα και μικρότερη διακύμανση των αρχικών δεδομένων. Τελικά η συνολική διακύμανση είναι η ίδια, όμως πλέον το μεγαλύτερο ποσοστό της έχει συγκεντρωθεί σε έναν μικρότερο αριθμό αξόνων, τους οποίους μπορούμε στη συνέχεια να χρησιμοποιήσουμε. Το μειονέκτημα της μεθόδου, εκτός από την υπολογίσιμη υπολογιστική ισχύ που απαιτεί, είναι πως τα χαρακτηριστικά που αντιστοιχούν στους νέους άξονες δεν έχουν πλέον φυσική σημασία, παρά μόνο μαθηματική. Η λύση λοιπόν αυτή προτείνεται σε προβλήματα όπου ενδιαφέρει καθαρά το μαθηματικό αποτέλεσμα, όπως η σωστή κατάταξη. Κατά τα λοιπά, στο χώρο της ανακάλυψης γνώσης η ελάττωση των δεδομένων είναι ουσιαστικά ταυτόσημη με την επιλογή των χαρακτηριστικών, το αποτέλεσμα της οποίας έχει άμεση φυσική ερμηνεία Επιλογή χαρακτηριστικών Εκ πρώτης όψεως η διαδικασία της επιλογής χαρακτηριστικών μπορεί να φανεί αδικαιολόγητη για το λόγο ότι οι τεχνικές εξόρυξης γνώσης θα πρέπει εξ ορισμού να είναι σε θέση να διακρίνουν ποια χαρακτηριστικά περιέχουν γνώση και να εξαλείψουν τα υπόλοιπα. Στην πράξη όμως κάτι τέτοιο δεν ισχύει. Στην πραγματικότητα η επιλογή των χαρακτηριστικών αποτελεί ένα από τα πολλά αναγκαία βήματα της ανακάλυψης γνώσης, όπως ακριβώς και η ίδια η επεξεργασία με τεχνικές εξόρυξης γνώσης. Για τις στατιστικές τεχνικές της παλινδρόμησης η επιλογή χαρακτηριστικών αποτελεί αδιαμφισβήτητα μια ανάγκη όταν τα χαρακτηριστικά είναι πολλά. Οι διάφορες μέθοδοι παλινδρόμησης είναι σε θέση να κατασκευάσουν μοντέλα που ανταποκρίνονται στην πραγματικότητα μόνο εφόσον χρησιμοποιήσουν περιορισμένο αριθμό μεταβλητών εισόδου, ο οποίος εξαρτάται από το πλήθος των δεδομένων. Συχνά στη βιβλιογραφία αναφέρεται πως το πλήθος των δεδομένων θα πρέπει να είναι τουλάχιστον φορές μεγαλύτερο από τον αριθμό των μεταβλητών που χρησιμοποιούνται. Αλλά και στους αλγορίθμους εξόρυξης δεδομένων όπως τα δένδρα απόφασης, τα πλεονάζοντα χαρακτηριστικά επιδρούν αρνητικά. Για τα δένδρα απόφασης συγκεκριμένα έχει αποδειχθεί πως η προσθήκη ενός χαρακτηριστικού με τυχαία Σελίδα 13

19 κατανομή ελαττώνει την απόδοση της ταξινόμησης κατά 5 10 %. Τα δένδρα απόφασης εξ ορισμού επιλέγουν τα χαρακτηριστικά που επιτυγχάνουν τη βέλτιστη ταξινόμηση, καθώς όμως η κατασκευή του δένδρου προχωρεί, σταδιακά εξαντλούνται τα χαρακτηριστικά που περιέχουν σημαντική πληροφορία και έτσι τα πλεονάζοντα χαρακτηριστικά γίνονται ανταγωνιστικά και επιδρούν αρνητικά. Παρόμοια αρνητική επίδραση εμφανίζεται σε άλλοτε άλλο βαθμό σε όλους τους αλγορίθμους εξόρυξης δεδομένων. Κατά συνέπεια είναι πλέον κοινή τακτική να εφαρμόζεται επιλογή χαρακτηριστικών προτού εφαρμοστεί ο εκάστοτε αλγόριθμος. Ως μέθοδος ελάττωσης δεδομένων έχει επίσης το πλεονέκτημα της άμεσης ερμηνείας των αποτελεσμάτων της: τα χαρακτηριστικά που επιλέγονται είναι τα πλεόν σημαντικά και αποτελούν μια μορφή γνώσης προτού εφαρμοστούν οι κυρίως τεχνικές επεξεργασίας. Τέλος, η επιλογή των χαρακτηριστικών οδηγεί συνήθως στη δημιουργία απλούστερων και πιο εύκολα ερμηνεύσιμων μοντέλων μετά τη χρήση των τεχνικών επεξεργασίας. Όσον αφορά τον τρόπο επιλογής των χαρακτηριστικών, ιδιαίτερο βάρος δίνεται στην εξέταση των χαρακτηριστικών από άτομο με βαθιά γνώση του προβλήματος. Συνήθως κάποιος ειδικός μπορεί να εξετάσει τα δεδομένα και να αποφανθεί για τον αποκλεισμο ορισμένων χαρακτηριστικών. Οι αυτόματες (αλγοριθμικές) μέθοδοι επιλογής χαρακτηριστικών χωρίζονται σε α)μεθόδους διήθησης ή φίλτρα (filters), οι οποίες εφαρμόζονται ξεχωριστά από τον κυρίως αλγόριθμο και σε β)μεθόδους ενσωμάτωσης(wrappers), οι οποίες εφαρμόζονται σε συνεργασία με τον κυρίως αλγόριθμο. Οι πρώτες μπορούν να εκτιμούν μεμονωμένα χαρακτηριστικά του συνόλου δεδομένων ή υποσύνολα χαρακτηριστικών, ενώ οι δεύτερες μόνο υποσύνολα χαρακτηριστικών (Πίνακας 3.1). ΑΝΕΞΑΡΤΗΤΑ ΑΠΟ ΑΛΓΟΡΙΘΜΟ ΣΕ ΣΥΝΕΡΓΑΣΙΑ ΜΕ ΑΛΓΟΡΙΘΜΟ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Φίλτρα ΥΠΟΣΥΝΟΛΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Φίλτρα Wrappers Πίνακας 3.1: Κατηγορίες αυτόματων μεθόδων επιλογής χαρακτηριστικών. Φίλτρα που εκτιμούν μεμονωμένα χαρακτηριστικά μπορεί να βασίζονται σε πολύ απλούς υπολογισμούς της σχέσης του χαρακτηριστικού με την μεταβλητή εξόδου. Η σχέση αυτή μπορεί να αποτιμηθεί με διάφορα μέτρα, το απλούστερο των οποίων είναι ο απλός συντελεστής συσχέτισης. Για μη κανονικά ή κατηγορικά δεδομένα πρέπει να χρησιμοποιηθούν μη παραμετρικοί συντελεστές, όπως ο συντελεστής του Spearman. Οποιο μέτρο της σχέσης κι αν χρησιμοποιηθεί, το αποτέλεσμα του φίλτρου είναι συνήθως μια ταξινόμηση των χαρακτηριστικών βάσει του μέτρου αυτού. Στη συνέχεια πρέπει με κάποιο τρόπο Σελίδα 14

20 να επιλεχθούν κάποια από τα χαρακτηριστικά αυτά. Οι μέθοδοι που εκτιμούν υποσύνολα χαρακτηριστικών αποτελούνται ουσιαστικά από δύο αλγορίθμους. Ο πρώτος αλγόριθμος εκτελεί αναζήτηση στο χώρο των χαρακτηριστικών με σκοπό να βρει το καταλληλότερο υποσύνολο αυτών και ο δεύτερος εκτιμά με κάποιο μέτρο (merit) το υποσύνολο που επιλέγεται. Στους Wrappers, η εκτίμηση αυτή γίνεται με την εκτέλεση του κυρίως αλγορίθμου, ενώ στα φίλτρα χρησιμοποιούνται απλούστερα μέτρα για το λόγο αυτό. Ενδιαφέρον παρουσιάζει το τμήμα της μεθόδου που εκτελεί την αναζήτηση. Στην εξαντλητική αναζήτηση, αν d είναι ο αριθμός των χαρακτηριστικών, τότε ο αριθμος των υποσυνόλων είναι 2 d, με αποτέλεσμα η μέθοδος να μην εφαρμόζεται στην πράξη. Συνήθως εφαρμόζεται η άπληστη (greedy) ή η best first μέθοδος αναζήτησης. Στην πρώτη προστίθεται (forward) ή αφαιρείται (backward) κάθε φορά ένα διαφορετικό χαρακτηριστικό και η μέθοδος σταματά όταν δεν υπάρχει βελτίωση (Εικόνα 3.2). Στη δεύτερη αντίθετα, διατηρείται ιστορικό των αποτελεσμάτων των υποσυνόλων που έχουν ελεχθεί και η μέθοδος δε σταματά όταν βρεθεί χαμηλότερο αποτέλεσμα, αλλά επανεπισκέπτεται προηγούμενους κόμβους για την εξεύρεση καλύτερων αποτελεσμάτων. Ένας άλλος τρόπος αναζήτησης στο χώρο των χαρακτηριστικών είναι με τη χρήση γενετικών αλγορίθμων, οι οποίοι καταλήγουν στο ζητούμενο υποσύνολο όχι μέσω κάποιας διαδρομής αλλά μέσω τυχαίων αλλαγών (μεταλλάξεων). Εικόνα 3.2: Άπληστη μέθοδος αναζήτησης. Εξετάζεται ο χώρος των χαρακτηριστικών μέχρι να βρεθεί χαμηλότερο σκορ f(v). Ένας δημοφιλής και απλός τρόπος που χρησιμοποιείται από φίλτρα για την προσθήκη ή αφαίρεση ενός χαρακτηριστικού στο ζητούμενο υποσύνολο βασίζεται στο στατιστικό μέτρο της συσχέτισης (Correlation-based Feature Selection). Για καθένα από τα υποψήφια χαρακτηριστικά υπολογίζεται ως μέτρο (merit) ένας συνολικός συντελεστής συσχέτισης ο οποίος αυξάνει με την αύξηση Σελίδα 15

21 της συσχέτισης κάθε χαρακτηριστικού με την μεταβλητή εξόδου και ελαττώνειται με την αύξηση της συσχέτισης μεταξύ των χαρακτηριστικών (Εξίσωση 3.1) [20]. Εξίσωση 3.1: Ενας συντελεστής για τη συσχέτιση ενός υποσυνόλου χαρακτηριστικών με τη μεταβλητή εξόδου. όπου στην παραπάνω εξίσωση rzc ο συνολικός συντελεστής συσχέτισης του υποσυνόλου με τη μεταβλητή εξόδου, rzi είναι ο μέσος συντελεστής συσχέτισης των χαρακτηριστικών με τη μεταβλητή εξόδου και rii είναι ο μέσος συντελεστής συσχέτισης των χαρακτηριστικών ανά δύο. 3.4 Διακριτοποίηση Η διακριτοποίηση μπορεί να εξυπηρετήσει κατά περίπτωση και τους δύο γενικούς στόχους της προεπεξεργασίας των δεδομένων. Ορισμένοι αλγόριθμοι όπως οι κανόνες συσχέτισης, απαιτούν κατηγοριοποιημένα δεδομένα για να εφαρμοστούν, ενώ σε κάποιες περιπτώσεις αλγόριθμοι που λειτουργούν και με αριθμητικά δεδομένα μπορεί να έχουν καλύτερα αποτελέσματα όταν αυτά διακριτοποιηθούν, δηλαδή κατηγοριοποιηθούν. Στην περίπτωση που επιλεχθεί να γίνει διακριτοποίηση των δεδομένων, το πρόβλημα που προκύπτει είναι βεβαίως βάσει ποιου κριτηρίου θα αποφασιστούν τα όρια των διαστημάτων διακριτοποίησης. Θα μπορούσε κανείς να πει πως η απάντηση στο παραπάνω ερώτημα εξαρτάται από την εφαρμογή. Υπάρχουν περιπτώσεις όπου μια διακριτοποίηση με φυσική ερμηνεία είναι όχι απλώς χρήσιμη αλλά επιβάλλεται από εξωτερική γνώση. Για παράδειγμα όταν έχουμε τιμές συστολικής και διαστολικής αρτηριακής πίεσης και θέλουμε να τις διακριτοποιήσουμε για χρήση σε ένα διαγνωστικό μοντέλο, δεν έχει κατά κανόνα νόημα να εφαρμόσουμε μια τυχαία διακριτοποίηση, αλλά την διακριτοποίηση που χρησιμοποιείται από τους καρδιολόγους για την κατάταξη των ασθενών στη φυσιολογική ή στις υπερτασικές ομάδες. Στην περίπτωση που οι τιμές της πίεσης είναι όλες φυσιολογικές και το ζητούμενο είναι η διερεύνηση της επίδρασης τιμών πίεσης εντός των φυσιολογικών, τότε σαφώς θα πρέπει να γίνει μια επιλογή των διαστημάτων διακριτοποίησης ή να χρησιμοποιηθούν αυτόματες μέθοδοι. Οι αυτόματες μέθοδοι διακριτοποίησης χωρίζονται σε δύο μεγάλες κατηγορίες: Σελίδα 16

22 α) Μέθοδοι χωρίς επίβλεψη β) Μέθοδοι με επίβλεψη Στις μεθόδους χωρίς επίβλεψη δε λαμβάνεται υπόψη η κλάση στην οποία ανήκει η τιμή του χαρακτηριστικού. Η τιμή αυτή, η οποία αντιστοιχεί σε μια περίπτωση (case), εντάσσεται σε ένα διάστημα τιμών συνήθως με έναν από εξής δύο τρόπους: 1. Διακριτοποιώντας εξ αρχής το σύνολο τιμών του χαρακτηριστικού σε έναν αριθμό διαστημάτων σταθερού εύρους. Το αποτέλεσμα είναι ο αριθμός των περιπτώσεων που ταξινομούνται σε κάθε διάστημα να είναι τυχαίος και άρα κατά κανόνα άνισος. 2. Διακριτοποιώντας σε διαστήματα σταθερής συχνότητας, όπου το σύνολο τιμών χωρίζεται σε ορισμένα διαστήματα, τέτοια ώστε το καθένα να περιέχει τον ίδιο ή περίπου τον ίδιο αριθμό περιπτώσεων. Το μειονέκτημα είναι ότι τα διαστήματα δεν είναι σταθερού εύρους, αλλά οι περισσότεροι αλγόριθμοι δίνουν καλύτερα αποτελέσματα με τον τρόπο αυτό, γιατί τα δεδομένα είναι κατανεμημένα εξισορροπημένα. Αντίθετα, στις μεθόδους διακριτοποίησης με επίβλεψη το σημείο διαχωρισμού επιλέγεται βάσει μιας απόφασης, η οποία αποβλέπει στο να διαχωρίσει το σύνολο τιμών του χαρακτηριστικού σε διαστήματα των οποίων οι περιπτώσεις τιμές να αντιστοιχούν όσο το δυνατό περισσότερο σε μια και μόνο κλάση. Το χαρακτηριστικό που θα προκύψει θα είναι τότε διακριτοποιημένο με έναν τρόπο που θα βολεύει πολύ την αξιοποίηση του από έναν αλγόριθμο ταξινόμησης, όπως ένα δένδρο απόφασης. Για την ακρίβεια, υπάρχουν αρκετοί τρόποι για να γίνει μια τέτοια διακριτοποίηση, αλλά ίσως ο αποδοτικότερος και πιο δημοφιλής στηρίζεται στην αρχή λειτουργίας των ίδιων των δένδρων απόφασης: είναι η μέθοδος της διακριτοποίησης βάσει της εντροπίας. Σε ένα δένδρο απόφασης επιλέγεται ένα χαρακτηριστικό επειδή το κέρδος πληροφορίας των κλάσεων που πετυγχάνεται από το διαχωρισμό βάσει του χαρακτηριστικού αυτού είναι το μέγιστο (βλ. 4.2, Δένδρα απόφασης). Ο αλγόριθμος συνεχίζει τους διαχωρισμούς βάσει αυτής της αρχής. Ανάλογη είναι και η μέθοδος της εντροπίας. Εξετάζονται όλα τα πιθανά σημεία για τον πρώτο διαχωρισμό σε διαστήματα και επιλέγεται αυτό που πετυγχάνει το μεγαλύτερο κέρδος πληροφορίας. Στη συνέχεια το ίδιο εφαρμόζεται στα διαστήματα που προκύπτουν και έτσι διαδοχικά γίνονται κατατμήσεις του συνόλου τιμών (Εικόνα 3.3). Το ζήτημα είναι πότε θα σταματήσει η κατάτμηση. Ιδανικά, θα σταματήσει όταν το κέρδος πληροφορίας είναι ίδιο με την αρχική εντροπία και αυτό θα σημαίνει πως το διάστημα περιέχει μόνο περιπτώσεις της ίδιας κλάσης. Σελίδα 17

23 Εικόνα 3.3: Διακριτοποίηση με τη μέθοδο της εντροπίας. Διαδοχικά επιλέγονται διαστήματα με την ελάχιστη εντροπία. Ένας τρόπος είναι να ορίσουμε ένα κατώφλι για το κέρδος πληροφορίας. Μια τιμή για το κατώφλι αυτό μπορεί να προκύψει από την αρχή Ελαχίστου Μήκους Περιγραφής (Minimum Description Length) και εξαρτάται από τις εντροπίες του αρχικού διαστήματος και των υποδιαστημάτων όπως επίσης και από τον αριθμό των κλάσεων σε κάθε υποδιάστημα και το συνολικό αριθμό των περιπτώσεων. Εκτός της μεθόδου της εντροπίας υπάρχουν και άλλες μέθοδοι διακριτοποίησης με επίβλεψη. Μια από αυτές βασίζεται στον υπολογισμό του λάθους κατάταξης που προκύπτει από κάθε πιθανή διακριτοποίηση ενός διαστήματος θεωρώντας ως σωστή την κατάταξη στην κλάση που αποτελεί πλειοψηφία στο προκύπτον διάστημα. Τέλος, μια αρκετά διαφορετική μέθοδος ξεκινά δημιουργώντας διαστήματα που περιέχουν μόνο μια περίπτωση και στη συνέχεια επιχειρεί να επιλέξει με στατιστικά κριτήρια (π.χ. δοκιμασία χ 2 ) ποια από τα διαστήματα αυτά μπορούν να συμπτυχθούν. Σελίδα 18

24 4. Τεχνικές επεξεργασίας δεδομένων Στο κεφάλαιο αυτό γίνεται σύντομα αλλά και περιεκτικά, η περιγραφή του θεωρητικού υποβάθρου των αλγορίθμων εξόρυξης δεδομένων (κανόνες συσχέτισης, δένδρα απόφασης) και των στατιστικών τεχνικών (πολλαπλή γραμμική και λογιστική παλινδρόμηση) που χρησιμοποιούνται στη συνέχεια της διπλωματικής εργασίας. 4.1 Κανόνες συσχέτισης Οι κανόνες συσχέτισης πρωτοεμφανίστηκαν από τον Agrawal το 1993 [21] και συνδέθηκαν με το πρόβλημα του «καλαθιού της αγοράς», από το οποίο προκύπτει και σημαντικό μέρος της ορολογίας τους. Σήμερα αποτελούν μια από τις πιο σύγχρονες μεθόδους για την εξαγωγή γνώσης από μεγάλες βάσεις δεδομένων. Βασικό τους πλεονέκτημα πέρα από την αποκάλυψη κρυμμένων συσχετίσεων μεταξύ χαρακτηριστικών ενός συνόλου δεδομένων είναι ο συνοπτικός και εύκολα κατανοητός τρόπος με τον οποίο εκφράζουν τη γνώση που εξάγεται από τα δεδομένα. Οι συσχετισμοί έχουν τη μορφή Α Β όπου Α και Β αναφέρονται σε σύνολα χαρακτηριστικών που υπάρχουν στα δεδομένα. Παρακάτω γίνεται μια συνοπτική παρουσίαση του βασικού θεωρητικού υποβάθρου εξαγωγής κανόνων συσχέτισης Ορισμοί και πλαίσιο Υποστήριξης - Εμπιστοσύνης Έστω Ι = {i1, i2,.., ik} ένα σύνολο από διακριτά στοιχεία (items) ik. Στοιχειοσύνολο t (Itemset) ή συναλλαγή καλείται κάθε υποσύνολο του Ι και μάλιστα, k-στοιχειοσύνολο (k-itemset) καλείται κάθε στοιχειοσύνολο με k στοιχεία. Κάθε k-στοιχειοσύνολο δηλαδή μπορεί να θεωρηθεί ως μια συναλλαγή στην οποία περιέχονται k διακριτά στοιχεία. Τότε ένα σύνολο από συναλλαγές θα είναι Τ = {t 1, i 2,.., t N } όπου κάθε t i είναι ένα στοιχειοσύνολο. Υποστήριξη (support ή s) ενός στοιχειοσυνόλου καλείται το ποσοστό εμφάνισης του στοιχειοσυνόλου στο σύνολο των συναλλαγών. Συχνό στοιχειοσύνολο καλείται ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsupp. Κανόνας Συσχέτισης (association rule) είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα με Χ Ι, Υ Ι, Χ Υ = Υποστήριξη (s) ενός κανόνα X Y καλείται το ποσοστό εμφάνισης του Σελίδα 19

25 στοιχειοσυνόλου Χ Υ στο σύνολο των συναλλαγών Τ. Εμπιστοσύνη (confidence ή c) ενός κανόνα X Y καλείται ο λόγος της υποστήριξης του στοιχειοσυνόλου Χ Υ προς την υποστήριξη του στοιχειοσυνόλου Χ. Δηλαδή, c(x Y) = s(x Y)/s(X) Κάθε κανόνας συσχέτισης απεικονίζεται με τη μορφή X Y ή IF X THEN Y, που σημαίνει «ΟΤΑΝ εμφανίζεται το στοιχειοσύνολο Χ, ΤΟΤΕ εμφανίζεται και το Υ». Η υποστήριξη και η εμπιστοσύνη ενός κανόνα αποτελούν τα δύο βασικότερα ποιοτικά χαρακτηριστικά του. Με την υποστήριξη εκτιμάται το πόσο συχνά εμφανίζεται ο κανόνας αυτός στο σύνολο Τ των δεδομένων των συναλλαγών. Τυχαίοι κανόνες που δεν παριστούν κάποια μορφή γνώσης ενδεχομένως εμφανίζουν πολύ μικρή υποστήριξη. Με την εμπιστοσύνη εκτιμάται η αξιοπιστία του κανόνα. Ενδεχομένως δηλαδή το στοιχειοσύνολο Χ να εμφανίζεται και αρκετές φορές χωρίς το Υ, οπότε ελαττώνεται η αξιοπιστία του κανόνα. Όσο μεγαλύτερη είναι η εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα εμφάνισης του Υ σε κανόνες που περιέχουν το Χ ( p(y/x) ). Να σημειωθεί πως από κάθε στοιχειοσύνολο με τουλάχιστον 2 στοιχεία μπορούν να παραχθούν περισσότεροι από 1 κανόνες. Όλοι οι κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχουν υποχρεωτικά την ίδια υποστήριξη, αλλά όχι και την ίδια εμπιστοσύνη. Σύμφωνα με το πλαίσιο Υποστήριξης Εμπιστοσύνης (Agrawal, Imielinski, Swami 1993), έγκυροι θεωρούνται οι κανόνες που πληρούν τα εξής δύο κριτήρια: 1. s(x Y) minsupp 2. c(x Y) minconf όπου τα minsupp και minconf ορίζονται από το χρήστη ή τον ειδικό ανάλογα με το είδος των δεδομένων. Κατά συνέπεια, με βάση το πλαίσιο αυτό η εξόρυξη κανόνων συσχέτισης μπορεί να χωριστεί στα εξής δυο υποπροβλήματα: 1. Εύρεση όλων των συχνών στοιχειοσυνόλων (s minsupp) 2. Για κάθε συχνό στοιχειοσύνολο, εύρεση των κανόνων με μεγάλη υποστήριξη (c minconf) Εύρεση συχνών στοιχειοσυνόλων και αλγόριθμος Apriori Δεδομένου ενός συνόλου συναλλαγών Τ, η εύρεση των συχνών στοιχειοσυνόλων μπορεί να γίνει αρχικά με τον υπολογισμό της υποστήριξης όλων των δυνατών στοιχειοσυνόλων και έπειτα με την επιλογή αυτών που είναι συχνά. Οταν όμως ο αριθμός των στοιχείων είναι d, ο αριθμός των δυνατών στοιχειοσυνόλων είναι 2 d, γεγονός που οδηγεί σε μεγάλη πολυπλοκότητα. Αντ αυτού, η εύρεση των συχνών στοιχειοσυνόλων διευκολύνεται με τη χρήση της Σελίδα 20

26 αρχής Apriori (Εικόνα 4.1), σύμφωνα με την οποία Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά Η αρχή αυτή ισχύει λόγω της παρακάτω ιδιότητας της υποστήριξης: XY, :( X Y) sx ( ) sy ( ) Η υποστήριξη δηλαδή ενός στοιχεισύνολου είναι μικρότερη ή ίση της υποστήριξης οποιουδήποτε υποσυνόλου του. Με αντιθετοαντιστροφή της αρχής Apriori λαμβάνουμε την εξής χρήσιμη αρχή: Αν ένα στοιχειοσύνολο δεν είναι συχνό, όλα τα υπερσύνολα του δεν είναι συχνά Επομένως από μη συχνά στοιχειοσύνολα δεν μπορούν να παραχθούν συχνά υπερ-στοιχειοσύνολα. Μπορούμε λοιπόν να τα παραλείψουμε και ιεραρχικά να αναζητούμε για συχνά στοιχειοσύνολα που προκύπτουν μόνο από συχνά υποστοιχειοσύνολα Εικόνα 4.1: Αρχή Apriori: Αν το {c,d,e} είναι συχνό στοιχειοσύνολο, τότε όλα τα υποσύνολα του είναι συχνά. Σύμφωνα με τα παραπάνω, γίνεται εύκολα κατανοητή η εύρεση των συχνών στοιχειοσυνόλων με τον αλγόριθμο Apriori, του οποίου ψευδοκώδικας φαίνεται παρακάτω: k=1 Βρες τα συχνά 1-στοιχειοσύνολα Συνέχισε μέχρι να μη βρεθούν άλλα συχνά στοιχειοσύνολα Δημιούργησε k+1 υποψήφια στοιχειοσύνολα από τα συχνά k Σελίδα 21

27 στοιχειοσύνολα Υπολόγισε την υποστήριξη των υποψήφιων στοιχειοσυνόλων Διέγραψε αυτά που δεν είναι συχνά Ο αλγόριθμος ξεκινά υπολογίζοντας την υποστήριξη των 1-στοιχειοσυνόλων βρίσκοντας ποια είναι συχνά. Στη συνέχεια υπολογίζει την υποστήριξη των 2- στοιχειοσυνόλων που προκύπτουν από τα συχνά 1-στοιχειοσύνολα και βρίσκει τα συχνά. Συνεχίζει έτσι μέχρι να φτάσει στο υπερσύνολο ή να εξαντληθούν τα συχνά k-στοιχειοσύνολα Εξόρυξη κανόνων από συχνά στοιχειοσύνολα Εφόσον τα συχνά στοιχειοσύνολα έχουν προσδιοριστεί, το πρόβλημα της εξόρυξης κανόνων μπορεί να διατυπωθεί ως εξής: Δοθέντος ενός συχνού στοιχειοσυνόλου L, να βρεθούν όλα τα μη κενά υποσύνολα f L τέτοια ώστε ο κανόνας f L f να ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης. Αν L = k, τότε υπάρχουν 2 k 2 υποψήφιοι κανόνες συσχέτισης (εξαιρώντας τον L και τον L). Να σημειωθεί πως αφού c(f L - f) = s(l)/s(f), για τον υπολογισμό της εμπιστοσύνης κάθε πιθανού κανόνα έχουμε ήδη υπολογίσει την απαραίτητη υποστήριξη κάθε υποσυνόλου, εφόσον όλα είναι συχνά. Η εξόρυξη κανόνων συνεπώς είναι μια υπολογιστικά πολύ λιγότερη απαιτητική διαδικασία σε σχέση με την εύρεση των συχνών στοιχειοσυνόλων. Μια χρήσιμη ιδιότητα της εμπιστοσύνης ωστόσο ειναι η εξής: Εστω L = {A,B,C,D}. Τότε c(abc D) c(ab CD) c(a BCD). Με βάση την ιδιότητα αυτή, υπολογίζεται πρώτα η εμπιστοσύνη των κανόνων με ένα στοιχείο στην απόδοση του κανόνα. Οι κανόνες που έχουν χαμηλότερη εμπιστοσύνη από την minconf αποκλείονται για την παραγωγή κανόνων με περισσοτερα στοιχεία στην απόδοση. Ο αλγόριθμος αυτός ομοιάζει με τον Apriori στη λογική ανεύρεσης των έμπιστων κανόνων (Εικόνα 4.2). Σελίδα 22

28 Κανόνας με μικρή εμπιστοσύνη ABCD=>{ } BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD Pruned Rules D=>ABC C=>ABD B=>ACD A=>BCD Εικόνα 4.2: Αν ο κανόνας BCD=>A έχει χαμηλή εμπιστοσύνη, τότε και οι παραγόμενοι κανόνες έχουν χαμηλή εμπιστοσύνη Προεκτάσεις Α) Οι κανόνες που προκύπτουν σύμφωνα με το πλαίσιο υποστήριξης εμπιστοσύνης συχνά επικαλύπτονται ως προς τη γνώση που αναπαριστούν και κατά συνέπεια θα πρέπει να ελεγχθούν. Περιττός κανόνας καλείται ένας κανόνας Χ Υ, αν υπάρχει ένας κανόνας Χ Υ, όπου Χ Χ και Υ Υ με την ίδια υποστήριξη και εμπιστοσύνη. Π.χ. αν {b} {d, e} και {b, c} {d, e} τότε ο {b} {d, e} είναι περιττός. Β) Ακόμη, έχουν κατά καιρούς προταθεί διαφορετικά μέτρα για να βελτιώσουν την ποιότητα των κανόνων που προκύπτουν με τη χρήση του πλαισίου υποστήριξης εμπιστοσύνης αλλά και την απόδοση των χρησιμοποιούμενων αλγορίθμων, ιδιαίτερα του Apriori. Το συχνότερα χρησιμοποιούμενο από τα μέτρα αυτά είναι το Ενδιαφέρον (interest): PXY (, ) Interest = PXPY ( ) ( ) Το ενδιαφέρον είναι ένα μέτρο της στατιστικής ανεξαρτησίας των στοιχειοσυνόλων Χ και Υ. Οι πιθανότητες P(X,Y), P(X) και P(Υ) μπορούν να θεωρηθούν κατά προσέγγιση ίσες με s(x Y), s(x) και s(y) αντίστοιχα. Διακρίνουμε τις εξής περιπτώσεις: Σελίδα 23

29 1. Αν Interest = 1, τότε τα Χ και Υ είναι ανεξάρτητα και δεν μπορεί να εξαχθεί κανόνας 2. Αν Interest > 1, τότε τα Χ και Υ σχετίζονται θετικά 3. Αν Interest < 1, τότε τα Χ και Υ σχετίζονται αρνητικά Η χρησιμότητα του Interest φαίνεται καλύτερα αν σκεφτούμε το εξής: Εστω πως το X Y είναι ένα συχνό στοιχειοσύνολο και εξετάζεται η εμπιστοσύνη του κανόνα X Y. Η P(Y/X) = c(x Y) = s(x Y)/s(X) = P(X,Y) / P(X) υπολογίζεται αρκετά υψηλή. Στον υπολογισμό όμως της εμπιστοσύνης δεν συνυπολογίζεται η P(Υ). Αν κι αυτή είναι αρκετά υψηλή, τότε η απόδοση του κανόνα, δηλαδή το στοιχειοσύνολο Υ, εμφανίζεται πολλές φορές χωρίς την υπόθεση, δηλαδή το στοιχειοσύνολο Χ. Με άλλα λόγια τα Χ και Υ δεν εμφανίζουν μεγάλη συσχέτιση, παρόλο που η εμπιστοσύνη του κανόνα είναι υψηλή. Στην περίπτωση αυτή, το Interest θα είναι κοντά στην μονάδα και ο κανόνας μπορεί να απορριφθεί. Για το λόγο αυτό το Interest υπεισέρχεται συχνά στο πλαίσιο Υποστήριξης Εμπιστοσύνης ως τρίτος κανόνας: 1. s(x Y) minsupp 2. c(x Y) minconf PX ( UY) 3. 1 min int erest PXPY ( ) ( ) Ο τρίτος αυτός κανόνας μπορεί να χρησιμοποιηθεί όχι μόνο κατά την εξαγωγή κανόνων αλλά και κατά την εύρεση των συχνών στοιχειοσυνόλων. Το στοιχειοσύνολο που ικανοποιεί τον κανόνα αυτό καλείται ενδιαφέρον στοιχειοσύνολο και ο αλγόριθμος Apriori μπορεί να τροποποιηθεί ώστε να εντοπίζει τα ενδιαφέροντα συχνά στοιχειοσύνολα Δένδρα απόφασης Γενικά Τα δένδρα απόφασης ή κατηγοριοποίησης [22] εντάσσονται σε μια ευρεία ομάδα αλγορίθμων εξόρυξης δεδομένων, τους αλγόριθμους ταξινόμησης. Στους αλγορίθμους αυτούς είναι διαθέσιμο ένα σύνολο από κλάσεις, ενώ τα δεδομένα είναι σε μορφή διανυσμάτων, των οποίων οι διαστάσεις αντιστοιχούν σε χαρακτηριστικά. Η κλάση κάθε διανύσματος είναι γνωστή εκ των προτέρων. Απώτερος στόχος είναι η εύρεση ενός μοντέλου που να επιτρέπει την επιτυχή ταξινόμηση νέων, άγνωστων διανυσμάτων σε μια από τις κλάσεις. Εκτός από τα δένδρα απόφασης, δημοφιλείς αλγόριθμοι ταξινόμησης είναι τα Νευρωνικά Δίκτυα, η ταξινόμηση κατά Bayes και η ταξινόμηση με κανόνες. Σελίδα 24

30 Σε κάθε δένδρο, τρία είναι τα βασικά δομικά χαρακτηριστικά: Οι κόμβοι, τα κλαδιά και τα φύλλα. Ο πρώτος κόμβος από τον οποίο πηγάζουν όλοι οι υπόλοιποι κόμβοι καλείται ρίζα, ενώ τα φύλλα μπορούν να θεωρηθούν ως καταληκτικοί κόμβοι. Ένα δένδρο απόφασης είναι ένα δένδρο με τις εξής ιδιότητες: 1. Κάθε εσωτερικός κόμβος έχει το όνομα ενός χαρακτηριστικού 2. Κάθε κλαδί έχει μια τιμή του χαρακτηριστικού του κόμβου από τον οποίο προέρχεται (κατηγόρημα) 3. Κάθε φύλλο έχει το όνομα μιας κλάσης Τα δένδρα απόφασης πλεονεκτούν στο ότι η οπτική αναπαράσταση του μοντέλου τους γίνεται πολύ εύκολα κατανοητή. Κάθε δέντρο απόφασης είναι ουσιαστικά η γραφική αναπαράσταση μίας σταδιακής διαδικασίας λήψης αποφάσεων. Σε κάθε βήμα λαμβάνεται «τοπικά» μία απόφαση, με βάση ένα χαρακτηριστικό. Ανάλογα με την τιμή του χαρακτηριστικού για το συγκεκριμένο παράδειγμα ακολουθείται διαφορετικό μονοπάτι μέσα από το δέντρο. Κάθε μονοπάτι οδηγεί σε μία απόφαση, η οποία τελικά κατατάσσει το διάνυσμα σε μια κλάση. Με την ίδια λογική, ένα δένδρο απόφασης μπορεί να χρησιμοποιηθεί για προβλήματα πρόβλεψης, όπως το παρακάτω, όπου γίνεται πρόβλεψη καταλληλότητας ή όχι των συνθηκών για παιχνίδι γκολφ (Εικόνα 4.3). Εικόνα 4.3: Παράδειγμα Δένδρου απόφασης. Εύκολα γίνεται κατανοητό πως για τα χαρακτηριστικά που έχουν αριθμητικές τιμές θα πρέπει να χρησιμοποιηθούν κατώφλια, ώστε να γίνουν δυαδικά (binary). Για το πρόβλημα της δημιουργίας ενός δένδρου απόφασης, δύο είναι τα βασικά κριτήρια που πρέπει να θεσπιστούν: 1. Κριτήριο διάσπασης Με ποιον μέτρο δηλαδή θα επιλέγεται κάθε φορά το χαρακτηριστικό Σελίδα 25

31 ενός κόμβου (π.χ. εντροπία, gini, misclassification error). 2. Κριτήριο τερματισμού Με ποιον τρόπο δηλαδή θα επιλέγονται οι καταληκτικοί κόμβοι ή φύλλα. Παραλλαγές των δύο παραπάνω κριτηρίων οδηγούν σε μια ποικιλία αλγορίθμων κατασκευής δένδρων. Εδώ θα ασχοληθούμε με τον αλγόριθμο ID3, του οποίου οι προεκτάσεις (C4.5, C5) χρησιμοποιούνται κατά κόρον σήμερα. Ο αλγόριθμος αυτος χρησιμοποιεί ως κριτήριο διάσπασης την εντροπία, μια έννοια της θεωρίας πληροφοριών Εντροπία (κριτήριο διάσπασης του ID3) Έστω ένα πείραμα τύχης με n πιθανά αποτελέσματα. Θεωρούμε την τυχαία μεταβλητή X και τα απλά ενδεχόμενα x 1...x n που πραγματοποιούνται με πιθανότητες p 1...p n αντίστοιχα. Η εντροπία ορίζεται ως: με την σύμβαση 0log 2 0 = 0. Δοθέντος ενός συνόλου και ενός αριθμού κλάσεων, μπορούμε να υπολογίσουμε την εντροπία του συνόλου χρησιμοποιώντας αντί για την πιθανότητα, τη συχνότητα εμφάνισης κάθε κλάσης εντός του συνόλου. Η μέγιστη τιμή της εντροπίας είναι 1 και λαμβάνεται όταν στο σύνολο περιέχονται ομοιόμορφα όλες οι κλάσεις. Μεγάλη τιμή εντροπίας σημαίνει μεγάλη αβεβαιότητα: δε μπορεί να ληφθεί απόφαση υπέρ μιας κλάσης. Αντίθετα, η ελάχιστη τιμή της εντροπίας είναι 0 και λαμβάνεται όταν στο σύνολο περιέχεται μόνο μια κλάση. Χαμηλή τιμή εντροπίας σημαίνει μικρή αβεβαιότητα: μπορεί να ληφθεί απόφαση υπέρ μιας κλάσης. Εστω πως σε ένα πρόβλημα ταξινόμησης σε μ κλάσεις, ένα χαρακτηριστικό Χ έχει ν αριθμό τιμών. Τότε το σύνολο των δεδομένων S μπορεί να χωριστεί σε ν υποσύνολα Sv, σε καθένα από τα οποία εμπεριέχονται με διαφορετική συχνότητα οι μ κλάσεις. Μπορούμε να υπολογίσουμε την μέση εντροπία του χαρακτηριστικού Χ από την εντροπία των υποσυνόλων Sν ως εξής: n SV H ( X) = H( SV ) i= 1 S Όπου S v ο αριθμός των στοιχείων του υποσυνόλου S v και S ο αριθμός των Σελίδα 26

32 στοιχείων του συνόλου S. Την εντροπία αυτή μπορούμε να χρησιμοποιήσουμε ως κριτήριο διάσπασης του δένδρου απόφασης. Τέλος, κέρδος πληροφορίας καλείται η απλώς η διαφορά της εντροπίας του χαρακτηριστικού Χ από την αρχική εντροπία Ο αλγόριθμος ID3 Ο αλγόριθμος αυτός αναπτύχθηκε από τον Quinlan το 1975 και έχει τροποποιηθεί και βελτιωθεί αρκετά από τότε. Η βασική του όμως ιδέα παραμένει η ίδια. Μπορεί να συνοψιστεί σε 4 απλά βήματα: 1. Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κλάσεων βάσει της εντροπίας. 2. Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. 3. Για κάθε υποσύνολο που περιέχει περισσότερες από μία κλάσεις, επανέλαβε τη διαδικασία. 4. Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κλάσεις ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά. Ο ID3 είναι αλγόριθμος αναζήτησης τύπου Hill Climbing, δηλαδή προχωρά από τα απλά στα σύνθετα ξεκινώντας από το κενό δέντρο. Βασικά χαρακτηριστικά του είναι τα εξής: Τοποθετεί χαρακτηριστικά με υψηλό κέρδος πληροφορίας κοντύτερα στη ρίζα Προτιμά τα μικρότερα δέντρα Διατηρεί μόνο μια υπόθεση κάθε φορά Δεν κάνει οπισθοδρόμηση δηλαδή δεν αναθεωρεί προηγούμενη απόφαση/επιλογή Είναι αρκετά ανεκτικός στα λάθη Μια βελτιωμένη και συχνά χρησιμοποιούμενη έκδοση του ID3 είναι ο C4.5, στον οποίο συμπεριλαμβάνονται μέθοδοι για τη χρήση αριθμητικών δεδομένων, για την αντιμετώπιση τιμών που λείπουν και θορύβου και την εξαγωγή κανόνων από το δένδρο Προεκτάσεις Δύο από τα σημαντικότερα θέματα των δένδρων απόφασης αποτελούν τα φαινόμενα Underfitting και Overfitting, τα οποία οδηγούν σε ελάττωση του προσδοκώμενου ποσοστού επιτυχούς ταξινόμησης. Τα λάθη που παράγονται από ένα δένδρο είναι γενικά: 1. Λάθη εκπαίδευσης και Σελίδα 27

33 2. Λάθη γενίκευσης. Τα πρώτα είναι λάθη ταξινόμησης στα δεδομένα του συνόλου εκπαίδευσης, ενώ τα δεύτερα λάθη ταξινόμησης σε άγνωστα δεδομένα και αποτελούν το σημαντικότερο τρόπο ελέγχου ενός δένδρου. Κατά το φαινόμενο του Underfitting, τόσο τα λάθη εκπαίδευσης όσο και τα λάθη γενίκευσης είναι μεγάλα, επειδή δεν έχει γίνει επαρκής εκπαίδευση του δένδρου. Συνήθως όμως απασχολεί το φαινόμενο του Overfitting, καθώς σ αυτό παρόλο που τα λάθη εκπαίδευσης είναι μικρά, τα λάθη γενίκευσης εντούτοις είνα μεγάλα (Εικόνα 4.4). Εικόνα 4.4: Λάθη εκπαίδευσης και γενίκευσης σε συνάρτηση με τον αριθμό των κόμβων. Φαινόμενο Overfitting. Το Overfitting διαπιστώνεται μόνο κατά τον έλεγχο με άγνωστα δεδομένα. Το φαινόμενο αυτό οδηγεί σε δένδρα απόφασης που είναι πιο περίπλοκα από όσο χρειάζεται και που ουσιαστικά «απομνημονεύουν» τα δεδομένα εκπαίδευσης. Οι πιο βασικές αιτίες του Overfitting είναι: Ανεπαρκή δεδομένα που δεν περιγράφουν επακριβώς τις κλάσεις Θόρυβος στα δεδομένα Κατά συνέπεια, πρέπει να δίνεται ιδιαίτερη προσοχή στη διαδικασία της προεπεξεργασίας ώστε τα δεδομένα να μην οδηγήσουν σε overfitted δενδρα. Εχουν αναπτυχθεί επίσης τεχνικές που σκοπό έχουν να ελαττώσουν την πολυπλοκότητα που συνοδεύει το φαινόμενο του Overfitting όπως: Early stopping rule (το δένδρο τερματίζει γρηγορότερα βάσει κάποιων κριτηρίων) Σελίδα 28

34 Μετασχηματισμός του δένδρου μετά τη δημιουργία του σε ένα ισοδύναμο αλλά απλούστερο Ανεξάρτητα από τις τεχνικές αυτές, σε κάθε περίπτωση πρέπει να προτιμώνται τα απλούστερα δένδρα, εφόσον πετυχαίνουν τα ίδια λάθη γενίκευσης. 4.3 Στατιστικές Τεχνικές Οι στατιστικές τεχνικές που χρησιμοποιούνται στην παρούσα διπλωματική εργασία για το πρόβλημα του προσδιορισμού προδιαθεσικών παραγόντων αθηροσκλήρωσης είναι δύο τεχνικές παλινδρόμησης: η Πολλαπλή Γραμμική Παλινδρόμηση και η Λογιστική Παλινδρόμηση [23] Πολλαπλή Γραμμική Παλινδρόμηση Με την τεχνική αυτή επιχειρείται ο προσδιορισμός της τιμής μιας συνεχούς μεταβλητής y, η οποία καλείται εξαρτημένη μεταβλητή, από τις τιμές πολλών μεταβλητών x i, οι οποίες καλούνται ανεξάρτητες μεταβλητές, μέσω μιας γραμμικής εξίσωσης (μοντέλο γραμμικής παλινδρόμησης): y = b 1 x 1 + b 2 x b n x n + c όπου το c και τα b i πρέπει να προσδιοριστούν. Το c είναι μια σταθερά και τα b i είναι οι συντελεστές παλινδρόμησης. Ο κανονικοποιημένος συντελεστής παλινδρόμησης μιας μεταβλητής x i αποτελεί ένα μέτρο της συσχέτισης της μεταβλητής αυτής με τη μεταβλητή y: όσο μεγαλύτερος είναι κατ απόλυτη τιμή, τόσο μεγαλύτερη και η συσχέτιση. Υπάρχουν ακόμη στατιστικές δοκιμασίες που υποδεικνύουν πόσο σημαντική είναι η συνεισφορά κάθε μεταβλητής βάσει του συντελεστή παλινδρόμησης της. Τα b i και c υπολογίζονται με τη μαθηματική μέθοδο των ελαχίστων τετραγώνων: το άθροισμα των τετραγώνων των σφαλμάτων ανάμεσα στην τιμή της y που υπολογίζεται από το μοντέλο παλινδρόμησης και στην πραγματική τιμή y πρέπει είναι ελάχιστο. Από τη συνθήκη αυτή μπορούν να υπολογιστούν οι τιμές των b i και c. Ο βαθμός επιτυχίας του μοντέλου παλινδρόμησης μπορεί να εκτιμηθεί από τον υπολογισμό ενός συνολικού συντελεστή συσχέτισης, ο οποίος καλείται R: Η τιμή του R στο τετράγωνο (R 2 ) εκφράζει το ποσοστό της διακύμανσης της μεταβλητής y που εξηγείται από το συγκεκριμένο μοντέλο. Με μια μικρή τροποποίηση μπορει να υπολογιστεί και ο προσαρμοσμένος συντελεστής R 2, ο οποίος εξηγεί το ποσοστό διακύμανσης της μεταβλητής που εξηγείται από το συγκεκριμένο μοντέλο ανεξάρτητα όμως από τα δεδομένα του δείγματος. Στην ιδανική Σελίδα 29

35 περίπτωση που δεν υπάρχουν σφάλματα και οι μεταβλητές x i πετυγχάνουν τον επακριβή προσδιορισμό της y, το R 2 είναι μονάδα. Η πολλαπλή γραμμική παλινδρόμης έχει πολλούς περιορισμούς, ανάμεσα στους οποίους είναι και ο περιορισμός στον αριθμό των μεταβλητών x i. Ο τελευταίος εξαρτάται από το πλήθος των περιπτώσεων του στατιστικού δείγματος. Στη διεθνή βιβλιογραφία αναφέρεται ως εμπειρικό μέτρο η ύπαρξη τουλάχιστον 15 περιπτώσεων για κάθε μεταβλητή x i. Αυτό πρακτικά σημαίνει πως στην περίπτωση που υπάρχουν πολλές ανεξάρτητες μεταβλητές, θα πρέπει με κάποιο τρόπο να επιλεχθούν αυτές που πραγματικά συνεισφέρουν στο μοντέλο. Επιλογή χαρακτηριστικών με βηματική παλινδρόμηση Το πρόβλημα της επιλογής των χαρακτηριστικών μπορεί να αντιμετωπιστεί με την επιλογή μιας αυτόματης μεθόδου επιλογής χαρακτηριστικών, όπως έχει αναφερθεί στο κεφάλαιο της προεπεξεργασίας δεδομένων (βλ επιλογή χαρακτηριστικών). Στη στατιστική παλινδρόμηση η επιλογή των μεταβλητών x i γίνεται συνήθως με έναν αλγόριθμο που λειτουργεί συνεργικά με την παλινδρόμηση για τον προσδιορισμό ενός υποσυνόλου χαρακτηριστικών (wrapper). Η συνολική μέθοδος που προκύπτει καλείται βηματική παλινδρόμηση (stepwise regression). Η μέθοδος της βηματικής παλινδρόμησης ξεκινά με ένα μοντέλο στο οποίο υπάρχει μόνο ένας σταθερός όρος c. Στη συνέχεια επιλέγεται εκείνη η μεταβλητή x i που παρουσιάζει τη μεγαλύτερη συσχέτιση (συντελεστής Pearson) με την y. Το μοντέλο επαναπροσδιορίζεται και υπολογίζεται η διαφορά στην τιμή του R 2, υπολογίζεται δηλαδή πόσο βελτιώθηκε η περιγραφή της διακύμανσης της y. Η διαδικασία επαναλαμβάνεται για τις υπόλοιπες μεταβλητές x i, με τον υπολογισμό όμως της μερικής συσχέτισης κάθε μιας από αυτές με την μεταβλητή y. Με τον τρόπο αυτό επιλέγεται κάθε φορά μια μεταβλητή που αναμένεται να συνεισφέρει στο μοντέλο, καθώς η μερική συσχέτιση ελαττώνεται όσο περισσότερο συσχετίζεται η υποψήφια μεταβλητή x με τις μεταβλητές που ήδη βρίσκονται στο μοντέλο. Η διαδικασία σταματά όταν η διαφορά στην τιμή του R 2 δεν είναι αρκετά σημαντική σύμφωνα με μια στατιστική δοκιμασία (συνήθως F-test) ή όταν όλες οι μεταβλητές x i εισέλθουν στο μοντέλο. Η βηματική παλινδρόμηση έχει δεχτεί έντονη κριτική από πολλούς ερευνητές, γιατί μπορεί να οδηγήσει εύκολα σε υπερεκπαίδευση (overfitting) του μοντέλου, το οποία δεν λειτουργεί ικανοποιητικά για νέα δεδομένα. Ωστόσο, εξακολουθεί να χρησιμοποιείται συχνά σε προβλήματα όπου ενδιαφέρει ο προσδιορισμός μεταβλητών που σχετίζονται υψηλά με μια εξαρτημένη μεταβλητή Λογιστική Παλινδρόμηση Η τεχνική αυτή αποτελεί μια μορφή παλινδρόμησης που εφαρμόζεται όταν η εξαρτημένη μεταβλητή δεν είναι συνεχής αλλά κατηγορική, δηλαδή Σελίδα 30

36 διακριτοποιημένη με κλιμάκωση της σημασίας των τιμών της. Έστω για παράδειγμα μια μεταβλητή y, η οποία λαμβάνει μόνο δύο τιμές, τις Α και Β με πιθανότητες p(a) και p(b). Ισχύει p(b) = 1 - p(a). Ως αναλογία των πιθανοτήτων (odds) της τιμής Α προς την τιμή Β ορίζεται το πηλίκο: pa ( ) pa ( ) 1 odds( A, B) = = = p( B) 1 p( A) odds( B, A) και εκφράζει πόσες φορές μεγαλύτερη ή μικρότερη είναι η πιθανότητα να λάβει η y την τιμή Α από το να λάβει την τιμή Β. Με τη λογιστική παλινδρόμηση επιχειρείται ο προσδιορισμός όχι της μεταβλητής y, αλλά του φυσικού λογαρίθμου της αναλογίας πιθανοτήτων της y, από τις τιμές ανεξάρτητων μεταβλητών x i, μέσω μιας γραμμικής εξίσωσης (μοντέλο λογιστικής παλινδρόμησης): pa ( ) pa ( ) ln[ odds( A, B)] = ln = ln = b 0 + b 1 x 1 + b 2 x b n x n ή pb ( ) 1 pa ( ) odds A B e e b 0 + b 1 x 1 + b 2 x b n x n (, ) b i x i = = i= o, n Όπως και στην γραμμική παλινδρόμηση, τα b i είναι οι συντελεστές των ανεξάρτητων μεταβλητών (b 0 η σταθερά της γραμμικής εξίσωσης), οι οποίοι είναι προσδιοριστέοι. Αν θεωρήσουμε πως μια εξαρτημένη μεταβλητή x i μπορεί να πάρει και αυτή δύο τιμές, έστω τις κ και λ, τότε μπορούμε να ορίσουμε την αναλογία των πιθανοτήτων της τιμής Α προς την τιμή Β, δεδομένου πως η x i λαμβάνει την τιμή κ ή λ: odds[( A, B) / x = κ ] = odds[( A, B) / x = λ] = i i pa ( / xi = κ ) pb ( / x= κ ) pa ( / xi = λ) pb ( / x= λ) i i Με τον τρόπο αυτό μπορούμε να ορίσουμε τέλος το λόγο των αναλογιών αυτών (odds ratio): oddsratio[( A, B) / ( x = κ, x = λ)] = i i oddsratio[( A, B) / xi = κ ] oddsratio[( A, B) / x = λ] i Σελίδα 31

37 Αποδεικνύεται πως για τους συντελεστές b i των μεταβλητών x i της εξίσωσης λογιστικής παλινδρόμησης ισχύει το εξής: b e i = oddsratio[( A, B) / ( x = κ, x = λ)] i Κατά συνέπεια, μπορούμε με τη λογιστική παλινδρόμηση να υπολογίσουμε το λόγο των αναλογιών των πιθανοτήτων Α προς Β για κάθε ανεξάρτητη μεταβλητή που συμμετέχει στο μοντέλο. Ο λόγος των αναλογιών των πιθανοτήτων Α προς Β για μία ανεξάρτητη μεταβλητή εκφράζει τον παράγοντα κατά τον οποίο μεταβάλλεται η αναλογία των πιθανοτήτων Α προς Β της εξαρτημένης μεταβλητής κατά τη μεταβολή μιας μονάδας της ανεξάρτητης μεταβλητής. Σε αντίθεση με την γραμμική παλινδρόμηση όπου χρησιμοποιείται η μέθοδος των ελαχίστων τετραγώνων, στη λογιστική παλινδρόμηση τα b i υπολογίζονται με τη μαθηματική μέθοδο της μεγίστης πιθανοφάνειας (maximum likelihood). Πιθανοφάνεια (likelihood) καλείται η πιθανότητα της πρόβλεψης της εξαρτημένης μεταβλητής από τις ανεξάρτητες. Στη μέθοδο της μεγίστης πιθανοφάνειας επιχειρείται η μεγιστοποίηση της λογαριθμικής πιθανοφάνειας (Log Likelihood) και από τη συνθήκη αυτή υπολογίζονται οι τιμές των b i. Η έννοια της πιθανοφάνειας χρησιμοποιείται και ως βάση για την αξιολόγηση του μοντέλου λογιστικής παλινδρόμησης. Ο λογάριθμος της πιθανοφάνειας (LL) κυμαίνεται από μείον άπειρο ως μηδέν και είναι ένα μέτρο του ποσοστού της εξαρτημένης μεταβλητής που δεν εξηγείται από το μοντέλο: όσο μεγαλύτερος είναι κατ απόλυτη τιμή, τόσο μεγαλύτερο ποσοστό της εξαρτημένης μεταβλητής παραμένει ανεξήγητο. Συνήθως χρησιμοποιείται το μέγεθος -2LL, το οποίο ειναι θετικός αριθμός, αλλά έχει και κατανομή χ 2 και κατ επέκταση να μπορεί να χρησιμοποιηθεί για τη στατιστική σημαντικότητα του μοντέλου. Από το μέγεθος - 2LL προκύπτουν ακόμη τα μέτρα Cox&Snell R 2 και Nagelkerke R 2, τα οποία αποτελούν μέτρα που προσομοιάζουν το R 2 της γραμμικής παλινδρόμησης. Η λογιστική παλινδρόμηση έχει σημαντικά λιγότερους περιορισμούς από την γραμμική παλινδρόμηση, παρόλα αυτά όμως το πρόβλημα της επιλογής των μεταβλητών x i παραμένει. Συνήθως εφαρμόζεται μια παραλλαγή της βηματικής παλινδρόμησης, όπου χρησιμοποιείται ένας μη παραμετρικός συσχέτισης αντί του συντελεστή του Pearson και η τιμή -2LL αντί της τιμής R 2 για την εκτίμηση του μοντέλου που προκύπτει. i Σελίδα 32

38 5. Τα δεδομένα και η προεπεξεργασία τους 5.1 Συνοπτική περιγραφή των δεδομένων Τα διαθέσιμα δεδομένα αποτελούν ότι πολυτιμότερο για κάθε περαιτέρω επεξεργασία καθώς τα αποτελέσματα οποιαδήποτες τεχνικής επεξεργασίας, στατιστικής ή εξόρυξης δεδομένων, εξαρτώνται κατά κύριο λόγο από αυτά. Κατ επέκταση κάθε γνώση που θα ανακαλυφθεί εξαρτάται πρωτίστως από τα δεδομένα. Τα δεδομένα που είχαμε στη διάθεση μας ελήφθησαν συνολικά από 63 ενήλικες ηλικίας ετών (μέση ηλικία 44). Οι 25 απ αυτούς είναι υπερτασικοί (μέση ηλικία 43) ενώ οι υπόλοιποι 38 είναι νορμοτασικοί (μέση ηλικία 44). Για καθένα από τους 63 συμμετέχοντες καταγράφηκαν συνολικά 82 χαρακτηριστικά, τα οποία μπορούν να ενταχθούν στις εξής κατηγορίες: 1. ΙΜΤ 2. σωματομετρικές παράμετροι 3. συστολική και διαστολική αρτηριακή πίεση 4. αιματολογικές και βιοχημικές εξετάσεις 5. διατητικές συνήθειες και κάπνισμα 6. ατομικό ιστορικό και φαρμακευτική αγωγή 7. οικογενειακό ιστορικό 8. επίπεδο μόρφωσης 9. περιοχή διαμονής Μια πρώτη παρατήρηση είναι πως τα 82 χαρακτηριστικά είναι δυσανάλογα πολλά σε σχέση με το πλήθος των εγγραφών (63). Για το σκοπό αυτό πρέπει να γίνει προεπεξεργασία για την ελάττωση του αριθμού των χαρακτηριστικών. Όπως έχει ήδη αναφερθεί στο γενικό κομμάτι της διπλωματικής, κάτι τέτοιο μπορεί να γίνει αρχικά από τον ειδικό και έπειτα μπορούν να εφαρμοστούν αυτόματες τεχνικές επιλογής χαρακτηριστικών. Από μια απλή επισκόπηση των δεδομένων, σε πρώτη φάση παρατηρήθηκε πως 17 από τα χαρακτηριστικά δεν προσφέρουν καμιά χρήσιμη πληροφορία για επεξεργασία, καθώς έχουν σταθερές τιμές ή με άλλα λόγια μηδενική διακύμανση. Τα χαρακτηριστικά αυτά λοιπόν αποκλείστηκαν εξ αρχής από το σύνολο των δεδομένων. Είναι ωστόσο χρήσιμο να σημειωθεί πως η πλειοψηφία τους (όλα εκτός του χαρακτηριστικού «συνταξιοδότηση») εντάσσεται στις πληροφορίες ιατρικού ιστορικού. Στους πίνακες που παρατίθενται στη συνέχεια φαίνονται τα 17 χαρακτηριστικά που αποκλείστηκαν (Πίνακας 5.1), όπως επίσης και τα βασικότερα από τα 65 εναπομείναντα χαρακτηριστικά με μια σύντομη στατιστική (Πίνακας 5.2). Σελίδα 33

39 Νο Χαρακτηριστικό Τιμή 1 Συνταξιοδότηση ΟΧΙ 2 Στηθάγχη ΟΧΙ 3 Οξύ Έμφραγμα Μυοκαρδίου ΟΧΙ 4 Δοκιμασία κόπωσης ΑΡΝΗΤΙΚΗ 5 Αγγειοπλαστική ΟΧΙ 6 Bypass ΟΧΙ 7 Στεφανιαία νόσος ΟΧΙ 8 Αριθμός στεφανιαίων αγγείων με βλάβη 0 9 Αντιυπερτασική αγωγή ΟΧΙ 10 Τύπος αντιυπερτασικής αγωγής - 11 Αγγειακό Εγκεφαλικό Επεισόδιο ΟΧΙ 12 Περιφερική αγγειοπάθεια ΟΧΙ 13 Νόσος Καρωτίδων ΟΧΙ 14 Καρδιοθωρακικός Δείκτης >0.5* ΟΧΙ 15 Αντιδιαβητική αγωγή ΟΧΙ 16 Διάρκεια αντιδιαβητικής αγωγής - 17 Τύπος αντιδιαβητικής αγωγής - Πίνακας 5.1: Τα 17 χαρακτηριστικά που αποκλείστηκαν λόγω απουσίας χρήσιμης πληροφορίας. (* αυξημένος καρδιοθωρακικός δείκτης υποδηλώνει καρδιακή διάταση) Χαρακτηριστικό Mean±SD / Frequency Φυσιολογικές τιμές Kolmogorov Smirnov Ηλικία 44± Άρρεν φύλο 54 (85.7%) - - Μόρφωση - Λύκειο 10 (15.9)% - Ανώτερη Σχολή 4 (6.3%) - Πανεπιστήμιο 46 (73.0%) - Μεταπτυχιακό 3 (4.8%) - Περιοχή κατοικίας - Ημιαστική 5 (7.9%) - Αστική 58 (92.1%) - Δίαιτα (οποιαδήποτε) 21 (33.3%) - - Σελίδα 34

40 Καπνιστές 23 (36.5%) - - Παλαιοί καπνιστές 38 (60.3%) - - Δείκτης Μάζας Σώματος 28.1±3.7 kg/m kg/m * Συστολική πίεση 131±18 mmhg < 140mmHg <0.001* Διαστολική πίεση 80±12 mmhg < 90mmHg <0.001* Υπέρταση 25 (39.7%) - - Θεραπεία 0 (0.0%) - LDL 129±31 mg/dl 130mg/dL HDL 50±11 mg/dl > 40mg/dL Τριγλυκερίδια 135±47 mg/dl 150mg/dL Θεραπεία για υπερλιπιδαιμία 2 (3.2%) - - Ht A 42 52% 0.003* 45±2 % Θ 37 48% HBA1C 4.9±0.6 % < 7% 0.036* Γλυκόζη 95±10 mg/dl 110mg/dL 0.001* TKE Α 13mm/hr 0.013* 8.5±6 mm/hr Θ 20mm/hr Ουρικό οξύ A 7mg/dL ±1 mg/dl Θ 6mg/dL ΙΜΤ (mm) 0.79±0.28 mm 0.7mm <0.001* Πίνακας 5.2: Στατιστική περιγραφή των βασικότερων χαρακτηριστικών των δεδομένων. (* στατιστικά σημαντική διαφορά από κανονικη κατανομή) Στη στήλη Kolmogorov Smirnov φαίνεται η στατιστική σημασία (πιθανότητα) της ομώνυμης δοκιμασίας. Η δοκιμασία Kolmogorov Smirnov είναι μια δοκιμασία κανονικότητας που εφαρμόζεται σε αριθμητικά χαρακτηριστικά και δίνει μια εκτίμηση του πόσο οι κατανομές των χαρακτηριστικών αυτών απέχουν από την κανονική κατανομή. Τιμές μικρότερες του 0.05 θεωρούνται θετικές για τη δοκιμασία, δηλαδή η κατανομή του υπό εξέταση χαρακτηριστικού διαφέρει σημαντικά από την κανονική κατανομή. Το γεγονός ότι μια κατανομή διαφέρει από την κανονική έχει μεγάλη σημασία όσον αφορά τη στατιστική επεξεργασία, καθώς αν δεν πρόκειται για θόρυβο στα δεδομένα και η κατανομή είναι όντως μη κανονική, τότε θα πρέπει να επιλεγούν οι κατάλληλες στατιστικές τεχνικές. Βάσει των παραπάνω πινάκων προκύπτουν μπορούμε να εξαχθούν κάποια πρώτα συμπεράσματα για το σύνολο των δεδομένων μας, κάτι το οποίο γίνεται στη συνέχεια. Σελίδα 35

41 5.2 Συμπεράσματα από τα δεδομένα και περιορισμοί Αποτελεί ζήτημα πρωταρχικής σημασίας για κάθε μελέτη να καθοριστεί με όσο το δυνατόν μεγαλύτερη σαφήνεια ο πληθυσμός από τον οποίο προέρχονται τα δεδομένα, διότι σ αυτόν θα αναχθούν τελικά τα αποτελέσματα. Παράλληλα θα πρέπει σε γενικές γραμμές να είναι γνωστή η διακύμανση των τιμών των χαρακτηριστικών. Διαφορετικά, μπορεί κανείς να οδηγηθεί από τη μια σε εσφαλμένες γενικεύσεις και από την άλλη σε εσφαλμένα αποτελέσματα, εφόσον η επιιλογή της προεπεξεργασίας των δεδομένων αλλά και των αλγορίθμων εξαρτώνται εν μέρει από τα δεδομένα. Από τους πίνακες της προηγούμενης ενότητας προκύπτει πως οι περιπτώσεις που έχουμε στη διάθεση μας αφορούν έναν κατά κανόνα υγιή πληθυσμό εργαζόμενων ενηλίκων ετών, με την εξαίρεση κυρίως των υπερτασικών. Από το ατομικό αναμνηστικό προκύπτει πως σε καμία περίπτωση δεν υπάρχει ιστορικό καρδιαγγειακής νόσου (ΟΕΜ, Στηθάγχη, ΑΕΕ, Καρωτιδική Νόσος, Περιφερική αγγειοπάθεια). Από τις άλλες νόσους, υπάρχει μόνο μια περίπτωση Σακχαρώδους Διαβήτη, η οποία όμως δεν αντιμετωπίζεται φαρμακευτικά. Επίσης οι μετρήσεις έγιναν προτού οι υπερτασικοί ξεκινήσουν φαρμακευτική αγωγή (Πίνακας 5.3). Το μοναδικά φάρμακο που λαμβάνονται αφορούν δύο περιπτώσεις με υπερχοληστερολαιμία (Lipitor και Maxudin). Διαγνωσμένα Νοσήματα Αριθμός περιπτώσεων Αριθμός περιπτώσεων υπό αγωγή Αρτηριακή Υπέρταση 25 0 Σακχαρώδης Διαβήτης 1 0 Υπερχοληστερολαιμία 2 2 Πίνακας 5.3: Νοσήματα του δείγματος και φαρμακευτική αγωγή. Οι μέσες τιμές των αιματολογικών και βιοχημικών εξετάσεων είναι επίσης κατά κανόνα εντός των φυσιολογικών ορίων. Εντούτοις, από τις τυπικές αποκλίσεις φαίνεται πως υπάρχουν αρκετές περιπτώσεις εκτός φυσιολογικών ορίων. Μια σημαντική απόκλιση από το φυσιολογικό εμφανίζεται στις τιμές των Τριγλυκεριδίων και της LDL Χοληστερόλης, των οποίων η μεγάλη τυπική απόκλιση υποδηλώνει την ύπαρξη αρκετών περιπτώσεων εκτός των φυσιολογικών ορίων. Από τα υπόλοιπα χαρακτηριστικά ενδιαφέρον παρουσιάζουν οι τιμές του Δείκτη Βάρος Σώματος, των οποίων η μέση τιμή είναι υψηλότερη των φυσιολογικών ορίων, πράγμα που σημαίνει πως υπάρχουν αρκετοί υπέρβαροι. Επίσης, η Συστολική και Διαστολική Αρτηριακή Πίεση έχουν μέσες τιμές εντός των φυσιολογικών ορίων, αλλά οι τυπικές αποκλίσεις τους και πάλι υποδηλώνουν πως υπάρχουν αρκετές περιπτώσεις με αυξημένες τιμές. Σελίδα 36

42 Παρόλη τη σχετικά καλή κατάσταση υγείας των συμμετεχόντων, το ΙΜΤ, το οποίο και εκφράζει τις αθηροσκληρωτικές βλάβες, εμφανίζει μέση τιμή υψηλότερη του φυσιολογικού και αυτό φυσικά αποτελεί και το κίνητρο της μελέτης. Να τονίσουμε και πάλι πως στις περιπτώσεις αυξημένου ΙΜΤ δεν έχει διαγνωστεί νόσος των καρωτίδων, ούτε αγγειακό εγκεφαλικό επεισόδιο. Αν θα θέλαμε να συνοψίσουμε, θα μπορούσαμε να πούμε πως έχουμε ένα σύνολο περιπτώσεων ώριμων ενηλίκων που δεν εμφανίζουν Νόσο Καρωτίδων ή άλλη αθηροσκληρωτική νόσο, ένα σημαντικο ποσοστό αυτών όμως εμφανίζει σχετικά αυξημένο ΙΜΤ. Ως κύριος επιβαρυντικός παράγοντας εμφανίζεται η υπέρταση, ωστόσο και άλλοι παράγοντες φαίνεται πως είναι οριακά αυξημένοι. Στόχος μας είναι να εξακριβώσουμε με βάση τη μεθοδολογία της ανακάλυψης γνώσης ποιοι από τους παράγοντες αυτούς και σε ποιο βαθμό σχετίζονται με την αύξηση του ΙΜΤ. Ένα από τα ιδιαίτερα ενδιαφέροντα σημεία της μελέτης είναι πως εστιάζει στην εύρεση των παραγόντων που σχετίζονται με την πρώιμη αύξηση του ΙΜΤ, προτού δηλαδή αυτό οδηγήσει σε συμπτωματική νόσο. Αυτό συνεπάγεται όπως είδαμε,πως οι τιμές των υπό εξέταση χαρακτηριστικών βρίσκονται αρκετά κοντά στα φυσιολογικά επίπεδα. Αυτό με τη σειρά του σημαίνει πως από πλευράς προεπεξεργασίας των δεδομένων πρέπει να δοθεί ιδαίτερη βάση στη διακριτοποίηση, ώστε να μη χαθεί πληροφορία που βρίσκεται στα φυσιολογικά όρια των χαρακτηριστικών. Ο κύριος περιορισμός στην προσπάθεια για επίτευξη του στόχου μας αποτελεί το μικρό σύνολο των δεδομένων. Υπάρχουν διάφορες τεχνικές για τη βέλτιστη χρήση μικρών συνόλων δεδομένων, τελικά όμως θα πρέπει να παραδεχτούμε πως τα μοντέλα που θα προκύψουν θα έχουν σύμφυτο ένα σημαντικό βαθμό αβεβαιότητας. Από τις δοκιμασίες κανονικότητας προκύπτει επίσης πως αρκετές μεταβλητές, συμπεριλαμβανομένου και του ΙΜΤ, αποκλίνουν από την κανονική κατανομή. Εν κατακλείδι όμως, κάθε έρευνα που στηρίζεται στην επεξεργασία δεδομένων, ακόμα κι αν διεξάγεται με ελάχιστους περιορισμούς δεδομένων, προσφέρει μάλλον ενδείξεις και όχι αποδείξεις. 5.3 Επιλογή χαρακτηριστικών Από τεχνική σκοπιά, βασικό κομμάτι της προεπεξεργασίας των δεδομένων μας αποτέλεσε η ελάττωση των χαρακτηριστικών. Από τα αρχικά 82 χαρακτηριστικά με τον απλό αποκλεισμό που περιγράφηκε παραπάνω φτάσαμε στα 65. Ωστόσο, για την εφαρμογή των στατιστικών τεχνικών αλλά και των τεχνικών εξόρυξης δεδομένων, ιδιαίτερα μάλιστα για την εξαγωγή κανόνων, τα χαρακτηριστικά είναι ακόμη πολλά. Βάσει των όσων είπαμε στο γενικό μέρος της διπλωματικής, η επιλογή των χαρακτηριστικών θα πρέπει να γίνει είτε από τον ειδικό, είτε με αυτόματες μεθόδους. Αν και η επιλογή από τον ειδικό είναι προτιμότερη, στη δική μας περίπτωση της διερεύνησης των προδιαθεσικών Σελίδα 37

43 παραγόντων της αθηροσκλήρωσης, κάτι τέτοιο είναι ουσιαστικά το ζητούμενο. Έτσι λοιπόν η επιλογή των χαρακτηριστικών αποκτά μεγαλύτερη σημασία από τη σκοπιά της ιατρικής, καθώς ενώ αποτελεί τμήμα της προεπεξεργασίας, θα μπορέσει πιθανώς να δώσει και χρήσιμη πληροφορία για το ποια χαρακτηριστικά σχετίζονται περισσότερο με το υψηλό ΙΜΤ Χρήση του συντελεστή συσχέτισης Ο πιο απλός τρόπος για να επιλεχθούν χαρακτηριστικά είναι, όπως έχει λεχθεί, η εφαρμογή ενός απλού φίλτρου το οποίο βάσει ένος μέτρου βαθμολογεί ανεξάρτητα σχέση κάθε χαρακτηριστικού με τη μεταβλητή εξόδου. Το πιο συνηθισμένο τέτοιο μέτρο είναι ο συντελεστής συσχέτισης. Στην περίπτωση μας που όπως είδαμε η κατανομή του ΙΜΤ εμφανίζεται μη κανονική, επιλέχθηκε ο μη παραμετρικός συντελεστής συσχέτισης του Spearman. Με τον συντελεστή αυτό μπορεί επίσης να υπολογιστεί η συσχέτιση διακριτοποιημένων ή κατηγοριοποιημένων μεταβλητών, κάτι το οποίο δεν γίνεται με το συντελεστή συσχέτισης του Pearson. No Χαρακτηριστικο Συντελεστής συσχέτισης p Είδος μεταβλητής 1 Συστολική Πίεση Συνεχής 2 Διαστολική Πίεση Συνεχής 3 Υπέρταση Διακριτή 4 Επίπεδο Μόρφωσης Διακριτή 5 ΔΜΣ Συνεχής 6 TKE Συνεχής 7 Τριγλυκερίδια Συνεχής 8 Βάρος Συνεχής 9 Γλυκόζη Συνεχής 10 HBA1C Συνεχής 11 Περιφέρεια Μέσης Συνεχής 12 Ολική Χοληστερόλη Συνεχής 13 LDL Συνεχής 14 Ουρικό οξύ Συνεχής 15 SGOT Συνεχής 16 HDL Συνεχής 17 Φύλο Διακριτή Χρόνια διαμονής 18 στην παρούσα Συνεχής κατοικία Σημαντικότητα P<0.001 p<0.01 p<0.05 Πίνακας 5.4: Τα χαρακτηριστικά με τον υψηλότερο συντελεστή συσχέτισης με το ΙΜΤ. (συνολικό δείγμα, n=63) Παραπάνω (Πίνακας 5.4) φαίνονται τα χαρακτηριστικά που εμφανίζουν τον υψηλότερο συντελεστή συσχέτισης με το ΙΜΤ. Τα χαρακτηριστικά είναι Σελίδα 38

44 ταξινομημένα κατ απόλυτη τιμή του συντελεστή διότι αρνητική τιμή σημαίνει απλά αρνητική συσχέτιση, όπως π.χ. στην περίπτωση της HDL. Σε μια στήλη φαίνεται και η τιμή p που αποτελεί το αποτέλεσμα της δοκιμασίας στατιστικής σημαντικότητας. Τιμές μικρότερες από 0.05 θεωρούνται σημαντικές, θεωρείται δηλαδή πως η συσχέτιση δεν είναι τυχαία. Ο προηγούμενος πίνακας είναι πολύ σημαντικός γιατί μας δίνει μια πρώτη εικόνα των χαρακτηριστικών που μας ενδιαφέρουν. Από τα 65 χαρακτηριστικά φαίνεται πως λιγότερα από 20 εμφανίζουν σημαντική συσχέτιση με το ΙΜΤ. Ο συντελεστής συσχέτισης μας δίνει και μια άλλη πληροφορία: αν υψωθεί στο τετράγωνο, μας δίνει μια εκτίμηση του ποσοστού της διακύμανσης του ΙΜΤ που εξηγείται από το εκάστοτε χαρακτηριστικό. Για παράδειγμα, για τη Συστολική Πίεση προκύπτει πως αυτή μόνη της εξηγεί περίπου το 56% της διακύμανσης του ΙΜΤ. Παρουσιάζει εξαιρετικό ενδιαφέρον, κοιτάζοντας κανείς τα χαρακτηριστικά που έχουν υψηλή συσχέτιση με το ΙΜΤ, να αναζητήσει τη διακύμανση των τιμών τους στα δεδομένα μας. Μεταβλητές όπως η Γλυκόζη και η ΗΒΑ1C, η ΤΚΕ και το Ουρικό οξύ που φαίνεται πως σχετίζονται σε υψηλό βαθμό με το ΙΜΤ, παρουσιάζουν διακύμανση των τιμών τους που ελάχιστα ξεπερνά τα φυσιολογικά όρια. Και όμως, ο υψηλός συντελεστής συσχέτισης μας λέει πως όσο αυξάνουν, παραμένοντας εντός φυσιολογικών ορίων, αυξάνει και το ΙΜΤ, το οποίο όπως έχει λεχθεί ξεπερνά σε αρκετά μεγάλο ποσοστό τη φυσιολογική του τιμή (Εικόνα 5.1) r = 0.405, p < Frequency 9 6 Frequency HBA1C imt_mm Εικόνα 5.1: Παράδειγμα συσχέτισης. Όσο αυξάνεται η HBA1C αυξάνεται και το ΙΜΤ, παρόλο που η HBA1C παραμένει εντός φυσιολογικών ορίων. Σελίδα 39

45 5.3.2 Χρήση μεθόδου επιλογής υποσυνόλου χαρακτηριστικών Ο συντελεστής συσχέτισης μας δίνει πάρα πολλές πληροφορίες, ωστόσο έχει δύο μειονεκτήματα: δε μας λέει τίποτα για τη συσχέτιση που εμφανίζουν τα χαρακτηριστικά μεταξύ τους και δε μας λέει πόσα χαρακτηριστικά να χρησιμοποιήσουμε για την εφαρμογή των αλγορίθμων. Για το λόγο αυτό θα χρησιμοποιήσουμε ένα φίλτρο, το οποίο δρα κι αυτό ανεξάρτητα από τους κυρίως αλγορίθμους και υλοποιεί μια αυτόματη μέθοδο επιλογής υποσυνόλου χαρακτηριστικών βασισμένη στη συσχέτιση (correlation based feature selection) (Πίνακας 5.5). Η μέθοδος αυτή χρησιμοποιεί τον αλγόριθμο Best First για την αναζήτηση στο χώρο των υποσυνόλων και έναν συνολικό συντελεστή συσχέτισης υποσυνόλου μεταβλητής εξόδου, όπως αυτός περιγράφηκε στην ενότητα της επιλογής χαρακτηριστικών του γενικού μέρους. Σημειώνουμε επίσης πως η μεταβλητή εξόδου, δηλαδή το ΙΜΤ, διακριτοποιήθηκε σε Υψηλό (>0.7mm) / Χαμηλό ( 0.7) ΙΜΤ. Αυτό έγινε με το σκεπτικό πως οι αλγόριθμοι που θα χρησιμοποιήσουν στη συνέχεια τα επιλεγμένα χαρακτηριστικά θα χρειαστούν τη διακριτοποίηση της μεταβλητής εξόδου για την εφαρμογή τους. Από ιατρική σκοπιά, η γνώση που προκύπτει με τον τρόπο αυτό γίνεται πιο εύκολα κατανοητή. Correlation-based Feature Selection (CFS) Επιλογής υποσυνόλου Είδος αλγορίθμου χαρακτηριστικών Μέθοδος αναζήτησης υποσυνόλων Μέτρο εκτίμησης υποσυνόλων Σύνολο χαρακτηριστικών εισόδου Μεταβλητή εξόδου Bist First Συνολικός συντελεστής συσχέτισης υποσυνόλου μεταβλητής εξόδου 65 Υψηλό / Χαμηλό ΙΜΤ Πίνακας 5.5: Παραμετροποίηση της αυτόματης επιλογής χαρακτηριστικών. Η μέθοδος επέλεξε ένα υποσύνολο με 13 χαρακτηριστικά τα οποία φαίνονται παρακάτω (Πίνακας 5.6): Νο Χαρακτηριστικό Είδος μεταβλητής 1 Συστολική πίεση Συνεχής 2 Διαστολική πίεση Συνεχής 3 Υπερτασικός Διακριτή Σελίδα 40

46 4 Δείκτης μάζας σώματος (ΒΜΙ) Συνεχής 5 HDL ορού Συνεχής 6 Τριγλυκερίδια ορού Συνεχής 7 Ουρικό οξύ ορού Συνεχής 8 Γλυκόζη ορού Συνεχής 9 HBA1C ορού Συνεχής 10 Φορές αλκοόλ την εβδομάδα Διακριτή 11 Αριθμός τσιγάρων / ημέρα Διακριτή 12 Αριθμός καπνιστών στη δουλειά Διακριτή 13 Αποφυγή γαλακτομικών Διακριτή Πίνακας 5.6: Τα 13 χαρακτηριστικά που επιλέχθηκαν από τη μέθοδο CSF. Παρατηρούμε πως τα 9 πρώτα χαρακτηριστικά συμπεριλαμβάνονται στα χαρακτηριστικά που βρέθηκαν πως εμφανίζουν στατιστικά σημαντική συσχέτιση με το ΙΜΤ. Ωστόσο, υπάρχουν και 4 χαρακτηριστικά (Φορές αλκοόλ την εβδομάδα, Αποφυγή γαλακτομικών, Αριθμός τσιγάρων/ημέρα, Αριθμός καπνιστών στη δουλειά) που εμφανίζουν μεν στατιστική συσχέτιση με το ΙΜΤ αλλά αυτή δεν είναι δεν υψηλή. Παρατηρούμε επίσης, πως ενώ αποκλείστηκαν ορισμένα χαρακτηριστικά τα οποία είναι γνωστό πως συσχετίζονται υψηλά με κάποια άλλα που επιλέχθηκαν, (π.χ. επιλέχθηκε μόνο η HDL χοληστερόλη, και αποκλείστηκε η LDL, γιατί η δεύτερη συσχετίζεται υψηλά με την πρώτη), κάποια άλλα (όπως η Συστολική, Διαστολική Πίεση και Υπέρταση) επιλέχθηκαν όλα μαζί (Γλυκόζη και HBA1C δεν εμφανίζουν σημαντική συσχέτιση). Κατά συνέπεια, οι προηγούμενες παρατηρήσεις οφείλουν να διερευνηθούν. Τα χαρακτηριστικά που επιλέγονται εξαρτώνται από τη μέθοδο που χρησιμοποιούμε. Υπάρχουν μέθοδοι που επιλέγουν χαρακτηριστικά τα οποία μπορεί να εμφανίζουν μικρή συσχέτιση με την μεταβλητή εξόδου αλλά δρουν συνεργικά με τα υψηλά συσχετιζόμενα χαρακτηριστικά για να προβλέψουν την έξοδο. Κάτι τέτοιο είναι επιθυμητό για την ανάπτυξη μοντέλων πρόβλεψης και ταξινόμησης που πετυγχάνουν μικρά σφάλματα, ωστόσο συνήθως δεν είναι χρήσιμο από πλευράς κατανόησης του προβλήματος που διερευνάται. Από τις τέσσερις μεταβλητές που επιλέχθηκαν ενώ δεν εμφανίζουν υψηλή συσχέτιση με το ΙΜΤ, δύο εμφανίζουν σημαντική δοκιμασία χ2, γεγονός που σημαίνει πως υπάρχει σημαντική διαφορά κατανομής ως προς Χαμηλό/Υψηλό ΙΜΤ. Για το χαρακτηριστικό Αποφυγή γαλακτομικών δεν ισχύει κάτι τέτοιο, οπότε τελικά θα μείνει εκτός των επιλεγμένων χαρακτηριστικών (Πίνακας 5.7). Σελίδα 41

47 Χαρακτηριστικό Spearman Επιλογή Chi Square (συσχέτιση με ΙΜΤ) Αριθμός καπνιστών στη ΝΑΙ δουλειά Αριθμός τσιγάρων τη ΝΑΙ μέρα Αλκοόλ την εβδομάδα ΝΑΙ Αποφυγή γαλακτομικών ΟΧΙ Πίνακας 5.7: Διερεύνηση στατιστικής σημαντικότητας των 4 χαρακτηριστικών που δεν εμφανίζουν υψηλή συσχέτιση με το ΙΜΤ. 5.4 Διακριτοποίηση Διακριτοποίηση φυσιολογικών ορίων (βάσει ιατρικής γνώσης) Η διακριτοποίηση των 12 χαρακτηριστικών που επιλέχθηκαν έγινε κατ αρχήν με βάση την ιατρική γνώση, για όσα από τα χαρακτηριστικά υπάρχουν όρια φυσιολογικών και παθολογικών τιμών. Για τα υπόλοιπα χαρακτηριστικά, όπως π.χ. για τον ημερήσιο αριθμό των τσιγάρων, επιλέχθηκε μια συμβατική διακριτοποίηση. Στη συνέχεια φαίνονται τα διακριτοποιημένα χαρακτηριστικά (Πίνακας 5.8). No Μεταβλητή Διακριτοποίηση Δείκτης μάζας σώματος Αριθμός τσιγάρων / ημέρα Αριθμός καπνιστών στη δουλειά 4 Τριγλυκερίδια 5 HDL 6 Γλυκόζη Normal Overweight Obese Non smoker Up to 10 Up to 20 More than 20 No smokers Up to 3 More than 3 Normal High Normal Low Normal High Όρια τιμών > > > >150 > >110 Σελίδα 42

48 7 Υπερτασικός 8 Συστολική πίεση 9 10 Διαστολική πίεση Φορές αλκοόλ την εβδομάδα 11 Ουρικό οξύ 12 HBA1C Yes No Optimal SBP Normal SBP SBP Prehypertension SBP Hypertension stage 1 SBP Hypertension stage 2 or 3 Optimal DBP Normal DBP DBP Prehypertension DBP Hypertension stage 1 DBP Hypertension stage 2 or 3 Non drinker Occasionally Once a week Twice or more a week Για τους άνδρες Normal High Για τις γυναίκες Normal High < < > 7 6 > 6 6* > 6 Πίνακας 5.8: Διακριτοποίηση φυσιολογιών ορίων με βάση ιατρική γνώση. ( * φυσιολογικό όριο θεωρείται ως επί το πλείστον το 7, αλλά όλες οι τιμές είναι μικρότερες αυτού) Επιλεκτική αυτόματη διακριτοποίηση Στη συνοπτική περιγραφή των δεδομένων σημειώθηκε πως αρκετά από τα χαρακτηριστικά παρουσιάζουν μια τάση προς φυσιολογικές τιμές και μάλιστα ορισμένα από αυτά εμφανίζουν υψηλή συσχέτιση και κατά συνέπεια επιλέχθηκαν από τις μεθόδους επιλογής χαρακτηριστικών. Από την πλευρά της διακριτοποίησης, το γεγονός αυτο υποδηλώνει την ανάγκη επιλεκτικής διακριτοποίησης των χαρακτηριστικών αυτών, ώστε αυτά να μπορούν να αξιοποιηθούν από τους αλγορίθμους στη συνέχεια. Τα υπόλοιπα χαρακτηριστικά παραμένουν όπως διακριτοποιήθηκαν προηγουμένως. Από το υποσύνολο των χαρακτηριστικών που επιλέχθηκε, εκείνα που χρήζουν περαιτέρω διακριτοποίησης είναι η Γλυκόζη, η HBA1C και το Ουρικό οξύ. Σελίδα 43

49 Χαρακτηριστικό Γλυκόζη Διακριτοποίηση φυσιολογικών ορίων Διακριτοποίηση χωρίς επίβλεψη Διακριτοποίηση με επίβλεψη Ομάδες Πλήθος Ομάδες Πλήθος Ομάδες Πλήθος ( ] 22 >110 5 > > HBA1C 6 > ( ] > > Ουρικό οξύ 7* >7* ( ] > > ΤΚΕ 13** >13** ( ] > >0 63 Πίνακας 5.8: Επιλεκτική αυτόματη διακριτοποίηση. (* το όριο είναι 6 για τις γυναίκες) (** το όριο είναι 20 για τις γυναίκες) Στον παραπάνω πίνακα (Πίνακας 5.8) φαίνονται δύο διαφορετικές αυτόματες διακριτοποίησεις. Η πρώτη είναι χωρίς επίβλεψη και συγκεκριμένα με διαχωρισμό σε διαστήματα ίσης συχνότητας. Η δεύτερη είναι με επίβλεψη και συγκεκριμένα με τη μέθοδο της εντροπίας και με κριτήριο τερματισμού την αρχή Ελαχίστου Μήκους Περιγραφής (MDL). Και οι δύο μέθοδοι περιγράφτηκαν στο γενικό μέρος της διπλωματικής (βλ. 3.4, Διακριτοποίηση). Για τη μέθοδο χωρίς επίβλεψη επιλέχθηκε ο διαχωρισμός σε 3 διαστήματα. Στη μέθοδο της εντροπίας επιλέγεται αυτόματα ο αριθμός των διαστημάτων, έτσι ώστε να επιτυγχάνεται ο καλύτερος διαχωρισμός της κλάσεως μεταβλητής εξόδου (ΙΜΤ). Τέλος να σημειώσουμε πως στα χαρακτηριστικά που διακριτοποιήθηκαν συμπεριλήφθηκε η ΤΚΕ παρόλο που δεν επιλέχθηκε από τη μέθοδο επιλογής. Σελίδα 44

50 6. Αποτελέσματα Εδώ παραθέτουμε όλα τα αποτελέσματα των τεχνικών που χρησιμοποιήθηκαν και το σχολιασμό τους. Σημειώνουμε πως: Για την σχηματική απεικόνιση των αποτελεσμάτων χρησιμοποιούνται δένδρα, πίνακες ή γράφοι. Η συντριπτική πλειοψηφία των χαρακτηριστικών προέρχονται απ αυτά που ήδη έχουν αναφερθεί στους πίνακες επιλογής χαρακτηριστικών. Στις περισσότερες σχηματικές αναπαραστάσεις, το όνομα του χαρακτηριστικού έχει συντομευθεί ή αναγράφεται στην αγγλική. Δίνονται εξηγήσεις κατά περίπτωση. 6.1 Δένδρα απόφασης Με την τεχνική αυτή δημιουργείται ιεραρχικά ένα δένδρο, με το οποίο επιχειρείται ο πλήρης διαχωρισμός των περιπτώσεων σε Χαμηλό και Υψηλό ΙΜΤ. Σε κάθε κόμβο του δένδρου επιλέγεται το χαρακτηριστικό που επιτυγχάνει τον καλύτερο διαχωρισμό των δεδομένων και η διαδικασία συνεχίζεται μέχρις ότου γίνει πλήρης διαχωρισμός ή ο διαχωρισμός δεν μπορεί να συνεχιστεί άλλο. Ο αλγόριθμος C4.5 που χρησιμοποιήθηκε επιτρέπει τη χρήση διακριτών αλλά και συνεχών μεταβλητών, τις οποίες διακριτοποιεί αυτόματα. Το γεγονός αυτό, σε συνδυασμό με την εξαιρετικά απλή απεικόνιση των αποτελεσμάτων, επέτρεψε την εκτέλεση του αλγορίθμου με διαφορετικές παραμέτρους, ώστε να γίνει σύγκριση των αποτελεσμάτων. Τα φύλλα του δένδρου απεικονίζονται με ορθογώνια και αντιστοιχούν σε Χαμηλό ή Υψηλό ΙΜΤ. Σε παρένθεση φαίνεται ο αριθμός των περιπτώσεων που ταξινομήθηκαν, καθώς και ο αριθμός των περιπτώσεων που ταξινομήθηκαν λάθος, όπου αυτές υπάρχουν. Για παράδειγμα, στο πρώτο δένδρο οι περιπτώσεις που έχουν Συστολική Πίεση μεγαλύτερη από 130mmHg, ταξινομούνται ως Υψηλού ΙΜΤ. Οι περιπτώσεις αυτές είναι 24, από τις οποίες 1 είναι Χαμηλού ΙΜΤ (λάθος ταξινόμηση). Για την αξιολόγηση των δένδρων μπορεί να χρησιμοποιηθεί ως κριτήριο το ποσοστών των σωστών ταξινομήσεων. Κάτι τέτοιο όμως είναι επισφαλές, καθώς δεν υπάρχουν νέα δεδομένα για έλεγχο. Κατά συνέπεια χρησιμοποιείται μια τεχνική αξιολόγησης, με την οποία τα δεδομένα χωρίζονται διαδοχικά σε δεδομένα εκπαίδευσης και δεδομένα ελέγχου. Τα δεύτερα χρησιμοποιούνται για την αξιολόγηση του δένδρου που παράγεται από τα πρώτα με το δείκτη αριθμός σωστών / αριθμός εσφαλμένων ταξινομήσεων. Η τελική αξιολόγηση γίνεται με το μέσο όρο των δεικτών αυτών. Η τεχνική αυτή λέγεται 10-Fold Cross Validation (επειδή η διαδικασία αυτή γίνεται 10 φορές). Σελίδα 45

51 Στη συνέχεια, μετά κάποιες επεξηγήσεις για τα ονόματα των χαρακτηριστικών που εμφανίζονται στα δένδρα (Πίνακας 6.1), παρατίθενται τα δένδρα που προέκυψαν σε όλες τις εκτελέσεις με τις διαφορετικές παραμέτρους. Το κάθε δένδρο αξιολογείται βάσει της μεθόδου 10-Fold Cross Validation. Αναφέρεται ακόμη το ποσοστό αποτυχίας χωρίς να χρησιμοποιηθεί μέθοδος αξιολόγησης (Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων). Ακολουθεί ο σχολιασμός των αποτελεσμάτων. Χαρακτηριστικό syst_bp Cigarettes family_history Glu Trgl Hypertensive ΤΚΕ Επεξήγηση Συστολική Πίεση Αριθμός τσιγάρων / ημέρα Οικογενειακό ιστορικό (Ναι/Όχι) Γλυκόζη Τριγλυκερίδια Υπερτασικός (Ναι/Οχι) Ταχύτητα Καθίζησης Ερυθρών Πίνακας 6.1: Επεξηγήσεις χαρακτηριστικών που εμφανίζονται στα δένδρα. Στις περιπτώσεις που σε κάποιο χαρακτηριστικό προστίθεται η κατάληξη nom, αυτό σημαίνει πως το χαρακτηριστικό είναι διακριτοποιημένο βάσει της διακριτοποίησης φυσιολογικών ορίων. 1ο Δένδρο: χωρίς επιλογή χαρακτηριστικών και χωρίς διακριτοποίηση Χρησιμοποιήθηκε το σύνολο των χαρακτηριστικών χωρίς καμιά διακριτοποίηση. Το δένδρο που προέκυψε είναι το εξής (Εικόνα 6.1): Εικόνα 6.1: Το 1ο δένδρο. Χωρίς επιλογή χαρακτηριστικών και χωρίς διακριτοποίηση. Σελίδα 46

52 Αξιολόγηση με 10-Fold Cross Validation: Ταξινόμηση ως Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σύνολο Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σωστά ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 3 (4.76%) 2ο Δένδρο: με επιλογή χαρακτηριστικών και χωρίς διακριτοποίηση Επιλέχθηκαν τα 12 χαρακτηριστικά με τη μέθοδο Correlation-based Feature Selection. Δεν έγινε όμως καμία διακριτοποίηση αυτών. Το δένδρο που προέκυψε είναι το εξής: Εικόνα 6.2: Το 2ο δένδρο. Με επιλογή χαρακτηριστικών και χωρίς διακριτοποίηση. Αξιολόγηση με 10-Fold Cross Validation: Ταξινόμηση ως Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σύνολο Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σωστά ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 5 (7.94%) Σελίδα 47

53 Αφαιρώντας το χαρακτηριστικό Αριθμός τσιγάρων την ημέρα, προκύπτει το εξής δένδρο, το οποίο έχει την ίδια αξιολόγηση με 10-Fold Cross Validation (Εικόνα 6.3): Εικόνα 6.3: Το 2ο δένδρο χωρίς το χαρακτηριστικό Αριθμός Τσιγάρων την Ημέρα. Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 6 (9.52%). Παρατηρούμε πως παρόλο που έγινε επιλογή χαρακτηριστικών, τα δένδρα δεν εμφανίζουν καμιά βελτίωση στη συνολική απόδοση τους. 3ο Δένδρο: με επιλογή χαρακτηριστικών και διακριτοποίηση φυσιολογικών ορίων Εφαρμόστηκε ο αλγόριθμος κατασκευής του δένδρου στα 12 επιλεγμένα χαρακτηριστικά που διακριτοποιήθηκαν βάσει φυσιολογικών ορίων. Το δένδρο που προέκυψε είναι το εξής (Εικόνα 6.4): Σελίδα 48

54 Εικόνα 6.4: Το 3ο δένδρο. Με επιλογή χαρακτηριστικών και διακριτοποίηση φυσιολογικών ορίων. Αξιολόγηση με 10-Fold Cross Validation: Ταξινόμηση ως Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σύνολο Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σωστά ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 5 (7.94%) Παρατηρούμε πως με τη διακριτοποίηση των χαρακτηριστικών εμφανίζεται ένα εντελώς διαφορετικο δένδρο. Τα χαρακτηριστικά με τη μεγαλύτερη σημασία είναι κατά σειρά Υπερτασικός, Τριγλυκερίδια, ΒΜΙ (Δείκτης μάζας σώματος). Μόνο με τα 3 αυτά χαρακτηριστικά πετυγχάνεται 84% σωστή ταξινόμηση. 4ο Δένδρο: με επιλογή χαρακτηριστικών και επιλεκτική αυτόματη διακριτοποίηση (χωρίς επίβλεψη) Εάν επιπρόσθετα εφαρμοστεί επιλεκτική αυτόματη διακριτοποίηση (χαρακτηριστικά Γλυκόζη, Ουρικό οξύ, ΗΒΑ1C), τότε στο προηγούμενο δένδρο προστίθεται το χαρακτηριστικό Ουρικό οξύ ως εξής (Εικόνα 6.5): Σελίδα 49

55 Εικόνα 6.5: Το 4ο δένδρο α) Με επιλογή χαρακτηριστικών και επιλεκτική αυτόματη διακριτοποίηση χωρίς επίβλεψη. Με τον τρόπο αυτό εξαλείφονται τα λάθη που προέκυπταν από τις περιπτώσεις που είχαν βάρος πάνω από το φυσιολογικό χωρίς να είναι παχύσαρκοι. Ωστόσο, η αξιολόγηση του δένδρου αυτού δίνει χαμηλότερα ποσοστά επιτυχίας. Το γεγονός αυτό μπορεί να ερμηνευθεί θεωρώντας πως το δένδρο υπερεκπαιδεύτηκε στα δεδομένα μας. Αξιολόγηση με 10-Fold Cross Validation: Ταξινόμηση ως Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σύνολο Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σωστά ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 3 (4.76%) Αξίζει ακόμη να αναφέρουμε πως αν στην επιλεκτική αυτόματη διακριτοποίηση προσθέσουμε το χαρακτηριστικό ΤΚΕ (Ταχύτητα Καθίζησης Ερυθρών), τότε αυτό αντικαθιστά το χαρακτηριστικό ΒΜΙ στο 3 ο δένδρο. Το Ουρικό οξύ δεν εμφανίζεται καθόλου. Το δένδρο που προκύπτει έχει ελαφρώς υψηλότερη απόδοση από το 3 ο δένδρο (με διακριτοποίηση φυσιολογικών ορίων) και είναι το εξής (Εικόνα 6.6): Σελίδα 50

56 Εικόνα 6.6: Το 4ο δένδρο β) Με την προσθήκη του χαρακτηριστικού ΤΚΕ. Αξιολόγηση με 10-Fold Cross Validation: Ταξινόμηση ως Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σύνολο Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σωστά ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 4 (6.35%) 5ο Δένδρο: με επιλογή χαρακτηριστικών και επιλεκτική αυτόματη διακριτοποίηση (με επίβλεψη) Εάν η επιλεκτική αυτόματη διακριτοποίηση γίνει με επίβλεψη (χαρακτηριστικά Γλυκόζη, Ουρικό οξύ, ΗΒΑ1C), τότε στο 3 ο δένδρο προστίθεται το χαρακτηριστικό Γλυκόζη, ως ενδιάμεσος κόμβος μεταξύ του κόμβου ρίζας Υπερτασικός και του κόμβου Τριγλυκερίδια. Το γεγονός αυτό βελτιώνει την απόδοση του δένδρου επί του συνόλου των δεδομένων, αλλά ελλατώνει τη συνολική του απόδοση. Είναι ωστόσο ενδιαφέρον το γεγονός πως η Γλυκόζη αποκτά σημασία με τη νέα διακριτοποίηση, ενώ με τη διακριτοποίηση χωρίς επίβλεψη δεν παίζει κάποιο ρόλο. Το δένδρο είναι το εξής (Εικόνα 6.7): Σελίδα 51

57 Εικόνα 6.7: Το 5ο δένδρο. Με επιλογή χαρακτηριστικών και επιλεκτική αυτόματη διακριτοποίηση με επίβλεψη. Αξιολόγηση με 10-Fold Cross Validation: Ταξινόμηση ως Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σύνολο Χαμηλό ΙΜΤ Υψηλό ΙΜΤ Σωστά ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις % Λάθος ταξινομημένες περιπτώσεις του συνόλου δεδομένων 3 (4.76%) Σχολιασμός των αποτελεσμάτων Παρακάτω φαίνεται ένας συγκριτικός πίνακας όλων των δένδρων που αναφέρθηκαν (Πίνακας 6.2). Από πλευράς ταξινόμησης, φαίνεται πως τα καλύτερα αποτελέσματα επιτυγχάνονται με χρήση της επιλεκτικής αυτόματης διακριτοποίησης, εφόσον έτσι ελαχιστοποιούνται τα λάθη βάσει της αξιολόγησης. Στην περίπτωση μάλιστα που χρησιμοποιηθεί και το χαρακτηριστικό ΤΚΕ, επιτυγχάνεται το ελάχιστο των λαθών ταξινόμησης (9). Ομως το πρόβλημα μας δεν είναι αμιγώς να ταξινομήσουμε τις περιπτώσεις σε Χαμηλό ή Υψηλό ΙΜΤ βάσει κάποιων χαρακτηριστικών, αλλά να εξάγουμε γνώση Σελίδα 52

58 Δένδρο Νο για τους προδιαθεσικούς παράγοντες της αθηροσκλήρωσης. Κατά συνέπεια είναι σημαντικότερο να εξετάσουμε τη δομή των δένδρων ώστε να εξακριβώσουμε τους σημαντικότερους παράγοντες που σχετίζονται με υψηλό ΙΜΤ. Επιλογή χαρακτηριστικών Διακριτοποίηση Λάθη ταξινόμησης βάσει αξιολόγησης Λάθη ταξινόμησης στα δεδομένα 1 ΧΩΡΙΣ ΧΩΡΙΣ χαρακτηριστικά ΧΩΡΙΣ χαρακτηριστικά Φυσιολογικών ορίων 10 5 Επιλεκτική α) 12 αυτόματη χωρίς χαρακτηριστικά επίβλεψη β) 12 χαρακτηριστικά + ΤΚΕ 5 12 χαρακτηριστικά Επιλεκτική αυτόματη χωρίς επίβλεψη Επιλεκτική αυτόματη με επίβλεψη Πίνακας 6.2: Συγκριτικός πίνακας των δένδρων απόφασης Κεντρική θέση ανάμεσα στα δένδρα όπου χρησιμοποιήθηκε διακριτοποίηση κατέχει η δομή του τρίτου δένδρου, η οποία επαναλαμβάνεται παρακάτω χάριν ευκολίας (Εικόνα 6.4): Εικόνα 6.4: Το 3ο δένδρο. Με επιλογή χαρακτηριστικών και διακριτοποίηση φυσιολογικών ορίων. Σελίδα 53

Δείτε περισσότερα