Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής του Χαλκίδη Νέστωρα με επιβλέποντα καθηγητή τον κ. Αντωνίου Ιωάννη του Διατμηματικού Μεταπτυχιακού Προγράμματος με τίτλο Πολύπλοκα Συστήματα και Δίκτυα
Η Χρόνια Λεμφοκυτταρική Λευχαιμία (ΧΛΛ) είναι η πιο συχνή μορφή λευχαιμίας στο δυτικό κόσμο. Αλλοιωμένα πρότυπα μεθυλίωσης του DNA έχουν βρεθεί στην ΧΛΛ σε σύγκριση με τα φυσιολογικά κύτταρα. Η μεθυλίωση του DNA, περιλαμβάνεται στα επιγενετικά φαινόμενα και είναι μία χημική τροποποίηση στο δινουκλεοτίδιο CG (CpG) που έχει σαν αποτέλεσμα την αλλαγή της διαμόρφωσης του DNA. H υπομεθυλίωση του DNA σχετίζεται με ενεργά μεταγραφικό γονίδιο. Η υπερμεθυλίωση του DNA σχετίζεται με μεταγραφική αποσιώπηση.
12 δείγματα ανά μικροσυστοιχία 480.000 θέσεις CpG.idat Αρχεία Beta-value: β = M U + M + 100 β = 0 : αμεθυλίωτο β = 1 : μεθυλιωμένο Δεδομένα από την πλατφόρμα Infinium HumanMethylation450 BeadChip array, που περιλαμβάνει 463442 θέσεις CpG. 40 ασθενείς με Χρόνια Λεμφοκυτταρική Λευχαιμία, με δύο στιγμιότυπα ανά ασθενή (πριν την χορήγηση θεραπείας και μετά την υποτροπή). Δεδομένα: 40 ασθενείς όπου ο καθένας έχει 463442 θέσεις CpG με διακύμανση των βήτα τιμών (beta values) από 0-1.
Σκοπός: H ανεύρεση των πιο σημαντικών θέσεων μεθυλίωσης του DNA που θα μπορούσαν να χρησιμοποιηθούν για την πρόβλεψη της ομάδας στην οποία ανήκει ο ασθενής. Χαμηλός αριθμός ΔΜCpG Υψηλός αριθμός ΔΜCpG Υποτροπή <24 μήνες Υποτροπή >24 μήνες Μήνες μέχρι την υποτροπή Δυσκολία: Ο μεγάλος όγκος των δεδομένων καθιστά δύσκολη την εύρεση των σημαντικών θέσεων CpG και τον διαχωρισμό των ασθενών σε ομάδες με βάση τα κλινικοβιολογικά τους χαρακτηριστικά. Λύση: Εύρεση των σημαντικών θέσεων CpG με την βοήθεια αλγορίθμων επιλογής και μάθησης.
Η γενική ιδέα είναι να δημιουργηθούν πολλά δέντρα αποφάσεων τα οποία όλα μαζί μας δίνουν ένα δάσος Classification, Regression. Επιλογή στη τύχη δειγμάτων ίδιου μεγέθους με επανατοποθέτηση. BTS1 BTS2.. BTSN.. Vote1 Vote2.. VoteN 1 0 1 Τυχαία επιλογή m μεταβλητών από τις Μ και εύρεση της μεταβλητής που κάνει τον καλύτερο διαχωρισμό ενός κόμβου. Κάθε δέντρο αναπτύσσεται μέχρι τέλους χωρίς να χρειάζεται κλάδεμα (pruning). Vote : 1
Τα 2/3 των δειγμάτων χρησιμοποιούνται για την κατασκευή του δέντρου (training set). Το 1/3 των δειγμάτων (testing set) χρησιμοποιούνται για την εύρεση του OOB error rate και της variable importance. OOB error: Ποσοστό των δειγμάτων που δεν ταξινομήθηκαν στη σωστή κλάση. Variable Importance: Εκφράζει το πόσο πολύ επηρεάζουν οι μεταβλητές το σφάλμα ταξινόμησης (classification error) του δάσους.
Ο αλγόριθμος επιλογής ο οποίος βασίζεται στο τυχαίο δάσος εφαρμόζεται με τα εξής βήματα: Σε όλα τα δεδομένα εφαρμόζεται ένα τυχαίο δάσος και ταξινομούνται σε φθίνουσα σειρά οι θέσεις CpG με βάση τη σημαντικότητας τους. Επανειλημμένα εφαρμόζεται η ίδια διαδικασία και σε κάθε βήμα αφαιρείται το 20% των θέσεων CpG με τη χαμηλότερη σημαντικότητα. Στη συνέχεια διαλέγονται οι θέσεις CpG που οδηγούν στο μοντέλο με το μικρότερο σφάλμα.
Υπολογισμός της τυπικής απόκλισης κάθε θέσης CpG και επιλογή αυτών που είχαν τυπική απόκλιση μεγαλύτερη ή ίση του 0.3. Καταλήγουμε σε 6721 θέσεις CpG. Στη συνέχεια εφαρμόζουμε τη μέθοδο επιλογής που παρουσιάστηκε. Ομάδες Περιγραφή Οι ασθενείς με βάση τα κλινικοβιολογικά τους χαρακτηριστικά χωρίστηκαν σε δύο ομάδες: 1. Aριθμός των διαφορικά μεθυλιωμένων θέσεων CpG (ΔΜCpG) (High, Low) σε κάθε ασθενή πριν την χορήγηση θεραπείας σε σύγκριση με το δείγμα μετά την υποτροπή. 2. Μήνες μέχρι την υποτροπή (<24 μήνες, >24 μήνες) σε κάθε ασθενή. Μεγάλος αριθμός ΔΜCpG (High) vs Μικρός αριθμός ΔΜCpG (Low) <24 μήνες (Ultra High risk) Μικρός αριθμός ΔΜCpG συνδέεται με μικρό χρόνο μέχρι την υποτροπή Επιθετική νόσος μετά την υποτροπή
Τύπος τυχαίου δάσους: ταξινόμησης Αριθμός δέντρων: 2000 Αριθμός μεταβλητών για διαχωρισμό σε κάθε κόμβο: 3 Σφάλμα ταξινόμησης: 2.5% Πίνακας συνάφειας: High Low Σφάλμα ταξ/σης High 23 0 0.000 Low 1 16 0.058 Το μοντέλο είναι κατά 97.5% ακριβές. Έμειναν 11 σημαντικές θέσεις CpG. Μόνο ένας από τους 40 ασθενείς ταξινομήθηκε λάθος.
Οι δύο μέθοδοι έγιναν με βάση τις 11 θέσεις CpG που επιλέχθηκαν από τα τυχαία δάση. Παρατηρείται μικρή αλλαγή στη διακύμανση των τιμών μεθυλίωσης του DNA των ασθενών. Κάθε σημείο αντιπροσωπεύει ένα ασθενή στην ανάλυση κυρίων συνιστωσών.
Τύπος τυχαίου δάσους: ταξινόμησης Αριθμός δέντρων: 2000 Αριθμός μεταβλητών για διαχωρισμό σε κάθε κόμβο: 2 Σφάλμα ταξινόμησης: 7.5% Πίνακας συνάφειας: Ultra High risk Others Σφάλμα ταξ/σης Ultra High risk 24 2 0.076 Others 1 13 0.071 Το μοντέλο είναι κατά 92.5% ακριβές. Έμειναν 6 σημαντικές θέσεις CpG. Τρείς από τους 40 ασθενείς ταξινομήθηκαν λάθος.
Οι μέθοδοι έγιναν με βάση τις 6 θέσεις CpG που επιλέχθηκαν από τα τυχαία δάση. Παρατηρούνται εντελώς διαφορετικές τιμές μεθυλίωσης του DNA των ασθενών.
11 θέσεις CpG 6721 CpG Μήνες μέχρι την υποτροπή Χαμηλός αριθμός ΔΜCpG Υψηλός αριθμός ΔΜCpG Χαμηλός αριθμός ΔΜCpG Υψηλός αριθμός ΔΜCpG Υποτροπή <24 μήνες Υποτροπή >24 μήνες ήνες μέχρι την υποτροπή Τυχαία δάση 6 θέσεις CpG Μήνες μέχρι την υποτροπή Υποτροπή <24 μήνες Υποτροπή >24 μήνες
6721 CpG Χαμηλός - Υψηλός αριθμός ΔΜCpGs 11 θέσεις CpG Τυχαία δάση 6721 CpG Υποτροπή σε <24 και >24 μήνες 6 θέσεις CpG Τυχαία δάση
Στόχος της παρούσας μελέτης ήταν η εύρεση των πιο σημαντικών θέσεων CpG που σχετίζονται με την κλάση που επιθυμούμε να ομαδοποιήσουμε τους ασθενείς. Το φιλτράρισμα των δεδομένων είναι απαραίτητο σε προβλήματα με μεγάλο όγκο δεδομένων (τόσο το φιλτράρισμα με τυπική απόκλιση όσο και με τον αλγόριθμο επιλογής συνέβαλαν στη μείωση του σφάλματος ταξινόμησης). Από τις 6721 πιο μεταβλητές θέσεις CpG καταλήξαμε σε 6 και 11 θέσεις CpG ικανές να χωρίσουν τις ομάδες με βάση των αριθμό των ΔΜCpG και τον χρόνο μέχρι την υποτροπή. Καλή εφαρμογή (σφάλμα ταξινόμησης: 2.5% και 7.5%) των τυχαίων δασών σε περιπτώσεις ασθενών με ΧΛΛ.
[1] Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32. [2] Hastie, Trevor, et al. "The elements of statistical learning: data mining, inference and prediction." The Mathematical Intelligencer 27.2 (2005): 83-85. [3] Diaz-Uriarte, Ramón. "GeneSrF and varselrf: a web-based tool and R package for gene selection and classification using random forest." BMC bioinformatics 8.1 (2007): 328. [4] Dessì, Nicoletta, Gabriele Milia, and Barbara Pes. "Pre-filtering Features in Random Forests for Microarray Data Classification." New Frontiers in Mining Complex Patterns (NFMCP 2012) 60 (2012). [5] Chen, Xi, and Hemant Ishwaran. "Random forests for genomic data analysis."genomics 99.6 (2012): 323-329.