Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Υπερπροσαρμογή (Overfitting) (1)

Statistical analysis of epigenetic data for CLL patients. Chalkidis Nestoras

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Μέθοδοι δειγματοληψίας, καθορισμός μεγέθους δείγματος, τύποι σφαλμάτων, κριτήρια εισαγωγής και αποκλεισμού

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Διακριτικές Συναρτήσεις

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Σκοπός του μαθήματος. Έλεγχος μηδενικής υπόθεσης OR-RR. Έλεγχος μηδενικής υπόθεσης. Σφάλαμα τύπου Ι -Σφάλμα τύπου ΙΙ 20/4/2013

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Περιγραφή Χρηματοδοτούμενων Ερευνητικών Έργων 1η Προκήρυξη Ερευνητικών Έργων ΕΛ.ΙΔ.Ε.Κ. για την ενίσχυση Μεταδιδακτόρων Ερευνητών/Τριών

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Χαράλαµπος Κ. Μαµουλάκης

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις στο μάθημα ΠΙΘΑΝΟΤΗΤΕΣ Ι

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Βιοπληροφορική II. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Διδάσκουσα: Χάλκου Χαρά,

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε.

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2010 ΕΚΦΩΝΗΣΕΙΣ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Χωρική Ανάλυση Συμπεριφοράς Ασφάλειας Οδηγών με Δεδομένα από Έξυπνα Κινητά Τηλέφωνα

Αναλυτική Στατιστική

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Πολλαπλή παλινδρόμηση (Multivariate regression)

Α. Έστω Α,Β δυο ενδεχόμενα του δειγματικού χώρου Ω. Να δείξετε ότι αν A B τότε P A P B. (7 Μονάδες )

Αναγνώριση Προτύπων Ι

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

Εισόδημα Κατανάλωση

HMY 795: Αναγνώριση Προτύπων

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Πληροφοριακά Συστήματα Διοίκησης

Π Α Ν Ε Λ Λ Η Ν Ι Ε Σ Μ Α Θ Η Μ Α Τ Ι Κ Α K A I Σ Τ Ο Ι Χ Ε Ι Α Σ Τ Α Τ Ι Σ Τ Ι Κ Η

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Δειγματοληψία στην Ερευνα. Ετος

ΜΟΡΙΑΚΗ ΒΙΟΛΟΓΙΑ ΚΑΙ ΓΕΝΕΤΙΚΗ ΤΟΥ ΝΕΦΡΟΒΛΑΣΤΩΜΑΤΟΣ (ΟΓΚΟΥ ΤΟΥ WILMS) Σπυριδάκης Ιωάννης 2, Καζάκης Ι 2, Δογραματζής Κωνσταντίνος 1, Κοσμάς Νικόλαος 1,

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 6 η :Έλεγχοι Υποθέσεων V. Διδάσκουσα: Κοντογιάννη Αριστούλα

Εξαμηνιαία Εργασία Β. Κανονική Κατανομή - Επαγωγική Στατιστική

Εισαγωγή στην Εκτιμητική

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2012 ΕΚΦΩΝΗΣΕΙΣ

Ranking the importance of real-time traffic and weather variables when examining crash injury severity

03 _ Παράμετροι θέσης και διασποράς. Γούργουλης Βασίλειος Καθηγητής Τ.Ε.Φ.Α.Α. Σ.Ε.Φ.Α.Α. Δ.Π.Θ.

f x g x f x g x, x του πεδίου ορισμού της; Μονάδες 4 είναι οι παρατηρήσεις μιας ποσοτικής μεταβλητής Χ ενός δείγματος μεγέθους ν και w

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΑΠΑΝΤΗΣΕΙΣ. 40. Ακόμα είναι. και F1 f και ακόμα Τέλος έχουμε F3 f1 f2 f3 F2 f. N i

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Αν Α και Β είναι δύο ενδεχόμενα ενός δειγματικού χώρου να αποδείξετε ότι: Αν Α Β τότε Ρ(Α) Ρ(Β)

ΒΕΛΤΙΣΤΕΣ ΙΑ ΡΟΜΕΣ ΣΕ ΙΚΤΥΑ ΜΕΤΑΒΛΗΤΟΥ ΚΟΣΤΟΥΣ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

Κατανομή συχνοτήτων. Μέτρα κεντρικής τάσης. Μέτρα διασποράς. Σφάλματα μέτρησης. Εγκυρότητα. Ακρίβεια

Χ. Εμμανουηλίδης, 1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

Ενδεικτικές ασκήσεις ΔΙΠ 50

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Ανάλυση διακύμανσης (Μέρος 3 ο ) 7/4/2017

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Στατιστική για Οικονομολόγους ΙΙ ΛΥΜΕΝΑ ΘΕΜΑΤΑ παλαιοτέρων ετών από «ανώνυμο φοιτητή» (Στις ΛΥΣΕΙΣ ενδεχομένως να υπάρχουν λάθη. )

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

cv = κατάλληλη κριτική (κρίσιμη) τιμή από τους πίνακες της Ζ ή t κατανομής

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝ. ΠΑΙΔΕΙΑΣ - Γ ΛΥΚΕΙΟΥ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ. Μεταπτυχιακό πρόγραμμα ΑΣΚΗΣΗ ΚΑΙ ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

& 4/12/09 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ

Αξιοποίηση αλγόριθμων εξόρυξης πληροφορίας στην ανάλυση κοινωνιοψυχολογικών ερευνητικών δεδομένων

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μετα-ανάλυση. Δημήτριος Γ. Γουλής Αναπληρωτής καθηγητής Ενδοκρινολογίας Αναπαραγωγής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Η ψηφιακή τεχνολογία στην ερευνητική δραστηριότητα Θέματα κουίζ. Υψηλάντης Γεώργιος, Βαβούρας Θεόδωρος Τμήμα Ιταλικής Γλώσσας & Φιλολογίας

Χρωμοσώματα και ανθρώπινο γονιδίωμα Πεφάνη Δάφνη

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Transcript:

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής του Χαλκίδη Νέστωρα με επιβλέποντα καθηγητή τον κ. Αντωνίου Ιωάννη του Διατμηματικού Μεταπτυχιακού Προγράμματος με τίτλο Πολύπλοκα Συστήματα και Δίκτυα

Η Χρόνια Λεμφοκυτταρική Λευχαιμία (ΧΛΛ) είναι η πιο συχνή μορφή λευχαιμίας στο δυτικό κόσμο. Αλλοιωμένα πρότυπα μεθυλίωσης του DNA έχουν βρεθεί στην ΧΛΛ σε σύγκριση με τα φυσιολογικά κύτταρα. Η μεθυλίωση του DNA, περιλαμβάνεται στα επιγενετικά φαινόμενα και είναι μία χημική τροποποίηση στο δινουκλεοτίδιο CG (CpG) που έχει σαν αποτέλεσμα την αλλαγή της διαμόρφωσης του DNA. H υπομεθυλίωση του DNA σχετίζεται με ενεργά μεταγραφικό γονίδιο. Η υπερμεθυλίωση του DNA σχετίζεται με μεταγραφική αποσιώπηση.

12 δείγματα ανά μικροσυστοιχία 480.000 θέσεις CpG.idat Αρχεία Beta-value: β = M U + M + 100 β = 0 : αμεθυλίωτο β = 1 : μεθυλιωμένο Δεδομένα από την πλατφόρμα Infinium HumanMethylation450 BeadChip array, που περιλαμβάνει 463442 θέσεις CpG. 40 ασθενείς με Χρόνια Λεμφοκυτταρική Λευχαιμία, με δύο στιγμιότυπα ανά ασθενή (πριν την χορήγηση θεραπείας και μετά την υποτροπή). Δεδομένα: 40 ασθενείς όπου ο καθένας έχει 463442 θέσεις CpG με διακύμανση των βήτα τιμών (beta values) από 0-1.

Σκοπός: H ανεύρεση των πιο σημαντικών θέσεων μεθυλίωσης του DNA που θα μπορούσαν να χρησιμοποιηθούν για την πρόβλεψη της ομάδας στην οποία ανήκει ο ασθενής. Χαμηλός αριθμός ΔΜCpG Υψηλός αριθμός ΔΜCpG Υποτροπή <24 μήνες Υποτροπή >24 μήνες Μήνες μέχρι την υποτροπή Δυσκολία: Ο μεγάλος όγκος των δεδομένων καθιστά δύσκολη την εύρεση των σημαντικών θέσεων CpG και τον διαχωρισμό των ασθενών σε ομάδες με βάση τα κλινικοβιολογικά τους χαρακτηριστικά. Λύση: Εύρεση των σημαντικών θέσεων CpG με την βοήθεια αλγορίθμων επιλογής και μάθησης.

Η γενική ιδέα είναι να δημιουργηθούν πολλά δέντρα αποφάσεων τα οποία όλα μαζί μας δίνουν ένα δάσος Classification, Regression. Επιλογή στη τύχη δειγμάτων ίδιου μεγέθους με επανατοποθέτηση. BTS1 BTS2.. BTSN.. Vote1 Vote2.. VoteN 1 0 1 Τυχαία επιλογή m μεταβλητών από τις Μ και εύρεση της μεταβλητής που κάνει τον καλύτερο διαχωρισμό ενός κόμβου. Κάθε δέντρο αναπτύσσεται μέχρι τέλους χωρίς να χρειάζεται κλάδεμα (pruning). Vote : 1

Τα 2/3 των δειγμάτων χρησιμοποιούνται για την κατασκευή του δέντρου (training set). Το 1/3 των δειγμάτων (testing set) χρησιμοποιούνται για την εύρεση του OOB error rate και της variable importance. OOB error: Ποσοστό των δειγμάτων που δεν ταξινομήθηκαν στη σωστή κλάση. Variable Importance: Εκφράζει το πόσο πολύ επηρεάζουν οι μεταβλητές το σφάλμα ταξινόμησης (classification error) του δάσους.

Ο αλγόριθμος επιλογής ο οποίος βασίζεται στο τυχαίο δάσος εφαρμόζεται με τα εξής βήματα: Σε όλα τα δεδομένα εφαρμόζεται ένα τυχαίο δάσος και ταξινομούνται σε φθίνουσα σειρά οι θέσεις CpG με βάση τη σημαντικότητας τους. Επανειλημμένα εφαρμόζεται η ίδια διαδικασία και σε κάθε βήμα αφαιρείται το 20% των θέσεων CpG με τη χαμηλότερη σημαντικότητα. Στη συνέχεια διαλέγονται οι θέσεις CpG που οδηγούν στο μοντέλο με το μικρότερο σφάλμα.

Υπολογισμός της τυπικής απόκλισης κάθε θέσης CpG και επιλογή αυτών που είχαν τυπική απόκλιση μεγαλύτερη ή ίση του 0.3. Καταλήγουμε σε 6721 θέσεις CpG. Στη συνέχεια εφαρμόζουμε τη μέθοδο επιλογής που παρουσιάστηκε. Ομάδες Περιγραφή Οι ασθενείς με βάση τα κλινικοβιολογικά τους χαρακτηριστικά χωρίστηκαν σε δύο ομάδες: 1. Aριθμός των διαφορικά μεθυλιωμένων θέσεων CpG (ΔΜCpG) (High, Low) σε κάθε ασθενή πριν την χορήγηση θεραπείας σε σύγκριση με το δείγμα μετά την υποτροπή. 2. Μήνες μέχρι την υποτροπή (<24 μήνες, >24 μήνες) σε κάθε ασθενή. Μεγάλος αριθμός ΔΜCpG (High) vs Μικρός αριθμός ΔΜCpG (Low) <24 μήνες (Ultra High risk) Μικρός αριθμός ΔΜCpG συνδέεται με μικρό χρόνο μέχρι την υποτροπή Επιθετική νόσος μετά την υποτροπή

Τύπος τυχαίου δάσους: ταξινόμησης Αριθμός δέντρων: 2000 Αριθμός μεταβλητών για διαχωρισμό σε κάθε κόμβο: 3 Σφάλμα ταξινόμησης: 2.5% Πίνακας συνάφειας: High Low Σφάλμα ταξ/σης High 23 0 0.000 Low 1 16 0.058 Το μοντέλο είναι κατά 97.5% ακριβές. Έμειναν 11 σημαντικές θέσεις CpG. Μόνο ένας από τους 40 ασθενείς ταξινομήθηκε λάθος.

Οι δύο μέθοδοι έγιναν με βάση τις 11 θέσεις CpG που επιλέχθηκαν από τα τυχαία δάση. Παρατηρείται μικρή αλλαγή στη διακύμανση των τιμών μεθυλίωσης του DNA των ασθενών. Κάθε σημείο αντιπροσωπεύει ένα ασθενή στην ανάλυση κυρίων συνιστωσών.

Τύπος τυχαίου δάσους: ταξινόμησης Αριθμός δέντρων: 2000 Αριθμός μεταβλητών για διαχωρισμό σε κάθε κόμβο: 2 Σφάλμα ταξινόμησης: 7.5% Πίνακας συνάφειας: Ultra High risk Others Σφάλμα ταξ/σης Ultra High risk 24 2 0.076 Others 1 13 0.071 Το μοντέλο είναι κατά 92.5% ακριβές. Έμειναν 6 σημαντικές θέσεις CpG. Τρείς από τους 40 ασθενείς ταξινομήθηκαν λάθος.

Οι μέθοδοι έγιναν με βάση τις 6 θέσεις CpG που επιλέχθηκαν από τα τυχαία δάση. Παρατηρούνται εντελώς διαφορετικές τιμές μεθυλίωσης του DNA των ασθενών.

11 θέσεις CpG 6721 CpG Μήνες μέχρι την υποτροπή Χαμηλός αριθμός ΔΜCpG Υψηλός αριθμός ΔΜCpG Χαμηλός αριθμός ΔΜCpG Υψηλός αριθμός ΔΜCpG Υποτροπή <24 μήνες Υποτροπή >24 μήνες ήνες μέχρι την υποτροπή Τυχαία δάση 6 θέσεις CpG Μήνες μέχρι την υποτροπή Υποτροπή <24 μήνες Υποτροπή >24 μήνες

6721 CpG Χαμηλός - Υψηλός αριθμός ΔΜCpGs 11 θέσεις CpG Τυχαία δάση 6721 CpG Υποτροπή σε <24 και >24 μήνες 6 θέσεις CpG Τυχαία δάση

Στόχος της παρούσας μελέτης ήταν η εύρεση των πιο σημαντικών θέσεων CpG που σχετίζονται με την κλάση που επιθυμούμε να ομαδοποιήσουμε τους ασθενείς. Το φιλτράρισμα των δεδομένων είναι απαραίτητο σε προβλήματα με μεγάλο όγκο δεδομένων (τόσο το φιλτράρισμα με τυπική απόκλιση όσο και με τον αλγόριθμο επιλογής συνέβαλαν στη μείωση του σφάλματος ταξινόμησης). Από τις 6721 πιο μεταβλητές θέσεις CpG καταλήξαμε σε 6 και 11 θέσεις CpG ικανές να χωρίσουν τις ομάδες με βάση των αριθμό των ΔΜCpG και τον χρόνο μέχρι την υποτροπή. Καλή εφαρμογή (σφάλμα ταξινόμησης: 2.5% και 7.5%) των τυχαίων δασών σε περιπτώσεις ασθενών με ΧΛΛ.

[1] Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32. [2] Hastie, Trevor, et al. "The elements of statistical learning: data mining, inference and prediction." The Mathematical Intelligencer 27.2 (2005): 83-85. [3] Diaz-Uriarte, Ramón. "GeneSrF and varselrf: a web-based tool and R package for gene selection and classification using random forest." BMC bioinformatics 8.1 (2007): 328. [4] Dessì, Nicoletta, Gabriele Milia, and Barbara Pes. "Pre-filtering Features in Random Forests for Microarray Data Classification." New Frontiers in Mining Complex Patterns (NFMCP 2012) 60 (2012). [5] Chen, Xi, and Hemant Ishwaran. "Random forests for genomic data analysis."genomics 99.6 (2012): 323-329.