Μελέτη στην ανάλυση οµάδων και εφαρµογή σε δεδοµένα γονιδιακής έκφρασης καρκίνου από µικροσυστοιχίες Ιωάννης Αγ. Μαραζιώτης Εποπτεία: Καθ. Αναστάσιος Μπεζεριάνος
Βιοπληροφορική Βιολογικά δεδοµένα + Υπολογιστικές Μέθοδοι
Οι µικροσυστοιχίες παρέχουν ένα τρόπο µέτρησης της έκφρασης γονιδίων.
Μέτρηση Έκφρασης Γονιδίου Ιδέα: µέτρηση του ποσού του mrna για να διαπιστώσουµε πια γονίδια εκφράζονται (ή χρησιµοποιούνται ) από το κύτταρο.
Πειράµατα µε µικροσυστοιχίες cdna ιαφορετικοί ιστοί, ίδιος οργανισµός (εγκέφαλος συκώτι) Ίδιοι ιστοί, διαφορετικοί οργανισµοί Ίδιοι ιστοί, ίδιοι οργανισµοί (φυσιολογικοί καρκινικοί)
Υβριδισµός Ο υβριδισµός (Hybridization) εκµεταλλεύεται ένα ισχυρό χαρακτηριστικό του DNA, που είναι η συµπληρωµατικότητα των ακολουθιών των δυο ζωνών του. Το DNA µπορεί να επανασυναρµολογηθεί µε τέλεια πιστότοτητα από µια από τις διαχωριζόµενες ζώνες. Οι ζώνες µπορούν να διαχωρισθούν µε θέρµανση.
Υβριδισµός νουκλεονικού οξέος
Μικροσυστοιχίες cdna Κλώνοι cdna
Στάδια παραγωγής δεδοµένων από µικροσυστοιχία ΥΒΡΙ ΙΣΜΟΣ ΕΚΤΥΠΩΣΗ ΣΑΡΩΣΗ Πρόσθεση cdna από ισων κάθε ποσοτήτων Laser cdna γονίδιο δειγµάτων σε κάθε Ανιχνευτής στην spot µικροσυστοιχία
Ποσοτικοποίηση έκφρασης Για κάθε spot στο slide υπολογίζουµε: Κόκκινη ένταση = Κfg - Κbg (fg = foreground, bg = background) και Πράσινη ένταση = Πfg - Πbg Και τα συνδυάζουµε σε ένα λογαριθµικό (βάσης 2) λόγο Log2( Κόκκινη ένταση / Πράσινη ένταση)
εδοµένα Έκφρασης Γονιδίων Σε p γονίδια για n slides: το p είναι O(10,000), το n είναι O(10-100), αλλά αυξάνεται Γονίδια Slides slide 1 slide 2 slide 3 slide 4 slide 5 1 0.46 0.30 0.80 1.51 0.90... 2-0.10 0.49 0.24 0.06 0.46... 3 0.15 0.74 0.04 0.10 0.20... 4-0.45-1.03-0.79-0.56-0.32... 5-0.06 1.06 1.35 1.09-1.09... Επίπεδο έκφρασης του γονιδίου 5 στο slide 4 = Log 2 ( Κόκκινη ένταση / Πράσινη ένταση) Αυτές οι τιµές τυπικά εµφανίζονται σε κόκκινες (>0) κίτρινες (0) πράσινες (<0) κλίµακες.
Βιολογικές ερωτήσεις ιαφορετικές εκφράσεις γονιδίων Πρόβλεψη οµάδας δείγµατος κ.λ.π. Σχεδίαση πειράµατος Εκτίµηση Πείραµα µικροσυστοιχίας Ανάλυση εικόνας Κανονικοποίηση 16-bit TIFF αρχεία (Κfg, Κbg), (Πfg, Πbg) Κ, Π Testing Οµαδοποίηση ιάκριση Βιολογική επαλήθευση και εξέταση αποτελεσµάτων
Βασική διαφορά στα δεδοµένα Ανάγκη ύπαρξης νέων εργαλείων έρευνας µιας και οι κλασσικές βιοστατιστικές µέθοδοι δεν αρκουν για την αναλυση των νεων δεδοµένων.
Μορφή Αρχείων Σχήµα και διάταξη ενός τύπου αρχείου, όπως προκύπτει µετά την επεξεργασία εικόνας µιας µικροσυστοιχίας.
Σηµειογραφία i-οστή συντεταγµένη i=1..ν Γονίδιο 1 Γονίδιο 2... Γονίδιο Ν είγµα 1 DATA DATA DATA DATA είγµα 2 DATA DATA DATA DATA DATA DATA DATA DATA είγµα κ DATA DATA DATA DATA Σηµεία ιάσταση
Οµαδοποίηση Η οµαδοποίηση µπορεί να οριστεί ως η διαδικασία κατά την οποία ένα συνολο αντικειµένων διαχωρίζονται σε υποσύνολα βάση διάφορων οµοιοτήτων που παρουσιάζουν. Πρόκειται δηλαδή για προσπάθεια εύρεσης οµάδων µε µέλη που είναι όσο το δυνατόν όµοια µεταξύ τους και όσο το δυνατόν ανόµοια µε µέλη άλλης οµάδας. εδοµένου ενός συνόλου Σ, ν γονιδίων των οποίων έχουµε µετρήσει τα επίπεδα έκφρασης κατά µήκος κ συνθηκών δειγµάτων, πρεπει να ευρεθεί η καλύτερη κατάτµηση του Σ σε υποσύνολα τετοια ώστε κάθε υποσύνολο να περιέχει γονίδια των οποίων οι εκφράσεις είναι παρόµοιες µεταξύ τους.
Οµαδοποίηση µε και χωρίς επόπτη Ανάλυση µε και χωρίς επόπτη. Στην περίπτωση της εκµάθησης χωρίς επόπτη (αριστερά) δίνονται σηµεία δεδοµενων στον ν-διαστατό χώρο και προσπαθούµε να βρούµε τρόπους να οµαδοποιήσουµε τα σηµεία µε παρόµοια χαρακτηριστικά. Στην περίπτωση της εκµάθησης µε επόπτη (δεξιά) τα αντικείµενα ετικετοποιούνται και ο στόχος είναι η εύρεση ενός συνόλου κανόνων οµαδοποίησης να διακρίνουµε αναµεσα σε αυτά τα σηµεία όσο το δυνατόν καλύτερα.
εδοµένα Λευχαιµίας εδοµένα προερχόµενα από εργασία Golub et al. Περιέχει δυο βασικές οµάδες καρκίνου: 1. οξεία µυελική λευχαιµία (acute myelogenous leukemia AML) 2. οξεία λεµφοκυτταρική λευχαιµία (acute lemphocytic leukemia ALL) Γονίδια Αριθµός δειγµάτων εκπαίδευσης Αριθµός δειγµάτων ελέγχου 7129 38 34
εδοµένα Λεµφώµατος Τα δεδοµένα προέρχονται από την εργασία του G. Valentini Το σύνολο αποτελούνταν από 4 οµάδες καρκίνου λεµφώµατος και ένα συνολο δειγµάτων µε υγιή δείγµατα. Ο αριθµός των δειγµάτων καρκίνου ανέρχονταν σε 72 ενώ υγιή λεµφοειδή δείγµατα ανέρχονταν σε 24, συνολο 96. Τα δεδοµένα χωρίστηκαν σε: συνολο εκπαίδευσης και σύνολο ελέγχου. Γονίδια Αριθµός δειγµάτων εκπαίδευσης Αριθµός δειγµάτων ελέγχου 4200 48 48
εδοµένα πολυταξικού συνόλου εδοµένα προερχόµενα από την εργασια των Ramaswamy et al. Περιέχει 14 οµάδες καρκίνου Γονίδια Αριθµός δειγµάτων εκπαίδευσης Αριθµός δειγµάτων ελέγχου 16063 144 56
Μέλη Πολυταξικού συνόλου είκτης Τύπος Καρκίνου είγµατα εκπαίδευσης είγµατα ελέγχου 1 1. Στήθους 8 3 2 2. Προστάτη 8 2 3 3. Πνεύµονα 8 3 4 4. Παχέως εντέρου 8 5 5 5. Λέµφωµα 16 6 6 6. Ουροδόχου κύστης 8 3 7 7. Μελάνωµα 8 2 8 8. Μήτρας 8 2 9 9. Λευχαιµία 24 6 10 10. Νεφρικός 8 3 11 11. Πάγκρεας 8 3 12 12. Ωοθήκης 8 3 13 13. Μεσοθηλιακού ιστού 8 3 14 14.Κεντρικού Νευρικού Συστήµατος 16 4
Signal to Noise Ratio Η µέθοδος αυτή χρησιµοποιεί ένα µέτρο συσχετίσεως P(g, c) που δίνει έµφαση στον λόγο «σήµα προς - θόρυβο» (signal to noise) χρησιµοποιώντας τα γονίδια σαν µέσο πρόβλεψης. Έστω µε [µ1(g), σ1(g)] και [µ2(g), σ2(g)] ότι σηµειώνουµε τους µέσους όρους και τις τυπικές αποκλίσεις των επιπέδων έκφρασης του γονίδιου g για τα δείγµατα στην κλάση 1 και 2 αντίστοιχα. µ ( g) µ ( g) σ ( g) + σ ( g) 1 2 (, ) = P g c 1 2
Signal to Noise Ratio Μεγάλες τιµές P(g,c) προδίδει µια σηµαντική συσχέτιση ανάµεσα στην έκφραση του γονιδίου και την διάκριση κλάσης. Ενώ το πρόσηµο του P(g,c) θετικό ή αρνητικό αντιστοιχεί στο να εκφράζεται το γονίδιο g περισσότερο από την κλάση 1 από ότι στην κλάση 2. Αντίθετα µε τον τυπικό συντελεστή συσχέτισης του Pearson, το P(g,c) δεν περιορίζεται στο διάστηµα [-1, +1].
Συνδυαστικές Μέθοδοι Εφαρµόζεται όταν έχουµε περίπτωση δυικής οµαδοποίησης υο είναι πιο συχνά χρησιµοποιούµενες µέθοδοι: 1. One Versus All OVA (ένας έναντι όλων) 2. All Pairs AP (όλα τα ζεύγη)
Συνδυαστικές Μέθοδοι -OVA ηµιουργία κ (κ = αριθµός οµάδων) δυαδικών οµαδοποιητών, καθένας από τους οποίους διακρίνει µια οµάδα από όλες τις άλλες οµάδες συνδυασµένες µαζί. Για ένα δείγµα έλεγχου ο δυαδικός οµαδοποιητής δίνει ένα διάνυσµα διάστασης κ, f(x)=(f 1 (x),, f k (x)). Εάν το f i (x) είναι ένας πραγµατικός αριθµός (π.χ. προβλεπόµενη κλάση µε τιµή εµπιστοσύνης), τότε η µέθοδος πρόβλεψης βρίσκει το µέγιστο των fi(x) και αναθέτει το δείγµα στην αντίστοιχη ετικέτα τάξης: F(x) = argmax i f i (x).
Μέθοδοι Οµαδοποίησης που εξετάζονται στην εργασία Χωρίς επόπτη Με επόπτη Hierarchical Clustering Brain State in a Box Self Organizing Maps Multilayer Perceptron Support Vector Machines Weighted Voting Nearest Neighbors Probabilistic Neural Networks
Μέθοδοι Οµαδοποίησης
Self Organizing Maps
Περιγραφή SOM Πρόκειται για νευρωνικό δίκτυο δυο επιπέδων. Το πρώτο λέγεται επιπεδο εισόδου και δέχεται τις εισόδους. Το δεύτερο λέγεται επιπεδο Kohonen ιάταξη νευρώνων επιπέδου Kohonen: 1. Εξαγωνικό πλέγµα 2. Παραλληλόγραµµο πλέγµα.
Εκπαίδευση SOM Πριν την φάση της εκπαίδευσης αρχικοποιούνται τα βάρη. Τυχαία επιλογή ενός δείγµατος εισόδου. Εύρεση νευρώνα πλησιέστερα στο δείγµα. x x = min{ x m } c Ο νευρώνας αυτός λέγεται BMU. Μετακίνηση του BMU και της τοπολογικής γειτονιάς του πλησίον του δείγµατος. i
Μετακίνηση νευρώνων του SOM προς δείγµα Σχηµατική απεικόνιση της µετακίνησης του BMU και των τοπολογικών γειτόνων του προς το τρέχον δείγµα.
Εκπαίδευση SOM Κανόνας ενηµέρωσης για το διάνυσµα βάρους του νευρώνα i: mi t+ 1 = mi t + hci t x t mi t ( ) ( ) ( ) ( ) ( ) Ο πυρήνας γειτονίας σχηµατίζεται από την συνάρτηση γειτονίας και την συνάρτηση εκµάθησης: h t a t h r r t ( ) = ( ) (, ) ci c i
Συναρτήσεις γειτονιάς για SOM (α) Συνάρτηση Φυσαλίδας, (β) Συνάρτηση Gauss
Σύνοψη SOM Αρχή αυτοοργανούµενων χαρτών (Self Organizing Maps). Τα κεντροειδή ξεκινούν µε µια αυθαίρετη τοπολογία. Καθώς η µέθοδος προχωρά κάθε ένα κινείται προς ένα τυχαία επιλεγµένο γονίδιο κατά την διάρκεια κάθε επανάληψης. Μετά την συνέχιση της διαδικασίας για αρκετό χρόνο, κάθε κεντροειδές θα τοποθετηθεί (ιδανικά) στο κέντρο κάθε κλάσης.
Probabilistic Neural Networks Πιθανοκρατικά Νευρωνικά ίκτυα Νευρωνικό ίκτυο τυπου RBF, για χρηση σε προβλήµατα οµαδοποιησης Όταν παρουσιάζεται µια είσοδος, το πρώτο επιπεδο υπολογίζει τις αποστάσεις από του διανυσµατος εισόδου από όλα τα διανύσµατα εισόδου του συνόλου εκπαίδευσης και παράγει ένα διανυσµα του οποίου τα στοιχεία προσδιορίζουν το πόσο κοντά είναι το διανυσµα εισόδου στα διανύσµατα εισόδου εκπαίδευσης. Το δεύτερο επιπεδο αθροίζει αυτές τις τιµές, για κάθε οµάδα εισόδων προκείµενου να παράγει σαν έξοδο ένα διανυσµα πιθανοτήτων. Τελικά µια συνάρτηση ανταγωνισµού (compete) στην έξοδο του δεύτερου επιπέδου επιλέγει την µέγιστη από αυτές τις πιθανότητες και παράγει 1 για αυτή την κλάση και 0 για τις άλλες.
Support Vector Machines
Βασική ιδέα Αλγόριθµος δυικης οµαδοποίησης. εδοµένου ενός συνόλου σηµείων σε µια από δυο κλάσεις ένα SVM βρίσκει το υπερεπιπεδο που: 1. Αφήνει το µεγαλύτερο δυνατό κλάσµα σηµείων της ίδιας κλάσης στην ίδια µεριά 2. Μεγιστοποιεί την απόσταση της µιας από τις δυο κλάσεις από το υπερεπιπεδο. Εύρεση του βέλτιστου υπερεπιπέδου διαχωρισµού που ελαχιστοποιεί το ρίσκο της λάθος οµαδοποίησης των δειγµάτων εκπαίδευσης και των άγνωστων δειγµάτων ελέγχου.
Γραµµικά SVM εδοµένου ενός συνόλου σηµείων x i εr n κάθε σηµείο χ i σε µια από δυο κλάσεις µε ετικέτα y i ε {-1,1}. Ορισµός 1: Το συνολο Σ είναι γραµµικά διαχωριζόµενο εάν υπάρχει w τ.ω. n και ακόµη τετοιο ώστε: w R b R y w x + b i= 1, 2, K, N i ( ) 1 i Τα ζεύγη (w, b) ορίζουν ένα υπερεπίπεδο από την εξίσωση w x i + b = 0 που ονοµάζεται υπερεπίπεδο διαχωρισµου.η προσηµασµένη απόσταση d i ενός σηµείου x i από το επιπεδο διαχωρισµού (w,b) δίνεται από d i = w x + b i w x Σ Από τις δυο τελευταίες εξισώσεις προκύπτει για όλα τα ότι i yd i i 1 w
Γραµµικά SVM εδοµένου ενός γραµµικά διαχωριζόµενου συνόλου Σ, το βέλτιστο υπερεπίπεδο διαχωρισµού είναι το υπερεπιπεδο διαχωρισµού για το οποίο η απόσταση του πλησιέστερου σηµείου του Σ είναι µέγιστη
Support Vectors Αυτά τα διανύσµατα λέγονται support vectors γιατί είναι τα πλησιέστερα σηµεία από το υπερεπίπεδο διαχωρισµού και τα µόνα σηµεία του Σ που χρειάζονται για την κατασκευή αυτού του βέλτιστου υπερεπιπέδου. Το πρόβληµα τώρα της οµαδοποίησης ενός νέου σηµείου χ λύνεται εύκολα από το πρόσηµο n m της: Φ: R R
Μη γραµµικά Support Vector Machines Στην περίπτωση που δεν µπορεί να βρεθεί ένα υπερεπιπεδο διαχωρισµού που να οµαδοποιεί σωστά τα σηµεία τότε µπορούµε να βρούµε να ανεβούµε σε ένα χώρο υψηλότερων διαστάσεων όπου είναι πολύ πιθανό να υπάρχει τέτοιο επιπεδο διαχωρισµού. Φ: R 2 3 R ( 2 2 ) 1 2 1 2 1 2 x= ( x, x ) x' = x, x, x x Γίνεται δηλαδη χαρτογράφηση των σηµείων δεδοµένων από τον χώρο εισόδου R n σε ένα χώρο µεγαλύτερης διάστασης R m (m > n) ο οποιός λέγεται χώρος χαρακτηριστικών, µε χρήση µιας συνάρτησης πυρήνα Φ. n Φ: R R m
Πειραµατικά Αποτελέσµατα
Ιεραρχική Οµαδοποίηση στα εδοµένα Λευχαιµίας Εφαρµογή στο σύνολο δεδοµένων εκπαίδευσης Εφαρµογή στο σύνολο δεδοµένων ελέγχου Γενικά δεν παρατηρείται καλή απόδοση οµαδοποίησης. Παρατηρούνται καλύτερα αποτελέσµατα στα δεδοµένα εκπαίδευσης, από ότι στα δεδοµένα ελέγχου.
Weighted Voting σε δεδοµένα Λευχαιµίας Κάθετος άξονας εγκυρότητα πρόβλεψης από τον αλγόριθµο Η αριστερή στήλη αναφέρεται στα δεδοµένα εκπαίδευσης µε την µέθοδο της επαλήθευσης µε κατακράτηση ενός Η δεξιά στήλη αναφέρεται στα δεδοµένα ελέγχου Κάτω από την τιµή 0.3 η πρόβλεψη θεωρείται ανασφαλής και απορρίπτεται εδοµένα Αριθµός δειγµάτων Αριθµός γονιδίων Αβέβαια δείγµατα Λάθη Εκπαίδευσης 38 50 2 0 Ελέγχου 34 50 5 0
Εφαρµογή SOM στα δεδοµένα Λευχαιµίας Εφαρµογή στα δεδοµένα εκπαίδευσης Εφαρµογή στα δεδοµένα εκπαίδευσης είγµατα AML είγµατα ALL είγµατα AML είγµατα ALL Τ- κυττάρου είγµατα ALL Β - κυττάρου
SVM στα δεδοµένα Λευχαιµίας Ο παρακάτω πίνακας απεικονίζει τα αποτελέσµατα οµαδοποίησης του SVM για διαφορετικούς αριθµούς γονιδιων στα δεδοµένα ελέγχου. Αριθµός γονιδίων 7129 1000 500 250 50 Αριθµός σφαλµάτων 2 0 1 0 2
SVM στα δεδοµένα Λευχαιµίας Κάθετος άξονας, απόσταση από οριο διαχωρισµού υπερεπιπέδου Αριθµός δείγµατος 34 δείγµατα 7129 γονίδια 2 σφάλµατα AML (*), ALL (+), Σφάλµατα (χ)
Εφαρµογή PNN στα δεδοµένα Λεµφώµατος Για αυτό το πείραµα έγινε διαχωρισµός των δεδοµένων σε δυο συνολα ένα εκπαίδευσης και ένα ελέγχου. Μπλε χρώµα: σωστές προβλέψεις. Κόκκινο χρώµα: λανθασµένες προβλέψεις Η επιλογη των γονιδίων εγινε βάση της µεθόδου s2n. Καλύτερα αποτελέσµατα επιτέυχθησαν µε χρήση 2000 γονιδίων. # Χαρακτηριστικών spread Ακρίβεια Ευαισθησία 2000 28 93% 100% 800 4 87,4% 100% Όλα - 4096 28 79,1% 100%
HC στα δεδοµένα πολυταξικού Χρωµατική αναπαράσταση οµάδων. Παρατηρούµε ότι η µέθοδος δεν κατόρθωσε να αναδείξει την συνάφεια αναµεσα στις οµάδες.
SOM στο πολυταξικό 5x5 SOM Εφαρµογή στα 144 δειγµατα εκπαίδευσης. Χρήση και των 16063 γονιδίων. Χρωµατική αναπαράσταση οµάδων.
Πρόβλεψη βάση απόστασης από το υπερεπίπεδο των SVM Αποτελέσµατα των 14 SVM οµαδοποιητών σε 2 δείγµατα από τα δεδοµένα ελέγχου.
Αποτελέσµατα Αλγορίθµων για το Αριθµός Χαρακτηριστικών 20 40 50 100 200 Όλα 16063 πολυταξικό σύνολο WV - OVA 51 45 44 48 48 - knn - OVA 52 49 48 39 40 - SVM - OVA - - - - - 27 Πίνακας λάθος οµαδοποιήσεων για τις µεθόδους Support Vector Machine, Nearest Neighbors, Weighted Voting που έγινε στα δεδοµένα εκπαίδευσης µε την τεχνική της επαλήθευσης µε κράτηση ενός, όπου αποτελούνταν από 144 δειγµατα. Αριθµός Χαρακτηριστικών 20 40 50 100 200 WV - OVA 23 24 26 25 25 knn - OVA 18 22 18 21 17 SVM - OVA - - - - - Πίνακας λάθος οµαδοποιήσεων για τις µεθόδους Support Vector Machine, Nearest Neighbors, Weighted Voting που έγινε στα δεδοµένα ελέγχου όπου αποτελούνταν από 46 δειγµατα. Όλα 16063 - - 10
Συµπεράσµατα Από τις µεθόδους εκµάθησης χωρίς επόπτη καλύτερα αποτελέσµατα εµφανίζει η µέθοδος SOM. Από τις µεθόδους οµαδοποίησης µε επόπτη καλύτερα αποτελέσµατα εµφανίζει η µέθοδος SVM. Σαφώς καλύτερα αποτελέσµατα λαµβάνουµε από τις µεθόδους µε επόπτη.