Microarrays
Με τα sequence projects φτάσαμε στην εποχή που η ελάχιστη πληροφορία για να ξεκινήσει ένα πείραμα είναι ολόκληρη ακολουθία DNA του οργανισμού Το DNA όμως του οργανισμού είναι μια στατική πληροφορία Δεν περιγράφει τις δυνατότητες των γονιδίων της ακολουθίας Τα γονίδια μεταγράφονται και μεταφράζονται σε άλλα μόρια (κυρίως σε πρωτεΐνες) χρήσιμα για τον οργανισμό
Μέχρι τώρα κοιτάζαμε στατικά την γενετική πληροφορία στα κύτταρα για να κατανοήσουμε ένα γονιδίωμα πρέπει να κατανοήσουμε πως τα γονίδια του αλληλεπιδρούν μεταξύ τους πόσο ενεργά -active- είναι διάφορα γονίδια κάτωαπόδιάφορεςσυνθήκες ένας τρόπος να τα δούμε αυτά είναι με το να φωτογραφίζουμε τα κύτταρα πόσοαπότοκάθεmrna βρίσκεται στο κύτταρο; microarrays μας επιτρέπουν να μετράμε την ποσότητα mrna για χιλιάδες γονίδια ταυτόχρονα
Transcription DNA G T A A T C C T C C A T T A G G A G RNA polymerase mrna G U A A U C C
Θέμα: μέτρηση της παρουσίας mrna, γιαναδείς ποια γονίδια εκφράζονται στο κύτταρο Μέτρηση πρωτεΐνης, μπορεί να είναι καλύτερο, αλλά τεχνικά δυσκολότερο
Η σύγκριση των βιολογικών λειτουργιών ανάμεσα σε υγιείς και ασθενείς γινόταν με την προσπάθεια να βρεθεί ένα γονίδιο που να ευθύνεται για το συγκεκριμένο φαινότυπο Απλοποίηση του προβλήματος Πολλά γονίδια και πρωτεΐνες συνδυάζονται και συνεργάζονται για να εκτελέσουν κάποιες λειτουργίες Χρειάζεται να ερευνήσουμε πολλά γεγονότα του κυττάρου ταυτόχρονα για να δούμε ποια γονίδια εκφράζονται περισσότερο σε κάποια κατάσταση
O φαινότυπος του κυττάρου σχετίζεται με τη ποσότητα μετάφρασης των γονιδίων Ποια γονίδια μεταφράστηκαν και πόσο mrna υπάρχει στο κύτταρο από κάθε γονίδιο Το ποσοστό του mrna είναι ο δείκτης του gene expression του κάθε γονιδίου Τα microarrays βασίζονται στην καταγραφή αυτού του gene expression ταυτόχρονα για όλα τα γονίδια του οργανισμού
Απαντάνε στις πιο κάτω Πόσο ενεργά είναι κάποια γονίδια όταν βρίσκονται σε διαφορετικά κύτταρα ή διαφορετικά όργανα του σώματος. πως αλλάζει η ενεργητικότητα των γονιδίων κάτω από διάφορες συνθήκες διάφορα στάδια του κύκλου ζωής του κυττάρου περιβαλλοντικές συνθήκες ασθένειες ποια γονίδια φαίνονται να εκφράζονται παρόμοια και να συνεργάζονται
DNA arrays ή DNA chips, gene chips two general types that are popular cdna ή spotted arrays (pioneered by Pat Brown @ Stanford) oligonucleotide arrays (pioneered by Affymetrix Inc.) και οι δύο βασίζονται στις ίδιες βασικές αρχές αγκιστρώνουν κομμάτια DNA σε glass/nylon slides συμπληρωματική υβριδοποίηση (complementary hybridization)
λόγω του ζευγαρώματος βάσεων Watson- Crick, συμπληρωματικά single-stranded μόρια DNA/RNA υβριδοποιούνται hybridize- (συνδέονται μεταξύ τους) AGCGGTTCGAATACC UCGCCAAGCUUAUGG TCGCGAAGCTAGACA CCGAAATAGCCAGTA
ένας τρόπος να γίνει πρακτικά τοποθετούμε τα γονίδια στο array μετατρέπουμε το mrna σε cdna χρησιμοποιώντας την reverse transcriptase TCGCCAAGCTTATGG AGCGGTTCGAATACC actual gene cdna reverse transcriptase UCGCCAAGCUUAUGG mrna
Δημιουργία αλυσίδων cdna, συμπληρωματικών προς το mrna mrna G U A A U C C U C Reverse transcriptase cdna T T A G G A G C A T T A G G A G C A T T A G G A G C C A T A G G A G C A A T C T A A A G C A A A G T G G A G T A G A G C A T T A G G A GA G C A T T A G G A G
Συγκέντρωση mrna, σε διαφορετικά περιβάλλοντα Διαφορετικοί ιστοί, ίδιος οργανισμός (εγκέφαλος, συκώτι) Ίδιος ιστός, ίδιος οργανισμός (π.χ καρκινικά, μη καρκινικά) Ίδιος ιστός, διαφορετικοί οργανισμοί Πειράματα στο χρόνο
Κλώνοι cdna
Ένα robot τοποθετεί μικρά spots DNA σε γυάλινα slides Κάθε spot είναι το DNA ανάλογο κάποιου από τα mrnas που θέλουμε να μετρήσουμε
δυο δείγματα (reference and test) από mrna γίνονται reverse transcribed σε cdna, γίνονται labeled με fluor dyes και τοποθετούνται για υβριδοποίηση στον array reference test mrna cdna
Σύγκριση έκφρασης, δύο δειγμάτων PRINT Γονίδιο cdna σε κάθε θέση Δείγματα cdna κατηγορ. red/green e.g. Rna αναφοράς (reference)/ Rna μελέτης (target-test)
Υβριδοποίηση Βάλε ίσες ποσότητες κατηγοριοποιημένου δειγμάτων cdna στην μικροσυστοιχία Laser SCAN Detector
lasers επιδρούν στον array και εκπέμπεται η ένταση του χρώματος κάθε ετικέτας fluorescent dye
εικόνα αποτελέσματος
δεν μπορούμε να μετρήσουμε την απόλυτη ποσότητα του mrna που υπάρχει για κάθε γονίδιο αλλά μπορούμε να μετρήσουμε την ποσότητα αυτή ανάλογη με την ποσότητα του mrna σε ένα reference δείγμα σε κάθε μέτρηση μετράμε το λόγο log redi green i όπου red είναι το test expression level, και green είναι το reference level για το γονίδιο G στο i th πείραμα G i
Target-Test: Άγνωστη ακολουθία DNA Probe: γνωστή ακολουθία DNA Υβριδοποίηση στόχου και probe σήμα δηλώνει επίπεδο έκφρασης Κατηγορίες Δυνατότητα ανάθεσης «χρωμάτων» στις δύο ακολουθίες
Ερμηνεία εικόνας Κόκκινο (Cy5)=υπερβάλλουσα έκφραση Πράσινο (Cy3)=χαμηλή έκφραση Κίτρινο = ίση έκφραση Εντοπισμός ορίων κουκίδων (spots) των περιοχών της μικρο συστοιχίας Παραμόρφωση κουκίδων Μεταβλητή φωτεινότητα
Affymetrix s GeneChips
αντί να τοποθετούνται ολόκληρα γονίδια στο microarray, τοποθετούνται σετ από ακολουθίες DNA μήκους 25 βάσεων (25-mers oligonucleotides) Τα oligos αυτά συνθέτονται πάνω στο chip η επεξεργασία των δειγμάτων mrna γίνεται ξεχωριστά αντί σε ζευγάρια
δεδομένου ενός γονιδίου για μέτρηση, επιλέγουμε κομμάτια 20 25-mers του γονιδίου gene 25-mers κριτήρια επιλογής specificity hybridization properties ease of manufacturing
τοποθετούμε κάθε κομμάτι 25-mer στο chip επιπρόσθετα δίπλα στο κάθε ένα τοποθετείτε μια πολύ παρόμοια ακολουθία του (που διαφέρει μόνο στην 13η βάση) αυτό βοηθά στην εύρεση λανθασμένων υβριδισμών οι μετρήσεις για ένα γονίδιο υπολογίζονται τοποθετώντας και ένα δείγμα cdna πάνω στο γυαλί Αν δυο δείγματα πρέπει να συγκριθούν θα χρειαστεί επιπρόσθετο array
array CGH: array Comparative Genomic Hybridization ψάχνουν Copy Number Variations στα χρωμοσώματα SNP arrays ψάχνουν για διαφορές στις ακολουθίες των χρωμοσωμάτων συνδυάζουν πληροφορίες και από τα 2 ζεύγη κάθε χρωμοσώματος
Βιολογική Ερώτηση Differentially expressed genes Πρόβλεψη κατηγορίας Σχεδιασμός Πειράματος Πείραμα Microarray Επεξεργασία Εικόνας Κανονικοποίηση 16-bit TIFF files (Rfg, Rbg), (Gfg, Gbg) R, G Estimation Testing Clustering Discrimination Επαλήθευση και ερμηνεία
Πείραμα 1 Πείραμ α 2 Πείραμα 3... Πείραμα 4 Γονίδιο 1 Log 2 (Cy5/Cy3) =2.3 Γονίδιο 2 Γονίδιο 3
1. Κανονικοποίηση = απομάκρυνση, συστηματικού σφάλματος από τα δεδομένα
Υπολογισμός για κάθε γραμμή και κάθε στήλη της μέσης τιμής και της διασποράς. Μέσες τιμές Ποια γονίδια έχουν εκφράζονται περισσότερο, κατά μέσο όρο; Σε ποια πειράματα είχαμε κατά μέσο όρο τις υψηλότερες/χαμηλότερες τιμές Διασπορά Ποια έχουν τη μεγαλύτερη/μικρότερη διαφορά Ποιες πειραματικές συνθήκες ποικίλουν πολύ/λίγο;
Γραφήματα επιλεγμένων γονιδίων
clustering γονιδίων: ποια γονίδια φαίνονται να εκφράζονται μαζί με τον ίδιο τρόπο clustering δειγμάτων: ποιες θεραπείες/ άτομα έχουν παρόμοια profiles κατηγοριοποίηση γονιδίων: που ανήκει το κάθε γονίδιο όσον αφορά την λειτουργία του κατηγοριοποίηση δειγμάτων: που ανήκουν τα δείγματα ανάλογα με τα χαρακτηριστικά τους ανακάλυψη regulatory networks: πως είναι η δικτύωση του κυττάρου
Μεγάλα σύνολα δεδομένων, ομαδοποίηση γονιδίων Επιβλεπόμενη μάθηση: Δοσμένων γονιδίων γνωστών κατηγοριών Κατασκεύασε μοντέλο, που γενικεύει Αλγόριθμοι: Νευρωνικά Δίκτυα, Μηχανές υποστήριξης Διανυσμάτων, δένδρα απόφασης Μη επιβλεπόμενη μάθηση Δεν είναι γνωστές οι κατηγορίες των γονιδίων Αλγόριθμοι: Ιεραρχική ομαδοποίηση, k-means, μείωση διαστάσεων
Έστω Χ, Υ δύογονίδια, χ ι, y i, τα επίπεδα έκφρασης γονιδίων (συγκέντρωση mrna) σε μία σειρά d πειραμάτων d( x, y) = R( x, y) = d i= 1 d d i= 1 ( x ( x i y i ( x i x)( y x) i i= 1 i= 1 d i ( y i 2 ) y) y) Αποστάσεις d-διάστατων διανυσμάτων μέτρο διαφοράς Συντελεστής αυτοσυσχέτισης μέτρο διαφοράς, αν πάρω το 1-R Με καθένα από τα δύο μπορώ να φτιάξω τον πίνακα αποστάσεων για να χρησιμοποιηθεί για ανάλυση clusters
Αλγόριθμος Ιεραρχικής ομαδοποίησης Επανάληψη Βρες δύο ομάδες (C i, C j ), όπου d(c i, C j ) είναι ελάχιστο Συγχώνευσε τα (C i, C j ), σε μία νέα ομάδα C q Αντικατέστησε τα C i, C j με το C q Φτιάξε (ανανέωσε) τον πίνακα αποστάσεων Τερμάτισε, ανόλαταγονίδιαείναιστο ίδια ομάδα, αλλιώς πήγαινε στο βήμα επανάληψη Ορισμός απόστασης ομάδων: H ελάχιστη Η μέγιστη Ο μέσος όρος βάρη
Επιβάλλεται φυλογενετικό δέντρο Δεν είναι καλή μέθοδος για οπτικοποίηση (visualisation) πολλών δεδομένων
Σκοπός: εύρεση των κέντρων των ομάδων. k ομάδες E = 1 n min 1 n i= 1 j k x i a j 2 Μέθοδος: ελαχιστοποίηση του σφάλματος, E
Silhouette method: Εξετάζει πόσο καλά βρίσκεται ένα γονίδιο σε μία ομάδα (cluster) s(i) μεγάλο καλή ομαδοποίηση s(i) κοντά στο 0 ανήκει σε δύο ομάδες s(i) μικρό κακή ομαδοποίηση α(i)=μέση ανομοιότητα (dissimilarity) Του γονιδίου α, από όλα της ίδιας ομάδα d(i,c)= μέση ανομοιότητα (dissimilarity) Του γονιδίου α, από όλα τα άλλα των άλλων ομάδων. Και b(i) η μικρότερη από όλα b( i) a( i) s( i) =, s( i) [ 1, + 1] max( a( i), b( i))
Έχοντας δεδομένα πολλών διαστάσεων, μείωσε τις διαστάσεις με το ελάχιστο δυνατό σφάλμα Μέθοδος Πρωτευουσών Συνιστωσών (Principal Component Analysis) Είσοδος: Πολυδιάστατα δεδομένα Μέθοδος: Περιστρέφει τα δεδομένα στο χώρο, ώστε ο άξονας με τη μέγιστη διασπορά να ευθυγραμμιστεί με τον x. To ίδιο επαναλαμβάνεται για τους άλλους άξονες
Ταξινόμηση βιολογικών δειγμάτων σε γνωστές κατηγορίες Δεδομένα μικρο-συστοιχιών=πίνακας nxd n γονίδια, d-πειράματα/χρονικές στιγμές
Δοσμένων δειγμάτων γνωστών κατηγοριών Βρές κατηγορία αγνώστου δείγματος Αλγόριθμος: Βρες τα k-κοντινότερα δείγματα Η κατηγορία του αγνώστου, είναι η κατηγορία που δείχνει η πλειοψηφία των δειγμάτων
Κατασκευή μοντέλου για πρόβλεψη κατηγορίας αγνώστου δείγματος Εύρεση επιφάνειας που διαχωρίζει τις κατηγορίες Ακριβέστερο, από k-neighbour, αλλά απαιτεί πολλά δείγματα για εκπαίδευση.