ΜΕΛΕΤΗ ΤΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ Σελίδα 1
Μελέτη του γονιδιώματος Ποια είναι τα γονίδια και που βρίσκονται; Ποιοι μηχανισμοί ρυθμίζουν την έκφραση κάθε γονιδίου; Σε τι επίπεδα εκφράζονται τα γονίδια υπό διαφορετικές συνθήκες; Ποια είναι η λειτουργία των γονιδίων; Πως τα προϊόντα των διαφόρων γονιδίων αλληλεπιδρούν μεταξύ τους ή με άλλα μόρια στο κύτταρο; Σελίδα 2
Μετατροπή της πληροφορίας που είναι κωδικοποιημένη σε ένα γονίδιο σε παρατηρήσιμο φαινότυπο. Κυρίως μέσω της παραγωγής μιας πρωτεΐνης Γονιδίωμα: στατικό Κάθε κύτταρο έχει ένα αντίγραφο του ίδιου γονιδιώματος. Κύτταρο: δυναμικό Γονιδιακή Έκφραση Διαφοροποιείται (π.χ. κύτταρα διαφορετικών ιστών). Αποκρίνεται σε εξωτερικά ερεθίσματα. Ακολουθεί τον κυτταρικό κύκλο. Σελίδα 3
Γονιδιακή Έκφραση Ρύθμιση Γονιδιακής Έκφρασης έκφραση / μη έκφραση ("on/off" switch) ποια γονίδια εκφράζονται σε ένα κύτταρο ποσοτικό επίπεδο έκφρασης ("volume control") αύξηση ή μείωση του επιπέδου έκφρασης των γονιδίων ~ 40% των ανθρώπινων γονιδίων εκφράζονται σε μια χρονική στιγμή αλλαγές στη γονιδιακή έκφραση σχετίζονται με ασθένειες Σελίδα 4
Ρυθμιστικοί Μηχανισμοί αντίγραφα γονιδίου προσβασιμότητα στη χρωματίνη μεταγραφικοί παράγοντες micrornas σταθερότητα πρωτεΐνης μετα-μεταφραστικές τροποποιήσεις DNA μεταγραφή mrna μετάφραση Πρωτεΐνη Σελίδα 5
Μεταγραφικοί Παράγοντες (Transcription Factors, TFs) πρωτεΐνες προσδένονται στο DNA ρυθμίζουν τη μεταγραφή των γονιδίων έναρξη προαγωγή καταστολή
Θέσεις Πρόσδεσης Μεταγραφικών Παραγόντων (Transcription Factor Binding Sites, TFBSs) ακολουθίες του DNA όπου προσδένονται οι TFs μήκος 5-20 νουκλεοτίδια βρίσκονται συνήθως στο 5 άκρο των γονιδίων σε μεταβλητές αποστάσεις ακολουθία: συντηρημένες και εκφυλισμένες θέσεις δυσκολίες στην ανίχνευσή τους Σελίδα 7
γονίδια κωδικοποίηση πρωτεϊνών μοτίβα ρύθμιση γονιδιακής έκφρασης
TFBSs δεδομένης μιας ομάδας γνωστών μοτίβων, αξιόπιστη αναζήτησή τους στις ρυθμιστικές περιοχές γονιδίων δεδομένης μιας ομάδας ρυθμιστικών περιοχών γονιδίων που συνεκφράζονται, εύρεση ενός ή περισσότερων κοινών μοτίβων Σελίδα 9
Consensus Sequence Αναπαράσταση Μοτίβων αν υπάρχει το ίδιο σύμβολο στην πλειοψηφία των ακολουθιών, χρήση του συγκεκριμένου συμβόλου, διαφορετικά χρήση όλων των συμβόλων TACGAT TATAAT TATAAT GATACT TATGAT TATGTT TAT[AG][ACT]T Σελίδα 10
Sequence Logo Αναπαράσταση Μοτίβων x {A,C,G,T} και p i (x) η συχνότητα του x στη θέση i της ακολουθίας Entropy H - Information content i π.χ. p i (A)=p i (C)=p i (G)=p i (T)=1/4 H i =2, I i =0 ύψος των γραμμάτων: p i (x)*i i x p i (x) log I i 2 p i = 2 + (x) x p i (x) log 2 p i (x)
Frequency matrix Αναπαράσταση Μοτίβων Σελίδα 12
Αναπαράσταση Μοτίβων Position Specific Scoring Matrices (PSSM) διόρθωση για τη συχνότητα εμφάνισης των βάσεων στο γονιδίωμα μετατροπή σε λογάριθμους για ευκολία στους υπολογισμούς (n log ij p όπου N ο αριθμός των ακολουθιών, n ij η συχνότητα εμφάνισης του συμβόλου i στη θέση j και p i η a priori πιθανότητα του συμβόλου i i p )/(N 1) i Σελίδα 13
Αναπαράσταση Μοτίβων Position Specific Scoring Matrices (PSSM) Βαθμολόγηση ακολουθίας Raw Scores άθροισμα τιμών των αντίστοιχων κελιών του πίνακα Relative Scores κανονικοποίηση στο εύρος 0-1 ή 0%-100% Empirical p-values βάσει της κατανομής των scores για κάποια ακολουθία DNA, καθορισμός ενός p-value Σελίδα 14
Αναπαράσταση Μοτίβων
αναζήτηση γνωστών μοτίβων σε ρυθμιστικές περιοχές γονιδίων βάσεις δεδομένων TRANSFAC http://www.gene-regulation.com/pub/databases.html JASPAR http://jaspar.genereg.net/ Σελίδα 16
αναζήτηση γνωστών μοτίβων σε ρυθμιστικές περιοχές γονιδίων πρόβλημα μεγάλος αριθμός λανθασμένων προβλέψεων (false positives) PSSM κάθε θέση είναι ανεξάρτητη από τις υπόλοιπες άλλα μοντέλα π.χ. HMMs μοντελοποίηση της εξάρτησης από προηγούμενες θέσεις Σελίδα 17
αναζήτηση γνωστών μοτίβων σε ρυθμιστικές περιοχές γονιδίων Phylogenetic Footprinting αναζήτηση ρυθμιστικών στοιχείων σε ομόλογες ρυθμιστικές περιοχές σε μη κωδικοποιούσες περιοχές, τα ρυθμιστικά στοιχεία μεταβάλονται με πιο αργό ρυθμό από τις γειτονικές τους αλληλουχίες
αναζήτηση γνωστών μοτίβων σε ρυθμιστικές περιοχές γονιδίων Phylogenetic Footprinting πολύ κοντινά είδη, λειτουργικά στοιχεία παρόμοια συντήρηση με υπόλοιπες αλληλουχίες πολύ μακρινά είδη, αποτυχία στοίχισης μικρού μήκους μοτίβων Σελίδα 19
αναζήτηση γνωστών μοτίβων σε ρυθμιστικές περιοχές γονιδίων Phylogenetic Footprinting FootPrinter http://bio.cs.washington.edu/software phastcons http://compgen.cshl.edu/phast/ TargetOrtho http://hobertlab.org/targetortho/ εξειδίκευση vs. ευαισθησία
ανακάλυψη νέων μοτίβων Σελίδα 21
ανακάλυψη νέων μοτίβων Συνδυαστική εύρεση ολιγομερών που υπερ-εκπροσωπούνται στις υπό μελέτη ρυθμιστικές περιοχές περιορισμός στο μήκος / ασθενές μοτίβο Πιθανοκρατική εύρεση ενός ισχυρού μοτίβου έναντι ενός μοντέλου για τις συχνότητες υποβάθρου Expectation Maximization Gibbs Sampling Σελίδα 22
ανακάλυψη νέων μοτίβων Επιλογή του μήκους L των ρυθμιστικών περιοχών που θα χρησιμοποιηθούν μεγάλο μήκος: τυχαία μοτίβα "ανακατεύονται" με τα πραγματικά μικρό μήκος: πραγματικά μοτίβα μπορεί να λείπουν από κάποιες ακολουθίες L γονίδια Σελίδα 23
ανακάλυψη νέων μοτίβων καλύτερα μοντέλα υποβάθρου phylogenetic footprinting αρχιτεκτονικοί κανόνες περιορισμός στον τύπο των προφίλ δέσμευσης που επιτρέπονται YMF http://bio.cs.washington.edu/ymf/ymfweb/ymfinput.pl MEME http://meme-suite.org/ W-AlignACE http://www1.spms.ntu.edu.sg/~chenxin/w-alignace/ A survey of DNA motif finding algorithms.modan K Das,Ho-Kwok Dai. BMC Bioinformatics. 2007; 8(Suppl 7): S21. Σελίδα 24
Γονίδιο Σελίδα 25
Γενετικός κώδικας Σελίδα 26
ανοιχτό πλαίσιο ανάγνωσης (open reading frame, ORF) Σελίδα 27
Προκαρυωτικά vs. Ευκαρυωτικά Γονίδια
Μέθοδοι πρόγνωσης γονιδίων Σελίδα 29
Απαρχής μέθοδοι Μέθοδοι πρόγνωσης γονιδίων coding statistics διαφορές στη νουκλεοτιδική σύσταση στις κωδικοποιούσες signals περιοχές μικρά μοτίβα DNA π.χ. εκκινητές Συνδυασμός χαρακτηριστικών αποτυπωμάτων και Ομολογία Υβριδικές νουκλεοτιδικής σύστασης της ακολουθίας. Σελίδα 30
coding statistics διαφορές στη νουκλεοτιδική σύσταση των κωδικοποιουσών αλληλουχιών μείωση των stop codons προτίμηση κωδικονίων συχνότητα χρήσης αμινοξέων συχνότητα χρήσης συνώνυμων κωδικονίων προτίμηση ζευγών κωδικονίων διαφορές ανάλογα με το επίπεδο έκφρασης διαφορές μεταξύ οργανισμών Σελίδα 31
coding statistics Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες του οργανισμού shewanella Σελίδα 32
coding statistics Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες των οργανισμών shewanella και bovine Σελίδα 33
coding statistics Κάποια αμινοξέα προτιμούν / δεν προτιμούν να βρίσκονται δίπλα σε κάποια άλλα. Διαφορά στη συχνότητα εμφάνισης εξαμερών (π.χ. AAA TTT) μεταξύ κωδικοποιουσών (K) / μη κωδικοποιουσών (MK) αλληλουχιών. Στον άνθρωπο, συχνότητα εμφάνισης εξαμερούς "AAA AAA" ~1% στις κωδικοποιούσες αλληλουχίες ~5% στις μη κωδικοποιούσες αλληλουχίες Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης εξαμερών. Σελίδα 34
coding statistics FC(X) συχνότητα εμφάνισης του εξαμερούς X σε K FN(X) συχνότητα εμφάνισης του εξαμερούς X σε MK P(X) = log (FC(X)/FN(X)) P(X) = 0, X ίδια συχνότητα σε K και MK P(X) > 0, X μεγαλύτερη συχνότητα σε K P(X) < 0, X μεγαλύτερη συχνότητα σε MK score προτίμησης S(X) = Σ (P 0 (X) + P 1 (X) + P 2 (X)) Σελίδα 35
coding statistics Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης εξαμερών. Για κάθε ORF Κυλιόμενο παράθυρο μήκους 60 βάσεων Υπολογισμός του score προτίμησης Χρήση τιμής κατωφλίου για τον καθορισμό των γονιδίων που έχει προκύψει από τη μελέτη γνωστών Κ και ΜΚ
signals Οι μηχανισμοί της μεταγραφής και της μετάφρασης δημιουργούν χαρακτηριστικά "αποτυπώματα" στην ακολουθία του DNA. Κωδικόνια έναρξης (ATG) και λήξης (TAA, TAG, TGA) της μετάφρασης Θέσεις πρόσδεσης μεταγραφικών παραγόντων Σημεία συρραφής δότη δέκτη Σηµείο πολυαδενυλίωσης CpG islands Σελίδα 37
signals Θέσεις πρόσδεσης μεταγραφικών παραγόντων μήκος 5-15 νουκλεοτίδια συνήθως στο 5 άκρο των γονιδίων σε μεταβλητές αποστάσεις ακολουθία: συντηρημένες και εκφυλισμένες θέσεις δυσκολίες στην ανίχνευσή τους Σελίδα 38
signals Σημεία συρραφής δότη δέκτη Η αποκοπή των εσωνίων και το μάτισμα των εξωνίων πρέπει να γίνονται με απόλυτη ακριβεία, έτσι ώστε να διαφυλάσσεται το σωστό πλαίσιο ανάγνωσης. Υπάρχουν συντηρημένα μοτίβα στα σημεία συρραφής δότη - δέκτη (donor - acceptor splice junction); T A A T A T G T C C A C G G G T A T T G A G C A T T G T A C A C G G G G T A T T G A G C A T G T A A T G A A εξώνιο 1 εξώνιο 2 εξώνιο 3 Σελίδα 39
signals Σημεία συρραφής δότη δέκτη Σελίδα 40
signals CpG islands Σελίδα 41
signals CpG islands Το δινουκλεοτίδιο CG υποεκπροσωπείται σε πολλά γονιδιώματα. ΤΑCGTACTGATCTGATC Στις περιοχές κοντά στο 5 άκρο των γονιδίων (upstream regions) η συχνότητα εμφάνισης του δινουκλεοτιδίου CG αυξάνεται. CpG islands p φωσφοδιεστερικός δεσμός μεταξύ C και G, δηλαδή τα C και G βρίσκονται στην ίδια αλυσίδα Τα CpG islands αποτελούν ένδειξη για την ύπαρξη γονιδίων, αλλά πάντα σε συνδυασμό με άλλα στοιχεία. Σελίδα 42
signals Σελίδα 43
Απαρχής μέθοδοι geneid http://genome.crg.es/software/geneid/ Genscan http://genes.mit.edu/genscan.html
Ομολογία
Ομολογία GeneWise http://www.ebi.ac.uk/tools/psa/genewise/ Στοίχιση γενομικού DNA με πρωτεϊνική ακολουθία Χειρίζεται τα εσώνια και λάθη στο πλαίσιο ανάγνωσης Απαραίτητο υψηλό ποσοστό ομοιότητας BLAST http://blast.ncbi.nlm.nih.gov/ Γρήγορη αναζήτηση εξωνίων Μείωση του χώρου αναζήτησης για άλλα προγράμματα Σελίδα 46
Υβριδικές Τεχνικές Απαρχής πρόγνωση και στοίχιση ακολουθιών AUGUSTUS http://bioinf.uni-greifswald.de/webaugustus/ CONTRAST http://contra.stanford.edu/contrast/ Σελίδα 47
Εκτίμηση ακρίβειας πρόγνωσης Ευαισθησία (Sensitivity, Sn) ποσοστό γνωστών γονιδίων (ή βάσεων ή εξωνίων) που προβλέπονται σωστά Sn TruePositive AllTrue TruePositive TruePositive FalseNegative Εξειδίκευση (Specificity, Sp) ποσοστό προβλεπόμενων γονιδίων (ή βάσεων ή εξωνίων) που αντιστοιχούν σε πραγματικά γονίδια Sp TruePositive AllPositive TruePositive TruePositive FalsePositive Σελίδα 48
Πρόγνωση γονιδίων Χαμηλός λόγος σήμα/θόρυβο Εξειδικευμένα προγράμματα για συγκεκριμένους οργανισμούς διαφορετικά χαρακτηριστικά π.χ. προτίμηση κωδικονίων εκπαίδευση σε συγκεκριμένους οργανισμούς Ιδιαίτερη δυσκολία στα ευκαρυωτικά γονίδια εξώνια / εσώνια εναλλακτικό ματίσμα Μη τυπικά γονίδια Λάθη στην αλληλούχιση Ψευδώς θετικές / αρνητικές προβλέψεις Σελίδα 49
Πρόγνωση γονιδίων "Finally, we wish to again warn the users of gene prediction software that the results produced should be taken with caution: although such results are becoming increasingly more reliable, they do only remain predictions. These are very useful for speeding up gene discovery and knowledge mining thereof, but biological expertise remains necessary in order to confirm the existence of a virtual protein and to find or prove its biological function and its condition of expression in the organism." Mathe, Nucleic Acids Research, 2002, 30 (19) 4103 Σελίδα 50