Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική
Δραστηριότητες 1. Εύρεση γονιδίων/πρωτεϊνών από βάσεις δεδομένων 2. Ευθυγράμμιση και σύγκριση γονιδίων/πρωτεϊνών 3. Δημιουργία φυλογενετικών δέντρων
DNA SEQUENCING Sanger μέθοδος για DNA sequencing (1977) Next Generation sequencing (Next Gen) επιτρέπει large scale, αυτοματοποιημένο προσδιορισμό αλληλουχίας ολόκληρου γονιδιώματος 2014: 1000$ genome
Ευθυγράμμιση αλληλουχιών (Sequence Alignment) Ευθυγράμμιση και σύγκριση 1. Αλληλουχίες DNA / mrna / Protein 2. Διαφορές σε μία θέση από : a) Μεταλλάξεις (Mutation) b) Απαλοιφές (Deletion) c) Προσθήκες (Insertion) Gaps 3. Καθορισμός ενός συστήματος σκοραρίσματος που θα: a) ανταμείβει ένα όμοιο ζεύγος b) τιμωρεί μια μετάλλαξη (transitions (A < >G) vs transvertions (A< > C)) c) τιμωρεί ένα κενό (origination vs length penalties) Παράδειγμα: scoring system: [+1 match; 1 mutation; 1 gap] Sequence1: CAAAATG Sequence2: AACAATGGC CAAAATG CAAAATG CAA AATG AACAATGGC AACAA TGGC AA CAATGGC * * && & +3 +3 +5
Scoring matrix and gap penalty Mutation, S i,j gap costs, W 11 for gap existence 1 for gap extension
Αιμογλοβίνη: Πρωτεΐνη που αποτελείται από τέσσερις πολυπεπτιδικές αλυσίδες (δύο άλφα και δύο βήτα) Σχεδόν πανομοιότυπη σε γορίλα, χιμπατζή και άνθρωπο Όσο απομακρυνόμαστε από Primates, η ομοιότητα ελαττώνεται. Οι Linus and Pauling παρατήρησαν ότι οι α αλυσίδες μεταξύ ανθρώπου και γορίλα διαφέρουν σε 2 αμινοξέα, και οι β αλυσίδες σε 1. Υπολόγισαν το χρόνο απόκλισης μεταξύ ανθρώπου και γορίλα για τις β αλυσίδες σε 7.3 εκατομμύρια χρόνια. Ancestor Human β Chain β Chain Gorilla β Chain
Φυλογενετική ανάλυση οι αλληλουχίες των νουκλεοτιδίων του DNA στον άνθρωπο και στο χιμπατζή διαφέρουν μόνο κατά 1,27%. συσχέτιση της απόσχισης δύο ειδών και του αριθμού των διαφορών που παρατηρούνται μεταξύ νουκλεοτιδικών ή πρωτεϊνικών μορίων των ειδών αυτών η γενετική απόσταση δύο αλληλουχιών διαφορετικών ειδών που κωδικοποιούν την ίδια πρωτεΐνη αυξάνει γραμμικά με το χρόνο απόκλισης των δύο ειδών. [Zuckerkandl & Pauling]
Human mouse Human β chain: MVHLTPEEKSAVTALWGKV NVDEVGGEALGRLL VVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG Mouse β chain: MVHLTDAEKAAVNGLWGKVNPDDVGGEALGRLL VVYPWTQRYFDSFGDLSSASAIMGNPKVKAHGKK VIN Human β chain: AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGN VLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH Mouse β chain: AFNDGLKHLDNLKGTFAHLSELHCDKLHVDPENFRLLGN MI VI VLGHHLGKEFTPCAQAAFQKVVAGVASALAHKYH 27 διαφορές, (147 27) / 147 = 81.7 % identical Human Chicken Human β chain: MVH L TPEEKSAVTALWGKVNVDEVGGEALGRLL VVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG Chicken β chain: MVHWTAEEKQL I TGLWGKVNVAECGAEALARLL IVYPWTQRFF ASFGNLSSPTA I LGNPMVRAHGKKVLT Human β chain: AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAY QKVVAGVANALAHKYH Chicken β chain: SFGDAVKNLDNIK NTFSQLSELHCDKLHVDPENFRLLGDIL I I VLAAHFSKDFTPECQAAWQKLVRVVAHALARKYH 44 διαφορές, (147 44) / 147 = 70.1 % identical http://jhered.oxfordjournals.org/content/93/3/157.full.pdf
Molecular evolution can be visualized with phylogenetic tree.
Phylogenetic Tree generation using UPGMA (unweighted pair group method with arithmetic mean) Consider the alignment of 5 DNA/Protein sequences that yields from pairwise comparisons the number of miss matches (mutations) Species A B C D B 13 C 3 15 D 8 15 9 E 7 14 4 11 1. Species A and C form the closest pair with only 3 miss matches and will form the first cluster AC 2. Compute pairwise comparisons between AC and B, D, E using the mean value of A and C Species AC B D B (13+15)/2=14 D (8+9)/2=8.5 15 E (7+4)/2=5.5 14 11
Phylogenetic Tree generation using UPGMA 3. Find the closest pair (AC and E) and form a new cluster (AC E) A Species AC E B B (14+14)/2=14 D (8.5+11)/2=9.75 15 C E D B
1. Literature search National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ 2. Gene/Protein Database 3. BLAST Basic Local Alignment Search Tool: http://blast.ncbi.nlm.nih.gov/blast.cgi Compare Nucleotide/Protein sequences Search Nucleotide/Protein databases 4. Primer BLAST : Σχεδιασμός εκκινητών Επιλεκτικοί για ένα γονίδιο/πρωτεΐνη
Δραστηριότητες 1. Εύρεση γονιδίων/πρωτεϊνών από βάσεις δεδομένων α) Βρείτε από τη βάση δεδομένων του NCBI το γονίδιο της Αιμογλοβίνης β (ΗΒΒ) για 7 10 οργανισμούς της επιλογής σας Σημειώστε τους Accession numbers για το mrna και την πρωτεΐνη. β) Για την Hemoglobin β (Rattus norvegicus) Παραθέστε την αλληλουχία βάσεων του γονίδιου και του mrna και των αμινοξέων της παραγόμενης πρωτεΐνης σε FASTA format. Σημειώστε στην αλληλουχία του γονιδίου τα ιντρόνια και τα εξώνια και στην αλληλουχια του mrna τις 5 και 3 UTRs.
Βρείτε τον αριθμό των μεταγραφόμενων βάσεων, το συνολικό μήκος των ιντρονίων, των εξωνίων και των 3 και 5 UTR και των αμινοξέων της πρωτεΐνης. γ) Η ανάλυση του DNA ενός ασθενούς έδειξε μία μετάλλαξη στο χρωμόσωμα 11 στην θέση 5226970 (Chr11:5226970;Assembly GRCh 38) μιας Αδενίνης σε Θυμίνη. Βρείτε αν θα υπάρχει μεταβολή στο mrna και στην παραγόμενη πρωτεΐνη (ΗΒΒ), ποιές θα είναι οι μεταβολές και σε ποια σημεία (του mrna και τις πρωτεΐνης) και από ποια ασθένεια μπορεί να νοσεί ο ασθενής.
National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/
Find the nucleotide/protein sequence of a gene:
Find the nucleotide/protein sequence of a gene: Sequence of section in Chromosome 11 FASTA or GenBank format scroll
Find the nucleotide/protein sequence of a gene: mrna Protein
FASTA sequence format
SNPs
Δραστηριότητες 1. Εύρεση γονιδίων/πρωτεϊνών από βάσεις δεδομένων 2. Ευθυγράμμιση και σύγκριση γονιδίων/πρωτεϊνών A. Χρησιμοποιήστε τον αλγόριθμο BLAST για να ευθυγραμμίσετε και να συγκρίνετε τις πρωτεΐνες αιμογλοβίνη α (ΗΒΑ1) και β (ΗΒΒ) στον άνθρωπο. Παρουσιάστε την ευθυγράμμιση και αναφέρετε τον αριθμό ομοιοτήτων (identities), μεταλλάξεων (mutations) και κενών (gaps).
B. Χρησιμοποιήστε BLAST για να βρείτε από που (γονίδιο και οργανισμό) προέρχεται το θραύσμα cdna/mrna >unknown ATTGATGCTTCTAAGCACATGTGGCCTGGAGACATAAAAGCAGTTTTGGATAAACTTCA CAACCTAAACA
BLAST Basic Local Alignment Search Tool
NM_000518.4 gi 28302128
Align two sequences using BLAST
Σύγκριση αλληλουχίας με όλες τις καταχωρημένες αλληλουχίες
Δραστηριότητες 1. Εύρεση γονιδίων/πρωτεϊνών από βάσεις δεδομένων 2. Ευθυγράμμιση και σύγκριση γονιδίων/πρωτεϊνών 3. Δημιουργία φυλογενετικών δέντρων Συγκρίνετε της αλληλουχίες από τη δραστηριότητα 1 και κατασκευάστε ένα φυλογενετικό δέντρο με την μέθοδο UPGMA
Align sequences using CLUSTAL and plot phylogenetic tree http://www.ebi.ac.uk/tools/msa/clustalo/ FASTA, EMBL, GenBank, Format
Δραστηριότητες 4. Σχεδιασμός εκκινητών (primers) για PCR Θέλουμε να μελετήσουμε την έκφραση HBB σε ενδοθηλιακά κύτταρα αορτής αρουραίου (Rattus norvegicus). Σχεδιάστε 3 ζεύγη εκκινητών για PCR (forward reverse primers) με τα ακόλουθα χαρακτηριστικά: Melting Temperature: 60+3 o C Product size: 100 250 bp Primer Pair Specificity: [Refseq mrna; Exclude predicted Refseq transcript; Exclude uncultured/environmental sample sequences]
Δώστε την αλληλουχία των βάσεων των εκκινητών την θέση τους (αύξοντα αριθμό βάσεων mrna) και μέγεθος του mrna/cdna που θα πολλαπλασιαστεί με την PCR. Αν κατά τη διαδικασία απομόνωσης του RNA από τον ιστό παρέμεινε ποσότητα γενωμικού DNA, τι περιμένετε να συμβεί; Τι θα αλλάζατε στον σχεδιασμό των εκκινητών σε ένα τέτοιο σενάριο; Σχεδιάστε ένα ζεύγος εκκινητών για PCR που να πολλαπλασιάζει μόνο το mrna/cdna του γονιδίου.
http://www.ncbi.nlm.nih.gov/tools/primer blast/