ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 2 ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

Α. Εισαγωγικά Στοιχεία Βιολογίας 1. DNA (Δεοξυριβονουκλεϊκό Οξύ) Φορέας γενετικής πληροφορίας Το DNA είναι ένα επίμηκες μόριο που αποτελείται από δεοξυριβονουκλεοτίδια (εν συντομία νουκλεοτίδια). Κάθε νουκλεοτίδιο αποτελείται από μία αζωτούχα βάση, ένα σάκχαρο (δεοξυριβόζη) και μία φωσφορική ομάδα. Υπάρχουν 4 διαφορετικές βάσεις που ανήκουν σε 2 κατηγορίες: τις πουρίνες (purines): αδενίνη (adenine, A), γουανίνη (guanine, G) τις πυριμιδίνες (pyrimidines): θυμίνη (thymine, T), κυτοσίνη (cytosine, C) Οι βάσεις είναι το μόνο στοιχείο που διαφοροποιεί τα νουκλεοτίδια. Οι 4 αζωτούχες βάσεις του DNA. Τα νουκλεοτίδια μπορούν να ενώνονται μεταξύ τους με οποιαδήποτε σειρά σχηματίζοντας πολυνουκλεοτίδια (polynucleotide). Η αλληλουχία των βάσεων του DNA μεταφέρει τη γενετική πληροφορία, ενώ τα σάκχαρα και οι φωσφορικές ομάδες έχουν δομικό ρόλο. Τα δύο άκρα μιας πολυνουκλεοτιδικής αλυσίδας / μόριο DNA είναι χημικά διαφορετικά και σημειώνονται ως 5' και 3'. Αυτό σημαίνει ότι η ακολουθία του DNA έχει κατευθυντικότητα και κατά σύμβαση γράφεται από το 5' αριστερά προς το 3' δεξιά. Δύο αλυσίδες DNA ονομάζονται συμπληρωματικές αν η μία μπορεί να προκύψει από την άλλη με αμοιβαία αντικατάσταση των A με Τ και των C με G, και αλλάζοντας την κατεύθυνση του μορίου, π.χ. 5' C-G-A-T-A-A-T-G-C 3' 3' G-C-T-A-T-T-A-C-G 5' Νουκλεοτίδια που ανήκουν σε διαφορετικές αλυσίδες DNA μπορούν να αλληλεπιδράσουν μεταξύ τους. Ειδικότερα, μεταξύ της αδενίνης και της θυμίνης

σχηματίζονται δύο δεσμοί υδρογόνου, ενώ μεταξύ της γουανίνης και της κυτοσίνης τρεις δεσμοί υδρογόνου. Τα ζεύγη A-T και G-C ονομάζονται ζεύγη βάσεων (basepairs, bp) και το μήκος μιας αλυσίδας DNA εκφράζεται bp ή σε νουκλεοτίδια (nt). Αν και οι δεσμοί υδρογόνου είναι μεμονωμένα ασθενείς αλληλεπιδράσεις, όταν δύο συμπληρωματικές αλυσίδες μεγάλου μήκους συναντηθούν, ενώνονται μεταξύ τους δημιουργώντας τη διπλή έλικα του DNA. Η διπλή έλικα του DNA. Ανακαλύφθηκε το 1953 από τους James Watson και Francis Crick, βάσει των πειραματικών δεδομένων των Rosalind Franklin και Maurice Wilkins. 2. RNA (Ριβονουκλεϊκό Οξύ) Πρωτεϊνοσύνθεση, Ενζυματική δράση, Ρύθμιση έκφρασης γονιδίων Το RNA όπως και το DNA δημιουργείται από νουκλεοτίδια. Έχει ωστόσο δύο διαφορές: το σάκχαρο των νουκλεοτιδίων είναι ριβόζη αντί για δεοξυριβόζη χρησιμοποιείται η βάση ουρακίλη (uracil U) αντί για θυμίνη (T). Εξαιτίας αυτών των διαφορών, το RNA δεν δημιουργεί διπλή έλικα, αλλά ενδέχεται να έχει τοπικά διπλοελικωμένες περιοχές λόγω συμπληρωματικότητας μεταξύ τμημάτων της ίδιας αλυσίδας. Υπάρχουν διάφοροι τύποι RNA, όπως: Αγγελιοφόρο (messenger) mrna Μεταφορικό (transferrna) trna Ριβοσωμικό (ribosomalrna) rrna Μικρό Πυρηνικό (small nuclear) snrna microrna mirna

3. Πρωτεΐνες Δομικός και Λειτουργικός ρόλος 20 διαφορετικά αμινοξέα αποτελούν τις δομικές μονάδες των πρωτεϊνών. Τα αμινοξέα αποτελούνται από μία αμινομάδα και μία καρβοξυλομάδα συνδεδεμένες σε ένα άτομο άνθρακα Ca. Στο ίδιο άτομο ενώνεται και μία πλευρική αλυσίδα, η οποία διαφέρει μεταξύ των αμινοξέων και καθορίζει τις ιδιότητές τους. Αμινοξύ δομική μονάδα πρωτεϊνών Τα αμινοξέα ενώνονται μεταξύ τους με πεπτιδικούς δεσμούς για τη δημιουργία πολυπεπτιδικών αλυσίδων - πρωτεϊνών. Η πολυπεπτιδική αλυσίδα έχει πολικότητα και γράφεται από το αμινοτελικό προς το καρβοξυτελικό της άκρο. Πολυπεπτιδική Αλυσίδα Οι πρωτεΐνες εκτός από το δομικό τους ρόλο συμμετέχουν σε πολυάριθμες λειτουργίες όπως ενζυμική κατάλυση, μεταφορά και αποθήκευση, συνδυασμένη κίνηση, ανοσολογική προφύλαξη, δημιουργία και μεταφορά νευρικών ώσεων, ρύθμιση της ανάπτυξης και της διαφοροποίησης.

Η ακολουθία μιας πρωτεΐνης καθορίζει την τρισδιάστατη δομή της, η οποία με τη σειρά της καθορίζει τις αλληλεπιδράσεις της με άλλες πρωτεΐνες, με νουκλεϊνικά οξέα και μικρά μόρια. Επομένως, η δομή μιας πρωτεΐνης καθορίζει τη λειτουργία της. 4. Κεντρικό Δόγμα Βιολογίας Έκφραση γονιδίων - Πρωτεϊνοσύνθεση Ένα γονίδιο περιλαμβάνει το συνολικό μήκος μιας DNA ή RNA αλληλουχίας η οποία είναι απαραίτητη για τη σύνθεση μιας πρωτεΐνης ή ενός µορίου RNA. Στα προκαρυωτικά γονίδια, η κωδικοποιούσα αλληλουχία DNA είναι συνεχής. Αντίθετα, τα ευκαρυωτικά γονίδια αποτελούνται από εναλλασσόμενες κωδικοποιούσες αλληλουχίες (εξώνια, exons) και μη κωδικοποιούσες αλληλουχίες (εσώνια ή ιντρόνια, introns). Ευκαρυωτικό γονίδιο Το κεντρικό δόγμα της βιολογίας περιγράφει τα βασικά στάδια της πρωτεϊνοσύνθεσης. Μεταγραφή: Το DNA ενός γονιδίου χρησιμοποιείται ως εκμαγείο για τη σύνθεση μιας συμπληρωματικής αλυσίδας mrna. Μάτισμα (για ευκαρυωτικά γονίδια): Τα εσώνια απομακρύνονται και τα εξώνια συνδέονται μεταξύ τους. Μετάφραση: Το mrna χρησιμοποιείται ως εκμαγείο για τη σύνθεση της πρωτεΐνης. Η σχέση μεταξύ της αλληλουχίας βάσεων και της αλληλουχίας αμινοξέων καθορίζεται από το γενετικό κώδικα.

Κεντρικό Δόγμα Βιολογίας Ένα αμινοξύ κωδικοποιείται από τρεις διαδοχικές βάσεις (τριπλέτα, κωδικόνιο). Τα κωδικόνια δεν επικαλύπτονται και διαβάζονται διαδοχικά.

Υπάρχουν 4 3 κωδικόνια ή τριπλέτες, 61 από τα οποία κωδικοποιούν τα 20 αμινοξέα, ενώ τα υπόλοιπα 3 αποτελούν μηνύματα τερματισμού της μετάφρασης. Εκφυλισμός Γενετικού Κώδικα: Συνώνυμες τριπλέτες κωδικοποιούν το ίδιο αμινοξύ. Το γονιδίωμα αποτελεί το σύνολο του DNA ενός οργανισμού. Το προκαρυωτικό γονιδίωμα είναι οργανωμένο σε ένα κυκλικό δίκλωνο μόριο DNA της τάξεως του Mb. Το 90% του γονιδιώματος αποτελείται από κωδικοποιούσες περιοχές. Το ευκαρυωτικό γονιδίωμα διακρίνεται σε Πυρηνικό, όπου το DNA είναι προσδεδεμένο σε πρωτεΐνες (ιστόνες) και είναι εξαιρετικά συμπυκνωμένο (~7000). DNA μιτοχονδρίων και χλωροπλαστών (για τα φυτά), που παρουσιάζει εξαιρετική οικονομία. Ο γενετικός κώδικας ενδέχεται να διαφοροποιείται. Το 98% περίπου του ανθρώπινου γονιδιώματος είναι άγνωστης λειτουργίας και αποκαλείται "junk" DNA!!!

Β. Εισαγωγικά Στοιχεία Βιολογικών Βάσεων Δεδομένων 1. Βιολογικές βάσεις δεδομένων Μια βιολογική βάση δεδομένων είναι ένα μεγάλο, οργανωμένο σύστημα δεδομένων, που συνδέεται συνήθως με κατάλληλο λογισμικό για την ενημέρωση, αναζήτηση, και ανάκτηση στοιχείων των δεδομένων που έχουν αποθηκευθεί στο σύστημα. 2. Ολοκληρωμένα συστήματα ανάκτησης πληροφοριών Τα συστήματα αυτά αξιοποιούν τις προϋπάρχουσες λογικές συσχετίσεις μεταξύ των επιμέρους καταχωρήσεων που βρίσκονται στις πολυάριθμες δημόσιες βάσεις δεδομένων. Έτσι οι διαθέσιμες πληροφορίες για μια συγκεκριμένη βιολογική οντότητα μπορούν να βρεθούν, χωρίς να πρέπει ο χρήστης να επισκεφτεί διαδοχικά και να αναζητήσει πληροφορία από διάφορες βάσεις δεδομένων. Σχήμα 1. Γραφική αναπαράσταση της ολοκλήρωσης που υλοποιεί το σύστημα Entrez. Το Entrez (http://www.ncbi.nlm.nih.gov/entrez/) είναι ένα ολοκληρωμένο σύστημα αναζήτησης σε έναν αυξανόμενο αριθμό διασυνδεδεμένων βάσεων δεδομένων μοριακής βιολογίας. Φιλοξενείται στο NCBI (National Centre for Biotechnological Information). Περιλαμβάνει ποικίλα εργαλεία για την αναζήτηση διαφορετικών βάσεων δεδομένων. Αυτά τα εργαλεία υποστηρίζουν την επιλογή μιας βάσης δεδομένων, την επιβολή περιορισμών στις αναζητήσεις, τη χρησιμοποίηση ευρετηρίων και του ιστορικού αναζήτησης, και την κατάλληλη διάθεση - αποθήκευση των αποτελεσμάτων. Επιπλέον τα εργαλεία υποστηρίζουν την αναζήτηση σε διάφορα θέματα (topics), τη χρήση υποκατάστασης (wildcards & stemming), την εφαρμογή τελεστών άλγεβρας Boole (AND, OR, NOT) για την εξειδίκευση των αναζητήσεων, καθώς και προηγμένες δυνατότητες δημιουργίας αναζήτησης που συμπληρώνουν τις καθοδηγούμενες από μενού εντολές αναζήτησης.

3. Βιβλιογραφικές βάσεις δεδομένων Η MEDLINE (US National Library of Medicine) είναι η βιβλιογραφική βάση δεδομένων της NLM (National Library of Medicine, USΑ) που καλύπτει τους τομείς της ιατρικής, της υγειονομικής περίθαλψης, των προκλινικών επιστημών, της βιολογίας καθώς και θεμάτων βιοϊατρικής τεχνολογίας. Περιέχει βιβλιογραφικές παραπομπές και περιλήψεις άρθρων από περισσότερα από 4800 βιοϊατρικά περιοδικά που δημοσιεύονται στις Ηνωμένες Πολιτείες και σε 70 άλλες χώρες. Η πρόσβαση στα περιεχόμενα της γίνεται από την ελεύθερη (δωρεάν) μηχανή αναζήτησης PubMed (http://www.ncbi.nlm.nih.gov/pubmed/), που είναι μέρος του συστήματος ανάκτησης πληροφοριών Entrez. 4. Βάσεις δεδομένων ακολουθιών Βάσεις νουκλεοτιδικών ακολουθιών ελεύθερα διαθέσιμες, οι οποίες συνεργάζονται μεταξύ τους ανταλλάσσοντας εγγραφές και δημιουργώντας κοινούς κανόνες για την ταξινόμηση και το σχολιασμό των δεδομένων: DNA Data Bank of Japan (DDBJ, http://www.ddbj.nig.ac.jp/) στο Center for Information Biology (CIB) GenBank (http://www.ncbi.nlm.nih.gov/genbank/) στο National Center for Biotechnology Information (NCBI) EMBL_Bank (http://www.ebi.ac.uk/embl/index.html) στο European Bioinformatics Institute (EBI). Εξειδικευμένες βάσεις δεδομένων που συνδυάζουν τα δεδομένα γονιδιωματικών ακολουθιών και το σχολιασμό τους με άλλα στοιχεία για τα συγκεκριμένα είδη. Ensembl ( http://www.ensembl.org/index.html ) αποτέλεσμα συνεργασίας του EBI και του Wellcome Trust Sanger Institute Entrez Genomes (http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome) στο National Center for Biotechnology Information (NCBI) Βάσεις πρωτεϊνικών ακολουθιών που παρέχουν υψηλό επίπεδο σχολιασμού (όπως περιγραφή της λειτουργίας μιας πρωτεΐνης, μετα-μεταφραστικές τροποποιήσεις κ.λπ.) και διασυνδέσεις με άλλες βάσεις δεδομένων: Swiss-Prot (http://www.expasy.ch/sprot/) TrEMBL (http://www.ebi.ac.uk/trembl/) UniProt (http://www.ebi.ac.uk/uniprot/index.html/) που προέκυψε από τη συνεργασία των Swiss-Prot, TrEMBL και PIR. Ένα πολύ διαδεδομένο format για δεδομένα νουκλεοτιδικών και πρωτεϊνικών ακολουθιών είναι το FASTA format. Μια ακολουθία σε FASTA format αρχίζει με μια γραμμή περιγραφής και ακολουθούν στις επόμενες γραμμές τα δεδομένα της ακολουθίας. Η γραμμή περιγραφής ξεκινά με το σύμβολο ">". Παράδειγμα πρωτεϊνικής ακολουθίας σε FASTA format >gi 5524211 gb AAD44166.1 cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL

GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY 5. Δομικές βάσεις δεδομένων Η Protein Data Bank (PDB, http://www.rcsb.org/pdb/) περιλαμβάνει δομές πρωτεϊνών, νουκλεϊνικών οξέων και λίγων υδατανθράκων. Παρέχει μια ποικιλία εργαλείων και πόρων για τη μελέτη των δομών βιολογικών μακρομορίων και των σχέσεών τους με ακολουθίες, λειτουργία, και ασθένειες 6. Online Mendelian Inheritance in Man (OMIM) Η ΟΜΙΜ (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=omim) αποτελεί μια βασική πηγή πληροφορίας για γονίδια και σχετιζόμενες γενετικές ασθένειες στον άνθρωπο. Περιλαμβάνει διασυνδέσεις με τη MEDLINE και άλλες βάσεις δεδομένων μέσω του συστήματος Entrez. Γ. «Πειραματική» διαδικασία Στη συνέχεια ακολουθεί μία σειρά από αναζητήσεις σε εξειδικευμένες βάσεις δεδομένων. Τα αποτελέσματα των αναζητήσεων πρέπει να φυλάσσονται σε αρχεία γιατί θα αποτελέσουν τμήμα της αναφοράς την οποία θα παραδώσετε. Η αναφορά θα παραδίδεται εκτυπωμένη, ενώ τα αρχεία τα οποία θα έχετε φυλάξει θα αποστέλλονται με email στον υπεύθυνο της άσκησης ή θα παραδίδονται σε δισκέτα. 1. Επιστημονική βιβλιογραφία Αναζητείστε άρθρα από την επιστημονική βιβλιογραφία που σχετίζονται με μια ασθένεια (π.χ. Creutzfeldt-Jakob, Leukaemia, Breast cancer, Alzheimer, Osteogenesis Imperfecta, Cystic Fibrosis, Parkinson, Huntington disease) και παραμετροποιείστε τη διαδικασία αναζήτησης. Επισκεφτείτε τη PubMed (διεπαφή της Medline): http://www.ncbi.nlm.nih.gov/pubmed/ Αναζητείστε πληροφορία για την ασθένεια που επιλέξατε. Πόσα σχετιζόμενα άρθρα βρήκατε; Περιορίστε την αναζήτηση σας μόνο στα άρθρα που δημοσιεύτηκαν την τελευταία χρονιά (Limits Published in the Last:). Πόσα σχετιζόμενα άρθρα βρήκατε; Αναζητείστε τις περιλήψεις (Abstracts) των 5 πρώτων αποτελεσμάτων, έχοντας ταξινομήσει τα άρθρα με βάση το όνομα του πρώτου συγγραφέα (Sort By: First Author). Περιορίστε την αναζήτηση σας μόνο στα άρθρα που δημοσιεύτηκαν την τελευταία χρονιά και υπάρχει ελεύθερη πρόσβαση στο πλήρες κείμενό τους (Limits Published in the Last: & Links to free full text). Πόσα σχετιζόμενα άρθρα βρήκατε;

Αναζητείστε τις εκτεταμένες περιλήψεις (AbstractPlus) των 5 πρώτων αποτελεσμάτων, έχοντας ταξινομήσει τα άρθρα με βάση την ημερομηνία δημοσίευσής τους (Sort By: Pub Date). 2. Γονίδια σχετιζόμενα με γενετικές ασθένειες Για την ασθένεια που έχετε επιλέξει, βρείτε τον κωδικό και την ακολουθία, στη βάση δεδομένων GenBank, δύο σχετιζόμενων γονιδίων. Επισκεφτείτε τη βάση δεδομένων OMIM και αναζητείστε πληροφορία για την ασθένεια: http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim Από τη λίστα των αποτελεσμάτων επιλέξτε δύο από αυτά για την αναζήτηση των σχετιζόμενων νουκλεοτιδικών ακολουθιών στη GenBank (Από τη σελίδα των αποτελεσμάτων της OMIM επιλέγετε Links CoreNucleotide Homo sapiens Reports: GenBank(Full)). Αφού αποθηκεύσετε τη σχετική εγγραφή, απαντήστε στα ακόλουθα: 1. Πως ονομάζεται το γονίδιο (DEFINITION); 2. Σε ποιο χρωμόσωμα βρίσκεται; 3. Ποιο είναι το μήκος του; Εμφανίστε την ακολουθία σε FASTA format και αντιγράψτε την σε ένα αρχείο κειμένου. 3. Αναζήτηση σε γονιδιωματικές ΒΔ Αναζητείστε πληροφορία για τα δύο γονίδια του προηγούμενου βήματος στη βάση δεδομένων γονιδιωμάτων Ensembl http://www.ensembl.org/index.html. 1. Πόσα γονιδιώματα υπάρχουν στη συγκεκριμένη έκδοση της βάσης δεδομένων; 2. Αναζητείστε στο ανθρώπινο γονιδίωμα το όνομα κάθε γονιδίου. 3. Αφού αποθηκεύσετε τη σχετική εγγραφή, απαντήστε στα ακόλουθα: Σε ποια θέση στο χρωμόσωμα βρίσκεται το συγκεκριμένο γονίδιο (Genomic Location); Πόσα εξώνια υπάρχουν (Transcript information); Από πόσους ρυθμιστικούς παράγοντες εξαρτάται η έκφραση του γονιδίου (Gene regulation info); 4. Αναζήτηση σε ΒΔ ακολουθιών πρωτεϊνών Χρησιμοποιώντας τους συνδέσμους των εγγραφών της Ensembl, αναζητείστε τις ακολουθίες των αντίστοιχων πρωτεϊνών στη βάση δεδομένων SwissProt http://ca.expasy.org/sprot/. 1. Αφού αποθηκεύσετε τις σχετικές εγγραφές, απαντήστε στα ακόλουθα: Ποια είναι η λειτουργία κάθε πρωτεΐνης (FUNCTION);

Σε ποιους ιστούς εκφράζεται (TISSUE SPECIFICITY); Ποιο είναι το μήκος της πρωτεϊνικής ακολουθίας; Πόσες βιβλιογραφικές αναφορές υπάρχουν σε κάθε εγγραφή; Η SwissProt διασυνδέεται με άλλες ΒΔ όπως η InterPro (ΒΔ οικογενειών και μοτίβων πρωτεϊνών). Ποιος κωδικός της InterPro αντιστοιχεί στη συγκεκριμένη εγγραφή. 5. Ανάκτηση δομικής πληροφορίας Οι 3-D δομές πολλών πρωτεϊνών έχουν λυθεί πειραματικά και τα δεδομένα έχουν καταχωρηθεί σε αρχεία που προσδιορίζουν μεταξύ των άλλων τις x, y και z συν/νες στο χώρο. Η βάση δεδομένων που περιέχει αυτή την πληροφορία είναι η Protein Data Bank (http://www.rcsb.org/pdb/), και το file format (που μπορεί να οπτικοποιηθεί από τα προγράμματα μοριακών γραφικών) ονομάζεται PDB format. 1. Επισκεφτείτε τη βάση δεδομένων PDB. Πόσες δομές πρωτεϊνών έχουν λυθεί πειραματικά με κρυσταλλογραφία ακτίνων Χ (X-ray) και πόσες με Πυρηνικό Μαγνητικό Συντονισμό NMR (PDB Statistics Summary Table of Released Entries). 2. Χρησιμοποιώντας το όνομα της ασθένειας που έχετε επιλέξει, αναζητήστε δύο δομές πρωτεϊνών που έχουν λυθεί με κρυσταλλογραφία ακτίνων Χ (Exp. Method: X Ray Diffraction) 3. Κατεβάστε τοπικά τα αρχεία των δομών και απαντήστε στα ακόλουθα: Σε ποια διακριτική ικανότητα (resolution) έχει λυθεί η δομή; Ποιο αμινοξύ βρίσκεται στη 10η θέση της ακολουθίας της πρωτεΐνης που έχει επιλυθεί; Ποιες είναι οι συντεταγμένες (x,y,z) του ατόμου CA του συγκεκριμένου καταλοίπου;