Elucidating the RNA communication (ERATO)

Σχετικά έγγραφα
NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

ΩΡΙΜΑΝΣΗ ΤΟΥ RNA, ΙΝΤΡΟΝΙΑ/ΕΞΟΝΙΑ & ΜΕΤΑ- ΜΕΤΑΓΡΑΦΙΚΗ ΡΥΘΜΙΣΗ

Inferring regulatory subnetworks through the analysis of genome-wide expression profiles

Μοριακή Bιολογία ΔIAΛEΞΕΙΣ 9 & 10

Splice site recognition between different organisms

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους;

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

Μηχανισμοί Μεταμεταγραφικού Ελέγχου

Γονιδιωματική. G. Patrinos

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

Development of a pipeline for secondary and tertiary structural analysis of human mirna targeting

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

Εξέλιξη και ανθρώπινος πολιτισμός: Η ρύθμιση του γονιδίου της λακτάσης

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Επιγενετικές Μεταβολές στην ιαμόρφωση και Λειτουργία του Μυοκαρδίου. Ιωάννης Ρίζος Β Πανεπιστημιακή Καρδιολογική Κλινική, Αττικό Νοσοκομείο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

Μοριακή Βιολογία. Ενότητα # (5): Ωρίμανση του RNA, ιντρόνια/εξώνια και μεταγραφική ρύθμιση. Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής

Κ Ε Φ Α Λ Α Ι Ο 24 : Το µάτισµα και η επεξεργασία του RNA

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

Σύντομη Περιγραφή Συνολικής Προόδου Φυσικού Αντικειμένου από την έναρξη του έργου μέχρι τις 30/06/2015

Ενδεικτικές απαντήσεις

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Ταξινόµιση οργανισµών

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

ΜΕΛΕΤΗ ΑΝΘΕΚΤΙΚΟΤΗΤΑΣ ΤΟΥ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΣΤΗ ΘΕΡΑΠΕΙΑ

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Χρωμοσώματα και ανθρώπινο γονιδίωμα Πεφάνη Δάφνη

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

Κεφάλαιο 10 ΤΟ ΟΠΕΡΟΝΙΟ (σελ )

Εισαγωγή στα microrna Δ. ΣΙΔΕΡΗΣ

ΑΠΑΝΤΗΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (Β ΛΥΚΕΙΟΥ)

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΙΑΤΡ ΓΘΕΤ 2 ΗΜΕΡΟΜΗΝΙΑ: 20/03/2016 ΘΕΜΑ Α

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 11 ΙΟΥΝΙΟΥ 2015 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

3. Σε ένα σωματικό κύτταρο ανθρώπου που βρίσκεται στη μεσόφαση πριν την αντιγραφή υπάρχουν:

Ανάλυση χαμηλής και υψηλής απόδοσης πειραματικών μεθόδων για συλλογή επιβεβαιωμένων γονιδίων στόχων των mirnas

ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ. Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της...

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Σύνδρομο Lesch-Nyhan. Πανεπιστήμιο Θεσσαλίας Τμήμα Βιοχημείας-Βιοτεχνολογίας. Ντουντούμη Χρυσούλα Παπαδοπούλου Μαρία-Άννα Στεργίου Δήμητρα

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B

ΘΕΜΑ Α. 1. δ 2. δ 3. β 4. γ 5. α ΘΕΜΑ Β Β1. Α I Β IV Γ VI Δ VII Ε II ΣΤ III Ζ V Η -

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

Assalamu `alaikum wr. wb.

A method for identifying TSS from CAGE data using a Genomic Signal Processing approach

Σαγρή Χ.Ευθυμία. Department of Biochemistry and Biotechnology University of Thessaly

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Ανάλυση υπολογιστικών μεθόδων για ανεύρεση στόχων μικρών ΡΝΑ (Analysis of computational methods for finding mirna targets)

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΑΠΑΝΤΗΣΕΙΣ. Α. Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΠΗΡΕΑΖΕΙ ΤΗΝ ΠΡΟΛΗΨΗ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ

Πτυχιακή διατριβή. Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN) στην ατμόσφαιρα

ΦΡΟΝΤΙΣΤΗΡΙΟ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΗΡΑΚΛΕΙΤΟΣ ΚΩΛΕΤΤΗ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ

Η συμβολή της μοριακής εργαστηριακής διάγνωσης στην κλινική πράξη Α ΠΑΠΑΔΟΠΟΥΛΟΥ ΕΔΙΠ, ΙΑΤΡΙΚΗΣ ΣΧΟΛΗΣ ΕΚΠΑ

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE DEPARTMENT OF INFORMATICS AND TELECOMMUNICATIONS

Το mir-29a ως βιοδείκτης στην υπερτροφική μυοκαρδιοπάθεια. Δ. Ντέλιος 1,2

Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Ημερομηνία: Κυριακή 23 Οκτωβρίου 2016 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ

Δοµή και ιδιότητες του DNA. 23/02/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

ΑΠΑΝΤΗΣΕΙΣ. Β2. Η εικόνα αντιστοιχεί σε προκαρυωτικό κύτταρο. Στους προκαρυωτικούς οργανισμούς το mrna αρχίζει να μεταφράζεται σε πρωτεΐνη πριν ακόμη

Κεφάλαιο 4: Ανασυνδυασμένο DNA

Κεντρικό δόγμα της βιολογίας

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ

1. Ο Griffith στα πειράματά του χρησιμοποίησε:

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής:

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Κ Ε Φ Α Λ Α Ι Ο 25 : Το καταλυτικό RNA

Ε.ΚΕ.Β.Ε. ΑΛΕΞΑΝΔΡΟΣ ΦΛΕΜΙΓΚ ΑΛ. ΦΛΕΜΙΓΚ 34, Τ.Κ ΒΑΡΗ ΑΤΤΙΚΗΣ ΤΗΛ.:

Αθήνα, 16/06/2017 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ

Transcript:

RESEARCH PROJECTS 2014 Elucidating the RNA communication (ERATO) Prof. A.G. Hatzigeorgiou, University of Thessaly Dr. J. Strouboulis, BSRC Alexander Fleming December 2014

ΕΠΙΣΤΗΜΟΝΙΚΕΣ ΜΕΛΕΤΕΣ 2014 Αποκρυπτογραφώντας τη γλώσσα του RNA () Καθ. Α.Γ. Χατζηγεωργίου, Πανεπιστήμιο Θεσσαλίας Δρ. Ι. Στρουμπούλης, Ε.ΚΕ.Β.Ε. «Αλέξανδρος Φλέμιγκ» Δεκέμβριος 2014 2

Περίληψη Η ανακάλυψη πληθώρας μη-κωδικών RNA (ncrnas) την τελευταία δωδεκαετία μετέτρεψε την έρευνα για την λειτουργικότητα τους σε ερευνητικό πεδίο αιχμής για την Μοριακή Βιολογία και την Ιατρική. Οι οικογένειες των μη κωδικών RΝΑ αποδείχθηκαν μεγάλες έχοντας σχεδόν 2000 μικρά RNA (mirnas) και περισσότερα από 15,000 μακρά μη-κωδικά RNAs (lncrnas) τον άνθρωπο. Με έναν ρόλο κυρίως ρυθμιστικό, τα μη κωδικά ΡΝΑ εμφανίζονται όλο και συχνότερα σαν πολύ καλοί δείκτες για παθολογικές καταστάσεις του κυττάρου. Κεντρικό ρόλο σε αυτή την ρύθμιση των κυττάρων και στις μεταξύ των RNA αλληλεπιδράσεις, έχουν τα mirnas που προσδένονται σε κωδικά μετάγραφα και οδηγούν στη αναστολή τις λειτουργίας τους. Η αλληλοεπίδραση των mirna με κωδικά γονίδια οδηγεί στην την μείωση της παραγωγής πρωτεΐνης. Μόλις τα τελευταία 2-3 χρόνια ανακαλύφθηκαν και μερικές περιπτώσεις ανταγωνιστικών δικτύων αλληλεπιδράσεις μεταξύ των RNA οικογενειών. Στα λεγόμενα δίκτυα cerna (competing endogenous RNA) η ρύθμιση της παραγωγής πρωτεΐνης επηρεάζεται όχι μόνο από την έκφραση του συγκεκριμένου γονιδίου και την στόχευση του από ένα mirna αλλά και από την παράλληλη στόχευση ενός lncrna από το ίδιο mirna. Κατά την διάρκεια του συγκεκριμένου έργου διερευνήσαμε την γενικευμένη ύπαρξη αυτών το cerna δικτύων πέρα των 2-3 γνωστών περιπτώσεων. Για το λόγο αυτό συλλέχθηκαν και αναλύθηκαν όλα τα διαθέσιμα σε βάσης δεδομένων από βιβλιογραφία πειραματικά δεδομένα εντοπισμού στόχων mirna και εστιάσαμε στη χαρτογράφηση των αλληλεπιδράσεων τους με τα μη κωδικά ΡΝΑ. Εξετάζοντας σε 22 μελέτες 150 πειράματα (βιβλιοθήκες αλληλούχισης) παρατηρήσαμε για πρώτη φορά οτι σε αρκετά από τα lncrna, ακόμα και σε αυτά που προκύπτουν από περιοχές του γονιδιώματος απομακρυσμένες από τα γονίδια που κωδικοποιούν πρωτεΐνες οι περιοχές πρόσδεσης mirna παρουσιάζουν στατιστικώς σημαντικά πιο υψηλή συντήρηση σε σχέση με αυτήν άλλων περιοχών των εξονίων των lncrnas. Με αυτό τον τρόπο μπορέσαμε να εντοπίσουμε υπολογιστικά μια σειρά από άγνωστα ως τώρα ce-rna δίκτυα. Στην συνέχεια εντοπίστηκαν στόχοι και περιοχές συντηρημένες μεταξύ πειραμάτων διαφορετικών ιστών αποδεικνύοντας για πρώτη φορά οτι οι αλληλεπιδράσεις των μη κωδικών γονιδίων δεν είναι ένα γεγονός συγκεκριμένο για έναν ιστό αλλά η ίδια ρυθμιστική σχέση είναι συντηρημένη σε περισσότερες λειτουργίες του οργανισμού. Παράλληλα ερευνήσαμε τον ρόλο της ύπαρξης mirna στον πυρήνα και βρήκαμε μια σειρά από καινούργιες πειραματικά υποστηριγμένες αλληλοεπιδράσεις μεταξύ mirna και lncrna στον πυρήνα. Οι αλληλοεπιδράσεις αυτές μας δίνουν πρώτα δείγματα και ενδείξεις για τον σε μεγάλο βαθμό άγνωστο ως τώρα ρυθμιστικό ρόλο των mirnas στην μεταγραφή ενός γονιδίου, Είναι η πρώτη φορά που μια υπολογιστική ανάλυση τόσο πολλά πειραματικών δεδομένων δείχνει την ευρεία ύπαρξη της αλληλοεπίδρασης μεταξύ μη κωδικών γονιδίων στο κυτταρόπλασμα και στον πυρήνα του κυττάρου. Η χαρτογράφηση αυτών των σχέσεων είναι η βάση για την μελέτη αυτών των δικτύων κατά την ερυθροποίηση. Η διερεύνηση των μηχανισμών αλληλεπίδρασης κατά τη διάρκεια της αιμοποίησης αποτελεί ορόσημο στην προσπάθεια κατανόησης και σχεδίασης θεραπειών για διαταραχές του αίματος, όπως οι θαλασσαιμίες. 3

Abstract The discovery of a plethora of non-coding RNAs (ncrnas) and ncrna families during the last decade, has turned them from dark-matter into a research hotspot for Molecular Biology and Medicine. The ncrna families have proven to be quite extensive, including more than 2,000 micrornas (mirnas) and 15,000 long noncoding RNAs (lncrnas) in human. By adopting a more regulatory role, ncrnas are continuously being implicated as excellent biomarkers in a plethora of pathological cell states. mirnas are considered key players in regulating cell function and RNA communication by recognizing and binding on coding RNAs (mrnas) resulting in translation suppression and/or mrna degradation. Only during the last 3 years, several cases of competing interactions between endogenous RNA families have been discovered. In the so called competing endogenous RNA (cerna) networks, the regulation of protein productivity of a certain gene is not affected only by the mirna that targets this gene but also by the fact that the same mirna also targets other lncrnas. In this project we have researched whether the cerna network is a phenomenon that can be generalized beyond the few cases already published in the literature. To this end, we have collected and analyzed every experimental dataset regarding the identification of mirna targets in the literature and we focused in creating an extensive map of mirna:lncrna interactions. By analyzing 150 datasets (Sequencing libraries) from 22 studies we have observed for the first time that for many lncrnas, even those that are located far away from protein coding RNAs in the genome, the mirna binding sites appear to have a statistically significant increased conservation rate when compared against the remaining exon/intron parts of the same lncrnas. This discovery has led us to computationally identify a plethora of previously unknown cerna networks. We have subsequently identified mirna binding sites that are conserved between the same experiments in different cell lines proving for the first time that interactions between ncrnas is not exclusive for a certain tissue. On the contrary, the same regulatory relationship is conserved in multiple functions of an organism. In addition, we have researched the role of mirnas in the nucleus and we have discovered multiple experimentally validated mirna:lncrna interactions in this specific cell compartment. These interactions provide the first indications of the so far widely unknown role of mirnas in regulating gene expression. This is the first time that a computational analysis of so many experimental datasets shows that interactions between ncrnas widely exist in the cytoplasm and nucleus of cells. Mapping such interactions consists the stepping stone towards understanding these networks during erythropoiesis. Elucidating the mechanisms by which mirnas and lncrnas are involved, as well as putative ncrna regulation mechanisms and cerna activity, in erythropoiesis is essential for understanding the pathogenesis and design therapies for blood disorders, such as thalassemias. 4

1. ΕΙΣΑΓΩΓΗ... 6 Μελέτη των mirna:lncrna μη κωδικών μεταγράφων και των μεταξύ τους αλληλεπιδράσεων.... 7 1.1... 7 2. ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΩΝ MIRNA::LNCRNA ΑΛΛΗΛΕΠΙΔΡΑΣΕΩΝ... 9 2.1 ΣΥΛΛΟΓΗ ΔΕΔΟΜΕΝΩΝ ΜΗ ΚΩΔΙΚΩΝ ΜΕΤΑΓΡΑΦΩΝ... 9 2.2 Εξελεκτική συντήρηση των ακολουθιών των μεταγράφων... 12 Ανάλυση των δεδομένων CLIP-Seq... 13 2.3... 13 2.4 Σύγκριση CLIP-Seq βιβλιοθηκών και ομαδοποίηση αυτών.... 18 2.5 Χαρακτηρισμός των MREs σε AGO εμπλουτισμένες περιοχές... 18 2.6 Εξελικτική συντήρηση των στόχων των mirnas σε εμπλουτισμένες περιοχές AGO-CLIP-Seq πειραμάτων... 21 2.7 Λειτουργία των μικρών RNAs στον πυρήνα/κυτταρόπλασμα.... 22 3. ΣΥΖΗΤΗΣΗ... 23 4. ΒΙΒΛΙΟΓΡΑΦΙΑ... 24 5

1. ΕΙΣΑΓΩΓΗ Η επανάσταση του Ριβονουκλεϊκού Οξέως (RNA) μετέφερε τα μη κωδικά μετάγραφα (non-coding RNAs/ncRNAs) στο επίκεντρο της μοριακής και ιατρικής έρευνας. Η ανακάλυψη τους διεύρυνε την υπάρχουσα αντίληψη για το ρόλο του RNA στο κύτταρο. Οικογένειες ncrnas όπως αυτή των μικρών μη κωδικών μεταγράφων (small noncoding RNAs) και των μακρών μη κωδικών μεταγράφων (long non coding RNAs - lncrnas) μελετώνται από πληθώρα ερευνητικών ομάδων τα τελευταία χρόνια ως προς τις φυσιολογικές και παθολογικές τους λειτουργίες. Τα mirnas είναι ncrnas μήκους περίπου 22 νουκλεοτιδίων, τα οποία θεωρούνται μεταμεταγραφικοί ρυθμιστές της γονιδιακής έκφρασης μέσω της αποδόμησης της μεταγραφής ή και της καταστολής της μετάφρασης στην περίπτωση των γονιδίων που κωδικοποιούν πρωτεΐνες[1]. Σύγχρονες μελέτες δείχνουν ότι παραπάνω από τα μισά ανθρώπινα γονίδια ρυθμίζονται μέσω των mirnas[2]. Τα lncrnas είναι συνήθως μεγαλύτερα από 200 νουκλεοτίδια, και εμφανίζουν πολυάριθμες λειτουργίες, περισσότερες από τις οποίες είναι υπό συζήτηση ή παραμένουν να αποσαφηνιστούν[3]. Τα τελευταία χρόνια στοιχεία από πολυάριθμα υψηλής διεκπεραιωτικής ικανότητας (high-throughput) πειράματα προτείνουν ότι οι μηχανισμοί ανάπτυξης και εξέλιξης που ρυθμίζουν και την πολυπλοκότητα ενός οργανισμού οφείλονται κυρίως στην επέκταση των ρυθμιστικών δυνατοτήτων των μη κωδικών μεταγράφων στο γονιδίωμα[4] και των βιολογικών διεργασιών στις οποίες εμφανίζονται να μετέχουν. Εικόνα 1: Η Βιογένεση των micrornas.h προεργασία των mirnas μεταγράφων πραγματοποιείται στον πυρήνα του κυττάρου με τα pri-mirnas. Στο πρώτο στάδιο ωρίμανσης πραγματοποιείται η εκτομή των pri-mirnas μέσω της δράσης του ενζύμου Drosha. Τα premirnas εξάγονται στον πυρήνα κι ακολουθεί το κόψιμο της θηλειάς μέσω της δράσης του ενζύμου Dicer, αποδεσμεύοντας έτσι δίκλωνα mirnas ~22 νουκλεοτιδίων. Τα ώριμα mirnas αλληλεπιδρούν με το RISC(miRISC) και προσδένονται έτσι στα μετάγραφα. 6

Εικόνα 2: Λειτουργία των micrornas. Τα ώριμα mirnas αλληλεπιδρούν με το RISC(miRISC) και με την πρωτεΐνη AGO2 προκαλώντας είτε την αποδόμηση του mrna-στόχου μέσω της συμπληρωματικότητας των βάσεων είτε την καταστολή της πρωτεΐνης μέσω της ενεργοποίησης του σύμπλοκου RISC. 1.1 Μελέτη των mirna:lncrna μη κωδικών μεταγράφων και των μεταξύ τους αλληλεπιδράσεων. Η ταυτοποίηση των μη κωδικών μεταγράφων προχωράει με ραγδαίους ρυθμούς τα τελευταία χρόνια. Στην τελευταία έκδοση της βάσης αναφοράς των μικρών RNAs της mirbase v21[5] για τον οργανισμό του ανθρώπου υπάρχουν πάνω από 2,000 micrornas. Από την άλλη μεριά η συλλογή και κατηγοριοποίηση των lncrnas εμπεριέχει διάφορες πρακτικές δυσκολίες. Αν και μοιράζονται αρκετά χαρακτηριστικά με τα mrnas όπως το 5 capping, την επανάληψη της αδενίνης στην ουρά του μεταγράφου (polya tails) και τις περιοχές ματίσματος (splice junctions), λόγω της χαμηλής συγκέντρωσής τους κάποια σημαντικά χαρακτηριστικά υποτιμούνται, όπως η μέση τιμή του μήκους τους και ο αριθμός των εξονίων[6]. Σε αντίθεση με τα μετάγραφα που κωδικοποιούν πρωτεΐνες, τα lncrnas φαίνεται να εμφανίζονται σε χρωματίνη και πυρήνα κι ένα μικρό κομμάτι αυτών ενδεχομένως να εξελίσσεται σε άλλα μικρά μη κωδικά RNAs. Παρόλο που ο αριθμός των χαρακτηρισμένων πειραματικά lncrnas έχει μεγαλώσει αρκετά, η πλειοψηφία των λειτουργιών τους παραμένει άγνωστη. Πιο εκτεταμένες είναι οι αναφορές σε αλληλεπιδράσεις των mirnas:mrnas στο κυτταρόπλασμα [7]. Τα mirnas εμφανίζονται να επηρεάζουν την έκφραση της πλειοψηφίας των γονιδίων, ενώ πρόσφατα υπάρχουν αναφορές στη βιβλιογραφία για στόχους των μικρών RNAs σε άλλα μη κωδικά μετάγραφα. Επίσης τελευταίες μελέτες δείχνουν ότι τα mirnas μπορούν να παίξουν σημαντικό ρόλο στον πυρήνα είτε ως αυτορυθμιστές της βιογένεσής τους[8] είτε αλληλεπιδρώντας με τα lncrnas [9-11]. Από την άλλη πλευρά τα lncrnas δρουν κυρίως στον πυρήνα και στο κυτταρόπλασμα ελέγχοντας κάθε γνωστό επίπεδο ρύθμισης της γονιδιακής έκφρασης[12]. Τα μακρά μη κωδικά RNAs, έχοντας ένα sponge / decoy ρόλο, μπορούν να επηρεάσουν τη ρυθμιστική επίδραση των mirnas στους αντίστοιχους στόχους[9-11]. 7

Εικόνα 3: Τα micrornas εμφανίζονται να αλληλεπιδρούν με την πλειοψηφία των mrnas στον κυτταρόπλασμα μέσω της αποδόμησης της μεταγραφής ή και της καταστολής της μετάφρασης. Αφού ενσωματωθούν στο σύμπλοκο RISC, επάγουν τη γονιδιακή σίγαση μέσω μερικής ή πλήρης συμπληρωματικής πρόσδεσής τους με μέρος του mrna. Πιθανοί ρυθμιστικοί ρόλοι των micrornas αναφέρονται σε τελευταίες μελέτες να λαμβάνουν χώρα στον πυρήνα και να λειτουργούν είτε ως αυτορυθμιστές της βιογένεσής τους είτε αλληλεπιδρώντας με τα lncrnas μέσω του σύμπλοκου RISC. Tα lncrnas δρουν κυρίως στον πυρήνα αλλά και στο κυτταρόπλασμα κι αλληλεπιδρώντας με τα mirnas, έχοντας ένα sponge / decoy ρόλο, μπορούν να επηρεάσουν τη ρυθμιστική επίδραση τους στους αντίστοιχους στόχους. Στη μελέτη αυτή εστιάζουμε στην κατανόηση των λειτουργιών των lncrnas και των mirnas μέσω της χαρτογράφησης των mirna:lncrna αλληλεπιδράσεων και στην αποσαφήνιση του αν αυτές λαμβάνουν χώρα στον κυτταρόπλασμα ή στον πυρήνα του κυττάρου. Μέχρι τώρα στη βιβλιογραφία υπήρχε αναφορά για μεμονωμένες αλληλεπιδράσεις των micrornas με μακρά μη κωδικά μετάγραφα [9-11]. Για πρώτη φορά δημιουργείται μία τόσο μεγάλη συλλογή από πειραματικά δεδομένα για την μελέτη των mirna στόχων όχι μόνο σε κωδικά μετάγραφα αλλά και μακρά μη κωδικά μετάγραφα. Αν και από πολλούς η λειτουργία των lncrna σαν «δόλωμα/σφουγγάρι» για τα micrornas θεωρείται τυχαίο γεγονός, η ανάλυση, στα πλαίσια του έργου, πληθώρας δεδομένων αλληλούχισης νέας γενιάς ( Next Generation Sequencing, NGS) έδειξαν ότι αυτό το φαινόμενο είναι αρκετά πιο συχνό. Σε κάθε CLIP-Seq (crosslinking immunoprecipitation) βιβλιοθήκη έχουμε γύρω στα 500 lncrna που φέρουν αναγνωριστικές περιοχές πρόσδεσης για τα mirnas. Σε αρκετά από τα lncrna, ακόμα και σε αυτά που προκύπτουν από περιοχές του γονιδιώματος απομακρυσμένες από τα γονίδια που κωδικοποιούν πρωτεΐνες οι περιοχές πρόσδεσης έχουν υψηλή συντήρηση. Παρατηρήθηκε για πρώτη φορά, ότι σε αρκετές CLIP-Seq βιβλιοθήκες οι περιοχές αναγνώρισης στόχων mirna (microrna Recognition Elemnets) 8

MREs στα εξόνια των lncrnas, παρουσιάζουν στατιστικώς σημαντικά πιο υψηλή συντήρηση σε σχέση με αυτήν άλλων περιοχών των εξονίων των lncrnas. Παράλληλα εντοπίστηκαν περιοχές συντηρημένες μεταξύ των CLIP-Seq πειραμάτων γεγονός που δείχνει ότι κάποιες mirna:lncrna αλληλεπιδράσεις συναντώνται σε πάνω από ενά ιστους/κυτταρικούς τύπους. Τα ευρήματα αυτά δείχνουν ότι η λειτουργία των microrna έχει αρκετές πτυχές που δεν τις γνωρίζουμε μέχρι τώρα, καθώς στο χάρτη των αλληλεπιδράσεων τους προστίθενται τώρα πέρα από τα κωδικά και διάφορες κατηγορίες μη κωδικών μεταγράφων, δημιουργώντας ανταγωνιστικά ρυθμιστικά δίκτυα καθοριστικά για την ομοιοστασία του κυττάρου. Εικόνα 4: Σε αυτή την εικόνα παρουσιάζεται ένα παράδειγμα ενός τυπικού cerna δικτύου. Διαφορετικού τύπου RNAs (lncrnas, mrnas και mirnas) χρησιμοποιούν τις περιοχές πρόσδεσης των mirnas (MREs) σαν κώδικα επικοινωνίας προκειμένου να επιτευχθεί ο έλεγχος της γονιδιακής έκφρασης. Παράλληλα ερευνήσαμε τον ρόλο της ύπαρξης mirna στον πυρήνα και βρήκαμε μια σειρά από καινούργιες πειραματικά υποστηριγμένες αλληλεπιδράσεις μεταξύ mirna και lncrna στον πυρήνα. Οι αλληλεπιδράσεις αυτές μας δίνουν πρώτα δείγματα και ενδείξεις για τον σε μεγάλο βαθμό άγνωστο ως τώρα ρυθμιστικό ρόλο των mirnaς στην μεταγραφή ενός γονιδίου. 2. Χαρτογράφηση των mirna::lncrna αλληλεπιδράσεων 2.1 ΣΥΛΛΟΓΗ ΔΕΔΟΜΕΝΩΝ ΜΗ ΚΩΔΙΚΩΝ ΜΕΤΑΓΡΑΦΩΝ Καθώς τα δεδομένα από high-throughput πειράματα συνεχώς αυξάνουν, αλλάζουν με ταχύ ρυθμό και τα αναγνωρισμένα/ταυτοποιημένα μετάγραφα τόσο στον άνθρωπο όσο και σε άλλους υπό μελέτη οργανισμούς. Εξαιτίας των τακτικών ανανεώσεων των βάσεων χρειάζεται να επανακαθορίζεται συνεχώς το σύνολο των υπό μελέτη μεταγράφων από διαφορετικές πηγές. Οι αλλαγές στους αριθμούς των 9

ταυτοποιημένων κωδικών και μη κωδικών μεταγράφων προσδιόρισε και το πρώτο βήμα της ανάλυσης, που ήταν ο καθορισμός του συνόλου των υπό μελέτη lncrnas, το οποίο πραγματοποιήθηκε πάνω από μία φορά κατά τη διάρκεια του έργου. Ενδεικτικά αναφέρουμε τις πρώτες συγκρίσεις για τον αριθμό των lncrnas στις βάσεις της Ensembl[13], UCSC και Refseq[14] που εντοπίστηκαν στον ανθρώπινο οργανισμό για τις δύο πρώτες ανανεώσεις του συνόλου των lncrnas (Πίνακας 1). Η κατηγοριοποίηση των lncrnas έγινε σε sense, antisense, bidirectional και intergenic. Η επεξεργασία των lncrna δεδομένων καθώς και ο αλγόριθμος ταξινόμησής τους έγιναν με τη βοήθεια προγραμμάτων υλοποιημένων σε Perl. Category Number of transcripts Category Number of transcripts First Human Collection Sense 7,543 Midterm Human Collection Antisense 6,035 Antisense Sense 1,766 7,266 bidirectional 920 Bidirectional 358 Intergenic/lincRNA 12,666 Intergenic/lincRNA 13,939 Πίνακας 1. Κατηγοριοποίηση lncrna μεταγράφων σε sense, antisense, bidirectional και intergenic, στον οργανισμό του ανθρώπου. Στο αριστερό κομμάτι του πίνακα (First Human Collection) βλέπουμε την πρώτη συλλογή και κατηγοριοποίηση των lncrnas και στο δεξί τμήμα του πίνακα φαίνεται η δεύτερη συλλογή (midterm Human Collection) και η αντίστοιχη κατηγοριοποίηση των lncrnas. Κατά τη διάρκεια του έργου, ανανεώθηκε η μεγαλύτερη βάση με lncrnas, αυτή της Gencode έκδοση v21[15]. Αποτελεί μία από τις μεγαλύτερες και πιο αξιόπιστες βάσεις δεδομένων και περιλαμβάνει πάνω από 90,000 χαρακτηρισμένα μη κωδικά μετάγραφα στον ανθρώπινο οργανισμό. Τα lncrnas της GENCODE για τον οργανισμό του ανθρώπου και οι σχετικές ανανεώσεις του συνόλου αυτού ενημερώνουν συνεχώς τη βάση δεδομένων της Ensembl. Αντίστοιχες βάσεις δεδομένων, μικρότερου μεγέθους σε πλήθος μεταγράφων, η Refseq και UCSC που εξετάστηκε παραπάνω περιλαμβάνουν τόσο κωδικά όσο μη κωδικά χαρακτηρισμένα μόρια. Έπειτα από εκτενή μελέτη και σύγκριση των βάσεων ως προς τα μετάγραφα διαφορετικών βιοτύπων που περιέχουν, παρατηρήθηκε ότι ο χαρακτηρισμός των μακρών μη κωδικών μεταγράφων πάνω στο γονιδιώμα διαφέρει αρκετά ανάμεσα στις βάσεις και πολλές φορές δεν είναι τόσο αξιόπιστος. Οι μεγαλύτερες διαφορές εντοπίζονται όχι ως προς την μη ματισμένη ακολουθία των γονιδίων αλλά ως τα ματισμένα μακρά μη κωδικά μετάγραφα (σε πλήθος και μέγεθος εξονίων). Στη σύγκριση των βάσεων της Gencode και της Refseq, περιλήφθηκαν όλοι οι βιότυποι που χαρακτηρίζουν τα lncrnas (ανάλογα με την θέση τους στο γονιδίωμα και τη φορά μεταγραφής τους σε σχέση με τα κωδικά γονίδια) όπως linrnas (intergenic), processed transcripts, antisense (Πίνακας 2). H παραπάνω ανάλυση χωρίστηκε σε δύο βήματα. Το πρώτο βήμα περιλαμβάνει ένα σύνολο δεδομένων όλων των spliced μεταγράφων και το δεύτερο όλων των unspliced. Παρατηρήθηκε ότι στην πρώτη 10

περίπτωση 3,381 μη κωδικά μετάγραφα, λιγότερα από το μισό του συνόλου δεδομένων της Refseq παρουσίασαν ομοιότητα μεγαλύτερη από 90%. Αντιθέτως στη δεύτερη περίπτωση ένα πολύ μικρότερο σύνολο, μόλις 706 μη κωδικά μετάγραφα παρουσίασε ομοιότητα μικρότερη από 90%, ποσοστό που αντιστοιχεί σε ~8.7% των συνολικών μεταγράφων της Ensembl. Από την παραπάνω ανάλυση επιβεβαιώνεται ότι τα lncrnas δεν έχουν χαρακτηριστεί πλήρως, γεγονός που οφείλεται ενδεχομένως και στα χαμηλότερα επίπεδα έκφρασης που παρουσιάζουν. Gencode Refseq lincrna 12,912 - lncrna - 8,026 Non stop decay 74 - Processed transcript 26,900 - Retained intron 26,401 - Nonsense decay mediated 13,214 - sense 1,298 - antisense 10,390 25 Total 91,189 8,051 Πίνακας 2. Αριθμός των διαφορετικών βιοτύπων των μη κωδικών μεταγράφων σε Gencode και Refseq. Ένα εκτενέστερο σύνολο lncrnas πάνω στο γονιδίωμα παρατηρείται από την πρώτη βάση δεδομένων. Στις αναλύσεις των CLIP-Seq για την χαρτογράφηση των αλληλεπιδράσεων των micrornas και στα αποτελέσματα που παρατίθενται στη συνέχεια χρησιμοποιείται η βάση δεδομένων της Gencode που περιέχει το μεγαλύτερο και πιο πρόσφατα ενημερωμένο σύνολο μη κωδικών μεταγράφων. Η βάση αυτή παρέχει ακόμη μία καλύτερη κατηγοριοποίηση των lncrnas, σε intergenic, antisense, sense etc, έναντι της Reseq. Αρχικά πραγματοποιήθηκε μία καταγραφή των χαρακτηριστικών των μακρών μη κωδικών μεταγράφων αναφορικά με τον αριθμό και το μήκος των εξονίων τους, καθώς και το μήκος της ματισμένης ή μη εκδοχής τους σε σύγκριση με άλλους βιοτύπους και έχοντας σαν γνώμονα τα κωδικά γονίδια. Χρησιμοποιήσαμε τη βάση της Ensembl v76 για να δημιουργήσουμε το σύνολο μεταγράφων αναφοράς. Σε συμφωνία με προγενέστερες μελέτες[15] παρατηρήθηκε ότι τα lncrnas εμφανίζουν μία κλίση προς την εμφάνιση δύο εξωνίων ανά μετάγραφο σε αντίθεση με τα κωδικά γονίδια που εμφανίζουν περισσότερα. Συνεπώς, ενώ το μήκος των χαρακτηρισμένων εξονίων δε διαφέρει από τα κωδικά το συνολικό μήκος των τελευταίων είναι σημαντικά μεγαλύτερο. Στα σχήματα που ακολουθούν δίνεται η κατανομή του πλήθους των εξωνίων ανά βιότυπο μεταγράφου, καθώς και η κατανομή των μηκών των μεταγράφων (σε log2 κλίμακα) ανά κατηγορία. Έχοντας σαν 11

γνώμονα τα κωδικά γονίδια διαφαίνεται ο ελλειπής χαρακτηρισμός των lncrnas, που αν και καταλαμβάνουν μεγάλο μέρος στο γονιδίωμα, το μεγαλύτερό τμήμα τους θεωρείται ότι αποτελείται από ιντρόνια. Σχήμα 1. Κατανομή των πλήθους των εξονίων που συναντώνται ανά κατηγορία μεταγράφων (Ensembl v76). Παρατηρείται ότι σε κάποιες κατηγορίες μεταγράφων συμπεριλαμβανομένου και των lincrna υπάρχει μία κλίση στην εμφάνιση μικρού αριθμού εξονίων. Σχήμα 2. Κατανομή των μηκών των μεταγράφων ανά κατηγορία βιοτύπου σε κλίμακα log2. 2.2 Εξελικτική συντήρηση των ακολουθιών των μεταγράφων Η εξελικτική συντήρηση των ακολουθιών των μεταγράφων είναι μία ένδειξη λειτουργικότητας. Εξετάζοντας τον ρυθμό εξέλιξης των εξονίων των μη κωδικών 12

μεταγράφων σε σχέση με τα εξόνια των κωδικών γονιδίων παρατηρήθηκε ότι τα εξόνια των κωδικών γονιδίων είναι πιο συντηρημένα σε σύγκριση με τις αντίστοιχες ακολουθίες στα lncrnas (Σχήμα 3). Για να εξεταστεί η συντήρηση των περιοχών των μεταγράφων στον άνθρωπο χρησιμοποιήθηκε το πρόγραμμα SiPhy[16]. Ως είσοδο στον αλγόριθμο δόθηκαν πολλαπλές στοιχίσεις ακολουθιών σε σπονδυλωτά είδη, οι ακολουθίες των εξονίων των κωδικών και lncrna μεταγράφων, και ένα neutral μοντέλο δέντρου. Σχήμα 3. Σύγκριση των μεταγράφων που κωδικοποιούν πρωτεΐνες σε σχέση με τα lincrnas σε σπονδυλωτά. Τα κωδικά μετάγραφα παρουσιάζουν μεγαλύτερη συντήρηση σε σχέση με τις εξελισσόμενες ακολουθίες των lincrnas. Υψηλότερες τιμές omega (Siphy Exon Scores) αντιστοιχούν σε χαμηλά συντηρημένες περιοχές, ενώ τα σκορ που ξεπερνούν το κατώφλι 1.0 χαρακτηρίζονται από τον αλγόριθμο σαν γρήγορα εξελισσόμενες ακολουθίες. 2.3 Ανάλυση των δεδομένων CLIP-Seq Στο επόμενο στάδιο εστιάσαμε στην μελέτη πειραμάτων αιχμής PAR-CLIP (photoactivatable-ribonucleoside-enhanced crosslinking and immunoprecipitation)/hits- CLIP(high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation), που πραγματοποιούν διασταύρωση της AGO πρωτεΐνης και ανοσοκατακρήμνιση για εντοπισμό πιθανών mirna:lncrna αλληλεπιδράσεων. Είναι πρόσφατα ανεπτυγμένες high-throughput τεχνικές που πετυχαίνουν τον άμεσο και ακριβή εντοπισμό των περιοχών πρόσδεσης των mirnas στα γονίδια. Το πείραμα PAR-CLIP διαφέρει από το πείραμα HITS-CLIP στο ότι σε πρώιμο βήμα του πρωτοκόλλου εισάγονται μεταβάσεις (transitions) από θυμίνη (Thymine - T, Thy) σε κυτοσίνη (Cytosine - C) στα RNAs. Οι μεταβάσεις αυτές βοηθούν στον καλύτερο και πιο ακριβή προσδιορισμό των διασταυρούμενων θέσεων στις περιοχές πρόσδεσης της πρωτεΐνης AGO στα RNA. Αυτή τη στιγμή είναι διαθέσιμα αρκετά Next Generation Sequencing δεδομένα-βιβλιοθήκες συγκριμένου τύπου (HITS/PAR-CLIP), που βοηθούν στην αναγνώριση mirna:lncrna αλληλεπιδράσεων. Έχουν ήδη συλλεχθεί και αναλυθεί HITS/PAR-CLIP σε διάφορους 13

κυτταρικούς τύπους. Συγκεντρώσαμε σχεδόν όλα τα διαθέσιμα CLIP-Seq δεδομένα, έχοντας εστιάσει αρχικά στον ανθρώπινο οργανισμό, καθώς εκεί το σύνολο των μακρών μη κωδικών μεταγράφων είναι εκτενέστερο και καλύτερα προσδιορισμένο. Στις κυτταρικές σειρές όπου υπήρχε διαθέσιμη πληροφορία από replicates, η πληροφορία αξιοποιήθηκε κατάλληλα έτσι ώστε η αλληλεπίδραση να εμφανίζεται σε τουλάχιστον δύο εξ αυτών. Παράλληλα συλλέχθηκαν και αναλύθηκαν srna-seq δεδομένα για να εντοπιστούν τα micrornas που εκφράζονται στα κύτταρα όπου πραγματοποιήθηκαν τα HITS/PAR-CLIP πειράματα. Κατά το διάστημα του έργου αναπτύχθηκαν οι απαραίτητοι αλγόριθμοι και αυτόματες ροές ανάλυσης προκειμένου να αναλυθεί με υπολογιστικά αποδοτικό τρόπο, ο μεγάλος όγκος NGS δεδομένων που συλλέχθηκε. Εικόνα 5: Διάγραμμα Ανάλυσης δεδομένων PAR/HITS-CLIP. Παραθέτονται κάποιες από τις CLIP-Seq βιβλιοθήκες με AGO όπου και έχει εστιαστεί η ανάλυση: 1. 4 AGO PAR-CLIP βιβλιοθήκες HEK293 κυτταρικών σειρών από τους (Kishore et al)[17] 2. 1 AGO PAR-CLIP βιβλιοθήκη σε MCF7 breast από τους Farazi et al[18] 3. 4 AGO PAR-CLIP βιβλιοθήκες HEK293 κυτταρικών σειρών από τους Hafner et al[19] 4. 2 AGO PAR-CLIP βιβλιοθήκες BC1,BC3 κυτταρικών σειρών[20] 5. 5 AGO PAR-CLIP βιβλιοθήκες σε Lymphoblastoid κυτταρικές σειρές[21] 6. 1 hesc PAR-CLIP βιβλιοθήκη σε εμβρυονικά βλαστοκύτταρα[22] 7. 3 HIV PAR-CLIP βιβλιοθήκες[23]. 14

Τα βήματα της βιοπληροφορικής ανάλυσης των δεδομένων συνοψίζονται στα παρακάτω διαγράμματα: Εικόνα 6: Βήματα ανάλυσης PAR/HITS-CLIP δεδομένων. Αρχικά τα διαβάσματα που έχουμε πάρει από τα CLIP πειράματα αντιστοιχίζονται στο γονιδίωμα αναφοράς. Στη συνέχεια τα επικαλυπτόμενα διαβάσματα στις θέσεις του γονιδιώματος συνενώνονται έτσι ώστε να σχηματιστούν εμπλουτισμένες περιοχές που αντιστοιχίζονται σε θέσεις πρόσδεσης της AGO. Απομονώνονται μόνο εκείνες οι κορυφές που εντοπίζονται σε περιοχές των υπό μελέτη μεταγράφων. Με χρήση δυναμικού προγραμματισμού αναγνωρίζονται οι θέσεις πρόσδεσης των mirnas στις περιοχές των κορυφών. Όλα τα NGS CLIP δεδομένα που χρησιμοποιήθηκαν στις αναλύσεις ελέγχθηκαν αρχικά για την ποιότητά τους και έγιναν τα απαραίτητα φιλτραρίσματα πριν την αντιστοίχιση των διαβασμάτων στο μεταγράφημα. Κατά τη διαδικασία αυτή εντοπίστηκαν και διαβάσματα σε περιοχές ματίσματος των μεταγράφων κάτι που παραβλέπεται σχεδόν σε όλες τις αναλύσεις αυτού του τύπου δεδομένων. Τα srna-seq δεδομένα που αξιοποιήθηκαν για τον εντοπισμό των εκφρασμένων micrornas αναλύθηκαν με in-house αλγορίθμους σε συνδυασμό με υπάρχοντα προγράμματα όπως το mirdeep[24]. Στη συνέχεια, προχωρήσαμε με την ανάλυση των PAR-CLIP δεδομένων για την ανεύρεση εμπλουτισμένων περιοχών (διαδικασία ανίχνευσης κορυφών). Έγινε προσπάθεια βελτιστοποίησης όλων των βημάτων επεξεργασίας των δεδομένων ώστε να μπορούν να εκτελούνται παράλληλα στους διαθέσιμους πυρήνες ενός υπολογιστή. Μέχρι τώρα οι υπάρχουσες στη βιβλιογραφία αναλύσεις των PAR-CLIP δεδομένων εστίαζαν μόνο σε περιοχές που σχηματίζονται από διαβάσματα εκ των οποίων τουλάχιστον 15

5% παρουσιάζουν Α2G/Τ2C μεταβάσεις στην ίδια ακριβώς θέση στο γονιδίωμα αναφοράς. Παρατηρήσαμε ότι ένα πολύ μεγάλο ποσοστό κορυφών/εμπλουτισμένων περιοχών αφαιρείται από τα επόμενα βήματα των αναλύσεων. Αυτό σχετίζεται και με τις ιδιαιτερότητες του PAR-CLIP πειράματος, όπου σε αρκετές κυτταρικές σειρές και τύπους δεν είναι τόσο αποτελεσματική η εισαγωγή των 4-thiouridine στα νέα RNAs που καταλήγουν σε θέσεις T2C μεταβάσεων. Ακόμη καταγράψαμε όλες τις πιθανές transitions/transversions στα διαβάσματα που παίρνουμε από ένα πείραμα PAR-CLIP. Το ποσοστό άλλων τύπων transitions/transversions διαφορετικών των Τ2C στα διαβάσματα από ένα πείραμα PAR- CLIP σε αρκετές βιβλιοθήκες ήταν πολύ ψηλός. Αυτό δείχνει ότι ενδεχομένως στα CLIP πειράματα το UV που χρησιμοποιείται κατά την επεξεργασία των κυττάρων μπορεί να προκαλέσει και άλλες transitions/transversions πέρα της επιθυμητής (Τ2C). Οι κορυφές που εντοπίζονται στις διάφορες κατηγορίες ταυτοποιημένων μεταγράφων σχηματίζονται από επικαλυπτόμενα διαβάσματα εκ των οποίων τουλάχιστον 5% παρουσιάζουν A2G/Τ2C μεταβάσεις στην ίδια ακριβώς θέση στο γονιδίωμα αναφοράς. Στον Πίνακα 2 καταγράφουμε τα ποσοστά τόσο των Τ2C αλλά και των Α2G μεταλλάξεων σε μία σειρά από PAR-CLIP βιβλιοθήκες που όπως φαίνεται είναι και αυτά αρκετά υψηλά. Αντίστοιχα υψηλά ποσοστά παρατηρούνται και σε άλλες πιθανές transitions/transversions. CLIP πείραμα PAR-CLIP, Kishore et al[17] Κυτταρική σειρά Συνολικά Διαβάσματα T2C μεταβάσεις A2G μεταβάσεις 2.284.296 (%0,177) 1.050.033 (%0,081) HEK-293 12.890.577 PAR-CLIP, Kishore et al[17] HEK-293 4.717.965 511.991 (%0.108) 338.172 (%0.072) PAR-CLIP, Kishore et al[17] HEK-293 19.626.863 3.528.580 (%0.18) 930.267 (%0.047) PAR-CLIP, Kishore et al[17] HEK-293 15.460.382 2.399.063 (%0.16) 1.268.254 (%0.082) PAR-CLIP, Hafner et al[19] HEK-293 1.118.320 185.299 (%0,17) 64.555 (%0,058) PAR-CLIP, Hafner et al[19] HEK-293 1.052.394 89.971 (%0,08549) 104.749 (%0,099) PAR-CLIP, Hafner et al[19] HEK-293 1.938.422 243.313 (%0,126) 101.846 (%0,0525) PAR-CLIP, Hafner et al[19] HEK-293 1.852.741 123.250 (%0,0665) 123.620 (%0,0667) Πίνακας 3. Καταγραφή των ποσοστών των Τ2C αλλά και των Α2G μεταλλάξεων στα διαβάσματα που προέκυψαν σε μία σειρά από PAR-CLIP βιβλιοθήκες σε HEK293 κυτταρικές σειρές. Στην ενοποιημένη συλλογή για όλους του διαθέσιμους βιοτύπους των μεταγράφων που δημιουργήθηκε, αντιστοιχήθηκαν οι εμπλουτισμένες περιοχές πρόσδεσης της AGO από τις βιβλιοθήκες PAR-CLIP. To αναφορικό σύνολο δεδομένων από μετάγραφα για την αντιστοίχιση των κορυφών αποτελείται από: mrnas/protein-coding, lincrnas, 16

pseudogenes, processed transcripts, antisense/sense intronic, antisense/sense exonic lncrnas και άλλα. Οι κορυφές επεξεργάστηκαν, στη συνέχεια, από ένα δυναμικό αλγόριθμο, υλοποιημένο σε perl, για τον εντοπισμό θέσεων πρόσδεσης των mirna - MREs (mirna recognition elements). Ο υλοποιημένος δυναμικός αλγόριθμος αναγνωρίζει διαφορετικούς τύπους πρόσδεσης των micrornas (binding types) από 4μερή έως και 9μερή. Tα MREs σκοράρονται όχι μόνο λαμβάνοντας υπόψη το τύπο πρόσδεσης των micrornas αλλά και άλλα χαρακτηριστικά όπως την ελεύθερη ενέργεια πρόσδεσης, τη συντήρηση των περιοχών πρόσδεσης, την ύπαρξη AU εμπλουτισμένων MREs. Αυτή τη στιγμή ο αλγόριθμος δοκιμάζεται στο συνολικό αριθμό των εμπλουτισμένων περιοχών. Ένα από τα προβλήματα στην ανάλυση των PAR/HITS-CLIP δεδομένων είναι η τελική επιλογή των micrornas (MREs) στις κορυφές. Αρκετά συχνά παρατηρείται πάνω από ένα microrna να στοχεύουν την ίδια περιοχή. Συνεπώς τα micrornas σκοράρονται με βάση κάποια κριτήρια/χαρακτηριστικά όπως απόσταση του seed του microrna από τα Τ2C σημεία μετάλλαξης, ο τύπος πρόσδεσης, η νουκλεοτιδική σύσταση, η ελεύθερη ενέργεια πρόσδεσης κ.α. Ανακαλύψαμε ότι αφήνοντας στην ανάλυση αδύναμους τύπους πρόσδεσης (4 μερή, 5 μερή) των micrornas, τότε τα υποψήφια micrornas που στοχεύουν την κάθε εμπλουτισμένη περιοχή είναι περισσότερα (Σχήμα 4).H διατήρηση των αδύναμων αυτών τύπων πρόσδεσης ενδέχεται να εισάγει πολλά ψευδώς θετικά δεσίματα των micrornas και για αυτό παραλείπονται από τα επόμενα στάδια της ανάλυσης. Σχήμα 4. Με μπλε χρώμα φαίνεται ο αριθμός των micrornas (MREs) που είναι υποψήφια για πρόσδεση σε κορυφές PAR-CLIP, αφού αφαιρεθούν αδύναμοι τύποι πρόσδεσης (4-μερή, 5- μερή). Με μωβ χρώμα φαίνεται ο συνολικός αριθμός των micrornas (MREs) που είναι υποψήφια για πρόσδεση συμπεριλαμβανομένου και των αδύναμων τύπων πρόσδεσης (4- μερή, 5-μερή). Παρατηρείται στο δεύτερο ιστόγραμμα να είναι πολύ μικρότερος ο αριθμός των περιοχών που αντιστοιχούνται σε ένα μοναδικό υποψήφιο microrna. Τα αποτελέσματα αυτά αν και αφορούν μία συγκεκριμένη βιβλιοθήκη (EF3DAGO2, Ago2-FLAG [21]), αποτυπώνονται και στις υπόλοιπες. 17

2.4 Σύγκριση CLIP-Seq βιβλιοθηκών και ομαδοποίηση αυτών. Προκειμένου να εντοπιστούν περιοχές που είναι συντηρημένες μεταξύ των βιβλιοθηκών και ενδεχομένως παρουσιάζουν και συγκεκριμένη λειτουργικότητα, ελέγξαμε εμπλουτισμένες περιοχές σε AGO που έχουν επικάλυψη. Αρχικά εξετάστηκαν κοντινές κυτταρικές σειρές ως προς τις ομαδοποιήσεις που δημιουργούνται με βάση τις περιοχές των MREs. Ενδεικτικά αναφέρεται η σύγκριση που υλοποιήθηκε σε ομάδα Lymphoblastoid κυτταρικών σειρών, όπου και παρατηρήθηκε υψηλή επικάλυψη σε CLIP κορυφές μεταξύ των LCLs βιβλιοθηκών (Πίνακας 4). Libraries Common Clusters EF3DAGO2 LCL35 LCLBAC LCLBACD1 LCLBACD3 BC1 BC3 EF3DAGO2[16] --- 33,27% 20,6% 22,5% 25% 20,4% 20,39% LCL35[16] 29,98% --- 20,73% 23,58% 26% 22,53% 21,8% LCLBAC[16] 28,13% 31,42% --- 40,45% 42,02% 24,92% 28,68% LCLBACD1[16] 20,67% 24,03% 27,2% --- 35,43% 17,87% 20,51% LCLBACD3[16] 21,94% 25,32% 27% 33,86% --- 18,35% 21,36% BC1[8] 22,11% 27,1% 19,78% 21,087% 22,67% --- 36,46% BC3[15] 27,76% 32,93% 28,58% 30,4% 33,14% 45,79% --- Πίνακας 4. Σύγκριση των Lymphoblastoid βιβλιοθηκών και αναφορά του ποσοστού των επικαλυπτόμενων κορυφών, που αντιστοιχούν σε κοινές περιοχές πρόσδεσης των mirnas. 2.5 Χαρακτηρισμός των MREs σε AGO εμπλουτισμένες περιοχές Χρησιμοποιήθηκαν όλα τα μετάγραφα που κωδικοποιούν πρωτεΐνες, ψευδογονίδια αλλά και όλο το σύνολο των lncrnas μεταγράφων. Τα χαρακτηριστικά των MREs στα κωδικά γονίδια διαφοροποιούνται ανάλογα με το αν εντοπίζονται σε περιοχές εξονίων ή ιντρονίων. Κατά αυτόν τον τρόπο διατηρήσαμε αυτόν τον διαχωρισμό και στα μη κωδικά μετάγραφα. Η κατανομή των MREs στους υπό μελέτη βιοτύπους για τις περιοχές των εξωνίων και ιντρονίων τους δίνεται σε επόμενο σχήμα για μία σειρά CLIP-Seq βιβλιοθήκες. Παρατηρείται ότι μεγαλύτερο πλήθος MREs των lincrnas, κυρίως σε Lyμmphoblastoid κυτταρικές σειρές, εντοπίζεται σε περιοχές που αντιστοιχούν σε ιντρόνια, κάτι που είναι αντίθετο με αυτό που συμβαίνει στα κωδικά γονίδια. Αυτό μπορεί να οφείλεται στον ελλειπή χαρακτηρισμό του αριθμού των εξονίων στα lncrnas. Καθώς τα μετάγραφα ενός γονιδίου μπορεί να περιέχουν πάνω από ένα βιοτύπους μεταγράφων, για την πραγματοποίηση στατιστικών αναλύσεων συμπεριλάβαμε μόνο τα MREs που κατανέμονται σε περιοχές ιντρονίων/εξονίων των μεταγράφων και έχουν ίδιο βιότυπο με το αντίστοιχο γονίδιο. Κατά αυτόν τον τρόπο τα περισσότερα sense lncrnas αφήνονται εκτός των επόμενων αναλύσεων γιατί προκύπτουν από μη κωδικές ισομορφές γονιδίων που κωδικοποιούν πρωτεΐνες. Χρησιμοποιώντας αυτό το σύνολο μεταγράφων κατηγοριοποιήθηκαν εκ νέου όλες οι περιοχές πρόσδεσης των mirnas στις AGO-εμπλουτισμένες περιοχές στις διαφορετικές κυτταρικές σειρές. 18

Σχήμα 5. Διαχωρισμός όλων των περιοχών πρόσδεσης των mirnas κατηγοριοποιημένες στους διαφορετικούς βιοτύπους σε περιοχές εξονίων και ιντρονίων αντίστοιχα. Protein coding lincrna Antisense Pseudogene BC1[8] 7,914 275 181 104 BC3[20] 4,680 200 109 78 EF3DAGO2 [21] 5,948 218 137 132 LCL35 [21] 4,622 240 149 68 LCLBAC [21] 3,582 177 119 59 LCLBACD1 [21] LCLBACD3 [21] 3,930 260 158 63 3,805 282 166 68 hesc [22] 2,124 73 43 25 19

HEK293 [19] 2,754 261 145 87 HEK293 [25] 2,718 62 38 30 HEK293[17] 7,914 275 181 104 HIV [23] 5,383 72 62 66 EF3DAGO2 [21] 4,335 227 127 68 Πίνακας 5. Σύνολο μεταγράφων για τους υπό μελέτη βιοτύπους που έχουν τουλάχιστον ένα MRE σε περιοχή ιντρονίου ή εξονίου για το σύνολο των υπό μελέτη κυτταρικών σειρών. Συμπεριλαμβάνονται μόνο εκείνα τα μετάγραφα που αντιστοιχίζονται σε ίδιο βιότυπο γονιδίου. Παρατηρείται ότι αρκετά μεγαλύτερος αριθμός κωδικών γονιδίων, σε σχέση με τις υπόλοιπες κατηγορίες μη κωδικών γονιδίων, έχουν περιοχές πρόσδεσης των mirnas, με βάση την ανάλυση των CLIP-Seq δεδομένων. Στη συνέχεια πραγματοποιήθηκαν μία σειρά από στατιστικές αναλύσεις (βάσει των πειραματικών PAR/HITS-CLIP δεδομένων) για την καλύτερη περιγραφή της πρόσδεσης των micrornas στις διάφορες κατηγορίες μεταγράφων, εστιάζοντας στα μακρά μη κωδικά μετάγραφα. Κατανοούνται έτσι καλύτερα πιθανοί μηχανισμοί των θέσεων πρόσδεσης των mirnas στα lncrnas, έχοντας πάντα σαν σημείο αναφοράς τον αντίστοιχο μηχανισμό στα μετάγραφα που κωδικοποιούν πρωτεΐνες. Για παράδειγμα, μια εκ των στατιστικών αναλύσεων βασίστηκε στη συντήρηση των MREs έναντι των υπόλοιπων περιοχών των εξονίων/ιντρονίων των πειραματικά επιβεβαιωμένων MREs σε όλους τους βιοτύπους των μεταγράφων. Παρατηρήθηκε ότι σε αρκετές CLIP-Seq βιβλιοθήκες, όπου και είχαμε υψηλό αριθμό από προσδέσεις της AGO σε lncrnas, οι περιοχές των MREs παρουσιάζουν στατιστικώς σημαντικά πιο υψηλή συντήρηση σε σχέση με τη συντήρηση που παρουσιάζουν περιοχές των εξονίων που δεν έχουν εμπλουτισμένες σε AGO περιοχές. Λαμβάνοντας υπόψη μόνο τα μετάγραφα με βιότυπο ίδιο με αυτό του γονιδίου, εντοπίζουμε συντηρημένες περιοχές MREs σε εξόνια/ιντρόνια που εμφανίζονται σε πάνω από μία συγγενείς βιβλιοθήκες CLIP (Πίνακας 6). Οι περιοχές αυτές θεωρούνται πιο αξιόπιστες και χρήζουν περισσότερη διερεύνηση. Ειδικά για αυτές που αντιστοιχούν σε περιοχές μη κωδικών μεταγράφων ιδιαίτερο ενδιαφέρον έχει να ελεγχθούν ως προς τη συντήρηση και λειτουργικότητά τους, καθώς και στο αν συνδέονται με mirnas που συμμετέχουν σε cerna δίκτυα. Combined Lymphoblastoid Libraries Exons Introns Protein coding 5832 1344 lincrna 62 187 Pseudogene 45 21 antisense 30 103 Πίνακας 6. Συντηρημένες περιοχές MREs που αντιστοιχίζονται στην ίδια γενωμική περιοχή σε πάνω από μία συγγενείς LCL κυτταρικές σειρές. Κατηγοριοποίηση των MREs σε μετάγραφα με βιότυπο ίδιο με αυτό του γονιδίου σε περιοχές εξονίων/ιντρονίων. 20

2.6 Εξελικτική συντήρηση των στόχων των mirnas σε εμπλουτισμένες περιοχές AGO-CLIP-Seq πειραμάτων Σε αυτό το στάδιο εξετάστηκε η συντήρηση των MREs που εντοπίστηκαν από την ανάλυση των CLIP δεδομένων για τους διαφορετικούς βιοτύπους μεταγράφων. To σύνολο των δεδομένων που χρησιμοποιήθηκε περιλαμβάνει όλα τα MREs σε περιοχές των ιντρονίων και των εξονίων σε Lyphoblastoid βιβλιοθήκες. Για τους υπολογισμούς της συντήρησης των υπό σύγκριση περιοχών χρησιμοποιήθηκαν προϋπολογισμένα σκορ του προγράμματος phastcons από πολλαπλές στοιχίσεις γονιδιωμάτων διαφορετικών οργανισμών. Για την διερεύνηση της λειτουργικότητας των προσδέσεων της AGO σε περιοχές lncrnas και για να ελεγχθεί αν οι προσδέσεις έχουν το προφίλ τυχαίων γεγονότων, δημιουργήσαμε σύνολα από flanking περιοχές των peaks, δηλαδή απομακρυσμένες περιοχές από το 5 άκρο και το 3 άκρο των εμπλουτισμένων κορυφών (flanking regions) αντίστοιχου μήκους με αυτό των MREs. Οι flanking περιοχές δεν εμφανίζουν επικάλυψη με εμπλουτισμένες περιοχές AGO-CLIP-Seq πειραμάτων, ενώ παράλληλα βρίσκονται σε μία απόσταση +/- 100 βάσεων από τα άκρα των peaks. Παράλληλα συλλέχθηκαν τυχαίες περιοχές στο γονιδίωμα, που δεν εμφανίζουν καμία επικάλυψη με χαρακτηρισμένες περιοχές γονιδίων. Παρατηρήθηκε ότι τα MREs των ιντρονίων των μακρών μη κωδικών και κωδικών μεταγράφων παρουσιάζουν χαμηλή συντήρηση, αντίστοιχη με αυτή των flanking περιοχών τους και των τυχαίων μη χαρακτηρισμένων περιοχών. Από την άλλη μεριά τα MREs των εξονίων των lincrnas παρουσιάζουν στατιστικώς μεγαλύτερη συντήρηση από αυτή των flanking περιοχών τους και των τυχαίων μη χαρακτηρισμένων περιοχών (Σχήμα 6). Σχήμα 6. Στατιστική ανάλυση της συντήρησης των MREs των μεταγράφων σε περιοχές πρόσδεσης της AGO. Τα MREs των ιντρονίων, τόσο στα μη κωδικά μετάγραφα όσο και στα κωδικά, παρουσιάζουν χαμηλή συντήρηση, παρόμοια αυτής των τυχαίων περιοχών του γονιδιώματος και των flanking regions των peaks των ιντρονίων. Αντίθετα τα MREs των εξονίων σε μετάγραφα που κωδικοποιούν πρωτεΐνες παρουσιάζουν σημαντικά μεγαλύτερη συντήρηση από όλες τις άλλες περιοχές. Στατιστικώς σημαντικά μεγαλύτερη συντήρηση έχουν 21

και τα MREs των εξονίων στα lincrna μετάγραφα σε σχέση με τις τυχαίες αλλά και τις flanking περιοχές (p<0.05). 2.7 Λειτουργία των μικρών RNAs στον πυρήνα/κυτταρόπλασμα. Αν και η κύρια λειτουργία των mirnas είναι να δρουν ως μεταμεταγραφικοί ρυθμιστές της γονιδιακής έκφρασης στο κυτταρόπλασμα, αρκετές μελέτες εντοπίζουν τα micrornas τόσο στον πυρήνα όσο και στο κυτταρόπλασμα του κυττάρου (πχ το mir- 21 στα HeLa cells)[26]. Ακόμη, πρωτεΐνες και παράγοντες που μετέχουν στο μονοπάτι λειτουργίας των mirna (RNAi pathway) συναντώνται στον πυρήνα. Κατά το διαχωρισμό των mirnas στα τμήματα του κυττάρου με βάση δεδομένα έκφρασης, παρατηρείται μεγάλη επικάλυψη σε αυτά που εκφράζονται σε πυρήνα και κυτταρόπλασμα αντίστοιχα. Στον αντίποδα τα lncrnas αν και δρουν κατά κύριο λόγο στον πυρήνα αρκετά από αυτά εντοπίζονται και στο κυτταρόπλασμα[27]. Αυτή τη στιγμή υπάρχουν διαθέσιμα RNA-seq δεδομένα σε ένα σύνολο από κυτταρικές σειρές σε πυρήνα και κυτταρόπλασμα από την ENCODE[28]. Αρκετά από αυτά τα δεδομένα είναι στις ίδιες κυτταρικές σειρές όπου έχουμε και αντίστοιχη πληροφορία από CLIP-Seq πειράματα. Αναλύθηκαν μία σειρά RNA-Seq δεδομένων σε πυρήνα και κυτταρόπλασμα που ανακτήθηκαν από την ENCODE. Ενδεικτικά αναφέρουμε τα αποτελέσματα έκφρασης των mirnas για την Lymphoblastoid κυτταρική σειρά GM12878[28]. Τα αποτελέσματα συνδυάστηκαν με CLIP-seq δεδομένα σε μία σειρά από Lymphoblastoid βιβλιοθήκες. Τα mirnas που εκφράζονται στα δύο τμήματα του κυττάρου αντιστοιχήθηκαν με τα MREs που έχουν εμπλουτισμένες AGO περιοχές από CLIP-Seq δεδομένα. Στη συνέχεια διακρίναμε αλληλεπιδράσεις mirna:lncrnas για μικρά μη κωδικά μετάγραφα που παρουσιάζουν έκφραση μόνο στον πυρήνα. Παραμένει να διερευνηθεί αν και τα αλληλεπιδρώντα lncrnas εντοπίζονται κυρίως στον πυρήνα ή στο κυτταρόπλασμα. Εxpressed mirnas in Cytoplasm Εxpressed mirnas in Cytoplasm &Nucleus Εxpressed mirnas only in Nucleus Interactions only in Nucleus Total interactions of mirnas with lncrnas BC1 137 85 - - 1244 BC3 133 78 4 29 842 EF3DAGO2 190 102 2 8 848 LCL35 172 89 5 12 813 LCLBAC 168 88 8 18 546 LCLBACD1 194 103 9 23 806 LCLBACD3 205 101 7 19 768 Πίνακας 7. Τα αποτελέσματα δίνονται σε 7 Lymphoblastoid κυτταρικές σειρές Αλληλεπιδράσεις εκφρασμένων mirnas σε πυρήνα και κυτταρόπλασμα με lncrnas. 22

Παρατηρούνται αρκετές κοινές αλληλεπιδράσεις στα δύο κυτταρικά τμήματα καθώς και mirnas που αλληλεπιδρούν με συγκεκριμένα μακρά μη κωδικά μετάγραφα μόνο στον πυρήνα. 3. Συζήτηση Η ενοποίηση των αποτελεσμάτων των αλληλεπιδρώντων δίπολων, με δεδομένα έκφρασης των μεταγράφων σε πυρήνα και κυτταρόπλασμα, θα βοηθήσει στην κατανόηση μέχρι τώρα άγνωστων πτυχών της δράσης των ncrnas και κυρίως των lncrnas. Η χαρτογράφηση των mirna:lncrna:mrna αλληλεπιδράσεων θα βοηθήσει στη μελέτη ανταγωνιστικών δικτύων μεταξύ των μεταγράφων. Τα δίκτυα cerna είναι ένας βιολογικός μηχανισμός που πρόσφατα επιβεβαιώθηκε και στοιχειοθετήθηκε [29]. Στα δεδομένα μας υπάρχουν ομάδες μεταγράφων που απαρτίζονται από lncrnas, pseudogenes και protein coding γονίδια που εμφανίζουν αναγνωριστικές θέσεις πρόσδεσης της πρωτεΐνης Αργοναύτης AGO για ίδια micrornas. Αρκετά από τα MREs αυτά εμφανίζουν και υψηλή συντήρηση. Με αυτό τον τρόπο μπορέσαμε να εντοπίσουμε υπολογιστικά μια σειρά από άγνωστα ως τώρα ce-rna δίκτυα. Στην συνέχεια εντοπίστηκαν στόχοι και περιοχές συντηρημένες μεταξύ πειραμάτων διαφορετικών ιστών αποδεικνύοντας για πρώτη φορά οτι οι αλληλεπιδράσεις των μη κωδικών γονιδίων δεν είναι ένα γεγονός συγκεκριμένο για έναν ιστό αλλά η ίδια ρυθμιστική σχέση είναι συντηρημένη σε περισσότερες λειτουργίες του οργανισμού. Παράλληλα ερευνήσαμε τον ρόλο της ύπαρξης mirna στον πυρήνα και βρήκαμε μια σειρά από καινούργιες πειραματικά υποστηριγμένες αλληλοεπιδράσεις μεταξύ mirna και lncrna στον πυρήνα. Οι αλληλοεπιδράσεις αυτές μας δίνουν πρώτα δείγματα και ενδείξεις για τον σε μεγάλο βαθμό άγνωστο ως τώρα ρυθμιστικό ρόλο των mirnaς στην μεταγραφή ενός γονιδίου, Πρόσφατες μελέτες έδειξαν ότι τα πρώιμα ερυθροειδή περιέχουν πολλά mirnas τα οποία διαφοροποιούνται κατά τη διάρκεια της ωρίμανσης των ερυθρών κυττάρων [30, 31]. Εκατοντάδες lncrnas βρέθηκαν να εκφράζονται σε διαφορετικά στάδια της ερυθροποίησης ενώ τουλάχιστον ένα ρυθμίζει την ισορροπία αυτής της πολυσταδιακής διαδικασίας [32]. Η ανακάλυψη των μηχανισμών με τους οποίους τα mirnas και τα lncrnas εμπλέκονται στην ερυθροποίηση είναι απαραίτητη για την κατανόηση πολλών ασθενειών που συνδέονται με ερυθρά κυτταρα συμπεριλαμβανομένων των αιμοσφαιρινοπαθειών όπως αναιμίες και θαλασσαιμίες και αιματολογικές κακοήθειες, όπως λευχαιμίες και τα μυελοδυσπλαστικά σύνδρομα. Κατά τη μελέτη δικτύων ανταγωνισμού των μεταγράφων σε δίκτυα γονιδίων που ρυθμίζονται από microrna (cerna networks) κατά την ερυθροποίηση, χρειάζεται να χαρτογραφηθεί κατά τον καλύτερο δυνατό οι αλληλεπιδράσεις των lncrna, pseudogenes και κωδικών μεταγράφων. Αυτό θα επιτευχθεί με χρήση CLIP-seq πειραμάτων σε κυτταρικούς σειρές από erythroleukemic (MEL) τύπους, σε συνδυασμό με δεδομένα έκφρασης των μικρών και μακρών μεταγράφων στον πυρήνα και κυτταρόπλασμα. 23

4. Βιβλιογραφία 1. Huntzinger, E. and E. Izaurralde, Gene silencing by micrornas: contributions of translational repression and mrna decay. Nature reviews. Genetics, 2011. 12(2): p. 99-110. 2. Huntzinger, E. and E. Izaurralde, Gene silencing by micrornas: contributions of translational repression and mrna decay. Nat Rev Genet, 2011. 12(2): p. 99-110. 3. Baker, M., Long noncoding RNAs: the search for function. Nat Meth, 2011. 8(5): p. 379-383. 4. Mattick, J.S., RNA regulation: a new genetics? Nature reviews. Genetics, 2004. 5(4): p. 316-23. 5. Kozomara, A. and S. Griffiths-Jones, mirbase: annotating high confidence micrornas using deep sequencing data. Nucleic acids research, 2014. 42(Database issue): p. D68-73. 6. Cabili, M.N., et al., Integrative annotation of human large intergenic noncoding RNAs reveals global properties and specific subclasses. Genes & development, 2011. 25(18): p. 1915-27. 7. Jiao, A. and F.J. Slack, MicroRNAs micromanage themselves. Circ Res, 2012. 111(11): p. 1395-7. 8. Zisoulis, D.G., et al., Autoregulation of microrna biogenesis by let-7 and Argonaute. Nature, 2012. 486(7404): p. 541-4. 9. Wang, J., et al., CREB up-regulates long non-coding RNA, HULC expression through interaction with microrna-372 in liver cancer. Nucleic acids research, 2010. 38(16): p. 5366-83. 10. Klein, U., et al., The DLEU2/miR-15a/16-1 cluster controls B cell proliferation and its deletion leads to chronic lymphocytic leukemia. Cancer cell, 2010. 17(1): p. 28-40. 11. Cai, X. and B.R. Cullen, The imprinted H19 noncoding RNA is a primary microrna precursor. RNA, 2007. 13(3): p. 313-6. 12. Rinn, J.L. and H.Y. Chang, Genome regulation by long noncoding RNAs. Annual review of biochemistry, 2012. 81: p. 145-66. 13. Cunningham, F., et al., Ensembl 2015. Nucleic acids research, 2014. 14. Pruitt, K.D., T. Tatusova, and D.R. Maglott, NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic acids research, 2005. 33(Database issue): p. D501-4. 15. Derrien, T., et al., The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression. Genome research, 2012. 22(9): p. 1775-89. 16. Garber, M., et al., Identifying novel constrained elements by exploiting biased substitution patterns. Bioinformatics, 2009. 25(12): p. i54-62. 17. Kishore, S., et al., A quantitative analysis of CLIP methods for identifying binding sites of RNA-binding proteins. Nature methods, 2011. 8(7): p. 559-64. 18. Farazi, T.A., et al., Identification of distinct mirna target regulation between breast cancer molecular subtypes using AGO2-PAR-CLIP and patient datasets. Genome biology, 2014. 15(1): p. R9. 19. Hafner, M., et al., Transcriptome-wide identification of RNA-binding protein and microrna target sites by PAR-CLIP. Cell, 2010. 141(1): p. 129-41. 20. Gottwein, E., et al., Viral microrna targetome of KSHV-infected primary effusion lymphoma cell lines. Cell host & microbe, 2011. 10(5): p. 515-26. 24

21. Skalsky, R.L., et al., The viral and cellular microrna targetome in lymphoblastoid cell lines. PLoS pathogens, 2012. 8(1): p. e1002484. 22. Lipchina, I., et al., Genome-wide identification of microrna targets in human ES cells reveals a role for mir-302 in modulating BMP response. Genes & development, 2011. 25(20): p. 2173-86. 23. Whisnant, A.W., et al., In-depth analysis of the interaction of HIV-1 with cellular microrna biogenesis and effector mechanisms. mbio, 2013. 4(2): p. e000193. 24. Friedlander, M.R., et al., Discovering micrornas from deep sequencing data using mirdeep. Nature biotechnology, 2008. 26(4): p. 407-15. 25. Memczak, S., et al., Circular RNAs are a large class of animal RNAs with regulatory potency. Nature, 2013. 495(7441): p. 333-8. 26. Paralkar, V.R., et al., Lineage and species-specific long noncoding RNAs during erythromegakaryocytic development. Blood, 2014. 123(12): p. 1927-37. 27. Clark, M.B. and J.S. Mattick, Long noncoding RNAs in cell biology. Seminars in cell & developmental biology, 2011. 22(4): p. 366-76. 28. An integrated encyclopedia of DNA elements in the human genome. Nature, 2012. 489(7414): p. 57-74. 29. Bosson, A.D., J.R. Zamudio, and P.A. Sharp, Endogenous mirna and Target Concentrations Determine Susceptibility to Potential cerna Competition. Molecular cell, 2014. 56(3): p. 347-359. 30. Noh, S.J., et al., Let-7 micrornas are developmentally regulated in circulating human erythroid cells. Journal of translational medicine, 2009. 7: p. 98. 31. Bianchi, N., et al., Expression of mir-210 during erythroid differentiation and induction of gamma-globin gene expression. BMB reports, 2009. 42(8): p. 493-9. 32. Paralkar, V.R. and M.J. Weiss, A new 'Linc' between noncoding RNAs and blood development. Genes & development, 2011. 25(24): p. 2555-8. 25