ΕΥΡΩΠΑΪΚΗ ΕΝΩΣΗ ΕΥΡΩΠΑΪΚΟ, Ε. Π. Ανταγωνιστικότητα και Επιχειρηματικότητα (ΕΠΑΝ ΙΙ), ΠΕΠ Μακεδονίας Θράκης, ΠΕΠ Κρήτης και Νήσων Αιγαίου, ΠΕΠ Θεσσαλίας Στερεάς Ελλάδας Ηπείρου, ΠΕΠ Αττικής ΗΛΕΚΤΡΟΝΙΚΟΣ ΒΟΗΘΟΣ ΜΟΡΙΑΚΗΣ ΔΙΑΓΝΩΣΤΙΚΗΣ ELECTRONIC MOLECULAR DIAGNOSTICS ASSISTANT ΠΑΡΑΔΟΤΕΟ Π3.4 Νευροβιολογική βάση των ΔΠΑ και ΑΜΣ βιοδεικτών Επαλήθευση και Επικύρωση με μεθοδολογίες διερεύνησης και εξόρυξης Βιοϊατρικών Βιβλιογραφικών Αναφορών Είδος Παραδοτέου: Τεχνική Αναφορά Υπεύθυνος Φορέας: ΠΔΕ (2) Ημερομηνία: 11/05/2015 Ιστορικό Εγγράφου Έκδοση Ημερομηνία Κατάσταση 0.1 10/09/2014 Προσχέδιο 1.0 15/03/2015 1 η έκδοση Τελική 11/05/2015 Τελικό Προετοιμασία - Ονομ./Επώνυμο, (#Φορέα) - Γ. Πατριαρχέας, (2) Γ. Πατρινός (1) Γ. Πατριαρχέας, (2) Γ. Πατρινός (1) Γ. Πατριαρχέας, (2) Γ. Πατρινός (1) * Κ: Κοινοπραξία έργου, EE: ΕΥΔΕ- ΕΤΑΚ, Δ: Δημόσιο έγγραφο (ελεύθερο, π.χ., Web- Site έργου) Διανομή* K K EE
ΠΕΡΙΛΗΨΗ Σε αυτό το παραδοτέο, παρουσιάζουμε τη διαδικασία επαλήθευσης και επικύρωσης της νευροβιολογικής βάσης των ενδεικτικών βιοδεικτών με μεθοδολογίες διερεύνησης και εξόρυξης βιβλιογραφικών αναφορών. EXECUTIVE SUMMARY In this deliverable, we present the validation process regarding the potential biomarkers in question and neurobiology via literature search and data mining ΕΠΑΝ ΙΙ- ΣΠ- - emodia 1 /6 Παραδοτέο Π3.4
ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1. state- of- the- art μηχανισμοί εξόρυξης δεδομένων...3 5.1.1 ML&KD και e- Science... 3 5.1.2 Βιοπληροφορική και In silico Βιολογία... 4 5.1.3 Επιλογή Μεταβλητών και Ανακάλυψη Βιοδεικτών... 4 2. Ανακάλυψη Γνώσης από τη Βιβλιογραφία... 5 Αναφορές... 6 ΕΠΑΝ ΙΙ- ΣΠ- - emodia 2 /6 Παραδοτέο Π3.4
1. state- of- the- art μηχανισμοί εξόρυξης δεδομένων Η εξόρυξη δεδομένων έχει επιτυχώς παράσχει λύσεις για την εύρεση πληροφοριών σε πολλούς τομείς συμπεριλαμβανομένης της βιοπληροφορικής. Πολλά προβλήματα στο τομέα της επιστήμης και της βιομηχανίας έχουν αντιμετωπιστεί με μεθόδους και αλγορίθμους εξόρυξης δεδομένων όπως η ομαδοποίηση (clustering), η κατηγοριοποίηση (classification), οι κανόνες συσχέτισης (association rules) και η επιλογή μεταβλητών (feature selection). Ειδικότερα, η επιλογή μεταβλητών είναι μια πολλά υποσχόμενη προσέγγιση για τη δραστική μείωση και επιλογή αξιόπιστων γονιδιακών- παραλλαγών, και των αντίστοιχων SNPs. Η βασική ιδέα είναι η επιλογή ενός υποσυνόλου αρχικών μεταβλητών με την εξάλειψη αυτών που παρουσιάζουν περιορισμένη απόδοση πρόβλεψης. Η επιλογή μεταβλητών μπορεί να βελτιώσει σημαντικά την σαφήνεια των τελικών κατηγοριοποιητών (classifiers) και να υποστηρίξει την ανάπτυξη διαγνωστικών και προβλεπτικών προγνωστικών μοντέλων. Η μηχανική μάθηση και η ανακάλυψη γνώσης (Machine Learning & Knowledge Discovery ML&KD; Fayyad et al., 1992), σαν το βασικό υπόβαθρο τεχνικών εξόρυξης δεδομένων, έχει εξελιχθεί πάρα πολύ. Παράλληλα με σημαντικές μεθοδολογικές εξελίξεις, ο κλάδος έχει αποκτήσει μια αυξανόμενη επίγνωση της θέσης του στην «επιστήμη» και της αναγκαιότητας βάσιμων και με ακρίβεια τεχνικών αξιολόγησης αποτελεσμάτων, που στηρίζονται σε σαφείς και αξιόπιστες στατιστικές υποθέσεις και μεθόδους. Στο πίνακα 1 παρουσιάζεται μια περίληψη των τρεχόντων τάσεων. Πίνακας 1. Τρέχουσες «τάσεις» και βασικές λειτουργίες στη ML&DM Μέθοδος Κατηγοριοποίηση Μεταβλητές Ανακάλυψη Απόκτηση γνώσης Επεξεργασία φυσικής γλώσσας/εξόρυξη γνώσεων από τη Βιβλιογραφία Πράκτορες Γνωστικά μοντέλα Ανάλυση δομημένων μοντέλων Θεωρία Συγκεκριμένες Λειτουργίες Πρόβλεψη, Επανεξέταση της θεωρίας & βελτίωση της γνώσης, Χαρακτηρισμός, Παρεμβολή Επιλογή μεταβλητών, Διακριτοποίηση, Χειρισμός των άγνωστων τιμών, Χειρισμός μεροληψιών Διαμόρφωση θεωρίας, Ομαδοποίηση, Τμηματοποίηση, Συσχέτιση Ανάκτηση Πληροφορίας, Εξαγωγή πληροφορίας, Δομημένη μάθηση Εξόρυξη γνώσης από «μη δομημένες» πηγές και κείμενα (εξόρυξη και ανακάλυψη μοτίβων) Έλεγχος, Μάθηση στη ρομποτική, Μάθηση αντίληψης, Απόκτηση δεξιοτήτων, Ενεργή μάθηση, Μοντέλα μάθησης του περιβάλλοντος & των αλληλεπιδράσεων Προφίλ προτιμήσεων, Έξυπνες διεπαφές Ανάλυση χρονοσειρών, Μάθηση/Εξόρυξη ακολουθιών, Μάθηση από χωρικά και χρονικά δεδομένα, Εικονική μάθηση, Μάθηση από δεδομένα πολλαπλών μέσων Διανόρφωση θεωριών, Επιλογή υποθέσεων, Συγκρίσεις, Πολυπλοκότητα 1.1 ML&KD και e- Science Ακόμα και αν κάθε επιστημονικός κλάδος μπορεί να επωφεληθεί από εργαλεία ανακάλυψης γνώσης, υπάρχουν κάποιοι κλάδοι που είναι ιδιαίτερα κατάλληλοι και στους οποίους αυτά τα εργαλεία έχουν ήδη αποδειχθεί χρήσιμα. Δεδομένης της τεράστιας ποσότητας των ταχέως αναπτυσσόμενων και πολύπλοκων ΕΠΑΝ ΙΙ- ΣΠ- - emodia 3 /6 Παραδοτέο Π3.4
τύπων δεδομένων και των εκτενών μεθόδων ανάλυσης δεδομένων, η τεχνολογία εξόρυξης δεδομένων μπορεί να είναι ακόμα σε πρώιμο στάδιο, καθώς δεν είναι ακόμα επαρκής για τη διαχείριση μεγάλων και σύνθετων προβλημάτων. Η έρευνα είναι απαραίτητη για την ανάπτυξη αυτοματοποιημένων, επεκτάσιμων, ολοκληρωμένων και αξιόπιστων συστημάτων και εργαλείων εξόρυξης δεδομένων. Επιπλέον, είναι σημαντική η προώθηση της ανταλλαγής πληροφοριών μεταξύ των χρηστών, των αναλυτών δεδομένων, των προγραμματιστών και των ερευνητών που ασχολούνται με την εξόρυξη δεδομένων ώστε να διευκολυνθεί η ανάπτυξη της σχετικής έρευνας, της ανάπτυξης εφαρμογών και της μεταφοράς της τεχνογνωσίας. Ο Han (Han et al., 2003) έχει παρουσιάσει μια ανάλυση των δυνατοτήτων της ανακάλυψης γνώσης στην επιστημονική διαδικασία. 1.2 Βιοπληροφορική και In silico Βιολογία Η επιτυχία της βιοπληροφορικής τα τελευταία χρόνια παρακινήθηκε, σε μεγάλο βαθμό, και την ανάπτυξη μεθοδολογιών και τεχνικών εξόρυξης δεδομένων και ανακάλυψης γνώσεων (Mamitsuka et al., 2013). Πολλά ευρέως επιτυχημένα υπολογιστικά μοντέλα και εργαλεία που χρησιμοποιούνται από βιολόγους, όπως στοχαστικά μοντέλα ανάλυσης DNA- αλληλουχιών ή οι μέθοδοι ομαδοποίησης γονιδιακών- εκφράσεων από μικροσυστοιχίες DNA (DNA microarrays) είτε SNP γονοτυπικών προφίλ, έχουν επαρκώς αντιμετωπιστεί με μεθοδολογίες και προσεγγίσεις ML&KD. Παρ όλα αυτά, οι τρέχουσες εξελίξεις στη γονιδιωματική, στη πρωτεϊνωματική και στη μοντελοποίηση της κυτταρικής λειτουργίας, σε συνδυασμό με την απότομη ανάπτυξη της ικανότητα παραγωγής βιολογικών δεδομένων υψηλής απόδοσης, θα προσφέρουν νέες ευκαιρίες για στενή συνεργασία μεταξύ ερευνητών από το πεδίο ML&KD και ερευνητών από το πεδίο της βιοϊατρικής με ποθητό αποτέλεσμα την ανάπτυξη χρήσιμων εργαλείων αντιμετώπισης και επίλυσης σύνθετων και πολύπλοκων προβλημάτων βιολογίας και μεγάλου όγκου δεδομένων (Zhang and Rajapakse, 2008; Savage, 2014). 1.3 Επιλογή Μεταβλητών και Ανακάλυψη Βιοδεικτών Από τη μια πλευρά τα πολυδιάστατα, από άποψη των μεταβλητών αναφοράς (δεκάδες χιλιάδες), δεδομένα (π.χ. μικροσυστοιχίες) και από την άλλη τα μικρά σε μέγεθος δείγματα (δεκάδες έως εκατοντάδες), αποτελούν βασικές προκλήσεις για τις υπολογιστικές τεχνικές και τις αντίστοιχες προσεγγίσεις ανάλυσης δεδομένων. Από την οπτική γωνία της υπολογιστικής και της στατιστικής, η μείωση του συνόλου μεταβλητών και η επιλογή των πιο σχετικών μεταβλητών θα μπορούσε να βοηθήσει: (α) στην αντιμετώπιση πολυδιάστατων χώρων και στην μείωση του υπολογιστικού κόστους, και (β) στην βελτίωση της απόδοσης της κατηγοριοποίησης (classification). Από θεωρητική άποψη, η επιλογή των πιο σχετικών μεταβλητών χρησιμοποιεί την επαγωγική και μεροληπτική (inductive bias) προσέγγιση των ελάχιστων- χαρακτηριστικών (min- features) κατά την οποία προτιμούνται πιο απλά μοντέλα πρόβλεψης έναντι των πιο πολύπλοκων (Almuallim, 1991). Η επαγωγική μεροληψία βασίζεται στην αρχή Occams s razor : αν μπορούμε να προβλέψουμε τη κατηγορία ενός συνόλου από n περιπτώσεις (τα παραδείγματα εκπαίδευσης του μοντέλου) σε μια υπόθεση που χρησιμοποιεί μόνο k<<n μεταβλητές, τότε μπορούμε να είμαστε σίγουροι ότι αυτή η υπόθεση γενικεύεται καλά σε μελλοντικές περιπτώσεις (τις περιπτώσεις δοκιμής). Με βάση την αρχή αυτή, οι διεργασίες επιλογής μεταβλητών στοχεύουν στην επιλογή ενός ΕΠΑΝ ΙΙ- ΣΠ- - emodia 4 /6 Παραδοτέο Π3.4
υποσυνόλου μεταβλητών έτσι ώστε ο αρχικός χώρος να μειωθεί βέλτιστα σύμφωνα με ένα συγκεκριμένο κριτήριο αξιολόγησης. Είναι φυσικό να υποθέσουμε ότι, καθώς οι διαστάσεις ενός χώρου επεκτείνονται, ο απαραίτητος αριθμός παρατηρήσεων, ώστε να μοντελοποιηθεί μια έγκυρη υπόθεση, αυξάνεται ένα γεγονός που αξιολογείται στο πλαίσιο της θεωρίας θεωρητικής υπολογιστικής μάθησης και συγκεκριμένα υπό το πρίσμα προσεγγίσεων «κατά- προσέγγιση πιθανοθεωρητικά σωστή δυνατότητα μάθησης» (PAC- learnability; Valiant, 1984). Υπάρχει μια πληθώρα ελύθερα προσβάσιμων αλγορίθμων, εργαλείων και συστημάτων εξόρυξης δεδομένων, π.χ. Weka (www.cs.waikato.ac.nz/ml/weka), R- package/bioconductor (www.bioconductor.org) κλπ). Στα πλαίσια του έργου emodia και της εκμετάλλευσης σχετικών εργαλείων και υπηρεσιών από το σύστημα epga μας ενδιαφέρει η ανακάλυψη και ο εντοπισμός συσχετίσεων μεταξύ SNP- προφίλ και φαινότυπων και τα αντίστοιχα μοντέλα διάκρισης / ταξινόμησης. Ø Οι βασικές δραστηριότητες της διαδικασίας αυτής εφαρμόζονται στο σύστημα επιλογής μεταβλητών (γονιδίων) MineGene, οι λειτουργίες του οποίου θα προσαρμοστούν και θα εκμεταλλευτούν κατάλληλα στα πλαίσια του έργου (Potamias et al., 2004; 2006; 2007). Ø Επιπλέον, πρόκειται να αξιοποιήσουμε συστήματα ανοικτού- κώδικα (open source), όπως το plink (pngu.mgh.harvard.edu/~purcell/plink), τα οποία χρησιμοποιούνται ευρέως στην ανάλυση γονοτυπικών/snp δεδομένων και τον εντοπισμό στατιστικά- σημαντικών συσχετίσεων (τα οποία προκύπτουν από GWAS Genome Wide Association Studies; www.nature.com/nrg/series/gwas) 2. Ανακάλυψη Γνώσης από τη Βιβλιογραφία Η εξόρυξη δεδομένων από τη βιβλιογραφία για τη βιοϊατρική είναι η διαδικασία εξεύρεσης έγκυρων, νέων και χρήσιμων πληροφοριών και προτύπων από ελεύθερης- γραφής κείμενα (π.χ., περιλήψεις επιστημονικών εργασιών από την PubMed), και περιλαμβάνει δύο βασικές τεχνικές: (i) εξόρυξη κειμένων - text mining (TM), αναφέρεται στην ανακάλυψη γνώσης από μεγάλες συλλογές κειμένων, συνδυάζοντας έτσι μεθόδους ανακάλυψης γνώσης και επεξεργασίας κειμένων. Ασχολείται κυρίως με την ανακάλυψη ενδιαφερόντων προτύπων όπως οι ομάδες (clusters), οι συσχετίσεις, οι αποκλίσεις, οι ομοιότητες και οι διαφορές μεταξύ όρων βιοϊατρικού ενδιαφέροντος; Και (ii) εξαγωγή πληροφορίας - information extraction (IE), στοχεύει στην αναγνώριση προκαθορισμένων κατηγοριών οντοτήτων, σχέσεων και γεγονότων που αναφέρονται ρητά στη βιβλιογραφία (Mathiak and Eckstein, 2004; Ben- Dov and Feldman, 2005). Στα πλαίσια του έργου emodia μας ενδιαφέρει ιδιαίτερα η αυτοματοποιημένη εξόρυξη δεδομένων από τη βιβλιογραφία που επιτρέπει την αναγνώριση, καθώς και την τεκμηρίωση PGx συσχετίσεων της μορφής γονιδιακή- παραλλαγή (μεταβολικός) φαινότυπος φάρμακο(α). Για το σκοπό έχουμε σχεδιάσει μια πολυεπίπεδη μεθοδολογία ανακάλυψης PGx συσχετίσεων από βιβλιογραφίa η οποία εκτυλίσσεται σε τρία στάδια: (i) φιλτράρισμα της βιοϊατρικής βιβλιογραφίας για την επιλογή PGx- σχετικών εγγράφων με τη βοήθεια ΕΠΑΝ ΙΙ- ΣΠ- - emodia 5 /6 Παραδοτέο Π3.4
τεχνικών ανάκτησης πληροφορίας/κειμένων; (ii) αναγνώριση και εντοπισμός (έγκυρων) PGx οντοτήτων και όρων στα επιλεγμένα αρχεία (π.χ. γονίδια, παραλλαγές/αλληλόμορφα, φάρμακα, μεταβολικά ένζυμα, φαινότυποι) με τη βοήθεια τεχνικών εξόρυξης δεδομένων; και (iii) αναγνώριση και εξαγωγή PGx συσχετίσεων. Ø Στο πλαίσιο αυτό θα χρησιμοποιήσουμε και θα προσαρμόσουμε κατάλληλα λειτουργίες από το σύστημα MineBioText το οποίο έχει αναπτυχθεί από μέλη της ομάδας του emodia (Antonakaki et al., 2005). Αναφορές Almuallim H, Dietterich TG. Learning With Many Irrelevant Features. In Procs of the 9 th National Conference on Artificial Intelligence, AAAI Press / The MIT Press Vol. 2, pp. 547 552], 1991. Antonakaki D, Kanterakis A, Potamias G. Biomedical Literature Mining for Text Classification and Construction of Gene Networks. Lecture Notes in Artificial Intelligence 3955: 469-473, 2005. Ben- Dov M, Feldman R. Text Mining and Information Extraction. In The Data Mining and Knowledge Discovery Handbook, Springer, 2005. Fayyad U, Piatetsky- Shapiro G, Smyth P, and Uthurasamy R. Advances in Knowledge Discovery and Data Mining. AAAI Press/ The MIT Press, 1996. Han J, Altman RB, Kumar V, Mannila H, Pregibon D. Emerging Scientific Applications in Data Mining. Communications of the ACM 45:54-58, 2003. Hicks JK, K. R. Crews KR, J. M. Hoffman JM, et al. A clinician- driven automated system for integration of pharmacogenetic interpretations into an electronic medical record. Clin. Pharmacol. Ther. 92(5):563 566, 2012. Ma Q, Lu A. Pharmacogenetics, pharmacogenomics, and individualized medicine. Pharmacol. Rev. 63(2):437 459, 2011. Mamitsuka H, DeLisi C, Kanehisa M (Eds.) Data Mining for Systems Biology - Methods and Protocols. Series: Methods in Molecular Biology, Vol. 939. Humana Press, 2013. Potamias G, Koumakis L, Moustakis V. Gene Selection via Discretized Gene- Expression Profiles and Greedy Feature- Elimination. Lecture Notes in Computer Science 3025:256-266, 2004. Savage N. Bioinformatics: Big data versus the big C. Nature 509: S66- S67, 2014. Valiant L. (1984). A theory of the Learnable. Communications of the ACM 27(11):1134-1142, 1984. Zhang Y, Rajapakse JC. Machine Learning in Bioinformatics, Wiley, 2008. ΕΠΑΝ ΙΙ- ΣΠ- - emodia 6 /6 Παραδοτέο Π3.4