ΠΑΡΑΔΟΤΕΟ Π3.4. Είδος Παραδοτέου: Τεχνική Αναφορά Υπεύθυνος Φορέας: ΠΔΕ (2) Ημερομηνία: 11/05/2015. Ιστορικό Εγγράφου

Σχετικά έγγραφα
Υπουργείο Παιδείας και Θρησκευµάτων, Πολιτισµού και Αθλητισµού

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΠΑΡΑΔΟΤΕΟ Π1.2. Είδος Παραδοτέου: Τεχνική Αναφορά Υπεύθυνος Φορέας: DYNACOMP A.E. (4) Ημερομηνία: 10/02/2014. Ιστορικό Εγγράφου

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

ΠΑΡΑΔΟΤΕΟ Π1.1. Προετοιμασία Διανομή* - Ονομ./Επώνυμο, (#Φορέα) - Γ. Ποταμιάς, (3) /05/2013 Προσχέδιο Γ. Πατρινός, (1)

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνικές Εξόρυξης Δεδομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Γονιδιωματική. G. Patrinos

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

ΠΑΡΑΔΟΤΕΟ Π5.3. Ζητήματα Πνευματικής Ιδιοκτησίας και Προσανατολισμού στην Αγορά - Αρχικό Σχέδιο Εκμετάλλευσης Αποτελεσμάτων

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΠΑΡΑΔΟΤΕΟ Π3.3. Είδος Παραδοτέου: Τεχνική Αναφορά Υπεύθυνος Φορέας: ΠΔΕ (2) Ημερομηνία: 11/05/2015. Ιστορικό Εγγράφου

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Εισαγωγή στην Ιατρική Πληροφορική

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

Ανάκτηση Πληροφορίας

Εντοπισμός προγνωστικών και διαγνωστικών βιοδεικτών με χρήση του εργαλείου InSyBio BioNets

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

Μεθοδολογίες Αξιοποίησης Δεδομένων

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΛΗΡΟΦΟΡΗΣΗ ΚΑΙ ΔΗΜΙΟΥΡΓΙΚΟΤΗΤΑ 21

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ. Ημερομηνία : 22/05/2009 Α.Π. : Α2

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Έρευνα Μάρκετινγκ Ενότητα 5

ΔΡΑΣΗ ΕΘΝΙΚΗΣ ΕΜΒΕΛΕΙΑΣ "ΣΥΝΕΡΓΑΣΙΑ 2011"


Υποβοήθηση Διάγνωσης Καρκίνου του Μαστού με Μέθοδο Ανάκτησης Εικόνας Βάσει Περιεχομένου

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 1: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΕΘΟΔΟΥΣ ΕΡΕΥΝΑΣ - ΠΕΡΙΓΡΑΜΜΑ

Πρωτοβουλία για την Εξωστρέφεια

Βιοϊατρική τεχνολογία

Πληροφοριακά Συστήματα Διοίκησης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ. Τόπος : Αθήνα Ημερομηνία : 22/07/2010 Α.Π. : /ΨΣ5952-Α2

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Μαριάνθη Γεωργίτση Επίκουρη Καθηγήτρια Ιατρικής Βιολογίας-Γενετικής

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

υπηρεσιες προστιθέμενης αξίας Υπηρεσίες προστιθέμενης αξίας

Επιλογή χαρακτηριστικών

Σεμινάριο Τελειοφοίτων. 2 - Επιλογή Επεξεργασία Ερευνητικού Θέματος

Λογιστική Θεωρία και Έρευνα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Μέθοδος Ελαχίστων Διαδρομών για τον αυτόματο καθορισμό του ορίου μαζών στη μαστογραφική απεικόνιση

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Εξόρυξη Γνώσης από εδοµένα (data mining)

Βιοϊατρική Μηχανική (Biomedical Engineering) Δευτερεύον Πρόγραμμα Σπουδών

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Π3.1 ΣΧΕΔΙΟ ΑΞΙΟΛΟΓΗΣΗΣ

Προπαρασκευαστική δράση του Ευρωπαϊκού Κοινοβουλίου

ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΕΥΝΑΣ

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

Ανάλυση Συστηµάτων και Τεχνολογία Λογισµικού

Στοχαστικά Σήματα και Τηλεπικοινωνιές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Περισσότερες πληροφορίες θα βρείτε στην ιστοσελίδα του προγράμματος

Υπουργείο Παιδείας και Θρησκευμάτων, Πολιτισμού και Αθλητισμού

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

Εμβιομηχανική Βιοϊατρική Τεχνολογία. 6 o Κεφάλαιο Συστημικη Βιολογια (Systems Biology) Σχολή Μηχανολόγων Μηχανικών ΕΜΠ Αλεξόπουλος Λεωνίδας

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Πρωτοβουλία για την Καινοτομία

ΗΥ Λογική. Διδάσκων: Δημήτρης Πλεξουσάκης Καθηγητής

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

DECO DECoration Ontology

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

Η συγκρότηση του Εκλεκτορικού Σώματος ορίστηκε από τη Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Βιολογίας στις

ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για οικονομολόγους

Ευφυής Προγραμματισμός

ΠΛΗΡΟΦΟΡΙΚΗ Γ ΤΑΞΗΣ ΓΕΛ ΚΛΕΙΩ ΣΓΟΥΡΟΠΟΥΛΟΥ. ΣΥΓΧΡΟΝΑ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Αντικειμενοστραφής Προγραμματισμός

Εργαστήριο Ιατρικής Φυσικής

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Transcript:

ΕΥΡΩΠΑΪΚΗ ΕΝΩΣΗ ΕΥΡΩΠΑΪΚΟ, Ε. Π. Ανταγωνιστικότητα και Επιχειρηματικότητα (ΕΠΑΝ ΙΙ), ΠΕΠ Μακεδονίας Θράκης, ΠΕΠ Κρήτης και Νήσων Αιγαίου, ΠΕΠ Θεσσαλίας Στερεάς Ελλάδας Ηπείρου, ΠΕΠ Αττικής ΗΛΕΚΤΡΟΝΙΚΟΣ ΒΟΗΘΟΣ ΜΟΡΙΑΚΗΣ ΔΙΑΓΝΩΣΤΙΚΗΣ ELECTRONIC MOLECULAR DIAGNOSTICS ASSISTANT ΠΑΡΑΔΟΤΕΟ Π3.4 Νευροβιολογική βάση των ΔΠΑ και ΑΜΣ βιοδεικτών Επαλήθευση και Επικύρωση με μεθοδολογίες διερεύνησης και εξόρυξης Βιοϊατρικών Βιβλιογραφικών Αναφορών Είδος Παραδοτέου: Τεχνική Αναφορά Υπεύθυνος Φορέας: ΠΔΕ (2) Ημερομηνία: 11/05/2015 Ιστορικό Εγγράφου Έκδοση Ημερομηνία Κατάσταση 0.1 10/09/2014 Προσχέδιο 1.0 15/03/2015 1 η έκδοση Τελική 11/05/2015 Τελικό Προετοιμασία - Ονομ./Επώνυμο, (#Φορέα) - Γ. Πατριαρχέας, (2) Γ. Πατρινός (1) Γ. Πατριαρχέας, (2) Γ. Πατρινός (1) Γ. Πατριαρχέας, (2) Γ. Πατρινός (1) * Κ: Κοινοπραξία έργου, EE: ΕΥΔΕ- ΕΤΑΚ, Δ: Δημόσιο έγγραφο (ελεύθερο, π.χ., Web- Site έργου) Διανομή* K K EE

ΠΕΡΙΛΗΨΗ Σε αυτό το παραδοτέο, παρουσιάζουμε τη διαδικασία επαλήθευσης και επικύρωσης της νευροβιολογικής βάσης των ενδεικτικών βιοδεικτών με μεθοδολογίες διερεύνησης και εξόρυξης βιβλιογραφικών αναφορών. EXECUTIVE SUMMARY In this deliverable, we present the validation process regarding the potential biomarkers in question and neurobiology via literature search and data mining ΕΠΑΝ ΙΙ- ΣΠ- - emodia 1 /6 Παραδοτέο Π3.4

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1. state- of- the- art μηχανισμοί εξόρυξης δεδομένων...3 5.1.1 ML&KD και e- Science... 3 5.1.2 Βιοπληροφορική και In silico Βιολογία... 4 5.1.3 Επιλογή Μεταβλητών και Ανακάλυψη Βιοδεικτών... 4 2. Ανακάλυψη Γνώσης από τη Βιβλιογραφία... 5 Αναφορές... 6 ΕΠΑΝ ΙΙ- ΣΠ- - emodia 2 /6 Παραδοτέο Π3.4

1. state- of- the- art μηχανισμοί εξόρυξης δεδομένων Η εξόρυξη δεδομένων έχει επιτυχώς παράσχει λύσεις για την εύρεση πληροφοριών σε πολλούς τομείς συμπεριλαμβανομένης της βιοπληροφορικής. Πολλά προβλήματα στο τομέα της επιστήμης και της βιομηχανίας έχουν αντιμετωπιστεί με μεθόδους και αλγορίθμους εξόρυξης δεδομένων όπως η ομαδοποίηση (clustering), η κατηγοριοποίηση (classification), οι κανόνες συσχέτισης (association rules) και η επιλογή μεταβλητών (feature selection). Ειδικότερα, η επιλογή μεταβλητών είναι μια πολλά υποσχόμενη προσέγγιση για τη δραστική μείωση και επιλογή αξιόπιστων γονιδιακών- παραλλαγών, και των αντίστοιχων SNPs. Η βασική ιδέα είναι η επιλογή ενός υποσυνόλου αρχικών μεταβλητών με την εξάλειψη αυτών που παρουσιάζουν περιορισμένη απόδοση πρόβλεψης. Η επιλογή μεταβλητών μπορεί να βελτιώσει σημαντικά την σαφήνεια των τελικών κατηγοριοποιητών (classifiers) και να υποστηρίξει την ανάπτυξη διαγνωστικών και προβλεπτικών προγνωστικών μοντέλων. Η μηχανική μάθηση και η ανακάλυψη γνώσης (Machine Learning & Knowledge Discovery ML&KD; Fayyad et al., 1992), σαν το βασικό υπόβαθρο τεχνικών εξόρυξης δεδομένων, έχει εξελιχθεί πάρα πολύ. Παράλληλα με σημαντικές μεθοδολογικές εξελίξεις, ο κλάδος έχει αποκτήσει μια αυξανόμενη επίγνωση της θέσης του στην «επιστήμη» και της αναγκαιότητας βάσιμων και με ακρίβεια τεχνικών αξιολόγησης αποτελεσμάτων, που στηρίζονται σε σαφείς και αξιόπιστες στατιστικές υποθέσεις και μεθόδους. Στο πίνακα 1 παρουσιάζεται μια περίληψη των τρεχόντων τάσεων. Πίνακας 1. Τρέχουσες «τάσεις» και βασικές λειτουργίες στη ML&DM Μέθοδος Κατηγοριοποίηση Μεταβλητές Ανακάλυψη Απόκτηση γνώσης Επεξεργασία φυσικής γλώσσας/εξόρυξη γνώσεων από τη Βιβλιογραφία Πράκτορες Γνωστικά μοντέλα Ανάλυση δομημένων μοντέλων Θεωρία Συγκεκριμένες Λειτουργίες Πρόβλεψη, Επανεξέταση της θεωρίας & βελτίωση της γνώσης, Χαρακτηρισμός, Παρεμβολή Επιλογή μεταβλητών, Διακριτοποίηση, Χειρισμός των άγνωστων τιμών, Χειρισμός μεροληψιών Διαμόρφωση θεωρίας, Ομαδοποίηση, Τμηματοποίηση, Συσχέτιση Ανάκτηση Πληροφορίας, Εξαγωγή πληροφορίας, Δομημένη μάθηση Εξόρυξη γνώσης από «μη δομημένες» πηγές και κείμενα (εξόρυξη και ανακάλυψη μοτίβων) Έλεγχος, Μάθηση στη ρομποτική, Μάθηση αντίληψης, Απόκτηση δεξιοτήτων, Ενεργή μάθηση, Μοντέλα μάθησης του περιβάλλοντος & των αλληλεπιδράσεων Προφίλ προτιμήσεων, Έξυπνες διεπαφές Ανάλυση χρονοσειρών, Μάθηση/Εξόρυξη ακολουθιών, Μάθηση από χωρικά και χρονικά δεδομένα, Εικονική μάθηση, Μάθηση από δεδομένα πολλαπλών μέσων Διανόρφωση θεωριών, Επιλογή υποθέσεων, Συγκρίσεις, Πολυπλοκότητα 1.1 ML&KD και e- Science Ακόμα και αν κάθε επιστημονικός κλάδος μπορεί να επωφεληθεί από εργαλεία ανακάλυψης γνώσης, υπάρχουν κάποιοι κλάδοι που είναι ιδιαίτερα κατάλληλοι και στους οποίους αυτά τα εργαλεία έχουν ήδη αποδειχθεί χρήσιμα. Δεδομένης της τεράστιας ποσότητας των ταχέως αναπτυσσόμενων και πολύπλοκων ΕΠΑΝ ΙΙ- ΣΠ- - emodia 3 /6 Παραδοτέο Π3.4

τύπων δεδομένων και των εκτενών μεθόδων ανάλυσης δεδομένων, η τεχνολογία εξόρυξης δεδομένων μπορεί να είναι ακόμα σε πρώιμο στάδιο, καθώς δεν είναι ακόμα επαρκής για τη διαχείριση μεγάλων και σύνθετων προβλημάτων. Η έρευνα είναι απαραίτητη για την ανάπτυξη αυτοματοποιημένων, επεκτάσιμων, ολοκληρωμένων και αξιόπιστων συστημάτων και εργαλείων εξόρυξης δεδομένων. Επιπλέον, είναι σημαντική η προώθηση της ανταλλαγής πληροφοριών μεταξύ των χρηστών, των αναλυτών δεδομένων, των προγραμματιστών και των ερευνητών που ασχολούνται με την εξόρυξη δεδομένων ώστε να διευκολυνθεί η ανάπτυξη της σχετικής έρευνας, της ανάπτυξης εφαρμογών και της μεταφοράς της τεχνογνωσίας. Ο Han (Han et al., 2003) έχει παρουσιάσει μια ανάλυση των δυνατοτήτων της ανακάλυψης γνώσης στην επιστημονική διαδικασία. 1.2 Βιοπληροφορική και In silico Βιολογία Η επιτυχία της βιοπληροφορικής τα τελευταία χρόνια παρακινήθηκε, σε μεγάλο βαθμό, και την ανάπτυξη μεθοδολογιών και τεχνικών εξόρυξης δεδομένων και ανακάλυψης γνώσεων (Mamitsuka et al., 2013). Πολλά ευρέως επιτυχημένα υπολογιστικά μοντέλα και εργαλεία που χρησιμοποιούνται από βιολόγους, όπως στοχαστικά μοντέλα ανάλυσης DNA- αλληλουχιών ή οι μέθοδοι ομαδοποίησης γονιδιακών- εκφράσεων από μικροσυστοιχίες DNA (DNA microarrays) είτε SNP γονοτυπικών προφίλ, έχουν επαρκώς αντιμετωπιστεί με μεθοδολογίες και προσεγγίσεις ML&KD. Παρ όλα αυτά, οι τρέχουσες εξελίξεις στη γονιδιωματική, στη πρωτεϊνωματική και στη μοντελοποίηση της κυτταρικής λειτουργίας, σε συνδυασμό με την απότομη ανάπτυξη της ικανότητα παραγωγής βιολογικών δεδομένων υψηλής απόδοσης, θα προσφέρουν νέες ευκαιρίες για στενή συνεργασία μεταξύ ερευνητών από το πεδίο ML&KD και ερευνητών από το πεδίο της βιοϊατρικής με ποθητό αποτέλεσμα την ανάπτυξη χρήσιμων εργαλείων αντιμετώπισης και επίλυσης σύνθετων και πολύπλοκων προβλημάτων βιολογίας και μεγάλου όγκου δεδομένων (Zhang and Rajapakse, 2008; Savage, 2014). 1.3 Επιλογή Μεταβλητών και Ανακάλυψη Βιοδεικτών Από τη μια πλευρά τα πολυδιάστατα, από άποψη των μεταβλητών αναφοράς (δεκάδες χιλιάδες), δεδομένα (π.χ. μικροσυστοιχίες) και από την άλλη τα μικρά σε μέγεθος δείγματα (δεκάδες έως εκατοντάδες), αποτελούν βασικές προκλήσεις για τις υπολογιστικές τεχνικές και τις αντίστοιχες προσεγγίσεις ανάλυσης δεδομένων. Από την οπτική γωνία της υπολογιστικής και της στατιστικής, η μείωση του συνόλου μεταβλητών και η επιλογή των πιο σχετικών μεταβλητών θα μπορούσε να βοηθήσει: (α) στην αντιμετώπιση πολυδιάστατων χώρων και στην μείωση του υπολογιστικού κόστους, και (β) στην βελτίωση της απόδοσης της κατηγοριοποίησης (classification). Από θεωρητική άποψη, η επιλογή των πιο σχετικών μεταβλητών χρησιμοποιεί την επαγωγική και μεροληπτική (inductive bias) προσέγγιση των ελάχιστων- χαρακτηριστικών (min- features) κατά την οποία προτιμούνται πιο απλά μοντέλα πρόβλεψης έναντι των πιο πολύπλοκων (Almuallim, 1991). Η επαγωγική μεροληψία βασίζεται στην αρχή Occams s razor : αν μπορούμε να προβλέψουμε τη κατηγορία ενός συνόλου από n περιπτώσεις (τα παραδείγματα εκπαίδευσης του μοντέλου) σε μια υπόθεση που χρησιμοποιεί μόνο k<<n μεταβλητές, τότε μπορούμε να είμαστε σίγουροι ότι αυτή η υπόθεση γενικεύεται καλά σε μελλοντικές περιπτώσεις (τις περιπτώσεις δοκιμής). Με βάση την αρχή αυτή, οι διεργασίες επιλογής μεταβλητών στοχεύουν στην επιλογή ενός ΕΠΑΝ ΙΙ- ΣΠ- - emodia 4 /6 Παραδοτέο Π3.4

υποσυνόλου μεταβλητών έτσι ώστε ο αρχικός χώρος να μειωθεί βέλτιστα σύμφωνα με ένα συγκεκριμένο κριτήριο αξιολόγησης. Είναι φυσικό να υποθέσουμε ότι, καθώς οι διαστάσεις ενός χώρου επεκτείνονται, ο απαραίτητος αριθμός παρατηρήσεων, ώστε να μοντελοποιηθεί μια έγκυρη υπόθεση, αυξάνεται ένα γεγονός που αξιολογείται στο πλαίσιο της θεωρίας θεωρητικής υπολογιστικής μάθησης και συγκεκριμένα υπό το πρίσμα προσεγγίσεων «κατά- προσέγγιση πιθανοθεωρητικά σωστή δυνατότητα μάθησης» (PAC- learnability; Valiant, 1984). Υπάρχει μια πληθώρα ελύθερα προσβάσιμων αλγορίθμων, εργαλείων και συστημάτων εξόρυξης δεδομένων, π.χ. Weka (www.cs.waikato.ac.nz/ml/weka), R- package/bioconductor (www.bioconductor.org) κλπ). Στα πλαίσια του έργου emodia και της εκμετάλλευσης σχετικών εργαλείων και υπηρεσιών από το σύστημα epga μας ενδιαφέρει η ανακάλυψη και ο εντοπισμός συσχετίσεων μεταξύ SNP- προφίλ και φαινότυπων και τα αντίστοιχα μοντέλα διάκρισης / ταξινόμησης. Ø Οι βασικές δραστηριότητες της διαδικασίας αυτής εφαρμόζονται στο σύστημα επιλογής μεταβλητών (γονιδίων) MineGene, οι λειτουργίες του οποίου θα προσαρμοστούν και θα εκμεταλλευτούν κατάλληλα στα πλαίσια του έργου (Potamias et al., 2004; 2006; 2007). Ø Επιπλέον, πρόκειται να αξιοποιήσουμε συστήματα ανοικτού- κώδικα (open source), όπως το plink (pngu.mgh.harvard.edu/~purcell/plink), τα οποία χρησιμοποιούνται ευρέως στην ανάλυση γονοτυπικών/snp δεδομένων και τον εντοπισμό στατιστικά- σημαντικών συσχετίσεων (τα οποία προκύπτουν από GWAS Genome Wide Association Studies; www.nature.com/nrg/series/gwas) 2. Ανακάλυψη Γνώσης από τη Βιβλιογραφία Η εξόρυξη δεδομένων από τη βιβλιογραφία για τη βιοϊατρική είναι η διαδικασία εξεύρεσης έγκυρων, νέων και χρήσιμων πληροφοριών και προτύπων από ελεύθερης- γραφής κείμενα (π.χ., περιλήψεις επιστημονικών εργασιών από την PubMed), και περιλαμβάνει δύο βασικές τεχνικές: (i) εξόρυξη κειμένων - text mining (TM), αναφέρεται στην ανακάλυψη γνώσης από μεγάλες συλλογές κειμένων, συνδυάζοντας έτσι μεθόδους ανακάλυψης γνώσης και επεξεργασίας κειμένων. Ασχολείται κυρίως με την ανακάλυψη ενδιαφερόντων προτύπων όπως οι ομάδες (clusters), οι συσχετίσεις, οι αποκλίσεις, οι ομοιότητες και οι διαφορές μεταξύ όρων βιοϊατρικού ενδιαφέροντος; Και (ii) εξαγωγή πληροφορίας - information extraction (IE), στοχεύει στην αναγνώριση προκαθορισμένων κατηγοριών οντοτήτων, σχέσεων και γεγονότων που αναφέρονται ρητά στη βιβλιογραφία (Mathiak and Eckstein, 2004; Ben- Dov and Feldman, 2005). Στα πλαίσια του έργου emodia μας ενδιαφέρει ιδιαίτερα η αυτοματοποιημένη εξόρυξη δεδομένων από τη βιβλιογραφία που επιτρέπει την αναγνώριση, καθώς και την τεκμηρίωση PGx συσχετίσεων της μορφής γονιδιακή- παραλλαγή (μεταβολικός) φαινότυπος φάρμακο(α). Για το σκοπό έχουμε σχεδιάσει μια πολυεπίπεδη μεθοδολογία ανακάλυψης PGx συσχετίσεων από βιβλιογραφίa η οποία εκτυλίσσεται σε τρία στάδια: (i) φιλτράρισμα της βιοϊατρικής βιβλιογραφίας για την επιλογή PGx- σχετικών εγγράφων με τη βοήθεια ΕΠΑΝ ΙΙ- ΣΠ- - emodia 5 /6 Παραδοτέο Π3.4

τεχνικών ανάκτησης πληροφορίας/κειμένων; (ii) αναγνώριση και εντοπισμός (έγκυρων) PGx οντοτήτων και όρων στα επιλεγμένα αρχεία (π.χ. γονίδια, παραλλαγές/αλληλόμορφα, φάρμακα, μεταβολικά ένζυμα, φαινότυποι) με τη βοήθεια τεχνικών εξόρυξης δεδομένων; και (iii) αναγνώριση και εξαγωγή PGx συσχετίσεων. Ø Στο πλαίσιο αυτό θα χρησιμοποιήσουμε και θα προσαρμόσουμε κατάλληλα λειτουργίες από το σύστημα MineBioText το οποίο έχει αναπτυχθεί από μέλη της ομάδας του emodia (Antonakaki et al., 2005). Αναφορές Almuallim H, Dietterich TG. Learning With Many Irrelevant Features. In Procs of the 9 th National Conference on Artificial Intelligence, AAAI Press / The MIT Press Vol. 2, pp. 547 552], 1991. Antonakaki D, Kanterakis A, Potamias G. Biomedical Literature Mining for Text Classification and Construction of Gene Networks. Lecture Notes in Artificial Intelligence 3955: 469-473, 2005. Ben- Dov M, Feldman R. Text Mining and Information Extraction. In The Data Mining and Knowledge Discovery Handbook, Springer, 2005. Fayyad U, Piatetsky- Shapiro G, Smyth P, and Uthurasamy R. Advances in Knowledge Discovery and Data Mining. AAAI Press/ The MIT Press, 1996. Han J, Altman RB, Kumar V, Mannila H, Pregibon D. Emerging Scientific Applications in Data Mining. Communications of the ACM 45:54-58, 2003. Hicks JK, K. R. Crews KR, J. M. Hoffman JM, et al. A clinician- driven automated system for integration of pharmacogenetic interpretations into an electronic medical record. Clin. Pharmacol. Ther. 92(5):563 566, 2012. Ma Q, Lu A. Pharmacogenetics, pharmacogenomics, and individualized medicine. Pharmacol. Rev. 63(2):437 459, 2011. Mamitsuka H, DeLisi C, Kanehisa M (Eds.) Data Mining for Systems Biology - Methods and Protocols. Series: Methods in Molecular Biology, Vol. 939. Humana Press, 2013. Potamias G, Koumakis L, Moustakis V. Gene Selection via Discretized Gene- Expression Profiles and Greedy Feature- Elimination. Lecture Notes in Computer Science 3025:256-266, 2004. Savage N. Bioinformatics: Big data versus the big C. Nature 509: S66- S67, 2014. Valiant L. (1984). A theory of the Learnable. Communications of the ACM 27(11):1134-1142, 1984. Zhang Y, Rajapakse JC. Machine Learning in Bioinformatics, Wiley, 2008. ΕΠΑΝ ΙΙ- ΣΠ- - emodia 6 /6 Παραδοτέο Π3.4