ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Διδακτορική Διατριβή

Σχετικά έγγραφα
Εξόρυξη Γνώσης από Βιολογικά εδομένα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

Γονιδιωματική. G. Patrinos

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

Ενδεικτικές απαντήσεις

Μοριακή Bιολογία ΔIAΛEΞΕΙΣ 9 & 10

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

ΑΠΑΝΤΗΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (Β ΛΥΚΕΙΟΥ)

Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ»

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΠΡΟΤΕΙΝΟΜΕΝΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. Β2. Σελ 136 σχ. βιβλίου: «Η κλωνοποίηση όμως... συγγενικό είδος ζώου.

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Στο DNA των μιτοχονδρίων περιέχονται πληροφορίες για:

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 24 Μαΐου Απαντήσεις Θεμάτων

Μοριακή Βιολογία. Ενότητα # (5): Ωρίμανση του RNA, ιντρόνια/εξώνια και μεταγραφική ρύθμιση. Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής

ΕΞΕΤΑΣΕΙΣ 2013 ΑΠΑΝΤΗΣΕΙΣ στα ΘΕΜΑΤΑ ΤΗΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 02/12/2012 ΑΠΑΝΤΗΣΕΙΣ

ΘΕΜΑΤΑ : ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΗ ΥΛΗ: ΚΕΦ /12/2017

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014

ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2018

ΙΑΤΡΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΘΗΝΩΝ (ΕΚΠΑ) ΚΑΤΑΤΑΚΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΑΚ.ΕΤΟΥΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΤΗΣ Γ' ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ. ΟΙ ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ ΑΠΟ ΤΟΝ ΚΑΘΗΓΗΤΗ κύριο ΤΡΙΓΚΑ ΓΕΩΡΓΙΟ του ΦΡΟΝΤΙΣΤΗΡΙΟΥ

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιολογία Προσανατολισμού Γ Λυκείου Κεφάλαιο: Κεφάλαια 1,2,4 Ονοματεπώνυμο Μαθητή: Ημερομηνία: 08/12/2018 Επιδιωκόμενος Στόχος: 75/100

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Οργά νωση Γενετικού Υλικού

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΚΑΘΗΓΗΤΗΣ ΒΙΟΛΟΓΟΣ Μ.Δ.Ε

1. Ο Griffith στα πειράματά του χρησιμοποίησε:

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

28/11/2010 ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ. ΘΕΜΑ 1 ο Α. Να βάλετε σε κύκλο το γράμμα που αντιστοιχεί στη σωστή απάντηση. (10 μόρια)

3. Σε ένα σωματικό κύτταρο ανθρώπου που βρίσκεται στη μεσόφαση πριν την αντιγραφή υπάρχουν:

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

Αθήνα, 18/5/2011 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ. Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της...

Ερευνητική+Ομάδα+Τεχνολογιών+ Διαδικτύου+

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους;

Τρίτη, 27 Μαΐου 2008 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ

8. Σε στέλεχος του βακτηρίου E.coli δε λειτουργεί το γονίδιο που παράγει τον καταστολέα του οπερόνιου της λακτόζης. Ποιο είναι το αποτέλεσμα σε σχέση

Σύνθεση πρωτεϊνών και σημειακές μεταλλάξεις Γ. Παπανικολαόυ MD, PhD

Τηλ: Ανδρέου Δημητρίου 81 & Ακριτών 26 -ΚΑΛΟΓΡΕΖΑ

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση.

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β) ΤΕΤΑΡΤΗ 4 ΙΟΥΝΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΘΕΜΑ Α

Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Δʹ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 2 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Τεχνικές Εξόρυξης Δεδομένων

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΙΑΤΡ ΓΘΕΤ 2 ΗΜΕΡΟΜΗΝΙΑ: 20/03/2016 ΘΕΜΑ Α

Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών

Ενδεικτικές απαντήσεις βιολογίας κατεύθυνσης 2014

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 22 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ

Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 18 Μαίου Απαντήσεις Θεμάτων ΦΡΟΝΤΙΣΤΗΡΙΑ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 27 ΜΑΪΟΥ 2008 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ

ΑΠΑΝΤΗΣΕΙΣ. Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Ενδεικτικές απαντήσεις στα Θέματα Βιολογίας Προσανατολισμού

ΑΠΑΝΤΗΣΕΙΣ. Α. Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

Βιολογία Θετικής Κατεύθυνσης. Κεφάλαιο 2 ο Αντιγραφή, έκφραση & ρύθμιση της γενετικής πληροφορίας

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA Περετσή Χριστίνα Πιτσικάλη Παναγιώτα

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ

Ευφυής Προγραμματισμός

γ ρ α π τ ή ε ξ έ τ α σ η σ τ ο μ ά θ η μ α ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

5.GGACTCAAGTTTACATGCAACGTACGG 3 που περιέχεται σε γονιδιωματική βιβλιοθήκη είναι κατάλληλος ο :

γραπτή εξέταση στo μάθημα ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ 1ο 1. γ 2. γ 3. β 4. α 5. δ

Βιολογία Προσανατολισμού

Γ1. Το γνώρισμα για το μέγεθος των φτερών ελέγχεται από αυτοσωμικό γονίδιο.

ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ

Η Επιτροπή Παιδείας της ΠΕΒ. Αθήνα, 4/6/2014 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες;

Σελίδα 123 σχολικού βιβλίου : Η διαδικασία που ακολουθείται... και εισάγεται πάλι

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα Διδακτορική Διατριβή Γεώργιος Τζανής

Αντικείμενο Διατριβής Μελέτη μεθόδων ανακάλυψης γνώσης από βιολογικά δεδομένα Εντάσσεται στα πλαίσια των ερευνητικών περιοχών: Στόχοι Ανακάλυψης γνώσης από βάσεις δεδομένων Βιοπληροφορικής Επινόηση νέων και επέκταση υπαρχουσών μεθόδων ανακάλυψης γνώσης Εφαρμογή μεθόδων ανακάλυψης γνώσης για ανάλυση βιολογικών δεδομένων 2/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 3/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 4/63

Ανακάλυψη Γνώσης Από Βάσεις Δεδομένων Προεπεξεργασία Επιλογή Καθαρισμός Μετασχηματισμός Εξόρυξη Μεταεπεξεργασία Ερμηνεία Αξιολόγηση Δεδομένα..... Επιλεγμένο Καθαρισμένα Μετασχημα Πρότυπα Υποσύνολο Δεδομένα τισμένα και Δεδομένων Δεδομένα Μοντέλα Γνώση Τα 10 Σημαντικότερα Προβλήματα της Ανακάλυψης Γνώσης (Yang & Wu, 2006) 1. Ενιαία θεωρία ανακάλυψης γνώσης 6. Κατανεμημένα δεδομένα, δεδομένα πολλαπλών πρακτόρων 2. Πολυδιάστατα δεδομένα, ροές υψηλής ταχύτητας 7. Βιολογικά, περιβαλλοντικά προβλήματα 3. Αλληλουχίες, χρονοσειρές 8. Προβλήματα στις διαδικασίες ανακάλυψης γνώσης 4. Πολύπλοκα, μη σχεσιακά δεδομένα 9. Ασφάλεια, προστασία απορρήτου, ακεραιότητα δεδομένων 5. Δικτυακό περιβάλλον 10. Μη στατικά δεδομένα, άνιση κατανομή τάξεων, διαφορετικό κόστος ταξινόμησης μεταξύ διαφορετικών τάξεων 5/63

Βιοπληροφορική Διεπιστημονική Περιοχή Αιτίες Εμφάνισης Εκρηκτική αύξηση η των βιολογικών δεδομένων Ανάγκη αποτελεσματικής διαχείρισης των δεδομένων Στόχοι Οργάνωση των βιολογικών δεδομένων Ανάπτυξη εργαλείων για την ανάλυση βιολογικών δεδομένων Ανάλυση των βιολογικών δεδομένων και ερμηνεία των αποτελεσμάτων 6/63

Βιολογικά Μακρομόρια Πρωτεϊνες Δομικά και λειτουργικά μόρια Αλληλουχίες από 20 αμινοξέα DNA Αναδιπλώνονται και αποκτούν τρισδιάστατη δομή, που καθορίζει τη λειτουργία Βασικός φορέας γενετικής πληροφορίας Αλληλουχία από 4 νουκλεοτίδια (δεοξυριβονουκλεοτίδια) Αδενίνη (A), Γουανίνη (G), Θυμίνη (T), Κυτοσίνη (C) RNA (mrna, trna, rrna, microrna, κ.α.) Πολλές λειτουργίες (πρωτεϊνοσύνθεση, ρύθμιση έκφρασης, κ.α.) Αλληλουχία από 4 νουκλεοτίδια (ριβονουκλεοτίδια) Ουρακίλη (U) αντί Θυμίνης (T) 7/63

Κεντρικό Δόγμα Μοριακής Βιολογίας Αντιγραφή DNA Εξόνιο Ιντρόνιο Εξόνιο 5 ATG GTC G GT C CA CTC TT A 3 Μεταγραφή RNA 5 AU G GU C CU C U UA ΑΑΑΑΑΑΑΑ 3 Μετάφραση Καλύπτρα Ουρά Πολύ(Α) Πρωτεΐνη N M V L L C 8/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 9/63

Κίνητρο Αμοιβαίος Αποκλεισμός Ενδιαφέρον είδος αρνητικής συσχέτισης Μπορεί να οδηγήσει στην ανακάλυψη ιεραρχικών σχέσεων Εξόρυξη Αμοιβαίως Αποκλειόμενων Αντικειμένων Δεν έχει μελετηθεί επαρκώς Προβλήματα αποδοτικότητας και αποτελεσματικότητας 10/63

Βασικές Έννοιες (1/3) Κανόνες Συσχέτισης I = {i 1, i 2,, i N }: πεπερασμένο σύνολο αντικειμένων D: πολυσύνολο συναλλαγών, για κάθε TD ισχύει T I Κανόνας Συσχέτισης: A B, όπου A I, B I, και A B = Μέτρα ενδιαφέροντος Υποστήριξη: Εμπιστοσύνη: supp ( A B) supp ( AB) D supp ( ) D AB confidence D( AB) supp ( A ) Εξόρυξη Κανόνων Συσχέτισης D T D ( A B ) T 1. Εύρεση συχνών συνόλων αντικειμένων (min_supp) 2. Εύρεση των κανόνων από τα συχνά σύνολα αντικειμένων (min_conf) D D 11/63

Βασικές Έννοιες (2/3) Εννοιολογική Ιεραρχία Κόμβοι: αντικείμενα Ακμές: σχέσεις «είναι ένα είδος» Γαλακτοκομικό Προϊόν Τυρί Γάλα Κανόνες Συσχέτισης Πολλαπλών λώ Επιπέδων Cheddar Edam Άπαχο Πλήρες Αντικείμενα σε πολλαπλά επίπεδα εννοιολογικής ιεραρχίας Εξαγωγή κανόνων με μεγαλύτερη υποστήριξη (ανώτερα ώ επίπεδα ιεραρχίας) Γάλα [υποστήριξη: 0,07] 07] Άπαχο [υποστήριξη: 0,02] Ελαφρύ [υποστήριξη: 0,02] Πλήρες [υποστήριξη: 0,03] 12/63

Βασικές Έννοιες (3/3) Αμοιβαίως Αποκλειόμενα Αντικείμενα Η παρουσία του ενός αντικειμένου προκαλεί την απουσία του άλλου Αν i 1 Ι και i 2 Ι είναι αμοιβαίως αποκλειόμενα, τότε supp D ({i 1, i 2 }) = 0 Στην πράξη μπορεί να ισχύει και supp D ({i 1, i 2 }) >0 Το αντίστροφο γενικά δεν ισχύει Προβλήματα Εξόρυξηςξ Μεγάλο πλήθος υποψήφιων συνδυασμών: η εξέταση όλων είναι ασύμφορη Μεγάλο πλήθος αντικειμένων που δεν είναι αμοιβαίως αποκλειόμενα, μολονότι δεν εμφανίζονται μαζί 13/63

Η Προτεινόμενη Προσέγγιση Αναζήτηση αμοιβαίως αποκλειόμενων αντικειμένων στις συναλλαγές που υποστηρίζουν συχνά σύνολα Τα συχνά σύνολα αντικειμένων εκφράζουν συγκεκριμένες συμπεριφορές (π.χ. καταναλωτικές συνήθειες, γονίδια που εκφράζονται σε συγκεκριμένες καταστάσεις, κλπ.) Παράδειγμα Συχνό σύνολο: F = {Αθλητικές Κάλτσες, Αθλητικά Παπούτσια} Επεκτάσεις: Ρακέτα, Μπάλα Πετοσφαίρισης Πιθανώς αμοιβαίως αποκλειόμενα αντικείμενα Δεδομένα Συχνά Σύνολα Αντικειμένων Εκτεταμένα Συχνά Σύνολα Αντικειμένων Αμοιβαίως Αποκλειόμενα Αντικείμενα 14/63

Εκτεταμένα Συχνά Σύνολα Αντικειμένων Ορισμός Συχνό σύνολο F που περιλαμβάνει επέκταση E, η οποία είναι «τοπικά» συχνή στο σύνολο των συναλλαγών που υποστηρίζουν το F suppd () F min_gsupp supptdf T() E min_lsupp Παράδειγμα Αν min_gsupp = min_lsupp =0,4, τότε: F/0,4 D F: «καθολικά» συχνό στο D (gsupp = 0,4) E: «τοπικά» συχνό στο F (lsupp = 0,2/0,4=0,5) E/0,2 15/63

Μέτρα Αμοιβαίου Αποκλεισμού Τοπικό LM F (A,B) = [P(A B) + P(B A)] min[p(a B A), P(B A B)] Α B A B B A D Supp({A, B}) Καθολικό GM ( A, B ) IIF ( FS ) suppd ( F ) LMF ( A, B ) FFS IIF: Itemset Independence Factor Παράδειγμα: IIF({{A, B, C}, {A, D}}) = 08 0,8 16/63

Πειράματα Συνθετικό σύνολο δεδομένων Δεδομένα γονιδιακής έκφρασης καλαθιού αγορών της IBM 90 δείγματα 27.679 γονίδια 100.000 συναλλαγές min_gsupp = 0,25 17/63

Σύνοψη Ενότητας Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Ορίζεται το πρόβλημα Προτείνεται αλγόριθμος Εφαρμόζεται σε δεδομένα γονιδιακής έκφρασης Berberidis, C., Tzanis, G., and Vlahavas, I. (2005). Mining for Contiguous Frequent Itemsets in Transaction Databases, In Proceedings of the 3rd IEEE International Workshop on Intelligent Data Acquisition and Advancedd Computing Systems: Technology and Applications, Sofia, Bulgaria, 679 685. 685 Tzanis, G., Berberidis, C., and Vlahavas, I. (2006). On the Discovery of Mutually Exclusive Items in a Market Basket Database, In Proceedings of the 2nd ADBIS Workshop on Data Mining and Knowledge Discovery, Thessaloniki, Greece, 1 12. Tzanis, G. and Berberidis, C. (2007). Mining for Mutually Exclusive Items in Transaction Databases. International Journal of Data Warehousing and Mining, Idea Group Publishing, 3(3): 45 59. Tzanis, G. and Vlahavas, I. (2010). Mining for Mutually Exclusive Gene Expressions, In Proceedings of the 6th Hellenic Conference on Artificial Intelligence, Springer Verlag, Athens, Greece, 255 264. 18/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 19/63

Κίνητρο Χαρακτηριστικά Δεδομένων Περιλαμβάνουν διάφορους τύπους καρκίνου Προέρχονται από διάφορες πηγές (ιστούς, καλλιέργειες) Περιέχουν μεγάλο πλήθος γονιδίων (δεκάδες χιλιάδες) Περιέχουν μικρό πλήθος δειγμάτων (δεκάδες) Δυσκολία Διαχωρισμού Καρκινικών/Φυσιολογικών Δειγμάτων Η ακρίβεια πρόβλεψης των μέχρι τώρα μεθόδων είναι μέτρια Τεχνική SAGE Οι αλληλουχίες που καταμετρώνται δεν απαιτείται να επιλεγούν από πριν, όπως σε άλλες μεθόδους (μικροσυστοιχίες) 20/63

Η Τεχνική SAGE SAGE (Serial Analysis of Gene Expression) Εποπτική παρακολούθηση του συνόλου της γονιδιακής δραστηριότητας ενός κυττάρου 5 5 5 AAAAA 3 AAAAA 3 AAAAA 3 Απομόνωση Ετικετών Αλληλουχίες mrna Συνένωση Ετικετών Αλληλούχιση Ποσοτικοποίηση Ετικετών Ετικετών 1 2 3 Μέτρηση 15 10 5 0 Ετικέτα 21/63

Μορφή Δεδομένων M βιβλιοθήκες SAGE Ν ετικέτες γονιδίων a ij : πλήθος ετικετών του γονιδίου (mrna) j στη βιβλιοθήκη i c i : τάξη της βιβλιοθήκης i, όπου c i {+, } To + δηλώνει την καρκινική κυτταρική κατάσταση (θετική τάξη) Το δηλώνει τη φυσιολογική κυτταρική κατάσταση (αρνητική τάξη) Ετικέτα 1 Ετικέτα 2 Ετικέτα N Τάξη Βιβλιοθήκη 1 a 11 a 12 a 1N c 1 Βιβλιοθήκη 2 a 21 a 22 a 2N c 2 Βιβλιοθήκη M a M1 a M2 a MN c Μ 22/63

Η Προτεινόμενη Προσέγγιση Δεδομένα +/ Διακριτοποίηση Ταξινόμηση Εξόρυξη Συχνών Συνόλων Αντικειμένων Μετασχηματισμός Δεδομένων Επιλογή Χαρακτηριστικών 23/63

Διακριτοποίηση Σκοπός Εντοπισμός ισχυρών γονιδιακών υπό και υπερ εκφράσεων Δυνατότητα εξόρυξης συχνών συνόλων αντικειμένων Διαδικασία Προσδιορισμός 99% διαστημάτων εμπιστοσύνης [L +,j, H +,j ] και [L,j, H,j ] +,j +,j,j,j για τη μέση τιμή της έκφρασής κάθε γονιδίου j στα δείγματα κάθε τάξης [L +,j, H +,j ] για τα καρκινικά δείγματα [L,j, H,j ] για τα φυσιολογικά δείγματα Διαίρεση πίνακα δεδομένων A Υποπίνακας A +, με καρκινικά δείγματα Υποπίνακας A, με φυσιολογικά δείγματα 1 L 0 R 1 24/63

Εξόρυξη Συχνών Συνόλων Αντικειμένων Είσοδος Υποπίνακας A + και υποπίνακας A Εξόρυξη ξησυχνών Συνόλων F + : συχνά σύνολα αντικειμένων για τη θετική τάξη F : συχνά σύνολα αντικειμένων για την αρνητική τάξη Διατήρηση των μοναδικών για κάθε τάξη συχνών συνόλων F F F F F Μετασχηματισμός Δεδομένων Νέος πίνακας δεδομένων Α (Μ βιβλιοθήκες F συχνά σύνολα) α {0,1} : η βιβλιοθήκη i περιλαμβάνει (1) ή όχι (0) το συχνό σύνολο j ij 25/63

Επιλογή Χαρακτηριστικών και Ταξινόμηση Επιλογή Χαρακτηριστικών Στατιστικό Χ 2 Κέρδος πληροφορίας Relief F Ταξινόμηση Δένδρο ταξινόμησης (C4.5) k Κοντινότεροι γείτονες (knn) Μηχανή διανυσμάτων υποστήριξης (SVM) με γραμμικό πυρήνα Προτασιακοί κανόνες ταξινόμησης (RIPPER) Ταξινομητής πλειοψηφίας Ταξινομεί κάθε στιγμιότυπο στην τάξη που ανήκει η πλειοψηφία των παραδειγμάτων του συνόλου εκπαίδευσης (μέτρο έ σύγκρισης) ) 26/63

Αποτελέσματα (1/3) Στατιστικό Χ 2 Ακρίβει ια 100% 90% 80% 70% 60% 50% Τυπική Προσέγγιση Προτεινόμενη Προσέγγιση 5 10 20 30 40 50 100 200 500 1000 2000 3000 4000 5000 10000 27679 Ν Πρώτα στην Κατάταξη Χαρακτηριστικά Ακρίβεια 100% 90% 80% 70% 60% 50% 5 10 20 30 40 50 100 200 300 400 500 1000 Όλα Ν Πρώτα στην Κατάταξη Χαρακτηριστικά 27/63

Αποτελέσματα (2/3) Κέρδος Πληροφορίας Τυπική Προσέγγιση Προτεινόμενη Προσέγγιση 28/63

Αποτελέσματα (3/3) Relief F Τυπική Προσέγγιση Προτεινόμενη Προσέγγιση 29/63

Σύνοψη Ενότητας Ιδιαιτερότητες των δεδομένων (πολλές διαστάσεις, θόρυβος) Τεχνική SAGE: υποσχόμενη για μελέτη του καρκίνου Αποτελέσματα προτεινόμενης μεθόδου Σημαντική βελτίωση της ακρίβειας πρόβλεψης Μείωση των διαστάσεων Δεκάδες χιλιάδες γονίδια Εκατοντάδες συχνά σύνολα γονιδιακών εκφράσεων Tzanis, G. and Vlahavas, I. (2007). Mining High Quality Clusters of SAGE Data, In Proceedings of the 2nd VLDB Workshop on Data Mining in Bioinformatics, Vienna, Austria. Tzanis, G. and Vlahavas, I. (2007). Accurate Classification of SAGE Data Based on Frequent Patterns of Gene Expression. In Proceedings of the 19th IEEE International Conference on Tools with Artificial Intelligence, Patras, Greece, 96 100. 30/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 31/63

Κίνητρο Εφαρμογές της Πρόβλεψης Σημείου Έναρξης της Μετάφρασης Πρόβλεψη γονιδίων Υπομνηματισμός (annotation) γονιδιωμάτων Εύρεση μη κωδικών αλληλουχιών (αντίθετο πρόβλημα) Η εύρεση σημείου έναρξης της μετάφρασης σε μια αλληλουχία σηματοδοτεί ότι η αλληλουχία λ αυτή είναι κωδική και άρα απορρίπτεται Έχει μελετηθεί αρκετά, αλλά υπάρχουν περιθώρια βελτίωσης ώ δ φέ ώ και συγκεντρώνει το ενδιαφέρον των ερευνητών 32/63

Βασικές Έννοιες κατεύθυνση μετάφρασης έναρξη 1ου πλαισίου ανάγνωσης έναρξη 2ου πλαισίου ανάγνωσης έναρξη 3ου πλαισίου ανάγνωσης ριβόσωμα 5 G C C... A U G C A U... G U U U A A... 3 έναρξη (TIS) λήξη 3 UTR 5 UTR ανοδικά (upstream) καθοδικά (downstream) 33/63

Προτεινόμενες Προσεγγίσεις Προσέγγιση βασιζόμενη σε χαρακτηριστικά που αλλάζουν τιμή μεταξύ της ανοδικής και καθοδικής περιοχής Προσέγγιση ηβασιζόμενη στην κατασκευή διαφορετικών ταξινομητών για αλληλουχίες διαφορετικού μήκους Προσέγγιση βασιζόμενη σε ομάδες ταξινομητών (μέθοδος πλειοψηφίας voting) Προσεγγίσεις με τρία στοιχεία πρόβλεψης MANTIS StackTIS 34/63

Η Μέθοδος StackTIS Stacking for Translation Initiation Site Prediction 5 A C Α T G T G T C C 3 Στοιχείο Kωδικής Περιοχής Στοιχείο Προτύπου Συναίνεσης Στοιχείο Απόστασης του ATG p p άνω 1 κάτω 1 [0,1] [0,1] p [0,1] 2 p [0,1] 3 Ταξινομητής ΕΠΙΠΕΔΟ 0 ΕΠΙΠΕΔΟ 1 p [0,1] 35/63

Στοιχείο Kωδικής Περιοχής Εξαγωγή Διανυσμάτων Συχνοτήτων Κωδικονίων κυλιόμενο παράθυρο N νουκλεοτίδια 5 ATG GCC GAC ATTTCA TAA 3 διανύσματα συχνοτήτων κωδικονίων <0,06,,, 0,12,,,, 0,05,, 0,01> <0,05, 0,02,, 0,02, 0,07> Έξοδος άνω p 1 κάτω p 1 Πρόβλεψη ταξινομητή για την περιοχή ανοδικά του ATG ( ) Πρόβλεψη ταξινομητή ήγια την περιοχή καθοδικά του ATG ( ) 36/63

Αξιολόγηση Στοιχείου Kωδικής Περιοχής Σύνολα Δεδομένων H. sapiens 1: 480 αλληλουχίες H. sapiens 2: 2.351 αλληλουχίες O. sativa: 652 αλληλουχίες 37/63

Τα Υπόλοιπα Στοιχεία Στοιχείο Προτύπου Συναίνεσης Δύο αλυσίδες Markov (μια για κάθε τάξη) Θέση: 7 6 5 4 3 2 1 +1 +2 +3 +4 +5 5 T G A A T A G Α Τ G G C 3 Έξοδος Η πρόβλεψη της αλυσίδας θετικής τάξης (p 2 ) κανονικοποιημένη στο [0, 1] Στοιχείο Απόστασης του ATG Δύο μοντέλα (ένα για κάθε τάξη) Έξοδος Η πρόβλεψη του μοντέλου θετικής τάξης (p 3 ) κανονικοποιημένη στο [0, 1] 38/63

Σύντηξη Επιμέρους Προβλέψεων Στοιβαγμένη Γενίκευση (stacked generalization) Διαδικασία Πρόβλεψης Σημείου Έναρξης της Μετάφρασης 1. Εύρεση της μακρύτερης ρης περιοχής χωρίς κωδικόνια λήξης 2. Εύρεση όλων των ATG στην περιοχή που βρέθηκε στο βήμα 1 3. Για καθένα από τα ATG που εντοπίστηκαν στο βήμα 2: i. Πρόβλεψη στοιχείου κωδικής περιοχής ii. iii. Πρόβλεψη στοιχείου προτύπου συναίνεσης Πρόβλεψη στοιχείου απόστασης του ATG iv. Είσοδος των παραπάνω προβλέψεων του στον ταξινομητή επιπέδου 1 4. Επιστροφή φθίνουσας κατάταξης των ATG σύμφωνα με την τελική πρόβλεψη 39/63

Αποτελέσματα Ταξινομητής του στοιχείου κωδικής περιοχής: SVM Ταξινομητής του στοιχείου προτύπου συναίνεσης: αλυσίδα Markov 1ης τάξης Τυπική Προσέγγιση: στοιχείο κωδικής περιοχής + στοιχείο προτύπου συναίνεσης ακολουθούμενα από μοντέλο σάρωσης ριβοσώματος H Μέθοδος StackTIS είναι σημαντικά καλύτερη από τις συγκρινόμενες Παλινδρόμηση (MLR) Δένδρο Ταξινόμησης (M5 ) 40/63

Σύνοψη Ενότητας Μέθοδος StackTIS Αποτελείται από 3 στοιχεία πρόβλεψης (κωδικής περιοχής, προτύπου συναίνεσης, απόστασης ATG) Σημαντική βελτίωση της ακρίβειας πρόβλεψης Tzanis, G., Berberidis, C., Alexandridou, A., and Vlahavas, I. (2005). Improving the Accuracy of Classifiers for the Prediction of Translation Initiation Sites in Genomic Sequences. In Proceedings of the10thpanhellenic Conference on Informatics, Volos, Greece, 426 436. Tzanis, G. and Vlahavas, I. (2006). Prediction of Translation Initiation Sites Using Classifier Selection. In Proceedings of the 4th Hellenic Conference on Artificial Intelligence, Heraklion, Greece, 367 377. Tzanis, G., Berberidis, C., and Vlahavas, I. (2006). A Novel Data Mining Approach for the Accurate Prediction of Translation Initiation Sites, In Proceedings of the 7th International Symposium on Biological and Medical Data Analysis, Thessaloniki, Greece, 92 103. Tzanis, G. Berberidis, C., and Vlahavas, I. (2007). MANTIS: A Data Mining Methodology for Effective Translation Initiation Site Prediction. In Proceedings of the 29th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, IEEE, Lyon, France, 6343 6347. Tzanis, G. Berberidis, C., and Vlahavas, I. StackTIS: A Stacked Generalization Approach for Effective Prediction of Translation Initiation Sites, Computers in Biology and Medicine, Elsevier (υποβληθέν). 41/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 42/63

Κίνητρο Σπουδαιότητα της μελέτης του προβλήματος πρόβλεψης του σημείου πολυαδενυλίωσης Καθορισμός ορίων των γονιδίων (3 άκρο) Κατανόηση της διαδικασίας τερματισμού της μεταγραφής Κατανόηση ασθενειών όπως ο καρκίνος Σημαντικές Προκλήσεις Απουσία ισχυρών σημάτων ή προτύπων γύρω από το σημείο αποκοπής και πολυαδενυλίωσης Δυσκολία διαχωρισμού των 3 άκρων των αλληλουχιών mrna με σημείο πολυαδενυλίωσης από τα ιντρόνια και τα 5 άκρα αλληλουχιών mrna 43/63

Βασικές Έννοιες (1/3) 5 5 AAUAAA Αναγνώριση Σήματος CPSF AAUAAA G/U G/U 3 3 Αποκοπή και Πολυαδενυλίωση 5 Συναρμολόγηση Συμπλόκου Αποκοπή οπή και Απελευθέρωση Παραγόντων Αποκοπής CFI CPSF CFII AAUAAA PAP 3 CstF 5 AAUAAA PAP CstF CFI CFII CPSF: Cleavage/Polyadenylation Specificity Factor CstF: Cleavage stimulation Factor PAP: Polyadenylate Polymerase CFI: Cleavage Factor I CFII: Cleavage Factor II Πολυαδενυλίωση 5 G/U 3 5 AAUAAA AAΑΑΑAAAΑΑ PAP 44/63

Βασικές Έννοιες (2/3) Αναδυόμενα Πρότυπα (Emerging Patterns) Σύνολα αντικειμένων με υποστήριξη που διαφέρει σημαντικά μεταξύ δύο συνόλων δεδομένων D + (στόχος) και D (υπόβαθρο) Μέτρα ενδιαφέροντος 0, αν suppd ( X) 0 και suppd ( X) 0, αν supp D ( X) 0 και supp ( X) 0 D Ρυθμός ανάπτυξης: grd D ( X ) suppd ( X), αλλιώς suppd ( X) Ισχύς: strength D D supportd ( X), αν grd D ( X) ( X) grd D ( X) support D ( X ), αλλιώς gr D D ( X ) 1 45/63

Βασικές Έννοιες (3/3) Χι Αναδυόμενα Πρότυπα Ειδική κατηγορία «ενδιαφερόντων» αναδυόμενων προτύπων Το Χ είναι χι αναδυόμενο πρότυπο αν: 1. 2. 3. 4. supp ( X) min_supp D gr ( X) min_gr D D Y Y X: gr () Y gr ( X ) D D D D X 1 X >1 ( YX Y = X 1 chi( X, Y) η), όπου η = 3,84 είναι ένα κατώφλι ελάχιστης τιμής της συνάρτησης chi(x, Y), η οποία υπολογίζεται βάσει της δοκιμασίας Χ 2 46/63

Η Μέθοδος PolyA iep PolyA prediction with interesting Emerging Patterns Βαθμολόγηση με Βάση τα Χι Αναδυόμενα Πρότυπα 5 Εξαγωγή Εξόρυξη Χι Εξαγωγή A Προτύπων Διακριτοποίηση Αναδυόμενων Στοιχείων C Νουκλεοτιδίων Προτύπων T T G T G T C Ταξινόμηση +/ C 3 Βαθμολόγηση με Βάση την Απόσταση 47/63

Εξαγωγή Στοιχείων Τέσσερα στοιχεία (τμήματα του 3 άκρου του mrna) Άπω Ανοδικό Στοιχείο (Far Upstream Element FUE) Εγγύς Ανοδικό Στοιχείο (Near Upstream Element NUE) Στοιχείο Αποκοπής (Cleavage Element CE) Εγγύς Καθοδικό Στοιχείο (Near Downstream Element NDE) Σημείο Αποκοπής και Πολυαδενυλίωσης 5 FUE NUE CE NDE 3 130 θέση 30 +1 12 +15 +50 48/63

Εξαγωγή Προτύπων Νουκλεοτιδίων Πρότυπα νουκλεοτιδίων με μέγεθος 1 έως k (π.χ. Α, ΑΑ, κλπ.) Το k ορίζεται από το χρήστη Δημιουργία 4 (ένα για κάθε στοιχείο) ) διανυσμάτων με στοιχεία τις συχνότητες όλων των προτύπων Γράμμα Αλφαβήτου Νουκλεοτίδια A A Adenine C C Cytocine G G Guanine T T Thymine R A ή G purine Y C ή T pyrimidine M A ή C amino K G ή T Keto S C ή G Strong (3 δεσμοί H) W A ή T Weak (2 δεσμοί H) 49/63

Διακριτοποίηση και Εξόρυξη Δυαδική Διακριτοποίηση των Συχνοτήτων των Προτύπων Εντροπία (entropy) και κέρδος πληροφορίας (information gain) Διανύσματα συχνοτήτων Συναλλαγές Εξόρυξη Χι Αναδυόμενων Προτύπων Τέσσερα υποπροβλήματα Θετικές αλληλουχίες έναντι όλων των αρνητικών αλληλουχιών Θετικές αλληλουχίες έναντι αλληλουχιών 5 UTR Θετικές αλληλουχίες έναντι κωδικών αλληλουχιών Θετικές αλληλουχίες έναντι ιντρονίων Εκτεταμένα πρότυπα Εκτείνονται σε περισσότερα από ένα στοιχεία Παράδειγμα: {FUE_TGGA, NUE_CT, NDE_CGG} 50/63

Βαθμολόγηση με Βάση τα Χι Αναδυόμενα Πρότυπα Βαθμολογία Θετικής Τάξης: score(,) T strength () e, e T e E D D Βαθμολογία Αρνητικής Τάξης: score (,) T strength () e, et e E D D Τ: αλληλουχία που αναπαρίσταται σε μορφή συναλλαγής συνόλου συνόλου νουκλεοτιδικών προτύπων Ε +, Ε : Σύνολα χι αναδυόμενων προτύπων για τη θετική και την αρνητική τάξη αντίστοιχα Έξοδος 2 βαθμολογίες, μια για κάθε τάξη, για καθένα από τα τέσσερα υποπροβλήματα (συνολικά: 8 βαθμολογίες) 51/63

Βαθμολόγηση με Βάση την Απόσταση Παράδειγμα υπολογισμού βαθμολογίας ATGGC: διάνυσμα βάση κατάταξης νουκλεοτιδίων <4, 1, 2.5, 1, 2> Απόσταση Μανχάταν από το μοναδιαίο διάνυσμα = 5,5 Διαίρεση με το μήκος του διανύσματος: βαθμολογία = 11 1,1 Έξοδος 5 βαθμολογίες ς( (θετικές, 5 UTR, ιντρόνια,, κωδικές, όλες οι αρνητικές) Συχνότητες Νουκλεοτιδίων Κατατάξεις Νουκλεοτιδίων Νουκλεοτίδιο Θέση στην Αλληλουχία Θέση στην Αλληλουχία Νουκλεοτίδιο 1 2 3 4 5 1 2 3 4 5 A 0,15 0,08 0,28 0,10 0,10 A 4 4 1 4 4 C 0,20 0,22 0,22 0,30 0,30 C 3 3 4 2 2 G 0,40 0,33 0,25 0,40 0,30 G 1 2 2,5 1 2 T 025 0,25 037 0,37 025 0,25 020 0,20 030 0,30 T 2 1 25 2,5 3 2 52/63

Ταξινόμηση Είσοδος: 13 (8+5) Βαθμολογίες Ταξινομητές Νευρωνικό δίκτυο χωρίς κρυφά επίπεδα (ΝΝ 0) Νευρωνικό δίκτυο με ένα κρυφό επίπεδο (ΝΝ 1) Μηχανή διανυσμάτων υποστήριξης (SVM 1) με γραμμικό πυρήνα Μηχανή διανυσμάτων υποστήριξης (SVM 2) με τετραγωνικό πυρήνα Δένδρο λογιστικών μοντέλων (LMT) Δένδρο ταξινόμησης (C4.5) k Κοντινότεροι γείτονες (knn) 53/63

Κατανομή Νουκλεοτιδίων 3 UTR Αλληλουχιών mrna Αλληλουχίες 5 UTR 80% 60% A C G U 60% 50% 40% A C G U 40% 30% 20% 20% FUE NUE CE NDE 0% 200 130 30 12 +1 +15 +50 +100 Θέση 60% 50% 40% Ιντρόνια A C G U 10% 60% 50% 40% 0% 1 50 100 150 200 250 300 Θέση Κωδικές Αλληλουχίες A C G U 30% 20% 10% 0% 50 100 150 200 250 300 Θέση 30% 20% 10% 0% 1 50 100 150 200 250 300 Θέση 54/63

Αποτελέσματα Οι NN 1 1, SVM 2 και LMT έχουν στατιστικά σημαντικά καλύτερη απόδοση Βαθμολόγηση με βάση τα χι αναδυόμενα πρότυπα Αποτελεσματικότερη με γραμμικούς ταξινομητές (NN 0 και SVM 1) Βαθμολόγηση με βάση την απόσταση Αποτελεσματικότερη με μηγραμμικούς ταξινομητές (NN 1, SVM 2, LMT, knn και C4.5) 55/63

Σύνοψη Ενότητας Μέθοδος PolyA iep Αποτελείται από δύο βασικά τμήματα Βαθμολόγηση με βάση τα χι αναδυόμενα πρότυπα Βαθμολόγηση με βάση την απόσταση Βελτίωση ικανότητας διαχωρισμού αλληλουχιών με σημείο πολυαδενυλίωσης από αλληλουχίες χωρίς τέτοιο σημείο Tzanis, G., Kavakiotis, I., Vlahavas, I. (2008). Polyadenylation Site Prediction Using Interesting Emerging Patterns, In Proceedings of the 8th IEEE International Conference on Bioinformatics and Bioengineering, IEEE, Athens, Greece, 1 7. Tzanis, G., Kavakiotis, I., Vlahavas, I. (2011). PolyA iep: A Data Mining Method for the Effective Prediction of Polyadenylation Sites, Expert Systems with Applications, Elsevier, 38(10): 12398 12408. 56/63

Δομή Παρουσίασης Εισαγωγικά Συμβολή της Διατριβής Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Σύνοψη και Μελλοντικές Επεκτάσεις 57/63

Σύνοψη και Συμβολή (1/2) Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Ορισμός του προβλήματος Yλοποίηση αλγορίθμου Εφαρμογή σε δεδομένα γονιδιακής έκφρασης Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Ιδιαιτερότητες δεδομένων (πολλές διαστάσεις, θόρυβος, κλπ.) Προτεινόμενη μέθοδος Σημαντική βελτίωση της ακρίβειας πρόβλεψης Μείωση των διαστάσεων 58/63

Σύνοψη και Συμβολή (2/2) Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Μέθοδος StackTIS Συνδυασμός τριών στοιχείων πρόβλεψης Στοιχείο κωδικής περιοχής Στοιχείο προτύπου συναίνεσης Στοιχείο απόστασης ATG Σημαντική βελτίωση της ακρίβειας πρόβλεψης Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Μέθοδος PolyA iep Συνδυασμός δύο βασικών τμημάτων Βαθμολόγηση με βάση τα χι αναδυόμενα πρότυπα Βαθμολόγηση με βάση την απόσταση Βελτίωση ικανότητας διαχωρισμού αλληλουχιών 59/63

Μελλοντικές Επεκτάσεις Ανακάλυψη Αμοιβαίως Αποκλειόμενων Αντικειμένων Βελτίωση απόδοσης και αξιολόγηση με ιεραρχίες εννοιών Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Αντιμετώπιση σφαλμάτων αλληλούχισης και θορύβου Αμοιβαίως Αποκλειόμενα Αντικείμενα + Πρόβλεψη Φαινοτύπου από Δεδομένα Γονιδιακής Έκφρασης Πρόβλεψη του Σημείου Έναρξης της Μετάφρασης Ατελείς (π.χ. ESTs) και μη κωδικές αλληλουχίες (π.χ. micrornas) Πρόβλεψη του Σημείου Αποκοπής και Πολυαδενυλίωσης Πρόβλεψη εναλλακτικών σημείων πολυαδενυλίωσης Σημείο αποκοπής και πολυαδενυλίωσης + Γονιδιακή έκφραση 60/63

Δημοσιεύσεις (1/2) Άρθρα σε Περιοδικά 1. Tzanis, G. and Berberidis,C. (2007). Mining for MutuallyExclusive Items in Transaction Databases. International Journalof of Data Warehousing and Mining, Idea Group Publishing, 3(3): 45 59. 2. Hatzikos, E., Tsoumakas, G., Tzanis, G., Bassiliades, N., and Vlahavas, I. (2008). An Empirical Study of Sea Water Quality Prediction, Knowledge Based Systems, Elsevier, 21(6): 471 478. 3. Tzanis, G., Kavakiotis, I., Vlahavas, I. (2011). PolyA iep: A Data Mining Method for the Effective Prediction of PolyadenylationSites Sites, Expert Systems with Applications, Elsevier, 38(10): 12398 12408. 4. Tzanis, G. Berberidis, C., and Vlahavas, I. StackTIS: A Stacked Generalization Approach for Effective Prediction of Translation Initiation Sites, Computers in Biology and Medicine, Elsevier (υποβληθέν). Άρθρα σε Πρακτικά Συνεδρίων 1. Berberidis, C., Tzanis, G., and Vlahavas, I. (2005). Mining for Contiguous Frequent Itemsets in Transaction Databases, In Proceedings of the IEEE 3rd International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, Sofia, Bulgaria, 679 685. 2. Tzanis, G. and Vlahavas, I. (2006). Prediction of Translation Initiation Sites Using Classifier Selection. In Proceedings of the 4th Hellenic Conference on Artificial Intelligence (SETN'06), Springer Verlag, LNAI 3955, Heraklion, Greece, 367 377. 3. Tzanis, G., Berberidis, C., Alexandridou, A., and Vlahavas, I. (2005). Improving the Accuracy of Classifiers for the Prediction of Translation Initiation Sites in Genomic Sequences. In Proceedings of the 10th Panhellenic Conference on Informatics (PCI'2005), Volos, Greece, 426 436. 436 4. Tzanis, G., Katakis, I., Partalas, I., and Vlahavas, I. (2006). Modern Applications of Machine Learning, In Proceedings of the 1st Annual SEERC Doctoral Student Conference, Thessaloniki, Greece. 5. Tzanis, G., Berberidis, C., and Vlahavas, I. (2006). On the Discovery of Mutually Exclusive Items in a Market Basket Database, In Proceedings of the 2nd ADBIS WorkshoponDataMiningand Knowledge Discovery, Thessaloniki, Greece, 1 12. 61/63

Δημοσιεύσεις (2/2) Άρθρα σε Πρακτικά Συνεδρίων (συνέχεια) 6. Tzanis, G. Berberidis,C., and Vlahavas, I. (2007). MANTIS: A Data Mining Methodology for Effective Translation Initiation Site Prediction. In Proceedings of the 29th Annual International Conference of the IEEE EMBS, Lyon, France, 6343 6347. 7. Tzanis, G., Berberidis, C., and Vlahavas, I. (2006). A Novel Data Mining Approach for the Accurate Prediction of Translation Initiation Sites, In Proceedings of the 7th International Symposium on Biological and Medical Data Analysis, Thessaloniki, Greece, 92 103. 8. Tzanis, G. and Vlahavas, I. (2007). Accurate Classification of SAGE Data Based on Frequent Patterns of Gene Expression. In Proceedings of the 19th IEEE International Conference on Tools with Artificial Intelligence (ICTAI 2007), Patras, Greece, 96 100. 9. Tzanis, G. and Vlahavas, I. (2007). Mining High Quality Clusters of SAGE Data, In Proceedings of the 2nd VLDB Workshop on Data Mining in Bioinformatics, Vienna, Austria. 10. Tzanis, G., Kavakiotis, I., Vlahavas, I. (2008). PolyadenylationSite Prediction Using InterestingEmergingPatterns, In Proceedings of the 8th IEEE International Conference on Bioinformatics and Bioengineering, IEEE, Athens, Greece, 1 7. 11. Tzanis, G. and Vlahavas, I. (2010). Mining for Mutually Exclusive Gene Expressions, In Proceedings of the 6th Hellenic Conference on Artificial Intelligence, Springer Verlag, Athens, Greece, 255 264. Κεφάλαια σε Συλλογικούς Τόμους 1. Tzanis, G., Berberidis, C., and Vlahavas, I. (2005). Biological Data Mining, Encyclopedia of Database Technologies and Applications, L.C. Rivero, J.H. Doorn, and V.E. Ferraggine (Eds.), IDEA Group Publishing. 2. Tzanis, G., Berberidis, C., and Vlahavas, I. (2009). Machine Learning and Data Mining in Bioinformatics. Handbook of Research on Innovations in Database Technologies and Applications: Current and Future Trends, IGI Global. Σύνολο Ετεροαναφορών: 51 62/63

Ανακάλυψη Γνώσης από Βιολογικά άδ Δεδομένα Γεώργιος Τζανής Ευχαριστώ!