Εξόρυξη Γνώσης από Βιολογικά εδομένα

Σχετικά έγγραφα
Γονιδιωματική. G. Patrinos

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους;

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση.

1 ο #Κεφάλαιο# 1)#Πειράματα: α)$να#περιγράψεις#το#πείραμα#των#hershey#και#chase.# Υπόδειξη:#σελ#14#σχολ.

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Στο DNA των μιτοχονδρίων περιέχονται πληροφορίες για:

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΙΑΤΡΟΒΙΟΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Δʹ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 2 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες;

ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Γ ΛΥΚΕΙΟΥ

ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

1. Ο Griffith στα πειράματά του χρησιμοποίησε:

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Αιμοσφαιρίνες. Αιμοσφαιρίνη Συμβολισμός Σύσταση A HbA α 2 β 2 F HbF α 2 γ 2 A 2 HbA 2 α 2 δ 2 s. Σύγκριση γονιδιακών και χρωμοσωμικών μεταλλάξεων

Α1) Μία περιοριστική ενδονουκλεάση μπορεί να κόψει: Α2) Η 5 αμετάφραστη περιοχή της μη κωδικής αλυσίδας ενός συνεχούς γονιδίου:

Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση.

Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2

Αλέξης Ν. Πολύδωρος Επ. Καθηγητής Μοριακής Βελτίωσης Εργαστήριο Γενετικής και Βελτίωσης Φυτών ΑΠΘ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΤΜΗΜΑ: ΘΕΜΑ 1 Ο. 3. Το DNA των μιτοχονδρίων έχει μεγαλύτερο μήκος από αυτό των χλωροπλαστών.

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

Τα νουκλεϊκά οξέα RNA Μεταγραφή του DNA

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Φάσμα& Group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

ΒΙΟΛΟΓΙΑ Ο.Π. ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Να σημειώσετε το γράμμα που συμπληρώνει κατάλληλα τη φράση:

Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΕΞΕΤΑΣΤΕΑ ΥΛΗ για τη ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01%

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΦΡΟΝΤΙΣΤΗΡΙΟ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΗΡΑΚΛΕΙΤΟΣ ΚΩΛΕΤΤΗ

Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΚΑΘΗΓΗΤΗΣ ΒΙΟΛΟΓΟΣ Μ.Δ.Ε

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 22 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ

ΒΙΟΛΟΓΙΑ. 1 ο ΔΙΑΓΩΝΙΣΜΑ ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ 1 o

igenetics ΜΑΘΗΜΑ 3 Το γενετικό υλικό

Ποιες είναι οι ομοιότητες και οι διαφορές μεταξύ της αντιγραφής και της

Επιμέλεια: ΧΑΤΖΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ (ΒΙΟΛΟΓΟΣ)

Βιολογία Γενικής Παιδείας Β Λυκείου

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Οι φάσεις που περιλαμβάνει ο κυτταρικός κύκλος είναι:

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΑΡΧΗ 1ης ΣΕΛΙΔΑΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΤΑΞΗ / ΤΜΗΜΑ : Γ ΛΥΚΕΙΟΥ. ΔΙΑΓΩΝΙΣΜΑ ΠΕΡΙΟΔΟΥ : Ιανουαρίου 2018 ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ : 5

ΑΠΑΝΤΗΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (Β ΛΥΚΕΙΟΥ)

ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ. Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της...

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Γενικές εξετάσεις 2014 Βιολογία Γ λυκείου Θετικής κατεύθυνσης

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΝΑΚΟΙΝΩΣΗ. Η κατάταξη γίνεται με εξετάσεις στα παρακάτω μαθήματα: Οι επιτυχόντες κατατάσσονται στα παρακάτω εξάμηνα ανά Κατηγορία πτυχιούχων

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΠΑΝΕΛΛΑΔΙΚΩΝ ΕΞΕΤΑΣΕΩΝ 2107 ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

Βιολογία Προσανατολισμού

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΠΑΡΑΣΚΕΥΗ 20 ΑΠΡΙΛΙΟΥ 2018

EΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ 1,2,4,9 ΚΕΦΑΛΑΙΑ. Εξεταζόμενο μάθημα. Συκούδη Κωνσταντίνα. Διδάσκων/επιβλέπων καθηγήτρια

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

Βιολογία Θετικής Κατεύθυνσης. Κεφάλαιο 2 ο Αντιγραφή, έκφραση & ρύθμιση της γενετικής πληροφορίας

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

ΠΑΝΕΛΛΗΝΙΕ 2017 ΑΠΑΝΣΗΕΙ ΣΟ ΜΑΘΗΜΑ ΣΗ ΒΙΟΛΟΓΙΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΚΕΦΑΛΑΙΟ 4. Βασικές αρχές της μοριακής βιολογίας. Ακαδημαϊκές Εκδόσεις 2011 Το κύτταρο-μια Μοριακή Προσέγγιση 1

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

Αλέξης Ν. Πολύδωρος Αναπλ. Καθηγητής Μοριακής Βελτίωσης Εργαστήριο Γενετικής και Βελτίωσης Φυτών ΑΠΘ

Β. ΚΑΜΙΝΕΛΛΗΣ ΒΙΟΛΟΓΙΑ. Είναι η επιστήμη που μελετά τους ζωντανούς οργανισμούς. (Αποτελούνται από ένα ή περισσότερα κύτταρα).

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΚΡΙΤΗΡΙΟ ΑΞΙΟΛΟΓΗΣΗΣ ΣΤΗ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΞΕΤΑΣΤΕΑ ΥΛΗ: ΚΕΦΑΛΑΙΑ 1, 2, 4, 5

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ

Βιολογία προσανατολισμού

Transcript:

Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005

Εξόρυξη Γνώσης από Βιολογικά εδομένα ΠΕΡΙΕΧΟΜΕΝΑ ΕΡΓΑΣΙΑΣ Μοριακή Βιολογία & Βιοπληροφορική Ανακάλυψη Γνώσης σε Β.Δ. (Knowledge Discovery in Databases) Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία 10 Φεβ 2005 2/28

Ενότητα 1: Μοριακή Βιολογία & Πληροφορική Περιγραφή μερικών βασικών εννοιών στη Βιολογία: Κύτταρο & Πρωτεΐνες Γενετικό Υλικό Γονιδίωμα & Γονιδιωματική Γονιδιακή Έκφραση Βιοπληροφορική 10 Φεβ 2005 3/28

Μοριακή Βιολογία & Πληροφορική (1/6) Κύτταρο & Πρωτεΐνες Το κύτταρο αποτελεί το θεμελιώδες δομικό στοιχείο όλων των οργανισμών Κοινά χαρακτηριστικά όλων των κυττάρων είναι η πλασματική (κυτταρική) μεμβράνη, κυτταρόπλασμα, ριβοσώματα, DNA ή RNA Πρωτεΐνες αποτελούν τη θεμελιώδη δομική και ενεργειακή μονάδα του κυττάρου και κατ επέκταση του οργανισμού Οι πρωτεΐνες είναι αλυσίδες αμινοξέων Υπάρχουν 20 διαφορετικά είδη αμινοξέων Η παραγωγή της πρωτεΐνης γίνεται με μεταβολισμό Η πληροφορία που χρειάζεται για την παραγωγή της πρωτεΐνης βρίσκεται στο γενετικό υλικό (DNA) 10 Φεβ 2005 4/28

Μοριακή Βιολογία & Πληροφορική (2/6) Γενετικό Υλικό (DNA, RNA) Το γενετικό υλικό είναι αλυσίδες νουκλεοτίδιων που καλούνται DNA και RNA (νουκλεϊκά οξέα) Τα νουκλεοτίδια είναι τεσσάρων ειδών Ο συνδυασμός του μη-καθορισμένου μήκους της αλυσίδας με τα 4 διαφορετικά είδη νουκλεοτιδίων καθιστούν το DNA & RNA ιδανικό για την κωδικοποίηση πληροφορίας Τα 3 είδη RNA (mrna, rrna, trna) αποτελούν τα βασικά συστατικά στη σύνθεση της πρωτεΐνης 10 Φεβ 2005 5/28

Μοριακή Βιολογία & Πληροφορική (3/6) Κεντρικό όγμα της Μοριακής Βιολογίας Αντιγραφή DNA Μεταγραφή Μετάφραση RNA mrna αποκαλύπτει τα γονίδια και την έκφρασή τους Πρωτεΐνη 10 Φεβ 2005 6/28

Μοριακή Βιολογία & Πληροφορική (4/6) Γονιδίωμα & Γονιδιωματική Το «γονιδίωμα» είναι το σύνολο του νουκλεϊκού οξέος Οργανώνεται σε χρωμοσώματα και γονίδια Η Γονιδιωματική είναι ο τομέας της γενετικής που ασχολείται με την μελέτη και έρευνα του γονιδιώματος Σκοπός της γονιδιωματικής η χαρτογράφηση της δομής και της λειτουργίας των γονιδίων (δομική & λειτουργική γονιδιωματική) Το ανθρώπινο γονιδίωμα χαρτογραφήθηκε με το Human Genome Project 10 Φεβ 2005 7/28

Μοριακή Βιολογία & Πληροφορική (5/6) Γονιδιακή Έκφραση Γονιδιακή έκφραση είναι η ποσοτικοποίηση της έκφρασης ενός γονιδίου για την παραγωγή πρωτεΐνης Πρόσφατη εξέλιξη η ανακάλυψη τεχνικών απεικόνισης της έκφρασης χιλιάδων γονίδιων σε 1 μόνο πείραμα Συσχετίζει τα γονίδια με φάρμακα & ασθένειες μεταλλάξεις Οι δύο κυριότερες τεχνικές: SAGE (Serial Analysis of Gene Expression) Μικροσυστοιχίες DNA (microarrays) 10 Φεβ 2005 8/28

Μοριακή Βιολογία & Πληροφορική (6/6) Βιοπληροφορική Βάσεις Δεδομένων Ακολουθιών - Μοριακές (GenBank, ) Γονιδιωμάτων (GOLD, ) Μέθοδοι Αλγόριθμοι: Αναγνώριση γονιδίων (GeneID, ) Αναζήτησης ομοιότητας (BLAST, ) Ποσοτικοποίηση & Ανάλυση δεδομένων γονιδιακής έκφρασης (Sage, GeneChip κατηγοριοποίηση, ομαδοποίηση,...) 10 Φεβ 2005 9/28

Ενότητα 2: Ανακάλυψη Γνώσης σε Β Η Εξόρυξη σε Δεδομένα εργαλείο Υποστήριξης Λήψης Αποφάσεων (Decision Support Systems) σε πολλούς τομείς όπως στις Επιχειρήσεις και στις Επιστήμες Αξιοποιεί μεθόδους και αλγόριθμους από άλλες επιστήμες: των Βάσεων Δεδομένων, της Στατιστικής, της Μηχανικής Μάθησης Περιγραφή Της διαδικασίας Ανακάλυψης Γνώσης σε ΒΔ Μεθόδων & Αλγόριθμων Εξόρυξης Γνώσης 10 Φεβ 2005 10/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (1/7) Βήματα Προεπεξεργασία Δεδομένων Επιλογή Καθαρισμός Μετασχηματισμός Εφαρμογή Μεθόδων Εξόρυξης Γνώσης κατηγοριοποίηση εμπειρική συσχέτιση μεταβλητών ομαδοποίηση κανόνες συσχέτισης Αξιολόγηση & Αναπαράσταση Γνώσης 10 Φεβ 2005 11/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (2/7) Σειρά των φάσεων εξόρυξης 10 Φεβ 2005 12/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (3/7) Εξόρυξη Γνώσης ΜΟΝΤΕΛΑ - ΠΡΟΤΥΠΑ Πρόβλεψης με επίβλεψη ΜΕΘΟΔΟΙ Πληροφόρησης χωρίς επίβλεψη Κατηγοριοποίηση Ομαδοποίηση Εμπειρική Συσχέτιση Μεταβλητών Κανόνες Συσχέτισης 10 Φεβ 2005 13/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (4/7) Κατηγοριοποίηση Η κατηγοριοποίηση αφορά την κατασκευή μοντέλου για την πρόβλεψη της κατηγορίας της κάθε κατάστασης (εγγραφής) Η κατασκευή γίνεται με τα υπάρχοντα δεδομένα Το μοντέλο ανάλογα με τον αλγόριθμο αναπαρίσταται με κανόνες, δένδρα απόφασης, μαθηματική συνάρτηση Δύο βασικές τεχνικές: Επαγωγική Μάθηση με Δένδρα Απόφασης (ID3) & Απλοί Κατηγοριοποιητές Bayes (Naive Bayes) Άλλοι Αλγόριθμοι: K-nearest neighbors, Support Vector Machines, Voted Classification, Weighted gene voting 10 Φεβ 2005 14/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (5/7) Εμπειρική Σχέση Μεταβλητών Η εμπειρική σχέση μεταβλητών αφορά την κατασκευή μοντέλου για την πρόβλεψη αριθμητικής τιμής Η κατασκευή γίνεται με τα υπάρχοντα δεδομένα Κυριότερες Μέθοδοι: Γραμμική / Μη-Γραμμική Παρεμβολή & Νευρωνικά Δίκτυα 10 Φεβ 2005 15/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (6/7) Ομαδοποίηση & Κανόνες Συσχέτισης (1/2) Ανακάλυψη προτύπων στα δεδομένα Ανακάλυψη με παρατήρηση και όχι με παραδείγματα Στην ομαδοποίηση 2 οι κυριότερες κατηγορίες μεθόδων: διαχωρισμού, ιεραρχικές Διαχωρισμού: k ομάδες με κριτήριο την απόσταση (Ευκλείδεια,...) Ιεραρχικές: Συγχωνευτικές & Διαιρετικές (κάθε δεδομένο μια ομάδα όλα τα δεδομένα μια ομάδα) με κριτήριο την απόσταση 10 Φεβ 2005 16/28

Ανακάλυψη Γνώσης σε Βάσεις εδομένων (7/7) Ομαδοποίηση & Κανόνες Συσχέτισης (2/2) Η ομαδοποίηση δεν αποκαλύπτει τη σχέση μεταξύ των ομαδοποιημένων δεδομένων => κανόνες συσχέτισης Σκοπός η αναζήτηση συχνών συνόλων αντικειμένων (itemsets) => αντιπροσωπεύουν κανόνες συσχέτισης μεταξύ των δεδομένων Κριτήριο: υποστήριξη (χρησιμότητα) & εμπιστοσύνη (βεβαιότητα) Μια εφαρμογή των μεθόδων «Μάθησης Χωρίς Επίβλεψη» είναι η ανακάλυψη συνεκφρασμένων ομάδων γονιδίων (synexpression groups) 10 Φεβ 2005 17/28

Ενότητα 3: Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία Παρουσίαση εφαρμογής αλγορίθμων με σκοπό την πρόβλεψη καρκινικών οργανισμών Εφαρμογή Αξιολόγηση Σύγκριση 10 Φεβ 2005 18/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (1/9) Περιβάλλον εργασίας WEKA Γραφικό Περιβάλλον Βασισμένο στην Java Open Source Διαθέσιμοι αρκετοί αλγόριθμοι από όλες τις μεθόδους Έλλειψη documentation 10 Φεβ 2005 19/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (2/9) εδομένα Προέλευση δεδομένων από το διαγωνισμό Discovery Challenge 2004 Τα δεδομένα παράχθηκαν με πειράματα SAGE Περιγραφή σε 3 αρχεία Ποσοτικοποιημένη έκφραση των γονίδιων Περιγραφή των βιολογικών καταστάσεων Περιγραφή των γονιδίων 822 γονίδια σε 74 βιολογικές καταστάσεις 10 Φεβ 2005 20/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (3/9) Προεπεξεργασία (1/2) Επιλογή για την προσθήκη του χαρακτηριστικού για το οποίο θα φτιαχτεί το μοντέλο πρόβλεψης tissue type cancer Καθαρισμός & Μετατροπή για την μετατροπή των τιμών σε { yes, no } & συμπλήρωση των κενών τιμών στο χαρακτηριστικό cancer Μορφοποίηση του αρχείου δεδομένων WEKA ARFF ( @relation @attributes @data ) Μετασχηματισμός -διακριτοποίηση (ομαδοποίηση) των δεδομένων σε 2 κατηγορίες {εκφρασμένα, μη-εκφρασμένα} υπολογιστικά με το WEKA -πριν την εξόρυξη υπολογιστικά επιλέγουμε τα γονίδια που δείχνουν μεγαλύτερη συσχέτιση με το χαρακτηριστικό πρόβλεψης - Αλγόριθμοι: Ranker με Information Gain & Επιλογή των 100 καλύτερων 10 Φεβ 2005 21/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (4/9) Προεπεξεργασία (2/2) Τα δεδομένα πριν τη διακριτοποίηση 6,10,0,4,1,7,...,no 23,13,1,0,6,2,...,no 37, 2,0,1,1,0,...,yes 19, 7,0,0,0,0,...,yes 48, 4,0,0,1,0,...,yes 145,10,2,0,0,2,...,yes 28,31,0,5,4,0,...,yes Τα δεδομένα μετά την διακριτοποίηση (-inf-250],(-inf-30],(-inf-1.5],(3.5-inf), (-inf-5.5],(-inf-8],...,no (-inf-250],(-inf-30],(-inf-1.5],(-inf-3.5], (5.5-inf),(-inf-8],...,no (-inf-250],(-inf-30],(-inf-1.5],(-inf-3.5],(-inf-5.5],(-inf-8],...,yes (-inf-250],(-inf-30],(-inf-1.5],(-inf-3.5],(-inf-5.5],(-inf-8],...,yes (-inf-250],(-inf-30],(-inf-1.5],(-inf-3.5],(-inf-5.5],(-inf-8],...,yes (-inf-250],(-inf-30], (1.5-inf),(-inf-3.5],(-inf-5.5],(-inf-8],...,yes (-inf-250], (30-inf),(-inf-1.5], (3.5-inf),(-inf-5.5],(-inf-8],...,yes 10 Φεβ 2005 22/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (5/9) Αλγόριθμοι Πρόβλεψη Κατηγοριοποίηση ID3, C4.5 Naive Bayes Ripper K-Nearest Neighbors 10 Φεβ 2005 23/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (6/9) Εξόρυξη Γνώσης με ένδρο Απόφασης Το δένδρο που κατασκεύασε ο C4.5 (J48) 10 Φεβ 2005 24/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (7/9) Αξιολόγηση (1/2) Έλεγχος διασταύρωσης 10-επαναλήψεων (10-fold cross validation) 10 ίσου μεγέθους τμήματα διαφορετικά μεταξύ τους Σε κάθε επανάληψη χρησιμοποιείται ένα τμήμα για έλεγχο και τα υπόλοιπα για εκπαίδευση Η εκτίμηση του σφάλματος είναι ο μέσος όρος των επιμέρους σφαλμάτων Θεωρείται η καλύτερη μέθοδος αξιολόγησης Τα αποτελέσματα αξιολογούνται με κριτήριο: τις σωστές κατηγοριοποιήσεις τον πίνακα confusion matrix 10 Φεβ 2005 25/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (8/9) Αξιολόγηση (2/2) Αποτελέσματα της αξιολόγησης από την εφαρμογή του Naive Bayes: Correctly Classified Instances 64 86.4865 % Incorrectly Classified Instances 10 13.5135 %... TP Rate FP Rate Precision Recall F-Measure Class 0.857 0.12 0.933 0.857 0.894 yes 0.88 0.143 0.759 0.88 0.815 no === Confusion Matrix === a b <-- classified as 42 7 a = yes 3 22 b = no 64 σωστές κατηγοριοποιήσεις 42 στο yes & 22 στο no => "yes": True Positive Rate (42 σωστές από τις 49 που έκανε) = 85,7% & Precision (42 σωστές από τις 45 που έπρεπε να κάνει) = 93,3% 10 Φεβ 2005 26/28

Εφαρμογή Μεθόδων Εξόρυξης Γνώσης στη Μοριακή Βιολογία (9/9) Σύγκριση ID3 C4.5 Naive Bayes Ripper 10-NN Σύνολο 74 74 74 74 74 Σωστές κατηγοριοποιήσεις Λανθασμένες κατηγοριοποιήσεις % (σωστές κατηγοριοποιήσεις) 53 58 64 51 57 21 16 10 23 17 72% 78% 86% 69% 77% yes (TP) 35 40 42 37 39 % 71% 82% 86% 76% 80% no (TP) 18 18 22 14 18 % 72% 72% 88% 56% 72% 10 Φεβ 2005 27/28

Συμπεράσματα Naive Bayes Καλύτερα αποτελέσματα τόσο στις σωστές κατηγοριοποιήσεις συνολικά όσο και για την κάθε κατηγορία Αδυναμία: η έλλειψη ειδικής γνώσης (βιολογική) Καλύτερη προεπεξεργασία, εξόρυξη & αξιολόγηση Στο μέλλον απαραίτητη η συμμετοχή μοριακού βιολόγου για ρεαλιστικά αποτελέσματα Βελτιώσεις στους αλγόριθμους εξόρυξης γνώσης 10 Φεβ 2005 28/28

Ευχαριστώ