Μελέτη στην ανάλυση οµάδων και εφαρµογή σε δεδοµένα γονιδιακής έκφρασης καρκίνου από µικροσυστοιχίες

Σχετικά έγγραφα
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

4.3. Γραµµικοί ταξινοµητές

Βιοπληροφορική II. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

/5

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

οµή δικτύου ΣΧΗΜΑ 8.1

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Γραµµικοί Ταξινοµητές

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Νευρωνικά ίκτυα και Εξελικτικός

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2010 ΕΚΦΩΝΗΣΕΙΣ

f x g x f x g x, x του πεδίου ορισμού της; Μονάδες 4 είναι οι παρατηρήσεις μιας ποσοτικής μεταβλητής Χ ενός δείγματος μεγέθους ν και w

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Με τα sequence projects φτάσαμε στην εποχή που η ελάχιστη πληροφορία για να ξεκινήσει ένα πείραμα είναι ολόκληρη ακολουθία DNA του οργανισμού Το DNA

Βιοστατιστική ΒΙΟ-309

Γονιδιωματική. G. Patrinos

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αναγνώριση Προτύπων Ι

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Υπολογιστική Νοημοσύνη. Μάθημα 10: Ομαδοποίηση με Ανταγωνιστική Μάθηση - Δίκτυα Kohonen

Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη

Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΘΕΩΡΗΤΙΚΗ ΑΣΚΗΣΗ ιάθλαση µέσω πρίσµατος Φασµατοσκοπικά χαρακτηριστικά πρίσµατος

ΘΕΩΡΗΤΙΚΗ ΑΣΚΗΣΗ. Διάθλαση μέσω πρίσματος - Φασματοσκοπικά χαρακτηριστικά πρίσματος.


Περιβαλλοντική πληροφορική - Ευφυείς εφαρµογές

5. ΜΕΘΟΔΟΙ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ραστηριότητες στο Επίπεδο 1.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ομαδοποίηση ΙΙ (Clustering)

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÌÅËÉÏ ÇÑÁÊËÅÉÏ ÊÑÇÔÇÓ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Προσαρµοστικοί Αλγόριθµοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδροµικός αλγόριθµος ελάχιστων τετραγώνων (RLS Recursive Least Squares)

Ανάκτηση πολυμεσικού περιεχομένου

Καρκίνος. Note: Σήμερα όμως πάνω από το 50% των διαφόρων καρκινικών τύπων είναι θεραπεύσιμοι

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

ΘΕΤΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Βιοστατιστική ΒΙΟ-309

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem)

Π Α Ν Ε Λ Λ Η Ν Ι Ε Σ Μ Α Θ Η Μ Α Τ Ι Κ Α K A I Σ Τ Ο Ι Χ Ε Ι Α Σ Τ Α Τ Ι Σ Τ Ι Κ Η

Βιοστατιστική ΒΙΟ-309

Το άθροισµα των εισερχόµενων σηµάτων είναι:

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

ΙΑΓΩΝΙΣΜΑ ΣΤΗΝ ΕΥΘΕΙΑ Β ΛΥΚΕΙΟΥ. i) Μία ευθεία με συντελεστή διεύθυνσης ίσο με το μηδέν, θα είναι παράλληλη στον άξονα των y.

Διαφορικός Λογισμός. Κεφάλαιο Συναρτήσεις. Κατανόηση εννοιών - Θεωρία. 1. Τι ονομάζουμε συνάρτηση;

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Εισαγωγή στη Real Time PCR. Καραπέτσας Θανάσης PhD, MSc

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2012 ΕΚΦΩΝΗΣΕΙΣ


ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑΤΙΚΑ Β ΓΥΜΝΑΣΙΟΥ. ΜΕΡΟΣ 1ο ΑΛΓΕΒΡΑ

HY Ιατρική Απεικόνιση. ιδάσκων: Kώστας Μαριάς

2 η δεκάδα θεµάτων επανάληψης

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

3 η δεκάδα θεµάτων επανάληψης

Συνδυαστική Απαρίθµηση Υπολογισµός (µε συνδυαστικά επιχειρήµατα) του πλήθους των διαφορετικών αποτελεσµάτων ενός «πειράµατος». «Πείραµα»: διαδικασία µ

4. Ο αισθητήρας (perceptron)

Επίλυση Γραµµικών Συστηµάτων

ΜΕΛΕΤΗ ΣΥΝΑΡΤΗΣΗΣ. Άρτια και περιττή συνάρτηση. Παράδειγµα: Η f ( x) Παράδειγµα: Η. x R και. Αλγεβρα Β Λυκείου Πετσιάς Φ.- Κάτσιος.

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

3.2 Η ΕΝΝΟΙΑ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ

4. Μέθοδοι αναγνώρισης ταξινοµητές µε επόπτη

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΜΗΧΑΝΙΚΗ ΠΕΤΡΕΛΑΙΩΝ ΚΕΦΑΛΑΙΟ 11 Μελέτες Περίπτωσης

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 1 ο : ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

ΠΛΗ111. Ανοιξη Μάθηµα 2 ο. Αλγόριθµοι και Αφηρηµένοι Τύποι εδοµένων. Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνείο Κρήτης

Transcript:

Μελέτη στην ανάλυση οµάδων και εφαρµογή σε δεδοµένα γονιδιακής έκφρασης καρκίνου από µικροσυστοιχίες Ιωάννης Αγ. Μαραζιώτης Εποπτεία: Καθ. Αναστάσιος Μπεζεριάνος

Βιοπληροφορική Βιολογικά δεδοµένα + Υπολογιστικές Μέθοδοι

Οι µικροσυστοιχίες παρέχουν ένα τρόπο µέτρησης της έκφρασης γονιδίων.

Μέτρηση Έκφρασης Γονιδίου Ιδέα: µέτρηση του ποσού του mrna για να διαπιστώσουµε πια γονίδια εκφράζονται (ή χρησιµοποιούνται ) από το κύτταρο.

Πειράµατα µε µικροσυστοιχίες cdna ιαφορετικοί ιστοί, ίδιος οργανισµός (εγκέφαλος συκώτι) Ίδιοι ιστοί, διαφορετικοί οργανισµοί Ίδιοι ιστοί, ίδιοι οργανισµοί (φυσιολογικοί καρκινικοί)

Υβριδισµός Ο υβριδισµός (Hybridization) εκµεταλλεύεται ένα ισχυρό χαρακτηριστικό του DNA, που είναι η συµπληρωµατικότητα των ακολουθιών των δυο ζωνών του. Το DNA µπορεί να επανασυναρµολογηθεί µε τέλεια πιστότοτητα από µια από τις διαχωριζόµενες ζώνες. Οι ζώνες µπορούν να διαχωρισθούν µε θέρµανση.

Υβριδισµός νουκλεονικού οξέος

Μικροσυστοιχίες cdna Κλώνοι cdna

Στάδια παραγωγής δεδοµένων από µικροσυστοιχία ΥΒΡΙ ΙΣΜΟΣ ΕΚΤΥΠΩΣΗ ΣΑΡΩΣΗ Πρόσθεση cdna από ισων κάθε ποσοτήτων Laser cdna γονίδιο δειγµάτων σε κάθε Ανιχνευτής στην spot µικροσυστοιχία

Ποσοτικοποίηση έκφρασης Για κάθε spot στο slide υπολογίζουµε: Κόκκινη ένταση = Κfg - Κbg (fg = foreground, bg = background) και Πράσινη ένταση = Πfg - Πbg Και τα συνδυάζουµε σε ένα λογαριθµικό (βάσης 2) λόγο Log2( Κόκκινη ένταση / Πράσινη ένταση)

εδοµένα Έκφρασης Γονιδίων Σε p γονίδια για n slides: το p είναι O(10,000), το n είναι O(10-100), αλλά αυξάνεται Γονίδια Slides slide 1 slide 2 slide 3 slide 4 slide 5 1 0.46 0.30 0.80 1.51 0.90... 2-0.10 0.49 0.24 0.06 0.46... 3 0.15 0.74 0.04 0.10 0.20... 4-0.45-1.03-0.79-0.56-0.32... 5-0.06 1.06 1.35 1.09-1.09... Επίπεδο έκφρασης του γονιδίου 5 στο slide 4 = Log 2 ( Κόκκινη ένταση / Πράσινη ένταση) Αυτές οι τιµές τυπικά εµφανίζονται σε κόκκινες (>0) κίτρινες (0) πράσινες (<0) κλίµακες.

Βιολογικές ερωτήσεις ιαφορετικές εκφράσεις γονιδίων Πρόβλεψη οµάδας δείγµατος κ.λ.π. Σχεδίαση πειράµατος Εκτίµηση Πείραµα µικροσυστοιχίας Ανάλυση εικόνας Κανονικοποίηση 16-bit TIFF αρχεία (Κfg, Κbg), (Πfg, Πbg) Κ, Π Testing Οµαδοποίηση ιάκριση Βιολογική επαλήθευση και εξέταση αποτελεσµάτων

Βασική διαφορά στα δεδοµένα Ανάγκη ύπαρξης νέων εργαλείων έρευνας µιας και οι κλασσικές βιοστατιστικές µέθοδοι δεν αρκουν για την αναλυση των νεων δεδοµένων.

Μορφή Αρχείων Σχήµα και διάταξη ενός τύπου αρχείου, όπως προκύπτει µετά την επεξεργασία εικόνας µιας µικροσυστοιχίας.

Σηµειογραφία i-οστή συντεταγµένη i=1..ν Γονίδιο 1 Γονίδιο 2... Γονίδιο Ν είγµα 1 DATA DATA DATA DATA είγµα 2 DATA DATA DATA DATA DATA DATA DATA DATA είγµα κ DATA DATA DATA DATA Σηµεία ιάσταση

Οµαδοποίηση Η οµαδοποίηση µπορεί να οριστεί ως η διαδικασία κατά την οποία ένα συνολο αντικειµένων διαχωρίζονται σε υποσύνολα βάση διάφορων οµοιοτήτων που παρουσιάζουν. Πρόκειται δηλαδή για προσπάθεια εύρεσης οµάδων µε µέλη που είναι όσο το δυνατόν όµοια µεταξύ τους και όσο το δυνατόν ανόµοια µε µέλη άλλης οµάδας. εδοµένου ενός συνόλου Σ, ν γονιδίων των οποίων έχουµε µετρήσει τα επίπεδα έκφρασης κατά µήκος κ συνθηκών δειγµάτων, πρεπει να ευρεθεί η καλύτερη κατάτµηση του Σ σε υποσύνολα τετοια ώστε κάθε υποσύνολο να περιέχει γονίδια των οποίων οι εκφράσεις είναι παρόµοιες µεταξύ τους.

Οµαδοποίηση µε και χωρίς επόπτη Ανάλυση µε και χωρίς επόπτη. Στην περίπτωση της εκµάθησης χωρίς επόπτη (αριστερά) δίνονται σηµεία δεδοµενων στον ν-διαστατό χώρο και προσπαθούµε να βρούµε τρόπους να οµαδοποιήσουµε τα σηµεία µε παρόµοια χαρακτηριστικά. Στην περίπτωση της εκµάθησης µε επόπτη (δεξιά) τα αντικείµενα ετικετοποιούνται και ο στόχος είναι η εύρεση ενός συνόλου κανόνων οµαδοποίησης να διακρίνουµε αναµεσα σε αυτά τα σηµεία όσο το δυνατόν καλύτερα.

εδοµένα Λευχαιµίας εδοµένα προερχόµενα από εργασία Golub et al. Περιέχει δυο βασικές οµάδες καρκίνου: 1. οξεία µυελική λευχαιµία (acute myelogenous leukemia AML) 2. οξεία λεµφοκυτταρική λευχαιµία (acute lemphocytic leukemia ALL) Γονίδια Αριθµός δειγµάτων εκπαίδευσης Αριθµός δειγµάτων ελέγχου 7129 38 34

εδοµένα Λεµφώµατος Τα δεδοµένα προέρχονται από την εργασία του G. Valentini Το σύνολο αποτελούνταν από 4 οµάδες καρκίνου λεµφώµατος και ένα συνολο δειγµάτων µε υγιή δείγµατα. Ο αριθµός των δειγµάτων καρκίνου ανέρχονταν σε 72 ενώ υγιή λεµφοειδή δείγµατα ανέρχονταν σε 24, συνολο 96. Τα δεδοµένα χωρίστηκαν σε: συνολο εκπαίδευσης και σύνολο ελέγχου. Γονίδια Αριθµός δειγµάτων εκπαίδευσης Αριθµός δειγµάτων ελέγχου 4200 48 48

εδοµένα πολυταξικού συνόλου εδοµένα προερχόµενα από την εργασια των Ramaswamy et al. Περιέχει 14 οµάδες καρκίνου Γονίδια Αριθµός δειγµάτων εκπαίδευσης Αριθµός δειγµάτων ελέγχου 16063 144 56

Μέλη Πολυταξικού συνόλου είκτης Τύπος Καρκίνου είγµατα εκπαίδευσης είγµατα ελέγχου 1 1. Στήθους 8 3 2 2. Προστάτη 8 2 3 3. Πνεύµονα 8 3 4 4. Παχέως εντέρου 8 5 5 5. Λέµφωµα 16 6 6 6. Ουροδόχου κύστης 8 3 7 7. Μελάνωµα 8 2 8 8. Μήτρας 8 2 9 9. Λευχαιµία 24 6 10 10. Νεφρικός 8 3 11 11. Πάγκρεας 8 3 12 12. Ωοθήκης 8 3 13 13. Μεσοθηλιακού ιστού 8 3 14 14.Κεντρικού Νευρικού Συστήµατος 16 4

Signal to Noise Ratio Η µέθοδος αυτή χρησιµοποιεί ένα µέτρο συσχετίσεως P(g, c) που δίνει έµφαση στον λόγο «σήµα προς - θόρυβο» (signal to noise) χρησιµοποιώντας τα γονίδια σαν µέσο πρόβλεψης. Έστω µε [µ1(g), σ1(g)] και [µ2(g), σ2(g)] ότι σηµειώνουµε τους µέσους όρους και τις τυπικές αποκλίσεις των επιπέδων έκφρασης του γονίδιου g για τα δείγµατα στην κλάση 1 και 2 αντίστοιχα. µ ( g) µ ( g) σ ( g) + σ ( g) 1 2 (, ) = P g c 1 2

Signal to Noise Ratio Μεγάλες τιµές P(g,c) προδίδει µια σηµαντική συσχέτιση ανάµεσα στην έκφραση του γονιδίου και την διάκριση κλάσης. Ενώ το πρόσηµο του P(g,c) θετικό ή αρνητικό αντιστοιχεί στο να εκφράζεται το γονίδιο g περισσότερο από την κλάση 1 από ότι στην κλάση 2. Αντίθετα µε τον τυπικό συντελεστή συσχέτισης του Pearson, το P(g,c) δεν περιορίζεται στο διάστηµα [-1, +1].

Συνδυαστικές Μέθοδοι Εφαρµόζεται όταν έχουµε περίπτωση δυικής οµαδοποίησης υο είναι πιο συχνά χρησιµοποιούµενες µέθοδοι: 1. One Versus All OVA (ένας έναντι όλων) 2. All Pairs AP (όλα τα ζεύγη)

Συνδυαστικές Μέθοδοι -OVA ηµιουργία κ (κ = αριθµός οµάδων) δυαδικών οµαδοποιητών, καθένας από τους οποίους διακρίνει µια οµάδα από όλες τις άλλες οµάδες συνδυασµένες µαζί. Για ένα δείγµα έλεγχου ο δυαδικός οµαδοποιητής δίνει ένα διάνυσµα διάστασης κ, f(x)=(f 1 (x),, f k (x)). Εάν το f i (x) είναι ένας πραγµατικός αριθµός (π.χ. προβλεπόµενη κλάση µε τιµή εµπιστοσύνης), τότε η µέθοδος πρόβλεψης βρίσκει το µέγιστο των fi(x) και αναθέτει το δείγµα στην αντίστοιχη ετικέτα τάξης: F(x) = argmax i f i (x).

Μέθοδοι Οµαδοποίησης που εξετάζονται στην εργασία Χωρίς επόπτη Με επόπτη Hierarchical Clustering Brain State in a Box Self Organizing Maps Multilayer Perceptron Support Vector Machines Weighted Voting Nearest Neighbors Probabilistic Neural Networks

Μέθοδοι Οµαδοποίησης

Self Organizing Maps

Περιγραφή SOM Πρόκειται για νευρωνικό δίκτυο δυο επιπέδων. Το πρώτο λέγεται επιπεδο εισόδου και δέχεται τις εισόδους. Το δεύτερο λέγεται επιπεδο Kohonen ιάταξη νευρώνων επιπέδου Kohonen: 1. Εξαγωνικό πλέγµα 2. Παραλληλόγραµµο πλέγµα.

Εκπαίδευση SOM Πριν την φάση της εκπαίδευσης αρχικοποιούνται τα βάρη. Τυχαία επιλογή ενός δείγµατος εισόδου. Εύρεση νευρώνα πλησιέστερα στο δείγµα. x x = min{ x m } c Ο νευρώνας αυτός λέγεται BMU. Μετακίνηση του BMU και της τοπολογικής γειτονιάς του πλησίον του δείγµατος. i

Μετακίνηση νευρώνων του SOM προς δείγµα Σχηµατική απεικόνιση της µετακίνησης του BMU και των τοπολογικών γειτόνων του προς το τρέχον δείγµα.

Εκπαίδευση SOM Κανόνας ενηµέρωσης για το διάνυσµα βάρους του νευρώνα i: mi t+ 1 = mi t + hci t x t mi t ( ) ( ) ( ) ( ) ( ) Ο πυρήνας γειτονίας σχηµατίζεται από την συνάρτηση γειτονίας και την συνάρτηση εκµάθησης: h t a t h r r t ( ) = ( ) (, ) ci c i

Συναρτήσεις γειτονιάς για SOM (α) Συνάρτηση Φυσαλίδας, (β) Συνάρτηση Gauss

Σύνοψη SOM Αρχή αυτοοργανούµενων χαρτών (Self Organizing Maps). Τα κεντροειδή ξεκινούν µε µια αυθαίρετη τοπολογία. Καθώς η µέθοδος προχωρά κάθε ένα κινείται προς ένα τυχαία επιλεγµένο γονίδιο κατά την διάρκεια κάθε επανάληψης. Μετά την συνέχιση της διαδικασίας για αρκετό χρόνο, κάθε κεντροειδές θα τοποθετηθεί (ιδανικά) στο κέντρο κάθε κλάσης.

Probabilistic Neural Networks Πιθανοκρατικά Νευρωνικά ίκτυα Νευρωνικό ίκτυο τυπου RBF, για χρηση σε προβλήµατα οµαδοποιησης Όταν παρουσιάζεται µια είσοδος, το πρώτο επιπεδο υπολογίζει τις αποστάσεις από του διανυσµατος εισόδου από όλα τα διανύσµατα εισόδου του συνόλου εκπαίδευσης και παράγει ένα διανυσµα του οποίου τα στοιχεία προσδιορίζουν το πόσο κοντά είναι το διανυσµα εισόδου στα διανύσµατα εισόδου εκπαίδευσης. Το δεύτερο επιπεδο αθροίζει αυτές τις τιµές, για κάθε οµάδα εισόδων προκείµενου να παράγει σαν έξοδο ένα διανυσµα πιθανοτήτων. Τελικά µια συνάρτηση ανταγωνισµού (compete) στην έξοδο του δεύτερου επιπέδου επιλέγει την µέγιστη από αυτές τις πιθανότητες και παράγει 1 για αυτή την κλάση και 0 για τις άλλες.

Support Vector Machines

Βασική ιδέα Αλγόριθµος δυικης οµαδοποίησης. εδοµένου ενός συνόλου σηµείων σε µια από δυο κλάσεις ένα SVM βρίσκει το υπερεπιπεδο που: 1. Αφήνει το µεγαλύτερο δυνατό κλάσµα σηµείων της ίδιας κλάσης στην ίδια µεριά 2. Μεγιστοποιεί την απόσταση της µιας από τις δυο κλάσεις από το υπερεπιπεδο. Εύρεση του βέλτιστου υπερεπιπέδου διαχωρισµού που ελαχιστοποιεί το ρίσκο της λάθος οµαδοποίησης των δειγµάτων εκπαίδευσης και των άγνωστων δειγµάτων ελέγχου.

Γραµµικά SVM εδοµένου ενός συνόλου σηµείων x i εr n κάθε σηµείο χ i σε µια από δυο κλάσεις µε ετικέτα y i ε {-1,1}. Ορισµός 1: Το συνολο Σ είναι γραµµικά διαχωριζόµενο εάν υπάρχει w τ.ω. n και ακόµη τετοιο ώστε: w R b R y w x + b i= 1, 2, K, N i ( ) 1 i Τα ζεύγη (w, b) ορίζουν ένα υπερεπίπεδο από την εξίσωση w x i + b = 0 που ονοµάζεται υπερεπίπεδο διαχωρισµου.η προσηµασµένη απόσταση d i ενός σηµείου x i από το επιπεδο διαχωρισµού (w,b) δίνεται από d i = w x + b i w x Σ Από τις δυο τελευταίες εξισώσεις προκύπτει για όλα τα ότι i yd i i 1 w

Γραµµικά SVM εδοµένου ενός γραµµικά διαχωριζόµενου συνόλου Σ, το βέλτιστο υπερεπίπεδο διαχωρισµού είναι το υπερεπιπεδο διαχωρισµού για το οποίο η απόσταση του πλησιέστερου σηµείου του Σ είναι µέγιστη

Support Vectors Αυτά τα διανύσµατα λέγονται support vectors γιατί είναι τα πλησιέστερα σηµεία από το υπερεπίπεδο διαχωρισµού και τα µόνα σηµεία του Σ που χρειάζονται για την κατασκευή αυτού του βέλτιστου υπερεπιπέδου. Το πρόβληµα τώρα της οµαδοποίησης ενός νέου σηµείου χ λύνεται εύκολα από το πρόσηµο n m της: Φ: R R

Μη γραµµικά Support Vector Machines Στην περίπτωση που δεν µπορεί να βρεθεί ένα υπερεπιπεδο διαχωρισµού που να οµαδοποιεί σωστά τα σηµεία τότε µπορούµε να βρούµε να ανεβούµε σε ένα χώρο υψηλότερων διαστάσεων όπου είναι πολύ πιθανό να υπάρχει τέτοιο επιπεδο διαχωρισµού. Φ: R 2 3 R ( 2 2 ) 1 2 1 2 1 2 x= ( x, x ) x' = x, x, x x Γίνεται δηλαδη χαρτογράφηση των σηµείων δεδοµένων από τον χώρο εισόδου R n σε ένα χώρο µεγαλύτερης διάστασης R m (m > n) ο οποιός λέγεται χώρος χαρακτηριστικών, µε χρήση µιας συνάρτησης πυρήνα Φ. n Φ: R R m

Πειραµατικά Αποτελέσµατα

Ιεραρχική Οµαδοποίηση στα εδοµένα Λευχαιµίας Εφαρµογή στο σύνολο δεδοµένων εκπαίδευσης Εφαρµογή στο σύνολο δεδοµένων ελέγχου Γενικά δεν παρατηρείται καλή απόδοση οµαδοποίησης. Παρατηρούνται καλύτερα αποτελέσµατα στα δεδοµένα εκπαίδευσης, από ότι στα δεδοµένα ελέγχου.

Weighted Voting σε δεδοµένα Λευχαιµίας Κάθετος άξονας εγκυρότητα πρόβλεψης από τον αλγόριθµο Η αριστερή στήλη αναφέρεται στα δεδοµένα εκπαίδευσης µε την µέθοδο της επαλήθευσης µε κατακράτηση ενός Η δεξιά στήλη αναφέρεται στα δεδοµένα ελέγχου Κάτω από την τιµή 0.3 η πρόβλεψη θεωρείται ανασφαλής και απορρίπτεται εδοµένα Αριθµός δειγµάτων Αριθµός γονιδίων Αβέβαια δείγµατα Λάθη Εκπαίδευσης 38 50 2 0 Ελέγχου 34 50 5 0

Εφαρµογή SOM στα δεδοµένα Λευχαιµίας Εφαρµογή στα δεδοµένα εκπαίδευσης Εφαρµογή στα δεδοµένα εκπαίδευσης είγµατα AML είγµατα ALL είγµατα AML είγµατα ALL Τ- κυττάρου είγµατα ALL Β - κυττάρου

SVM στα δεδοµένα Λευχαιµίας Ο παρακάτω πίνακας απεικονίζει τα αποτελέσµατα οµαδοποίησης του SVM για διαφορετικούς αριθµούς γονιδιων στα δεδοµένα ελέγχου. Αριθµός γονιδίων 7129 1000 500 250 50 Αριθµός σφαλµάτων 2 0 1 0 2

SVM στα δεδοµένα Λευχαιµίας Κάθετος άξονας, απόσταση από οριο διαχωρισµού υπερεπιπέδου Αριθµός δείγµατος 34 δείγµατα 7129 γονίδια 2 σφάλµατα AML (*), ALL (+), Σφάλµατα (χ)

Εφαρµογή PNN στα δεδοµένα Λεµφώµατος Για αυτό το πείραµα έγινε διαχωρισµός των δεδοµένων σε δυο συνολα ένα εκπαίδευσης και ένα ελέγχου. Μπλε χρώµα: σωστές προβλέψεις. Κόκκινο χρώµα: λανθασµένες προβλέψεις Η επιλογη των γονιδίων εγινε βάση της µεθόδου s2n. Καλύτερα αποτελέσµατα επιτέυχθησαν µε χρήση 2000 γονιδίων. # Χαρακτηριστικών spread Ακρίβεια Ευαισθησία 2000 28 93% 100% 800 4 87,4% 100% Όλα - 4096 28 79,1% 100%

HC στα δεδοµένα πολυταξικού Χρωµατική αναπαράσταση οµάδων. Παρατηρούµε ότι η µέθοδος δεν κατόρθωσε να αναδείξει την συνάφεια αναµεσα στις οµάδες.

SOM στο πολυταξικό 5x5 SOM Εφαρµογή στα 144 δειγµατα εκπαίδευσης. Χρήση και των 16063 γονιδίων. Χρωµατική αναπαράσταση οµάδων.

Πρόβλεψη βάση απόστασης από το υπερεπίπεδο των SVM Αποτελέσµατα των 14 SVM οµαδοποιητών σε 2 δείγµατα από τα δεδοµένα ελέγχου.

Αποτελέσµατα Αλγορίθµων για το Αριθµός Χαρακτηριστικών 20 40 50 100 200 Όλα 16063 πολυταξικό σύνολο WV - OVA 51 45 44 48 48 - knn - OVA 52 49 48 39 40 - SVM - OVA - - - - - 27 Πίνακας λάθος οµαδοποιήσεων για τις µεθόδους Support Vector Machine, Nearest Neighbors, Weighted Voting που έγινε στα δεδοµένα εκπαίδευσης µε την τεχνική της επαλήθευσης µε κράτηση ενός, όπου αποτελούνταν από 144 δειγµατα. Αριθµός Χαρακτηριστικών 20 40 50 100 200 WV - OVA 23 24 26 25 25 knn - OVA 18 22 18 21 17 SVM - OVA - - - - - Πίνακας λάθος οµαδοποιήσεων για τις µεθόδους Support Vector Machine, Nearest Neighbors, Weighted Voting που έγινε στα δεδοµένα ελέγχου όπου αποτελούνταν από 46 δειγµατα. Όλα 16063 - - 10

Συµπεράσµατα Από τις µεθόδους εκµάθησης χωρίς επόπτη καλύτερα αποτελέσµατα εµφανίζει η µέθοδος SOM. Από τις µεθόδους οµαδοποίησης µε επόπτη καλύτερα αποτελέσµατα εµφανίζει η µέθοδος SVM. Σαφώς καλύτερα αποτελέσµατα λαµβάνουµε από τις µεθόδους µε επόπτη.