ιατρικά απεικονιστικά συστήματα

Σχετικά έγγραφα
Επιλογή χαρακτηριστικών

Αναγνώριση Προτύπων Ι

ΕΝΔΕΙΚΤΙΚΑ ΘΕΜΑΤΑ ΓΙΑ ΤΟ ΜΑΘΗΜΑ «ΥΠΟΛΟΓΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΚΑΙ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ»

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μεθοδολογίες Αξιοποίησης Δεδομένων

4.3. Γραµµικοί ταξινοµητές

Σύστημα επεξεργασίας, ανάλυσης και ταξινόμησης εικόνων δισδιάστατης ηλεκτροφόρησης με τεχνικές αναγνώρισης προτύπων

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Αναγνώριση Προτύπων Ι

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Πληροφοριακά Συστήματα Διοίκησης

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Digital Image Processing

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

E[ (x- ) ]= trace[(x-x)(x- ) ]

Αναγνώριση Προτύπων Ι

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΠΕΡΙΕΧΟΜΕΝΑ. Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

ΟΜΑΔΟΠΟΙΗΣΗ ΑΡΙΘΜΗΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Εισαγωγή στη Στατιστική

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Διαδικασιακός Προγραμματισμός

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

HMY 795: Αναγνώριση Προτύπων

Η αβεβαιότητα στη μέτρηση.

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

5.1 Δραστηριότητα: Εισαγωγή στο ορισμένο ολοκλήρωμα

Υπολογιστική Ανάλυση παθολογιών γονάτου με την χρήση εικόνων MRI

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

HMY 795: Αναγνώριση Προτύπων

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ενδεικτικές Ερωτήσεις Θεωρίας

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Το μοντέλο Perceptron

Σύστημα αυτόματης διάγνωσης ιστοπαθολογικών εικόνων μικροσκοπίας.

Είδη Μεταβλητών. κλίµακα µέτρησης

ΠΟΣΟΤΙΚΗ ΓΕΝΕΤΙΚΗ 03. ΜΕΣΗ ΤΙΜΗ & ΔΙΑΚΥΜΑΝΣΗ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

E [ -x ^2 z] = E[x z]

Πανεπιστήμιο Θεσσαλίας. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Χωροταξίας Πολεοδομίας και Περιφερειακής Ανάπτυξης

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

Ομαδοποίηση ΙΙ (Clustering)

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Γραµµικοί Ταξινοµητές

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Χειρισμός Ανάλυση Δεδομένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Τηλεπισκόπηση - Φωτοερμηνεία Ενότητα 11: Είδη Ταξινομήσεων Επιβλεπόμενες Ταξινομήσεις Ακρίβειες.

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Υποβοήθηση Διάγνωσης Καρκίνου του Μαστού με Μέθοδο Ανάκτησης Εικόνας Βάσει Περιεχομένου

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Κλινικές Μελέτες. Αναπληρώτρια Καθηγήτρια Ιατρικής Σχολής Πανεπιστημίου Αθηνών

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

HMY 795: Αναγνώριση Προτύπων

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

ΟΔΗΓΙΕΣ ΑΥΤΟΔΙΟΡΘΩΣΗΣ +ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΕΞΕΤΑΣΕΩΝ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Τυχαία μεταβλητή (τ.μ.)

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Transcript:

ΤΕΙ Αθήνας Τμήμα Μηχανικών Βιοϊατρικής Τεχνολογίας Τ.Ε. Αναγνώριση προτύπων με εφαρμογές σε ιατρικά απεικονιστικά συστήματα Ι. Καλατζής Επίκουρος Καθηγητής 2017

ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ - ΟΡΙΣΜΟΙ 3 Ανάλυση σήματος και εικόνας 3 Αναγνώριση προτύπων 3 Η ανάγκη για συστήματα αναγνώρισης προτύπων στην ιατρική 3 Χαρακτηριστικά 4 Πρότυπα 4 Κλάσεις 5 Ταξινομητές 5 Σύστημα αναγνώρισης προτύπων 5 Παράδειγμα εφαρμογής συστήματος αναγνώρισης προτύπων 5 ΣΧΕΔΙΑΣΗ ΕΝΟΣ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΤΥΠΩΝ 7 Χαρακτηριστικά υφής ψηφιακών εικόνων (textural features) 7 Επιλογή χαρακτηριστικών 8 Επιλογή χαρακτηριστικών (feature selection) 8 Εκτίμηση χαρακτηριστικών (feature evaluation) 10 Ταξινομητές 11 Κανονικοποίηση δεδομένων 12 ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ 12 ΒΙΒΛΙΟΓΡΑΦΙΑ 13 ΕΡΩΤΗΣΕΙΣ 14 Ι. Καλατζής: Αναγνώριση προτύπων 2

ΕΙΣΑΓΩΓΗ - ΟΡΙΣΜΟΙ Ανάλυση σήματος και εικόνας Ανάλυση σήματος ή εικόνας (signal and image analysis) είναι η εξαγωγή πληροφοριών από το σήμα ή την εικόνα. Με άλλα λόγια, η ανάλυση σήματος ή εικόνας είναι μια διαδικασία με είσοδο το σήμα ή την εικόνα και έξοδο αριθμητικές ποσότητες που έχουν υπολογιστεί από αυτά. Η ανάλυση σήματος ή εικόνας στην ιατρική και στη βιολογία γίνεται με σκοπό την εξαγωγή χρήσιμων πληροφοριών από τα δεδομένα αυτά, ώστε να είναι δυνατή η εξαγωγή μιας απόφασης, χωρίς να γίνεται σύγχυση με άλλες μη χρήσιμες για τη συγκεκριμένη εφαρμογή πληροφορίες, που περιέχονται στο σήμα ή την εικόνα. Αναγνώριση προτύπων Αναγνώριση προτύπων (pattern recognition) είναι η διαδικασία μέσω της οποίας ένα αντικείμενο ταξινομείται αυτόματα σε μία από δύο ή περισσότερες κατηγορίες (κλάσεις). Αν οι κατηγορίες δεν είναι γνωστές εκ των προτέρων, αλλά δημιουργούνται κατά τη διάρκεια της διαδικασίας, τότε η διαδικασία ονομάζεται μη εποπτευόμενη αναγνώριση προτύπων (supervised pattern recognition) ή ομαδοποίηση (συσταδοποίηση, clustering). Αν οι κατηγορίες είναι γνωστές εκ των προτέρων, η διαδικασία ονομάζεται εποπτευόμενη αναγνώριση προτύπων (supervised pattern recognition) ή ταξινόμηση (κατηγοριοποίηση, classification). Στη συνέχεια θα ασχοληθούμε με την εποπτευόμενη αναγνώριση προτύπων η οποία, για λόγους συντομίας, θα αναφέρεται απλώς ως "αναγνώριση προτύπων" ή "ταξινόμηση". Ο στόχος της εποπτευόμενης αναγνώρισης προτύπων είναι η δημιουργία ενός λογισμικού συστήματος με το οποίο θα μπορεί να γίνεται ταξινόμηση ενός αγνώστου αντικειμένου σε μια από δύο ή περισσότερες γνωστές κατηγορίες. Η διαδικασία εύρεσης των κατάλληλων παραμέτρων του συστήματος αναγνώρισης προτύπων, για όσο το δυνατόν πιο αξιόπιστη ταξινόμηση, ονομάζεται εκπαίδευση του συστήματος. Η ανάγκη για συστήματα αναγνώρισης προτύπων στην ιατρική Τα συστήματα αναγνώρισης προτύπων στην ιατρική είναι προγράμματα λογισμικού που εγκαθίστανται σε ιατρικά μηχανήματα (π.χ. ψηφιακούς μαστογράφους) με σκοπό την υποβοήθηση σε περιπτώσεις δύσκολης διαφοροδιάγνωσης. Τα συστήματα αυτά έχουν «εκπαιδευτεί» με μια σειρά εικόνες που είναι γνωστό ότι ανήκουν σε συγκεκριμένες κατηγορίες παθήσεων ή μη. Στη συνέχεια, με τη λήψη μιας νέας εικόνας, που δεν είναι γνωστό σε ποια κατηγορία ανήκει, το σύστημα μπορεί να αποφασίσει πού ταξινομείται, καθώς και την πιθανότητα ορθής ταξινόμησης. Ι. Καλατζής: Αναγνώριση προτύπων 3

Τα συστήματα υποβοήθησης διάγνωσης με τη βοήθεια υπολογιστή (computer aided diagnosis systems, CAD systems) καλούνται να προσφέρουν μια δεύτερη γνώμη στον κλινικό ιατρό, ο οποίος είναι και ο μοναδικός υπεύθυνος για τη λήψη της τελικής απόφασης. Ένα σύστημα υποβοήθησης διάγνωσης έχει το πλεονέκτημα ότι η απόφασή του είναι αντικειμενική. Η εκτίμηση του ιατρού περιλαμβάνει πάντα ένα ποσοστό αβεβαιότητας στη λήψη της απόφασης, που οφείλεται είτε στη μεταβλητότητα της απόφασης μεταξύ παρατηρητών (interobserver variability), όπως π.χ. όταν ένας ασθενής εξεταστεί από πολλούς ιατρούς, είτε στην αβεβαιότητα της απόφασης από τον ίδιο παρατηρητή (intra-observer variability), όπως π.χ. όταν ο ασθενής εξεταστεί πολλές φορές από τον ίδιο ιατρό. Ένα σύστημα υποβοήθησης διάγνωσης χρησιμοποιείται μόνο σε περίπτωση που είναι γνωστό ότι η πιθανότητα εσφαλμένης ταξινόμησης από αυτό είναι μικρότερη από την πιθανότητα εσφαλμένης διάγνωση από τον ιατρό. Η εύρεση των κατάλληλων παραμέτρων για τη λειτουργία ενός συστήματος CAD καθώς και ο υπολογισμός του αναμενόμενου ποσοστού ορθής ταξινόμησης γίνεται κατά τη διαδικασία της «εκπαίδευσης» ή «σχεδιασμού» του συστήματος. Χαρακτηριστικά Χαρακτηριστικό (feature) ονομάζεται μια ιδιότητα ενός αντικειμένου. Στη συνέχεια θα ασχοληθούμε μόνο με ποσοτικά χαρακτηριστικά που εξάγονται από ψηφιακές ιατρικές εικόνες ή σήματα. Παραδείγματα χαρακτηριστικών εικόνων και σημάτων: Η μέση τιμή και η τυπική απόκλιση των τόνων του γκρι μιας ψηφιακής εικόνας. Η ελλειπτικότητα και ο λόγος περιμέτρου προς εμβαδόν μιας περιοχής ενδιαφέροντος σε μια εικόνα. Οι συχνότητες από τις οποίες αποτελείται ένα διακριτό σήμα. Η μέγιστη τιμή ενός σήματος καθώς και η χρονική στιγμή κατά την οποία αυτό εμφανίζεται. Πρότυπα Πρότυπο (pattern) ονομάζεται ένα σύνολο χαρακτηριστικών. Σε κάθε συγκεκριμένη εφαρμογή, όλα τα πρότυπα αποτελούνται από τα ίδια χαρακτηριστικά, με διαφορετικές τιμές προφανώς για κάθε πρότυπο. Για παράδειγμα, διαθέτοντας ένα σύνολο εικόνων, εξάγουμε από κάθε εικόνα τη μέση τιμή και την τυπική απόκλιση των τόνων του γκρι. Κάθε εικόνα πλέον χαρακτηρίζεται από το πρότυπό της, το οποίο αποτελείται από ένα ζεύγος τιμών, τη μέση τιμή και την τυπική απόκλιση των τόνων του γκρι των εικονοστοιχείων της. Ι. Καλατζής: Αναγνώριση προτύπων 4

Κλάσεις Κλάση (class) ονομάζεται ένα σύνολο προτύπων. Στην εποπτευόμενη αναγνώριση προτύπων οι κλάσεις είναι γνωστές εκ των προτέρων. Αυτό σημαίνει ότι τα αντικείμενα από τα οποία έχουν δημιουργηθεί τα πρότυπα των κλάσεων έχουν εκ των προτέρων κατηγοριοποιηθεί με βάση έναν θεωρούμενο αδιαμφισβήτητο κανόνα (golden standard). Ταξινομητές Ταξινομητής (classifier) είναι ένας αλγόριθμος, συχνά υλοποιούμενος σε λογισμικό ηλεκτρονικού υπολογιστή, με βάση τον οποίο γίνεται ανάθεση ενός προτύπου σε μια από δύο ή περισσότερες κλάσεις. Σύστημα αναγνώρισης προτύπων Ένα σύστημα αναγνώρισης προτύπων περιλαμβάνει δύο φάσεις: Φάση εκπαίδευσης ή σχεδίασης, κατά την οποία γίνεται η επιλογή των κατάλληλων χαρακτηριστικών και η ρύθμιση των παραμέτρων του ταξινομητή με βάση πρότυπα που ανήκουν σε δύο ή περισσότερες γνωστές κατηγορίες, ώστε να είναι όσο το δυνατόν πιο αξιόπιστη η ταξινόμηση στη συνέχεια ενός αγνώστου προτύπου. Φάση γενίκευσης ή ταξινόμησης, κατά την οποία τα άγνωστα πρότυπα ταξινομούνται από το σχεδιασμένο σύστημα σε μια από τις γνωστές κατηγορίες. Παράδειγμα εφαρμογής συστήματος αναγνώρισης προτύπων Ένα απλό παράδειγμα για την κατανόηση των ανωτέρω είναι το ακόλουθο: Το ιατρικό πρόβλημα: Έστω ότι διαθέτουμε αρχικά μια ομάδα ασθενών οι οποίοι έχουν αναπτύξει κίρρωση του ήπατος (παθολογική ομάδα, 1 η κλάση), καθώς μια ομάδα φυσιολογικών μαρτύρων οι οποίοι δεν έχουν αναπτύξει κίρρωση του ήπατος (φυσιολογική ομάδα, 2 η κλάση). Έστω ότι η διάγνωση ή μη της κίρρωσης του ήπατος έχει γίνει με βιοψία, η οποία έστω ότι στη συγκεκριμένη περίπτωση είναι η καλύτερη μέθοδος και στη συνέχεια θεωρείται αδιαμφισβήτητη (golden standard). Το πρόβλημα είναι ότι η βιοψία είναι μια επεμβατική μέθοδος και θα ήταν προτιμητέο να υπήρχε μια διαφορετική μέθοδος για τη διάγνωση της κίρρωσης του ήπατος, χωρίς βιοψία. Τέτοιες μέθοδοι είναι οι απεικονιστικές μέθοδοι στην ιατρική, π.χ. μέσω υπερήχων. Η διάγνωση όμως που γίνεται μέσω των υπερηχογραφικών εικόνων έχει μικρότερη πιθανότητα ορθής απόφασης από αυτήν της βιοψίας, ενώ επίσης βασίζεται στην υποκειμενική γνώμη του ιατρού. Για την κατασκευή λοιπόν ενός αντικειμενικού συστήματος διάκρισης μεταξύ των δύο κατηγοριών, γίνονται τα εξής: Ι. Καλατζής: Αναγνώριση προτύπων 5

Σχεδίαση του συστήματος αναγνώρισης προτύπων: Λήψη εικόνων: Από κάθε ασθενή η φυσιολογικό μάρτυρα λαμβάνεται η αντίστοιχη εικόνα υπερήχου. Στη συνέχεια, ο ιατρός επιλέγει σε κάθε εικόνα μια περιοχή ενδιαφέροντος (region of interest, ROI), η οποία βρίσκεται σε ένα διαγνωστικό τμήμα του οργάνου (ήπατος). Εξαγωγή χαρακτηριστικών: Στη συνέχεια, από κάθε περιοχή ενδιαφέροντος εξάγονται μια σειρά από χαρακτηριστικά, π.χ. υπολογίζοντας τη μέση τιμή και την τυπική απόκλιση των τόνων του γκρι της περιοχής μέσα στην εικόνα. Δημιουργία προτύπων: Κάθε ζεύγος τιμών των δύο χαρακτηριστικών, "μέση τιμή" και "τυπική απόκλιση", αποτελεί πλέον το πρότυπο της κάθε εικόνας, δηλαδή αποτελεί την ομάδα χαρακτηριστικών με τις χρήσιμες πληροφορίες από κάθε εικόνα. Δημιουργία κλάσεων: Ομαδοποιώντας τα πρότυπα (δηλαδή τα ζεύγη τιμών μέσης τιμής και τυπικής απόκλισης) που προέρχονται από κάθε διαφορετική κατηγορία (παθολογικοί, φυσιολογικοί) δημιουργούμε δύο κλάσεις προτύπων, δηλαδή τεχνικά δύο πίνακες αριθμών με δύο στήλες (η πρώτη με τις μέσες τιμές και η δεύτερη με τις τυπικές αποκλίσεις) και με τόσες γραμμές όσες οι εικόνες κάθε κατηγορίας. Με τον τρόπο αυτό, κάθε γραμμή αποτελείται από τις τιμές της μέσης τιμής και της τυπικής απόκλισης κάθε περιοχής ενδιαφέροντος, η οποία υπενθυμίζεται ότι προέρχεται από την αντίστοιχη εικόνα του ασθενούς ή του φυσιολογικού μάρτυρα. Υπολογισμός βέλτιστων παραμέτρων διαχωρισμού κλάσεων: Στη συνέχεια, υπολογίζεται αν οι δύο κλάσεις διαχωρίζονται καλύτερα με βάση τη μέση τιμή, ή την τυπική απόκλιση, ή το συνδυασμό τους. Ταυτόχρονα, γίνεται και ο υπολογισμός των παραμέτρων του ταξινομητή για το βέλτιστο διαχωρισμό των κλάσεων. Συνοπτικά: Διαθέτοντας αρχικά δύο κατηγορίες εικόνων, δημιουργούμε δύο αντίστοιχες κλάσεις προτύπων, που κάθε μία αποτελείται από τις ομάδες χαρακτηριστικών κάθε εικόνας. Στη συνέχεια, βρίσκουμε ποιο ή ποια χαρακτηριστικά διαχωρίζει καλύτερα τις δύο κλάσεις και ποιες είναι οι βέλτιστες παράμετροι ενός ταξινομητή για περισσότερο αξιόπιστη ταξινόμηση. Ταξινόμηση αγνώστων περιστατικών: Με την εισαγωγή ενός νέου περιστατικού προς ταξινόμηση: Λαμβάνεται η υπερηχογραφική εικόνα του άγνωστου περιστατικού. Από την κατάλληλη περιοχή ενδιαφέροντος της εικόνας, υπολογίζονται τα βέλτιστα μόνο χαρακτηριστικά, όπως βρέθηκαν κατά τη φάση σχεδίασης, και σχηματίζεται το άγνωστο πρότυπο. Το άγνωστο πρότυπο εισάγεται στον ταξινομητή ο οποίος, χρησιμοποιώντας τις παραμέτρους όπως υπολογίστηκαν προηγουμένως, αποφασίζει για την κλάση στην οποία ανήκει. Ι. Καλατζής: Αναγνώριση προτύπων 6

ΣΧΕΔΙΑΣΗ ΕΝΟΣ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΤΥΠΩΝ Τα στάδια της φάσης σχεδίασης ενός συστήματος αναγνώριση προτύπων είναι τα ακόλουθα: Εξαγωγή χαρακτηριστικών: Υπολογισμός χαρακτηριστικών από ένα σήμα ή μια εικόνα. Στη συνέχεια θα ασχοληθούμε μόνο με χαρακτηριστικά υφής ψηφιακών εικόνων που χρησιμοποιούνται γενικά στην ιατρική. Επιλογή χαρακτηριστικών: Εύρεση των χαρακτηριστικών και των συνδυασμών τους έτσι ώστε να διαχωρίζονται καλύτερα οι κλάσεις. Αξιολόγηση συστήματος: Υπολογισμός της ικανότητας του συστήματος στην ταξινόμηση αγνώστων προτύπων. Χαρακτηριστικά υφής ψηφιακών εικόνων (textural features) Μια ψηφιακή εικόνα αποθηκεύεται στη μνήμη του υπολογιστή ως ένας αριθμητικός πίνακας, κάθε τιμή του οποίου σχετίζεται με τη φωτεινότητα κάθε εικονοστοιχείου της εικόνας. Στην περίπτωση εικόνων τόνων του γκρι, οι τιμές αυτές συνήθως κυμαίνονται από 0 (μαύρο) έως 255 (λευκό), με τις ενδιάμεσες τιμές να αντιστοιχούν σε περισσότερο ή λιγότερο έντονους τόνους του γκρι. Στατιστικά χαρακτηριστικά υφής 1 ης τάξης: Τα χαρακτηριστικά αυτά υπολογίζονται απ ευθείας από τον πίνακα της εικόνας (ή, ισοδύναμα, από το ιστόγραμμα των τόνων του γκρι της εικόνας). 1. Μέση τιμή (Mean value) 2. Τυπική απόκλιση (Standard deviation) i i j j g( i, j) N g( i, j) N 2 3. Λοξότητα (Skewness) 4. Κυρτότητα (Kurtosis) 3 g( i, j) 1 i j s 3 N 4 g( i, j) 1 i j k 4 N Στις παραπάνω σχέσεις g(i,j) είναι ο τόνος του γκρι του εικονοστοιχείου (i,j) και Ν το πλήθος των εικονοστοιχείων. Ι. Καλατζής: Αναγνώριση προτύπων 7

Στατιστικά χαρακτηριστικά υφής 2 ης τάξης: Γενικά, η υφή μιας ψηφιακής εικόνας σχετίζεται (α) με τη συχνότητα εμφάνισης κάθε τόνου του γκρι στην εικόνα (ιστόγραμμα των τόνων του γκρι) και (β) με την κατανομή τους μέσα στην εικόνα. Η συχνότητα εμφάνισης κάθε τόνου του γκρι στην εικόνα περιγράφεται απ ευθείας από τα χαρακτηριστικά υφής 1 ης τάξης. Η κατανομή των τόνων του γκρι μέσα στην εικόνα εξαρτάται από τη συσχέτιση των τόνων του γκρι γειτονικών εικονοστοιχείων. Για την περιγραφή αυτής της συσχέτισης χρησιμοποιούνται ενδιάμεσοι πίνακες, από τους οποίους υπολογίζονται τα στατιστικά χαρακτηριστικά 2 ης τάξης. Οι ενδιάμεσοι αυτοί πίνακες σχετίζονται είτε (α) με τη συχνότητα εμφάνισης γειτονικών ζευγών τόνων του γκρι, είτε (β) με το πλήθος συνεχόμενων εικονοστοιχείων με ίδιο τόνο του γκρι. Επιλογή χαρακτηριστικών Μετά τον υπολογισμό των χαρακτηριστικών, τη δημιουργία των προτύπων και στη συνέχεια των κλάσεων, πρέπει να επιλεχθεί ο συνδυασμός των χαρακτηριστικών για τον οποίο αναμένεται το σύστημα ταξινόμησης να οδηγήσει σε μεγαλύτερο ποσοστό επιτυχίας σε άγνωστα δεδομένα. Για το σκοπό αυτό, ερευνώνται διάφοροι συνδυασμοί χαρακτηριστικών, και για κάθε έναν εκτιμάται η απόδοσή του ώστε να επιλεχθεί ο καλύτερος. Επιλογή χαρακτηριστικών (feature selection) Στη συνέχεια περιγράφονται δύο από τις μεθόδους έρευνας συνδυασμών χαρακτηριστικών: Η βέλτιστη θεωρητικά μέθοδος της εξαντλητικής έρευνας, η οποία όμως έχει μεγάλες απαιτήσεις υπολογιστικού χρόνου, καθώς και η υποβέλτιστη μέθοδος της εμπρόσθιας σειριακής επιλογής. Μέθοδος εξαντλητικής έρευνας (exhaustive search) Είναι φανερό ότι η βέλτιστη μέθοδος για να βρεθεί ο καλύτερος συνδυασμός χαρακτηριστικών είναι, κατ αρχάς, να εξεταστούν όλοι οι δυνατοί συνδυασμοί (μέθοδος εξαντλητικής έρευνας). Έστω n το πλήθος χαρακτηριστικά. Το πλήθος των δυνατών συνδυασμών τους ανά k δίνεται από τον τύπο: ( n k ) = n! k! (n k)! Για παράδειγμα, στην περίπτωση τεσσάρων χαρακτηριστικών (έστω 1, 2, 3, 4), το πλήθος των δυνατών συνδυασμών τους ανά δύο είναι: ( 4 2 ) = 4! 2! (4 2)! = 6 Ι. Καλατζής: Αναγνώριση προτύπων 8

Οι συνδυασμοί αυτοί είναι οι: 12, 13, 14, 23, 24, 34 Σύμφωνα με τη μέθοδο της εξαντλητικής έρευνας, πρέπει να ερευνηθούν όλοι οι δυνατοί συνδυασμοί των n χαρακτηριστικών ανά-1, ανά-2 κλπ έως ανά-n (ο τελευταίος μοναδικός συνδυασμός με όλα τα χαρακτηριστικά). Για παράδειγμα, στην περίπτωση τεσσάρων χαρακτηριστικών (έστω 1, 2, 3, 4), το πλήθος όλων των δυνατών συνδυασμών είναι 15, και είναι οι εξής: Ανά-1 (μήκος διανύσματος χαρακτηριστικών = 1): 1, 2, 3, 4 Ανά-2 (μήκος διανύσματος χαρακτηριστικών = 2): 12, 13, 14, 23, 24, 34 Ανά 3 (μήκος διανύσματος χαρακτηριστικών = 3): 123, 124, 134, 234 Ανά-4 (μήκος διανύσματος χαρακτηριστικών = 4): 1234 Στη γενική περίπτωση, το πλήθος όλων των δυνατών συνδυασμών χαρακτηριστικών δίνεται από τη σχέση: n n ( n k ) = n! k! (n k)! = 2n 1 k=1 k=1 Στην περίπτωση μεγάλων n και k το πλήθος των δυνατών συνδυασμών αυξάνεται πολύ γρήγορα. Για παράδειγμα, οι δυνατοί συνδυασμοί των 10 χαρακτηριστικών ανά 3 είναι 120, ενώ των 20 ανά 7 είναι 77520. Για το λόγο αυτό, η μέθοδος εξαντλητικής έρευνας σπάνια χρησιμοποιείται σε πραγματικές εφαρμογές με μεγάλο πλήθος χαρακτηριστικών. Μέθοδος εμπρόσθιας σειριακής επιλογής (sequential forward selection, SFS) Σύμφωνα με τη μέθοδο της εμπρόσθιας σειριακής επιλογής, αρχικά εξετάζεται κάθε χαρακτηριστικό ξεχωριστά (όλοι οι ανά-1 συνδυασμοί). Στη συνέχεια, εξετάζονται όλοι οι ανά- 2 συνδυασμοί που περιέχουν το καλύτερο χαρακτηριστικό του 1ου βήματος. Η διαδικασία συνεχίζεται εξετάζοντας σε κάθε επόμενο βήμα μόνο τους συνδυασμούς που περιέχουν τα χαρακτηριστικά που επιλέχθηκαν στο προηγούμενο βήμα. Για παράδειγμα, στην περίπτωση τεσσάρων χαρακτηριστικών (έστω 1, 2, 3, 4), η διαδικασία είναι ως εξής (σε αγκύλες έστω ο καλύτερος συνδυασμός κάθε βήματος): Βήμα 1, όλοι οι ανά-1 συνδυασμοί: 1, 2, [3], 4 Βήμα 2, μόνο οι ανά-2 που περιέχουν το 3: 13, 23, [34] Βήμα 3, μόνο οι ανά-3 που περιέχουν το συνδυασμό 34: [134], 234 Βήμα 4, ο μοναδικός συνδυασμός με όλα τα χαρακτηριστικά: [1234] Ι. Καλατζής: Αναγνώριση προτύπων 9

Παρατηρούμε ότι με τη μέθοδο SFS στην περίπτωση των 4 χαρακτηριστικών εξετάστηκαν 10 συνδυασμοί (ενώ με τη μέθοδο της εξαντλητικής έρευνας είχαν εξεταστεί 15 και βέβαια στην περίπτωση μεγάλου πλήθους χαρακτηριστικών η διαφορά είναι πολύ μεγαλύτερη, π.χ. για 10 χαρακτηριστικά θα εξεταστούν 55 αντί 1023 συνδυασμοί). Αν n είναι το πλήθος των χαρακτηριστικών και k το πλήθος των χαρακτηριστικών στο τελικό βήμα, τότε το πλήθος των συνδυασμών που εξετάζονται ισούται με: k n 1 k (k 1) 2 Το πλήθος αυτό είναι σημαντικά μικρότερο από το πλήθος των συνδυασμών κατά την πλήρη έρευνα. Παρόμοια μέθοδος είναι η μέθοδος οπίσθιας σειριακής επιλογής (sequential backward selection, SBS), η οποία λειτουργεί αντιστρόφως. Εκτίμηση χαρακτηριστικών (feature evaluation) Μέθοδος επαναϋποκατάστασης (resubstitution) Σύμφωνα με τη μέθοδο επαναϋποκατάστασης, η εκτίμηση της απόδοσης κάθε συνδυασμού χαρακτηριστικών γίνεται με τα ίδια πρότυπα με τα οποία γίνεται η εκπαίδευση του ταξινομητή. Για το λόγο αυτό, το ποσοστό επιτυχούς ταξινόμησης των προτύπων αυτών είναι γενικά υψηλό (υπερεκπαίδευση). Όμως, ο συνδυασμός των χαρακτηριστικών που προκύπτει ως βέλτιστος με τη μέθοδο αυτή, δεν οδηγεί αναγκαστικά σε υψηλό ποσοστό επιτυχίας όταν εφαρμοστεί σε άγνωστα δεδομένα. Μέθοδος παράλειψης-ενός-προτύπου (leave-one-out, LOO) Σύμφωνα με τη μέθοδο παράλειψης-ενός-προτύπου, για την εκτίμηση της απόδοσης κάθε συνδυασμού χαρακτηριστικών, ο ταξινομητής εκπαιδεύεται με όλα τα πρότυπα πλην ενός, το οποίο στη συνέχεια ταξινομεί. Η διαδικασία επαναλαμβάνεται διαδοχικά για όλα τα πρότυπα. Επειδή η εκπαίδευση του ταξινομητή γίνεται κάθε φορά χωρίς το πρότυπο που θα ταξινομήσει στη συνέχεια, το πρότυπο αυτό θεωρείται άγνωστο για τον ταξινομητή. Για το λόγο αυτό, ο συνδυασμός χαρακτηριστικών που προκύπτει με τη μέθοδο αυτή παρουσιάζει χαμηλότερο ποσοστό επιτυχίας σε σχέση με τη μέθοδο επαναϋποκατάστασης, αλλά είναι περισσότερο αξιόπιστος στην ταξινόμηση πραγματικά άγνωστων για το σύστημα δεδομένων. Πίνακας αληθείας (truth table) και ολικό ποσοστό επιτυχίας (overall accuracy) Σε κάθε μία από τις παραπάνω μεθόδους, κατά την ταξινόμηση των προτύπων κατασκευάζεται ο πίνακας αληθείας (truth table, ή confusion matrix), ο οποίος παρουσιάζει το πλήθος των προτύπων που ταξινομήθηκαν ορθά και μη σε κάθε κλάση. Το ολικό ποσοστό Ι. Καλατζής: Αναγνώριση προτύπων 10

επιτυχίας (overall accuracy) είναι το ποσοστό των ορθά ταξινομημένων προτύπων όλων των κλάσεων προς το σύνολο των προτύπων. Για παράδειγμα, έστω περίπτωση δύο κλάσεων C1 και C2. Έστω επίσης ότι από την κλάση C1 (με 10 συνολικά πρότυπα) τα 8 ταξινομήθηκαν ορθά, ενώ από την κλάση C2 (με 15 συνολικά πρότυπα) τα 12 ταξινομήθηκαν ορθά. Τότε ο πίνακας αληθείας και το ολικό ποσοστό επιτυχίας είναι: Πίνακας αληθείας: Ταξινόμηση C1 C2 C1 8 2 C2 3 12 Ολικό ποσοστό επιτυχίας: 8 + 12 = 0.8 = 80% 10 + 15 Γενικά, ως βέλτιστος συνδυασμός χαρακτηριστικών θεωρείται αυτός με το υψηλότερο ολικό ποσοστό επιτυχίας και το μικρότερο πλήθος χαρακτηριστικών. Ταξινομητές Στη συνέχεια περιγράφονται δύο από τους πιο απλούς ταξινομητές: Ταξινομητής Ελάχιστης Απόστασης (Minimum Distance Classifier) Ο ταξινομητής Ελάχιστης Απόστασης ταξινομεί κάθε πρότυπο στην κλάση στης οποίας το κέντρο βρίσκεται πιο κοντά. Στην περίπτωση 2 κλάσεων και 2 χαρακτηριστικών, το όριο απόφασης (decision boundary) του ταξινομητή, δηλαδή το όριο που διαχωρίζει τις κλάσεις, είναι η μεσοκάθετος του ευθύγραμμου τμήματος που ενώνει τα κέντρα των κλάσεων. Για το λόγο αυτό, ο ταξινομητής Ελάχιστης Απόστασης είναι γραμμικός ταξινομητής, δηλαδή μπορεί να ταξινομήσει με επιτυχία όταν οι κλάσεις είναι γραμμικώς διαχωρίσιμες. Επί πλέον, ο ταξινομητής αυτός, επειδή στηρίζεται στην απόσταση από το κέντρο κάθε κλάσης, μπορεί να λειτουργήσει με επιτυχία αν οι κλάσεις (δηλαδή οι τιμές των χαρακτηριστικών κάθε κλάσης) ακολουθούν την κανονική κατανομή. Τέτοιοι ταξινομητές, που ταξινομούν με επιτυχία όταν είναι γνωστή η συνάρτηση πυκνότητας πιθανότητας της κατανομής που ακολουθούν τα χαρακτηριστικά, ονομάζονται παραμετρικοί ταξινομητές. Ι. Καλατζής: Αναγνώριση προτύπων 11

Ταξινομητής Πλησιέστερου Γείτονα (Nearest Neighbor, NN) Ο ταξινομητής Πλησιέστερου Γείτονα ταξινομεί ένα πρότυπο στην κλάση στην οποία βρίσκεται το πλησιέστερο σε αυτό πρότυπο. Γενίκευση του ταξινομητή Πλησιέστερου Γείτονα είναι ο ταξινομητής των k-πλησιέστερων Γειτόνων (k-nearest Neighbors, k-nn). Σύμφωνα με τον ταξινομητή αυτόν, ένα πρότυπο ταξινομείται στην κλάση όπου ανήκει η πλειοψηφία των k πλησιέστερων γειτόνων. Ο ταξινομητής αυτός μπορεί να λειτουργήσει με επιτυχία ανεξαρτήτως της γνώσης της συνάρτησης πυκνότητας πιθανότητας που ακολουθούν τα δεδομένα (μη παραμετρικός ταξινομητής). Κανονικοποίηση δεδομένων Για να αποφευχθεί η κυριαρχία χαρακτηριστικών με πολύ μεγάλες τιμές σε σχέση με τα υπόλοιπα, τα δεδομένα συνήθως κανονικοποιούνται ώστε τα χαρακτηριστικά να αποκτήσουν παραπλήσιες τιμές. Η κανονικοποίηση μπορεί να γίνει με μια απλή γραμμική μέθοδο μεγίστου-ελαχίστου ώστε τα χαρακτηριστικά να αποκτήσουν τιμές από 0 έως 1, συνήθως όμως προτιμάται η μέθοδος σύμφωνα με την οποία οι νέες τιμές των χαρακτηριστικών δίνονται από τη σχέση: z ij = x ij μ j σ j όπου μj η μέση τιμή του χαρακτηριστικού επί όλων των δεδομένων (ανεξαρτήτως κλάσεων) και σj η αντίστοιχη τυπική απόκλιση. Με τον τρόπο αυτό οι νέες τιμές των χαρακτηριστικών (που ονομάζονται και z-scores) έχουν μέση τιμή 0 και τυπική απόκλιση 1. ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ Μετά την επιλογή του βέλτιστου συνδυασμού χαρακτηριστικών, το σύστημα πρέπει να αξιολογηθεί σε άγνωστα δεδομένα, ώστε να εκτιμηθεί η απόδοσή του σε πραγματικές συνθήκες. Για το σκοπό αυτό, χρησιμοποιείται η παρακάτω μέθοδος: Μέθοδος Εξωτερικής Διασταυρούμενης Επικύρωσης Σύμφωνα με τη μέθοδο της Εξωτερικής Διασταυρούμενης Επικύρωσης (External Cross Validation, ECV), κάθε κλάση διαιρείται σε 2 ομάδες: Η μία ομάδα (ομάδα εκπαίδευσης) χρησιμοποιείται αποκλειστικά στην εκπαίδευση του συστήματος, δηλαδή στην ανεύρεση του βέλτιστου συνδυασμού χαρακτηριστικών. Ι. Καλατζής: Αναγνώριση προτύπων 12

Η δεύτερη ομάδα (ομάδα ελέγχου) χρησιμοποιείται αποκλειστικά για τον έλεγχο της απόδοσης του συστήματος ταξινόμησης με βάση το συνδυασμό χαρακτηριστικών που επιλέχθηκε στο προηγούμενο στάδιο. Τα πρότυπα της ομάδας ελέγχου μορφοποιούνται ώστε να αποτελούνται μόνο από τα βέλτιστα χαρακτηριστικά που βρέθηκαν στη φάση εκπαίδευσης. Το πλήθος των δεδομένων της ομάδας ελέγχου επιλέγεται να είναι από 20% έως 50% του συνόλου των δεδομένων. Ένας συνηθισμένος διαχωρισμός είναι το σύνολο εκπαίδευσης να περιλαμβάνει τα 2/3 των προτύπων της κάθε κλάσης και το σύνολο ελέγχου το υπόλοιπο 1/3. Σε περίπτωση μικρού πλήθους προτύπων, η αναμενομένη ακρίβεια ταξινόμησης του συστήματος σε άγνωστα δεδομένα προκύπτει ως η μέση τιμή της ακρίβειας ταξινόμησης μετά από μια σειρά επαναλήψεων της παραπάνω διαδικασίας, με τυχαία διαίρεση των δεδομένων κάθε φορά, ώστε να ελαχιστοποιηθεί η πιθανότητα μεροληπτικής συμπεριφοράς. Πρέπει να σημειωθεί ότι η μέση απόδοση σε σειρά επαναλήψεων μπορεί να δώσει ένα αξιόπιστο ποσοστό επιτυχίας της απόδοσης του συστήματος επί αγνώστων δεδομένων, κατά κανόνα όμως αδυνατεί να παράσχει ένα βέλτιστο συνδυασμό χαρακτηριστικών για χρήση εν συνεχεία σε πραγματικές εφαρμογές. Ο λόγος είναι ότι, σε κάθε επανάληψη, γενικά επιλέγεται κατά το στάδιο εκπαίδευσης διαφορετικός κάθε φορά «βέλτιστος» συνδυασμός, με αποτέλεσμα να μην μπορεί να αποφασιστεί πάντα η κατάλληλη επιλογή του. Για την υλοποίηση όμως ενός συστήματος υποβοήθησης διάγνωσης είναι απαραίτητη η γνώση του βέλτιστου συνδυασμού χαρακτηριστικών, κάτι που μπορεί να επιτευχθεί αν η διαδικασία της εξωτερικής αξιολόγησης πραγματοποιηθεί μόνο μία φορά, κάτι που προϋποθέτει μεγάλο πλήθος προτύπων για να μπορούν τα αποτελέσματα να είναι στατιστικώς αξιόπιστα. ΒΙΒΛΙΟΓΡΑΦΙΑ Ambroise, C. and McLachlan, G, "Selection bias in gene extraction on the basis of microarray gene-expression data", Proceedings of the National Academy of Sciences of the USA (2002), 99(10):6562 6566. R.C. Gonzalez and R.E.Woods. Digital Image Processing, Addison-Wesley, Massachusetts, 1992. Gose E, Johnsonbaugh R, Jost S. Pattern Recognition and Image Analysis, Prentice Hall PTR, New Jersey, 1996. S. Theodoridis and K. Koutroumbas, Pattern Recognition, Academic Press, 2nd edition, 2003. Ι. Καλατζής: Αναγνώριση προτύπων 13

ΕΡΩΤΗΣΕΙΣ 1. ΓΕΝΙΚΑ Στο πεδίο της αναγνώρισης προτύπων: α) Τι ονομάζουμε χαρακτηριστικό (feature); β) Τι ονομάζουμε πρότυπο (pattern); γ) Τι ονομάζουμε κλάση (class); 2. ΤΑΞΙΝΟΜΗΤΕΣ α) Περιγράψτε συνοπτικά τη λειτουργία των ταξινομητών Ελάχιστης Απόστασης (Minimum Distance) και k-πλησιέστερων Γειτόνων (k-nearest Neighbors). Δηλαδή, εξηγήστε για κάθε ταξινομητή με ποιο κριτήριο γίνεται η ταξινόμηση ενός αγνώστου προτύπου. β) Ποιος από τους δύο παραπάνω ταξινομητές είναι γραμμικός; Εξηγήστε το συνοπτικά, κάνοντας κι ένα απλό σχήμα σε περίπτωση 2 κλάσεων με 2 χαρακτηριστικά. γ) Έστω 2 κλάσεις Α και Β, με 5 πρότυπα κάθε μία. Έστω άγνωστο πρότυπο U, του οποίου οι αποστάσεις από τα πρότυπα των δύο κλάσεων έχουν υπολογιστεί, και δίνονται στους παρακάτω πίνακες: Πρότυπα Κλάσης Α Α1 Α2 Α3 Α4 Α5 Αποστάσεις του U από τα πρότυπα της κλάσης Α 10 7 6 3 5 Πρότυπα Κλάσης Β Β1 Β2 Β3 Β4 Β5 Αποστάσεις του U από τα πρότυπα της κλάσης Β 8 12 1 7 4 Σε ποια κλάση ταξινομείται το U, α) σύμφωνα με τον ταξινομητή Πλησιέστερου Γείτονα; β) σύμφωνα με τον ταξινομητή k - Πλησιέστερων Γειτόνων, όπου k = 3; Να δικαιολογήσετε τις απαντήσεις σας. δ) Στο διπλανό σχήμα παρουσιάζονται οι μέσες τιμές δύο κλάσεων Α και Β (με κύκλους) καθώς και από 3 πρότυπα ελέγχου για κάθε κλάση (τρίγωνα): (i) Σε ποια κλάση ταξινομείται το Α2, σύμφωνα με τον ταξινομητή Ελάχιστης Απόστασης και γιατί; (ii) Δημιουργείστε τον πίνακα αληθείας για την ταξινόμηση των προτύπων Α1, Α2, Α3, Β1, Β2, Β3 με βάση τον ταξινομητή Ελάχιστης Απόστασης και βρείτε το ποσοστό επιτυχίας. Ι. Καλατζής: Αναγνώριση προτύπων 14

3. ΥΠΟΛΟΓΙΣΜΟΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ α) Σχετικά με τα χαρακτηριστικά υφής ψηφιακών εικόνων, συμπληρώστε τα κενά: (i) Τα στατιστικά χαρακτηριστικά 1 ης τάξης υπολογίζονται απ ευθείας από τον πίνακα. (ii) Τα στατιστικά χαρακτηριστικά 2 ης τάξης υπολογίζονται από ενδιάμεσους πίνακες που σχετίζονται είτε (α) με τη συχνότητα εμφάνισης είτε (β) με το πλήθος. β) Έστω μια εικόνα 4x4, με 4 τόνους του γκρι (0,1,2,3): 0 0 1 2 0 1 1 1 1 2 2 3 2 3 2 2 Να υπολογίσετε για την εικόνα αυτή τα χαρακτηριστικά μέση τιμή και τυπική απόκλιση των τόνων του γκρι. 4. ΜΕΘΟΔΟΙ ΑΞΙΟΛΟΓΗΣΗΣ α) Περιγράψτε τη μέθοδο αξιολόγησης Επαναϋποκατάστασης (Re-substitution). β) Περιγράψτε τη μέθοδο αξιολόγησης Παράλειψης-Ενός-Προτύπου (Leave-One-Out). γ) Ποια από τις δύο παραπάνω μεθόδους δίνει συνήθως μεγαλύτερο ποσοστό επιτυχίας, και γιατί; δ) Ποια από τις δύο παραπάνω μεθόδους είναι περισσότερο αξιόπιστη για την εκπαίδευση ενός συστήματος αναγνώρισης προτύπων, και γιατί; 5. ΜΕΘΟΔΟΙ ΕΡΕΥΝΑΣ ΣΥΝΔΥΑΣΜΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ α) Περιγράψτε τη μέθοδο έρευνας συνδυασμών χαρακτηριστικών Εξαντλητικής Έρευνας (Exhaustive Search). Δώστε απλό παράδειγμα για 4 χαρακτηριστικά. β) Περιγράψτε τη μέθοδο έρευνας συνδυασμών χαρακτηριστικών Εμπρόσθιας Σειριακής Επιλογής (Sequential Forward Selection). Δώστε απλό παράδειγμα για 4 χαρακτηριστικά. γ) Ποια από τις δύο παραπάνω μεθόδους είναι ταχύτερη, και γιατί; δ) Ποια από τις παραπάνω μεθόδους μπορεί να βρει με μεγαλύτερη πιθανότητα τον καλύτερο συνδυασμό χαρακτηριστικών, και γιατί; Ι. Καλατζής: Αναγνώριση προτύπων 15