ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Μεταπτυχιακό πρόγραμμα Τμήμα: Τεχνολογίες Διαχείρισης Πληροφορίας και Παγκόσμιου Ιστού Κατηγοριοποίηση ιατρικών εικόνων μαστογραφίας με τεχνικές εξόρυξης δεδομένων Διπλωματική εργασία Κοντός Κωνσταντίνος Επιβλέπων καθηγητής: Mαραγκουδάκης Μανώλης Σάμος Φεβρουάριος 2013

2 Εισαγωγή Είναι βέβαιο ότι ζούμε στην κοινωνία της πληροφορίας, όπου η μετατροπή των δεδομένων σε πληροφορία απαιτείται να οδηγεί στη μετατροπή της πληροφορίας σε γνώση. Μια από τις πιο προκλητικές εργασίες της εποχής μας είναι η ανακάλυψη προτύπων, τάσεων και ανωμαλιών σε τεράστια σύνολα δεδομένων, καθώς και η σύνοψή τους μέσω απλών και εύχρηστων μοντέλων. Η συνύπαρξη ετερόκλητων επιστημονικών πεδίων όπως της στατιστικής, της μηχανικής εκμάθησης, της θεωρίας της πληροφορίας και των υπολογιστικών διαδικασιών, έχει δημιουργήσει μια νέα επιστήμη με δυναμικά εργαλεία, η οποία καλείται «Εξόρυξη Δεδομένων» και είναι μέρος της διαδικασίας «Ανακάλυψης Γνώσης από Βάσεις Δεδομένων». Ένα τμήμα της Εξόρυξης Δεδομένων είναι η μελέτη Βιοϊατρικών δεδομένων όπου σε συνδυασμό με την επιστήμη της επεξεργασίας εικόνας, προσφέρουν καλύτερη ανάλυση οποιασδήποτε ασθένειας, με απώτερο σκοπό την αναβάθμιση της ποιότητας ζωής του ανθρώπου. Έτσι, το παρών έγγραφο ασχολείται με την δημιουργία ενός αυτοποιημένου συστήματος για την ανίχνευση καρκίνου του στήθους από ψηφιακές φωτογραφίες μαστογραφίας. Για την τη δημιουργία του συνόλου δεδομένων από τις φωτογραφίες, χρησιμοποιήθηκε η διαδικασία της εκπαιδεύσιμης κατάτμησης (trainable segmentation)[1] με αλγόριθμο τα δένδρα απόφασης. Στη συνέχεια για το μοντέλο εκπαίδευσης χρησιμοποιήθηκε ένας συνδυασμός γενετικού αλγορίθμου και αλγορίθμου πλησιέστερου γείτονα. Η όλη διαδικασία έγινε μέσω του προγράμματος RapidMiner με την επέκταση της επεξεργασίας εικόνας, το οποίο είναι ένα προγραμματιστικό περιβάλλον ανοιχτού κώδικα για μηχανική μάθηση και εξόρυξη γνώσης. Η απόδοση του παρόντος συστήματος είναι 99,24% και επιτεύχθηκε μέσω της μεθόδου 10-fold cross validation. Θα ήθελα να ευχαριστήσω ιδιαίτερα τον λέκτορα κ. Μαραγκουδάκη Εμμανουήλ, επιβλέποντα της διπλωματικής εργασίας, για τις ουσιαστικές υποδείξεις του, την υποστήριξη και την άψογη συνεργασία μας όλο αυτό το διάστημα. Τέλος, οι συγγραφείς θα ήθελαν να ευχαριστήσουν το Διαγνωστικό Κέντρο, Μαγνητική Πατρών για την συνεχή υποστήριξη και τη δωρεάν πρόσβαση σε ψηφιακές φωτογραφίες μαστογραφίας καθώς και την ακτινολόγο Κοκόλη Μαρία για τη συνεργασία της και τη συνεχή βοήθεια που παρείχε στην εύρεση των όγκων στις μαστογραφίες. Σάμος, Φεβρουάριος 2013 Κοντός Κωνσταντίνος 2

3 Περιεχόμενα Εισαγωγή... 2 Περίληψη... 5 Κεφάλαιο Ορισμοί Εξόρυξη Γνώσης- Εισαγωγή Η ανάγκη για ένα νέο τομέα Ο τομέας της εξόρυξης δεδομένων... 8 Κεφάλαιο Εισαγωγικές πληροφορίες για τον καρκίνο του μαστού Εξόρυξη Γνώσης από Ιατρικά δεδομένα Τεχνικές κατηγοριοποίησης σε δεδομένα καρκίνου του μαστού Κεφάλαιο Εξόρυξη γνώσης από εικόνες Εισαγωγή Θέματα εξόρυξης γνώσης από εικόνες Τεχνικές εξόρυξης γνώσης από εικόνες Αναγνώριση Αντικειμένων Σχήματα ερωτήσεων για ανάκτηση εικόνας Εποπτευόμενη και μη εποπτευόμενη ταξινόμηση εικόνων Εξόρυξη γνώσης με κανόνες συσχέτισης Κεφάλαιο Συλλογή δεδομένων μαστογραφίας Καθαρισμός εικόνων Trainable Segmentation (Εκπαιδεύσιμη κατάτμηση ) - Θεωρητική προσέγγιση Trainable Segmentation Εξαγωγή Χαρακτηριστικών Προ-επεξεργασία και εξαγωγή Χαρακτηριστικών από μαστογραφίες Δημιουργία του συνόλου δεδομένων Δένδρα Απόφασης-Θεωρητική προσέγγιση Δένδρα απόφασης Rapid Miner Αλγόριθμοι εκπαίδευσης Naïve Bayes Αλγόριθμος Naïve Bayes RapidMiner Αλγόριθμοι εκπαίδευσης SVM ( Support Vector Machines )

4 4.8.1 Αλγόριθμος SVM RapidMiner Αλγόριθμοι εκπαίδευσης Γενετικός αλγόριθμος Η δομή της Γενετικού αλγορίθμου Πλεονεκτήματα των γενετικών αλγορίθμων Γενετικός αλγόριθμος βελτιστοποίησης-rapid Miner Αλγόριθμοι εκπαίδευσης Αλγόριθμος πλησιέστερου γείτονα (K-NN) Αλγόριθμος Επιλογή παραμέτρων Κεφάλαιο Προηγούμενες εργασίες Πειραματικά αποτελέσματα Αλγόριθμος εκπαίδευσης- Naïve Bayes Αλγόριθμος εκπαίδευσης- SVM ( Support Vector Machines ) Αλγόριθμος εκπαίδευσης- Decision Trees Αλγόριθμος εκπαίδευσης - Κ-ΝΝ Αλγόριθμος εκπαίδευσης Κ-ΝΝ με βελτιστοποιημένη επιλογή παραδειγμάτων μέσω Γενετικού αλγορίθμου Συγκεντρωτική αξιολόγηση αλγορίθμων εκπαίδευσης Συμπεράσματα και προοπτική μελλοντικής εργασίας Ευχαριστίες Αναφορές Βιβλιογραφία

5 Περίληψη Μια πολύ σημαντική μέθοδος ανίχνευσης καρκίνου του μαστού είναι η μαστογραφία. Η μαστογραφία μπορεί να δείξει όγκους προτού αυτοί μεγαλώσουν αρκετά για να γίνουν αντιληπτοί στην ψηλάφηση. Η εξέταση μπορεί να πραγματοποιηθεί είτε με την κλασική μέθοδο ακτινογραφίας είτε με ψηφιακή μαστογραφία. Σε κάθε περίπτωση, αναγκαία είναι και η γνωμάτευση του γιατρού ώστε με βάση τα συμπεράσματα του να γίνουν επιπλέον εξετάσεις σε περίπτωση που τα αποτελέσματα της μαστογραφίας υποδεικνύουν κάποιο όγκο. Με βάση τη χρησιμότητα της μεθόδου αυτής στο παρών έγγραφο προτείνεται ένα σύστημα ανίχνευσης καρκίνου από φωτογραφίες μαστογραφίας, ώστε η τελική απάντηση του γιατρού για το αν ο ασθενής έχει καρκίνο η όχι να είναι όσον το δυνατόν πιο σωστή. Έτσι, αρχικά στο πρώτο κεφάλαιο δίνεται ένας ουσιαστικός ορισμός της εξόρυξης γνώσης, εξηγείται τι είναι ουσιαστικά η εξόρυξη γνώσης, η σχέση της με άλλους τομείς, καθώς και ποια ήταν η ανάγκη που οδήγησε σε αυτό το νέο τομέα. Στο δεύτερο κεφάλαιο παρουσιάζονται κάποιες γενικές πληροφορίες για τον καρκίνο του μαστού, ο τρόπος προσέγγισης της ιατρικής επιστήμης με την εξόρυξη γνώσης, οι δυσκολίες που υπάρχουν στην προσπάθεια ανάλυσης των ιατρικών δεδομένων καθώς και κάποιες τεχνικές κατηγοριοποίησης σε δεδομένα καρκίνου του μαστού. Στη συνέχεια, στο τρίτο κεφάλαιο αναλύεται η σύνδεση της εξόρυξης γνώσης με την επεξεργασία εικόνας που τελικά οδηγεί στην εξόρυξη δεδομένων από εικόνες. Κατά το τέταρτο κεφάλαιο παρουσιάζεται το προτεινόμενο σύστημα καθώς και οι αλγόριθμοι αυτού, με τα θετικά και τα αρνητικά του σημεία, ο τρόπος λειτουργίας του, αλλά και το πώς δημιουργήθηκε το σύνολο δεδομένων από τις ψηφιακές φωτογραφίες μαστογραφίας. Στο κεφάλαιο πέντε παρουσιάζεται η απόδοση του συστήματος με διάφορους αλγορίθμους εκπαίδευσης και ελέγχεται η απόδοση σε διάφορες φωτογραφίες ώστε να φανεί αν τελικά η πολύ καλή απόδοση του συστήματος (99,24%) μέσω του συνδυασμού k-nn και γενετικού αλγορίθμου λειτουργεί ομαλά σε «πραγματικές» φωτογραφίες. Επίσης, γίνεται μια σύγκριση με παρόμοιες εργασίες για την καλύτερη εξακρίβωση των αποτελεσμάτων. Τέλος παρουσιάζονται οι αναφορές και η βιβλιογραφία που χρειάστηκε για την επίτευξη της διπλωματικής εργασίας. 5

6 Κεφάλαιο 1 Ορισμοί Η Εξόρυξη Γνώσης ορίζεται ως η εύρεση πληροφοριών που είναι κρυμμένες σε μία βάση δεδομένων, η εξερευνητική ανάλυση δεδομένων, η ανακάλυψη καθοδηγούμενη από δεδομένα και η εξερευνητική μάθηση. Η σημερινή εξέλιξη στις λειτουργίες και στα προϊόντα της εξόρυξης γνώσης από δεδομένα είναι αποτέλεσμα πολλών χρόνων επιρροής από πολλούς επιστημονικούς κλάδους όπως είναι οι βάσεις δεδομένων, η ανάκτηση πληροφοριών, η στατιστική, οι αλγόριθμοι και η μηχανική μάθηση. Ειδικότερα, πρόκειται για την διαδικασία «ανακάλυψης» ενδιαφερόντων και εν δυνάμει χρήσιμων προτύπων (patterns), υπαρκτών σε μεγάλες βάσεις δεδομένων. Ο όρος «εξόρυξη» χρησιμοποιείται προκειμένου να τονισθεί ότι τα πρότυπα συνιστούν ψήγματα πολύτιμης πληροφορίας προς ανακάλυψη, κρυμμένης μέσα σε μεγάλες βάσεις δεδομένων. Ένα πρότυπο μπορεί να είναι μία στατιστική περίληψη (summary statistic), όπως ο μέσος όρος (mean), ο αριθμητικός μέσος (median), ή η τυπική απόκλιση (standard deviation) ενός συνόλου δεδομένων. Μέσω της εξόρυξης γνώσης αναζητούνται ταχύτατα και αυτόματα τοπικά και υψηλής χρησιμότητας πρότυπα, κάνοντας χρήση αλγορίθμων. 1.1 Εξόρυξη Γνώσης- Εισαγωγή Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων και αποτελεί αντικείμενο μελέτης από πολλούς ερευνητές και μηχανικούς, ιδιαίτερα τα τελευταία χρόνια με τη ραγδαία αύξηση του όγκου της πληροφορίας. Η έρευνα στον τομέα αυτόν έχει προχωρήσει θεαματικά και έχουν εξαχθεί πολλά και σημαντικά αποτελέσματα. Την τελευταία δεκαετία έχει παρατηρηθεί μια αλματώδης αύξηση στην παραγωγή και στη συλλογή δεδομένων. Ωστόσο η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτικότερη και αποτελεσματικότερη συλλογή, αποθήκευση και διαχείριση των δεδομένων. Είναι κοινώς αποδεκτό ότι κάθε χρόνο τα δεδομένα διπλασιάζονται, ενώ η χρήσιμη πληροφορία δείχνει να μειώνεται. Αυτό είναι και το κύριο πρόβλημα που προσπαθεί να λύσει ο τομέας της εξόρυξης γνώσης. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση μεθόδων και τεχνικών της εξόρυξης γνώσης με σκοπό τη βελτίωση της ποιότητας των παρεχόμενων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής συμπερασμάτων από αυτή. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων (της τάξης των petta-bytes και exa-bytes) τόσο από εταιρίες όσο και από πανεπιστήμια, τα οποία αποθηκεύονται σε τεράστιες βάσεις δεδομένων. Η δυνατότητα ανάλυσης και ερμηνείας των δεδομένων καθώς και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο. Έτσι, φαίνεται επιτακτική η ανάγκη για μια νέα γενιά εργαλείων, μεθόδων και τεχνικών για ευφυή ανάλυση των βάσεων δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή πολλών ερευνητών από διάφορες ερευνητικές περιοχές όπως τεχνητή νοημοσύνη, 6

7 στατιστική, αποθήκες δεδομένων, διαδραστική ανάλυση και επεξεργασία, έμπειρα συστήματα και οπτικοποίηση δεδομένων, με αποτέλεσμα ένας νέος ερευνητικός τομέας να δημιουργείται, γνωστός ως εξόρυξη δεδομένων και γνώσης (Data and Knowledge Mining). Στις επόμενες ενότητες αυτού του κεφαλαίου θα παρουσιαστούν τα βασικά προβλήματα που οδήγησαν στη δημιουργία του τομέα της εξόρυξης δεδομένων, θα δοθεί μια γενική περιγραφή της εξόρυξης δεδομένων και θα παρουσιαστούν οι σχέσεις που έχει με άλλους τομείς, θα παρουσιαστεί επίσης μια κατηγοριοποίηση των εφαρμογών και των αλγορίθμων της εξόρυξης δεδομένων. 1.2 Η ανάγκη για ένα νέο τομέα Σύμφωνα με το νόμο του Moore η υπολογιστική ισχύς των υπολογιστών διπλασιάζεται κάθε 18 μήνες. Επιπλέον η χωρητικότητα για δεδομένα διπλασιάζεται κάθε 12 εβδομάδες.όπως είναι φανερό υπάρχει μια διαφορά στις δύο τάσεις η οποία αυξάνεται εκθετικά και καλείται κενό δεδομένων (data gap) ή νόμος της αποθήκευσης (storage law). Εικόνα 1.1 το γράφημα του Gordon Moore το Ένα από τα σημαντικότερα προβλήματα είναι το κενό μεταξύ της απόδοσης του υλικού και της ποσότητας των δεδομένων που θέλουμε να επεξεργαστούμε. Οι τυπικοί αλγόριθμοι που διαχειρίζονται πολύ λιγότερα δεδομένα αντιμετωπίζουν προβλήματα απόδοσης από τη στιγμή που το υλικό δεν μπορεί να καλύψει το κενό από τον όγκο δεδομένων. Για παράδειγμα ένας αλγόριθμος ταξινόμησης που λειτουργεί ορθά με λίγα gigabytes δεδομένων θα μπορούσε να έχει προβλήματα απόδοσης αν εφαρμοστεί σε terabytes δεδομένων. Στην πραγματικότητα υπάρχουν συγκεκριμένα προβλήματα με τους κλασικούς αλγορίθμους, το κυριότερο εκ των οποίων θα παρουσιαστεί συνοπτικά στη συνέχεια. Το βασικό πρόβλημα των κλασικών αλγορίθμων είναι ο χρόνος εκτέλεσης. Ωστόσο, μπορεί να υπάρχουν άλλοι λόγοι που έχουν ως αποτέλεσμα μεγάλους 7

8 χρόνους εκτέλεσης. Αρχικά, από τη στιγμή που μιλάμε για μεγάλο όγκο δεδομένων δεν μπορούμε να θεωρήσουμε πως θα χωρέσει ολόκληρος στη μνήμη RAM του υπολογιστή όπου γίνεται ο χειρισμός των υπολογισμών, αλλά ούτε μπορούμε να θεωρούμε πως έχουμε διαθέσιμο άπειρο χώρο βοηθητικής μνήμης. Εάν σχεδιάσουμε έναν αλγόριθμο ο οποίος θα τοποθετεί όλα τα δεδομένα στην μνήμη RAM έτσι ώστε να είναι γρήγορη και άμεση η προσπέλαση των δεδομένων, τότε ο αλγόριθμος αυτός πιθανό να μην λειτουργήσει ορθά για μεγέθη δεδομένων μεγαλύτερα από το μέγεθος της. Ακόμη δεν μπορούμε να υποθέσουμε πως θα έχουμε δύο ή τρία αντίγραφα των δεδομένων μας στην βοηθητική μνήμη, γιατί μπορεί να μην έχουμε τον απαιτούμενο χώρο γι αυτό. Έτσι, χρειαζόμαστε αλγόριθμους που λαμβάνουν υπ όψιν όλες αυτές τις παραμέτρους. Επιπρόσθετα, όταν θέλουμε να επεξεργαστούμε μεγάλο όγκο δεδομένων, η πολυπλοκότητα της διαδικασίας μπορεί να είναι πολύ σημαντικός παράγοντας. Για παράδειγμα, παρόλο που ένας πολυωνυμικός αλγόριθμος με πολυπλοκότητα O(n2) μπορεί να είναι αποδεκτός, όταν το n είναι της τάξης του τρισεκατομμυρίου ο χρόνος εκτέλεσης μπορεί να είναι απαγορευτικά τεράστιος. Από την άλλη πλευρά, αν έχουμε στη διάθεση μας έναν αλγόριθμο ο οποίος παίρνει ως είσοδο μικρά τμήματα δεδομένων και έχει μεγάλη πολυπλοκότητα, θα είναι προτιμότερος από έναν αλγόριθμο που θα σαρώνει όλα τα δεδομένα και θα παρουσιάζει μικρή πολυπλοκότητα. 1.3 Ο τομέας της εξόρυξης δεδομένων Όλα τα παραπάνω ζητήματα οδήγησαν την επιστημονική κοινότητα στη δημιουργία ενός νέου τομέα, που καλείται σήμερα εξόρυξη δεδομένων. Με τον όρο αυτό καλούμε τον ορθό προσδιορισμό ενδιαφερουσών δομών σε δεδομένα. Πρέπει σε αυτό το σημείο να τονιστεί πως για να εξάγουμε πραγματικά χρήσιμη πληροφορία συνήθως απαιτείται να έχουμε όσο το δυνατό πιο πολλά δεδομένα. Αυτό έχει να κάνει περισσότερο με την ακρίβεια και την λεπτομέρεια της πληροφορίας αυτής. Έτσι μπορούμε να πούμε γενικά πως η σπουδαιότητα ενός αλγόριθμου εξόρυξης δεδομένων μπορεί να περιγραφεί από τον τύπο που φαίνεται στην Εικόνα 1.2. Εικόνα 1.2 Ορισμός σπουδαιότητας ενός αλγόριθμου. 8

9 Από το παραπάνω συμπεραίνουμε πως στις περισσότερες εφαρμογές είναι άσκοπο να έχουμε υψηλή απόδοση αποτελεσμάτων με υπολογισμούς που απαιτούν απροσδιόριστα πολύ χρόνο ή να έχουμε πολύ γρήγορα αποτελέσματα πολύ χαμηλής ποιότητας. Ο όρος «εξόρυξη δεδομένων» είναι σχετικά καινούργιος και εμφανίστηκε στη δεκαετία του 90. Ωστόσο, παρεμφερείς τάσεις και έρευνες είναι ακόμα πιο παλιές. Ο τομέας της εξόρυξης δεδομένων σχετίζεται με πολλούς άλλους τομείς όπως την στατιστική (statistics), την τεχνητή νοημοσύνη (artificial intelligence), τη μηχανική μάθησης (machine learning), τις βάσεις δεδομένων (data bases), τις μηχανές αναζήτησης (search engines), τα συστήματα υποστήριξης αποφάσεων (decision support systems), τα συστήματα άμεσης ανάλυσης δεδομένων (OLAP) και του ταιριάσματος προτύπων (pattern matching). Παρακάτω θα αναλύσουμε τη σχέση που έχει η εξόρυξη δεδομένων με μερικούς από τους πιο βασικούς τομείς που μόλις αναφέρθηκαν. Στατιστική: Είναι γνωστό πως ένα μεγάλο μέρος της ερευνητικής βάσης της εξόρυξης δεδομένων βασίζεται στη στατιστική. Αυτό είναι λογικό μιας και η στατιστική έχει ανάλογους σκοπούς με την εξόρυξη δεδομένων αφού αποσκοπούν στην αναγνώριση χρήσιμων πληροφοριών και προτύπων στα δεδομένα. Μέρος των διαδικασιών σε ένα μοντέλο εξόρυξης δεδομένων μπορεί να αποτελεί η αναζήτηση των δεδομένων και η εξαγωγή συμπερασμάτων από τα αποτελέσματα μιας αναζήτησης. Μια συχνά χρησιμοποιούμενη τεχνική στην εξόρυξη δεδομένων είναι αυτή της δειγματοληψίας. Αυτός ο τρόπος στη στατιστική λέγεται «στατιστική εξαγωγή συμπεράσματος». Ακόμα και σήμερα, ένα σημαντικό τμήμα των νέων υλοποιημένων αλγόριθμων εξόρυξης δεδομένων αποτελούν στην ουσία στατιστικές τεχνικές που έχουν προσαρμοστεί στις απαιτήσεις των αλγορίθμων και των υπολογισμών. Όπως και με τις κλασικές τεχνικές στατιστικής στην εξόρυξη δεδομένων ακολουθούμε ανάλυση παλινδρόμησης (regression analysis), ανάλυση συστάδων (cluster analysis) κ.α. Ακόμα και όταν οι αλγόριθμοι εξόρυξης δεδομένων δεν χρησιμοποιούν άμεσα τεχνικές στατιστικής, πολλές φορές οι βασικές τους ιδέες έχουν ως αρχική επιρροή την στατιστική. Τεχνητή Νοημοσύνη: Δύο άλλοι τομείς που σχετίζονται με αυτόν της εξόρυξης δεδομένων είναι η τεχνητή νοημοσύνη και η μηχανική μάθηση. Σκοπός της τεχνητής νοημοσύνης είναι να βγάζει λογικά συμπεράσματα από ανεπεξέργαστα δεδομένα, κάτι που κάνει και ο τομέας της εξόρυξης δεδομένων. Επίσης ο τομέας της εξόρυξης δεδομένων κάνει εκτεταμένη χρήση εργαλείων τεχνητής νοημοσύνης και μηχανικής μάθησης. Μερικά παραδείγματα είναι τα νευρωνικά δίκτυα, δέντρα απόφασης και μηχανές διανυσμάτων (vector machines). Γενικά ο τομέας της τεχνητής νοημοσύνης είναι πιο γενικός και εμπεριέχει περιοχές εκτός των κλασικών μεθόδων εξόρυξης δεδομένων. Επίσης εφαρμογές τεχνητής νοημοσύνης μπορεί να μην σχετίζονται με κλιμάκωση δεδομένων μιας και ο όγκος τους μπορεί να είναι αρκετά μικρός. Μηχανική Μάθησης: Η μηχανική μάθησης είναι μια περιοχή της τεχνητής νοημοσύνης η οποία εξετάζει πως μπορούμε να δημιουργούμε προγράμματα τα οποία μπορούν να μαθαίνουν. Στην εξόρυξη δεδομένων, η μηχανική 9

10 μάθησης χρησιμοποιείται για τεχνικές πρόβλεψης ή κατηγοριοποίησης. Με τη μηχανική μάθηση, ο υπολογιστής κάνει κάποιες προβλέψεις και μετά, βασιζόμενος στην ανατροφοδότηση (feedback), όποτε αυτό είναι ορθό, μαθαίνει από αυτό. Μαθαίνει από τα παραδείγματα, την αποθηκευμένη γνώση, και την ανατροφοδότηση. Όταν συμβεί μελλοντικά ανάλογη περίπτωση, η ανατροφοδότηση χρησιμοποιείται για να κάνει την ίδια πρόβλεψη ή για να κάνει μια εντελώς διαφορετική πρόβλεψη. Η στατιστική είναι πολύ σημαντική σε προγράμματα μηχανικής μάθησης γιατί τα αποτελέσματα των προβλέψεων πρέπει να είναι στατιστικά σημαντικά. Βάσεις δεδομένων: Μια βάση δεδομένων είναι μια συλλογή από δεδομένα. Αντίθετα με ένα απλό σύνολο, τα δεδομένα σε μια βάση έχουν μια ορισμένη δομή ή σχήμα με το οποίο είναι σχετιζόμενα. Έτσι τα δεδομένα σε μια βάση αναπαρίστανται με ένα πιο θεωρητικό τρόπο ή μοντέλο δεδομένων. Αυτό το μοντέλο χρησιμοποιείται για να περιγράψει τα δεδομένα, τα χαρακτηριστικά τους, και τις σχέσεις μεταξύ τους. Ένα μεγάλο μέρος των σημερινών ερευνητών στην εξόρυξη δεδομένων είναι άτομα προερχόμενα από τον τομέα των βάσεων δεδομένων. Η σχέση των δύο αυτών τομέων είναι εμφανής μια και πριν επεξεργαστούμε τα δεδομένα μας πρέπει πρώτα να μπορούμε να τα διαχειριστούμε ορθά. Έτσι χωρίς καλά συστήματα διαχείρισης δεδομένων δεν μπορούμε να εφαρμόσουμε αλγόριθμους εξόρυξης δεδομένων. Οι δύο τομείς ακόμη μοιράζονται πολλά, όπως διαδικτυακές βάσεις δεδομένων (Web databases), προσωρινές ή χωρικές βάσεις δεδομένων κ.α. Ένα αξιοσημείωτο παράδειγμα ενός πετυχημένου συνδυασμού εξόρυξης δεδομένων και βάσεων δεδομένων είναι η μηχανή αναζήτησης Google η οποία εκτελεί εργασίες πολύ γρήγορα, αποδοτικά και με ακριβή αποτελέσματα σε οποιοδήποτε ερώτημα. 10

11 Κεφάλαιο Εισαγωγικές πληροφορίες για τον καρκίνο του μαστού Ο όρος καρκίνος του μαστού αναφέρεται στην ανάπτυξη κακοήθους όγκου στην περιοχή του μαστού. Αποτελεί μία από τις συχνότερα εμφανιζόμενες μορφές καρκίνου παγκοσμίως και είναι η πρώτη σε αριθμό κρουσμάτων στο γυναικείο πληθυσμό. Προκαλείται από ανεξέλεγκτο πολλαπλασιασμό παθολογικών κυττάρων που ως αποτέλεσμα προκαλούν το σχηματισμό κακοήθους όγκου στην περιοχή του μαστού και ουσιαστικά αποτελεί κυτταρική νόσο. Τα παθολογικά αυτά κύτταρα έχουν τη δυνατότητα εξάπλωσης σε γειτονικούς ιστούς σε δυσάρεστες συνέπειες για ολόκληρο τον οργανισμό. Η πιθανότητα εμφάνισης της νόσου σε άρρενες είναι υπαρκτή αλλά πολύ μικρή. Υπολογίζεται ότι προέκυψαν νέες περιπτώσεις γυναικών πού προσβλήθηκαν από το συγκεκριμένο τύπο καρκίνου για το έτος 2012 σύμφωνα με το American Cancer Society. Ακόμη τα θανάσιμα κρούσματα του καρκίνου του μαστού υπολογίζονται στις 39,510. Για το 2012, εμφανίστηκαν 2,140 κρούσματα καρκίνου του μαστού σε άντρες, δηλαδή το 1% όλων των κρουσμάτων (American Cancer Society, 2012). Δυστυχώς, ελάχιστα είναι γνωστά σχετικά με τα αίτια που προκαλούν καρκίνο του μαστού, παρά το γεγονός ότι έχουν εντοπιστεί αρκετοί παράγοντες κινδύνου οι οποίοι αναφέρονται παρακάτω: 1. Ηλικία: ο καρκίνος του μαστού μπορεί να προκύψει σε οποιαδήποτε ηλικία μετά την εφηβεία αλλά τα ποσοστά αυξάνονται όσο αυξάνονται και οι ηλικιακές κλίμακες. Οι περισσότερες περιπτώσεις παρουσιάζονται μετά από την ηλικία των 50 ετών, ενώ είναι σπάνιος σε γυναίκες ηλικίας κάτω των 35 ετών (5% των περιπτώσεων), με εξαίρεση τις γυναίκες που έχουν κληρονομική προδιάθεση. 2. Κληρονομικότητα: Υπολογίζεται ότι μόλις το 5-10% των κρουσμάτων καρκίνου του μαστού σχετίζεται όντως με παράγοντες κληρονομικότητας. Ωστόσο, δύο γονίδια, γνωστά ως BRCA 1 και BRCA 2, έχουν προσδιοριστεί ως παράγοντες που συμβάλλουν στην εμφάνιση καρκίνου του μαστού. Επίσης, γυναίκες με εξ αίματος συγγενείς που έχουν νοσήσει αντιμετωπίζουν αυξημένο κίνδυνο εμφάνισης καρκίνου στο μαστό. 3. Διαταραχές της έμμηνου ρύσης: Στοιχεία υποδηλώνουν πως γυναίκες με πρώιμη έναρξη της εμμήνου ρύσης (πριν από το 12ο έτος της ηλικίας τους) ή με καθυστερημένη εμμηνόπαυση (μετά τα 55) αντιμετωπίζουν αυξημένο κίνδυνο εμφάνισης καρκίνου στο μαστό. Επίσης, η λήψη οιστρογόνων μετά την εμμηνόπαυση έχει συσχετιστεί με αυξημένα ποσοστά εμφάνισης της νόσου, με τον κίνδυνο να είναι ανάλογος του διαστήματος λήψης των οιστρογόνων. Ανάλογος συσχετισμός έχει προκύψει και για γυναίκες που γέννησαν μετά τα τριανταπέντε τους χρόνια. 4. Αλκοόλ: Τα οινοπνευματώδη ποτά αυξάνουν τη συγκέντρωση των οιστρογόνων στο αίμα. Σύμφωνα με μελέτη που παρουσιάστηκε το Δεκέμβριο 11

12 του 2009 στο Διεθνές Συνέδριο ογκολογίας του Σαν Αντόνιο, άτομα που νόσησαν από καρκίνο του μαστού και καταναλώνουν με μετριοπάθεια αλκοόλ διατρέχουν μεγαλύτερο κίνδυνο επανεμφάνισής του από εκείνα που πίνουν λίγο ή καθόλου οινοπνευματώδη. 5. Παχυσαρκία: H παχυσαρκία αυξάνει τον κίνδυνο καρκίνου του μαστού καθώς αυξάνει τα επίπεδα των οιστρογόνων. Η παραγωγή των οιστρογόνων στις γυναίκες μετά την εμμηνόπαυση γίνεται κυρίως μέσα σε λιπώδη ιστό (μετατροπή των επινεφριδικών ανδρογόνων σε οιστρογόνα από την αρωματάση, ένα ένζυμο που βρίσκεται κυρίως στο λίπος). Τον Ιούνιο του 2009 ανακοινώθηκε από το Αμερικανικό Ίδρυμα για την έρευνα του Καρκίνου (AICR παρέμειναν άτεκνες, που δεν είχαν πλήρεις κυήσεις (διάρκεια εννέα μηνών) ή) ότι η συσσώρευση σωματικού λίπους σε ποσοστά άνω του κανονικού ευθύνεται για το 17% των κρουσμάτων καρκίνου του μαστού στις Η.Π.Α. 6. Κάπνισμα: πρόσφατες μελέτες απέδειξαν ότι η κατανάλωση ενός πακέτου τσιγάρων ημερησίως, από γυναίκες προ της εμμηνόπαυσης για εννέα περίπου χρόνια, αυξάνει δραστικά τον κίνδυνο εμφάνισης καρκίνου του μαστού κατά σχεδόν 60%. 7. Λήψη αντισυλληπτικών χαπιών: με επιφύλαξη αναφερόμαστε σε αυτόν τον παράγοντα καθώς μελέτες δεν έχουν αποδείξει ακόμα τη συσχέτιση της λήψης αντισυλληπτικών με την εμφάνιση καρκίνου του μαστού. 8. Ιστορικό Καρκίνου: γυναίκες που έχουν εμφανίσει προηγουμένως καρκίνο της μήτρας, των ωοθηκών ή του μαστού έχουν αυξημένες πιθανότητες να εμφανίσουν έναν 2ο καρκίνο στο μαστό. 9. Καθιστική Ζωή: Η τακτική άσκηση πριν την έναρξη της έμμηνου ρύσης μπορεί να μειώσει τον κίνδυνο καρκίνου του μαστού μιας γυναίκας, κυρίως διότι μπορεί να καθυστερήσει την έναρξη της έμμηνου ρύσεως, να επιμηκύνει τον χρόνο μεταξύ των περιόδων ή να ελαττώσει τον αριθμό των εμμηνορυσιακών κύκλων, μειώνοντας έτσι την έκθεση της γυναίκας στα οιστρογόνα. 10. Θεραπεία Ορμονικής Υποκατάστασης: προσφέρει ανακούφιση από τα συμπτώματα της εμμηνόπαυσης, ωστόσο, η μακροχρόνια χρήση της μετά την εμμηνόπαυση αυξάνει τον κίνδυνο ανάπτυξης καρκίνου του μαστού. 2.2 Εξόρυξη Γνώσης από Ιατρικά δεδομένα O ρόλος της πληροφορικής έχει εδραιωθεί πλέον στα περισσότερα συστήματα ανά το κόσμο. Η χρησιμοποίηση ηλεκτρονικών υπολογιστών στα περισσότερα νοσοκομεία,αλλά και σε υπόλοιπους οργανισμούς που έχουν σχέση με την ιατρική περίθαλψη των ανθρώπων έδωσε τη δυνατότητα να αποθηκευτεί μεγάλος όγκος ιατρικών δεδομένων και να υπάρχει εύκολη πρόσβαση σε αυτά. Τα δεδομένα αυτά, που αποθηκεύονται πλέον σε ψηφιακή μορφή, αφορούν εγγραφές ασθενών στο αρχείο, τις ασθένειες του κάθε ανθρώπου, τα φάρμακα που το χορηγούνται, τη θεραπεία που έχει ακολουθηθεί, δημογραφικά στοιχεία κτλ. Ωστόσο, όλος αυτός ο όγκος των ιατρικών δεδομένων παρότι είναι πολύ χρήσιμος, παρουσιάζει δυσκολίες η μελέτη τους. Χωρίς την χρήση τεχνικών εξόρυξης γνώσης είναι δύσκολο να εξαχθεί κάποια χρήσιμη πληροφορία για τα ιατρικά δεδομένα διότι τα δεδομένα αυτά έχουν πολλές παραμέτρους και πολλά ετερογενή χαρακτηριστικά που καθιστούν την εξόρυξη μία πρόκληση για κάθε αναλυτή.[2] 12

13 Διάφορες τεχνικές χρησιμοποιούνται για την λήψη ιατρικών αποφάσεων και πιο συγκεκριμένα για διαγνώσεις και προγνώσεις καρκίνου. Οι επεξηγηματικές και οι επαναληπτικές μέθοδοι είναι οι τεχνικές που χρησιμοποιούνται πιο συχνά κατά τη διαδικασία της εξόρυξης γνώσης από ιατρικά δεδομένα. Οι πιο σημαντικές δυσκολίες που συναντούν οι ερευνητές στο τομέα της εξόρυξης γνώσης στο τομέα της ιατρικής είναι: 1. Η ετερογένεια των ιατρικών δεδομένων: Τα ιατρικά δεδομένα χωρίς να έχουν υποστεί κάποια προ-επεξεργασία είναι ογκώδη και ετερογενή. Τα δεδομένα αυτά αποθηκεύονται ύστερα από εξετάσεις του ασθενούς, από εικόνες (π.χ. ακτινογραφίες) και εργαστηριακά δεδομένα. Ο συνδυασμός αυτών των δεδομένων μπορεί να είναι αναγκαίος για την πρόγνωση, τη διάγνωση και τη περίθαλψη ενός ασθενούς, παρότι είναι τελείως διαφορετικά μεταξύ τους. Γι αυτό το λόγο δεν μπορούν να αγνοηθούν.[3] 2. Τα ηθικά, νομικά και κοινωνικά ζητήματα: Τα ιατρικά δεδομένα που συλλέγονται στις βάσεις δεδομένων αφορούν ανθρώπινα θέματα υγείας γι αυτό το λόγο υπάρχει ένα μεγάλο ηθικό και νομικό πλαίσιο έτσι ώστε να καλύπτει τη προσβολή του ασθενούς ή την άσκοπη χρήση των δεδομένων του.[3] Όπως έχει αναφερθεί τα ιατρικά δεδομένα βρίσκουν άμεση εφαρμογή στην εξόρυξη γνώσης λόγω του μεγάλου όγκου τους και τις πολυπλοκότητάς τους. Ωστόσο ένας τομέας της ιατρικής που παρουσιάζει ιδιαίτερο ερευνητικό ενδιαφέρων σε σχέση με την εξόρυξη δεδομένων είναι η Ογκολογία. Σε αυτό το τομέα έχει παρατηρηθεί μια αρκετά μεγάλη αύξηση στο ερευνητικό ενδιαφέρον διότι είναι ένα δύσκολο ζήτημα για ανάλυση.[2] Υπάρχουν πάρα πολλά είδη καρκίνου, που εμφανίζονται σε διάφορα μέρη του ανθρώπινου σώματος σε κάθε ηλικία. Επίσης υπάρχουν μικρές λεπτομέρειες που πρέπει να λάβει υπόψη του ένας ερευνητής όπως για παράδειγμα το μέγεθος του όγκου ή το αν ο ασθενής έχει ακολουθήσει θεραπεία με χημειοθεραπείες, η διάρκεια ζωής του ασθενούς κ.α. Ακόμη είναι αναγκαίο να υπάρχει διακριτικότητα αλλά και σεβασμός των ερευνητών προς τους ασθενείς λόγω των προσωπικών δεδομένων. 2.3 Τεχνικές κατηγοριοποίησης σε δεδομένα καρκίνου του μαστού Η εξόρυξη γνώσης από δεδομένα ογκολογίας αποτελεί ένα δύσκολο αλλά παράλληλα και ενδιαφέρον κομμάτι έρευνας λόγω του τεράστιου όγκου των δεδομένων και των πολλών χαρακτηριστικών που πρέπει να ληφθούν υπόψη κατά τη διάρκεια της έρευνας. Κατά αυτόν το τρόπο η εξόρυξη γνώσης από δεδομένα καρκίνου του μαστού είναι διαδεδομένη λόγω της συχνότητας εμφάνισης του συγκεκριμένου τύπου καρκίνου (μεγάλος αριθμός κρουσμάτων άρα και μεγάλο dataset) και των αρκετών χαρακτηριστικών που πρέπει να υποστούν μια προ-επεξεργασία για την επιλογή των καταλληλότερων. Για την εξόρυξη δεδομένων, χρησιμοποιείται συνήθως η μέθοδος της κατηγοριοποίησης (classification). Η μέθοδος αυτή έχει χρησιμοποιηθεί στις περισσότερες έρευνες της υπάρχουσας βιβλιογραφίας σχετικά με την εξόρυξης γνώσης από δεδομένα ογκολογίας. Πιο συγκεκριμένα έχουν χρησιμοποιηθεί οι παρακάτω τεχνικές : 13

14 Δέντρα απόφασης (Decision Trees) : Τα δέντρα απόφασης (Decision Trees) είναι μία από τις πιο γνωστές τεχνικές κατηγοριοποίησης η οποία χρησιμοποιείται ευρέως στην εξόρυξη γνώσης. Κατά την εφαρμογή ενός δέντρου απόφασης κατασκευάζεται ένα δέντρο του οποίου τα φύλλα αναπαριστούν την κατηγοριοποίηση, όπου κάθε φύλλο είναι και μία κλάση και οι διακλαδώσεις αναπαριστούν τους διαχωρισμούς που πραγματοποιούνται κάθε φορά για να γίνει η κατηγοριοποίηση (Cha & Tappert) [4]. Εικόνα 2.1 Απλό δένδρο απόφασης ( Μέθοδοι Παλινδρόμησης : Οι Μέθοδοι Παλινδρόμησης είναι από τα βασικά εργαλεία της στατιστικής. Έχουν ως σκοπό τη δημιουργία μοντέλων πρόβλεψης και σχετίζουν τη τιμή μιας εξαρτημένης συνεχούς μεταβλητής με τις τιμές από μία ομάδα ανεξάρτητων μεταβλητών [5]. Η ανάλυση με τις μεθόδους παλινδρόμησης χρησιμοποιείται σε ευρεία κλίμακα για προβλέψεις και η χρήση τους έχει άμεση σχέση με τη μηχανική μάθηση. Support Vector Machines (SVM): Τα Support Vector Machines (SVM) είναι μια δημοφιλής μέθοδος μηχανικής μάθησης η οποία χρησιμοποιείται στην κατηγοριοποίηση και την παλινδρόμηση. Τα SVM βασίζονται στο στοιχείο του Structural Risk Minimization[6]. Η ιδέα για το Structural Risk Minimization είναι να υπάρχει μία υπόθεση h για την οποία μπορούμε να εγγυηθούμε το μικρότερο δυνατό σφάλμα[7].to πραγματικό λάθος της h είναι η πιθανότητα η h να είναι λανθασμένη σε ένα τυχαίο τεστ εκπαίδευσης. Τα SVM βρίσκουν την υπόθεση h, η οποία ελαχιστοποιεί ένα άνω όριο του 14

15 πραγματικού λάθους. Χρησιμοποιούνται σε διάφορες ερευνητικές εργασίες εξόρυξης γνώσης όπως σε γονιδιακές αναλύσεις, στην ανάλυση της βιωσιμότητας ασθενών με καρκίνο κ.α. Νευρωνικά δίκτυα (Neural Nets) : Νευρωνικό δίκτυο ονομάζεται ένα κύκλωμα διασυνδεδεμένων νευρώνων. Πρόκειται για ένα αφηρημένο αλγοριθμικό κατασκεύασμα το οποίο εμπίπτει στον τομέα της υπολογιστικής νοημοσύνης, όπου στόχος του νευρωνικού δικτύου είναι η επίλυση κάποιου υπολογιστικού προβλήματος. Ο υπολογισμός του προβλήματος γίνεται με βάση την προσομοίωση της λειτουργίας των βιολογικών νευρωνικών δικτύων. Τα νευρωνικά δίκτυα είναι εφαρμόσιμα σχεδόν σε κάθε κατάσταση στην οποία ισχύει μια σχέση μεταξύ μεταβλητών πρόβλεψης. Ενδεικτικά αντιπροσωπευτικά παραδείγματα προβλημάτων στα οποία η ανάλυση των νευρωνικών δικτύων έχει εφαρμοστεί με επιτυχία είναι ιατρική διάγνωση, χρηματιστηριακές προβλέψεις, παρακολούθηση της κατάστασης των μηχανημάτων κ.α. Δίκτυα Bayes (Bayes Networks) : Ένα δίκτυο Bayes, είναι ένα γραφικό πιθανολογικό μοντέλο (ένα είδος στατιστικού μοντέλου), που αντιπροσωπεύει ένα σύνολο τυχαίων μεταβλητών και τις εξαρτήσεις τους μέσω ενός κατευθυνόμενου άκυκλου γράφου. Για παράδειγμα, ένα δίκτυο Bayes θα μπορούσε να αντιπροσωπεύει τις σχέσεις μεταξύ πιθανολογικών ασθενειών και συμπτωμάτων. Δεδομένων των συμπτωμάτων, το δίκτυο μπορεί να χρησιμοποιηθεί για να υπολογίσει τις πιθανότητες της παρουσίας διαφόρων ασθενειών. Τα δίκτυα Bayes χρησιμοποιούνται συχνά για την μοντελοποίηση της γνώσης σε θέματα ιατρικής όπως στην υπολογιστική βιολογία, βίοπληροφορική, (γονίδιο ρυθμιστικών δικτύων, πρωτεϊνική δομή, γονιδιακή ανάλυση της έκφρασης) ιατρική, ανίχνευση καρκινικών όγκων κ.α. Όλες οι παραπάνω μέθοδοι κατηγοριοποίησης καθώς και η τεχνική της κατηγοριοποίησης έχουν χρησιμοποιηθεί σε πολλές έρευνες για την εξόρυξη γνώσης από δεδομένα ογκολογίας. 15

16 Κεφάλαιο Εξόρυξη γνώσης από εικόνες Εισαγωγή Οι πρόοδοι στην καταγραφή εικόνας και στις τεχνολογίες αποθήκευσης αυτών έχουν οδηγήσει σε μια τεράστια αύξηση των βάσεων δεδομένων εικόνας. Ένας τεράστιος αριθμός από εικόνες όπως οι δορυφορικές, οι ιατρικές εικόνες, και οι ψηφιακές φωτογραφίες παράγονται κάθε ημέρα. Αυτές οι εικόνες, εάν αναλυθούν, μπορούν να αποκαλύψουν χρήσιμες πληροφορίες στους χρήστες. Δυστυχώς, είναι δύσκολο ή ακόμα και αδύνατο για τον άνθρωπο να ανακαλύψει την υποκείμενη γνώση και τα πρότυπα στις εικόνες όταν έχουμε να διαχειριστούμε μια μεγάλη συλλογή από αυτές. Η εξόρυξη γνώσης από εικόνες κερδίζει γρήγορα την προσοχή μεταξύ των ερευνητών στον τομέα της εξόρυξης δεδομένων, της εξόρυξης πληροφοριών, και των βάσεων δεδομένων πολυμέσων λόγω της δυνατότητας ανακάλυψης χρήσιμων προτύπων που μπορούν να οδηγήσουν τους διάφορους ερευνητικούς τομείς σε νέες περιοχές. Συστήματα εξόρυξης γνώσης από εικόνες που μπορούν αυτόματα να εξαγάγουν σημαντικές πληροφορίες (γνώση) είναι ολοένα και πιο πολύ σε ζήτηση. Η θεμελιώδης πρόκληση στην εξόρυξη γνώσης από εικόνες είναι να καθορίσει πώς η χαμηλού επιπέδου, αντιπροσώπευση ενός εικονοστοιχείου που περιλαμβάνεται σε μια ακατέργαστη εικόνα μπορεί αποδοτικά και αποτελεσματικά να οδηγηθεί σε επεξεργασία για να προσδιορίσει τις υψηλού επιπέδου σχέσεις και αντικείμενα. Με άλλα λόγια, η εξόρυξη γνώσης από εικόνες εξετάζει την εξαγωγή της υπονοούμενης γνώσης, την σχέση των στοιχείων εικόνας, ή άλλων προτύπων που αποθηκεύονται με όχι ρητό τρόπο στις βάσεις δεδομένων εικόνας. Η έρευνα στη εξόρυξη γνώσης από εικόνες μπορεί να κατηγοριοποιηθεί σε δύο κύριες κατευθύνσεις. Η πρώτη κατεύθυνση περιλαμβάνει τις εξαρτώμενες από το πεδίο εφαρμογές όπου ο κύριος σκοπός είναι να εξαχθούν τα πιο σχετικά χαρακτηριστικά από τις εικόνες σε μια μορφή κατάλληλη για την μετέπειτα εξόρυξη δεδομένων. Η δεύτερη κατεύθυνση περιλαμβάνει τις γενικές εφαρμογές όπου εστιάζουμε στην παραγωγή προτύπων από εικόνες που ίσως είναι χρήσιμα στην κατανόηση της αλληλεπίδρασης μεταξύ των υψηλού επιπέδου ανθρώπινων αντιλήψεων για τις εικόνες και των χαμηλών χαρακτηριστικών γνωρισμάτων αυτών. Το τελευταίο μπορεί να οδηγήσει σε βελτιώσεις της ακρίβειας ανάκτησης των εικόνων από τις βάσεις δεδομένων εικόνας. 3.2 Θέματα εξόρυξης γνώσης από εικόνες Η εξόρυξη γνώσης από εικόνες απαιτεί τη σύμπραξη της τεχνολογίας εξόρυξης δεδομένων και επεξεργασίας εικόνας προκειμένου να συνδράμει στην κατεύθυνση της ανάλυσης και κατανόησης μιας ευρείας περιοχής από εικόνες. Είναι μια διεπιστημονική προσπάθεια που βασίζεται στην όραση υπολογιστών, στην επεξεργασία εικόνας, στην ανάκτηση εικόνας, στην εξόρυξη δεδομένων, στην μάθηση μηχανών, στις βάσεις δεδομένων, και στην τεχνητή νοημοσύνη. 16

17 Ενώ μερικοί από τους μεμονωμένους τομείς μπορούν να είναι αρκετά ώριμοι, η εξόρυξη γνώσης από εικόνες μέχρι σήμερα, είναι ακριβώς μια αναπτυσσόμενη ερευνητική περιοχή και είναι ακόμα σε πειραματικό στάδιο. Μιλώντας γενικά, η εξόρυξη γνώσης από εικόνες εξετάζει την εξαγωγή της υπονοούμενης γνώσης, της σχέσης των στοιχείων εικόνας, ή άλλων προτύπων που αποθηκεύονται όχι ρητά στις εικόνες, και μεταξύ της εικόνας και άλλων στοιχείων που την συνοδεύουν. Παραδείγματος χάριν, στον τομέα της αρχαιολογίας, πολλές φωτογραφίες διάφορων αρχαιολογικών περιοχών έχουν καταγραφεί και αποθηκευτεί ως ψηφιακές εικόνες. Αυτές οι εικόνες, μόλις τροφοδοτήσουν ένα σύστημα εξόρυξης γνώσης, μπορούν να αποκαλύψουν ενδιαφέροντα πρότυπα που θα μπορούσαν να ρίξουν φως στη συμπεριφορά των ανθρώπων που έζησαν σε αυτές τις χρονικές περιόδους. Σαφώς, η εξόρυξη γνώσης από εικόνες είναι διαφορετική από τη χαμηλού επιπέδου όραση υπολογιστών και τις τεχνικές επεξεργασίας εικόνας. Η εξόρυξη γνώσης από εικόνες εστιάζει στην εξαγωγή των προτύπων από μια μεγάλη συλλογή από εικόνες, ενώ η περιοχή της όρασης υπολογιστών και των τεχνικών επεξεργασίας εικόνας εστιάζουν στην κατανόηση ή/και εξαγωγή συγκεκριμένων χαρακτηριστικών γνωρισμάτων από μια ενιαία εικόνα. Ενώ φαίνεται να υπάρχει κάποια επικάλυψη μεταξύ της εξόρυξης γνώσης από εικόνες και της ανάκτησης βασισμένης στα δεδομένα (δεδομένου ότι και οι δύο εξετάζουν μια μεγάλη συλλογή εικόνων), η εξόρυξη γνώσης από εικόνες υπερβαίνει το πρόβλημα ανάκτησης των σχετικών εικόνων. Στη εξόρυξη γνώσης από εικόνες, ο στόχος είναι η ανακάλυψη των προτύπων της εικόνας που είναι σημαντικά μέσα σε μια δεδομένη συλλογή εικόνων και των σχετικών δεδομένων που συνοδεύουν αυτές (π.χ. αλφαριθμητικά δεδομένα). Ίσως η πιο κοινή παρερμηνεία της εξόρυξης γνώσης από εικόνες είναι ότι η εξόρυξη γνώσης από εικόνες είναι ακόμα ένας άλλος όρος για την αναγνώριση προτύπων. Ενώ τα δύο πιο πάνω επιστημονικά πεδία μοιράζονται έναν μεγάλο αριθμό από λειτουργίες όπως, η εξαγωγή χαρακτηριστικών γνωρισμάτων, διαφέρουν στις θεμελιώδεις υποθέσεις τους. Στην αναγνώριση προτύπων, ο στόχος είναι η αναγνώριση μερικών συγκεκριμένων προτύπων ενώ στην εξόρυξη γνώσης από εικόνες ο στόχος είναι να παραχθούν όλα τα σημαντικά πρότυπα χωρίς προγενέστερη γνώση των προτύπων που υπάρχουν στις βάσεις δεδομένων εικόνας. Μια άλλη βασική διαφορά είναι στους τύπους προτύπων που εξετάζονται από τους δύο ερευνητικούς τομείς. Στην αναγνώριση προτύπων, τα πρότυπα είναι κυρίως πρότυπα ταξινόμησης. Στην εξόρυξης γνώσης από εικόνες, οι τύποι των προτύπων είναι διαφορετικοί. Θα μπορούσαν να είναι πρότυπα ταξινόμησης, πρότυπα συσχέτισης, χρονικά πρότυπα, και χωρικά σχέδια. Τέλος, η αναγνώριση προτύπων διαπραγματεύεται μόνο με την παραγωγή και την ανάλυση προτύπων. Στην εξόρυξη γνώσης από εικόνες, αυτός είναι μόνο ένας (αν και σημαντικός) στόχος. Η εξόρυξης γνώσης από εικόνες διαπραγματεύεται όλες τις πτυχές των μεγάλων βάσεων δεδομένων εικόνας, δηλαδή το σχέδιο ευρετηρίασης, την αποθήκευση των εικόνων, καθώς και την ανάκτηση αυτών, πράγμα το οποίο δεικνύει ότι όλοι οι πιο πάνω παράγοντες πρέπει να ληφθούν σοβαρά υπόψη σε ένα σύστημα εξόρυξης γνώσης από εικόνες. Η Εικόνα 3.1 παρουσιάζει την διαδικασία εξόρυξης γνώσης από εικόνα. Οι εικόνες από μια βάση δεδομένων πρώτα υφίστανται μια διαδικασία προ-επεξεργασίας προκειμένου να βελτιωθεί η συνολική ποιότητά τους. Αυτές οι εικόνες υποβάλλονται έπειτα στους διάφορους μετασχηματισμούς με σκοπό την παραγωγή των σημαντικών εκείνων χαρακτηριστικών γνωρισμάτων. Αφού γίνει η παραγωγή των χαρακτηριστικών γνωρισμάτων, η εξόρυξη μπορεί να συνεχιστεί με την βοήθεια τεχνικών εξόρυξης δεδομένων για την ανακάλυψη σημαντικών προτύπων. Τα 17

18 προκύπτοντα πρότυπα αξιολογούνται και ερμηνεύονται για να προσδώσουν την τελική γνώση, η οποία και τελικά θα χρησιμοποιηθεί στις εφαρμογές. Εικόνα Διαδικασία εξόρυξης γνώσης από εικόνα. Η εξόρυξης γνώσης από εικόνες δεν είναι απλά μια εφαρμογή των υπαρχουσών τεχνικών εξόρυξης δεδομένων στην περιοχή της εικόνας. Αυτό συμβαίνει επειδή υπάρχουν σημαντικές διαφορές μεταξύ των σχεσιακών βάσεων δεδομένων σε σχέση με τις βάσεις δεδομένων εικόνας. Οι διαφορές αυτές μπορούν να συνοψιστούν στις : 1. Απόλυτες - Σχετικές τιμές. Στις σχεσιακές βάσεις δεδομένων, οι τιμές στοιχείων είναι σημασιολογικά σημαντικές. Παραδείγματος χάριν, «η ηλικία είναι 35» γίνεται κατανοητή καλά. Εντούτοις, στις βάσεις δεδομένων εικόνας, οι τιμές των στοιχείων αυτές καθαυτές μπορούν να μην είναι σημαντικές εκτός αν το συνολικό πλαίσιο τις υποστηρίζει. Παραδείγματος χάριν, μια γκρίζα τιμή κλίμακας 46 θα μπορούσε να εμφανιστεί σκοτεινότερη από μια γκρίζα τιμή κλίμακας 87 εάν οι περιβάλλουσες τιμές εικονοστοιχείων είναι όλες πολύ φωτεινές. 2. Χωρικές πληροφορίες (Ανεξάρτητες-Εξαρτώμενες ως προς την Θέση). Μια άλλη σημαντική διαφορά μεταξύ των σχεσιακών βάσεων δεδομένων και των βάσεων δεδομένων εικόνας είναι ότι οι υπονοούμενες χωρικές πληροφορίες είναι κρίσιμες για την ερμηνεία του περιεχομένου της εικόνας αλλά δεν υπάρχει καμία τέτοια απαίτηση στις σχεσιακές βάσεις δεδομένων. Κατά συνέπεια, οι ερευνητές εξόρυξης γνώσης από εικόνες προσπαθούν να 18

19 υπερνικήσουν αυτό το πρόβλημα με την εξαγωγή των θέση-ανεξάρτητων χαρακτηριστικών γνωρισμάτων από τις εικόνες πρώτα, πριν προσπαθήσουν να εξάγουν τα κρίσιμα-χρήσιμα πρότυπα από τις εικόνες. 3. Μοναδική-Πολλαπλάσια Ερμηνεία. Μια τρίτη σημαντική διαφορά εξετάζει την περίπτωση ύπαρξης πολλαπλάσιων ερμηνειών για τα ίδια οπτικά πρότυπα. Ο παραδοσιακός αλγόριθμος εξόρυξης δεδομένων που συσχετίζει ένα πρότυπο με μια κατηγορία (ερμηνεία) δεν θα λειτουργήσει καλά εδώ. Μια νέα κατηγορία αλγορίθμων εξόρυξης-ανακάλυψης απαιτείται για να εξυπηρετήσει τις ειδικές ανάγκες εξαγωγής χρήσιμων προτύπων από τις εικόνες. Εκτός από την ανάγκη για νέους αλγορίθμους ανακαλύψεων για την εξαγωγή προτύπων από εικόνες, διάφορα άλλα ερευνητικά ζητήματα πρέπει επίσης να επιλυθούν. Παραδείγματος χάριν, για το ανακαλυμμένο πρότυπο της εικόνας, θα πρέπει να μπορούν να παρουσιάσουν οπτικά στους χρήστες το αποτέλεσμα. Αυτό μεταφράζεται στην πιο κάτω ακολουθία των ζητημάτων: 1. Αναπαράσταση προτύπων εικόνας - πώς μπορούμε να αντιπροσωπεύσουμε το πρότυπο εικόνας έτσι ώστε οι βασισμένες στα συμφραζόμενα πληροφορίες, οι χωρικές πληροφορίες, και τα σημαντικά χαρακτηριστικά εικόνας να διατηρηθούν στο σχήμα αναπαράστασης; 2. Επιλογή χαρακτηριστικών εικόνας - ποια είναι τα σημαντικά χαρακτηριστικά γνωρίσματα εικόνας που μπορούν να χρησιμοποιηθούν στην διαδικασία εξόρυξης γνώσης έτσι ώστε τα ανακαλυμμένα πρότυπα να μπορούν να είναι οπτικά χρήσιμα και απεικονίσιμα; 3. Απεικόνιση προτύπων εικόνας - πώς να παρουσιαστούν τα εξαγχθέντα πρότυπα στο χρήστη σε ένα οπτικά πλούσιο περιβάλλον; 3.3 Τεχνικές εξόρυξης γνώσης από εικόνες Υπάρχουν διάφορες τεχνικές εξόρυξης γνώσης για την απόκτηση πληροφοριών από τις εικόνες. Αυτές οι τεχνικές περιλαμβάνουν την αναγνώριση αντικειμένου, την ταξινόμηση εικόνων, την συγκέντρωση σε συστάδες (clustering) και τμηματοποίηση (segmentation), καθώς επίσης και τους κανόνες ενοποίησης. Οι ακόλουθες υποενότητες συζητούν αυτές τις τεχνικές και πώς έχουν εφαρμοστεί στην εξόρυξη γνώσης από εικόνες Αναγνώριση Αντικειμένων Η αναγνώριση αντικειμένου είναι μια ενεργός ερευνητική περιοχή στον τομέα της επεξεργασίας εικόνας. Χρησιμοποιώντας πρότυπα αντικειμένων που είναι γνωστά, ένα σύστημα αναγνώρισης αντικειμένου βρίσκει αντικείμενα στον πραγματικό κόσμο από μια εικόνα. Αυτό είναι ένας από τους σημαντικότερους στόχους στη εξόρυξη γνώσης από εικόνες. Η αυτόματη εκμάθηση και η σημαντική εξαγωγή πληροφοριών μπορούν μόνο να πραγματοποιηθούν όταν μερικά αντικείμενα έχουν προσδιοριστεί και έχουν αναγνωριστεί από τη μηχανή. 19

20 Ένα σύστημα αναγνώρισης αντικειμένου αποτελείται χαρακτηριστικά από τέσσερα μέρη, μια πρότυπη βάση δεδομένων, έναν ανιχνευτή χαρακτηριστικών γνωρισμάτων, έναν hypothesizer και έναν ελεγκτή υπόθεσης. Η πρότυπη βάση δεδομένων περιέχει όλα τα πρότυπα που είναι γνωστά στο σύστημα. Αυτά τα πρότυπα περιέχουν τα σημαντικά χαρακτηριστικά γνωρίσματα που περιγράφουν τα αντικείμενα. Τα ανιχνευμένα πρωταρχικά χαρακτηριστικά γνωρίσματα των εικόνων στο επίπεδο εικονοστοιχείου χρησιμοποιούνται για να βοηθήσουν τον μηχανισμό παραγωγής υποθέσεων (hypothesizer) για τον ορισμό των πιθανοτήτων ταυτοποίησης των αντικειμένων στην εικόνα. Ο ελεγκτής χρησιμοποιεί πρότυπα για να ελέγξει την υπόθεση και να καθορίσει την πιθανότητα των αντικειμένων. Το σύστημα επιλέγει τελικά το αντικείμενο με την υψηλότερη πιθανότητα ως σωστό αντικείμενο Σχήματα ερωτήσεων για ανάκτηση εικόνας Η εξόρυξη γνώσης από εικόνες απαιτεί οι εικόνες να αποκτώνται σύμφωνα με κάποια κριτήρια. Οι προδιαγραφές απαίτησης μπορούν να ταξινομηθούν σε τρία επίπεδα αύξησης πολυπλοκότητας: Το επίπεδο 1 περιλαμβάνει την ανάκτηση εικόνας από τα πρωταρχικά χαρακτηριστικά γνωρίσματα όπως το χρώμα, τη σύσταση, τη μορφή ή την χωρική θέση των στοιχείων εικόνας, π.χ. "ανάκτηση εικόνων με πολύ λεπτά κόκκινα αντικείμενα στην κορυφαία δεξιά γωνία ". Το επίπεδο 2 περιλαμβάνει την ανάκτηση εικόνας από τα παραγόμενα ή λογικά χαρακτηριστικά γνωρίσματα όπως τα αντικείμενα συγκεκριμένου τύπου ή μεμονωμένα αντικείμενα ή πρόσωπα, π.χ. " ανάκτηση εικόνων της διάσκεψης στρογγυλής τραπέζης". Το επίπεδο 3 περιλαμβάνει την ανάκτηση εικόνας από τις αφηρημένες ιδιότητες, πράγμα το οποίο περιλαμβάνει ένα σημαντικό ποσό από τον υψηλού επιπέδου συλλογισμό για την έννοια ή το σκοπό των αντικειμένων ή των σκηνών που απεικονίζονται, π.χ. "ανακτήστε τις εικόνες του αγώνα ποδοσφαίρου". Oι Kazman και Kominek [8] πρότειναν τρία σχήματα ερωτήσεων για την ανάκτηση εικόνας: ερώτηση από τις συνδυαζόμενες ιδιότητες, την ερώτηση από την περιγραφή, και την ερώτηση από το περιεχόμενο εικόνας. Η ερώτηση με βάση τις συνδυαζόμενες ιδιότητες είναι ουσιαστικά πολύ παρόμοια με την κανονική κείμενοβασισμένη ερώτηση, εκτός από το ότι έχει επεκταθεί ώστε να μπορεί να χειριστεί τα στοιχεία εικόνας. Τα αποτελέσματα της ερώτησης μπορούν να είναι η εικόνα της οποίας η συνδυαζόμενη ιδιότητα-ες ικανοποιεί τις απαιτήσεις της ερώτησης συν ενδεχομένως άλλες σχετικές ιδιότητες. Η βασική ιδέα στην ερώτηση από την περιγραφή είναι ότι με την αποθήκευση της περιγραφής μαζί με κάθε εικόνα ο χρήστης μπορεί να εντοπίσει τις εικόνες ενδιαφέροντος. Η περιγραφή εικόνας καλείται συχνά ετικέτα ή λέξη κλειδί. Αυτή η περιγραφή παράγεται χαρακτηριστικά με το χέρι και ορίζεται σε κάθε εικόνα στο στάδιο προεπεξεργασίας. Ιδανικά, η 20

21 περιγραφή πρέπει να είναι χαρακτηριστική, συγκεκριμένη και σαφής. Στην πράξη, αυτή η προσέγγιση πάσχει από μειονεκτήματα του "προβλήματος λεξιλογίου" και της μη-εξελιξιμότητας. Με την εμφάνιση των μεγάλης κλίμακας αποθηκών εικόνας, τα προβλήματα του λεξιλογίου και η μη-εξελιξιμότητα που αντιμετωπίζεται από τη χειρωνακτική προσέγγιση των σχολιασμών έγινε εντονότερη. Η ανάκτηση εικόνας βασισμένη στο περιεχόμενο γίνεται μια ανάγκη. Πολλές τεχνικές έχουν αναπτυχθεί σε αυτήν την κατεύθυνση, και πολλά συστήματα ανάκτησης εικόνας έχουν δημιουργηθεί. Εμπορικά, το σύστημα QBIC της ΙΒΜ είναι πιθανώς το καλύτερο γνωστό από όλα τα συστήματα ανάκτησης περιεχομένου εικόνας. Προσφέρει την ανάκτηση από οποιοδήποτε συνδυασμό χρώμα, σύσταση ή μορφή, καθώς επίσης και λέξη κλειδί κειμένων. Χρησιμοποιεί το R*-index δέντρων για να βελτιώσει την αποδοτικότητα αναζήτησης. Αποδοτικότερες τεχνικές ευρετηρίασης, μια βελτιωμένη ενδιάμεση διεπαφή με τον χρήστη, και η δυνατότητα ψαξίματος εικόνων κλίμακας του γκρίζου έχουν ενσωματωθεί στην πιο πρόσφατη έκδοση. Το Virage είναι ένα άλλο γνωστό εμπορικό σύστημα. Αυτό είναι διαθέσιμο ως μια σειρά από ανεξάρτητες λειτουργικές μονάδες, τις οποίες οι υπεύθυνοι για την ανάπτυξη συστημάτων μπορούν να ενσωματώσουν στα προγράμματά τους. Υπάρχει επίσης ένας μεγάλος αριθμός πανεπιστημιακών πρωτοτύπων και πειραματικών συστημάτων διαθέσιμα, από τα οποία τα πιο χαρακτηριστικά είναι το Photobook, το Chabot, το VisualSEEk, το MARS, το Surfimage, και το Synapse Εποπτευόμενη και μη εποπτευόμενη ταξινόμηση εικόνων Η ταξινόμηση εικόνας και η ομαδοποίηση (clustering) είναι η εποπτευόμενη και η χωρίς επίβλεψη ταξινόμηση εικόνων σε ομάδες αντίστοιχα. Στην εποπτευμένη ταξινόμηση, μας δίνεται μια συλλογή από προ-ταξινομημένες (labeled) εικόνες, και το πρόβλημα είναι να προσδώσουμε ετικέτα σε πρόσφατες, χωρίς ετικέτα (unlabeled) εικόνες. Χαρακτηριστικά, οι δεδομένες (εκπαιδευτικές) labeled εικόνες χρησιμοποιούνται για την εκμάθηση και την περιγραφή της κατηγορίας που στη συνέχεια θα χρησιμοποιηθεί για την ετικετοποίηση κάθε νέας εικόνας. Στην χωρίς επίβλεψη ταξινόμηση (ή clustering), το πρόβλημα είναι η ομαδοποίηση μιας δεδομένης συλλογής unlabeled εικόνων σε σημαντικές συστάδες σύμφωνα με το περιεχόμενο εικόνας χωρίς προηγούμενη γνώση. Ο θεμελιώδης στόχος για την ταξινόμηση ή για την ομαδοποίηση μιας εικόνας στην εξόρυξη γνώσης από εικόνες είναι να αποκτηθούν οι πληροφορίες περιεχομένου που οι χρήστες ενδιαφέρονται από την ετικέτα του γκρουπ που συσχετίζεται με την εικόνα. Η έξυπνη ταξινόμηση της εικόνας από το περιεχόμενο είναι ένας σημαντικός τρόπος να εξαχθούν οι πολύτιμες πληροφορίες από μια μεγάλη συλλογή από εικόνες. Η λειτουργική μονάδα ταξινόμησης στο σύστημα εξόρυξης γνώσης από εικόνες αποκαλείται συνήθως ταξινομητής. Σήμερα, υπάρχουν δύο σημαντικοί τύποι ταξινομητών, οι παραμετρικοί ταξινομητές και οι μη παραμετρικοί ταξινομητές. Από την άλλη, η ομαδοποίηση των εικόνων σε συστάδες εκτελείται συνήθως στα αρχικά στάδια της διαδικασίας εξόρυξης γνώσης. Χαρακτηριστικά γνωρίσματα ή ιδιότητες που έχουν λάβει την μεγαλύτερη προσοχή στην ομαδοποίηση είναι το χρώμα, η σύσταση και η μορφή. Γενικά, οποιοιδήποτε από τα τρία, χωριστά ή σε συνδυασμό χαρακτηριστικά, θα μπορούσαν να χρησιμοποιηθούν. Υπάρχει ένας πλούτος διαθέσιμων τεχνικών ομαδοποίησης: ιεραρχικοί αλγόριθμοι ομαδοποίησης, 21

22 αλγόριθμοι διαμέρισης (partition), mixture-resolving και mode-seeking αλγόριθμοι, αλγόριθμοι κοντινότερου γείτονα, ασαφής (fuzzy) ομαδοποίηση και εξελικτικές προσεγγίσεις ομαδοποίησης. Μόλις γίνει η ομαδοποίηση των εικόνων, ένας εμπειρογνώμονας απαιτείται για να εξετάσει τις εικόνες κάθε συστάδας και για να ονομάσει τις αφηρημένες έννοιες που δεικνύει κάθε συστάδα. Oι Yu και Zhang [9] παρουσιάζουν μια χωρίς επίβλεψη προσέγγιση ομαδοποίησης και ερώτησης (επίσης γνωστή σαν ACQ για την αυτόματη ομαδοποίηση και ερώτηση) για μεγάλης κλίμακας βάσεις δεδομένων εικόνας. Το ACQ δεν απαιτεί ο αριθμός συστάδων να είναι εκ των προτέρων γνωστός και είναι αναίσθητο στο θόρυβο Εξόρυξη γνώσης με κανόνες συσχέτισης Η εξόρυξη γνώσης με κανόνες συσχέτισης χρησιμοποιείται συχνά στην ανάσυρση δεδομένων για την αποκάλυψη των ενδιαφερόντων τάσεων, των προτύπων και των κανόνων στα μεγάλα σύνολα δεδομένων. Πρόσφατα, αυτή η τεχνική εφαρμόστηκε σε μεγάλες βάσεις δεδομένων εικόνας. Υπάρχουν δύο κύριες προσεγγίσεις. η πρώτη προσέγγιση είναι η εξόρυξη από μεγάλες συλλογές των εικόνων μόνο, και η δεύτερη προσέγγιση είναι η εξόρυξη από μια συνδυασμένη συλλογή εικόνων και των σχετικών αλφαριθμητικών (alphanumeric) στοιχείων. Ένα παράδειγμα του πρώτου είδους είναι η εύρεση εάν υπάρχει κάποιο πρότυπο για μια μεμονωμένη πόλη ή μεταξύ διαφορετικών πόλεων με τη μελέτη μιας συλλογής δορυφορικών εικόνων από πόλεις των Ηνωμένων Πολιτειών. Ένα παράδειγμα της δεύτερης περίπτωσης μπορεί να περιλαμβάνει ιατρικές εικόνες και αρχεία ασθενών. Τα στοιχεία εικόνας και ιατρικά ιστορικά μπορούν να συνδυαστούν για να βρουν ενδιαφέρουσες συσχετίσεις. Η εξόρυξη γνώσης από βάσεις δεδομένων συναλλαγής είναι μια χαρακτηριστική περίπτωση της εξαγωγής κανόνων συσχετίσεων από μεγάλες βάσεις δεδομένων. Σε αυτήν την περίπτωση, ένας κανόνας συσχέτισης μπορεί να παραχθεί με την εξέταση των στοιχείων συναλλαγής. Στις βάσεις δεδομένων εικόνας, το μαρκάρισμα με το χέρι όλων των εικόνων είναι σχεδόν αδύνατο, και μπορούμε μόνο να στηριχθούμε σε αυτόματη ή ημιαυτόματη ανάλυση του περιεχομένου εικόνας, πριν πραγματοποιηθεί η εξόρυξη γνώσης στις παραγόμενες περιγραφές. Οι παραγόμενες περιγραφές θα μπορούσαν να είναι χρώμα, σύσταση, μορφή, μέγεθος κ.λπ. [10] 22

23 Κεφάλαιο Συλλογή δεδομένων μαστογραφίας Για την πρόσβαση σε πραγματικές ιατρικές εικόνες για πειραματισμό, ήταν απαραίτητη η συνεργασία με ένα διαγνωστικό κέντρο. Όπως έχει αναφερθεί και παραπάνω τα δεδομένα μαστογραφίας δόθηκαν από το Διαγνωστικό Κέντρο, Μαγνητική Πατρών. Για τις ανάγκες των πειραμάτων χρησιμοποιήθηκαν 11 φωτογραφίες μαστογραφίας με κακοήθη όγκο. Με βάση τις φωτογραφίες αυτές δημιουργήθηκαν άλλες 11 όμοιες με την μόνη διαφορά ότι ο όγκος μετεβλήθη σε λευκό χρώμα, δεδομένου ότι ήταν αναγκαία η μάσκα καταλληλότητας των φωτογραφιών. Τέλος, να σημειωθεί ότι, οι κακοήθεις όγκοι αναγνωρίστηκαν από έναν ειδικό ιατρό. Έτσι, από τις 30 αυτές μαστογραφίες δημιουργήθηκε το σύνολο δεδομένων. 4.2 Καθαρισμός εικόνων Επειδή οι εικόνες περιέχουν δεδομένα που δεν χρειάζονται στο σύνολο δεδομένων, (το όνομά του στήθους, τον κωδικό της εικόνας κλπ.) αρχικά έπρεπε να καθαριστούν. Ο καθαρισμός κάθε φωτογραφίας, έτσι ώστε τελικά να υπάρχει μόνο το στήθος έγινε μέσα από τη διαδικασία της κατάτμησης εικόνας (Rapidminer, image segments). Παρακάτω στο σχήμα 4.1 είναι η εικόνα πριν και μετά τον καθαρισμό. Εικόνα 4.1- Πριν και μετά το καθαρισμό. 23

24 Η διαδικασία με την οποία έγινε ο καθαρισμός είναι ο operator mammogram selector (Sub-process ) της εικόνας 4.2. Εικόνα 4.2- ο operator mammogram selector(sub-process ) που γίνεται ο καθαρισμός της φωτογραφίας. Ο συγκεκριμένος περιέχει εσωτερικά διαδικασίες που γίνεται ο καθαρισμός όπως φαίνεται στην εικόνα 4.3. Εικόνα 4.3-συνολική διαδικασία καθαρισμού. 24

25 Αρχικά διαβάζεται η εικόνα, στη συνέχεια παράγονται δύο πανομοιότυπες με την αρχική. Η πρώτη γίνεται ασπρόμαυρη, ενώ η δεύτερη αφού φιλτραριστεί μέσω του φίλτρου Gaussian Blur χωρίζεται σε τμήματα (statistical region mergin) ανάλογα με την ένταση των χρωμάτων (λευκό - μαύρο) που έχει σε κάθε περιοχή η φωτογραφία. Στη συνέχεια απαλείφονται τα τμήματα που δε μας ενδιαφέρουν (οι περιοχές έξω από το στήθος) ενώνονται τα τμήματα που έμειναν, συνδυάζονται με την αρχική ασπρόμαυρη φωτογραφία(image combinator) και αποθηκεύεται η νέα φωτογραφία που περιέχει μόνο το στήθος. Στην παρακάτω εικόνα φαίνεται ο χωρισμός της φωτογραφίας σε τμήματα μέσω του operator statistical region mergin. Εικόνα 4.4 χωρισμός της φωτογραφίας σε τμήματα μέσω του operator statistical region mergin. 25

26 4.3 Trainable Segmentation (Εκπαιδεύσιμη κατάτμηση ) - Θεωρητική προσέγγιση Κατά την εκπαιδεύσιμη κατάτμηση τα δεδομένα εκπαίδευσης είναι μια οποιαδήποτε φωτογραφία. Σε αυτά τα δεδομένα συνήθως ένας εμπειρογνώμονας (π.χ. στην περίπτωση του ιατρικού τομέα) πρέπει να ταξινομήσει τα τμήματα των δεδομένων εκπαίδευσης στις δύο κλάσεις που θέλει να τα κατηγοριοποιήσει. (π.χ. στο παρών έγγραφο οι κλάσεις καρκίνος, όχι_καρκίνος). Το αποτέλεσμα αυτής της διαδικασίας είναι τα ίδια δεδομένα αλλά πλέον κατηγοριοποιημένα (labeled data). Εικόνα 4.5 (a) Trainable Segmentation Για την εξαγωγή περισσότερων πληροφοριών σχετικά με τα εικονοστοιχεία της εικόνας, ορισμένες μέθοδοι εξαγωγής χαρακτηριστικών γνωρισμάτων πρέπει να διεξαχθούν στις εικόνες εκπαίδευσης (προ-επεξεργασία). Οι μέθοδοι που χρησιμοποιούνται για την εξαγωγή χαρακτηριστικών περιγράφονται στην ενότητα Όταν τα κατηγοριοποιημένα δεδομένα και τα χαρακτηριστικά που έχουν εξαχθεί είναι διαθέσιμα, τα δεδομένα εικόνας μπορούν να μετατραπούν σε δεδομένα εκπαίδευσης σε δομημένη μορφή. Τα δομημένα δεδομένα είναι ένας πίνακας δεδομένων, όπου κάθε γραμμή ή αλλιώς παράδειγμα (examples) αντιπροσωπεύει κάθε δεδομένο εκπαίδευσης ( δηλαδή τα κόκκινα και πράσινα σημεία στην εικόνα εκπαίδευσης όπως το παράδειγμα στην εικόνα 4.6).Παράλληλα κάθε στήλη αντιπροσωπεύει τα διαφορετικά χαρακτηριστικά που έχουν χρησιμοποιηθεί στην εικόνα (π.χ. στο παρών έγγραφο τα χαρακτηριστικά reduce noise κ.τ.λ.). 26

27 4.3.1 Trainable Segmentation Εξαγωγή Χαρακτηριστικών Προκειμένου να ανακτηθούν περισσότερες πληροφορίες σχετικά με την εικόνα και τα εικονοστοιχεία αυτής, εφαρμόζεται η εξαγωγή χαρακτηριστικών. Η εξαγωγή χαρακτηριστικών ξεχωρίζει για την εφαρμογή των διαφόρων μετασχηματισμών σε μια αρχική εικόνα. Οι μετασχηματισμοί που μπορούν να χρησιμοποιηθούν είναι το Gaussian Blur με διαφορετικά μεγέθη πυρήνα (σ = 1, 2, 4, 8, 16, 32), οι καμπύλες Hessian με διαφορετικές κλίμακες (σ=2,4,8),η ανίχνευση ακμών κ.α. Η χρησιμοποίηση των κατάλληλων μετασχηματισμών εξαρτάται από το είδος της εικόνας και από τα χαρακτηριστικά που πρέπει να εξαχθούν από την κάθε εικόνα. 4.4 Προ-επεξεργασία και εξαγωγή Χαρακτηριστικών από μαστογραφίες Η φάση της προ-επεξεργασίας των μαστογραφιών είναι αναγκαία για την ορθή εξαγωγή των χαρακτηριστικών γνωρισμάτων, και πρέπει να γίνει με προσοχή, διότι αυτές οι εικόνες είναι δύσκολο να ερμηνευθούν. Υπάρχουν διάφοροι τρόποι προεπεξεργασίας εικόνας (αφαίρεση του θορύβου, ανίχνευση ακμής κλπ.) όπως έχει αναφερθεί και παραπάνω αλλά θα πρέπει να χρησιμοποιείται με τέτοιο τρόπο ώστε να βελτιώνεται τελικά η αποτελεσματικότητα των τεχνικών εξόρυξης δεδομένων. Έτσι, στο παρόν έγγραφο αρχικά χρησιμοποιείται το φίλτρο μείωσης θορύβου, το φίλτρο shadow operator,και το φίλτρο rank ώστε να επιτευχθεί κάποια μείωση του θορύβου και να φαίνεται η εικόνα πιο καθαρή. Σαν αποτέλεσμα θα έχουμε μια πιο καθαρή και σαφέστερη τελική μαστογραφία. Επιπρόσθετα, το φίλτρο gaussian blur και το φίλτρο gabor χρησιμοποιείται προκειμένου να ενισχυθούν οι δομές της εικόνας σε διαφορετικές κλίμακες και να βελτιωθεί η ανίχνευση των ακμών αντίστοιχα. Στην εικόνα 4.5 παρατηρούμε πως χρησιμοποιούνται αυτά τα φίλτρα. Αρχικά, διαβάζεται η φωτογραφία, αντιγράφεται σε πολλές ίδιες όπου σε καθεμία από αυτές χρησιμοποιείται κάποιο από τα παραπάνω φίλτρα. Επιπλέον, επιλέγονται τα καρκινικά και τα υγιή σημεία μέσω του operator point of interest και όλα μαζί εισέρχονται σαν είσοδος στον operator trainable segmentation για τη δημιουργία του συνόλου δεδομένων(example-set). 27

28 Εικόνα 4.5(b) προ-επεξεργασία μαστογραφιών και δημιουργία του συνόλου δεδομένων Δημιουργία του συνόλου δεδομένων Για τη δημιουργία του συνόλου δεδομένων κάθε φωτογραφία, αφού διαβαστεί αντιγράφεται σε 6 πανομοιότυπες και σε καθεμία από αυτές χρησιμοποιείται κάποιο φίλτρο όπως αναφέρθηκε παραπάνω. Εκτός από τη κάθε φωτογραφία διαβάζεται και η μάσκα αυτής που είναι η ίδια φωτογραφία με έντονο λευκό χρώμα στο σημείο του όγκου. Το γεγονός αυτό βοηθάει στον καλύτερο εντοπισμό των καρκινικών σημείων αλλά και στην καλύτερη εξαγωγή των χαρακτηριστικών κάθε μαστογραφίας. Ταυτόχρονα, μέσω του operator Point Generator, τα καρκινικά και τα υγιή σημεία κάθε φωτογραφίας μπορούν να επιλεχτούν και χειροκίνητα για οποιαδήποτε αλλαγή σε περίπτωση που ο εντοπισμός αυτών μέσω της μάσκας δεν είναι σωστός. Κάθε σημείο της μαστογραφίας έχει κάποιες συγκεκριμένες τιμές σε κάποια χαρακτηριστικά ανάλογα με την τιμή που έχουν τα παραπάνω φίλτρα σε αυτό το σημείο. 28

29 Εικόνα 4.6 Point Generator με πράσινο υγιή σημεία με κόκκινο καρκινικά σημεία. Όλα αυτά τα δεδομένα εισάγονται στην διαδικασία trainable segmentation και τα αποτελέσματα αυτής είναι ένα σύνολο δεδομένων με τα καρκινικά και τα υγιή σημεία όπου κάθε σημείο έχει 7 γνωρίσματα (attributes) μέσω των 6 φίλτρων, άλλα 2 γνωρίσματα που δείχνουν τη θέση της μαστογραφίας(x και y), ένα άλλο γνώρισμα που βγαίνει μέσω του point generator και το γνώρισμα της απόφασης (label = cancer, no_ cancer). Τα 2 αυτά γνωρίσματα προσφέρουν σημαντικό πλεονέκτημα διότι αλγόριθμος εκπαίδευσης είναι ο k-nn. Έτσι, αν βρεθεί ένα καρκινικό σημείο αυτά που θα ελεγχτούν είναι τα γειτονικά του. Αυτό είναι πολύ σημαντικό γιατί ένας όγκος είναι ενιαίος σε ένα τμήμα του στήθους και όχι διάσπαρτος σε μικρά κομμάτια σε όλο το στήθος και έτσι η πρόβλεψη γίνεται και γρηγορότερη αλλά και πιο σωστή. Η παραπάνω διαδικασία πραγματοποιείται σε 11 εικόνες και έτσι έχουμε 11 σύνολα δεδομένων. Στη συνέχεια τα 11 σύνολα δεδομένων ενώνονται σε ένα τελικό ενιαίο σύνολο. Όσον αφορά τον operator trainable segmentation η αρχική εικόνα και όλα τα χρησιμοποιούμενα φίλτρα (reduce noise, gabor filter κ.α.) τοποθετούνται ως επίπεδα (layers) από αυτόν και ο αλγόριθμος εκπαίδευσης που έχει μέσα ο operator, παίρνει για κάθε σημείο της φωτογραφίας(point) την τιμή χρώματος σε κλίμακα grayscale (από 0 έως 255) για κάθε ένα επίπεδο όπως στην εικόνα

30 Στη συνέχεια, με βάση τον αλγόριθμο εκπαίδευσης, προσπαθεί να ταξινομήσει (με επαναληπτική διαδικασία) αν ένα σημείο ανήκει στην κλάση που υποσημείωσε ο χρήστης (καρκίνος, μη_καρκίνος) ή στην άλλη κλάση, ώστε να τμηματοποιήσει αποτελεσματικά την εικόνα στις περιοχές ενδιαφέροντος. Εικόνα Το σύνολο δεδομένων μαζί με τα γνωρίσματα. Για τη δημιουργία του συνόλου δεδομένων από τις μαστογραφίες στο process trainable segmentation χρησιμοποιήθηκε ο αλγόριθμος εκπαίδευσης των Δένδρων Απόφασης (Desision Trees) που θα αναλυθεί παρακάτω. Μέσω του operator Numerical to Binominal το γνώρισμα label γίνεται από αριθμητικό διωνυμικό και όπου το σημείο είναι καρκινικό έχει την τιμή 255 αλλιώς έχει 0.Στη συνέχεια, δημιουργείται νέο γνώρισμα τύπου label με όνομα decision όπου αν η τιμή είναι 255 γίνεται cancer αλλιώς no_ cancer. 30

31 Εικόνα 4.8 δημιουργία του συνόλου δεδομένων μέσω Δένδρων Απόφασης. Στην εικόνα 4.9 βλέπουμε τη συνολική διαδικασία για τη δημιουργία ενός από τα 11 σύνολα δεδομένων. Κάθε σύνολο δεδομένων αποθηκεύεται σε ένα αρχείο excel. 31

32 Εικόνα Συνολική διαδικασία για τη δημιουργία ενός από τα 11 σύνολα δεδομένων. Όπως έχει αναφερθεί και παραπάνω τα 11 ξεχωριστά σύνολα ενώνονται σε ένα ενιαίο σύνολο δεδομένων με την παρακάτω διαδικασία. 32

33 Εικόνα 4.10 Δημιουργία ενός ενιαίου συνόλου δεδομένων. Στη συνέχεια, αναλύονται οι 5 αλγόριθμοι από όσους ελέχθησαν με τα καλύτερα αποτελέσματα. 4.6 Δένδρα Απόφασης-Θεωρητική προσέγγιση Τα δέντρα απόφασης παράγονται από αλγορίθμους που προσδιορίζουν διάφορους τρόπους διάσπασης ενός συνόλου δεδομένων σε μικρότερα τμήματα. Αυτά τα τμήματα σχηματίζουν ένα ανεστραμμένο δέντρο απόφασης που έχουν έναν αρχικό κόμβο (ρίζα) στην κορυφή του δέντρου. Το αντικείμενο της ανάλυσης εκφράζεται σε αυτόν τον κόμβο- ρίζα ως μια απλή, μονοδιάστατη απεικόνιση του περιβάλλοντος του δέντρου απόφασης. Το όνομα του πεδίου των δεδομένων που είναι το αντικείμενο της ανάλυσης εμφανίζεται συνήθως, μαζί με την εξάπλωση ή την κατανομή των τιμών που περιέχονται σε αυτόν τον τομέα. Ένα απλό δέντρο απόφασης φαίνεται στην εικόνα 2.1 του κεφαλαίου 2. Η απεικόνιση αυτού του κόμβου αντανακλά όλη τη σειρά δεδομένων δηλαδή εγγραφές, πεδία, και τιμές πεδίου που βρίσκονται στο αντικείμενο της ανάλυσης. Η ανακάλυψη του κανόνα αποφάσεως για να σχηματιστούν τα κλαδιά ή τα τμήματα κάτω από το κόμβο ρίζας βασίζεται σε μια μέθοδο που αφαιρεί τη σχέση μεταξύ του αντικειμένου της ανάλυσης και ενός ή περισσότερων πεδίων που χρησιμεύουν ως πεδία εισόδου για τη δημιουργία των κλαδιών ή των τμημάτων. Μόλις εξαχθεί η σχέση μεταξύ των δεδομένων, τότε ένας ή περισσότεροι κανόνες απόφασης που περιγράφουν τη σχέση των δεδομένων μπορούν να συνταχθούν. Οι 33

34 κανόνες μπορούν να επιλεγούν και να χρησιμοποιηθούν για να εμφανιστεί το δέντρο απόφασης, η οποία παρέχει ένα μέσο για την οπτική εξέταση και την περιγραφή του δέντρου αλλά και των σχέσεων που χαρακτηρίζουν τα δεδομένα εισόδου και εξόδου( δεδομένα εξόδου θεωρούνται τα κατηγοριοποιημένα δεδομένα ). Κάθε κανόνας ορίζει μια εγγραφή από το σύνολο δεδομένων σε έναν κόμβο η σε ένα κλαδί με βάση την τιμή του σε ένα από τα πεδία ή τις στήλες του συνόλου δεδομένων. Τα πεδία ή οι στήλες που χρησιμοποιούνται για τη δημιουργία του κανόνα ονομάζονται είσοδοι. Οι κανόνες διάσπασης εφαρμόζονται ο ένας μετά τον άλλο, με την δημιουργία κλαδιών μέσα στα υπάρχοντα κλαδιά με αποτέλεσμα την δημιουργία του χαρακτηριστικού ανεστραμμένου δέντρου απόφασης. Η ένθετη ιεραρχία των κλαδιών ονομάζεται δέντρο απόφασης, καθώς και κάθε τμήμα αυτού ονομάζεται κόμβος. Ένας κόμβος που περιέχει και άλλους κόμβους πιο κάτω από αυτόν ονομάζεται πρόγονος. Ομοίως απόγονοι είναι οι κόμβοι που βρίσκονται ιεραρχικά κάτω από τον πρόγονο. Οι τελευταίοι κόμβοι κάτω από το δέντρο απόφασης ονομάζονται φύλλα (ή τερματικοί κόμβοι) και κάθε φύλλο αποτελεί μια κλάση. Για κάθε φύλλο, ο κανόνας απόφασης παρέχει μία μοναδική διαδρομή για να εισέλθουν τα δεδομένα στην κλάση που ορίζει το συγκεκριμένο φύλλο. Όλοι οι κόμβοι, συμπεριλαμβανομένων των φύλλων, έχουν αμοιβαίους αποκλειστικούς κανόνες εκχώρησης. Ως αποτέλεσμα, εγγραφές από το σύνολο δεδομένων μπορούν να βρεθούν σε έναν κόμβο μόνο. Μόλις οι κανόνες απόφασης καθορισθούν, είναι πλέον δυνατόν να χρησιμοποιηθούν για την πρόβλεψη και την ταξινόμηση σε νέα δεδομένα που δεν έχουν χρησιμοποιηθεί στην εκπαίδευση. Παρά το γεγονός ότι τα δέντρα απόφασης έχουν αναπτυχθεί και χρησιμοποιηθεί ευρέως για πάνω από 50 χρόνια (μία από τις πρώτες χρήσεις των δέντρων απόφασης ήταν στη μελέτη της τηλεοπτικής μετάδοσης από τον Belson το 1956), πολλές νέες μορφές εξελίσσονται που υπόσχονται νέες συναρπαστικές δυνατότητες στους τομείς της εξόρυξης δεδομένων και της μηχανικής μάθησης στα χρόνια που έρχονται. Για παράδειγμα, μία νέα μορφή του δέντρου απόφασης περιλαμβάνει τη δημιουργία των τυχαίων δασών. Τα τυχαία δάση (random forests) είναι πολύ-δέντρα που χρησιμοποιούν τυχαία δείγματα από το σύνολο δεδομένων και τεχνικές επαναστάθμισης για την ανάπτυξη πολλαπλών δέντρα που, όταν συνδυαστούν, προβλέπουν ισχυρότερη πρόβλεψη και καλύτερη διάγνωση σχετικά με τη δομή του δέντρου απόφασης. Για να δημιουργήσουμε ένα δέντρο απόφασης από ένα συγκεκριμένο σύνολο δεδομένων χρησιμοποιείται ένας αλγόριθμος που ονομάζεται επαγωγέας (inducer). Υπάρχουν αρκετές επαγωγείς όπως ο ID3 ο C4.5 και ο αλγόριθμος CART Δένδρα απόφασης Rapid Miner Στην παρούσα διπλωματική ο αλγόριθμος που χρησιμοποιήθηκε μέσω του προγράμματος Rapid Miner σαν δένδρο απόφασης λειτουργεί παρόμοια με τον C4.5 ή τον αλγόριθμο CART. Σε γενικές γραμμές, ο αλγόριθμος του δένδρου επαγωγής λειτουργεί ως εξής. Όποτε ένας νέος κόμβος δημιουργείται σε ένα ορισμένο στάδιο, ένα χαρακτηριστικό επιλέγεται να μεγιστοποιήσει τη διακριτική δύναμη αυτού του κόμβου σε σχέση με τα παραδείγματα που έχουν εκχωρηθεί στο συγκεκριμένο υπό-δέντρο. Η διακριτική δύναμη μετριέται με ένα κριτήριο το οποίο μπορεί να επιλεγεί από το χρήστη (information gain, gain ratio, gini index, κ.τ.λ.). 34

35 Ο αλγόριθμος σταματά σε διάφορες περιπτώσεις: Κανένα χαρακτηριστικό δε φθάνει σε ένα κατώτατο όριο (minimum_gain). Το μέγιστο βάθος έχει φτάσει. Υπάρχουν λιγότερα από κάποιο συγκεκριμένο αριθμό παραδειγμάτων (minimal_size_for_split) στο τρέχων υπό-δέντρο. Τέλος, το δέντρο κλαδεύεται, δηλαδή τα φύλλα που δεν βοηθούν στη μεγιστοποίηση της διακριτική δύναμης σε όλο το δέντρο, αφαιρούνται. 4.7 Αλγόριθμοι εκπαίδευσης Naïve Bayes O ταξινομητής Naïve Bayes όπως έχει αναφερθεί και παραπάνω είναι ένας απλός πιθανολογικός ταξινομητής βασιζόμενος στην εφαρμογή του θεωρήματος Bayes με ισχυρές υποθέσεις ανεξαρτησίας. Ένας πιο περιγραφικός όρος για το συγκεκριμένο πιθανολογικό ταξινομητή θα ήταν "ανεξάρτητο μοντέλο χαρακτηριστικών" (independent feature model). Με απλούς όρους, ο ταξινομητής Naïve Bayes υποθέτει ότι η παρουσία (ή απουσία) ενός συγκεκριμένου χαρακτηριστικού της μιας κλάσης δεν έχει σχέση με την παρουσία (ή απουσία) οποιοδήποτε άλλου χαρακτηριστικού, δεδομένης της μεταβλητής της κλάσης. Για παράδειγμα, ένα φρούτο μπορεί να θεωρηθεί ένα μήλο αν είναι κόκκινο, στρογγυλό, και έχει περίπου 15 cm διάμετρο. O ταξινομητής Naïve Bayes θεωρεί ότι όλα αυτά τα χαρακτηριστικά συμβάλλουν ανεξάρτητα με την πιθανότητα ότι αυτό το φρούτο είναι ένα μήλο, χωρίς να ενδιαφέρεται αν σχετίζονται μεταξύ τους ή αν υπάρχουν και άλλα χαρακτηριστικά. Γενικότερα οι συγκεκριμένος ταξινομητής μπορεί να εκπαιδευτεί πολύ αποτελεσματικά σε επιτηρούμενο περιβάλλον μάθησης (supervised learning) Αλγόριθμος Naïve Bayes RapidMiner Στην παρούσα διπλωματική ο αλγόριθμος που χρησιμοποιήθηκε είναι ο απλός ταξινομητής Naïve Bayes που επιστρέφει το μοντέλο εκπαίδευσης χρησιμοποιώντας εκτιμώμενες κανονικές κατανομές. 35

36 4.8 Αλγόριθμοι εκπαίδευσης SVM ( Support Vector Machines ) Οι μηχανές διανυσμάτων υποστήριξης (SVM, επίσης, διανύσματα υποστήριξης δικτύων) [11] είναι μοντέλα επιβλεπόμενης μάθησης με σχετικούς αλγορίθμους μάθησης που αναλύουν τα δεδομένα και αναγνωρίζουν μοτίβα, που χρησιμοποιούνται για την ταξινόμηση και την ανάλυση παλινδρόμησης. Ο βασικός SVM παίρνει ένα σύνολο από δεδομένα εισόδου και προβλέπει, για κάθε δεδομένο εισόδου, μία από τις δύο δυνατές κλάσης κατηγοριοποίησης, καθιστώντας τον έναν μη-γραμμικό πιθανολογικό δυαδικό ταξινομητή. Λαμβάνοντας υπόψη ένα σύνολο παραδειγμάτων εκπαίδευσης, ένας αλγόριθμος εκπαίδευσης SVM χτίζει ένα μοντέλο που εκχωρεί νέα παραδείγματα σε μία από τις δύο κλάσεις. Ένα μοντέλο SVM είναι μια αναπαράσταση των παραδειγμάτων ως σημεία στο χώρο, χαρτογραφώντας με τέτοιο τρόπο τα παραδείγματα των ξεχωριστών κλάσεων ώστε να χωρίζονται από ένα σαφές κενό που είναι όσο το δυνατόν πιο ευρύ. Τα νέα παραδείγματα στη συνέχεια χαρτογραφούνται και αυτά στον ίδιο χώρο και προβλέπονται να ανήκουν σε μια κλάση ανάλογα σε πια πλευρά του διακένου πέφτουν επάνω. Εκτός από την εκτέλεση γραμμικής ταξινόμησης, οι αλγόριθμοι SVM μπορούν να εκτελέσουν αποτελεσματικά μη-γραμμική ταξινόμηση αλλάζοντας τον τύπο του πυρήνα δηλαδή χαρτογραφώντας τα δεδομένα εισόδου σε χώρους χαρακτηριστικών πολλών διαστάσεων. Πιο τυπικά, ένας αλγόριθμος SVM κατασκευάζει ένα υπέρ-επίπεδο ή ένα σύνολο υπέρ-επίπεδων σε υψηλούς ή άπειρους χώρους, που μπορούν να χρησιμοποιηθούν για την ταξινόμηση, παλινδρόμηση, ή άλλες εργασίες. Διαισθητικά, ένας καλός διαχωρισμός επιτυγχάνεται από το υπέρ-επίπεδο που έχει τη μεγαλύτερη απόσταση από το πλησιέστερο σημείο δεδομένων εκπαίδευσης οποιασδήποτε κλάσης (ονομάζεται και λειτουργικό περιθώριο ή functional margin), δεδομένου ότι σε γενικές γραμμές όσο μεγαλύτερο το περιθώριο τόσο χαμηλότερο το σφάλμα γενίκευσης του ταξινομητή. Τέλος να τονιστεί ότι ο αρχικός αλγόριθμος SVM εφευρέθηκε από τον Βlantimir Ν. Vapnik και η σημερινή έκδοση του προτάθηκε από τον Vapnik και την Corinna Cortes το Αλγόριθμος SVM RapidMiner Εφαρμόζει τον SVM ταξινομητή που μοντελοποιήθηκε από τον Chih Chang- Chung και τον Chih-Jen Lin ( Ο συγκεκριμένος αλγόριθμος υποστηρίζει τους τύπους SVM C-SVC και nu-svc σαν μέθοδο ταξινόμησης, καθώς και epsilon-svr και nu-svr για εργασίες παλινδρόμησης. Επιπλέον, η επιλογή «μία κλάση» δίνει τη δυνατότητα να εκπαιδευτεί από μία μόνο κλάση από παραδείγματα. Σε αντίθεση με άλλους αλγορίθμους εκπαίδευσης SVM, ο libsvm υποστηρίζει επίσης ταξινόμηση σε πολλές κλάσεις ( και όχι μόνο δύο) με βάση την κλιμάκωση Platt για κατάλληλες τιμές «εμπιστοσύνης» μετά την εφαρμογή του μοντέλου εκπαίδευσης σε ένα σύνολο δεδομένων. 36

37 4.9 Αλγόριθμοι εκπαίδευσης Γενετικός αλγόριθμος Ο όρος γενετικός αλγόριθμος, (συντομογραφία ΓΑ), χρησιμοποιήθηκε για πρώτη φορά από τον John Holland, του οποίου το βιβλίο Adaptation in Natural and Aritificial Systems (1975) συνέβαλε στη δημιουργία και την σημερινή ανάπτυξη που έχει ο τομέας της έρευνας και της εφαρμογής των γενετικών αλγορίθμων. Ο Holland φαντάστηκε ότι κάποιες ιδέες και λειτουργίες που εφαρμόζει η φύση στα συστήματά της θα μπορούσαν να έχουν αποτελέσματα, αν ενσωματώνονταν σε αλγόριθμους για υπολογιστές, ώστε να προκύψουν αποδοτικές τεχνικές επίλυσης δύσκολων προβλημάτων. Αποτέλεσμα της εργασίας του Ηolland ήταν οι Γενετικοί Αλγόριθμοι, μια καινούργια εξελισσόμενη και πολλά υποσχόμενη τεχνική αναζήτησης και βελτιστοποίησης. Η βασική ιδέα που κρύβεται πίσω από της Γενετικούς Αλγόριθμους (ΓA) είναι η μίμηση των μηχανισμών της φύσης. Ας πάρουμε, για παράδειγμα, τους λαγούς και πώς αναπαράγονται και εξελίσσονται από γενιά σε γενιά. Έστω ότι αρχίζουμε να παρατηρούμε ένα συγκεκριμένο πληθυσμό από λαγούς. Όπως είναι φυσικό, κάποιοι από αυτούς θα είναι πιο γρήγοροι και πιο εύστροφοι από τους άλλους. Αυτοί οι γρηγορότεροι και εξυπνότεροι λαγοί έχουν λιγότερες πιθανότητες να αποτελέσουν γεύμα κάποιας αλεπούς και, άρα από τη στιγμή που καταφέρνουν να επιβιώσουν θα ασχοληθούν με την αναπαραγωγή του είδους τους. Φυσικά, θα υπάρχει και ένας μικρός αριθμός αργών και λιγότερο εύστροφων λαγών, που θα καταφέρουν να επιβιώσουν μόνο και μόνο επειδή στάθηκαν τυχεροί. Όλοι αυτοί οι λαγοί, που έχουν καταφέρει να επιβιώσουν, θα αρχίσουν την παραγωγή της επόμενης γενιάς, μιας γενιάς που θα συνδυάζει όλα τα χαρακτηριστικά των μελών της προηγούμενης, συνδυασμένα με διάφορους τρόπους μεταξύ τους. Έτσι, μερικοί αργοί λαγοί θα αναμειχθούν με κάποιους γρήγορους, κάποιοι γρήγοροι με γρήγορους, κάποιοι εύστροφοι λαγοί με κάποιους μη εύστροφους και ούτω καθεξής. Οι μικροί λαγοί της επόμενης γενιάς θα είναι, κατά μέσο όρο, γρηγορότεροι και εξυπνότεροι από τους προγόνους τους, αφού από την προηγούμενη γενιά επιβίωσαν περισσότεροι γρήγοροι και έξυπνοι λαγοί. Ευτυχώς, για την διατήρηση της φυσικής ισορροπίας, και οι αλεπούδες υφίστανται την ίδια διαδικασία αναπαραγωγής, διαφορετικά οι λαγοί θα γινόντουσαν υπερβολικά γρήγοροι και έξυπνοι για να μπορούν να τους πιάσουν.[12] Η δομή της Γενετικού αλγορίθμου Όπως έχει αναφερθεί, οι ΓA χρησιμοποιούν ορολογία δανεισμένη από το χώρο της φυσικής Γενετικής. Κατ αναλογία με τα έμβια όντα, αναφέρονται σε άτομα ή γονότυπα μέσα σε έναν πληθυσμό. Πολύ συχνά αυτά τα άτομα καλούνται επίσης χρωμοσώματα. Αυτό μπορεί να οδηγήσει σε λάθος συμπεράσματα, αν γίνει παραλληλισμός με τους φυσικούς οργανισμούς, όπου κάθε κύτταρο κάθε συγκεκριμένου είδους περιέχει έναν συγκεκριμένο αριθμό χρωμοσωμάτων (τα ανθρώπινα κύτταρα για παράδειγμα περιέχουν 46 χρωμοσώματα). Στους ΓA αναφερόμαστε σχεδόν πάντα σε άτομα με ένα μόνο χρωμόσωμα. Τα χρωμοσώματα αποτελούνται από διάφορα στοιχεία που ονομάζονται γονίδια και είναι διατεταγμένα σε γραμμική ακολουθία. Κάθε γονίδιο επηρεάζει την κληρονομικότητα ενός ή περισσότερων χαρακτηριστικών. Τα γονίδια που επηρεάζουν συγκεκριμένα 37

38 χαρακτηριστικά γνωρίσματα του ατόμου βρίσκονται και σε συγκεκριμένες θέσεις του χρωματοσώματος που καλούνται τόποι (loci). Κάθε χαρακτηριστικό γνώρισμα του ατόμου (όπως για παράδειγμα το χρώμα μαλλιών) έχει την δυνατότητα να εμφανιστεί με διάφορες μορφές, ανάλογα με την κατάσταση στην οποία βρίσκεται το αντίστοιχο γονίδιο που το επηρεάζει. Οι διαφορετικές αυτές καταστάσεις, που μπορεί να πάρει το γονίδιο, καλούνται αλληλόμορφα (τιμές χαρακτηριστικού γνωρίσματος). Κάθε γονότυπος (που στις περισσότερες περιπτώσεις είναι ένα μόνο χρωμόσωμα) αναπαριστά μια πιθανή λύση σε ένα πρόβλημα. Το μεταφρασμένο περιεχόμενο του συγκεκριμένου χρωμοσώματος καλείται φαινότυπος και καθορίζεται από τον χρήστη, ανάλογα με τις ανάγκες και τις απαιτήσεις του. Μια διαδικασία εξέλιξης που εφαρμόζεται πάνω σε έναν πληθυσμό χρωμοσωμάτων αντιστοιχεί σε ένα εκτενές ψάξιμο μέσα σε ένα χώρο από πιθανές λύσεις. Απαραίτητη προϋπόθεση για την επιτυχημένη έκβαση ενός τέτοιου ψαξίματος αποτελεί η εξισορρόπηση δύο διαδικασιών που είναι προφανώς αντικρουόμενες, της εκμετάλλευσης και διατήρησης των καλύτερων λύσεων και της όσο το δυνατόν καλύτερης εξερεύνησης όλου του διαστήματος. Η εκτενής χρησιμοποίηση των ΓA ως εργαλείο βελτιστοποίησης είναι εύκολο να δώσει σε κάποιον την εντύπωση ότι οι ΓA είναι αποκλειστικά αλγόριθμοι βελτιστοποίησης. Αυτό, όμως, δεν ευσταθεί, διότι υπάρχουν περιπτώσεις, όπου οι ΓA αποτυγχάνουν να βρουν μια προφανή βέλτιστη λύση μέσα σε ένα συγκεκριμένο χώρο ψαξίματος. Βέβαια, αυτό μπορεί να οφείλεται σε ακατάλληλη κωδικοποίηση του προβλήματος. Για την αποφυγή δημιουργίας τέτοιας λανθασμένης εντύπωσης, οι ΓA πρέπει να αντιμετωπίζονται και ως μια ιδεατή προσομοίωση μιας φυσικής διαδικασίας, τέτοια ώστε να ενσωματώνει τους στόχους και τους σκοπούς της διαδικασίας αυτής. Παρόλα αυτά, δεν πρέπει να παραγνωρίζουμε ότι η βελτιστοποίηση αποτελεί ένα πολύ σημαντικό κομμάτι των εφαρμογών των ΓA. Κατά τη διάρκεια της τελευταίας δεκαετίας, το ενδιαφέρον για τις διαδικασίες βελτιστοποίησης έχει αυξηθεί τόσο πολύ, ώστε να υπάρχουν πολύπλοκα και με πολύ αυστηρούς περιορισμούς προβλήματα, που να μπορούν να λυθούν μόνο προσεγγιστικά από τους σημερινούς υπολογιστές. Οι ΓA αποσκοπούν στην εξυπηρέτηση τέτοιου είδους προβλημάτων. Εάν και ανήκουν στην κατηγορία των στοχαστικών αλγορίθμων, διαφέρουν σε πολύ μεγάλο βαθμό από τους αλγόριθμους που εφαρμόζουν τυχαίες μεθόδους αναζήτησης και βελτιστοποίησης, αφού είναι σε θέση να συνδυάζουν στοιχεία και από άμεσες και από στοχαστικές τεχνικές αναζήτησης. Αυτός είναι και ο κύριος λόγος για τον οποίο οι ΓA θεωρούνται πιο εύρωστοι από της υπάρχουσες μεθόδους άμεσης αναζήτησης. Ένα άλλο εξίσου σημαντικό χαρακτηριστικό τους είναι ότι διατηρούν έναν πληθυσμό πιθανών λύσεων πάνω στον οποίο πειραματίζονται, σε αντίθεση με άλλες μεθόδους αναζήτησης που επεξεργάζονται ένα μόνο σημείο του διαστήματος αναζήτησης. Ο ΓA πραγματοποιεί αναζήτηση σε διάφορες κατευθύνσεις με το να διατηρεί έναν πληθυσμό από πιθανές λύσεις και να υποστηρίζει καταγραφή και ανταλλαγή πληροφοριών μεταξύ αυτών των κατευθύνσεων. Ο πληθυσμός υφίσταται μια προσομοιωμένη γενετική εξέλιξη. Σε κάθε γενιά, οι σχετικά καλές λύσεις αναπαράγονται, ενώ οι σχετικά κακές αφαιρούνται. Ο διαχωρισμός και η αξιολόγηση των διαφόρων λύσεων γίνεται με την βοήθεια μιας αντικειμενικής συνάρτησης ή συνάρτησης ικανότητας (objective ή fitness function), η οποία παίζει το ρόλο του περιβάλλοντος μέσα στο οποίο εξελίσσεται ο πληθυσμός. Στη βιβλιογραφία αναφέρεται και ως συνάρτηση αξιολόγησης και συνάρτηση καταλληλότητας. 38

39 Η δομή ενός απλού γενετικού αλγορίθμου έχει σε γενικές γραμμές ως εξής: Κατά την διάρκεια της επαναληπτικής εκτέλεσης t, ο ΓA διατηρεί ένα πληθυσμό από πιθανές λύσεις: P(t)={x 1 2,.,x n t }. Κάθε λύση x i t αξιολογείται και δίνει ένα μέτρο της καταλληλότητας και ορθότητάς της. Αφού ολοκληρωθεί η αξιολόγηση όλων των στοιχείων του πληθυσμού, δημιουργείται ένας πληθυσμός (επαναληπτική εκτέλεση t + 1) που προκύπτει από την επιλογή των πιο κατάλληλων στοιχείων του πληθυσμού της προηγούμενης γενιάς. Μερικά μέλη από τον καινούριο αυτό πληθυσμό υφίστανται μετατροπές με τη βοήθεια των διαδικασιών της μετάλλαξης (mutation) και της διασταύρωσης (crossover ή mating) σχηματίζοντας νέες πιθανές λύσεις. Η διασταύρωση συνδυάζει τα στοιχεία δύο χρωμοσωμάτων γονέων για να δημιουργήσει δύο νέους απογόνους ανταλλάσσοντας αντίστοιχα κομμάτια από της γονείς. Για παράδειγμα, έστω ότι οι γονείς αναπαριστώνται με διανύσματα πέντε διαστάσεων (a1,b1,c1,d1,e1) και (a2,b2,c2,d2,e2), τότε οι απόγονοι (με σημείο διασταύρωσης crossover point = 2) είναι οι (a1,b1, c2,d2,e2 ) και (a2, b2, c1, d1, e1). Διαισθητικά μπορούμε να πούμε ότι η διασταύρωση εξυπηρετεί την ανταλλαγή πληροφοριών μεταξύ διαφορετικών πιθανών λύσεων. Εδώ πρέπει να γίνει η εξής παρατήρηση. Αν οι μεταβλητές στα παραπάνω διανύσματα είναι δυαδικές, τότε κάθε διάνυσμα αναπαριστά την τιμή μιας μεταβλητής, δηλαδή ένα χρωμόσωμα. Στην περίπτωση που είναι πραγματικές, τότε καθεμία είναι ένα χρωμόσωμα, δηλαδή κάθε διάνυσμα αναπαριστά τις τιμές πολλών μεταβλητών, δηλαδή αποτελεί ένα γονότυπο. Για παράδειγμα, η βελτιστοποίηση της συνάρτησης πολλών μεταβλητών, απαιτεί την κωδικοποίηση της λύσης με ένα γονότυπο. Η διαδικασία της μετάλλαξης αλλάζει αυθαίρετα ένα ή περισσότερα γονίδια του συγκεκριμένου χρωμοσώματος. Πραγματοποιείται με τυχαία αλλαγή γονιδίων και με πιθανότητα ίση με το ρυθμό μετάλλαξης (mutation rate). Διαισθητικά μπορούμε να πούμε ότι η μετάλλαξη εξυπηρετεί την εισαγωγή νέων πιθανών λύσεων, διαφορετικών από της υπάρχουσες, στον ήδη υπάρχοντα πληθυσμό. Ο ΓA για ένα συγκεκριμένο πρόβλημα πρέπει να αποτελείται από τα παρακάτω πέντε τμήματα: 1. Μια γενετική αναπαράσταση των πιθανών λύσεων του προβλήματος. 2. Ένα τρόπο δημιουργίας του αρχικού πληθυσμού των πιθανών λύσεων. 3. Μια αντικειμενική συνάρτηση αξιολόγησης που παίζει το ρόλο του περιβάλλοντος, κατατάσσοντας τις λύσεις με βάση την καταλληλότητά τους. 4. Γενετικούς τελεστές που μετατρέπουν τη σύνθεση των παιδιών. 39

40 5. Τιμές για διάφορες παραμέτρους που χρησιμοποιεί ο γενετικός αλγόριθμος (μέγεθος πληθυσμού, πιθανότητες εφαρμογής των γενετικών τελεστών, κ.λπ.). Στο σημείο αυτό πρέπει να γίνει η εξής παρατήρηση. Για να γίνει η αναπαράσταση μιας μεταβλητής, που παίρνει τιμές στο διάστημα [α, β] σε δυαδική μορφή, απαιτείται ο καθορισμός του μήκους της συμβολοσειράς. Αυτό υπολογίζεται εύκολα, αν μετατρέψουμε το άνω όριο σε δυαδικό αριθμό, και μετρήσουμε το μήκος της συμβολοσειράς που προκύπτει. [12] Πλεονεκτήματα των γενετικών αλγορίθμων Η χρήση των ΓA σε διάφορες εφαρμογές είναι ελκυστική για αρκετούς λόγους. Οι κυριότεροι, ίσως, είναι οι εξής : 1. Μπορούν να λύσουν δύσκολα προβλήματα γρήγορα και αξιόπιστα. Ένας από τους σημαντικούς λόγους χρήσης των ΓA είναι η μεγάλη τους αποδοτικότητα. Τόσο η θεωρία, όσο και η πράξη έχουν δείξει ότι προβλήματα που έχουν δύσκολα προσδιορισμένες λύσεις, μπορούν να αντιμετωπιστούν καλύτερα από ΓA. Είναι δε αξιοσημείωτο ότι συναρτήσεις που παρουσιάζουν μεγάλες διακυμάνσεις και καθιστούν ανεπαρκείς άλλες μεθόδους στην εύρεση των ακρότατων τους, για τους ΓA αυτές οι διακυμάνσεις δεν αποτελούν σημεία δυσχέρειας. 2. Μπορούν εύκολα να συνεργαστούν με τα υπάρχοντα μοντέλα και συστήματα. Οι ΓA προσφέρουν το σημαντικό πλεονέκτημα της χρήσης τους με προσθετικό τρόπο στα μοντέλα που χρησιμοποιούνται σήμερα, μη απαιτώντας την επανασχεδίασή τους. Μπορούν εύκολα να συνεργαστούν με τον υπάρχοντα κώδικα, χωρίς μεγάλο κόπο. Αυτό συμβαίνει, διότι χρησιμοποιούν μόνο πληροφορίες της διαδικασίας ή συνάρτησης που πρόκειται να βελτιστοποιήσουν, δίχως να ενδιαφέρει άμεσα ο ρόλος τους μέσα στο σύστημα ή σε όλη δομή του συστήματος. 3. Είναι εύκολα επεκτάσιμοι και εξελίξιμοι. Οι ΓA δεν αντιστέκονται σε αλλαγές, επεκτάσεις και μετεξελίξεις, ανάλογα με την κρίση του σχεδιαστή. Σε κάποιες εφαρμογές, έχουν αναφερθεί λειτουργίες των ΓA, που δεν είναι αντιγραμμένες από τη φύση ή που έχουν υποστεί σημαντικές αλλαγές, πάντα προς όφελος της απόδοσης. Παραλλαγές στο βασικό σχήμα δεν είναι απλά ανεκτές, αλλά σε ορισμένες περιπτώσεις επιβάλλονται. 4. Μπορούν να συμμετέχουν σε υβριδικές μορφές με διάφορες μεθόδους. Αν και η ισχύς των ΓA είναι μεγάλη, σε κάποιες ειδικές περιπτώσεις προβλημάτων, 40

41 όπου οι μέθοδοι συμβαίνει να έχουν πολύ υψηλή αποδοτικότητα, λόγω εξειδίκευσης, υπάρχει η δυνατότητα χρησιμοποίησης του υβριδικού σχήματος ΓA με άλλη μέθοδο. Αυτό είναι αποτέλεσμα της μεγάλης ευελιξίας των ΓA. 5. Εφαρμόζονται σε πολύ περισσότερα πεδία από κάθε άλλη μέθοδο. Το χαρακτηριστικό, που τους εξασφαλίζει αυτό το πλεονέκτημα, είναι η ελευθερία επιλογής των κριτηρίων που καθορίζουν την επιλογή μέσα στο τεχνικό περιβάλλον. Έτσι, ΓA μπορούν να χρησιμοποιηθούν στην οικονομία, στο σχεδιασμό μηχανών, στην επίλυση μαθηματικών εξισώσεων, στην εκπαίδευση Νευρωνικών Δικτύων και σε πολλούς άλλους τομείς. 6. Δεν απαιτούν περιορισμούς στις συναρτήσεις που επεξεργάζονται. Ο κύριος λόγος που καθιστά τις παραδοσιακές μεθόδους δύσκαμπτες και ακατάλληλες για πολλά προβλήματα είναι η απαίτησή τους για ύπαρξη περιορισμών, ύπαρξη παραγώγων κτλ. Τέτοιου είδους ιδιότητες είναι αδιάφορες για τους ΓA πράγμα που τους κάνει κατάλληλους για μεγάλο φάσμα προβλημάτων. 7. Δεν ενδιαφέρει η σημασία της υπό εξέταση πληροφορίας. Η μόνη «επικοινωνία» του ΓA με το περιβάλλον του είναι η αντικειμενική συνάρτηση. Αυτό εγγυάται την επιτυχία του ανεξάρτητα από τη σημασία του προβλήματος. Βέβαια αυτό δε σημαίνει ότι δεν υπάρχουν άλυτα προβλήματα για τους ΓA. Όπου, δεν τα καταφέρνουν, η αιτία είναι η φύση του χώρου που ερευνούν και όχι το πληροφοριακό περιεχόμενο του προβλήματος. 8. Έχουν από τη φύση τους το στοιχείο του παραλληλισμού. Οι ΓA σε κάθε τους βήμα επεξεργάζονται μεγάλες ποσότητες πληροφορίας, αφού κάθε άτομο θεωρείται αντιπρόσωπος πολλών άλλων. Έχει υπολογιστεί ότι η αναλογία αυτή είναι της τάξεως, δηλαδή 10 άτομα αντιπροσωπεύουν περίπου Είναι, λοιπόν, προφανές ότι μπορούν να καλύψουν με αποδοτικό ψάξιμο μεγάλους χώρους σε μικρούς χρόνους. 9. Είναι η μόνη μέθοδος που κάνει ταυτόχρονα εξερεύνηση του χώρου αναζήτησης και εκμετάλλευση της ήδη επεξεργασμένης πληροφορίας. Ο συνδυασμός αυτός σπάνια συναντάται σε οποιαδήποτε άλλη μέθοδο. Με το τυχαίο ψάξιμο γίνεται καλή εξερεύνηση του χώρου, αλλά δεν γίνεται εκμετάλλευση της πληροφορίας. Αντίθετα, με την αναζήτηση με μικρά άλματα στη συνάρτηση (hillclimbing) γίνεται καλή εκμετάλλευση της πληροφορίας, αλλά όχι καλή εξερεύνηση. Συνήθως τα δύο αυτά χαρακτηριστικά είναι ανταγωνιστικά και το επιθυμητό είναι να συνυπάρχουν και τα δύο προς όφελος της όλης διαδικασίας. Οι ΓA επιτυγχάνουν το 41

42 βέλτιστο συνδυασμό εξερεύνησης και εκμετάλλευσης, πράγμα που τους κάνει ιδιαίτερα αποδοτικούς και ελκυστικούς. 10. Επιδέχονται παράλληλη υλοποίηση. Οι ΓA μπορούν να εκμεταλλευτούν τα πλεονεκτήματα των παράλληλων μηχανών, αφού λόγω της φύσης τους, εύκολα μπορούν να δεχτούν παράλληλη υλοποίηση. Το χαρακτηριστικό αυτό αυξάνει ακόμη περισσότερο την απόδοσή της, ενώ σπάνια συναντάται σε ανταγωνιστικές μεθόδους. [12] Γενετικός αλγόριθμος βελτιστοποίησης-rapid Miner Μετά από αυτή την θεωρητική προσέγγιση, θα πρέπει να αναλυθεί o γενετικός αλγόριθμος που χρησιμοποιήθηκε στη παρούσα διπλωματική και συγκεκριμένα ο γενετικός αλγόριθμος βελτιστοποίησης του προγράμματος Rapid Miner. Είναι ένας γενετικός αλγόριθμος για την επιλογή χαρακτηριστικών που πραγματοποιεί τη μετάλλαξη από την εναλλαγή των χαρακτηριστικών σε ενεργά και μη ενεργά. Επιπλέον, η επιλογή γίνεται από τον τροχό της ρουλέτας και τη διασταύρωση με την εναλλαγή των χρησιμοποιημένων χαρακτηριστικών. Πιο συγκεκριμένα, ο γενετικός αλγόριθμος λειτουργεί ως εξής: 1. Δημιούργησε έναν αρχικό πληθυσμό που αποτελείται από population_size άτομα. Κάθε χαρακτηριστικό ενεργοποιείται με πιθανότητα p_initialize. 2. Για όλα τα άτομα του πληθυσμού Εκτέλεσε μετάλλαξη, π.χ. άλλαξε τα χρησιμοποιημένα χαρακτηριστικά σε αχρησιμοποίητα με πιθανότητα p_mutation και αντίστροφα. Επέλεξε δύο άτομα από τον πληθυσμό και εκτέλεσε διαστάρωση με πιθανότητα p_crossover. Ο τύπος της διασταύρωσης μπορεί να επιλεγεί από τη μεταβλητή crossover_type. 3. Εκτελέσε την επιλογή, χαρτογράφησε όλα τα άτομα σε τμήματα με μία ρουλέτα όπου το μέγεθος είναι ανάλογο με την ικανότητα του ατόμου, και σχεδιάσε population_size άτομα τυχαία σύμφωνα με πιθανότητα της. 4. Όσο βελτιώνεται η κατάσταση, επιστρέφετε στο 2. Αν το σύνολο περιέχει γνωρίσματα αξίας(value series) με blocknumbers, όλο το μπλοκ θα πρέπει να ενεργοποιείται και να απενεργοποιείται. 42

43 4.10 Αλγόριθμοι εκπαίδευσης Αλγόριθμος πλησιέστερου γείτονα (K-NN) Ο αλγόριθμος k-πλησιέστερου γείτονα (k-nn) είναι μια μέθοδος για την ταξινόμηση αντικειμένων με βάση παραδείγματα εκπαίδευσης που είναι «πλησιέστερα» στο χώρο των χαρακτηριστικών(feature space).o K-NN είναι ένα είδος lazy αλγορίθμου δηλαδή ο αλγόριθμος λειτουργεί προσεγγιστικά σε τοπικό επίπεδο και όλοι οι υπολογισμοί αναβάλλονται μέχρι την κατηγοριοποίηση (classification). Ο k-nn είναι μεταξύ των πιο απλών αλγορίθμων της μηχανικής μάθησης: ένα αντικείμενο έχει κατηγοριοποιηθεί από την πλειοψηφία των γειτόνων του, με το αντικείμενο να υπάγεται στην κλάση στην οποία έχει τους πιο πολλούς k πλησιέστερους γείτονες. (το k είναι ένας θετικός ακέραιος, συνήθως μικρός). Αν k = 1, τότε το αντικείμενο απλώς καταχωρείται στην κλάση του πλησιέστερου γείτονα. Οι γείτονες λαμβάνονται από ένα σύνολο αντικειμένων για τα οποία η σωστή κατάταξη είναι γνωστή. Αυτό μπορεί να θεωρηθεί ως το σύνολο εκπαίδευσης για τον αλγόριθμο, αν και κανένα ρητό στάδιο εκπαίδευσης δεν απαιτείται. Να τονιστεί ότι ο k-nn αλγόριθμος είναι ευαίσθητος στην τοπική δομή των δεδομένων. Εικόνα 4.11 Κατηγοριοποίηση μέσω k-nn αλγορίθμου. 43

44 Αλγόριθμος Τα παραδείγματα εκπαίδευσης είναι διανύσματα σε ένα πολυδιάστατο χώρο χαρακτηριστικών, το καθένα με μια ετικέτα κλάσης. Η φάση της εκπαίδευσης του αλγορίθμου, αποτελείται μόνο από την αποθήκευση των χαρακτηριστικών διανυσμάτων και των ετικετών κλάσης των δειγμάτων εκπαίδευσης. Στη φάση της κατηγοριοποίησης, το k είναι μια καθορισμένη σταθερά από το χρήστη, και ένα μη κατηγοριοποιημένο διάνυσμα (unlabeled vector) ταξινομείται στην κλάση στην οποία ανήκουν οι περισσότεροι k γείτονες του.( εικ. 4.11). Συνήθως η Ευκλείδεια απόσταση χρησιμοποιείται για την εύρεση των k κοντινότερων γειτόνων. Ωστόσο αυτό ισχύει μόνο για συνεχείς μεταβλητές. Σε περιπτώσεις όπως η ταξινόμηση κειμένου, χρησιμοποιείται άλλο είδος μέτρησης όπως η μετρική επικάλυψη (ή απόσταση Hamming). Συχνά, η ακρίβεια ταξινόμησης του Κ-NN μπορεί να βελτιωθεί σημαντικά αν η μέτρηση απόστασης γίνει μέσω εξειδικευμένων αλγορίθμων, όπως ο αλγόριθμος πλησιέστερου γείτονα μεγάλου περιθωρίου (Large Margin Nearest Neighbor) ή ο αλγόριθμος ανάλυσης γειτονικών στοιχείων (Neighbourhood components analysis). Ένα μειονέκτημα της βασικής ταξινόμησης με βάση την «πλειοψηφία» είναι ότι οι κλάσεις με τα πιο συχνά παραδείγματα τείνουν να κυριαρχήσουν την πρόβλεψη του νέου διανύσματος, δεδομένου ότι τείνουν να έχουν περισσότερους k πλησιέστερους γείτονες, λόγω του μεγάλου αριθμού τους [13]. Ένας τρόπος να ξεπεραστεί αυτό το πρόβλημα είναι να σταθμιστεί η ταξινόμηση, λαμβάνοντας υπόψη την απόσταση από το σημείο δοκιμής που πρέπει να κατηγοριοποιηθεί, σε κάθε k πλησιέστερους γείτονες του Επιλογή παραμέτρων Η καλύτερη επιλογή του k εξαρτάται κυρίως από τα δεδομένα. Γενικά, μεγαλύτερες τιμές του k μειώνουν την επίδραση του θορύβου κατά την ταξινόμηση, αλλά κάνουν τα όρια μεταξύ των τάξεων λιγότερο διακριτά. Ένα καλό k μπορεί να επιλεγεί από διάφορες «έξυπνες» ευρετικές τεχνικές, για παράδειγμα, την διασταυρωμένη επικύρωση (cross-validation). Η ειδική περίπτωση όπου η κλάση προβλέπεται να είναι η κλάση του πλησιέστερου δείγματος εκπαίδευσης (δηλαδή όταν το k = 1) ονομάζεται ο αλγόριθμος πλησιέστερου γείτονα. Η έκδοση του k-nn αλγορίθμου που χρησιμοποιείται στη παρούσα διπλωματική και πιο συγκεκριμένα στο Rapid Miner είναι η ίδια με την παραπάνω, εκτός από το γεγονός ότι υπάρχει επίσης, η παράμετρος weighted vote (αληθές, ψευδές) που υποδεικνύει αν οι ψήφοι πρέπει να σταθμίζονται με ομοιότητα. 44

45 Κεφάλαιο Προηγούμενες εργασίες Πριν προχωρήσουμε στα πειραματικά αποτελέσματα θα γίνει μια περιληπτική αναφορά σε παρόμοιες εργασίες καθώς τα τελευταία χρόνια έχουν γίνει αρκετές έρευνες στον τομέα της εξόρυξης δεδομένων ογκολογίας και πιο συγκεκριμένα στην αναγνώριση καρκίνου του στήθους. Ο Amir Fallahi και Shahram Jafari παρουσίασαν το Σεπτέμβριο του 2011 ένα μοντέλο που σχεδιάστηκε για την αυτόματη ανίχνευση καρκίνου του μαστού μέσω ενός δικτύου Bayes. Σε αυτή την εργασία, ο αριθμός του συνόλου δεδομένων αρχικά μειώθηκε, (βάση δεδομένων Wisconsin, για καρκίνο του μαστού), έτσι ώστε τα αποτελέσματα να είναι πιο ακριβή. Για τη μείωση του συνόλου δεδομένων χρησιμοποιήθηκε η τεχνική της κατάταξης των χαρακτηριστικών, έτσι ώστε τελικά χαρακτηριστικά που δεν είναι σημαντικά να διαγραφούν. Το ποσοστό σωστής ταξινόμησης που επιτεύχθηκε με τη χρήση δικτύου Bayes είναι 98,15%. Παρά το γεγονός ότι η απόδοση είναι αρκετά καλή, το σύστημα έχει κάποιες αδυναμίες. Πρώτον, η προ-επεξεργασία του μεγάλου όγκου δεδομένων (διαλογή, χαρακτηριστικά, εξισορρόπηση κλπ) είναι μια αρκετά αργή διαδικασία, με αποτέλεσμα ο συνολικός αλγόριθμος πιθανότατα θα έχει απαιτήσεις στο χρόνο. Επιπλέον, το σύνολο δεδομένων δεν εξάχθηκε αυτόματα από φωτογραφίες μαστογραφίας, αλλά χρησιμοποιήθηκε η βάση δεδομένων Wisconsin που περιέχει ένα έτοιμο σύνολο δεδομένων από συγκεκριμένα χαρακτηριστικά. Το γεγονός αυτό μπορεί να προκαλέσει μεταβολές στην απόδοση του συστήματος, εάν τα χαρακτηριστικά των φωτογραφιών μαστογραφίας που πρέπει να ελεχθούν, είναι αρκετά διαφορετικά από το σύνολο δεδομένων της βάσης Wisconsin. Με άλλα λόγια, αυτή η τεχνική δεν μπορεί να χρησιμοποιηθεί σε φωτογραφίες με διαφορετικά χαρακτηριστικά και ιδιότητες από τη βάση δεδομένων του Wisconsin. Ο Δρ Κ. Usha Rani το Σεπτέμβριο του 2010 παρουσίασε ένα σύστημα στην ερευνητική εργασία «Παράλληλη προσέγγιση για τη διάγνωση του καρκίνου του μαστού με τη χρήση τεχνικών νευρωνικών δικτύων, η οποία ανιχνεύει αυτόματα τον καρκίνο του μαστού μέσω νευρωνικών δικτύων εφαρμόζοντας παράλληλη προσέγγιση. Τα πειραματικά αποτελέσματα δείχνουν ότι η καλύτερη απόδοση του μοντέλου είναι 92% σε πολυστρωματικά νευρωνικά δίκτυα όταν τα δείγματα εκπαίδευσης είναι 300 και τα δείγματα δοκιμής είναι 50, που είναι σημαντικά χαμηλότερο από το ποσοστό απόδοσης που παρουσιάζεται στο παρόν έγγραφο. Ειδικότερα, εάν ο αριθμός των δειγμάτων αλλάξει (π.χ. 250 δείγματα εκπαίδευσης και 100 δοκιμής) το ποσοστό σωστής ταξινόμησης μειώνεται ακόμα περισσότερο. Το ακόλουθο έγγραφο (Σύγκριση τριών τεχνικών εξόρυξης δεδομένων μέσω Γενετικού Αλγορίθμου στην ανάλυση δεδομένων για τον καρκίνο του μαστού), που δημιουργήθηκε από τον Chang Pin Wei Ming και τον Liou Der, παρουσιάζει 3 διαφορετικούς αλγόριθμους για την ανίχνευση του καρκίνου του μαστού και ουσιαστικά αναδεικνύει το γεγονός ότι ο γενετικός αλγόριθμος μπορεί να παρουσιάσει καλύτερα αποτελέσματα από ό, τι άλλες τεχνικές. Η ακρίβεια των 3 προτεινόμενων αλγορίθμων επιτεύχθηκε με τη μέθοδο της διασταυρωμένης 45

46 επικύρωσης (10-fold cross validation ). Ο πρώτος αλγόριθμος είναι ο J4.8 ο οποίος ανήκει στην κατηγορία των δέντρων απόφασης. Το μέσο ποσοστό σωστής ταξινόμησης είναι 94,35%. Όσον αφορά τον αλγόριθμο που χρησιμοποιεί νευρωνικά δίκτυα, η απόδοσή είναι 95,02%. Σε αντίθεση με αυτούς τους δύο αλγορίθμους, ο γενετικός αλγόριθμος που εφαρμόζεται στο συγκεκριμένο έγγραφο δίνει καλύτερα αποτελέσματα δεδομένου ότι το ποσοστό σωστής ταξινόμησης φθάνει το 98, 7%. Ένα σημαντικό μειονέκτημα αυτής της προσέγγισης είναι ότι το σύνολο των δεδομένων δεν εξάγεται αυτόματα από φωτογραφίες μαστογραφίας, αλλά χρησιμοποιείται η βάση δεδομένων Wisconsin για καρκίνο του μαστού, όπως και στην εργασία του Amir Fallahi και Shahram Jafari. Όπως τονίστηκε παραπάνω, το γεγονός αυτό μπορεί να προκαλέσει μεταβολές στην απόδοση του συστήματος, εφόσον οι φωτογραφίες μαστογραφίας που πρέπει να ελεγχθούν, είναι αρκετά διαφορετικές από το σύνολο δεδομένων της βάσης Wisconsin. Όσον αφορά την απόδοση του συστήματος που παρουσιάζεται στο παρόν έγγραφο, και θα αναλυθεί σε επόμενη ενότητα είναι πολύ καλύτερη από τους παραπάνω 2 αλγορίθμους (J4.8, νευρωνικά δίκτυα) και μεμονωμένα καλύτερη από το γενετικό αλγόριθμο που παρουσίασαν. Το γεγονός αυτό δείχνει ότι, γενικά, ο γενετικός αλγόριθμος ή ο συνδυασμός αυτού είναι η καλύτερη επιλογή για την επίλυση του προβλήματος της σωστής ανίχνευσης του καρκίνου του μαστού. 5.2 Πειραματικά αποτελέσματα Για τη διαπίστωση της σωστής απόδοσης του συστήματος χρησιμοποιήθηκαν δύο προσεγγίσεις. Αρχικά, η απόδοση του συστήματος επιτεύχθηκε με τη μέθοδο της διασταυρούμενης επικύρωσης (cross-validation). Αρχικά, το σύνολο δεδομένων χωρίστηκε σε 10 διαφορετικά υποσύνολα. Για τα 10 υποσύνολα 90% χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου και 10% για τον έλεγχο αυτού. Επιπλέον, για τον έλεγχο των αποτελεσμάτων της διαδικασίας cross-validation, φωτογραφίες που έχουν κακοήθη όγκο εισήλθαν σαν είσοδος και με βάση το μοντέλο εκπαίδευσης του κάθε αλγορίθμου έγινε έλεγχος αν βρίσκεται επιτυχώς ο όγκος ή όχι. Η διαδικασία αυτή έγινε μέσω του operator apply model.δηλαδή ο operator apply model έχει ως είσοδο εκτός από την εικόνα που τα δεδομένα της δεν είναι κατηγοριοποιημένα (unlabeled data), και το μοντέλο εκπαίδευσης του εκάστοτε αλγορίθμου. Η έξοδος αυτού είναι το σύνολο δεδομένων της φωτογραφίας κατηγοριοποιημένο (δημιουργείται ένα νέο χαρακτηριστικό με όνομα απόφαση(decision) και τιμές cancer, no_cancer ανάλογα αν στο σημείο αυτό έχει προβλέψει καρκίνο ή όχι. Με τον τρόπο αυτό ελέγχθηκε σε πραγματικά δεδομένα, εάν η εκτέλεση της διασταυρωμένης επικύρωσης είναι σωστή και τελικά εάν ο καρκίνος προβλέφθηκε σωστά. Σε αυτό το σημείο, να τονιστεί ότι για τους αλγορίθμους Naïve Bayes και Decision Trees χρησιμοποιήθηκε το ίδιο σύνολο δεδομένων όπως και στους άλλους αλγορίθμους με τη διαφορά ότι το σύνολο δεδομένων δεν έχει τα χαρακτηριστικά x και y που δείχνουν τη θέση των σημείων γιατί δε βοήθαγε κατά την εκπαίδευση αλλά αντιθέτων μείωνε την απόδοση. 46

47 5.2.1 Αλγόριθμος εκπαίδευσης- Naïve Bayes Για την μέτρηση της απόδοσης του αλγορίθμου Naïve Bayes χρησιμοποιήθηκε η παρακάτω διαδικασία στο Rapid Miner: Εικόνα 5.1(α) Μοντέλο εκπαίδευσης μέσω αλγορίθμου Naïve Bayes. Όπου αρχικά διαβάζεται το συνολικό excel με όλο το σύνολο δεδομένων και στη συνέχεια μέσω του process Validation εκπαιδεύεται ο εκάστοτε αλγόριθμος. Επιλέχτηκε φιλτράρισμα του συνόλου δεδομένων γιατί τα αποτελέσματα ήταν καλύτερα. Μέσω του φιλτραρίσματος του exampleset διαγράφηκαν παραδείγματα τα οποία δεν βοηθούσαν στην εκπαίδευση του μοντέλου. Δηλαδή παραδείγματα που είναι πάνω ή κάτω από κάποιες συγκεκριμένες τιμές εξαλήφθηκαν όπως φαίνεται και παρακάτω. 47

48 Εικόνα 5.1(β) Διαγραφή παραδειγμάτων που δεν πληρούν συγκεκριμένες προϋποθέσεις. Τα αποτελέσματα της παραπάνω διαδικασίας με αλγόριθμο εκπαίδευσης τον Naïve Bayes είναι τα ακόλουθα: Εικόνα 5.2 Απόδοση αλγορίθμου Naïve Bayes. Όπως φαίνεται και από τον παραπάνω πίνακα ενώ η αναγνώριση των «καρκινικών σημείων» είναι καλή, στα σημεία που δεν υπάρχει καρκίνος η απόδοση μπορεί φαινομενικά να είναι καλή αλλά τελικώς δεν είναι αφού πολλά μη-καρκινικά σημεία τα προβλέπει ως καρκινικά. Το γεγονός αυτό φαίνεται και από το πολύ χαμηλό class precision της κλάσης cancer. (45, 61%).Έτσι παρόλο που η συνολική απόδοση είναι 91,7%, δεν είναι η πραγματική απόδοση του συστήματος αφού έχει πολλά falsepositive. Στη συνέχεια το συγκεκριμένο μοντέλο εκπαίδευσης δοκιμάστηκε σε πραγματικές φωτογραφίες για τον καλύτερο έλεγχο της απόδοσης. Η διαδικασία που έγινε ο έλεγχος σε πραγματικές φωτογραφίες είναι ο παρακάτω: 48

49 Εικόνα 5.3 Πρόβλεψη καρκινικών και υγιών σημείων σε τυχαία φωτογραφία. Και σε αυτό το σημείο αρχικά διαβάζεται το exampleset και εκπαιδεύεται ο αλγόριθμος. Επιπλέον, διαβάζεται η φωτογραφία που πρέπει να ελεχθεί, φιλτράρεται όπως και κατά τη δημιουργία του συνόλου δεδομένων και υπολογίζονται οι θέσεις των καρκινικών και υγιών σημείων( operators points to es, generate id, join, generate id2) δηλαδή τα χαρακτηριστικά x και y.στη συνέχεια, το μοντέλο εκπαίδευσης καθώς και το σύνολο δεδομένων της συγκεκριμένης φωτογραφίας εισέρχονται στον operator apply model. Η έξοδος είναι το σύνολο δεδομένων της φωτογραφίας όπου για κάθε σημείο υπάρχει η πρόβλεψη αν είναι καρκινικό σημείο ή όχι όπως έχει αναφερθεί και παραπάνω κατά την δημιουργία του συνολικού συνόλου δεδομένων. Στη συνέχεια παρουσιάζεται η πρόβλεψη που έγινε σε δύο φωτογραφίες μέσω του συγκεκριμένου αλγορίθμου. Όπως παρατηρούμε τα καρκινικά σημεία έχουν προβλεφθεί σωστά αλλά εκτός αυτού και πολλά μη-καρκινικά σημεία έχουν προβλεφθεί σαν καρκινικά. Το γεγονός αυτό μειώνει κατά πολύ την απόδοση του αλγορίθμου και δεν μπορεί να θεωρηθεί σαν επιτυχές μοντέλο εκπαίδευσης. 49

50 Εικόνα 5.4- Λανθασμένη αναγνώριση καρκινικών σημείων μέσω Naïve Bayes. Εικόνα 5.5 Λανθασμένη αναγνώριση καρκινικών σημείων μέσω Naïve Bayes. 50

51 5.2.2 Αλγόριθμος εκπαίδευσης- SVM ( Support Vector Machines ) Για την μέτρηση της απόδοσης του αλγορίθμου SVM χρησιμοποιήθηκε η ίδια διαδικασία όπως και στον αλγόριθμο Naïve Bayes, όπου αρχικά διαβάζεται το συνολικό excel με όλο το σύνολο δεδομένων, στη συνέχεια φιλτράρονται τα παραδείγματα ώστε να διαγραφούν αυτά που δεν βοηθούν στην εκπαίδευση και τελικώς εκπαιδεύεται το μοντέλο μέσω του SVM αλγορίθμου. Εικόνα 5.6 Μοντέλο εκπαίδευσης μέσω SVM αλγορίθμου. Μια παράμετρος που άλλαξε στον SVM αλγόριθμο για την μεγιστοποίηση της απόδοσης είναι η class weights.mέσω αυτής, η κλάση cancer έχει πιθανότητα 0,95 και η κλάση no_ cancer 0,05. Το ποσοστό σωστής ταξινόμησης του συγκεκριμένου αλγορίθμου είναι καλύτερο σε σχέση με τον Naïve Bayes και είναι 94,98%. Εικόνα 5.7 Ποσοστό σωστής ταξινόμησης SVM αλγορίθμου. 51

52 Παρόλο που ο αλγόριθμος SVM έδωσε καλύτερα αποτελέσματα από τον Naïve Bayes και σε αυτή τη περίπτωση αρκετά μη καρκινικά σημεία προβλέπονται σαν καρκινικά. Για αυτό το λόγο έχουμε και το χαμηλό ποσοστό class precision της κλάσης cancer (59,02%). Δηλαδή και εδώ το πρόβλημα είναι ότι έχουμε πολλά falsepositive και έτσι δεν μπορεί να θεωρηθεί σαν σωστή και αξιόπιστη ταξινόμηση. Ομοίως με τον Naïve Bayes το συγκεκριμένο μοντέλο εκπαίδευσης δοκιμάστηκε σε πραγματικές φωτογραφίες για τον καλύτερο έλεγχο της απόδοσης. Η διαδικασία που έγινε ο έλεγχος σε πραγματικές φωτογραφίες είναι ο ίδια με την διαδικασία της εικόνα 5.3 με τη διαφορά ότι αλγόριθμος εκπαίδευσης είναι ο SVM. Εικόνα 5.8 Αλγόριθμος ταξινόμησης SVM. Στη συνέχεια παρουσιάζεται η πρόβλεψη που έγινε σε δύο φωτογραφίες μέσω του αλγορίθμου SVM. Παρατηρούμε ότι τα καρκινικά σημεία έχουν προβλεφθεί σωστά στην εικόνα 5.10 αλλά στην εικόνα 5.9 κάποια μη-καρκινικά σημεία έχουν προβλεφθεί σαν καρκινικά. 52

53 Εικόνα 5.9 Αναγνώριση καρκινικών σημείων μέσω SVM, παρατηρούμε ότι 4 υγιή σημεία τα έχει προβλέψει σαν καρκινικά. Εικόνα 5.10 Σωστή αναγνώριση καρκινικών σημείων μέσω SVM. 53

54 5.2.3 Αλγόριθμος εκπαίδευσης- Decision Trees Αρχικά για να βρεθεί το ποσοστό σωστής ταξινόμησης μέσω του αλγορίθμου decision trees, δοκιμάστηκε η προσθήκη φιλτραρίσματος των παραδειγμάτων ώστε να διαγραφούν αυτά που δεν βοηθούν στην εκπαίδευση, καθώς και η μη προσθήκη. Με την προσθήκη φιλτραρίσματος η απόδοση ήταν καλύτερη και τελικά επιλέχτηκε αυτή η διαδικασία για τον συγκεκριμένο αλγόριθμο: Εικόνα 5.11 Μοντέλο εκπαίδευσης μέσω Decision Tree αλγορίθμου. Όπως και παραπάνω αρχικά διαβάζεται το excel και στη συνέχεια όλα τα παραδείγματα αφού φιλτραριστούν (με τον ίδιο τρόπο όπως και στους άλλους δύο αλγορίθμους) εισέρχονται στο process Validation για να γίνει η εκπαίδευση του μοντέλου μέσω του αλγορίθμου Decision Tree. Η απόδοση του συγκεκριμένου αλγορίθμου είναι μειωμένη σε σχέση με τον SVM. Η συνολική απόδοση είναι 96,02% αλλά στην κλάση καρκίνος είναι αρκετά μειωμένη (69,23%) και λόγω του ότι η κλάση αυτή έχει λίγα παραδείγματα σε σχέση με την κλάση όχι_καρκίνος δεν επηρεάζει σχεδόν καθόλου τη συνολική απόδοση. 54

55 Εικόνα 5.12 Απόδοση Decision Tree αλγορίθμου. Και σε αυτή τη περίπτωση το πρόβλημα είναι ότι αρκετά υγιή σημεία προβλέπονται σαν καρκινικά. Το θετικό συμπέρασμα είναι ότι σχεδόν ποτέ δεν πρόβλεψε καρκινικό σημείο σαν υγιές. Η διαδικασία που έγινε ο έλεγχος σε πραγματικές φωτογραφίες είναι ίδια με τη διαδικασία της εικόνας 5.3 με τη διαφορά ότι αλγόριθμος εκπαίδευσης είναι ο Decision Tree.Στη συνέχεια παρουσιάζεται η πρόβλεψη που έγινε σε δύο φωτογραφίες μέσω του αλγορίθμου Decision Tree. Όπως παρατηρούμε τα καρκινικά σημεία έχουν προβλεφθεί σωστά αλλά προβλέφθηκαν λάθος και αρκετά υγιή και στις δύο φωτογραφίες. Εικόνα 5.13 Αναγνώριση καρκινικών σημείων μέσω Decision Tree, παρατηρούμε ότι 6 υγιή σημεία τα έχει προβλέψει σαν καρκινικά. 55

56 Εικόνα 5.14 Αναγνώριση καρκινικών σημείων μέσω Decision Tree, παρατηρούμε ότι 5 υγιή σημεία τα έχει προβλέψει σαν καρκινικά και 2 καρκινικά σαν υγιή. Και αυτή η περίπτωση ενώ έχει κάποιο ποσοστό επιτυχίας δε μπορεί να θεωρηθεί αξιόπιστη και για αυτό το λόγο έγινε περαιτέρω έλεγχος και σε άλλους αλγορίθμους (k-nn,γενετικοί αλγόριθμοι) που θα αναλυθούν παρακάτω με διάφορες τεχνικές βελτιστοποίησης ώστε τα αποτελέσματα να είναι και καλύτερα αλλά κυρίως πιο αξιόπιστα Αλγόριθμος εκπαίδευσης - Κ-ΝΝ Το καλύτερο ποσοστό σωστής ταξινόμησης με τον αλγόριθμο k-nn επιτεύχθηκε χρησιμοποιώντας φιλτράρισμα των παραδειγμάτων με σκοπό την κράτηση αυτών που μεγιστοποιούν την απόδοση. Η διαδικασία που ακολουθήθηκε είναι η ίδια όπως και με τους προηγούμενους αλγορίθμους και φαίνεται παρακάτω: 56

57 Εικόνα 5.15 Μοντέλο εκπαίδευσης μέσω k-nn αλγορίθμου. Η συνολική απόδοση του είναι 97,36% αλλά το πιο σημαντικό είναι ότι και η κλάση cancer αλλά και η no_ cancer έχουν καλή απόδοση που σημαίνει ότι η απόδοση είναι πραγματική αφού η μια δεν επηρεάζει κατά πολύ την άλλη όπως στον αλγόριθμο decision trees.επιπλέον, θα πρέπει να τονιστεί ότι αυτή η απόδοση επετεύχθηκε με την παράμετρο k να έχει τιμή 5.Τέλος, η πραγματικά καλή απόδοση φαίνεται και από το γεγονός ότι το class precision της κλάσης cancer έχει αρκετά καλή τιμή που κυμαίνεται στο 80% περίπου. Εικόνα 5.16 Ποσοστό σωστής ταξινόμησης k-nn αλγορίθμου. Αναγκαίος και σε αυτή τη περίπτωση ήταν ο έλεγχος σε πραγματικές φωτογραφίες για να ελεχθεί αν η καλή απόδοση του k-nn αλγορίθμου είναι πραγματική και δουλεύει σωστά και σε άλλες φωτογραφίες μαστογραφίας. Έτσι, με την παρακάτω 57

58 διαδικασία γίνεται ο έλεγχος σε διάφορες φωτογραφίες που είναι όμοιος με τον έλεγχο των άλλων αλγορίθμων: Εικόνα 5.17 Πρόβλεψη καρκινικών και υγιών σημείων σε τυχαία φωτογραφία. Η μόνη διαφορά είναι ότι αντί να διαβαστεί το σύνολο δεδομένων μέσω ενός αρχείου excel διαβάζεται μέσω του operator retrieve αφού όμως πριν έχει αποθηκευτεί το exampleset. Στη συνέχεια παρουσιάζεται η πρόβλεψη που έγινε σε τρείς φωτογραφίες μέσω του αλγορίθμου k-nn. Όπως παρατηρούμε τα καρκινικά σημεία έχουν προβλεφθεί σωστά. Μοναδικό μειονέκτημα ότι προβλέφθηκαν λάθος και λίγα υγιή σημεία σε μία φωτογραφία. 58

59 Εικόνα 5.18 Αναγνώριση καρκινικών σημείων μέσω k-nn όπως παρατηρούμε έχει και λανθασμένες προβλέψεις. Εικόνα 5.19 Σωστή αναγνώριση καρκινικών σημείων μέσω k-nn. 59

60 Εικόνα 5.20 Σωστή αναγνώριση καρκινικών σημείων μέσω k-nn. Όπως αναλύθηκε και στην θεωρητική προσέγγιση του αλγορίθμου, ο k-nn ελέγχει τα γειτονικά σημεία για να βρει σε πια κλάση θα τοποθετηθεί το προς έλεγχο παράδειγμα. Έτσι, η χρησιμοποίηση των θέσεων των σημείων (x και y χαρακτηριστικά ) αύξησε το ποσοστό της απόδοσης του k-nn αλγορίθμου αφού πλέον η αναγνώριση των σημείων (καρκινικών και μη) λόγω της πληροφορίας της θέσης ήταν πιο εύκολη. Γενικότερα ο k-nn έδωσε τα καλύτερα αποτελέσματα κατά τον έλεγχο σε διάφορες φωτογραφίες σε σχέση με της άλλους αλγορίθμους και τα αποτελέσματα γίνονται ακόμα καλύτερα κατά τον συνδυασμό του με τον γενετικό αλγόριθμο βελτιστοποίησης Αλγόριθμος εκπαίδευσης Κ-ΝΝ με βελτιστοποιημένη επιλογή παραδειγμάτων μέσω Γενετικού αλγορίθμου Για την αύξηση της απόδοσης του συστήματος χρησιμοποιήθηκε ένας συνδυασμός γενετικού αλγορίθμου και k-κοντινότερου γείτονα. Ο γενετικός αλγόριθμος χρησιμοποιήθηκε για να δώσει τη βέλτιστη επιλογή στα παραδείγματα του συνόλου 60

61 δεδομένων και έτσι η απόδοση να είναι καλύτερη. Η διαδικασία εκπαίδευσης του μοντέλου μέσω αυτών ων δύο αλγορίθμων φαίνεται παρακάτω στην εικόνα Εικόνα 5.21 Μοντέλο εκπαίδευσης μέσω k-nn και γενετικού αλγορίθμου. Έτσι,αφού διαβαστεί το exampleset μέσω του operator Read excel εισέρχεται στον γενετικό αλγόριθμο όπου συγκεκριμένα επιλέγονται κάποια παραδείγματα, μεταλλάσσονται με βάση τον αλγόριθμο και αν η μετάλλαξη έχει αυξήσει την απόδοση το νέο παράδειγμα κρατείται αλλιώς ξαναγίνεται η ίδια διαδικασία. Στη συνέχεια τα νέα αυτά μεταλλαγμένα παραδείγματα εισέρχονται στον operator Validation για την εκπαίδευση του μοντέλου με τον k-nn αλγόριθμο. Να τονιστεί ότι στον operator genetic algorithm για τον έλεγχο τον νέων παραδειγμάτων αν αυξάνουν την απόδοση υπάρχει ο operator Χvalidation (εικόνα 5.22). Εικόνα 5.22 Εσωτερικά του operator genetic algorithm. 61

62 Για την σωστή λειτουργία του γενετικού αλγόριθμου είναι απαραίτητα πολλά παραδείγματα. Για αυτό το λόγο δεν χρησιμοποιήθηκε φιλτράρισμα των παραδειγμάτων αλλά χρησιμοποιήθηκαν όλα ώστε τελικά να υπάρχει βελτίωση της απόδοσης. Τελικά, το ποσοστό σωστής ταξινόμησης αυξήθηκε αισθητά και έφτασε το 99,24%. Επιπλέον παρατηρούμε ότι έχουν καλό ποσοστό απόδοσης και οι δύο κλάσεις (cancer, no_ cancer) γεγονός που δείχνει ότι η συνολική απόδοση δεν επηρεάζεται από μια κλάση μόνο και άρα είναι «πραγματικά» καλή απόδοση. Τέλος, και το class precision της κλάσης cancer έχει αυξηθεί σε σχέση με τους άλλους αλγορίθμους. Εικόνα 5.23 Ποσοστό σωστής ταξινόμησης k-nn και γενετικού αλγορίθμου. Αναγκαίος και σε αυτή τη περίπτωση ήταν ο έλεγχος σε πραγματικές φωτογραφίες για να ελεχθεί αν η καλή απόδοση του συνδυασμού του γενετικού και του k-nn αλγορίθμου φαίνεται και σε πραγματικές φωτογραφίες μαστογραφίας. Έτσι, με την παρακάτω διαδικασία γίνεται ο έλεγχος σε διάφορες φωτογραφίες που είναι όμοιος με τον έλεγχο των άλλων αλγορίθμων: 62

63 Εικόνα 5.24 Πρόβλεψη καρκινικών και υγιών σημείων σε τυχαία φωτογραφία. Και σε αυτή τη περίπτωση ακολουθείται η ίδια διαδικασία με τους άλλους αλγόριθμους με τη διαφορά ότι υπάρχει και ο γενετικός αλγόριθμος βελτιστοποίησης για την καλύτερη επιλογή των «μεταλλαγμένων» παραδειγμάτων. Τα αποτελέσματα από τον έλεγχο σε διάφορες φωτογραφίες είναι πολύ θετικά. Τα καρκινικά σημεία βρίσκονται σε όλες τις φωτογραφίες και δεν υπάρχει λάθος πρόβλεψη σε υγιή σημεία όπως συνέβαινε στις προηγούμενες περιπτώσεις. 63

64 Εικόνα 5.25 Σωστή αναγνώριση καρκινικών σημείων μέσω συνδυασμού γενετικού αλγορίθμου και k-nn. Η διαφορά απόδοσης με τους άλλους αλγορίθμους είναι αισθητή και φαίνεται στις μαστογραφίες που ελέχθησαν. Πιο συγκεκριμένα στην εικόνα 5.25 ενώ οι άλλοι αλγόριθμοι έχουν προβλέψει λάθος το λιγότερο 3 σημεία σαν καρκινικά σε αυτή τη περίπτωση έχουμε μόνο σωστές προβλέψεις. Ομοίως και στην εικόνα 5.26 και 5.27 δεν έχουμε καμία λάθος πρόβλεψη. Εικόνα 5.26 Σωστή αναγνώριση καρκινικών σημείων μέσω συνδυασμού γενετικού αλγορίθμου και k-nn. 64

65 Εικόνα 5.27 Σωστή αναγνώριση καρκινικών σημείων μέσω συνδυασμού γενετικού αλγορίθμου και k-nn. 5.3 Συγκεντρωτική αξιολόγηση αλγορίθμων εκπαίδευσης Από τα αποτελέσματα των παραπάνω αλγορίθμων αλλά και από το συνολικό διάγραμμα των αποτελεσμάτων των αλγορίθμων (εικόνα ποσοστό σωστής ταξινόμησης, εικόνα 5.29 ποσοστό σωστής πρόβλεψης της κλάσης καρκίνος) γίνεται κατανοητό ότι ο συνδυασμός του γενετικού αλγορίθμου με τον k-nn δίνει το «πραγματικά» καλύτερο και πιο αξιόπιστο αποτέλεσμα για την ανίχνευση καρκίνου του μαστού από φωτογραφίες μαστογραφίας αφού οι λάθος προβλέψεις σε όσες φωτογραφίες και αν ελέχθησαν ήταν ελάχιστες % 98.00% 96.00% 94.00% 92.00% 90.00% 88.00% 86.00% Naïve Bayes SVM Decision Trees K-NN K-NN & Γενετικός αλγόριθμος Εικόνα 5.28 Συνολικό διάγραμμα απόδοσης αλγορίθμων (Συνολικό ποσοστό σωστής ταξινόμησης). 65

Δείτε περισσότερα