ΑΞΙΟΛΟΓΗΣΗ ΤΩΝ ΠΕΡΙΟΧΩΝ ΕΚΠΑΙΔΕΥΣΗΣ ΣΤΗΝ ΕΠΙΒΛΕΠΟΜΕΝΗ ΤΑΞΙΝΟΜΗΣΗ ΔΟΡΥΦΟΡΙΚΩΝ ΕΙΚΟΝΩΝ Γιώργος Χαρ. Μηλιαρέσης - Τμήμα Τοπογραφίας, Τ.Ε.Ι. Αθήνας Τριπόλεως 38, Αθήνα 104-42, Τηλ. 0977-047.123, 512.87.13 miliaresis@email.com Περίληψη: Ο προσδιορισμός του αριθμού των θεματικών τάξεων που εμπεριέχονται σε μια εικόνα και η επιλογή των αντίστοιχων περιοχών επίβλεψης, αποτελούν τους πιο καθοριστικούς παράγοντες για την επιτυχία μιας διαδικασίας επιβλεπόμενης ταξινόμησης. Σε αυτή την εργασία προσδιορίζεται η αβεβαιότητα (CU) στην ταξινόμηση ενός εικονοστοιχείου και εφαρμόζεται για την αξιολόγηση της επιλογής των θεματικών τάξεων και των περιοχών εκπαίδευσης. Η CU προσδιορίζεται για κάθε εικονοστοιχείο ως συνάρτηση των δεσμευμένων πιθανοτήτων να ανήκει το εικονοστοιχεία σε κάθε τάξη. Η διακύμανση τιμών είναι στο διάστημα 0 έως 1 και υποδηλώνει τον βαθμό στον οποίο καμιά τάξη δεν είναι επαρκής για την ερμηνεία ενός εικονοστοιχείου. Η αξιολόγηση του αθροιστικού ιστογράμματος της CU δείχνει το βαθμό επιτυχίας της ταξινόμησης (στο συγκεκριμένο παράδειγμα το 80% των εικονοστοιχείων είχαν αβεβαιότητα 0), δηλαδή το συνολικό βαθμό που οι επιλεχθείσες τάξεις και περιοχές εκπαίδευσης ερμηνεύουν-ταξινομούν την εικόνα. Η χωρική κατανομή της CU στην εικόνα υποδεικνύει την ύπαρξη μικτών εικονοστοιχείων και θεματικών τάξεων για τις οποίες δεν δόθηκαν δεδομένα εκπαίδευσης. Η αντιμετώπιση γίνεται με ταξινόμηση εκ νέου αφού θεωρηθούν επιπλέον τάξεις ακόμη και για τα μικτά εικονοστοιχεία (και επιπρόσθετες περιοχές εκπαίδευσης). Abstract: The determination of the number of classes included in a satellite image and the selection of the corresponding training areas are the most critical points for the success of a supervised classification methodology. A metric was developed that allows the determination of classification uncertainty (CU) per pixel on the basis of it s posterior probability computed for each class. The metric measures the degree to which no class clearly stands out above the others in the assessment of class membership. The computed index ranges from 0 to 1 and expresses the degree of uncertainty the classifier would experience if it were required to provide a definitive answer about the class to which the pixel belongs. The cumulative histogram of CU for the whole image determines the degree (percentage of pixels with minimum uncertainty) to which the selection of the classes and the corresponding training areas were successful. The mapping and the study of the spatial distribution of CU values indicated areas in which the classification failed due to the presence of either mixed pixels or classes that were not selected and included in the classification process. Δελτίο της Γ.Υ.Σ., Αρ. Τεύχους 151
1. ΕΙΣΑΓΩΓΗ 180 Ας θεωρήσουμε μια δορυφορική εικόνα Ε με διάσταση κ (γραμμές) και λ (στήλες) σε ν φασματικά κανάλια. Κάθε εικονοστοιχείο E(i,j) όπου i= 1 (1) κ και j= 1 (1) λ περιγράφεται από ένα συγκεκριμένο σύνολο Π τιμών φωτεινότητας Π(i,j): { E [ (i,j) ] μ, μ= 1(1)v }. Το Π ονομάζεται πρότυπο και το σύνολο όλων των προτύπων που συνυπάρχουν σε μία εικόνα συμβολίζεται με Ω. Οι θεματικές τάξεις Τ (σύνολο T) της εικόνας δημιουργούνται από την κατανομή των στοιχείων του συνόλου Ω σε β αριθμό υποσυνόλων, Τ= { Τ 1, Τ 2,.Τ μ, μ=1 (1) β}, έτσι ώστε να ισχύουν οι σχέσεις: Τ 1 Τ 2 T 3.Τ μ = Ω, Ti Tj=, μ=1 (1) β για ij και i,j= 1 (1) β Η επιβλεπόμενη ταξινόμηση βασίζεται στην ύπαρξη πληροφορίας για κάθε υποσύνολο Τ. Δηλαδή για κάθε Τ μ όπου μ=1 (1) β είναι γνωστό ένα υποσύνολο Χ μ όπου μ=1 (1) β (Χ μ Τμ) και κάθε στοιχείο του συνόλου Ω που περιγράφεται από ένα πρότυπο Π [(i,j) ] v ταξινομείται σε μια τάξη Τ μ ανάλογα με ένα μέτρο σύγκρισης που προσδιορίζει την ομοιότητα του με το υποσύνολο Χ μ. Άρα πρέπει α) να καθορισθεί ένα μέτρο σύγκρισης κα β) να είναι γνωστές περιοχές εκπαίδευσης στην εικόνα που προσδιορίζουν αντιπροσωπευτικές εμφανίσεις των θεματικών τάξεων για να προσδιορισθούν τα υποσύνολα Χ μ. Τα προβλήματα που ανακύπτουν έχουν σχέση: 1. με εξωγενείς παράγοντες (η διάχυση της ηλιακής ακτινοβολίας, η επίδραση της τοπογραφίας κ.α.) που μεταβάλουν την φασματική υπογραφή των θεματικών τάξεων, 2. με τη χωρική διακριτική ικανότητα που έχει σαν αποτέλεσμα σε ένα εικονοστοιχείο δυνητικά να συνυπάρχουν περισσότερες των μία θεματικών τάξεων (μικτό εικονοστοιχείο), Σχήμα 1. Περιοχές εκπαίδευσης (seaθάλασσα, barren γυμνό από βλάστηση, city αστική περιοχή, forest δασική έκταση στο κανάλι 1 του Θεματικού Χαρτογράφου (Σαλαμίνα). Διαστάσεις εικόνας 251*251 εικονοστοιχεία με χωρική διακριτική ικανότητα 30 μ. 3. με την φασματική δειγματοληψία του καταγραφικού συστήματος (ο αριθμός και το εύρος κάθε φασματικού καναλιού) που μπορεί να μην επιτρέπει τον φασματικό διαχωρισμό δύο θεματικών τάξεων. Στόχος της εργασίας είναι να προταθεί μεθοδολογία που θα αξιολογεί εκ των υστέρων (μετά την εφαρμογή της ταξινόμησης) την καταλληλότητα ή όχι των περιοχών εκπαίδευσης.
181 2 ΠΕΡΙΟΧΕΣ ΕΚΠΑΙΔΕΥΣΗΣ Ο προσδιορισμός των περιοχών εκπαίδευσης γίνεται δειγματοληπτικά, για κάθε θεματική τάξη της εικόνας (Σχήμα 1). Η επιλογή προϋποθέτει φωτοερμηνεία και γνώση των φυσικών και ανθρωπογενών διεργασιών που λαμβάνουν χώρα την δεδομένη χρονική στιγμή λήψης της εικόνας (πχ εποχικές μεταβολές στην ανθοφορία των φυτών κ.α.). Οι κανόνες για την επιλογή περιοχών εκπαίδευσης κατά Lillesand και Kiefer (1993) είναι: Κάθε περιοχή εκπαίδευσης πρέπει να συμπεριλαμβάνει τουλάχιστον (ν+1)*10 εικονοστοιχεία όπου ν είναι ο αριθμός των φασματικών καναλιών της πολυφασματικής εικόνας που θέλουμε να ταξινομήσουμε. Η προϋπόθεση αυτή είναι απαραίτητη προκειμένου να υπολογισθεί με ακρίβεια το κέντρο βάρους και η συμμεταβλητότητα. Σε κάθε θεματική τάξη πρέπει να αντιστοιχίσουμε περισσότερα από ένα πολύγωνα κατανεμημένα σε όλη την έκταση της εικόνας προκειμένου να αυξηθεί η πιθανότητα τα δεδομένα εκπαίδευσης να είναι αντιπροσωπευτικά. Μετά τον προσδιορισμό των πολυγώνων γίνεται στατιστική σύγκριση των περιοχών εκπαίδευσης έτσι ώστε να αξιολογείται ο φασματικός διαχωρισμός των θεματικών τάξεων. Για παράδειγμα στο Σχήμα 2 συγκρίνονται γραφικά τα κέντρα βάρους των θεματικών τάξεων έτσι όπως προσεγγίζονται από τις περιοχές εκπαίδευσης. Ένα χρήσιμο μέτρο για την εκτίμηση της φασματικής διαφοροποίησης των περιοχών εκπαίδευσης αποτελεί ο πίνακας διαχωρισμού (Πίνακας 1) που καταγράφει τις αποστάσεις των κέντρων βάρους ανά δύο και η διακύμανση. Πίνακας 1. Διαχωρισμός τάξεων. Σχήμα 2. Κέντρα βάρους για τα κανάλια 1,2,3,4,5 και 7. Sea Forest Barren City Sea 0 - - - Forest 121.5 0 - - Barren 207.7 14.8 0 - City 287.4 39. 8.6 0 Η ερμηνεία του πίνακα διαχωρισμού υποδηλώνει μέγιστο διαχωρισμό για την τάξη Sea ως προς όλες τις άλλες τάξεις. Ο διαχωρισμός των τάξεων (City, Forest) είναι ικανοποιητικός σε αντίθεση με τις τάξεις (City, Barren) και (Barren, Forest). Το γεγονός αυτό επιβεβαιώνεται και από το Σχήμα 2 όπου η προβολή του κέντρου βάρους της τάξης Barren είναι μεταξύ των κέντρων των τάξεων Forest και City.
182 Η διακύμανση του νέφους των σημείων από το κέντρο βάρους κάθε τάξης προσδιορίζεται επακριβώς από τον πίνακα συμμεταβλητότητας. Η οπτικοποίηση της διακύμανσης γίνεται με δισδιάστατα ιστογράμματα συχνότητας (Σχήμα 3). Σχήμα 3. Δισδιάστατες απεικονίσεις του νέφους σημείων της πολυφασματικής εικόνας για τα κανάλια 2,4 και 5,1. Οι ελλείψεις έχουν κέντρο, το κέντρο βάρους των θεματικών τάξεων (έτσι όπως υπολογίζεται από τις περιοχές εκπαίδευσης) και εμπεριέχουν το 95% του πλήθους των σημείων κάθε περιοχής εκπαίδευσης. Οι πιο σκούρες διαβαθμίσεις στο νέφος των σημείων υποδηλώνουν μεγαλύτερη πυκνότητα. Παρατηρούμε (Σχήμα 3) ότι υπάρχει μερική επικάλυψη των φασματικών υπογραφών των τάξεων οι οποίες έχουν διαφορετική διασπορά. Επομένως πρέπει να συνυπολογισθεί το μέγεθος της διασποράς στον αλγόριθμο ταξινόμησης έτσι ώστε ένα εικονοστοιχείο που είναι εγγύτερα στο κέντρο της τάξης Α, να μπορεί να ενταχθεί στην τάξη Β εάν η διασπορά της Β είναι μικρότερη από την διασπορά της Α. Την λύση στο πρόβλημα αυτό επιφέρει ο αλγόριθμος μέγιστης πιθανοφάνειας που λαμβάνει υπόψη τον πίνακα συμμεταβλητότητας κάθε τάξης στην ταξινόμηση. 3. ΤΑΞΙΝΟΜΗΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ Ο αλγόριθμος αυτός θεωρεί την ταξινόμηση από την πλευρά της θεωρίας πιθανοτήτων. Προκειμένου να προσδιορισθεί η τάξη J στην οποία ανήκει το εικονοστοιχείο x πρέπει: να προσδιορισθεί η δεσμευμένη πιθανότητα (a posteriori probability): J / x) για κάθε τάξη J (k είναι ο αριθμός των τάξεων), και να επιλεγεί η τάξη J που μεγιστοποιεί την πιθανοφάνεια. Όμως η δεσμευμένη πιθανότητα J / x) δεν είναι γνωστή (η πιθανότητα η τάξη J να είναι σωστή για το εικονοστοιχείο x). Αυτό που μπορεί να γίνει είναι να εκτιμηθεί η συνάρτηση κατανομής x / J) της τάξης J από τα δεδομένα εκπαίδευσης (η πιθανότητα που περιγράφει κατά πόσο το εικονοστοιχείο x ανήκει σε καθεμιά τάξη). Οι ζητούμενες πιθανότητες J / x) και x / J) συνδέονται με το θεώρημα του Bayes ως εξής: j / x) x / j) * j) x), x) k i1 x / j ) * j) i
Όπου κ ο αριθμός των τάξεων και 183 J) η εκ των προτέρων (a priori) πιθανότητα εμφάνισης της τάξης J. Παράδειγμα σε μια δορυφορική εικόνα είναι γνωστό πριν την εφαρμογή του αλγορίθμου ταξινόμησης ότι το 20% των εικονοστοιχείων ανήκουν στην τάξη J άρα J)=0.20. Όμως οι εκ των προτέρων πιθανότητες J) είναι άγνωστες. Για να προχωρήσουμε κάνουμε την παραδοχή ότι είναι ίσες με την τιμή 1/k (k ο αριθμός των τάξεων). Να σημειωθεί ότι 0 J/x) 1 και J / x) 1.Υποθέτοντας ότι k i1 i 1. η κατανομή του νέφους των σημείων που απαρτίζουν κάθε τάξη είναι κανονική (Gaussian) και 2. σε κάθε περιοχή εκπαίδευσης περιλαμβάνονται εικονοστοιχεία που ανήκουν σε μια μόνο τάξη, τότε η συνάρτηση κατανομής x / J) της τάξης J μπορεί να περιγραφεί πλήρως από το κέντρο βάρους και τον πίνακα συμμεταβλητότητας της αντίστοιχης περιοχής εκπαίδευσης (Mather 1987) με βάση τη σχέση: όπου x / j) (2* ) 1 S x / j ) : η πιθανότητα το εικονοστοιχείο Χ που περιγράφεται από p φασματικά κανάλια να ανήκει στην τάξη j y j = x-c j { όπου Cj το κέντρο βάρους της τάξης j } S j = ο πίνακας συμμεταβλητότητας για την τάξη j Υπολογιστικά η εφαρμογή της προηγούμενης σχέσης απαιτεί τον υπολογισμό της ορίζουσας S j και του -1 ανάστροφου πίνακα S j του πίνακα συμμεταβλητότητας για κάθε τάξη J. Στην συνέχεια υπολογίζεται η πιθανότητα το εικονοστοιχείο x να ανήκει σε κάθε τάξη J και τελικά ταξινομείται στη τάξη που μεγιστοποιεί την πιθανότητα x / j) (Σχήμα 4). Σχήμα 4. Ταξινόμηση μέγιστης πιθανοφάνειας. p / 2 j 0.5 0.5* y * e T j S 1 j y j
184 4. ΜΙΚΤΑ ΕΙΚΟΝΟΣΤΟΙΧΕΙΑ Στο προηγούμενο παράδειγμα ταξινόμησης εάν για το εικονοστοιχείο x, sea / x)= 0.2, city / x)= 0.25, barren / x)= 0.25 και forest / x)= 0.3 τότε θα ταξινομηθεί στην τάξη forest. Δηλαδή η μη υποστήριξη των ενδεχομένων sea, barren, city μας οδηγεί στο συμπέρασμα forest ανεξάρτητα από το πόσο λίγο (0.3) υποστηρίζεται αυτό το ενδεχόμενο. Μικτά εικονοστοιχεία είναι αυτά που λόγω της δειγματοληψίας του φυσικού χώρου εμπεριέχουν πέραν της μίας θεματικής τάξης με αποτέλεσμα να καταγράφεται μια ενδιάμεση φασματική απόκριση (Aplin & Atkison 2001, Ashton & Schaum 1998). Εκτίμηση των μικρών εικονοστοιχείων της εικόνας μπορεί να γίνει με την θεωρία πιθανοτήτων. Δηλαδή θεωρείται ότι η {a posteriori} πιθανότητα J / x) ερμηνεύεται σαν δήλωση ποσοστιαίας συμμετοχής των τάξεων J. Δηλαδή εάν barren / x)= 0.7, city / x)= 0.7, forest / x)= 0 και sea / x)= 0. τότε το εικονοστοιχείο x περιλαμβάνει 70% Σχήμα 5. Αθροιστικό ιστόγραμμα των πιθανοτήτων barren / x) (επάνω) και city / x) (κάτω). Στον άξονα Y οι μονάδες είναι αριθμός εικονοστοιχείων (το σύνολο των εικονοστοιχείων είναι 63001) και στο άξονα x προβάλεται η συνάρτηση πυκνότητας πιθανότητας PJ / x) με τιμές στο διάστημα [0, 1].
185 κάλυψη από την τάξη barren και 30% κάλυψη από την τάξη city. Τα αθροιστικά ιστογράμματα (Σχήμα 5) προσδιορίζουν το ποσοστό των εικονοστοιχείων x για J / x) μεγαλύτερη από μια συγκεκριμένη τιμή. Δηλαδή city / x) > 0.9 για πλήθος 7.000 εικονοστοιχείων περίπου σε σύνολο 63.001 ενώ forest / x) > 0.9 ισχύει για πλήθος 12.000 περίπου και barren / x) > 0.9 για πλήθος 20.000 περίπου. Παρατηρούμε ότι μόνο το 60% περίπου των εικονοστοιχείων της εικόνας μπορεί να ενταχθεί με βεβαιότητα πιθανότητας >0.9 σε μία θεματική τάξη. Από την άλλη πλευρά πρέπει να συντεθεί ένας κανόνας που να υποδηλώνει την αβεβαιότητα στην λήψη απόφασης για την ταξινόμηση ενός εικονοστοιχείου στις τάξεις που έχουν προσδιορισθεί από τις περιοχές εκπαίδευσης. Εάν η αβεβαιότητα προσδιορισθεί ποσοτικά για κάθε εικονοστοιχείο, τότε η χωρική της κατανομή θα υποδηλώνει την καταλληλότητα ή όχι των περιοχών εκπαίδευσης, υποδεικνύοντας την ανάγκη για προσδιορισμό νέων περιοχών εκπαίδευσης (πιθανώς και για τα μικτά εικονοστοιχεία). 5. ΕΚΤΙΜΗΣΗ ΤΗΣ ΑΒΕΒΑΙΟΤΗΤΑΣ Κατά αρχήν θα προσδιορίσουμε το μέτρο της αβεβαιότητας (classification uncertainty) στην ταξινόμηση ενός εικονοστοιχείου x σαν συνάρτηση των πιθανοτήτων J / x). Η αβεβαιότητα στην ταξινόμηση (CU) δίνεται από την σχέση: όπου maximum[j i / x), CU 1- i 1(1)n 1 1- n 0 CU 1, όσο μικρότερο τόσο μεγαλύτερη η βεβαιότητα, n= ο αριθμός των τάξεων και J i / x), i=1(1)n η πιθανότητα ανά τάξη. ] - n i1 J n i / x) Σχήμα 6. Αθροιστικό ιστόγραμμα (στον άξονα y ο αριθμός εικονοστοιχείων και στο άξονα x η CU).
186 H ποσότητα CU καθορίζει το βαθμό στον οποία καμία τάξη δεν μπορεί να χρησιμοποιηθεί για τον προσδιορισμό της ταυτότητας ενός εικονοστοιχείου (Σχήμα 6). Το αθροιστικό ιστόγραμμα (Σχήμα 6) προσδιορίζει ότι για τουλάχιστον 50.000 εικονοστοιχεία (80%) από σύνολο 63.001 η αβεβαιότητα CU είναι ίση με το μηδέν. H χωρική κατανομή της αβεβαιότητας δίνεται στο Σχήμα 7. Παρατηρούμε ότι μεγάλη CU κατανέμεται: 1. κατά μήκος της ακτογραμμής (έπρεπε να προσδιορισθεί τουλάχιστον μία ή και δύο περιοχές εκπαίδευσης για τις θεματικές τάξεις αβαθή ύδατα, παραλία), 2. του οδικού δικτύου Α τάξης (έχει ταξινομηθεί στην τάξη City στο Σχήμα 4), 3. σε παράκτιες περιοχές που ανήκουν στην τάξη city (έπρεπε επιπλέον πολύγωνα για την τάξη City να είχαν ψηφιοποιηθεί), 4. σκιάσεις (cast shadows) και υδροκρίτες, Σχήμα 7. Όσο πιο φωτεινό είναι ένα εικονοστοιχείο τόσο μικρότερη η CU. 5. σε διάσπαρτες συγκεντρώσεις εικονοστοιχείων με πολύ μικρή επιφανειακή εξάπλωση που υποδηλώνουν μικτά εικονοστοιχεία (παράδειγμα: barren μέσα στην τάξη City και barren μέσα στην τάξη Forest, κ.α.). 6. ΣΥΜΠΕΡΑΣΜΑ Μετά τον υπολογισμό της δεσμευμένης πιθανότητας να ανήκει ένα εικονοστοιχείο σε J τάξεις πρέπει να υπολογίζεται πάντα η αβεβαιότητα CU της επιβλεπόμενης ταξινόμησης. Η αξιολόγηση του αθροιστικού ιστογράμματος της CU δείχνει το συνολικό βαθμό επιτυχίας της ταξινόμησης (στο συγκεκριμένο παράδειγμα 80%). Η χωρική κατανομή της CU στην εικόνα υποδεικνύει την ύπαρξη μικτών εικονοστοιχείων και θεματικών τάξεων για τις οποίες δεν δόθηκαν δεδομένα εκπαίδευσης. Η αντιμετώπιση γίνεται με ταξινόμηση εκ νέου αφού θεωρηθούν επιπλέον τάξεις ακόμη και για τα μικτά εικονοστοιχεία (και επιπρόσθετες περιοχές εκπαίδευσης). 7. ΒΙΒΛΙΟΓΡΑΦΙΑ Aplin P., Atkinson P., 2001. Sub pixel land cover mapping per field classification. Int. J. of Remote Sensing, 22(14), 2853-2858. Ashton E., Schaum A., 1998. Algorithms for the detection of sub-pixel targets in Multispectral imagery. PE & RS, vol. 64, No 7, 723-731. Lillesand T., Kiefer R., 1993. Remote Sensing and Image Interpretation. John Wiley & Sons, 721 p. Mather P., 1999. Computer Processing of Remotely-Sensed Images. John Wiley & Sons, New York, 352 p.