Ψηφιακή Επεξεργασία Εικόνας & Υπολογιστική Όραση



Σχετικά έγγραφα
Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

4.3. Γραµµικοί ταξινοµητές

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

1.4 Λύσεις αντιστρόφων προβλημάτων.

Μεθοδολογίες παρεµβολής σε DTM.

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

6-Aνίχνευση. Ακμών - Περιγράμματος

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΝΤΩΝΙΟΣ ΛΥΡΩΝΗΣ ΧΑΝΙΑ Σκοπός Εργασίας Εντοπισμός πλίνθων σε σειρά ορθοφωτογραφιών και εξαγωγή δισδιάστατης αποτύπωσης των τειχών.

Επίλυση Γραµµικών Συστηµάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

αx αx αx αx 2 αx = α e } 2 x x x dx καλείται η παραβολική συνάρτηση η οποία στο x

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

Μικροοικονοµική Θεωρία. Συνάρτηση και καµπύλη κόστους. Notes. Notes. Notes. Notes. Κώστας Ρουµανιάς. 22 Σεπτεµβρίου 2014

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Digital Image Processing

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

ιαµέριση - Partitioning

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

11 Το ολοκλήρωµα Riemann

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Παρουσίαση Νο. 5 Βελτίωση εικόνας

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

Μέθοδοι Αναπαράστασης Περιοχών

( J) e 2 ( ) ( ) x e +, (9-14) = (9-16) ω e xe v. De = (9-18) , (9-19)

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Digital Image Processing

Αναγνώριση Προτύπων Ι

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ)

Κεφάλαιο 6 Παράγωγος

DIP_04 Βελτιστοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης

Εισαγωγή Αποκοπή ευθείας σε 2Δ Αποκοπή πολυγώνου σε 2Δ Αποκοπή σε 3Δ. 3ο Μάθημα Αποκοπή. Γραφικα. Ευάγγελος Σπύρου

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Εργασίες στο µάθηµα Ψηφιακής Επεξεργασίας και Αναγνώρισης Εγγράφων

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Advances in Digital Imaging and Computer Vision

7.5 Ενδιάμεσο επίπεδο επεξεργασίας εικόνας

Σηµειώσεις στις σειρές

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

HMY 795: Αναγνώριση Προτύπων

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

14 Εφαρµογές των ολοκληρωµάτων

A2. ΠΑΡΑΓΩΓΟΣ-ΚΛΙΣΗ-ΜΟΝΟΤΟΝΙΑ

Μηχανική ΙI. Λογισµός των µεταβολών. Τµήµα Π. Ιωάννου & Θ. Αποστολάτου 2/2000

5.1 Συναρτήσεις δύο ή περισσοτέρων µεταβλητών

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

Ψηφιακή Επεξεργασία Εικόνας ΚΕΦ4 -1- ΑNIΧΝΕΥΣΗ ΑΚΜΩΝ (EDGE DETECTION)

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Μηχανική ΙI Ροή στο χώρο των φάσεων, θεώρηµα Liouville

Κεφάλαιο 5ο: Εντολές Επανάληψης

> μεγαλύτερο <= μικρότερο ή ίσο < μικρότερο == ισότητα >= μεγαλύτερο ή ίσο!= διαφορετικό

, όπου οι σταθερές προσδιορίζονται από τις αρχικές συνθήκες.

Έγχρωµο και Ασπρόµαυρο Φως


Συστήματα συντεταγμένων

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Πρακτική µε στοιχεία στατιστικής ανάλυσης

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

ΚΑΤΑΝΟΜΕΣ Ι ΙΑΣΤΑΤΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ (Συνέχεια)

οµή δικτύου ΣΧΗΜΑ 8.1

Β. Γάτος, Ψηφιακή Επεξεργασία και Αναγνώριση Εγγράφων. 3.1 Προβλήµατα στην ποιότητα των δυαδικών εικόνων

Εργασία στο µάθηµα Ανάλυση εδοµένων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΙ ΠΑΤΡΑΣ ΤΕΙ ΠΑΤΡΑΣ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΏΝ ΠΑΙΓΝΙΩΝ- ΠΡΟΓΡΑΜΜΑ GAMBIT

Transcript:

Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Σχολή Θετικών Επιστηµών, Πανεπιστήµιο Αιγαίου ΠΜΣ Τεχνολογίες και ιοίκηση Πληροφοριακών και Επικοινωνιακών Συστηµάτων ιαχείριση Πληροφορίας Ψηφιακή Επεξεργασία Εικόνας & Υπολογιστική Όραση Εργασία Πλακιά Σπυρίδων Image Segmentation

ΠΕΡΙΕΧΟΜΕΝΑ 1 Εισαγωγή Μέθοδοι µε βάση τη χρήση ορίου (Thresholding).1 Μέθοδοι καθορισµού του ορίου.1.1 Ανάλυση Ιστογραµµάτων.1. Βέλτιστο Όριο (Optimal thresholding).1.3 Μέθοδος Otsu.1.4 Πολυφασµατική πληροφορία.1.5 Όρια σε ιεραρχικές δοµές δεδοµένων.1.6 Ανάκτηση ορίου µέσω διατήρηση της ροπής 3 Μέθοδοι µε τη χρήση ακµών (Edge-based segmentation) 3.1 Χρήση κατωφλίου (Edge image thresholding) 3. Χαλάρωση ακµών (Edge relaxation) 3.3 Όριο µε υστέρηση (Thresholding Hysteresis) 3.4 Χρήση Μασκών 3.5 ιαδικασίες που χρησιµοποιούν την ανίχνευση µηδενικών στη λαπλασιανή συνάρτηση 3.6 Μέθοδοι µε την ιχνηλάτηση συνόρων (Border tracing) 3.7 Μέθοδοι ανίχνευσης συνόρων µε τη χρήση γράφων (Border detection as graph searching) 3.8 Μετασχηµατισµός Hough 3.9 Κατασκευή περιοχών από όρια (Region Construction From Borders) 4 Region-based segmentation 4.1 Συνένωση περιοχών (Region merging) 4. ιαχώριση περιοχών (Region Splitting) 4.3 Συνένωση και διαχώριση (Splitting and Merging) 4.4 Μοντέλο Mumford Shah 4.5 Ασαφή λογική και Clustering 4.6 Bayesian Method and Image Segmentation 5 Συµπεράσµατα 6 Βιβλιογραφία

1. Εισαγωγή Η κατάτµηση εικόνας (image segmentation) αποτελεί µια από τις σηµαντικότερες εφαρµογές στο χώρο της επεξεργασίας εικόνας. Ο κύριος στόχος της είναι ο διαχωρισµός της εικόνας σε τµήµατα, τα οποία έχουν ισχυρό βαθµό συσχέτισης µε αντικείµενα του πραγµατικού κόσµου τα οποία περιέχονται στην εικόνα. Επιδίωξη µας µπορεί να είναι µια πλήρης κατάτµηση της εικόνας (complete segmentation), µε την οποία επιτυγχάνουµε τη δηµιουργία ενός συνόλου ανεξάρτητων(χωρίς κοινά σηµεία) περιοχών της εικόνας, οι οποίες αντιστοιχούν µοναδικά σε αντικείµενα της εικόνας, ή µια µερική κατάτµηση (partial segmentation) κατά την οποία οι περιοχές της εικόνας που εξάγονται δεν αντιστοιχούν σε αντικείµενα της εικόνας. Για την πλήρη κατάτµηση της εικόνας απαιτούνται διαδικασίες υψηλού επιπέδου οι οποίες χρησιµοποιούν συγκεκριµένη γνώση η οποία εξάγεται από το πεδίο του προβλήµατος. Αντίθετα αν απαιτείται µερική κατάτµηση η εικόνα χωρίζεται σε ξεχωριστές περιοχές οι οποίες είναι οµοιογενείς µε βάση κάποια επιλεγµένη ιδιότητα όπως µπορεί να είναι η φωτεινότητα, χρώµα, υφή κ.α. Σε περίπλοκες εικόνες µπορεί να δηµιουργηθούν επικαλυπτόµενες οµογενείς περιοχές οπότε απαιτείτε στην πορεία η χρήση µεθόδων υψηλότερου επιπέδου. Απλά προβλήµατα της κατάτµησης εικόνων είναι ο αποµόνωση-διαχωρισµός αντικειµένων που έχουν αντίθεση µε το φόντο της εικόνας ή και απλά αιτήµατα όπως η αναγνώριση τυπωµένων γραµµάτων. Συνολικά σωστή κατάτµηση πολύπλοκων εικόνων είναι δύσκολο να επιτευχθεί ενώ µια συνήθης πρακτική είναι η χρήση µεθόδων µερικής κατάτµησης σαν µια προεπεξεργασία (έπειτα χρησιµοποιούνται πρακτικές υψηλότερου επιπέδου). Επίσης ένα από τα κυριότερα προβλήµατα της κατάτµησης είναι η ύπαρξη θορύβου στην εικόνα. Οι µέθοδοι κατάτµησης εικόνων µπορούν να χωριστούν σε τρεις κατηγορίες ανάλογα µε τα βασικά χαρακτηριστικά που εφαρµόζονται σε καθεµία από αυτούς. Αρχικά έχουµε τις προσεγγίσεις οι οποίες χρησιµοποιούν γενική γνώση (global knowledge) για µία εικόνα π.χ. ιστογράµµατα των χαρακτηριστικών της εικόνας. Μέθοδοι κατάτµησης βασισµένες στις ακµές (Edge-based segmentation) σχηµατίζουν τη δεύτερη οµάδα ενώ η τρίτη κατηγορία αποτελείται από µεθόδους µε βάση τις περιοχές της εικόνας (Region-based segmentation). Η δεύτερη και η τρίτη κατηγορία λύνουν ένα δυαδικό πρόβληµα. Κάθε περιοχή µπορούµε να την αναπαραστήσουµε µε τα κλειστά της όρια όπως και τα κλειστά όρια καθορίζουν µια περιοχή. Εξαιτίας της διαφορετικής προσέγγισης, του προβλήµατος της κατάτµησης, των αλγορίθµων ακµής και των αλγορίθµων περιοχής δίνουν αποτελέσµατα που διαφέρουν και συνεπώς και διαφορετική πληροφορία για την εικόνα. Εποµένως µπορούν να συνδυαστούν τα αποτελέσµατα των δύο αυτών διαφορετικών προσεγγίσεων σε µια ενιαία περιγραφική δοµή. Ένα παράδειγµα αυτών είναι ο γράφος περιοχών γειτνίασης (region adjacency graph) στον οποίο οι περιοχές αντιστοιχούν σε κόµβους και οι ακµές των γραφηµάτων σε σχέσεις γειτονίας βασισµένες σε εντοπισµένα κοινά σύνορα περιοχών. Μέθοδοι µε βάση τη χρήση ορίου (Thresholding) Η χρήση ορίου µε βάση τη διαβάθµιση του γκρι είναι η πιο απλή µέθοδος κατάτµησης εικόνας. Πολλά αντικείµενα ή περιοχές της εικόνας χαρακτηρίζονται από σταθερή απορρόφηση φωτός ή σταθερή αντανάκλαση. Έτσι ένα κατώφλι στη φωτεινότητα της εικόνας µπορεί να διαχωρίσει τα αντικείµενα από το φόντο που τα περιβάλλει. Η µέθοδος αυτή είναι απλή, γρήγορη και είναι η παλαιότερη µέθοδος κατάτµησης εικόνας που χρησιµοποιήθηκε. Παρακάτω θεωρείτε σαν όριο διαχωρισµού η σταθερά Τ ενώ η συνάρτηση f δείχνει στη φωτεινότητα του αντίστοιχου pixel. Αλγόριθµος 1.Για όλα τα pixel (i,j) της εικόνας Αν f(i,j) T τότε pixel ανήκει στο αντικείµενο αλλιώς ανήκει στο φόντο.

Κρίσιµο σηµείο στην επιτυχία του παραπάνω αλγορίθµου αποτελεί η επιλογή του ορίου Τ. Η επιλογή αυτή µπορεί να γίνει αυθαίρετα ή µπορεί να εξαχθεί από κάποια µέθοδο καθορισµού του ορίου. Σπάνια µια τέτοια µέθοδος µπορεί να είναι επιτυχηµένη όταν χρησιµοποιείτε σταθερό όριο Τ για το σύνολο των pixel της εικόνας. Για αυτό το λόγο χρησιµοποιούνται τοπικά όρια τα οποία εξαρτούνται από τη θέση, δηλαδή το όριο είναι T=T(Pc) όπου Pc είναι το τµήµα της εικόνας για το οποίο τµήµα το κατώφλι καθορίστηκε(σχήµα 1). Η υπόλοιπη διαδικασία παραµένει η ίδια όπως αναφέρθηκε παραπάνω. Επίσης η µέθοδος ορίου µπορεί να εφαρµοστεί και σε άλλες ιδιότητες της εικόνας εκτός από τη φωτεινότητα όπως στην τοπική υφή, κλίση κ.α. Σχήµα 1.1 Μέθοδοι καθορισµού του ορίου.1.1 Ανάλυση Ιστογραµµάτων Οι περισσότεροι µέθοδοι καθορισµού του ορίου βασίζονται στην ανάλυση των ιστογραµµάτων. Τα pixels των αντικειµένων σχηµατίζουν κορυφές διαφορετικές από την κορυφή που σχηµατίζουν τα pixels του φόντου. Εποµένως τα καθορισµένα όρια µπορεί να καθοριστούν ως τα τοπικά ελάχιστα µεταξύ δύο τοπικών µέγιστων(σχήµα ). ηλαδή το pixel (x,y) ανήκει: Σε ένα αντικείµενο Α εάν T 1 <f(x,y) T Σε άλλο αντικείµενο Β εάν f(x,y)>t Στο φόντο εάν f(x,y) T 1 Σχήµα Για να αποφύγουµε τον εντοπισµό δυο τοπικών µέγιστων που ανήκουν στο ίδιο ολικό µέγιστο, είτε απαιτείτε µια ελάχιστη απόσταση µεταξύ των δύο ορίων είτε χρησιµοποιούνται τεχνικές εξοµάλυνσης στα ιστογράµµατα σαν διαδικασίες προεπεξεργασίας..1. Βέλτιστο Όριο (Optimal thresholding) Μια διαφορετική µέθοδος που χρησιµοποιείται είναι η προσέγγιση των ιστογραµµάτων των εικόνων µε το άθροισµα δυο ή περισσότερων συναρτήσεων πυκνότητας (χρησιµοποιείτε και ένας βαθµός βαρύτητας για κάθε συνάρτηση πυκνότητας) µε κανονικές

κατανοµές (optimal thresholding). Σε αυτή την περίπτωση παίρνουµε σαν όριο κάποια τιµή της κοιλάδας του ιστιογράµατος µεταξύ των µεγίστων δύο ή περισσότερων κανονικών κατανοµών το οποίο οδηγεί σε ελάχιστη τιµή λάθους σε ότι αφορά τον διαχωρισµό αντικειµένου και φόντου(σχήµα 3). Σχήµα 3 Επίσης µια επαναληπτική µέθοδος προσδιορισµού του βέλτιστου ορίου έχει αναπτυχθεί [Ridler and Calvard 78], ο οποίος παρουσιάζεται παρακάτω: Αλγόριθµος 1. Θεώρησε σαν πρώτη προσέγγιση της εικόνας ότι στις τέσσερις γωνίες τα pixels ανήκουν στο φόντο ενώ τα υπόλοιπα pixels ανήκουν στο αντικείµενο.. Στο βήµα t, υπολόγισε µ B t και µ Ο t ως τα µέσα επίπεδα διαβάθµισης του γκρι για το φόντο και για το αντικείµενο αντίστοιχα, όπου ο διαχωρισµός των pixel σε αυτά του αντικειµένου και σε αυτά του φόντου γίνεται χρησιµοποιώντας το όριο Τ t το οποίο καθορίστηκε στο προηγούµενο βήµα. µ f ( i, j) t = ( i, j) background t ( i, j ) objects Β µ Β = # background _ pixels 3. Όρισε σαν νέο όριο : t t ( t + 1 ) µ Β µ O T = + ( t+ 1) ( t ) 4. Εάν T = T τότε επέστρεψε το όριο T (t+1) αλλιώς επέστρεψε στο βήµα. f ( i, j) # object _ pixels Ο παραπάνω αλγόριθµος δίνει καλά αποτελέσµατα σε µια ποικιλία εικόνων µε διαφορετικά χαρακτηριστικά και συνήθως τέσσερις µε δέκα επαναλήψεις είναι αποτελεσµατικές. Μια άλλη µέθοδος υπολογισµού του βέλτιστου ορίου βασίζεται στην υπόθεση ότι κάθε κλάση είναι µια Γκαουσιανή κατανοµή. Κάθε κλάση δηλαδή έχει ένα µέσο (µ ο και µ Β αντίστοιχα),µια απόκλιση (σ ο και σ Β αντίστοιχα) και ένα βάρος (n ο και n Β αντίστοιχα) έτσι ώστε το άθροισµα των δύο κατανοµών να προσεγγίζει το ιστιόγραµµα(σχήµα 4). Επιλέγοντας το καλύτερο κατώφλι πετυχαίνουµε και την καλύτερη προσέγγιση. Ο χώρος λύσεων(πιθανά κατώφλια) είναι µεγάλος για αυτό και χρησιµοποιούνται τεχνικές βαθµιαίας µείωσης του χώρου λύσεων. Σχήµα 4

.1.3 Μέθοδος Otsu Η µέθοδος του Otsu (1979) είναι ακόµα και σήµερα η µέθοδος µε τις περισσότερες αναφορές στο πρόβληµα της κατάτµησης εικόνας. Βασίζεται σε µια απλή ιδέα : Αν θεωρήσουµε τα αντικείµενα και το φόντο ανεξάρτητα πρότυπα(κλάσεις) τότε αρκεί η µεγιστοποίηση της διακριτότητας µεταξύ των κλάσεων. Θέτοντας ένα όριο µεταξύ αντικειµένων και φόντου, στόχος µας είναι να διαχωρίσουµε όσο γίνεται πιο <<σφιχτά>> τις δυο κλάσεις. εν µπορούµε να αλλάξουµε τις κατανοµές κάθε κλάσης αλλά µπορούµε να προσαρµόσουµε το όριο ώστε να είναι όσο γίνεται πιο διακριτές. Αυτό γίνεται προσπαθώντας να ελαχιστοποιήσουµε τη παράσταση που µας δείχνει τη διασπορά των σηµείων που επιλέχτηκαν σε κάθε κλάση (weighted within-class variance). weighted within-class variance : σ w ( t ) = q ( t ) σ ( t ) + q ( t ) σ ( t ) 1 1 όπου q 1,q είναι ο αριθµός των pixels που ανήκουν σε κάθε κλάση ενώ σ 1,σ οι διασπορές κάθε κλάσης για ένα συγκεκριµένο κατώφλι t. Αρκεί δηλαδή να υπολογίσουµε την παράσταση για κάθε κατώφλι και να επιλέξουµε αυτό που την ελαχιστοποιεί. Αν αφαιρέσουµε τη διασπορά του ιστογράµµατος σ από τη weighted within-class variance παίρνουµε µια παράσταση την οποία ονοµάζουµε between-class variance και η οποία υπολογίζεται ως : between-class variance : σ ( ) ( ) ( ) [ µ ( ) µ ( ) ] b t = q 1 t q t 1 t t όπου µ 1,µ είναι οι µέσες τιµές των κλάσεων. Επειδή όµως η διασπορά του ιστογράµµατος είναι σταθερή αρκεί να µεγιστοποιήσουµε την παράσταση της between-class variance. Υπολογίζοντας όµως την παράσταση για διάφορες τιµές του ορίου συµπεραίνουµε πως οι υπολογισµοί δεν είναι ανεξάρτητοι ο ένας από τον άλλο και πως µπορούµε να βρούµε τις µέσες τιµές των κλάσεων επαναληπτικά καθώς ελέγχουµε διαδοχικά όλα τα πιθανά κατώφλια. ηλαδή µε χρήση των παρακάτω τύπων διευκολύνεται κάθε φορά ο υπολογισµός του between-class variance. q1 ( t+ 1) = q1 ( t) + P( t+ 1), q ( t+ 1) = q ( t) + P( t+ 1), µ q ( t) µ ( t) + ( t+ 1) P( t+ 1) 1 1 1( t+ 1) =, q1 ( t+ 1).1.5 Πολυφασµατική πληροφορία µ µ q ( t + 1) µ ( t + 1) 1 1 ( t + 1) =. 1 q1 ( t + 1) Πολλά προβλήµατα χρειάζονται περισσότερη πληροφορία από ότι υπάρχει σε µια ζώνη φάσµατος. Στις έγχρωµες οθόνες η πληροφορία κωδικοποιείτε σε τρεις ζώνες φάσµατος π.χ. κόκκινο, πράσινο και µπλε. Μια προσέγγιση του προβλήµατος που µελετάτε και χρησιµοποιεί πολυφασµατική πληροφορία δουλεύει υπολογίζοντας το βέλτιστο κατώφλι σε µια ζώνη πληροφορίας και µετά χωρίζει την εικόνα µε βάση αυτό το κατώθλι. Μετέπειτα κάθε περιοχή που βρέθηκε από τον παραπάνω διαχωρισµό χωρίζεται µε βάση την πληροφορία του δεύτερου καναλιού πληροφορίας. Επαναλαµβάνουµε και για το τρίτο κανάλι και έτσι συνεχίζουµε, επαναλαµβάνοντας τον έλεγχο για κάθε κανάλι µέχρι να φτάσουµε σε περιοχές που δεν διαιρούνται περισσότερο(χαρακτηρίζονται από συνοχή)..1.6 Όρια σε ιεραρχικές δοµές δεδοµένων Επίσης έχουν χρησιµοποιηθεί ιεραρχικές δοµές δεδοµένων σε συνεργασία µε µεθόδους χρησιµοποίησης κατωφλίων. Στόχος αυτών των µεθόδων είναι η ανίχνευση των αντικειµένων σε εικόνες χαµηλής ανάλυσης µε χρήση των µεθόδων που αναφέρθηκαν παραπάνω και µετά η επισήµανση των λεπτοµερειών σε εικόνες µεγαλύτερης ανάλυσης. Πολλές µέθοδοι χρησιµοποιούν πυραµίδες στα επίπεδα των οποίων αποθηκεύονται οι εικόνες µε διαφορετική ανάλυση.

.1.7 Ανάκτηση ορίου µέσω διατήρηση της ροπής Ροπή είναι ένα χαρακτηριστικό των τυχαίων µεταβλητών και ο αρχικός αλγόριθµος στηρίζεται στο γεγονός πως αν το όριο είναι το ιδανικό οι αρχικές ροπές παραµένουν ίδιες µε τις τελικές. Όµως όταν τα ιστογράµµατα έχουν µόνο µια κορυφή ή είναι µονοτονικά τότε εµφανίζεται µια παρεµβολή στο background. Μια παραλλαγή που προτάθηκε πρόσφατα (004) βελτιώνει τον αλγόριθµο προσαρµόζοντας το όριο που µας δίνεται βελτιώνοντας τις λεπτοµέρειες στις περιοχές που εξάγονται από τον αλγόριθµο. Η ιδιότητα που χρησιµοποιείτε είναι ότι η διαφορά διαβάθµισης του γκρι µεταξύ pixel των αντικειµένων και των περιοχών είναι µεγάλη. Υπολογίζεται λοιπόν το αρχικό όριο από τη διατήρηση της ροπής και στη συνέχεια εξάγονται τα αντικείµενα µε βάση αυτό το όριο, υπολογίζεται το µέτρο gradient κάθε pixel της εικόνας. Τέλος προσαρµόζουµε το όριο µε βάση τη σχέση t = t a * M G όπου M G είναι ο µέσος όρος των βαθµών gradient των pixel της εικόνας και a ένας συντελεστής (0<a<0.3). Ο αλγόριθµος είναι αρκετά γρήγορος και µπορεί να χρησιµοποιηθεί σε on-line εφαρµογές. 3. Μέθοδοι µε τη χρήση ακµών (Edge-based segmentation) Ακµή κάθε pixel µιας εικόνας είναι µια ιδιότητα του συγκεκριµένου pixel της εικόνας και υπολογίζεται µε βάση την πληροφορία σχετικά µε τη γειτονιά του αντίστοιχου pixel. Η ακµή είναι ένα διάνυσµα στο δισδιάστατο χώρο το οποίο έχει µέτρο (magnitude) και κατεύθυνση (direction) τα οποία υπολογίζονται µε χρήση των παρακάτω τύπων. g g g g grad _ g( x, y) = +, ψ = arg,. x y x y Το µέτρο της ακµής είναι ίσο µε grad g(x,y) ενώ η κατεύθυνση της ακµής είναι είναι ίση µε την κατεύθυνση της συνάρτησης gradient µείον 90 ο. Οι µέθοδοι αυτοί χρησιµοποιήθηκαν τελευταία και είναι αυτοί που είναι ίσως και περισσότεροι ενδιαφέροντες. Βασίζονται σε ακµές οι οποίες βρέθηκαν στην εικόνα και οι οποίες ανιχνεύονται µε ειδικές µεθόδους που έχουν αναπτυχθεί για αυτό το λόγο. Τότε αυτές οι ακµές δείχνουν ασυνέχειες στην εικόνα όσον αφορά τη διαβάθµιση του γκρι, το χρώµα, την υφή κ.α. Όµως οι εικόνες που παίρνουµε µόνο µέσω ανίχνευσης ακµών δεν µπορούνε να χρησιµοποιηθούνε για κατάτµηση εικόνας. ηλαδή επιπρόσθετες διαδικασίες πρέπει να αναπτυχθούν οι οποίες να αντιστοιχούν τις κατάλληλες ακµές µε τα σύνορα των περιοχών τις οποίες θέλουµε να εξάγουµε. Τα περισσότερα προβλήµατα στους αλγόριθµους κατάτµησης µε βάση τις ακµές οφείλονται στην ύπαρξη θορύβου που υπάρχει στην εικόνα. Επίσης σηµαντικό πρόβληµα είναι η µη κατάλληλη πληροφορία σε µία εικόνα, δηλαδή η ύπαρξη ακµών όπου δεν υπάρχουν σύνορα αντικειµένων και το αντίστροφο. 3.1 Χρήση κατωφλίου (Edge image thresholding) Συνήθως pixels µε µηδενικές τιµές magnitude δεν υπάρχουν. Όµως µικρές τιµές magnitude αντιστοιχούν σε µικρής σηµασίας αλλαγές στα επίπεδα διαβάθµισης του γκρι προερχόµενες από θόρυβο η ανωµαλίες στο φωτισµό της εικόνας. Έτσι ένα κατώφλι µπορεί να εφαρµοστεί ώστε να αφαιρεθούν αυτές οι µικρές τιµές. Πάλι δύσκολη είναι η επιλογή του ορίου που χρησιµοποιείτε. Κάποιοι αλγόριθµοι που αναφέρθηκαν και προηγουµένως µπορούνε να χρησιµοποιηθούνε για τον καθορισµό του ορίου. 3. Χαλάρωση ακµών (Edge relaxation) Η εξέταση ιδιοτήτων των ακµών συσχετιζόµενες µε τις γειτονικές τους ακµές µπορεί να αυξήσει την ποιότητα των αποτελεσµάτων. Μελετούµε την γειτονιά κάθε ακµής και µε βάση το µέγεθος (magnitude) των γειτονικών τους ακµών αυξάνουµε την εµπιστοσύνη κάθε ακµής αντίστοιχα µέσα από µια επαναληπτική διαδικασία. ηλαδή µια ασθενής ακµή

τοποθετηµένη ανάµεσα σε δύο ισχυρές ακµές µας δίνει µια ένδειξη ότι είναι τµήµα των ορίων µιας περιοχής. Αντίθετα µια ισχυρή ακµή χωρίς υποστήριξη δηλαδή χωρίς γειτονικές ακµές δεν είναι µέρος των ορίων της περιοχής. Η µέθοδος χρησιµοποιεί crack edges, δηλαδή ακµές τοποθετηµένες ανάµεσα σε pixels(σχήµα 5). Η κεντρική ακµή e έχει ένα κόµβο σε κάθε άκρο της και συνεπώς τρεις πιθανές συνέχειες της σε καθένα από αυτούς τους κόµβους. Συνεπώς οι τρεις πιθανές ακµές στο τέλος της ακµής e αποτελούνε όλες τις πιθανές περιπτώσεις επέκτασης των ορίων από αυτήν την ακµή. Ο αλγόριθµος βασίζεται στην συνεχή κατασκευή των ορίων. Ο τύπος της κάθε ακµής e µπορεί να αναπαρασταθεί χρησιµοποιώντας ένα ζευγάρι αριθµών (i,j), όπου i,j είναι οι αριθµοί των ακµών που προέρχονται από κάθε κόµβο της ακµής e(χωρίς φυσικά την ακµή e). Για να πετύχουµε αυτή τη διαδικασία θεωρούµε ένα όριο για τις γειτονικές ακµές. ηλαδή σχετικά µε κάθε γειτονική ακµή ή δεν την υπολογίζουµε αν το µέγεθος της είναι µικρότερο από το όριο η την υπολογίζουµε για τον υπολογισµό του ζευγαριού (i,j). Για κάθε τύπο ακµής αντιστοιχεί και µια διαδικασία ανανέωσης της εµπιστοσύνης της ακµής αυτής. Τότε για κάθε ακµή ανάλογα µε τον τύπο της εφαρµόζεται µια επαναληπτική διαδικασία ανανέωσης των βαθµών εµπιστοσύνης µέχρι να γίνει ο βαθµός εµπιστοσύνης της 1 ή 0. Σχήµα 5 Ο αλγόριθµος αυτός δίνει αρκετά ικανοποιητικά αποτελέσµατα στις πρώτες επαναλήψεις ενώ αντίθετα δίνει χειρότερα αποτελέσµατα από τα αναµενόµενα για µεγάλο αριθµό επαναλήψεων. Ο λόγος για αυτήν την παράξενη συµπεριφορά είναι ότι ψάχνει ο αλγόριθµος για ολικά µέγιστα όσον αφορά τη συνέπεια του κριτηρίου ακµών κάτι το οποίο δε µα δίνει τοπικά καλά αποτελέσµατα. 3.3 Όριο µε υστέρηση (Thresholding Hysteresis) 0 Η διαφορά εδώ είναι ότι χρησιµοποιούνται δύο όρια όπως φαίνεται και παρακάτω. t g ( x, y ) t g ( x, y ) t 1 0 t g ( x, y ) 1 Στην πρώτη περίπτωση θεωρούµε πως σίγουρα δεν είναι ακµή, στη δεύτερη θεωρούµε πως ίσως είναι ακµή (εξαρτάτε από τις γειτονικές της ακµές) ενώ στην τρίτη περίπτωση θεωρούµε πως η ακµή σίγουρα ανήκει στα όρια της εικόνας. Ο αλγόριθµος αρχικά ψάχνει για τις σίγουρες ακµές(σχέση 1 και 3), έπειτα θεωρεί τις ακµές που δεν είναι σίγουρος (σχέση ) ως όρια των αντικειµένων αν συνορεύουν µε ήδη µια θεωρούµενη ως σίγουρη ακµή. Η επαναληπτική διαδικασία εκτελείτε µέχρι να επέλθει σταθερότητα.

3.4 Χρήση Μασκών Σύµφωνα µε τις µεθόδους της κατηγορίας αυτής µια µάσκα επαναληπτικά περνάει από όλα τα pixel της εικόνας και υπολογίζεται η απόκριση της µάσκας στο συγκεκριµένο pixel. Η απόκριση αυτή των µασκών αντιστοιχεί σε ένα µέτρο που µας δείχνει το βαθµό ύπαρξης ακµής σε εκείνο το pixel. Έχουν αναπτυχθεί µάσκες για διάφορες κατευθύνσεις ακµών τις οποίες µπορούµε να τις χρησιµοποιήσουµε µόνες τους αν µας ενδιαφέρει µόνο µια κατεύθυνση ή µπορούµε να τις χρησιµοποιήσουµε επαναληπτικά αν θέλουµε να εξάγουµε όλες τις ακµές της εικόνας(σχήµα 6). Σχήµα 6 Έχουν προταθεί διάφοροι τελεστές ανάκτησης ακµών ο καθένας από τους οποίους είναι περισσότερος ευαίσθητος σε διαγώνιες, κατακόρυφες η οριζόντιες γραµµές π.χ Sobel, Prewitt, Kirsch, Canny κ.α. 3.5 ιαδικασίες που χρησιµοποιούν την ανίχνευση µηδενικών στη λαπλασιανή συνάρτηση Μια άλλη ιδέα για να αντιµετωπίσουµε το πρόβληµα της ανίχνευσης ακµών σε εικόνες είναι η εύρεση µηδενικών στη Λαπλασιανή συνάρτηση. Η λογική της µεθόδου βασίζεται στο γεγονός ότι µια ακµή βρίσκεται στην εικόνα εκεί που η λαπλασιανή αλλάζει πρόσηµο δηλαδή περνάει από το µηδέν. Επειδή η λαπλασιανή αφορά την δεύτερη παράγωγη καταλαβαίνουµε πως επίκειται µια δυναµική ενίσχυση του θορύβου. Για να αντιµετωπίσουµε φαινόµενα θορύβου επιπλέον γίνεται µια διαδικασία εξοµάλυνσης αρχικά µε χρήση ενός φίλτρου(συνήθως χρησιµοποιείτε ένα γκαουσιανό φίλτρο). Ο συνδυασµός των δύο φίλτρων, του γκαουσιανού αρχικά και της λαπλασιανής συνάρτησης έπειτα λέγεται LoG φίλτρο. Όµως το πιο ακριβές φίλτρο για την διαδικασία που περιγράφτηκε παραπάνω είναι το PLUS φίλτρο, το οποίο είναι συνδυασµός της λαπλασιανής συνάρτησης και του SDGD (δεύτερη παράγωγος στη συνάρτηση Gradient). Επίσης αρκετά σηµαντικό είναι η µέθοδοι να µπορούνε να διακρίνουνε µεταξύ της κατάστασης µηδενικής τιµής της λαπλασιανής αλλά και της κατάστασης περάσµατος από το µηδέν. Η διάκριση µεταξύ αυτών των δύο καταστάσεων γίνεται µέσω φίλτρων (Edge Strength Filter) τα οποία έχουν αναπτυχθεί από τους Lee, Haralick και Shapiro και τα οποία είναι αρκετά αποτελεσµατικά. Κατά την τελική διαδικασία χρησιµοποιείτε πάλι ένα κατώφλι για να µας δώσει το τελικό αποτέλεσµα. Σχήµα 7

3.6 Μέθοδοι µε την ιχνηλάτηση συνόρων (Border tracing) Εάν οι περιοχές στην εικόνα έχουν καθοριστεί τότε µπορούµε να βρούµε και τα όρια αυτών των περιοχών. Θεωρούµε σαν εσωτερικά όρια το σύνολο των ακµών που ανήκουν στην περιοχή του αντικειµένου ενώ σαν εξωτερικά όρια θεωρούµε το σύνολο των ακµών που η τοµή τους µε την περιοχή αποτελεί το κενό σύνολο(σχήµα 8). Τα εξωτερικά όρια είναι αρκετά χρήσιµα π.χ. για τον υπολογισµό της περιµέτρου. Έχουν αναπτυχθεί αλγόριθµοι για τον εντοπισµό τόσο των εσωτερικών ορίων όσο και των εξωτερικών µε βάση την αναζήτηση ιχνών της εικόνας τόσο µε 4-connectivity αλλά και µε 8-connectivity. Αν δυο περιοχές είναι γειτονικές τότε δεν έχουν κοινά ούτε τα εσωτερικά αλλά ούτε και τα εξωτερικά τους όρια(σχήµα 9). Καλύτερες ιδιότητες παρουσιάζουν τα προτεταµένα σύνορα(extended borders) τα οποία καθορίζουν κοινά σύνορα µεταξύ γειτονικών περιοχών. Τα προτεταµένα σύνορα µπορεί να καθοριστούν πολύ εύκολα από τα εξωτερικά σύνορα. Σχήµα 8 3.6 Μέθοδοι ανίχνευσης συνόρων µε τη χρήση γράφων (Border detection as graph searching) Ένας γράφος αποτελείτε από ένα σύνολο κόµβων n i και από ένα σύνολο ακµών µεταξύ των ακµών (n i, n j ). Θεωρούµε πως ο γράφος είναι προσανατολισµένος και πως κάθε κόµβος στο γράφο έχει κάποιο βάρος(κόστος). Τότε το πρόβληµα της ανίχνευσης ορίων σε µια περιοχή µετατρέπεται στο πρόβληµα του εντοπισµού του βέλτιστου µονοπατιού µεταξύ των καθορισµένων κόµβων, του αρχικού και του τελικού κόµβου. Σχήµα 9 Έστω ότι s(x) και φ(x) είναι αντίστοιχα το µέτρο και η κατεύθυνση της ακµής για ένα pixel της εικόνας. Τότε το pixel αυτό αναπαραστάτε στο γράφο µε ένα κόµβο µε βάρος s(x) και συνδέεται µε ένα άλλο κόµβο-pixel n j µόνο αν η κατεύθυνση του είναι ±π/4 από το κόµβο

n j (θεωρούµε 8 connectivity). Επίσης θεωρούµε ένα όριο µε το οποίο καθορίζουµε ποια pixel θα µετασχηµατιστούν σε κόµβους στο γράφο. ηλαδή αν το µέτρο της ακµής του είναι µεγαλύτερο από το όριο τότε το αντίστοιχο pixel αναπαραστάται σε κόµβο. Παρακάτω παρατηρούµε την αναπαράσταση µιας εικόνας ακµών σε ένα γράφο(σχήµα 10). Η διαδικασία εντοπισµού των ορίων λοιπών µετατρέπεται σε αναζήτηση για το συντοµότερο µονοπάτι στον αντίστοιχο γράφο. Ένας αλγόριθµος που χρησιµοποιείται συνήθως είναι ο Α- αλγόριθµος του Nilsson. Μια άλλη µέθοδος που στηρίζεται στη φιλοσοφία της προηγούµενης προσέγγισης (αναπαράσταση εικόνας ακµών µε γράφο) είναι η χρήση δυναµικού προγραµµατισµού. Ο δυναµικός προγραµµατισµός είναι µια µέθοδος βελτιστοποίησης και για αυτό ταιριάζει στην προσέγγιση που δώσαµε παραπάνω. 3.7 Μετασχηµατισµός Hough Σχήµα 10 Εάν µια εικόνα αποτελείτε από αντικείµενα µε γνωστό σχήµα και µέγεθος τότε το πρόβληµα ανάγεται στο να βρούµε κάποια από τα αντικείµενα στη εικόνα. Μια πιθανή λύση για το πρόβληµα είναι η µετακίνηση µιας µάσκας µε το κατάλληλο σχήµα και µέγεθος πάνω στην εικόνα και η προσπάθεια ανίχνευσης αντιστοιχίας µεταξύ περιοχών της εικόνας και της µάσκας. υστυχώς όµως η διαστρέβλωση, η περιστροφή αλλά και η εστίαση των εικόνων δυσχεραίνουν την χρήση της µάσκας. Μια αρκετά αποτελεσµατική µέθοδος είναι ο µετασχηµατισµός Hough ο οποίος µπορεί να έχει επιτυχή αποτελέσµατα ακόµα και σε επικαλυπτόµενα αντικείµενα. Η βασική ιδέα της µεθόδου µπορεί να αναδειχτεί από το απλό πρόβληµα της ανίχνευσης µιας ευθείας γραµµής σε µια εικόνα. Μια ευθεία ορίζεται από δυο σηµεία Α(x 1,y 1 ) και Β(x,y ). H ευθεία ε που διαπερνάει το σηµείο Α δίνεται από την εξίσωση y=kx+q. Ακόµα ισχύουν y 1 =kx 1 +q, y =kx +q δηλαδή τα k, q µπορούν να υπολογιστούν εύκολα από το σύστηµα εξισώσεων. Εποµένως η ευθεία ε αντιπροσωπεύεται στο χώρο k, q από ένα σηµείο Γ(k, q). Το ίδιο µπορεί να γίνει και για κάθε pixel ακµή της εικόνας. Όµως παρατηρούµε πως έτσι αρκεί να βρούµε τα τοπικά µέγιστα στο χώρο k, q(ο χώρος k, q είναι κβαντισµένος) και µε αυτό τον τρόπο εξάγουµε τις κυρίαρχες ευθείες στην εικόνα. Μια σηµαντική ιδιότητα του µετασχηµατισµού Hough είναι η αναισθησία του σε θόρυβο αλλά και στην έλλειψη κοµµατιών της ευθείας. Αυτό γίνεται λόγω της ανθεκτικότητας του µετασχηµατισµού από το χώρο ακµών της εικόνας στο χώρο συσσώρευσης(accumulator space), ένα κοµµάτι της ευθείας που χάθηκε απλά θα προκαλέσει ένα µικρότερο τοπικό µέγιστο λόγο της µικρότερης συσσώρευσης των σηµείων της ευθείας στο αντίστοιχο σηµείο του χώρου k, q. 3.7 Κατασκευή περιοχών από όρια (Region construction from borders) Μέχρι στιγµής αναφερθήκαµε σε µεθόδους που έχουν εστιάσει σε ανίχνευση των ορίων που διαχωρίζουν µια εικόνα τελείως η µερικώς. Αν η διαχώριση είναι ολική τότε εύκολα αναγνωρίζουµε τις περιοχές µιας εικόνας ενώ στην αντίθετη περίπτωση η

αναγνώριση των περιοχών µπορεί να είναι µια πολύπλοκη διαδικασία η οποία απαιτεί συνεργασία µε υψηλότερου επιπέδου γνώση. Ωστόσο µέθοδοι έχουν αναπτυχθεί που κατασκευάζουν περιοχές από µερικά όρια. Ένας αλγόριθµος που χρησιµοποιείτε είναι ο super-slice ο οποίος όµως απαιτεί την ύπαρξη διακριτών επιπέδων διαβάθµισης του γκρι στην εικόνα. Η προσέγγιση θεωρεί πως η εικόνα διαχωρίζεται πολλές φορές χρησιµοποιώντας διαφορετικά όρια. Η διαχώριση που τελικά είναι αποδεκτή είναι αυτή που συµπίπτει καλύτερα µε τα θεωρούµενα όρια της εικόνας. Καλύτερα αποτελέσµατα µπορούµε να πάρουµε χρησιµοποιώντας την παρακάτω προσέγγιση η οποία βασίζεται στην ύπαρξη µερικών ορίων στην εικόνα. Η κατασκευή των περιοχών βασίζεται σε πιθανότητες ότι τα pixel των περιοχών αυτών είναι κλειστά από µερικά όρια. Τα pixel των ορίων χαρακτηρίζονται από τη θέση τους και από την κατεύθυνση της ακµής τους φ(x). Θεωρούµε τα pixel x και y σαν αντίθετα αν ισχύει: π 3π < φ( x) φ( y) mod( π ) <. Αλγόριθµος 1. Για κάθε pixel που ανήκει στα σύνορα ψάξε για αντίθετα pixel σε µια απόσταση όχι µεγαλύτερη από Μ. Εάν ένα αντίθετο pixel δεν βρέθηκε τότε προχώρα στο επόµενο pixel που ανήκει στα σύνορα. Εάν ένα αντίθετο pixel βρέθηκε µάρκαρε κάθε pixel που ανήκει στο ευθύγραµµο τµήµα µεταξύ των δυο αντίθετων pixels.. Υπολόγισε τον αριθµό που δείχνει πόσες φορές µαρκαρίστηκε κάθε pixel στην εικόνα. Έστω b(x) ο αριθµός αυτός για κάθε pixel x. 3. Το βάρος κάθε pixel καθορίζεται όπως ακολούθως : B(x)=0 αν b(x)=0, B(x)=0.1 αν b(x)=1, B(x)=0. αν b(x)=, B(x)=0.5 αν b(x)=3 B(x)=1 αν b(x)>3. Ο βαθµός εµπιστοσύνης ότι ένα pixel ανήκει σε µια περιοχή είναι ( ) i B x i, σε µια γειτονιά 3x3 του pixel x. Εάν ο βαθµός εµπιστοσύνης του pixel x είναι µεγαλύτερος ή ίσος από ένα τότε θεωρούµε πως ανήκει στην περιοχή αλλιώς θεωρούµε πως ανήκει στο background. Επίσης έχουµε την δυνατότητα να εκµεταλλευτούµε πληροφορία για το µέγεθος των περιοχών ορίζοντας κατάλληλα τον αριθµό Μ, που χαρακτηρίζει τη γειτονιά στην οποία ψάχνουµε για αντίθετα pixel. 4 Region-based segmentation Στρεφόµαστε από τους µεθόδους εύρεσης των ορίων των περιοχών της εικόνας R µε τη βοήθεια ακµών και ορίων στη διαδικασία εύρεσης συνεκτικών περιοχών. Οι απαραίτητες συνθήκες οι οποίες πρέπει να ισχύουν, εκφράζονται από τις παρακάτω σχέσεις όπου R i αντιστοιχεί στην περιοχή i και S είναι ο συνολικός αριθµός των περιοχών. H(R i ) = TRUE i=0,1,...,s (1) H(R i UR j ) = FALSE όπου i j, R i γειτονική περιοχή του R i. () S R = U i =, R 1 i R j =NULL όπου i j (3) Η συνάρτηση Η(R i ) εκφράζει µια συνάρτηση η οποία επιστρέφει λογικές τιµές και η οποία εκφράζει την οµοιογένεια της περιοχής R i. Τα αποτελέσµατα των αλγορίθµων πρέπει να επιστρέφουν επίσης και τις µέγιστες περιοχές για τις οποίες ισχύουν οι παραπάνω σχέσεις. Σηµαντικός παράγοντας στην αποτελεσµατικότητα των αλγορίθµων που αναπτύχθηκαν είναι η επιλογή του κριτηρίου οµοιογένειας. Τα απλούστερα κριτήρια είναι η χρήση ενός µέσου επιπέδου διαβάθµισης του γκρι, τις ιδιότητες του χρώµατος αλλά και πληροφορία για την υφή της εικόνας.

4.1 Συνένωση περιοχών (Region merging) Η πιο απλή µέθοδος είναι η συνένωση περιοχών µέχρι να φτάσουµε στις µέγιστες περιοχές που ικανοποιούν τις παραπάνω σχέσεις. Θεωρούµε σαν αρχικές περιοχές κάποιες µικρές περιοχές(ίσως και ένα pixel) που ικανοποιούν τη σχέση 1. Στη συνέχεια ελέγχουµε αν µπορούµε να συνενώσουµε γειτονικές περιοχές χωρίς να χάνεται η οµοιοµορφία της εικόνας(σχέση ). ιαφορετικές προσεγγίσεις του αλγορίθµου υπάρχουν όσον αφορά το κριτήριο της συνένωσης αλλά και την επιλογή των αρχικών περιοχών. π.χ. µια προσέγγιση όσον αφορά τη συνένωση των περιοχών είναι ο έλεγχος των κοινών τους ορίων και η ύπαρξη ή όχι ικανοποιητικών αριθµού ασθενών κοινών ακµών στα pixel αυτά. 4. ιαχώριση περιοχών (Region Splitting) Εκτελείτε η αντίστροφη διαδικασία, δηλαδή αρχικά έχουµε ολόκληρη την εικόνα(η οποία δεν ικανοποιεί την συνθήκη 1) και έπειτα χωρίζεται σε κοµµάτια µέχρι να ικανοποιηθεί η συνθήκη. Παρόλο που η διαδικασία φαίνεται αντίστροφη από τη διαδικασία συνένωσης περιοχών δεν έχουν πάντα τα ίδια αποτελέσµατα παρόλο και αν χρησιµοποιείτε το ίδιο κριτήριο οµοιογένειας. 4.3 Συνένωση και διαχώριση (Splitting and Merging) Ένας συνδυασµός των δυο παραπάνω µεθόδων µπορεί να µας δώσει µια µέθοδο µε τα πλεονεκτήµατα και των δυο. Η διαδικασία µπορεί να αντιστοιχηθεί µε την κατασκευή του αντίστοιχου quadtree όπου τελικά κάθε κόµβος φύλο του δέντρου αναπαριστά µια οµοιογενής περιοχή. Ο διαχωρισµός και η συνένωση περιοχών επίσης µπορεί να εκφραστούν µε την εισαγωγή η διαγραφή τµηµάτων του quadtree. (Σχήµα 11) 4.4 Μοντέλο Mumford Shah Σχήµα 11 Έχει αποδειχτεί ότι το πρόβληµα της κατάτµησης µίας εικόνας µπορεί να αποδοθεί από ένα σύνολο γενικότερων προβληµάτων βελτιστοποίησης. Το απλούστερο από τα µοντέλα αυτά είναι το Mumford Shah το οποίο έχει µελετηθεί εκτενώς στη σύγχρονη βιβλιογραφία. Το µοντέλο αυτό ανήκει στα µοντέλα διακύµανσης(variational models) τα οποία έχουν αναπτυχθεί και αλλιώς αναφέρονται και ως ενεργά µοντέλα περιγραµµάτων(active contour models). Στα προβλήµατα αυτά παρέχεται µια συνάρτηση και ζητείτε να βελτιστοποιηθεί η συνάρτηση αυτή βρίσκοντας ένα τοπικό η ολικό βέλτιστο. Συνήθως τα προβλήµατα λύνονται µε βάση αλγόριθµους οι οποίοι χρησιµοποιούν θεωρία από µερικές διαφορικές εξισώσεις. Η συνάρτηση Mumford Shah φαίνεται παρακάτω :

Σε αυτά τα συστήµατα (Snakes, active contours) τα οποία τα τελευταία χρόνια χρησιµοποιούνται αρκετά, αρχικά ορίζεται ένα περίγραµµα που είναι όσο γίνεται πιο κοντά στο αντικείµενο που θέλουµε να εξάγουµε. Το περίγραµµα στην πορεία της διαδικασίας αλλάζει µε τέτοιο τρόπο ώστε να ταιριάζει στα όρια του αντικειµένου. Μια καµπύλη µπορεί να παρασταθεί από την παρακάτω εξίσωση ν ( s ) = ( x ( s ), y ( s )) 0 s 1. Η ενέργεια στρέψης της καµπύλης(εσωτερική ενέργεια της καµπύλης) τότε είναι dν E in ( ν ( s )) = α ( s ) + β ( s ) d s d s ενώ η εξωτερική ενέργεια της καµπύλης, που αντιστοιχεί στο πόσο καλά η καµπύλη αντιστοιχεί στα σηµεία του αντικειµένου είναι E s = G s + G s. ex ( ν ( )) ( x ( ν ( )) y ( ν ( )) ) Στόχος µας είναι η ελαχιστοποίηση των αθροίσµατος αυτών των δυο αυτών ποσοτήτων. Εκτός από τη χρήση µερικών διαφορικών εξισώσεων έχουν προταθεί µέθοδοι χρήσης δυναµικού προγραµµατισµού σε διακριτά συστήµατα ενεργών περιγραµµάτων(active contour). 4.5 Ασαφή λογική και Clustering Η ασαφή λογική έχει χρησιµοποιηθεί για την αναγνώριση των περιοχών των αντικειµένων σε µια εικόνα και συγκεκριµένα αντιστοιχεί κάθε pixel της εικόνας σε ένα cluster. Συγκεκριµένα ο αλγόριθµος που χρησιµοποιείτε σε αρκετές περιπτώσεις είναι ο Fuzzy c-means (FCM) ο οποίος εκτελεί την συγκεκριµένη εργασία. Ο αλγόριθµος ακολουθεί µια επαναληπτική διαδικασία κατά την οποία στόχος είναι η ελαχιστοποίηση της παράστασης d ν όπου u ij είναι ο βαθµός συµµετοχής του pixel j στο cluster i, v i είναι το κέντρο του i cluster. Πρέπει να σηµειωθεί ότι x j αλλά και v i εκφράζουν πληροφορία σχετικά µε την εικόνα π.χ. τη διαβάθµιση του γκρι στο αντίστοιχο pixel. Έτσι λοιπόν τα κέντρα των clusters αλλά και οι βαθµοί συµµετοχής κάθε σηµείου της εικόνας ανανεώνονται σε κάθε επανάληψη. Ένα µειονέκτηµα της µεθόδου είναι πως ενώ τα γειτονικά pixel(όσον αφορά χωρική πληροφορία) έχουν µεγάλη πιθανότητα να ανήκουν στο ίδιο cluster αυτό δεν λαµβάνεται υπόψη στον αλγόριθµο. Η λύση που προτάθηκε στο [4] ορίζει τη χωρική συνάρτηση όπου ΝΒ(x j ) είναι ένα τετράγωνο 5x5 µε κέντρο το σηµείο x j. Τότε όπως η συνάρτηση ανανέωσης του βαθµού συµµετοχής γίνεται

µε αποτέλεσµα η χωρική πληροφορία να χρησιµοποιείτε κατά τον αλγόριθµο. Ο αλγόριθµος παρουσιάζει καλά αποτελέσµατα µε µεγάλο του προσόν την ανοχή στο θόρυβο. Και άλλες πρόσφατες προσεγγίσεις βασίζονται στην ασαφή λογική και στην διαδικασία υπολογισµού οµοιότητας µεταξύ των επιπέδων διαβάθµισης του γκρι. Η ασαφή λογική µας βοηθάει να ορίσουµε τα µαθηµατικά εργαλεία για µια τέτοια µέθοδο. Σχήµα 1 Αρχικά ορίζονται δύο ασαφή σύνολα Β και W που εκφράζουν τα αντικείµενα και το background. Έπειτα για κάθε επίπεδο x i διαβάθµισης του γκρι µετράµε τα µέτρα οµοιότητας µεταξύ των συνόλων (B U x i ) και (W U x i ) και ταξινοµούµε το επίπεδο x i στο σύνολο µε την µεγαλύτερη οµοιότητα. Ένα µέτρο της οµοιότητας µεταξύ ασαφών συνόλων παρέχεται από τον Kaufmann[1975, Introduction to the Theory of Fuzzy Subsets]. Μετά τα ασαφή σύνολα Β και W ανανεώνονται( οι παράµετροι τους αλλάζουν) µε τρόπο ώστε να προσαρµόζονται στα σηµεία του επιπέδου διαβάθµισης του γκρι που περιλαµβάνουν. 4.6 Bayesian Method and Image Segmentation Τελευταία µια προσέγγιση που χρησιµοποιείτε κατά κόρον όπως είδαµε και προηγου- µένος είναι η θεώρηση του προβλήµατος ως classify πρόβληµα δηλαδή η ανίχνευση κάθε περιοχής που ανήκει κάθε pixel. Ένας αλγόριθµος που έχει χρησιµοποιηθεί είναι ο Bayes Naiv φυσικά µε τις κατάλληλες προσεγγίσεις(π.χ είσοδος χωρικής πληροφορίας µέσω MRF πιθανοτήτων) ώστε να ταιριάξει µε το πρόβληµα της κατάτµησης εικόνας. Τελικά ο αλγόριθµος Bayesian απαιτεί την εύρεση ενός µέγιστου, οδηγούµαστε δηλαδή σε ένα δύσκολο υπολογιστικά πρόβληµα συνδυαστικής βελτιστοποίησης. Μια προσέγγιση που έχει δοθεί συνδυάζει το πρόβληµα µας µε το πρόβληµα της µέγιστης ροής σε ένα γράφο(min cut- max flow). 5. Συµπεράσµατα Το πρόβληµα της κατάτµησης εικόνας έχει µελετηθεί αρκετά και έχουν προταθεί διάφορες προσεγγίσεις που αντιµετωπίζουν το θέµα από τελείως διαφορετικές σκοπιές. Τελευταία οι µέθοδοι που χρησιµοποιούνται περισσότερο και στις οποίες υπάρχει µεγαλύτερη δραστηριότητα στο χώρο της έρευνας, χρησιµοποιούν τεχνολογίες classification, ασαφής λογικής και διαδικασίες προσέγγισης ενεργών περιγραµµάτων µε την εικόνα. Ένα σηµαντικό πρόβληµα που αντιµετωπίζεται στη βιβλιογραφία του προβλήµατος είναι ότι δεν χρησιµοποιούνται διαδικασίες υπολογισµού της χρησιµότητας του κάθε αλγόριθµου(κριτήρια

κατάτµησης εικόνων) αλλά προβάλλονται συνήθως οπτικά αποτελέσµατα. Παρόλο αυτό µια πληθώρα κριτηρίων κατάτµησης εικόνας υπάρχουν στη σύγχρονη βιβλιογραφία[a Summary of Recent Progresses for Segmentation Evaluation, Yu-Jin Zhang]. 6. Βιβλιογραφία [1] Image Processing, Analysis, and Machine Vision Milan Sonca, Vaclan Hlavac, Roger Boyle (1999) [] Threshold Dynamics for the Piecewise Constant Mumford -Shah Functional Selim Esedoglu, Yen-Hsi Richard Tsai (004) [3] An Improved Moment-Preserving Auto Threshold Image Segmentation Algorithm Shitu Luo, Qi Zhang, Feilu Luo, Yanling Wang and Zhiyong Chen (004) [4] Fuzzy c-means clustering with spatial information for image segmentation Keh-Shih Chuang, Hong-Long Tzeng, Sharon Chen, Jay Wu, Tzong-Jer Chen [5] Image Segmentation by Histogram Thresholding Using Fuzzy Sets Orlando J. Tobias, Rui Seara (00) [6] Bayesian Image Segmentation Using Wavelet-Based Priors Mario A. T. Figueiredo (005) [7] Introduction to the Theory of Fuzzy Subsets Fundamental A. Kaufmann (1975)