ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ



Σχετικά έγγραφα
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

MPEG7 Multimedia Content Description Interface

προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων

Ειδικές Επιστηµονικές Εργασίες

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

/5

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

Αναγνώριση Προτύπων Ι

4.3. Γραµµικοί ταξινοµητές

Οπτική αντίληψη. Μετά?..

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Περίληψη ιπλωµατικής Εργασίας

ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ: ΣΕΠΤΕΜΒΡΙΟΣ 2008 Θέµα 1 ο ( µονάδες)

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Ανάκτηση πολυμεσικού περιεχομένου

Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη

Αναγνώριση Προτύπων Ι

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Επιµέλεια Θοδωρής Πιερράτος

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

Ελένη Αντωνίου, A.M Δεκέμβριος Συστήματα Αναζήτησης σε Πολυμεσικό Υλικό

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) +

DIP_01 Εισαγωγήστην ψηφιακήεικόνα. ΤΕΙ Κρήτης

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ ΜΕ ΙΣΤΟΓΡΑΜΜΑ

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3.

Α.Τ.Ε.Ι. Ηρακλείου Ψηφιακή Επεξεργασία Εικόνας ιδάσκων: Βασίλειος Γαργανουράκης. Ανθρώπινη Όραση - Χρωµατικά Μοντέλα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Υπολογιστικό Πρόβληµα

Ανάκτηση Πληροφορίας

Προσαρµοστικοί Αλγόριθµοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδροµικός αλγόριθµος ελάχιστων τετραγώνων (RLS Recursive Least Squares)

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

οµή δικτύου ΣΧΗΜΑ 8.1

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Μεθοδολογίες παρεµβολής σε DTM.

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1)

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Δ10. Συμπίεση Δεδομένων

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής

Γραµµικοί Ταξινοµητές

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

4. Ο αισθητήρας (perceptron)

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ "ΕΞΟΡΥΞΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠΟ ΠΟΛΥΜΕΣΑ ΜΕ ΧΡΗΣΗ ΓΝΩΣΗΣ" ΙΩΣΗΦΙ ΗΣ ΗΜΗΤΡΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΜΙΧΑΗΛ Γ. ΣΤΡΙΝΤΖΗΣ ΟΚΤΩΒΡΙΟΣ 2004

Περιεχόµενα Πίνακας Περιεχοµένων ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ...2 ΚΕΦΑΛΑΙΟ 1 Ο...4 ΕΙΣΑΓΩΓΗ...4 1. ΤΡΟΠΟΙ ΑΝΑΖΗΤΗΣΗΣ ΠΟΛΥΜΕΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...4 1.1 Ανάλυση και επεξεργασία Video...5 1.2 Αλγόριθµοι κατάτµησης...6 1.3 Χαρακτηριστικά Χαµηλού Επιπέδου...6 1.4 Αλγόριθµοι κατάταξης...7 2. ΓΕΝΙΚΗ ΟΜΗ ΣΥΣΤΗΜΑΤΩΝ ΠΟΥ ΑΣΧΟΛΟΥΝΤΑΙ ΜΕ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ ΚΑΙ VIDEO ΚΑΙ ΠΡΟΤΕΙΝΟΜΕΝΗ ΠΡΟΣΕΓΓΙΣΗ....7 ΚΕΦΑΛΑΙΟ 2 Ο...11 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ...11 2.1 ΕΙΣΑΓΩΓΗ...11 2.2 ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΣΥΜΠΙΕΣΜΕΝΟ ΠΕ ΙΟ...14 2.3 ΑΛΓΟΡΙΘΜΟΣ ΚΑΤΑΤΜΗΣΗΣ ΠΕΡΙΟΧΩΝ...14 2.4 ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΑΜΗΛΟΥ ΕΠΙΠΕ ΟΥ...15 2.5 ΑΛΓΟΡΙΘΜΟΣ ΚΑΤΑΤΑΞΗΣ ΠΕΡΙΟΧΩΝ...15 2.6 ΗΜΙΟΥΡΓΙΑ ΣΕΝΑΡΙΩΝ...17 2.7 ΛΟΓΙΚΟΣ ΈΛΕΓΧΟΣ...17 ΚΕΦΑΛΑΙΟ 3 Ο...18 ΚΑΤΑΤΜΗΣΗ ΕΙΚΟΝΩΝ ΚΑΙ ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ...18 3.1 ΚΑΤΑΤΜΗΣΗ ΕΙΚΟΝΩΝ (IMAGE SEGMENTATION)....18 3.1.1 Εισαγωγή...18 3.1.2 Προτεινόµενη διαδικασία κατάτµησης...19 3.2 ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ (FEATURE EXTRACTION)...24 3.2.1 Εισαγωγή...24 3.2.3 Το πρότυπο MPEG-7...24 I.Περιγραφή Χρώµατος...24 II. Περιγραφή υφής...26 III. Περιγραφή Σχήµατος...26 IV. Χαρακτηριστικά κίνησης...28 3.2.3 Περιγραφή της διαδικασίας εξαγωγής χαρακτηριστικών που ακολουθείται...28 I. Εξαγωγή χαρακτηριστικών...29 II. Εξαγωγή χαρακτηριστικών κίνησης....30 2

Περιεχόµενα ΚΕΦΑΛΑΙΟ 4 Ο...32 ΚΑΤΑΤΑΞΗ ΠΕΡΙΟΧΩΝ ΜΕ ΧΡΗΣΗ SVM...32 4.1 ΕΙΣΑΓΩΓΗ...32 4.2 ΜΗΧΑΝΕΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΝΥΣΜΑΤΩΝ...32 4.3 ΜΗΧΑΝΕΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΝΥΣΜΑΤΩΝ ΠΥΡΗΝΑ (KERNEL SVM)...34 4.4 ΜΗΧΑΝΕΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΝΥΣΜΑΤΩΝ ΜΙΑΣ ΚΛΑΣΗΣ...35 4.4 ΧΡΗΣΗ ΤΩΝ SVM ΣΤΗΝ ΕΦΑΡΜΟΓΗ...35 4.4.1 ιαδικασία εκπαίδευσης...36 i. Για δρόµο µη δρόµο...36 ii. Για άµµος όχι άµµος...38 iii. Για γρασίδι όχι γρασίδι...41 iii. Για αυτοκίνητο όχι αυτοκίνητο...43 4.4.2 ιαδικασία ελέγχου κατάταξης...44 ΚΕΦΑΛΑΙΟ 5 Ο...47 ΛΟΓΙΚΕΣ ΣΥΝΘΗΚΕΣ ΚΑΙ ΠΕΡΙΟΡΙΣΜΟΙ...47 5.1 ΕΙΣΑΓΩΓΗ...47 5.2 ΛΟΓΙΚΕΣ ΣΥΝΘΗΚΕΣ...48 5.2.1 Περιοχή Α δίπλα σε περιοχή Β...48 5.2.2 Περιοχή Α µέσα στη περιοχή Β...50 5.2.3 Περιοχή Α κινείται σε σχέση µε µια περιοχή Β...52 5.3 ΛΟΓΙΚΟΙ ΕΛΕΓΧΟΙ ΠΟΥ ΥΛΟΠΟΙΗΘΗΚΑΝ ΓΙΑ ΤΗ ΣΥΓΚΕΚΡΙΜΕΝΗ ΕΦΑΡΜΟΓΗ...53 5.4 ΗΜΙΟΥΡΓΙΑ ΣΕΝΑΡΙΩΝ...54 5.5 ΛΟΓΙΚΟΣ ΕΛΕΓΧΟΣ ΚΑΙ ΕΝΣΩΜΑΤΩΣΗ ΠΕΡΙΟΧΩΝ...55 5.5.1 Λογικός έλεγχος...55 5.5.2 Καλύτερο σενάριο και Ενσωµάτωση περιοχών...56 ΚΕΦΑΛΑΙΟ 6 Ο...58 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ...58 6.1 ΕΙΣΑΓΩΓΗ...58 6.2 ΣΥΝΘΕΤΙΚΕΣ ΕΙΚΟΝΕΣ...58 6.3 ΠΡΑΓΜΑΤΙΚΑ Ε ΟΜΕΝΑ...64 ΚΕΦΑΛΑΙΟ 7 Ο...75 ΣΥΜΠΕΡΑΣΜΑΤΑ...75 7.1 Ο ΡΟΛΟΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΚΑΤΑΤΜΗΣΗΣ....75 7.2 Ο ΡΟΛΟΣ ΤΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΑΜΗΛΟΥ ΕΠΙΠΕ ΟΥ ΚΑΙ ΤΟΥ ΣΥΝΟΛΟΥ ΚΑΤΑΤΑΞΗΣ...76 7.3 Ο ΡΟΛΟΣ ΤΩΝ ΛΟΓΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ...76 7.4 ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ...76 8. ΒΙΒΛΙΟΓΡΑΦΙΑ - ΑΝΑΦΟΡΕΣ...79 3

Εισαγωγή Κεφάλαιο 1 ο Εισαγωγή Εύκολα µπορεί να διαπιστώσει κανείς στις µέρες µας τη διείσδυση της τεχνολογίας σε κάθε ανθρώπινη δραστηριότητα. Η διαθεσιµότητα ψηφιακού περιεχοµένου video έχει αυξηθεί δραµατικά τα τελευταία χρόνια, ενώ οι πρόσφατες επιτυχίες στο τοµέα της σύλληψης εικόνας και αποθήκευσης σε συνδυασµό µε την κατακόρυφη πτώση των τιµών αντίστοιχων συσκευών, έχουν συµβάλλει στην εκρηκτική αύξηση του πολυµεσικού υλικού. Η καθιέρωση του Internet ως βασικό µέσο επικοινωνίας και διακίνησης πληροφοριών, όπως επίσης και οι πολυµεσικές επεκτάσεις του (ύπαρξη πληθώρας φωτογραφιών, αναπαραγωγή βίντεο σε πραγµατικό χρόνο, τηλεδιασκέψεις) καταδεικνύουν τη µεγάλη διάδοση και εποµένως αξία των ψηφιακών µέσων. Παρότι η δηµιουργία πολυµεσικού περιεχοµένου και η διάδοση του ακολουθεί ραγδαίους ρυθµούς, υπάρχουν πολύ λίγα εργαλεία που αναλαµβάνουν το φιλτράρισµα, τη ταξινόµηση, την αναζήτηση και ανάκτηση του µε συστηµατικό τρόπο. Η έλλειψη τέτοιων εργαλείων για εξόρυξη γνώσης (data mining) σε πολυµεσικό υλικό υποβαθµίζει σε µεγάλο βαθµό την πρακτική του χρησιµότητα. Η εξαγωγή χαρακτηριστικών και η αναγνώριση αντικειµένων είναι σηµαντικά στοιχεία για την ανάπτυξη γενικής χρήσης συστηµάτων διαχείρισης συλλογών πολυµέσων. Προς αυτή την κατεύθυνση έχουν παρουσιαστεί σηµαντικά αποτελέσµατα στη βιβλιογραφία και εντείνονται οι προσπάθειες προκειµένου η σηµασιολογική περιγραφή των πολυµέσων να ακολουθεί ένα ενιαίο και προδιαγεγραµµένο τρόπο. 1. Τρόποι αναζήτησης πολυµεσικής πληροφορίας Μέχρι σήµερα, ο τρόπος µε τον οποίο γίνεται η αναζήτηση πολυµεσικής πληροφορίας είναι µε τη χρήση λέξεων- κλειδιών, που επιχειρούν να αποδώσουν το σηµασιολογικό περιεχόµενο του πολυµεσικού υλικού. Αυτή η µέθοδος, παρά το γεγονός ότι είναι ιδιαίτερα απλοϊκή και δεν απαιτεί υπολογιστική ισχύ, έχει το προφανές µειονέκτηµα ότι απαιτείται να γίνει µια διαδικασία χαρακτηρισµού των πολυµεσικών οντοτήτων από άνθρωπο, η οποία εκτός από χρονοβόρα και ανεπαρκής, καθίσταται πλέον αδύνατη µε τον τεράστιο όγκο του ψηφιακού υλικού που υπάρχει. 4

Εισαγωγή Έτσι λοιπόν, γίνεται προσπάθεια για εύρεση νέων τεχνικών δεικτοδότησης του πολυµεσικού υλικού, που να µπορεί να γίνει µε αυτόµατο ή ηµι-αυτόµατο τρόπο έτσι ώστε να επιτρέπει την αναζήτηση και ανάκτηση του υλικού. Συνοπτικά, οι τεχνικές ακολουθούν κάποια από τις παρακάτω γενικές κατευθύνσεις: Ανάκτηση µε τη βοήθεια ερώτησης µέσω παραδείγµατος (Query By Example). Ο χρήστης αντί να εισάγει κάποια λέξη-κλειδί δίνει ένα πολυµεσικό παράδειγµα (σκαρίφηµα αντικειµένου για ανάκτηση εικόνας, σκίτσο τροχιάς κίνησης σε video, κλπ.) που έχει άµεση σχέση µε αυτό που αναζητεί [3], [4], [5]. Αναζήτηση πολυµέσων µε βάση το περιεχόµενο (content-based data retrieval), η οποία στοχεύει στην εξαγωγή πληροφορίας ενδιάµεσου ή υψηλού επιπέδου από τα χαρακτηριστικά χαµηλού επιπέδου των πολυµέσων [6], [7], [8]. Εννοιολογική δεικτοδότηση και ανάκτηση (semantic indexing and retrieval), κατά την οποία σε αρκετές περιπτώσεις αξιοποιείται η εκ των προτέρων γνώση για συγκεκριµένα πεδία εφαρµογής, όπως για παράδειγµα αθλήµατα και µεταδόσεις ειδήσεων). Σε αυτή τη κατηγορία µπορούν να ενταχθούν η µοντελοποίηση οντολογιών και δηµιουργία µετα-δεδοµένων βασισµένα σε οντολογίες [11], [12], [13]. Οι οντολογίες διευκολύνουν την εξαγωγή συµπερασµάτων βασισµένα σε κανόνες και γνώση και µπορούν να δηµιουργήσουν νέα γνώση. Αναζήτηση και ανάκτηση µε χρήση υβριδικών µεθόδων, που συνδυάζουν τις παραπάνω τεχνικές, εκµεταλλευόµενες κάθε δυνατή είσοδο από το χρήστη (ερώτηση σε λεκτική µορφή, παράδειγµα εικόνας, σκαρίφηµα, κλπ.) συχνά αξιοποιώντας και ενδεχόµενη ανάδραση εκ µέρους του - επιστρέφοντας το ζητούµενο αποτέλεσµα [9], [10]. 1.1 Ανάλυση και επεξεργασία Video Στη βιβλιογραφία µπορεί να βρει κανείς πολλές τεχνικές, που σκοπό έχουν την δεικτοδότηση και την ανάλυση του περιεχοµένου των video. Τεχνικές όπως: εντοπισµός σκηνών (shot detection) [26],[27] κατάτµηση σε background/foreground [26], [27] υπολογισµός τροχιών αντικειµένων (Trajectory) [36] 5

Εισαγωγή Ανίχνευση Κίνησης (motion detection) [36] Εντοπισµός αντικειµένων (Object Tracking) Εξαγωγή χαρακτηριστικών πλαισίων ( key frames) [37] είναι πολύ δηµοφιλείς στο χώρο αυτό και υλοποιήσεις τους που υπόσχονται ικανοποιητικά αποτελέσµατα µπορούν εύκολα να βρεθούν. 1.2 Αλγόριθµοι κατάτµησης Κάθε σύστηµα που κάνει ανάλυση πολυµεσικού υλικού, είτε αυτό είναι εικόνα είτε βίντεο, ενσωµατώνει τεχνικές κατάτµησης περιοχών, που συνήθως είναι και το πρώτο βήµα της επεξεργασίας. Στη βιβλιογραφία µπορεί κανείς να βρει πολλαπλές λύσεις για κατάτµηση περιοχών [18], [19], [20], [21] όπου κάθε µια ειδικεύεται σε διαφορετικό πρόβληµα, ανάλογα µε τις ανάγκες της εφαρµογής. Οι κυριότερες τεχνικές που συναντά κανείς στη βιβλιογραφία σχετικά µε τη κατάτµηση περιοχών παρουσιάζονται συνοπτικά παρακάτω: Recursive Shortest Spanning Tree (RSST) [22], [19] Pyramidal Region Growing [23], Morphological Watershed [24], [25] K-means [1], [26] O RSST είναι ένα πολύ ισχυρό εργαλείο κατάτµησης, που το κυριότερο µειονέκτηµα του, που είναι ο µεγάλος υπολογιστικός όγκος, µπορεί να αντισταθµιστεί µε παραλλαγές του, όπως ο Multiresolution RSST [28], µε παράλληλες υλοποιήσεις σε κατανεµηµένα συστήµατα [29] και τη χρήση διασυνδεµένων ιδιοτήτων [30], [31]. Oι αλγόριθµοι κατάτµησης µπορούν να κατηγοριοποιηθούν µε διαφορετικά κριτήρια, όπως µέθοδοι κατάτµησης µε βάση τα pixel, το εµβαδό, τις γωνίες και τα φυσικά χαρακτηριστικά, ή µέθοδοι που επεξεργάζονται τη χωρική, τη χρονική ή τη χωροχρονική πληροφορία µιας εικόνας, ενός βίντεο. 1.3 Χαρακτηριστικά Χαµηλού Επιπέδου Όσον αφορά τις τεχνικές εξαγωγής χαρακτηριστικών χαµηλού επιπέδου, οι περισσότερες εφαρµογές κάνουν χρήση του προτύπου MPEG-7 [32], καθώς τα χαρακτηριστικά που το πλαισιώνουν θέτουν µια πολύ καλή βάση για την περιγραφή 6

Εισαγωγή του πολυµεσικού υλικού. Τα κυριότερα χαρακτηριστικά που ορίζονται στο πρότυπο έχουν σκοπό να περιγράψουν: Χρωµατική πληροφορία (Color Descriptors) Πληροφορία Υφής (Texture Descriptors) Πληροφορία Σχήµατος (Shape Descriptors) Πληροφορία κίνησης (Motion Descriptors) 1.4 Αλγόριθµοι κατάταξης Όσον αφορά τις τεχνικές κατάταξης των περιοχών σε οµάδες, δηµοφιλείς είναι αυτές που βασίζονται σε νευρωνικά δίκτυα -όπου δίνεται η δυνατότητα εκµάθησης- και σε θεωρία ασαφών συνόλων, καθώς και αλγόριθµοι που αξιοποιούν τη θεωρία της αναγνώρισης προτύπων. Συνοπτικά µερικοί από τους πιο γνωστούς αλγορίθµους όπως µπορούµε να δούµε στη βιβλιογραφία, είναι: οι k-nn ταξινοµητές (k Nearest Neighbors) [33] οι µηχανές υποστήριξης διανυσµάτων (Support Vector Machines) [16] οι ταξινοµητές που βασίζονται στη θεωρία αποφάσεων του Bayes [34] τα νευρωνικά δίκτυα [35] οι αυτο-οργανωµένοι χάρτες (Self-Organizing Maps). 2. Γενική δοµή συστηµάτων που ασχολούνται µε επεξεργασία εικόνας και video και προτεινόµενη προσέγγιση. Στις πλέον σύγχρονες εκδοχές των βασισµένων στο περιεχόµενο τεχνικών επεξεργασίας εικόνας και video επιχειρείται να γίνει εξαγωγή χαρακτηριστικών χαµηλού επιπέδου όχι από ολόκληρο το µέσο, αλλά από περιοχές που εκφράζουν σε κάποιο βαθµό τα αντικείµενα ή αυτοτελή τµήµατα που αναπαρίστανται στο οπτικό µέσο. Οι περιοχές αυτές εξάγονται µε χρήση αλγορίθµων κατάτµησης που βασίζονται σε τεχνικές ψηφιακής επεξεργασίας σήµατος. Παρότι η χρήση τεχνικών κατάτµησης οδήγησε σε σηµαντική πρόοδο των τεχνικών ανάλυσης, δεικτοδότησης και ανάκτησης πολυµέσων και αποτελούν αναµφισβήτητα απαραίτητη διεργασία στην πορεία της εξαγωγή γνώσης από το περιεχόµενο [14], στη παρούσα µορφή τους 7

Εισαγωγή δεν αποδεικνύονται ιδιαίτερα αποτελεσµατικοί, καθώς δεν χρησιµοποιούνται σηµασιολογικού επιπέδου χαρακτηριστικά. Σε πρόσφατες εργασίες έχουν εµφανιστεί κάποιες προσπάθειες για την εξαγωγή κάποιων σηµασιολογικού επιπέδου χαρακτηριστικών, οι οποίες όµως περιορίζονται στην εφαρµογή της διαδραστικής αναζήτησης οπτικού περιεχοµένου και στην εξαγωγή χαρακτηριστικών «µεσαίου επιπέδου», όπως η αυτόµατη εξαγωγή περιλήψεων, χαρακτηριστικών καρέ, κ.α. [16]. Σε αυτή την κατηγορία µπορούν να ενταχθούν και οι µέθοδοι αυτόµατης κατάταξης εικόνων και αντικειµένων σε προεπιλεγµένες κλάσεις, όπως «πρόσωπα/µη-πρόσωπα» και «πόλη/εξοχή», µετά από κατάλληλη εκπαίδευση. Η χρήση a priori γνώσης [14], είναι µια προσπάθεια µε την οποία υψηλού επιπέδου σηµασιολογική πληροφορία µπορεί να ενσωµατωθεί και να υποβοηθήσει τεχνικές που επιχειρούν να καταγράψουν αυτόµατα το σηµασιολογικό περιεχόµενο πολυµεσικού περιεχοµένου. Στο [17] σηµασιολογικές οντότητες που βασίζονται στο πρότυπο MPEG-7 χρησιµοποιούνται για την βασισµένη στη γνώση ανάλυση εικονοσειρών και τον εντοπισµό αντικειµένων, καθιστώντας δυνατή τη σηµασιολογική δεικτοδότηση των εικονοσειρών. Στο [48], το πρόβληµα της γεφύρωσης του χάσµατος µεταξύ χαµηλού επιπέδου αναπαράστασης και υψηλού επιπέδου σηµασιολογικής γνώσης µορφοποιείται ως ένα πιθανοτικό πρόβληµα αναγνώρισης προτύπων, ενώ στα [49][50] αναπτύσσονται υβριδικές µέθοδοι για την αντιµετώπιση του ίδιου προβλήµατος. Στη παρούσα διπλωµατική εργασία παρουσιάζεται, λοιπόν, ένα εργαλείο ανάλυσης πολυµεσικού περιεχοµένου και συγκεκριµένα επεξεργασίας βίντεο, που ως στόχο έχει την εξαγωγή σηµασιολογικού περιεχοµένου, µε αξιοποίηση χαρακτηριστικών χαµηλού επιπέδου και την χρήση a priori γνώσης. Ανήκει στο χώρο της επεξεργασίας εικόνας [2], καθώς η βασική επεξεργασία γίνεται στα πλαίσια (frame) του πολυµεσικού υλικού και κάνει χρήση τεχνικών κατάτµησης και αλγορίθµων κατάταξης. Θα µπορούσε να ισχυριστεί κανείς πως εντάσσεται σε µια κατηγορία εργαλείων που επιχειρούν την ηµι-αυτόµατη σηµασιολογική περιγραφή της ψηφιακής οντότητας, καθώς επιχειρείται, από την ανάλυση των χαµηλού επιπέδου δεδοµένων που µπορεί να επεξεργαστεί το σύστηµα, να εξαχθεί πληροφορία υψηλότερου επιπέδου. Μάλιστα, η µέθοδος που αναπτύχθηκε έχει µια καινοτοµία που έγκειται στο γεγονός ότι χρησιµοποιείται εκ των προτέρων γνώση (a 8

Εισαγωγή priori knowledge) ως είσοδος στο σύστηµα, έτσι ώστε να βελτιωθούν τα αποτελέσµατα και να αυξηθεί η εγκυρότητα τους. Τελικά όλη η εφαρµογή εντάσσεται στο γενικότερο πρόβληµα της αναζήτησης και ανάκτησης δεδοµένων µε βάση το περιεχόµενο (content-based search and retrieval), και κατά επέκταση στην πρόκληση που καλείται εξόρυξη γνώσης από δεδοµένα (data mining). Με τον όρο της εξαγωγής σηµασιολογικού χαρακτηρισµού από πολυµεσικό περιεχόµενο εννοούµε την απαίτηση που τίθεται στο σύστηµα να εξάγει γνώση, να µην σταµατά δηλαδή την επεξεργασία όταν έχει καταφέρει να έχει µια µαθηµατική περιγραφή του περιεχοµένου, που για τον άνθρωπο δεν έχει καµία νοηµατική ουσία, αλλά να επιχειρείται η επεξήγηση του περιεχοµένου µε σύµβολα υψηλότερου επιπέδου και που είναι άµεσα αντιληπτά στον άνθρωπο (πχ. λεκτική περιγραφή). Μελετώντας τέτοια συστήµατα διαπιστώνουµε ότι η αρχιτεκτονική τους είναι σε µεγάλο βαθµό παραπλήσια. Σε πρώτο στάδιο τεχνικές κατάτµησης επιχειρούν να εντοπίσουν κάθε διαφορετική οντότητα στο πολυµεσικό υλικό. Εξάγονται χαρακτηριστικά χαµηλού επιπέδου (µετα-δεδοµένα), τα οποία περιγράφουν τις οντότητες αυτές και που είναι σε θέση να επεξεργαστεί ο υπολογιστής και έπειτα επιχειρείται η αναζήτηση και ταύτιση αυτών των χαρακτηριστικών µε αυτά που βρίσκονται σε πολυµεσικές βάσεις δεδοµένων (βάσεις µετα-δεδοµένων), που έχουν δηµιουργηθεί χειροκίνητα. Έτσι λοιπόν, εύκολα αντιλαµβάνεται κανείς τη µεγάλη σηµασία ενός αποδοτικού αλγορίθµου κατάτµησης καθώς από αυτόν εξαρτάται ο εντοπισµός όλων των αντικειµένων και άρα η απώλεια ή όχι πληροφορίας, καθώς επίσης και τη σηµασία ύπαρξης βάσεων µετα-δεδοµένων που να περιγράφουν µε επαρκή και κατάλληλο τρόπο έννοιες ώστε να επιτυγχάνεται η µετάβαση από τα χαρακτηριστικά χαµηλού επιπέδου στη σηµασιολογική περιγραφή. Γίνεται φανερό πως ένα τέτοιο εργαλείο, για να έχει όχι µόνο θεωρητικό ενδιαφέρον αλλά και πρακτικό, θα πρέπει να έχει ένα περιορισµένο πεδίο εφαρµογής, έτσι ώστε να µπορεί να αξιολογηθεί η αποτελεσµατικότητα του. Το πεδίο εφαρµογής που επιλέχτηκε είναι αυτό των αγώνων αυτοκίνητου της Formula 1. Ανάλογες προσπάθειες εξαγωγής σηµασιολογικών χαρακτηριστικών έχουν γίνει και σε άλλα παρόµοια πεδία, όπως για παράδειγµα στο ποδόσφαιρο, στο µπιλιάρδο ή στη µετάδοση ειδήσεων (news broadcasting), καθώς αποτελούν καλά ορισµένους χώρους µε διατυπωµένες και σαφείς σχέσεις µεταξύ των αντικειµένων που το αποτελούν και που δεν παρατηρείται µεγάλη διασπορά όσον αφορά το πολυµεσικό περιεχόµενο τους. 9

Εισαγωγή Η παρούσα εργασία στα κεφάλαια που ακολουθούν επιχειρεί να περιγράψει τη προτεινόµενη προσέγγιση που ακολουθήθηκε και να ενηµερώσει για τις βασικές αρχές που τη διέπουν. Στις επόµενες παραγράφους παρουσιάζεται συνοπτικά η δοµή της εργασίας: Στο κεφάλαιο 2 παρουσιάζεται η γενική αρχιτεκτονική του προτεινόµενου συστήµατος και στη συνέχεια ακολουθεί µια σύντοµη αλλά περιεκτική περιγραφή για το σχεδιασµό κάθε υποσυστήµατος. Στο κεφάλαιο 3 δίνεται ο ορισµός της κατάτµησης περιοχών, παρουσιάζονται οι επικρατέστερες τεχνικές κατάτµησης που µπορούν να βρεθούν στη βιβλιογραφία και γίνεται η κατηγοριοποίηση τους. Αναλυτικά περιγράφεται ο αλγόριθµος Κ-µέσων καθώς είναι αυτός που χρησιµοποιείται στη παρούσα εργασία. Κατόπιν, εκτίθεται συνοπτικά το πρότυπο MPEG-7 και γίνεται αναφορά στα χαρακτηριστικά χαµηλού επιπέδου του προτύπου που χρησιµοποιούνται. Στο κεφάλαιο 4 παρουσιάζεται το σύστηµα κατάταξης περιοχών, που βασίζεται σε υλοποίηση των µηχανών υποστήριξης (SVM). Παρουσιάζονται οι βασικές αρχές των SVΜ, περιγράφονται µε λεπτοµέρεια η διαδικασία εκπαίδευσης και κατάταξης περιοχών σε οµάδες. Στο κεφάλαιο 5 παρουσιάζεται ο τρόπος µε τον οποίο γίνεται η εισαγωγή γνώσης στο σύστηµα και ο λογικός έλεγχος των αποτελεσµάτων. Στο κεφάλαιο 6 παρουσιάζονται τα πειραµατικά αποτελέσµατα, που προέκυψαν από την εφαρµογή του αλγορίθµου που περιγράφηκε σε video από αγώνες της Formula 1. Παραθέτονται στατιστικά στοιχεία που αφορούν την αποτελεσµατικότητα της διαδικασίας. Στο κεφάλαιο 7 ολοκληρώνεται η περιγραφή της εργασίας µε την εξαγωγή των συµπερασµάτων, σχολιασµό των προβληµάτων που προέκυψαν και εκτιµάται η χρησιµότητα των ερευνητικών αποτελεσµάτων µελλοντικά. 10

Αρχιτεκτονική του Συστήµατος Κεφάλαιο 2 ο Αρχιτεκτονική του συστήµατος 2.1 Εισαγωγή Όπως ειπώθηκε στην εισαγωγή, η παρούσα διπλωµατική εργασία εστιάζει στην εξαγωγή σηµασιολογικής πληροφορίας από συµπιεσµένες κατά MPEG-2 σκηνές. Βασίζεται στη χρησιµοποίηση πληροφορίας που εξάγεται από το συµπιεσµένο πολυµεσικό υλικό και από την εκ των προτέρων γνώση που υπάρχει σχετικά µε τα αντικείµενα που εµφανίζονται στις σκηνές αυτές. Η προτεινόµενη προσέγγιση εφαρµόζεται στο πεδίο των αγώνων αυτοκινήτου της Formula 1. Σκοπός είναι η σηµασιολογική ανίχνευση και αναγνώριση αντικειµένων, να µπορεί δηλαδή το σύστηµα να ανιχνεύει έννοιες όπως η περιοχή του δρόµου ή των αυτοκινήτων. Αντιλαµβάνεται κανείς πως αν γίνει η ανίχνευση των αντικειµένων αυτών στις συγκεκριµένες σκηνές, θα έχει επιτευχθεί ένα σηµαντικό βήµα προς την σηµασιολογική κατανόηση του βίντεο, µε την επαρκή µοντελοποίηση των συµβάντων που ανιχνεύτηκαν σε αυτό. Εφαρµοζόµενο σε σκηνές αγώνων αυτοκινήτου αυτού του είδους, η προτεινόµενη προσέγγιση έχει ικανοποιητικά αποτελέσµατα και αξιοποιώντας τη γνώση των φυσικών ιδιοτήτων του πεδίου αυτού επιτυγχάνεται γρήγορη και αυτόµατη ανίχνευση των αντικειµένων. Σε αντίθεση µε τις σκηνές video γενικού περιεχοµένου, όπου ποικίλα αντικείµενα µπορούν να εµφανίζονται και η ανίχνευση αυτών µπορεί να είναι ή να µην είναι τελικά σηµαντική όσον αφορά τη σηµασιολογική κατανόηση µιας δοσµένης σειράς από πλαίσια (frames), στα video όπου το πεδίο αναφοράς είναι προκαθορισµένο, η ανίχνευση ενός µικρού στις περισσότερες περιπτώσεις αριθµού γνωστών αντικειµένων µπορούν να αποκαλύψουν το σηµασιολογικό περιεχόµενο της σκηνής. Ακριβώς αυτό το σκεπτικό αποκαλύπτει τη δυναµική της εισαγωγής εκ των προτέρων γνώσης στη επιλογή των αντικειµένων που θα ανιχνευτούν. 11

Αρχιτεκτονική του Συστήµατος Εικόνα 2.1 Εποπτική εικόνα του συστήµατος που υλοποιήθηκε 12

Αρχιτεκτονική του Συστήµατος Έτσι λοιπόν, στο πεδίο των αγώνων αυτοκινήτου της Formula 1 εύκολα αντιλαµβάνεται κανείς πως προκειµένου να εξαχθεί σηµασιολογική πληροφορία είναι απαραίτητο να γίνει εντοπισµός της περιοχής του δρόµου και των αυτοκινήτων καθώς µε τη µοντελοποίηση των δυο αυτών περιοχών µπορούν να περιγραφούν σηµασιολογικά ένα πλήθος γεγονότων που γίνονται κατά τη διάρκεια ενός αγώνα. Για παράδειγµα, αφού θεωρούµε πως είµαστε σε θέση να ανιχνεύουµε αυτές τις περιοχές, θα µπορούµε να απαντάµε σε ερωτήµατα τύπου «βρες σηµεία του αγώνα στα οποία γίνεται κάποιο ατύχηµα», αφού σε τέτοια σηµεία του αγώνα το αυτοκίνητο θα βρίσκεται λογικά εκτός δρόµου. Χρησιµοποιώντας δηλαδή τέτοιου είδους τοπολογικές ιδιαιτερότητες και µε την προϋπόθεση ότι ο εντοπισµός των περιοχών έχει γίνει σωστά, είµαστε σε θέση να εξαγάγουµε πληροφορία ανώτερου επιπέδου. Παράλληλα µε τον εντοπισµό των δυο προαναφερθέντων περιοχών, του αυτοκινήτου και του δρόµου, το σύστηµα εκπαιδεύεται ώστε να ανιχνεύει περιοχές άµµου και γρασιδιού, περιοχές δηλαδή που µπορεί να µην τόσο σηµαντικές στη σηµασιολογική κατανόηση, βοηθούν όµως στην απόκτηση µιας σφαιρικής εικόνας του κάθε πλαισίου. Η εκ των προτέρων γνώση των περιοχών που αναζητούµε βοηθά ακόµα στον ορισµό ιδιοτήτων των περιοχών, που µπορεί να έχουν σχέση µε χαρακτηριστικά άλλων περιοχών. Για παράδειγµα, µπορεί να οριστεί για τις περιοχές του αυτοκινήτου ότι το µέγεθος του θα είναι ανάλογο του µεγέθους του δρόµου: µέγεθος αυτοκ. < α µέγεθος δρόµου. Είναι φανερό ότι παρόµοια εκ των προτέρων γνώση µπορεί να εφαρµοστεί σε άλλα πεδία, π.χ. ποδόσφαιρο. Στην εικόνα 2.1 απεικονίζεται σχηµατικά η αρχιτεκτονική του συστήµατος που υλοποιήθηκε. Στις παραγράφους που ακολουθούν δίνονται περισσότερες πληροφορίες για το κάθε υποσύστηµα ξεχωριστά, έτσι ώστε ο αναγνώστης να ενηµερωθεί για τη διαδικασία ανάλυσης που ακολουθήθηκε πριν περάσει στη εκτενή περιγραφή που γίνεται στα επόµενα κεφάλαια. 13

Αρχιτεκτονική του Συστήµατος 2.2 Εξαγωγή πληροφορίας στο συµπιεσµένο πεδίο Για να επιτραπεί η επεξεργασία µεγάλου όγκου οπτικού περιεχοµένου, η προτεινοµένη προσέγγιση έχει εφαρµοστεί στο κατά MPEG-2 συµπιεσµένο υλικό. Η πληροφορία που χρησιµοποιείται από το προτεινόµενο αλγόριθµο εξάγεται από τις κατά MPEG-2 συµπιεσµένες σκηνές µε τη χρήση ενός αποκωδικοποιητή. Ειδικότερα, η εξαγόµενη πληροφορία χρώµατος περιορίζεται στις dc συνιστώσες των macroblock των I-frame, που αναλογούν στις Y, Cb, Cr συνιστώσες του MPEG χρωµατικού χώρου. Αυτή η χρωµατική πληροφορία υφίσταται επεξεργασία όπως περιγράφεται παρακάτω, µε µια διαδικασία κατάτµησης και οµαδοποίησης ώστε να δηµιουργηθούν οι µάσκες κατάτµησης. Επιπρόσθετα, για τα P-frame του βίντεο εξάγονται διανύσµατα κίνησης και χρησιµοποιούνται για την εξαγωγή πληροφορίας και για τα Ι-frame, µε παρεµβολή. Εξαγόµενα του αποκωδικοποιητή είναι ακόµα στοιχεία που αφορούν τη δοµή του πολυµεσικού υλικού, πληροφορίες όπως η απόσταση µεταξύ των I-frames (GOP) και η θέση τους. 2.3 Αλγόριθµος κατάτµησης περιοχών Στην παρούσα διπλωµατική εργασία χρησιµοποιείται µια µέθοδος κατάτµησης βασισµένη στον αλγόριθµο Κ-µέσων (Κ-means ), ο οποίος χρησιµοποιεί πληροφορία χρώµατος ως βασικό χαρακτηριστικό διαχωρισµού. Η πληροφορία αυτή χρώµατος, που είναι στο συµπιεσµένο πεδίο (σε επίπεδο macroblock), εξάγεται απ ευθείας από το MPEG-2 stream µε χρήση ενός αποκωδικοποιητή, όπως εξηγήθηκε στην προηγούµενη παράγραφο. O αλγόριθµος ξεκινά µε την εφαρµογή του maxmin [1] αλγορίθµου στις dc χρωµατικές συνιστώσες κάθε πλαισίου, έτσι ώστε να προσδιοριστεί ο αριθµός των κέντρων για τον αλγόριθµο k-means. Με τη µέθοδο αυτή εντοπίζονται σηµαντικές χρωµατικές αλλαγές, κάτι που σε φυσικό επίπεδο σηµαίνει και διαφορετικό αντικείµενο. Το επόµενο βήµα είναι η κατάτµηση των περιοχών µε τη χρήση Κ-means σε Κ οµάδες, όπου Κ είναι ο αριθµός των αντικειµένων-οµάδων που εντοπίστηκαν προηγούµενα µε τον αλγόριθµο maxmin. Μετά το τέλος της διαδικασίας αυτής έχουν σχηµατιστεί οι µάσκες κατάτµησης (pgm αρχεία), που αντιστοιχούν στα Ι-frame του βίντεο εισόδου. Πρέπει να αναφερθεί ότι η 14

Αρχιτεκτονική του Συστήµατος ποιότητα των µασκών κατάτµησης είναι πολύ σηµαντική και επηρεάζει σε σηµαντικό βαθµό τα εξαγόµενα τελικά αποτελέσµατα. 2.4 Εξαγωγή χαρακτηριστικών χαµηλού επιπέδου. Αµέσως µετά την δηµιουργία των µασκών κατάτµησης για κάθε frame, δηµιουργούνται σετ από διανύσµατα που περιέχουν τιµές χαρακτηριστικών χαµηλού επιπέδου (low-level feature vector). Χρησιµοποιούνται χαρακτηριστικά περιγραφής τυποποιηµένα κατά MPEG-7, έτσι ώστε να υπάρχει δυνατότητα ανταλλαγής της ταξινοµηµένης πληροφορίας µε άλλες εφαρµογές συµβατές µε το πρότυπο MPEG-7. Έχει αναφερθεί ότι µε τη µέθοδο που παρουσιάζεται σε αυτή την εργασία επιχειρείται να περιγραφούν σηµασιολογικά σκηνές από αγώνες της Formula 1, να γίνει αυτόµατος εντοπισµός περιοχών, όπως αυτοκίνητο, δρόµος,γρασίδι, άµµος. Εύκολα γίνεται αντιληπτό ότι για την πρώτη περιοχή αυτό που έχει κυρίαρχο ρόλο και που τη χαρακτηρίζει είναι η κίνηση, ενώ για τις άλλες τρεις η αντιµετώπιση είναι ενιαία και αρκεί η χρωµατική και σχηµατική περιγραφή. Ακόµα, θα πρέπει να προσθέσουµε ότι πληροφορία χρώµατος δεν θα είχε κανένα αποτέλεσµα στον εντοπισµό περιοχών αυτοκινήτου, καθώς δεν υπάρχει χρωµατική οµοιογένεια στα µονοθέσια. Τα χαρακτηριστικά περιγραφής του MPEG-7 που χρησιµοποιούνται είναι χρώµατος (πληροφορία ιστογράµµατος για τα τρία κανάλια χρώµατος), µεγέθους (ποσοστό κάλυψης της επιφάνειας του πλαισίου), περιγράµµατος (εκκεντρότητα). Ακόµα περιγράφεται η θέση που έχει το αντικείµενο- περιοχή στο πλαίσιο (θέση στον κατακόρυφο και οριζόντιο άξονα). Όσον αφορά την εξαγωγή χαρακτηριστικών κίνησης, που είναι απαραίτητα για τη δεικτοδότηση του αυτοκινήτου, χρησιµοποιούνται τα διανύσµατα κίνησης που εξάγει ο αποκωδικοποιητής και γίνεται υπολογισµός ενός διγραµµικού µοντέλου κίνησης της κάµερας, έτσι ώστε να αντισταθµίσουµε την κίνηση που εισάγεται στο πολυµεσικό υλικό λόγω της ύπαρξης της. 2.5 Αλγόριθµος κατάταξης περιοχών Στην εργασία αυτή χρησιµοποιήθηκε για τη κατάταξη των περιοχών σε κλάσεις (οµάδες) η µέθοδος των µηχανών υποστήριξης διανυσµάτων (SVM). 15

Αρχιτεκτονική του Συστήµατος Τα SVM συνιστούν εκπαιδευόµενα συστήµατα που απεικονίζουν τη n-διάστατη είσοδό τους κατά τρόπο µη γραµµικό σε χώρο υψηλότερης διάστασης. Στο χώρο αυτό υψηλής διάστασης δηµιουργείται ένας γραµµικός δυαδικός ταξινοµητής. Με τη χρήση συστηµάτων τέτοιου είδους µπορούµε να κατατάξουµε περιοχές µε τη λογική του ανήκει σε µια κλάση ή δεν ανήκει. Για να πετύχουµε την κατάταξη λοιπόν στις τέσσερις κλάσεις που µας ενδιαφέρουν χρησιµοποιηθήκαν ισάριθµα τέτοια συστήµατα. Εικόνα 2.2 Για την εκπαίδευση των SVM δηµιουργήθηκαν 127 µάσκες (57 για το δρόµο, 32 για την άµµο, 38 για το γρασίδι), έγινε εξαγωγή των χαρακτηριστικών τους, σύµφωνα µε τη διαδικασία 2.3, και µε βάση αυτά υπολογίστηκε από τα SVM το µαθηµατικό µοντέλο που επιτυγχάνει το βέλτιστο διαχωρισµό. Ίδια διαδικασία ακολουθείται και για το αυτοκίνητο αναφέρεται ξεχωριστά καθώς εξάγονται διαφορετικά χαρακτηριστικά. Στη περίπτωση αυτή δηµιουργήθηκαν 58 µάσκες εκπαίδευσης (31 που ανήκουν σε περιοχές αυτοκινήτου και 27 που δεν ανήκουν). 16

Αρχιτεκτονική του Συστήµατος Η έξοδος των SVM είναι αρχεία κατάταξης, όπου η περιοχή που προσεγγίζει περισσότερο τις περιοχές αναφοράς έχει τη µικρότερη βαθµολογία. 2.6 ηµιουργία Σεναρίων Στη συνέχεια θα πρέπει να αξιοποιηθεί το αποτέλεσµα της κατάταξης που έχει γίνει. Καθώς σε ένα πλαίσιο µπορεί να υπάρχει όπως είναι φυσικό πάνω από µια περιοχή για κάθε έννοια, θεωρήθηκε βέλτιστο να κρατούνται οι τρεις καλύτερες περιοχές µε βάση την κατάταξη των SVM. Κάθε επεξεργασία που γίνεται από το σηµείο αυτό και µετά αφορά δηλαδή δώδεκα περιοχές, τις τρεις πιο αντιπροσωπευτικές όπως αυτό αποφασίστηκε από τα SVM. Σε αυτό το σηµείο θα µπορούσε κανείς να ισχυριστεί πως η ανάλυση θα µπορούσε να τελειώσει, καθώς έχει εξαχθεί σηµασιολογικό περιεχόµενο (έχουν µαρκαριστεί περιοχές ως περιοχές δρόµου, άµµου, κτλ) µε αυτόµατο τρόπο. Όµως θέλουµε να διασφαλίσουµε την αξιοπιστία του αποτελέσµατος και εισάγουµε τη γνώση που έχουµε για το πεδίο που αναλύεται και τις σχέσεις που υπάρχουν µεταξύ των οντοτήτων του. Για να γίνει αυτό δηµιουργούνται µάσκες που αποτελούνται από τους συνδυασµούς των δώδεκα επιλεγµένων περιοχών και οι οποίες αποτελούν τα πιθανά σενάρια της τελικής κατάταξης των περιοχών. 2.7 Λογικός Έλεγχος Το τελευταίο στάδιο του συστήµατος που υλοποιήθηκε ελέγχει τη λογική ευστάθεια των σεναρίων που έχουν δηµιουργηθεί, έτσι ώστε να απορριφθούν εκείνα που λόγω εσφαλµένης κατάταξης των περιοχών από τα SVM εµφανίζουν νοηµατικές ατέλειες. Για το σκοπό αυτό, δηµιουργήθηκαν συναρτήσεις που ασχολούνται µε τις τοπολογικές ιδιότητες των περιοχών και µε το διάνυσµα κίνησης τους και σε συνδυασµό µε την εκ των προτέρων γνώση που έχουµε αφού το πεδίο εφαρµογής είναι προκαθορισµένο, οδηγούµαστε σε συµπεράσµατα σχετικά µε την ορθότητα των επιλογών. 17

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Κεφάλαιο 3 ο Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών 3.1 Κατάτµηση εικόνων (Image Segmentation). 3.1.1 Εισαγωγή Η κατάτµηση εικόνων και χαρακτηριστικών καρέ (keyframes) είναι µια από τις πιο σηµαντικές και δύσκολες διαδικασίες στο πλαίσιο της επεξεργασίας εικόνας και βίντεο (image and video analysis). Η σηµασία της διαδικασίας αυτής γίνεται αντιληπτή αν αναλογιστεί κανείς πως είναι από τα πρώτα βήµατα σχεδόν σε κάθε σύστηµα ανάλυσης εικόνας και βίντεο πριν σε αυτά εφαρµοστούν αλγόριθµοι ανώτερου επιπέδου (όπως αναγνώρισης, σηµασιολογικής επεξεργασίας), καθώς επίσης και από το γεγονός ότι µια όσο το δυνατόν καλύτερη κατάτµηση µπορεί να οδηγήσει σε ένα πιο αποτελεσµατικό σύστηµα. Κατάτµηση είναι η διαδικασία διαχωρισµού της εικόνας σε οµογενείς περιοχές µε βάση κάποιο κριτήριο οµοιογένειας. Ισοδύναµα, είναι η διαδικασία εύρεσης των ορίων µεταξύ περιοχών, όπου περιοχή ορίζεται ως το σύνολο των εικοστοιχείων (pixel) στην εικόνα που αντιστοιχούν στην επιφάνεια ενός αντικειµένου από οµοιογενές υλικό. Ένας πιο επίσηµος ορισµός της κατάτµησης µπορεί να δοθεί µε τον ακόλουθο τρόπο [38], [39]: Έστω ότι Ι συµβολίζει µια εικόνα και Η είναι ένα καθορισµένο οµογενές χαρακτηριστικό. Τότε η κατάτµηση του Ι είναι µια διαµέριση Ρ του Ι σε ένα σετ από Ν περιοχές R n, n=1,.,n τέτοια ώστε: N 1. U I για n =1 R n = R n R 0, n m m 2. H(R n ) = αληθές n 3. Η( R n R m ) = ψευδές R n, R m γειτονικές 18

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Μέχρι πρόσφατα, οι διάφορες τεχνικές κατάτµησης αφορούσαν την µονόχρωµη εικόνα, καθώς δεν υπήρχαν οι υπολογιστικοί πόροι για την επεξεργασία µεγάλου όγκου δεδοµένων που µια έγχρωµη εικόνα απαιτεί. Σήµερα που αυτός ο περιορισµός έχει αρθεί, βλέπουµε πως στη βιβλιογραφία υπάρχουν πάρα πολλές διαφορετικές τεχνικές κατάτµησης εικόνας [3],[4],[5],[6] ανάλογα µε τις απαιτήσεις του κάθε συστήµατος. Oι αλγόριθµοι κατάτµησης µπορούν να κατηγοριοποιηθούν µε διαφορετικά κριτήρια, όπως µέθοδοι κατάτµησης µε βάση τα pixel, το εµβαδό, τις γωνίες και τα φυσικά χαρακτηριστικά, ή µέθοδοι που επεξεργάζονται τη χωρική, τη χρονική ή τη χωροχρονική πληροφορία µιας εικόνας, ενός βίντεο. Πιο συγκεκριµένα, για την κατάτµηση βίντεο έχουν προταθεί στη βιβλιογραφία αρκετές µέθοδοι που αναφέρονται στο ασυµπίεστο πεδίο και σε επίπεδο pixel [40], κάτι που δίνει τη δυνατότητα για εκτίµηση των ορίων των αντικειµένων µε ακρίβεια pixel, αλλά από την άλλη απαιτεί την πλήρη αποκωδικοποίηση της πληροφορίας πριν την εκτέλεση του αλγορίθµου κατάτµησης. Έτσι η χρηστικότητα τους περιορίζεται σε εφαρµογές µη πραγµατικού χρόνου, κι αυτό γιατί αυξάνεται η υπολογιστική πολυπλοκότητα, λόγω του µεγάλου αριθµού των pixel που θα πρέπει να υποστούν επεξεργασία. Για να αντιµετωπιστεί αυτό το µειονέκτηµα, έχουν προταθεί διάφορες µέθοδοι στο συµπιεσµένο πεδίο για χωροχρονική κατάτµηση. Ακόµα και µε αυτή τη προσέγγιση, πολλές φορές δεν είναι δυνατή η επεξεργασία σε πραγµατικό χρόνο, παρά το γεγονός ότι, όπως είναι σαφές, τέτοιοι αλγόριθµοι είναι πολύ πιο γρήγοροι από αυτούς που αναφέρονται στο ασυµπίεστο πεδίο. 3.1.2 Προτεινόµενη διαδικασία κατάτµησης Στην παρούσα διπλωµατική εργασία χρησιµοποιείται µια µέθοδος κατάτµησης βασισµένη στον αλγόριθµο Κ-µέσων (Κ-means ) [1], ο οποίος χρησιµοποιεί πληροφορία χρώµατος ως βασικό χαρακτηριστικό διαχωρισµού. Η πληροφορία αυτή χρώµατος, που είναι στο συµπιεσµένο πεδίο, εξάγεται απ ευθείας από το MPEG-2 stream µε χρήση ενός αποκωδικοποιητή. Με τον όρο συµπιεσµένο πεδίο εννοούµε ότι η επεξεργασία γίνεται σε επίπεδο macroblock (16x16 pixels) και όχι σε επίπεδο εικονοστοιχείου (pixel), κάτι που 19

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών απλοποιεί πολύ τους υπολογισµούς, µειώνει τις απαιτήσεις για επεξεργαστική ισχύ και ελλατώνει σε σηµαντικό βαθµό τον χρόνο επεξεργασίας. Το κάθε καρέ, το πλαίσιο του οποίου είναι συνήθως 720x576 εικονοστοιχεία, συµπιέζεται σε ένα καινούργιο που έχει διαστάσεις 45x36, κάθε pixel του οποίου είναι η dc χρωµατική συνιστώσα του αντίστοιχου 16x16 block του αρχικού. O αλγόριθµος ξεκινά µε την εφαρµογή του maxmin [1] αλγορίθµου στις dc χρωµατικές συνιστώσες στο πρώτο frame του βίντεο, έτσι ώστε να προσδιοριστεί ο αριθµός των κέντρων για τον αλγόριθµο k-means. Με τη µέθοδο αυτή εντοπίζονται σηµαντικές χρωµατικές αλλαγές, κάτι που σε φυσικό επίπεδο σηµαίνει και διαφορετικό αντικείµενο. Πιο αναλυτικά ο αλγόριθµος maxmin υλοποιείται ως εξής: Έστω Τ ο χώρος όλων των χρωµατικών συνιστωσών (σύνολο εκµάθησης). Στόχος είναι η επιλογή του αριθµού Κ των συνεκτικών οµάδων. Αρχικά έστω ότι υπάρχουν µόνο δύο οµάδες. Βήµα 1 ο Το πρώτο διάνυσµα του Τ επιλέγεται αυθαίρετα ως κέντρο z 1 της πρώτης οµάδας. Βηµα 2 ο Το πιο αποµακρυσµένο από το z 1 σηµείο του Τ χρίζεται κέντρο της δεύτερης οµάδας. Βηµα 3 ο Υπολογίζεται η µικρότερη απόσταση καθενός από τα σηµεία που απέµειναν στο Τ, από τα z 1, z 2, και επιλέγεται η µέγιστη max από αυτές (ευκλείδεια απόσταση). Αν max << z 1 - z 2 τότε ο αριθµός των οµάδων είναι 2 και ο αλγόριθµος έχει συγκλίνει. Αν οι δυο ποσότητες είναι συγκρίσιµες, τότε ορίζεται νέα οµάδα µε κέντρο ίσο µε το σηµείο x, που αντιστοιχεί στο max. Βηµα 4 ο Η διαδικασία επαναλαµβάνεται µε τις 3 τώρα οµάδες, επαναληπτικά. 20

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Το επόµενο βήµα είναι η κατάτµηση των αντικειµένων µε τη χρήση k-means, όπου Κ είναι ο αριθµός των αντικειµένων που εντοπίστηκαν προηγούµενα µε τον αλγόριθµο maxmin. Ας είναι Τ το σύνολο των δειγµάτων που διατίθενται για τον καθορισµό των προτύπων, Κ ο επιθυµητός αριθµός των προσδιοριστέων προτύπων, S i (m) η οµάδα διαχωρισµού του Τ που αντιστοιχίζεται στο Ω ι στο βήµα m του αλγορίθµου, Ν j (m) ο αριθµός τους, και z i (m) το κέντρο της οµάδας S i (m). Αποδεικνύεται πολύ εύκολα ότι ο πιο κάτω αλγόριθµος ελαχιστοποιεί το εξής εύλογο µέτρο διασποράς µέσα σε κάθε οµάδα: J i = x zi ( m + 1) x Si ( m) 2 i= 1,, K Βήµα 1 ο. Αρχική επιλογή του επιθυµητού αριθµού οµάδων Κ. Αυθαίρετη επιλογή των αρχικών Κ κέντρων z 1 (1),,z k (1). Βήµα 2 ο. Κατανοµή των σηµείων x του Τ στις Κ οµάδες ως εξής: Αν x-z j (m) < x-z i (m), για όλα τα j i, τότε το x συµπεριλαµβάνεται στο S i (m). Βηµα 3 ο Επαναπροσδιορισµός των κέντρων: z j (m+1)= (1/Ν j (m)) Βήµα 4 ο x S i (m) x j=1,,k Αν z j (m+1) = z j (m) j=1,,k, τότε ο αλγόριθµος έχει συγκλίνει. ιαφορετικά επαναλαµβάνονται τα βήµατα 2,3 µε m=m+1. Για να αποφευχθεί τα Κ αυτά αντικείµενα να είναι διασπαρµένα και ασύνδετα µέσα στο frame, εφαρµόζεται ένας αναδροµικός αλγόριθµος απαρίθµησης αντικειµένων [51] που εντοπίζει µικρές και ασύνδετες περιοχές και τις ενοποιεί µε γειτονικές µε κριτήριο την χρωµατική οµοιότητα. 21

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Μερικά παραδείγµατα από την εφαρµογή του αλγορίθµου αυτού παρουσιάζονται παρακάτω: (α) (β) Εικόνα 3.1 : α) Έγχρωµη φωτογραφία, β) Μάσκα κατάτµησης (α) (β) Εικόνα 3.2 : α) Έγχρωµη φωτογραφία, β) Μάσκα κατάτµησης 22

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών (α) (β) Εικόνα 3.3 : α) Έγχρωµη φωτογραφία, β) Μάσκα κατάτµησης Παρατηρούµε πως οι µάσκες κατάτµησης παρουσιάζουν ατέλειες, καθώς σε πολλές περιπτώσεις οι εικόνες είτε χωρίζονται σε πολλές περιοχές (oversegmentation), χωρίς κάτι τέτοιο να δικαιολογείται είτε χάνονται αντικείµενα ή τα όρια αυτών. Όµως γίνεται αντιληπτό πως ένας αλγόριθµος κατάτµησης δεν µπορεί να έχει άριστα αποτελέσµατα, ειδικά όταν εφαρµόζεται σε εικόνες από σκηνές F1, όπου υπάρχουν χρωµατικές αλλοιώσεις λόγω της κίνησης της κάµερας (π.χ. διαφορετικό χρώµα για το δρόµο ακόµα και στο ίδιο καρέ) και µεγάλη ποικιλία αντικείµενων. Παρόλα αυτά, µε χρήση λογικών συναρτήσεων τα αποτελέσµατα βελτιώνονται, όπως θα δούµε πιο κάτω. 23

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών 3.2 Εξαγωγή Χαρακτηριστικών (Feature Extraction) 3.2.1 Εισαγωγή Αµέσως µετά την δηµιουργία των µασκών κατάτµησης για κάθε frame, δηµιουργούνται σετ από διανύσµατα που περιέχουν τιµές χαρακτηριστικών χαµηλού επιπέδου ( low-level feature vector ). 3.2.3 Το πρότυπο MPEG-7 Το πρότυπο MPEG-7 προδιαγράφει ένα σύνολο τέτοιων χαρακτηριστικών περιγραφής περιεχοµένου (descriptors), εστιάζει στην επαρκή περιγραφή πολυµεσικού περιεχοµένου και στοχεύει στο να παρέχει ένα κοινό πλαίσιο ανταλλαγής πληροφοριών σε εφαρµογές που χρησιµοποιούν οπτικοακουστικό περιεχόµενο. Οι descriptors που προδιαγράφονται από το πρότυπο παρουσιάζονται συνοπτικά παρακάτω. Στη βιβλιογραφία µπορεί να βρει κανείς πληθώρα πληροφοριών σχετικά µε το πρότυπο MPEG-7 [41],[42]. Ιδιαίτερη έµφαση δίνεται σε χαρακτηριστικά που χρησιµοποιούνται στη παρούσα διπλωµατική εργασία και που παρουσιάζουν ιδιαίτερο ενδιαφέρον. I.Περιγραφή Χρώµατος. Χρωµατικοί Χώροι Το MPEG-7 χρησιµοποιεί διάφορους χρωµατικούς χώρους, µεταξύ των οποίων το µονόχρωµο, το RGB, το HSV, το YCrCb και ένα καινούργιο το HMMD, που χρησιµοποιείται αποκλειστικά στη περιγραφή της χρωµατικής δοµής (Colour Structure Descriptor). Ο χρωµατικός χώρος RGB είναι ο πιο διαδεδοµένος, όπου κάθε χρώµα ορίζεται ως ένας συνδυασµός των 3 βασικών χρωµάτων, κόκκινο (Red), πράσινο (Green), µπλε (Blue). 24

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Εικόνα 3.4 Ο χρωµατικός χώρος RGB White Color Sum Min Diff Hue Max Black Color Εικόνα 3.5 Ο χρωµατικός χώρος HMMD Scalable Color Descriptor Ένα από τα πιο βασικά χαρακτηριστικά χρώµατος παρέχεται µε την περιγραφή της χρωµατικής κατανοµής µιας εικόνας. Εάν µια τέτοια κατανοµή υπολογισθεί για µια ολόκληρη εικόνα τότε ολικά χαρακτηριστικά χρώµατος µπορούν να εξαχθούν. Εικόνα 3.6 Τρεις έγχρωµες εικόνες και το κατά MPEG-7 ιστόγραµµα χρωµατικής κατανοµής. 25

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Περιγραφή Κυρίαρχου χρώµατος. Αυτό το χαρακτηριστικό στοχεύει στο να περιγράφει γενικές όσο και τοπικές πληροφορίες κατανοµής χρώµατος. Τα χρώµατα σε µια δεδοµένη περιοχή οµαδοποιούνται σε ένα µικρό αριθµό αντιπροσωπευτικών χρωµάτων. Η περιγραφή συµφωνά µε το πρότυπο περιέχει τα αντιπροσωπευτικά χρώµατα, τα ποσοστά τους στην περιοχή, τη χωρική συνοχή τους και τις µεταβλητότητες αυτών. Περιγραφή χρωµατικού περιγράµµατος. Scalable Image Descriptor Group of Frames/ Group of Pictures ( GoF / GoP ) II. Περιγραφή υφής Η υφή αναφέρεται σε οπτικά πρότυπα που έχουν ιδιότητες οµοιογένειας ή όχι, που έχουν ως αποτέλεσµα την παρουσία πολλαπλών χρωµάτων και διαφορών σε µια εικόνα. Περιέχει σηµαντική δοµική πληροφορία για την επιφάνεια που εξετάζεται και την σχέση της µε τα αντικείµενα που την περιβάλλουν. Πολύ συνοπτικά, τα κύρια χαρακτηριστικά υφής είναι: Texture Browsing Descriptor, που χαρακτηρίζει την κανονικότητα, την κατεύθυνση και την τραχύτητα µιας περιοχής. Χαρακτηριστικό Οµογενούς υφής (Homogenous Texture Descriptor), που δίνει µια περιγραφή της περιοχής Ιστόγραµµα Ακµών (Local Edge Histogram), που καταγράφει τη χωρική κατανοµή των ακµών. III. Περιγραφή Σχήµατος Τα χαρακτηριστικά σχήµατος είναι πολύ σηµαντικά σε ότι αφορά την αναγνώριση αντικειµένων καθώς πολλές φορές περιέχουν σηµασιολογική πληροφορία. Η πληροφορία σχήµατος µπορεί να είναι σε δισδιάστατο ή τρισδιάστατο επίπεδο, ανάλογα µε την εφαρµογή. Γενικά η περιγραφή σχήµατος µπορεί να διαχωριστεί σε 2 κατηγορίες. Στη πρώτη επίκεντρο είναι η περιοχή (region based), ενώ στη δεύτερη επίκεντρο είναι το περίγραµµα (contour based). 26

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Εικόνα 3.7 : Παραδείγµατα διαφόρων σχηµάτων που µπορούν να περιγραφούν µε χρήση του MPEG- 7 Region Based Shape Descriptor Εικόνα 3.8 Παραδείγµατα σχηµάτων που µπορούν να περιγραφούν µε τη χρήση του MPEG-7 Contour Based Descriptor Χαρακτηριστικό σχήµατος βασισµένο σε περιοχή (Region based Shape Descriptor) εκφράζει την κατανοµή των pixel µέσα σε µια 2-D περιοχή και µπορεί να περιγράφει τόσο απλά όσο και πιο σύνθετα αντικείµενα. Εικόνα 3.9 Στην εικόνα αυτή παρουσιάζεται ένα αντικείµενο και το περίγραµµα του. 27

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Χαρακτηριστικό σχήµατος βασισµένο στο περίγραµµα (Contour Based Shape Descriptor) εκφράζει τις ιδιότητες που έχει το περίγραµµα και είναι πιο αποτελεσµατικό καθώς µπορεί να γίνει διάκριση µεταξύ περιοχών που έχουν ίδια επιφάνεια, αλλά διαφορετικό περίγραµµα. Είναι βασισµένο στην κατά CSS (Curvature Scale Space), που περιγράφεται στο [43], και επίσης περιλαµβάνει την εκκεντρότητα και καµπυλότητα του περιγράµµατος. IV. Χαρακτηριστικά κίνησης Το πρότυπο MPEG-7 έχει αναπτύξει χαρακτηριστικά που καταγράφουν βασική πληροφορία κίνησης µε αποτελεσµατικό και σαφή τρόπο. Πολλά από αυτά τα χαρακτηριστικά συνδυάζονται µε άλλα που έχουν εξαχθεί από ακίνητες εικόνες, όπως για παράδειγµα χαρακτηριστικά χρώµατος ή υφης. Γενικά κατατάσσονται σε δυο κατηγορίες, αυτή πού αναφέρεται σε τµήµα βίντεο (video segment) και σε αυτή που αναφέρεται σε κινούµενη περιοχή (moving area). Στη πρώτη κατηγορία ανήκουν : Motion Activity Camera Motion Warping Parameters Στη δεύτερη κατηγορία ανήκουν : Motion Trajectory Parametric Motion 3.2.3 Περιγραφή της διαδικασίας εξαγωγής χαρακτηριστικών που ακολουθείται Όπως προαναφέρθηκε, µετά τη διαδικασία κατάτµησης περιοχών γίνεται εξαγωγή χαρακτηριστικών για κάθε µια περιοχή που αναγνωρίστηκε. Τα χαρακτηριστικά αυτά χαµηλού επιπέδου δίνονται ως είσοδοι στο σύστηµα κατάταξης που περιγράφεται στο κεφάλαιο 4, έτσι ώστε να βρεθεί η περιοχή που «ταιριάζει» καλύτερα ως προς κάποια χαρακτηριστικά µε κάποιες ιδανικές περιοχές, µε τις οποίες γίνεται η σύγκριση. 28

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών Γίνεται λοιπόν αντιληπτό ότι για είναι απαραίτητη η εξαγωγή χαρακτηριστικών µε δυο διαφορετικές διαδικασίες, µια που να δίνει έµφαση σε χρωµατικά στοιχεία και µια άλλη που να εξάγει πληροφορία κίνησης. Κι αυτό γιατί, στη παρούσα διπλωµατική εργασία επιχειρείται η αναγνώριση περιοχών σε πολυµεσικό υλικό που αναφέρεται στο πεδίο της Formula1, και άρα ο εντοπισµός περιοχών που βρίσκεται το αυτοκίνητο (σηµαντική η πληροφορία κίνησης), γίνεται µε διαφορετικό τρόπο από ότι οι άλλες περιοχές όπου βρίσκονται ο δρόµος, η άµµος ή το γρασίδι (σηµαντική η χρωµατική πληροφορία). I. Εξαγωγή χαρακτηριστικών Για κάθε περιοχή που υπάρχει στη µάσκα κατάτµησης υπολογίζεται ένα διάνυσµα F χαρακτηριστικών χαµηλού επιπέδου, που αποτελείται από 29 διαφορετικές τιµές (29 th dimensional). Οι τιµές αυτές αναλυτικά αφορούν : Αριθµός Χαρακτηριστικού Περιγραφή 0-23 Πληροφορία Ιστογράµµατος (Color Descriptor) 24 Θέση στον οριζόντιο άξονα 25 Θέση στον κατακόρυφο άξονα 26 Κανονικοποιηµένο µέγεθος (Size) 27 Εκκεντρότητα (Contour Shape Descriptor) 28 Προσανατολισµός 29

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών II. Εξαγωγή χαρακτηριστικών κίνησης. Εύκολα αντιλαµβάνεται κανείς πως για τις περιοχές όπου υπάρχει το αυτοκίνητο, η χρησιµοποίηση των χαρακτηριστικών που παρουσιάστηκαν στη προηγούµενη ενότητα δεν είναι αποτελεσµατικά. Αναγκαία κρίνεται η εισαγωγή της κίνησης σε αυτά τα χαρακτηριστικά, καθώς αυτή είναι που διαφοροποιεί τις περιοχές όπου βρίσκονται αυτοκίνητα από άλλες περιοχές. Έτσι λοιπόν, ειδικά για τον εντοπισµό του αυτοκινήτου γίνεται αξιοποίηση των διαvυσµάτων κίνησης που δηµιουργούνται από τον αποκωδικοποιητή mpeg2 και ακολουθείται η διαδικασία που περιγράφεται στο [44]. Τα διανύσµατα κίνησης που αποτελούν την έξοδο του αποκωδικοποιητή MPEG-2 αναφέρονται σε macroblock (16x16 pixel) και υπολογίζονται διαδοχικά για κάθε macroblock και για όλα τα frame του βίντεο. Γενικά η κίνηση των macroblock σε δυο διαδοχικά frame µπορεί να χωριστεί σε καθολική και τοπική κίνηση. Η καθολική κίνηση αναφέρεται στη κίνηση της κάµερας και µπορεί να υπολογιστεί µε την εκτίµηση κάποιων παραµέτρων ενός µοντέλου µε τη χρήση γραµµικών µεθόδων. Στην εργασία αυτή χρησιµοποιείται ένα διγραµµικό µοντέλο και εκτίµηση ελαχίστων τετραγώνων για τον υπολογισµό των παραµέτρων. Σύµφωνα µε αυτό το µοντέλο, το καθολικό διάνυσµα κίνησης (u, v) ενός macroblock (x, y) µπορεί να εκφραστεί ως εξής: u = a v = a o 4 + a x + a y + a xy 1 + a x + a y + a xy 5 2 6 3 7 (1), όπου a, a,..., a o 1 7 είναι οι παράµετροι του µοντέλου. Θεωρητικά, µε ένα σετ περισσότερων από τέσσερα διανύσµατα κίνησης σε διαφορετικά macroblocks, µπορούµε να υπολογίζουµε τις 8 παραµέτρους του µοντέλου µε τη µέθοδο των ελαχίστων τετραγώνων. Έχοντας υπολογίσει τα διανύσµατα κίνησης (u, v), που αντιστοιχούν στη καθολική κίνηση για κάθε macroblock, σχηµατίζουµε τα διανύσµατα (u,v ) ως τη διαφορά των αρχικών (x, y) από τα (u, v), που εύκολα αντιλαµβάνεται κανείς πως είναι η τοπική κίνηση κάθε macroblock. 30

Κατάτµηση Εικόνων και Εξαγωγή Χαρακτηριστικών ( u, v ) = ( u, v) ( x, y) (2) Ως διάνυσµα κίνησης µιας περιοχής κατάτµησης, όπως αυτή βρέθηκε από τον αλγόριθµο κατάτµησης ορίζεται το άθροισµα: N 1 R = ( r r = x i y i 1, 2 ) (, ), N 1 όπου Ν είναι το πλήθος των macroblock από τα οποία αποτελείται η περιοχή. Τέλος ως χαρακτηριστικό κίνησης λαµβάνεται το µέτρο του διανύσµατος R: R = +. 2 2 r 1 r2 Παρατηρούµε ότι στις περισσότερες περιοχές το µέτρο του διανύσµατος κίνησης είναι κοντά στο µηδέν, γεγονός που είναι αναµενόµενο καθώς όπως αναφέραµε τα διανύσµατα αυτά αντιστοιχούν σε τοπική κίνηση των περιοχών, χωρίς δηλαδή την κίνηση της κάµερας. Καθώς στο πεδίο εφαρµογής µας οι µόνες κινούµενες περιοχές είναι αυτές του αυτοκινήτου, είναι λογικό η µεγάλη πλειοψηφία αυτών να εµφανίζονται ως ακίνητες. Αντίστοιχα, οι περιοχές µε µεγάλο µέτρο διανύσµατος φανερώνουν περιοχές όπου υπάρχει κίνηση ανεξάρτητης από αυτή της κάµερας, δηλαδή περιοχές όπου υπάρχει κάποιο αυτοκίνητο. 31

Κατάταξη Περιοχών µε χρήση SVM Κεφάλαιο 4 ο Κατάταξη Περιοχών µε χρήση SVM 4.1 Εισαγωγή Η µέθοδος υποστηριζόµενων διανυσµάτων (SVM) [45], [16] είναι µια εκπαιδευόµενη τεχνική εκµάθησης, που πρωτοεµφανίστηκε από το Vladimir Vapnik και την οµάδα του [ΑΤ&Τ Bell labs,1985] [45]. Με ένα δεδοµένο σύνολο εκµάθησης, τα στοιχεία του οποίου µαρκάρονται είτε ως «ναι» είτε ως «όχι», µε τη χρήση των µηχανών υποστηριζόµενων διανυσµάτων, σχηµατίζεται ένα υπερ-επίπεδο τέτοιο ώστε να διαχωρίζει τις δυο οµάδες και η απόσταση του πιο κοντινού δείγµατος κάθε οµάδας να µεγιστοποιείται. Αν δεν υπάρχει τέτοιο υπερεπίπεδο που να µπορεί να διαχωρίσει τα «ναι» ή «όχι» δείγµατα, τότε η µηχανή θα διαλέξει ένα υπερ-επίπεδο που να διαχωρίσει τα δείγµατα όσο πιο «τακτικά» γίνεται, ενώ ακόµα θα µεγιστοποιεί την απόσταση µεταξύ του υπερεπιπέδου και των δειγµάτων. Με τον όρο εκπαιδευόµενο εννοούµε ένα σύστηµα που είναι σε θέση να δηµιουργεί µια συνάρτηση από ένα σύνολο δεδοµένων. Το σύνολο εκµάθησης αποτελείται από ζευγάρια αντικειµένων (διανυσµάτων) εισόδου και επιθυµητών εξόδων. Η έξοδος της συνάρτησης µπορεί να είναι µια συνεχής τιµή ή µπορεί να είναι η πρόβλεψη για την κατάταξη της εισόδου σε µια οµάδα. Ο ρόλος της εκπαιδευόµενης µηχανής είναι να µπορεί να προβλέπει την τιµή της συνάρτησης για κάθε έγκυρη είσοδο, έχοντας µόνο ως δεδοµένα ένα µικρό δείγµα από παραδείγµατα εκµάθησης. 4.2 Μηχανές υποστήριξης διανυσµάτων Θεωρούµε το πρόβληµα διαχωρισµού ενός συνόλου διανυσµάτων εκπαίδευσης σε δύο κλάσεις. Έστω ότι διαθέτουµε τα ταξινοµηµένα διανύσµατα (x 1, y 1 ),, (x m, y m ), όπου x i R n είναι το διάνυσµα χαρακτηριστικών και y i {+1, -1} είναι η σήµανση της κλάσης, δηλαδή το +1 δηλώνει την κλάση Α και το -1 δηλώνει την κλάση Β. 32

Κατάταξη Περιοχών µε χρήση SVM Αν οι δύο κλάσεις είναι γραµµικά διαχωρίσιµες, το υπερ-επίπεδο που πραγµατοποιεί το διαχωρισµό δίνεται από τη σχέση: ω x + b = 0 (1) Ο στόχος των SVM είναι να βρεθούν οι παράµετροι w 0 και b 0 για ένα βέλτιστο υπερεπίπεδο, έτσι ώστε να µεγιστοποιείται η απόσταση µεταξύ του υπερ-επιπέδου και του πλησιέστερου διανύσµατος εκπαίδευσης. yi ( ω xi + b) 1, i = 1,..., m (2) Για δοσµένα w 0 και b 0, η απόσταση ενός σηµείου x από το βέλτιστο υπερεπίπεδο που ορίζεται στην (2) είναι: d( ω ο, b ω x + b 0 0 0, x) = (3) ω 0 Ένα κανονικής µορφής υπερ-επίπεδο έχει το επιπρόσθετο περιορισµό για τις παραµέτρους w και b: min ( x i y i [( w x i ) + b] = 1. Άρα ένα υπερ-επίπεδο που κάνει διαχωρισµό σε κανονική µορφή πρέπει να ικανοποιεί τον περιορισµό: yi [( w xi ) + b] 1, i = 1,..., m (4) Το υπερ-επίπεδο που βέλτιστα διαχωρίζει τα δεδοµένα είναι αυτό που ελαχιστοποιεί την παρακάτω εξίσωση: 1 2 1 φ( ω) = ω = ( ω ω) (5) 2 2 Η ελαχιστοποίηση αυτή µε τους γραµµικούς περιορισµούς της (2), µπορεί να γίνει µε τη βοήθεια των πολλαπλασιαστών Lagrange. Αν a = ( a, a2,.., a 1 m ), είναι ο m µη αρνητικός πολλαπλασιαστής Lagrange, η βελτιστοποίηση µας αντιστοιχεί στη µεγιστοποίηση του: 1 2 L( ω, b, a) = ω αι { yi[( ωxi ) + b] 1} (6), 2 a i µε m (7). y a = 0 i= 1 0 i i 33

Κατάταξη Περιοχών µε χρήση SVM Η βέλτιστη λοιπόν συνάρτηση διαχωρισµού µπορεί να γραφεί: m f ( x) = sgn( a y x x + b), i= 1 i y i Όπου x i x s, είναι διανύσµατα υποστήριξης που ανήκουν στη κλάση Α και Β αντίστοιχα. Μόλις προσδιορισθεί το ζητούµενο επίπεδο είναι άµεσα δυνατή και η εύρεση της αντίστοιχης συνάρτησης απόφασης για την κατάταξη αγνώστων διανυσµάτων. Εικόνα 4.1 Απεικόνιση ενός γραµµικού υπερ-επιπέδου για γραµµικά διαχωρίσιµα πρότυπα και ορισµός της απόστασης. 4.3 Μηχανές υποστήριξης διανυσµάτων πυρήνα (Kernel SVM) Τα SVM ήταν αρχικά γραµµικοί ταξινοµητές. Αν οι δύο κλάσεις δεν είναι γραµµικά διαχωρίσιµες είναι δυνατό ο γραµµικός αλγόριθµος να αντικατασταθεί µε µια µη γραµµική συνάρτηση πυρήνα. Αυτό έχει ως αποτέλεσµα ο αλγόριθµος να εφαρµόζεται σε ένα διαφορετικό χώρο. Με αυτόν τον τρόπο µη γραµµικά SVM µπορούν να δηµιουργηθούν. 34

Κατάταξη Περιοχών µε χρήση SVM Τυπικές συναρτήσεις πυρήνα είναι: Η πολυωνυµική : ( x y +1 ) d 1 2 Gaussian RBF: exp( x y ) 2 2 σ Σιγµοειδής: tanh( κ (x y)- µ) 4.4 Μηχανές υποστήριξης διανυσµάτων µιας κλάσης Οι µηχανές υποστήριξης διανυσµάτων είναι κατά κανόνα ένας αλγόριθµος κατάταξης δυο κλάσεων, δηλαδή είναι απαραίτητο να δοθούν θετικά και αρνητικά παραδείγµατα. Ο στόχος των SVM µιας κλάσης είναι να βρεθεί µια υπερ-σφαίρα που να περιγράφει τα δεδοµένα και που να εισάγει τα περισσότερα στην υπερ-σφαίρα. Αυτό µπορεί να µεταφραστεί δηλαδή σε ένα πρόβληµα βελτιστοποίησης: Θέλουµε µια σφαίρα η οποία να είναι όσο πιο µικρή γίνεται και που να περιέχει όσο περισσότερα δείγµατα εκπαίδευσης γίνεται. Το φανερό πλεονέκτηµα των SVM µιας κλάσης είναι ότι µπορεί κάποιος να δηµιουργήσει ένα ταξινοµητή δίνοντας µόνο δείγµατα για µια κλάση, γλιτώνοντας δηλαδή µια επεξεργασία δεδοµένων που γίνεται συνήθως χειροκίνητα. 4.4 Χρήση των SVM στην εφαρµογή Στην παρούσα διπλωµατική εργασία έγινε χρήση των µηχανών υποστήριξης διανυσµάτων µε σκοπό την κατάταξη των περιοχών που σχηµατίστηκαν από τον αλγόριθµο κατάτµησης και την εύρεση εκείνων των περιοχών που προσεγγίζουν περισσότερο τις περιοχές αναφοράς. Τα SVM που χρησιµοποιήθηκαν είναι 2 κλάσεων, χρειάζεται δηλαδή ο ορισµός και των δυο οµάδων µε δείγµατα κατάταξης έτσι ώστε να είναι εφικτός ο διαχωρισµός. Η διαδικασία, όπως και σε κάθε εφαρµογή κατάταξης, είναι δυο βηµάτων, δηλαδή πρώτα δηµιουργείται χειροκίνητα ένα σύνολο δειγµάτων (training set) και γίνεται η εκπαίδευση του συστήµατος και έπειτα ακολουθεί ο έλεγχος σωστής λειτουργίας του µε τυχαία δεδοµένα εισόδου (train and test). Στη συγκεκριµένη εφαρµογή που υλοποιήθηκε επιχειρείται ο εντοπισµός περιοχών δρόµου, άµµου, γρασιδιού και αυτοκινήτου σε σκηνές από αγώνες της Formula 1. Όπως περιγράφηκε αναλυτικά στο κεφάλαιο 3, για κάθε περιοχή εξάγεται ένα πλήθος 35