ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΜΕΛΕΤΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ ΣΕ ΠΟΛΥΓΩΝΙΚΕΣ ΓΡΑΜΜΕΣ

Σχετικά έγγραφα
ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Ανάκτηση πολυμεσικού περιεχομένου

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Συστήματα συντεταγμένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Multimedia IR. εικτοδότηση και Αναζήτηση. Ανάκτηση Πληροφορίας

Multimedia IR. Εισαγωγή. Εισαγωγή. εικτοδότηση και Αναζήτηση

4.3. Γραµµικοί ταξινοµητές

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

HMY 795: Αναγνώριση Προτύπων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Μεθοδολογίες παρεµβολής σε DTM.

Ειδικές Επιστηµονικές Εργασίες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ζ (ΖTransform)

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΣΧΕΔΙΑΣΗ ΜΗΧΑΝΟΛΟΓΙΚΩΝ ΚΑΤΑΣΚΕΥΩΝ ΜΕ Η/Υ (Computer Aided Design)

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΟΝΤΕΛΟΠΟΙΗΣΗ-ΨΗΦΙΑΚΗ ΣΥΝΘΕΣΗ ΕΙΚΟΝΩΝ Διδάσκων: Ν. ΝΙΚΟΛΑΙΔΗΣ

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Μέθοδοι Αναπαράστασης Περιγραµµάτων

Αναγνώριση Προτύπων Ι

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Κεφάλαιο 2ο: ΜΙΓΑ ΙΚΟΙ ΑΡΙΘΜΟΙ

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

/5

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

Βάσεις εδοµένων & Πολυµέσα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

α) Κύκλος από δύο δοσµένα σηµεία Α, Β. Το ένα από τα δύο σηµεία ορίζεται ως κέντρο αν το επιλέξουµε πρώτο. β) Κύκλος από δοσµένο σηµείο και δοσµένο ευ

Γραµµική Αλγεβρα. Ενότητα 7 : Γραµµικοί Μετασχηµατισµοί. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Στ Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ-ΕΙΣΑΓΩΓΗ

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Διοίκηση Ολικής Ποιότητας ΔΙΑΛΕΞΗ 2 η : Εργαλεία και Τεχνικές

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

Αναλυτικές λειτουργίες ΣΓΠ

ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΕΠΙΜΕΛΕΙΑ : ΑΥΓΕΡΙΝΟΣ ΒΑΣΙΛΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης


Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

οµή δικτύου ΣΧΗΜΑ 8.1

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Προσαρµοστικοί Αλγόριθµοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδροµικός αλγόριθµος ελάχιστων τετραγώνων (RLS Recursive Least Squares)

ΕΡΓΑΣΤΗΡΙΟ ΦΥΣΙΚΗΣ ΟΠΤΙΚΗΣ - ΟΠΤΟΗΛΕΚΤΡΟΝΙΚΗΣ & LASER ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΧΗΜΕΙΑΣ & Τ/Υ ΑΣΚΗΣΗ ΝΟ7 ΟΠΤΙΚΗ FOURIER. Γ. Μήτσου

Ενότητα: Πράξεις επί Συνόλων και Σώµατα Αριθµών

Κωδικοποίηση βίντεο (H.261 / DVI)

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

R n R 2. x 2. x 1. x: συντεταγµένες του z

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου

3.9 Πίνακας συνδιακύμανσης των παραμέτρων

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

Επανάληψη Μιγαδικών Αριθμών

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΜΕΛΕΤΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ ΣΕ ΠΟΛΥΓΩΝΙΚΕΣ ΓΡΑΜΜΕΣ ιπλωµατική εργασία της Σεµερτζίδου Αναστασίας (ΑΕΜ: 953) asemertz@csd.auth.gr ΙΟΥΛΙΟΣ 2008 Επιβλέπων καθηγητής: Νίκος Νικολαΐδης 1

Περιεχόµενα ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ...4 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΟΙΚΟΓΕΝΕΙΕΣ ΤΕΧΝΙΚΩΝ ΠΡΟΣΤΑΣΙΑΣ ΤΩΝ ΠΝΕΥΜΑΤΙΚΩΝ ΙΚΑΙΩΜΑΤΩΝ...7 2.1 Ψηφιακή υδατοσήµανση ή ψηφιακό υδατογράφηµα...7 2.2 Μέθοδος των ψηφιακών αποτυπωµάτων ή ανίχνευση αντιγράφων...8 2.2.1 Συστήµατα ανίχνευσης αντιγράφων σε βάσεις εικόνων...9 2.2.1.1 Μέθοδος Qamra...10 2.2.1.2 Μέθοδος Ke...10 2.2.1.3 Μέθοδος Maret...10 2.2.1.4 Μέθοδος Kim...13 2.2.1.5 Μέθοδος Roy & Chang...13 2.2.1.6 Μέθοδος I.-H. Cho...13 2.2.2 Περιγραφή & Λειτουργικότητα των συστηµάτων ανίχνευσης αντιγράφων και των συστηµάτων ανάκτησης εικόνων...15 2.2.2.1 Οµοιότητες των δύο κατηγοριών τεχνικών...15 2.2.2.2 ιαφορές των δύο κατηγοριών τεχνικών...16 ΚΕΦΑΛΑΙΟ 3 ΠΕΡΙΓΡΑΦΗ ΟΜΙΚΩΝ ΣΤΟΙΧΕΙΩΝ ΤΟΥ ΥΠΟ ΚΑΤΑΣΚΕΥΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ...21 3.1 Γενικός ορισµός των Περιγραφέων...21 3.1.1 Ορισµός των Fourier Descriptors (FD)...21 3.1.1.1 Σηµαντικές ιδιότητες των Fourier Descriptors...22 3.1.1.2 Ιδιότητες των Fourier Descriptors σε σχέση µε τους γεωµετρικούς µετασχηµατισµούς της πολυγωνικής γραµµής..22 3.1.1.3 Fourier Descriptors µεγαλύτερης διάστασης...25 3.2 Ορισµός των R- ένδρων (R-Trees)...25 3.2.1 Βασικά χαρακτηριστικά των R-δένδρων...26 3.2.2 Ιδιότητες που πρέπει να πληρούνται από τα R-δένδρα...26 3.2.3 Τοµείς εφαρµογής των R-trees...26 3.3 Γραµµική ιακριτική Ανάλυση (Linear Discriminant Analysis LDA)...27 3.3.1 Χρήση της µεθόδου LDA σε διάφορους τοµείς επεξεργασίας της πληροφορίας...27 3.3.2 Μελέτη της µεθόδου LDA...27 2

ΚΕΦΑΛΑΙΟ 4 ΠΡΟΤΕΙΝΟΜΕΝΟ ΣΥΣΤΗΜΑ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ ΣΕ ΠΟΛΥΓΩΝΙΚΕΣ ΓΡΑΜΜΕΣ...30 4.1 Φάσεις επεξεργασίας του συστήµατος...31 4.1.1 Α Φάση...31 4.1.2 Β Φάση...32 ΚΕΦΑΛΑΙΟ 5 ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ ΣΕ ΠΟΛΥΓΩΝΙΚΕΣ ΓΡΑΜΜΕΣ...34 5.1 Απαιτήσεις του συστήµατος...34 5.2 Συστατικά µέρη που απαρτίζουν το σύστηµα...34 5.2.1 Μέρος 1 Περιβάλλον του Matlab...34 5.2.2 Μέρος 2 Περιβάλλον Microsoft Visual Studio...41 5.2.3 Μέρος 3 Επιστροφή στο περιβάλλον του Matlab...42 5.3 Πειραµατικά αποτελέσµατα...44 5.4 Συµπεράσµατα...49 ΒΙΒΛΙΟΓΡΑΦΙΑ ΑΝΑΦΟΡΕΣ...51 3

ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Σήµερα η ψηφιακή πληροφορία αποτελεί αναπόσπαστο µέρος της καθηµερινότητας καθώς παρέχει πολλές διευκολύνσεις τόσο σε επαγγελµατικό όσο και σε προσωπικό επίπεδο. Η πληροφορία στην ψηφιακή της µορφή εµφανίζεται στα ψηφιακά πολυµέσα (multimedia). Οι τύποι πληροφορίας που χρησιµοποιεί η τεχνολογία των πολυµέσων είναι οι ψηφιακές εικόνες, τα γραφικά, τα ψηφιακά βίντεο, ο ψηφιακός ήχος, η σχεδιοκίνηση (animation) και κάθε άλλου είδους µέσου ψηφιακής αναπαράστασης, αποθήκευσης, µετάδοσης και επεξεργασίας. Η ολοένα και αυξηµένη χρήση της ψηφιακής πληροφορίας οφείλεται σε δυο παράγοντες: Την ανάπτυξη συσκευών και τεχνικών για την καταγραφή, αποθήκευση, επεξεργασία και συµπίεση δεδοµένων σε ψηφιακή µορφή. Την ανάπτυξη των δικτύων ηλεκτρονικών υπολογιστών. Και οι δυο παράγοντες είναι απόρροια των ραγδαίων εξελίξεων στον τοµέα της τεχνολογίας. Ωστόσο οι τεχνολογικές αυτές εξελίξεις αποτελούν ταυτόχρονα και τη ρίζα ενός προβλήµατος, δηλαδή της µη εξουσιοδοτηµένης χρήσης του ψηφιακού περιεχοµένου. Πιο συγκεκριµένα: Η ψηφιακή µορφή µε την οποία αναπαρίστανται τα δεδοµένα καθιστούν πιο εύκολη και γρήγορη την αναπαραγωγή, αντιγραφή και αναδιανοµή της ψηφιακής πληροφορίας. Ο διαχωρισµός του αντιγράφου και του πρωτοτύπου είναι ιδιαίτερα δύσκολος καθώς η ποιότητά τους δεν εµφανίζει διαφορές. Η ανάπτυξη των δικτύων υπολογιστών και του παγκόσµιου ιστού εντείνει περισσότερο το πρόβληµα της διανοµής µη εξουσιοδοτηµένων αντιγράφων καθώς η διανοµή τους µπορεί να γίνει µε ιδιαίτερα µεγάλη ταχύτητα και µε ελάχιστο κόστος. Αξίζει να αναφερθεί ότι το πρόβληµα αυτό έχει οικονοµικές, νοµικές, κοινωνικές, πολιτικές αλλά και πολιτιστικές διαστάσεις. Έτσι λοιπόν, η ψηφιακή πειρατεία αποτελεί ένα από τα πλέον έντονα προβλήµατα του ψηφιακού κόσµου, µε σηµαντική επίπτωση στην αποδυνάµωση των δηµιουργών και των κατόχων των δικαιωµάτων. 4

Συνεπώς κρίνεται επιτακτική η ανάγκη προστασίας και διαχείρισης των πνευµατικών δικαιωµάτων σε πολυµεσικά δεδοµένα. Για το σκοπό αυτό έχουν αναπτυχθεί δυο βασικές οικογένειες τεχνικών προστασίας. Η πρώτη είναι ευρέως γνωστή ως ψηφιακή υδατοσήµανση ή ψηφιακό υδατογράφηµα (digital watermarking) ενώ η δεύτερη και χρονολογικά νεότερη ως µέθοδος των ψηφιακών αποτυπωµάτων (multimedia fingerprinting) [1], [2], [3], [4], robust/ perceptual hashing ([5], [6], [7], [8], [9]) ή ανίχνευση αντιγράφων (replica recognition/ detection) [10], [11], [12], [13], [14], [15]. Αντικείµενο της συγκεκριµένης διπλωµατικής εργασίας είναι η ανάπτυξη και πειραµατική µελέτη µιας τεχνικής για την ανίχνευση αντιγράφων σε δεδοµένα πολυγωνικών γραµµών στις δυο διαστάσεις και η περιγραφή του θεωρητικού υπόβαθρου πάνω στο οποίο στηρίζεται η υλοποίηση ενός τέτοιου συστήµατος. Οι πολυγωνικές γραµµές εµφανίζονται συχνά σε διδιάστατα γραφικά, όπως για παράδειγµα στο πρότυπο SVG (Scalable Vector Graphics). Το SVG ανήκει στην κατηγορία προτύπων διανυσµατικών εικόνων (vector graphics) που αποτελούνται από αντικείµενα σχεδίασης όπως οι γραµµές, τα ορθογώνια, οι ελλείψεις και τα τόξα. Κατά συνέπεια η ανάπτυξη µιας τεχνικής για την ανίχνευση αντιγράφων τέτοιων γραµµών θα µπορούσε να βοηθήσει στη διαχείριση πνευµατικών δικαιωµάτων αρχείων γραφικών. Η δοµή της εργασίας είναι η εξής: Κεφάλαιο 2: Στο κεφάλαιο αυτό παρουσιάζονται οι προαναφερθείσες οικογένειες τεχνικών προστασίας των πνευµατικών δικαιωµάτων. Η ψηφιακή υδατοσήµανση δε θα παρουσιαστεί διεξοδικά παρά µόνο θα σκιαγραφηθούν κάποια βασικά χαρακτηριστικά που την διακρίνουν από την ανίχνευση αντιγράφων. Η µελέτη επικεντρώνεται στην αρχή λειτουργίας της ανίχνευσης αντιγράφων. Ακολουθεί περιγραφή των συστηµάτων ανίχνευσης αντιγράφων που έχουν ήδη προταθεί για εικόνες. Το κεφάλαιο ολοκληρώνεται µε τη σύγκριση της ανίχνευσης αντιγράφων µε την ανάκτηση εικόνων µε βάση το περιεχόµενο. Κεφάλαιο 3: Το κεφάλαιο αυτό περιλαµβάνει τα δοµικά στοιχεία του συστήµατος ανίχνευσης αντιγράφων σε πολυγωνικές γραµµές που θα αναπτυχθεί στη συνέχεια. Περιγράφονται αναλυτικά οι αρχές που διέπουν τα δοµικά αυτά µέρη. 5

Κεφάλαιο 4: Σε αυτό το κεφάλαιο γίνεται ανάπτυξη του συστήµατος ανίχνευσης αντιγράφων σε πολυγωνικές γραµµές το οποίο στηρίζεται σε ένα ήδη υπάρχον σύστηµα ανίχνευσης εικόνων [15]. Επεξηγείται ο µηχανισµός βάσει του οποίου γίνεται ο εντοπισµός του αντιγράφου µε αναλυτική περιγραφή των σταδίων επεξεργασίας που περιλαµβάνουν τα συστατικά µέρη του τρίτου κεφαλαίου. Κεφάλαιο 5: Σε αυτό το κεφάλαιο παρουσιάζεται εκτενώς η λειτουργία του συστήµατος που αναπτύχθηκε για πολυγωνικές γραµµές. Αναλύονται λεπτοµερώς τα επιµέρους στάδια υλοποίησης µέσα από τα προγραµµατιστικά περιβάλλοντα που χρησιµοποιούνται. Επίσης γίνεται πειραµατική µελέτη και παράθεση των αποτελεσµάτων που εξάγονται. 6

ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΟΙΚΟΓΕΝΕΙΕΣ ΤΕΧΝΙΚΩΝ ΠΡΟΣΤΑΣΙΑΣ ΤΩΝ ΠΝΕΥΜΑΤΙΚΩΝ ΙΚΑΙΩΜΑΤΩΝ 2.1 Ψηφιακή υδατοσήµανση ή ψηφιακό υδατογράφηµα Η ψηφιακή υδατοσήµανση είναι η τεχνική κατά την οποία ενσωµατώνεται πληροφορία (υδατόσηµο) στο ψηφιακό περιεχόµενο. Το υδατόσηµο αποτελεί την «υπογραφή» του πνευµατικού ιδιοκτήτη στα αρχικά δεδοµένα και η εισαγωγή του αποσκοπεί στη διαπίστωση της ύπαρξης αντιγράφου που φέρει την υπογραφή του κατόχου. Το υδατόσηµο πρέπει να διαθέτει τα εξής χαρακτηριστικά: 1. Να είναι µοναδικό και µη αντιστρέψιµη η διαδικασία παραγωγής του Ώστε να µην µπορεί εύκολα να «υποκλαπεί». 2. Να είναι αόρατο Ο οποιοσδήποτε χρήστης να µην µπορεί να αντιληφθεί ποια είναι η υπογραφή. Η υπογραφή δεν πρέπει να αλλοιώνει την αρχική ποιότητα του ψηφιακού δεδοµένου. 3. Να µην αφαιρείται εύκολα Όταν το δεδοµένο υπόκειται σε εσκεµµένες ή µη επεξεργασίες (επιθέσεις). 4. Να παραµένει ανιχνεύσιµο Ακόµη και µετά από ποικιλία επιθέσεων, µετά από διάφορες φυσικές παραµορφώσεις και µετά από εισαγωγή άλλων υπογραφών. 7

2.2 Μέθοδος των ψηφιακών αποτυπωµάτων ή ανίχνευση αντιγράφων Η µέθοδος των ψηφιακών αποτυπωµάτων οφείλει την ονοµασία της στη χρήση ενός αποτυπώµατος ή υπογραφής που ουσιαστικά αποτελεί ένα διάνυσµα χαρακτηριστικών (feature vector). Το τελευταίο εξάγεται από τα ψηφιακά δεδοµένα (π.χ. εικόνες) και τα χαρακτηρίζει µε µοναδικό τρόπο. Η σηµαντικότερη επιθυµητή ιδιότητα των αποτυπωµάτων είναι η ανθεκτικότητά τους σε πιθανές µεταβολές / αλλοιώσεις των δεδοµένων οι οποίες ονοµάζονται επιθέσεις (attacks). Στη συγκεκριµένη ιδιότητα στηρίζεται η λειτουργία ενός συστήµατος ανίχνευσης αντιγράφων καθώς ένα τέτοιο σύστηµα θα πρέπει να είναι σε θέση εντοπισµού όχι µόνο ενός πιστού αντιγράφου του αυθεντικού αλλά και εκείνου που έχει υποστεί κάποια µεταβολή του περιεχοµένου του. Η γενική αρχή λειτουργίας ενός συστήµατος ανίχνευσης αντιγράφων είναι η εξής: Τα πολυµεσικά «αρχεία» τα οποία διαθέτουµε και θέλουµε να προστατεύσουµε, οργανώνονται κατάλληλα σε µια βάση δεδοµένων όπου κάθε αρχείο περιγράφεται από το αποτύπωµά του. Όταν η βάση «ερωτάται» µε το αποτύπωµα ενός άγνωστου αρχείου θα πρέπει, µε τη χρήση κατάλληλης µετρικής οµοιότητας και τεχνικών κατηγοριοποίησης, να ανακτηθεί το αρχείο που είναι το πρωτότυπο του αρχείου της ερώτησης ή το σύστηµα να αποφανθεί ότι το αρχείο της ερώτησης δεν αποτελεί αντίγραφο κανενός από τα αρχεία της βάσης. Το κυριότερο προτέρηµα της µεθόδου αυτής που ταυτοχρόνως αποτελεί και την ειδοποιό διαφορά από την ψηφιακή υδατοσήµανση απορρέει από το γεγονός ότι στα πολυµεσικά δεδοµένα δεν εισάγεται πληροφορία (υδατόσηµο). Κατά συνέπεια η τεχνική αυτή είναι εφαρµόσιµη και σε δεδοµένα τα οποία έχουν ήδη διανεµηθεί στο χώρο του διαδικτύου, γεγονός που δεν ισχύει στην υδατοσήµανση αφού εκεί απαιτείται η προσθήκη του υδατόσηµου πριν τη διανοµή. Επίσης σε µια µέθοδο ψηφιακών αποτυπωµάτων δεν επέρχεται καµία απολύτως αλλοίωση του περιεχοµένου των πολυµεσικών δεδοµένων. Η ανίχνευση αντιγράφων θα µπορούσε να αντιµετωπιστεί ως πρόβληµα ταξινόµησης (classification problem). Ας θεωρήσουµε ως τάξη ή κλάση ένα σύνολο αποτυπωµάτων που αντιστοιχούν σε ένα πρωτότυπο αρχείο. Το κέντρο της κάθε τάξης είναι το αρχικό αποτύπωµα που περιβάλλεται από τα αποτυπώµατα των επιθέσεων. Τα αποτυπώµατα των επιθέσεων ανατίθενται µέσω µιας µεθόδου εκπαίδευσης στην εκάστοτε τάξη. ηλαδή οι επιθέσεις είναι αυτές που ορίζουν το εύρος της τάξης το οποίο στη συνέχεια του κειµένου αναφέρεται ως γειτονιά. 8

Με την είσοδο ενός ψηφιακού δεδοµένου, που θα ελεγχθεί αν είναι αντίγραφο, εφαρµόζεται ένας ταξινοµητής για να αποφανθεί αν το δεδοµένο ανήκει σε κάποια τάξη. ηλαδή χρησιµοποιείται µια συνάρτηση απόφασης που αποφασίζει την οµοιότητα ή µη του εισαγόµενου δεδοµένου µε κάποιο από τα πρωτότυπα δεδοµένα. Για το λόγο αυτό ένα σύστηµα ανίχνευσης αντιγράφων µπορεί να θεωρηθεί και ως σύστηµα απόφασης. Μια αντίστοιχη προσέγγιση χρησιµοποιήθηκε και στο σύστηµα που αναπτύχθηκε στην παρούσα διπλωµατική εργασία. 2.2.1 Συστήµατα ανίχνευσης αντιγράφων σε βάσεις εικόνων εδοµένου ότι δεν έχουν αναπτυχθεί έως τώρα συστήµατα ανίχνευσης αντιγράφων σε πολυγωνικές γραµµές, θα περιγράψουµε ανάλογα συστήµατα για εικόνες. Οι µέθοδοι ανίχνευσης αντιγράφων σε βάσεις εικόνων που είναι αποτέλεσµα επιστηµονικής έρευνας και έχουν υλοποιηθεί τα τελευταία χρόνια είναι λίγες σε αριθµό. Παρουσιάζουν αρκετές διαφορές στα χαρακτηριστικά τους και συγκεκριµένα διαφοροποιούνται στα εξής: o στο σύνολο/ τύπο των µετασχηµατισµών (manipulations) ή επιθέσεων (attacks) που χρησιµοποιούνται τόσο στη φάση της εκπαίδευσης του συστήµατος όσο και στην παραγωγή των υπό εξέταση εικόνων και στις οποίες η µέθοδος θα πρέπει να είναι ανθεκτική o στο είδος και τον αριθµό των χαρακτηριστικών (feature descriptors) για την αναπαράσταση των εικόνων o στις µετρικές για την εύρεση της οµοιότητας χαρακτηριστικών διανυσµάτων o στην αποδοτικότητα των συστηµάτων για τη µέτρηση της οποίας χρησιµοποιούνται µεταξύ άλλων, τα µέτρα επίδοσης true positive fraction (TPF) και false positive fraction (FPF). Τα µέτρα που χρησιµοποιήθηκαν στο προτεινόµενο σύστηµα της συγκεκριµένης διπλωµατικής εργασίας είναι η εσφαλµένη αποδοχή (False Positive FP), η εσφαλµένη απόρριψη (False Negative FN) και η εσφαλµένη κατάταξη (Misclassification MC). Ο όρος εσφαλµένη αποδοχή αφορά το λάθος που επιστρέφεται στην περίπτωση που το «ερώτηµα» δεν ανήκει στη βάση και το οποίο το σύστηµα αποδέχεται ως αντίγραφο ενώ φυσικά δε θα έπρεπε. Η εσφαλµένη απόρριψη και η εσφαλµένη κατάταξη αφορούν την περίπτωση που το «ερώτηµα» που τίθεται είτε έχει υποστεί κάποια 9

επίθεση είτε είναι ίδιο µε κάποιο δεδοµένο της βάσης. Ειδικότερα, η εσφαλµένη απόρριψη όπως δηλώνει και η ονοµασία είναι λάθος που επιστρέφεται όταν το «ερώτηµα» (µετασχηµατισµένο ή µη) βρεθεί ότι δεν αποτελεί αντίγραφο της βάσης, γεγονός το οποίο προφανώς δεν ισχύει. Ενώ η εσφαλµένη κατάταξη σχετίζεται µε την επιστροφή κάποιου δεδοµένου της βάσης διαφορετικού από το σωστό. Μεταξύ των συστηµάτων ανίχνευσης αντιγράφων που προτάθηκαν συµπεριλαµβάνονται και οι ακόλουθες µέθοδοι: 2.2.1.1 Μέθοδος Qamra [13]: Η µέθοδος αυτή στηρίζεται στις perceptual συναρτήσεις απόστασης (perceptual distance functions). Οι συναρτήσεις απόστασης χρησιµοποιούνται ως µετρική οµοιότητας δυο εικόνων. Η παραλλαγή που προτάθηκε βασίζεται σε ένα συνδυασµό των δυναµικών µερικών συναρτήσεων (Dynamic Partial Functions DPF) και τεχνικών κατωφλίου (thresholding), δειγµατοληψίας (sampling) και weighting schemes. Η απόδοση ενός τέτοιου συνδυαστικού συστήµατος υπερτερεί έναντι της χρήσης µόνο DPF ή άλλων συναρτήσεων απόστασης. Για µεγάλες βάσεις εικόνων ανακύπτει πρόβληµα µε τη δεικτοδότηση των εικόνων. Συνεπώς για την επίλυση προτείνεται η χρήση Locality Sensitive Hashing (LSH) [16], [17] σε συνδυασµό µε τις perceptual συναρτήσεις απόστασης. 2.2.1.2 Μέθοδος Ke [10]: Η συγκεκριµένη µέθοδος στηρίζεται στην εξαγωγή χαρακτηριστικών που ονοµάζονται σηµεία κλειδιά (Key Points KPs). Τα KPs αποτελούν σταθερά σηµεία χαρακτηριστικά µιας εικόνας που µαζί µε διανύσµατα που περιγράφουν τη γειτονιά του σηµείου, χρησιµοποιούνται για την αναπαράσταση µιας εικόνας. Για την περιγραφή της µπορούν να χρησιµοποιηθούν χιλιάδες KPs. Οµοίως µε την προηγούµενη µέθοδο χρησιµοποιείται LSH. Η υπό εξέταση εικόνα που εισάγεται στο σύστηµα είναι αντίγραφο µιας αρχικής εικόνας της βάσης εάν τα KPs της εισαγόµενης ταιριάζουν µε αυτά της αρχικής. Ο αριθµός των σηµείων κλειδιών που ταιριάζουν για τις δυο εικόνες αποτελεί µέτρο οµοιότητας σε αντίθεση µε άλλες µεθόδους που χρησιµοποιούν συναρτήσεις αποστάσεων. Η επίδοση της µεθόδου είναι περισσότερο ικανοποιητική σε σύγκριση µε τη µέθοδο Qamra. 2.2.1.3 Μέθοδος Maret [18]: Αποτελεί νεότερη παραλλαγή που βασίζεται σε προηγούµενες προσεγγίσεις [19-21]. Η µετρική οµοιότητας είναι οι µερικές αποστάσεις (partial distances) που παρουσιάζονται πιο κάτω. Χρησιµοποιούνται κανονικοποιηµένα διανύσµατα χαρακτηριστικών, διάστασης 162, που βασίζονται στην 10

υφή, στο χρώµα και στη φωτεινότητα (gray-level). Ένας δυαδικός ταξινοµητής (binary classifier) είναι υπεύθυνος για την ταξινόµηση των εικόνων βάσει των επιλεχθέντων χαρακτηριστικών τους. Η ταξινόµηση γίνεται µε χρήση Support Vector Machines (SVMs). Πιο συγκεκριµένα, έστω P η περιοχή στο διανυσµατικό χώρο όπου υπάρχουν οι µερικές αποστάσεις. Με δοθείσες τις µερικές αποστάσεις ανάµεσα σε µια αρχική εικόνα και στο σύνολο εικόνων που εξετάζεται, το σύστηµα ανίχνευσης αντιγράφων καθορίζει τη βέλτιστη υποπεριοχή του P όπου οι αντίστοιχες εικόνες είναι πιθανό να είναι αντίγραφα της αρχικής (Εικόνα 1). Θεωρούµε επίσης ότι για την αναπαράσταση µιας εικόνας χρησιµοποιούµε ένα σύνολο (group) χαρακτηριστικών διανυσµάτων και όχι ένα µόνο διάνυσµα. Τότε και η αντίστοιχη µετρική οµοιότητας θα δίνεται από αρκετές µερικές αποστάσεις. Για κάθε σύνολο χαρακτηριστικών g, η αντίστοιχη απόσταση των εικόνων Ι 1 και Ι 2 θα είναι d g (Ι 1,Ι 2 ). Στην ιδανική περίπτωση, η περιοχή P χωρίζεται σε δυο αµοιβαία αποκλειόµενες υποπεριοχές, τα αντίγραφα και τα µη αντίγραφα της αρχικής. Είναι εµφανές ότι οι µερικές αποστάσεις που αντιστοιχούν στα αντίγραφα βρίσκονται πλησιέστερα του πρωτοτύπου O (original), ενώ αυτές που δεν είναι αντίγραφα είναι αποµακρυσµένες. Εικόνα 1: Η ιδανική περίπτωση για τις υποπεριοχές του P. Χρησιµοποιούνται δυο σύνολα χαρακτηριστικών που αντιστοιχούν στις δυο µερικές αποστάσεις d 1 και d 2. O διαχωρισµός των αντιγράφων και των µη αντιγράφων γίνεται µε το υπερεπίπεδο h (hyperplane). 11

Η διαδικασία της παλαιότερης µεθόδου Maret [21] δίνεται από το ακόλουθο σχήµα: Εικόνα 2: Block διάγραµµα του συστήµατος [21]. Η διαδικασία της παραλλαγµένης µεθόδου Maret [18] απεικονίζεται σχηµατικά στο διάγραµµα που ακολουθεί: Εικόνα 3: Block διάγραµµα του συστήµατος [18]. 12

Το σύστηµα αποτελείται από δυο φάσεις, την εκπαίδευση και τη δοκιµή. Η εικόνα 3(a) παρουσιάζει το block διάγραµµα για τη φάση της δοκιµής. Η µέθοδος διασπάται σε δυο τµήµατα: Το άνω µέρος της εικόνας 3(a) απεικονίζει τα βήµατα που είναι ανεξάρτητα από την αρχική εικόνα, ενώ το κάτω µέρος της εικόνας 3(a) δείχνει τα βήµατα που εξαρτώνται από την αρχική εικόνα. Η εικόνα 3(b) περιγράφει το διάγραµµα block για τη φάση της εκπαίδευσης µιας µόνο αρχικής εικόνας. Με f ref αναπαρίστανται τα χαρακτηριστικά της αρχικής (reference), µε (f i ) j τα χαρακτηριστικά των παραδειγµάτων της εκπαίδευσης και µε (y i ) j οι αντίστοιχες ετικέτες (labels). Όλα αυτά τροφοδοτούν τον αλγόριθµο της εκπαίδευσης. Από αυτόν τον αλγόριθµο παράγονται οι παράµετροι των βηµάτων που εξαρτώνται από την αρχική εικόνα. 2.2.1.4 Μέθοδος Kim [22]: Τα χαρακτηριστικά που εξάγονται είναι οι συντελεστές του µετασχηµατισµού συνηµίτονου (DCT Discrete Cosine Transform). Για την εύρεση της οµοιότητας για ένα ζεύγος εικόνων χρησιµοποιείται η απόσταση L1 της µετρικής Minkowski µεταξύ των πινάκων κατάταξης (rank matrices). Οι πίνακες κατάταξης περιλαµβάνουν τη σειρά των πλατών των AC συντελεστών όταν αυτά διαταχθούν. Για µεγάλες βάσεις εικόνων εφαρµόζεται οµαδοποίηση Κ µέσων των χαρακτηριστικών διανυσµάτων. 2.2.1.5 Μέθοδος Roy & Chang [12]: Η µέθοδος αποτελεί συνδυασµό της ψηφιακής υδατοσήµανσης και της µεθόδου των ψηφιακών αποτυπωµάτων. Επικεντρώνεται στην εύρεση ενός χώρου χαρακτηριστικών και µιας µετρικής έτσι ώστε κάθε ζεύγος εικόνων της βάσης να διαχωρίζεται σε µεγάλο βαθµό από τα υπόλοιπα ζεύγη. Τα επιλεχθέντα χαρακτηριστικά είναι οι συντελεστές του AFMT (Analytical Fourier Mellin Transform) [23] οι οποίοι είναι ανθεκτικοί στην περιστροφή, στη µετατόπιση και στην κλιµάκωση. 2.2.1.6 Μέθοδος I.-H. Cho [24]: Η µέθοδος αυτή είναι βασισµένη σε διαχωρισµό οµόκεντρων κύκλων (Concentric Circle Partition-Based). Οι οµόκεντροι κύκλοι διαιρούνται σε υποπεριοχές ανάλογα µε την ακτίνα και τη γωνία. Αυτές οι υποπεριοχές χρησιµοποιούνται για την εξαγωγή των χαρακτηριστικών που θα αναπαραστήσουν την κάθε εικόνα. 13

Εικόνα 4: Οµόκεντροι κύκλοι και διαχωρισµός τους µε βάση την ακτίνα (αριστερό σχήµα) και τη γωνία (δεξί σχήµα). Κάθε οµόκεντρος κύκλος περιλαµβάνει µια υπογραφή που αποτελεί ένα διάνυσµα χαρακτηριστικών. Στη µέθοδο αυτή χρησιµοποιούνται τέσσερις οµόκεντροι κύκλοι, δηλαδή τεσσάρων ειδών χαρακτηριστικά ώστε το σύστηµα να είναι ανθεκτικό σε επιθέσεις. Και συγκεκριµένα χρησιµοποιείται: intensity level, difference of average intensity level, symmetrical difference and circular difference distribution. Η σειρά εκτέλεσης των βηµάτων της µεθόδου περιγράφεται σχηµατικά στο ακόλουθο διάγραµµα. Εικόνα 5: Block διάγραµµα του συστήµατος [24] για τη φάση εξαγωγής των χαρακτηριστικών. 14

2.2.2 Περιγραφή & Λειτουργικότητα των συστηµάτων ανίχνευσης αντιγράφων και των συστηµάτων ανάκτησης εικόνων Η ανίχνευση αντιγράφων σε βάσεις εικόνων (Image Replica Detection) πολύ συχνά συγχέεται µε τις τεχνικές ανάκτησης εικόνων βασισµένη στο περιεχόµενο (Content Based Image Retrieval CBIR [25], [26]) και για το λόγο αυτό παρουσιάζονται στη συνέχεια τα στοιχεία που τις διαφοροποιούν αλλά και κάποια στοιχεία που τις συνδέουν. Καταρχάς πρέπει να αναφερθεί ότι η βάση δεδοµένων που περιέχει το πλήθος των εικόνων των ποικίλων κατηγοριών είναι ένα κοινό χαρακτηριστικό και για τη µέθοδο CBIR και για αυτήν της ανίχνευσης αντιγράφων. 2.2.2.1 Οµοιότητες των δύο κατηγοριών τεχνικών Παρά τις διαφορές στη λειτουργικότητα των δύο συστηµάτων η οποία αναλύεται πλήρως αργότερα, υπάρχουν και βασικά στοιχεία που είναι κοινά και αξίζει να περιγραφούν: α) Όπως αναφέρθηκε και νωρίτερα για τη µέθοδο των ψηφιακών αποτυπωµάτων ή αλλιώς ανίχνευση αντιγράφων, το διάνυσµα χαρακτηριστικών που στο εξής θα συµβολίζεται µε x I [27], [28], [29] χαρακτηρίζει µοναδικά την κάθε εικόνα. Στην ουσία αποτελεί την πληροφορία που εξάγεται από τα πολυµεσικά δεδοµένα. Το διάνυσµα χαρακτηριστικών x I είναι κοινό στοιχείο και για το CBIR. β) Και οι δύο κατηγορίες τεχνικών βασίζονται σε µια µετρική οµοιότητας (similarity metric). Συµβολίζεται ως d(x I 1,x I 2), όπου τα x I 1, x I 2 αποτελούν τα αντίστοιχα χαρακτηριστικά διανύσµατα των εικόνων Ι 1,Ι 2. Οι µετρικές που έχουν προταθεί είναι οι γνωστές αποστάσεις L 1, L 2 καθώς και άλλες όπως η απόσταση Mahalanobis. Εκτενής περιγραφή και σύγκριση των παραπάνω περιλαµβάνεται στο [30]. Μια εναλλακτική προσέγγιση µετρικής οµοιότητας που χρησιµοποιείται από κάποια προτεινόµενα συστήµατα είναι και οι µερικές αποστάσεις (partial distances) που παρουσιάστηκαν σε προηγούµενη ενότητα. 15

2.2.2.2 ιαφορές των δύο κατηγοριών τεχνικών Η πρώτη βασική διαφορά των συστηµάτων που υλοποιούν την ανίχνευση αντιγράφων και την ανάκτηση έγκειται στο στόχο που αποσκοπεί να επιτύχει η καθεµιά. Όσον αφορά την ανάκτηση εικόνων, ο στόχος είναι η επιστροφή των εικόνων της βάσης που εµφανίζουν πολλές συσχετίσεις (οµοιότητες) στο περιεχόµενο µε την εικόνα που εξετάζεται (query image). Για παράδειγµα αν η υπό εξέταση εικόνα είναι η εικόνα ενός ηλιοβασιλέµατος, τότε ένα σύστηµα CBIR θα επιστρέψει εικόνες της βάσης που παρουσιάζουν ηλιοβασιλέµατα και όχι µόνο τη συγκεκριµένη εικόνα ηλιοβασιλέµατος. Από την άλλη ένα σύστηµα ανίχνευσης αντιγράφων πρέπει να επιστρέφει σαν έξοδο την εικόνα της βάσης µόνο στην περίπτωση που η εικόνα που τέθηκε για έλεγχο είναι αντίγραφό της, ενώ δεν πρέπει να επιστρέφεται εικόνα σε αντίθετη περίπτωση. Ένα αντίγραφο µπορεί να παραχθεί από µια αρχική εικόνα µέσω κάποιων µετασχηµατισµών, συµπεριλαµβανοµένων φίλτρων και γεωµετρικών τροποποιήσεων (περιστροφή, µετατόπιση, κλιµάκωση κ.ά). Κατά συνέπεια το σύστηµα που είναι υπεύθυνο για την ανίχνευση αντιγράφων πρέπει να είναι ανθεκτικό στις παραπάνω αλλοιώσεις. Η προηγούµενη ιδιότητα το διαχωρίζει από το CBIR. Μια επιπλέον διαφορά σχετίζεται µε το σύνολο των εικόνων που τελικά επιστρέφονται ως αντιστοιχίσεις από τα δύο συστήµατα. Όσον αφορά το CBIR, το ανακτώµενο σύνολο µπορεί να περιλαµβάνει περισσότερες από µια εικόνες της βάσης. Αντιθέτως, από ένα σύστηµα ανίχνευσης αντιγράφων επιστρέφεται είτε καµία είτε µια µόνο εικόνα, αφού έχουµε υποθέσει ότι ένα αντίγραφο έχει παραχθεί από ένα µόνο πρωτότυπο. Έχουν αποκλειστεί οι περιπτώσεις εκείνες όπου η εικόνα που τέθηκε για έλεγχο έχει προέλθει από τη συρραφή εικόνων της βάσης. Παρακάτω περιγράφεται µε µαθηµατική έκφραση η λειτουργικότητα των παραπάνω συστηµάτων. Συµβολίζουµε µε I και I q την αρχική εικόνα (original Image) και την εικόνα προς έλεγχο (query Image) αντίστοιχα. Επίσης µε S I δηλώνεται το σύνολο των αρχικών εικόνων (original Image Set) ενώ µε S R ορίζεται το σύνολο των αποτελεσµάτων (Result Set) µε τις εικόνες που ανακτώνται. Για το σύστηµα ανάκτησης εικόνων βασισµένης στο περιεχόµενο η λειτουργικότητα εκφράζεται µέσω της ακόλουθης σχέσης: ( ) Q S, I = S, 0 < S S (1) I q R R I 16

Η σχέση (1) ερµηνεύεται ως εξής: Με είσοδο στο σύστηµα Q, τη βάση εικόνων S I και την εικόνα I q που ελέγχεται, επιστρέφεται ως έξοδος το σύνολο S R. Τα µεγέθη S R και S I δηλώνουν το µέγεθος (αριθµό εικόνων) των συνόλων. Στην περίπτωση του συστήµατος CBIR το S R αποτελεί υποσύνολο του S I που περιέχει τις εικόνες που εµφανίζουν οµοιότητα µε την I q (ή ακόµα µπορεί να είναι και το κενό σύνολο για την περίπτωση µη αντιστοίχησης εικόνας µε τη βάση). Το αντίστοιχο µέγεθος S R είναι κατά πολύ µικρότερο του S I (δηλαδή S R << S I ). Για το σύστηµα ανίχνευσης αντιγράφων η λειτουργικότητα περιγράφεται µέσω της σχέσης: ( I, q) Q S I I, εαν Iq= R( I), I S =, διαϕορετικ ά I (2) όπου µε R(.) δηλώνεται η συνάρτηση γεννήτρια των αντιγράφων και πιο συγκεκριµένα συµβολίζει κάποια επίθεση που µπορεί να υποστεί µια εικόνα. Επιπλέον στα στοιχεία που διαφοροποιούν τα δυο συστήµατα θα πρέπει να προστεθούν οι στρατηγικές απόφασης που χρησιµοποιούνται από τις αντίστοιχες µεθόδους υλοποίησής τους. Ο απώτερος σκοπός αυτών των στρατηγικών είναι η βέλτιστη αντιστοίχηση µε κάποια εικόνα της βάσης. Στην επόµενη παράγραφο ακολουθεί αναλυτική περιγραφή των στρατηγικών. Ο αλγόριθµος του πλησιέστερου γείτονα (nearest neighbor) αποτελεί µια στρατηγική απόφασης που χρησιµοποιείται από τα συστήµατα ανίχνευσης αντιγράφων. Όπως δηλώνει και το όνοµά του, η γειτνίαση αφορά το σύνολο των εικόνων της βάσης (εικόνες γείτονες) το οποίο εµφανίζει τη µέγιστη δυνατή οµοιότητα µε την εικόνα που θέτεται υπό έλεγχο [31]. Η τελευταία αποτελεί το κέντρο της γειτονιάς γύρω από την οποία κατατάσσονται οι εικόνες γείτονες. Η στρατηγική αυτή εντάσσεται στην ευρύτερη κατηγορία τεχνικών µάθησης και ειδικότερα εµπίπτει στη µάθηση µε επίβλεψη (supervised learning) ή µάθηση µε παραδείγµατα (learning from examples). Στη µάθηση µε επίβλεψη το σύστηµα καλείται να µάθει επαγωγικά µια 17

έννοια ή συνάρτηση στόχο (target function) από ένα σύνολο δεδοµένων εκπαίδευσης ή παραδειγµάτων. Συγκεκριµένα τα συστήµατα ανάκτησης εικόνων και ανίχνευσης αντιγράφων καλούνται να εκπαιδευτούν από δεδοµένα εκπαίδευσης τα οποία περιγράφονται από τα χαρακτηριστικά διανύσµατα x I. Στη συνέχεια αποφασίζουν για την επιστροφή κάποιας εικόνας της βάσης εξετάζοντας τη σχέση της εικόνας που ελέγχεται (νέα περίπτωση) µε τα ήδη αποθηκευµένα δεδοµένα. Για το λόγο αυτό η παραπάνω τεχνική µάθησης µε επίβλεψη είναι γνωστή ως µάθηση κατά περίπτωση (instance-based learning). Η γενίκευση του αλγορίθµου πλησιέστερου γείτονα που υλοποιεί αυτό το είδος µάθησης είναι ο αλγόριθµος των Κ-πλησιέστερων γειτόνων (k-nearest neighbors) σύµφωνα µε τον οποίο ανακτώνται Κ εικόνες της βάσης ως γειτονικές εικόνες. Ένα από τα κριτήρια για την επιλογή των Κ-κοντινότερων γειτόνων µιας περίπτωσης στηρίζεται στη γνωστή ευκλείδεια απόσταση της νέας περίπτωσης x ' από κάθε αποθηκευµένο παράδειγµα x. n ( ) 2 r r, (, ') = ( ) ( ') d x x a x a x r= 1 όπου µε d χαρακτηρίζεται το άθροισµα των ευκλείδειων αποστάσεων όλων των χαρακτηριστικών α r (.). Θα µπορούσε φυσικά να χρησιµοποιηθεί ως κριτήριο επιλογής και οποιαδήποτε άλλη από τις µετρικές οµοιότητας που αναφέρθηκαν σε προηγούµενη παράγραφο. Με τη στρατηγική αυτή δεν µπορεί να επιστραφεί ως σύνολο αποτελεσµάτων S R το κενό σύνολο, όπως γίνεται στην περίπτωση όπου η ελεγχόµενη εικόνα δεν αποτελεί αντίγραφο κάποιας εικόνας της βάσης. Η δεύτερη στρατηγική απόφασης είναι γνωστή ως ερωτήµατα περιοχής/ παραθύρου (range/ window queries) και χρησιµοποιείται από τα συστήµατα ανάκτησης εικόνων. Εµπεριέχει ένα κατώφλι οµοιότητας και σύµφωνα µε αυτό επιστρέφεται από το σύστηµα CBIR µόνο το σύνολο των εικόνων των οποίων η τιµή οµοιότητας υπερβαίνει αυτό το όριο. Για την κατανόηση της στρατηγικής αυτής δεχόµαστε ότι τα range queries αποτελούν γειτονιές N(I) στο χώρο των χαρακτηριστικών που 18

πλαισιώνουν το διάνυσµα χαρακτηριστικών x I κάθε εικόνας της βάσης. Το σχήµα των γειτονιών ποικίλει ανάλογα µε τη µετρική οµοιότητας που χρησιµοποιείται: υπερ-παραλληλεπίπεδο, µε χρήση της απόστασης L 1 υπερ-σφαίρα, µε χρήση της απόστασης L 2 υπερ-έλλειψη, για την απόσταση Mahalanobis Υπάρχουν κάποιες παραλλαγές της στρατηγικής range query µε χαρακτηριστικότερες τις εξής: point-based box-based Στην point-based εκδοχή, η εικόνα I q θεωρείται σηµείο στο χώρο των διανυσµάτων. Αν το διάνυσµα x I q της εξεταζόµενης εικόνας διαπιστωθεί ότι ανήκει στις γειτονιές N(I) του διανύσµατος x I της αρχικής τότε επιστρέφεται η I εικόνα ως αντιστοίχηση (όµοια) της I q. Για τη δεύτερη περίπτωση box-based εκτός των γειτονιών N(I) του διανύσµατος x I της αρχικής υπάρχουν και οι γειτονιές N(I q ) του διανύσµατος x I q της εξεταζόµενης εικόνας. Κατά αναλογία µε την εκδοχή point-based, στην box-based πρέπει η γειτονιά N(I q ) να διασταυρωθεί µε έναν αριθµό γειτονιών N(I) ώστε να διαπιστωθεί από το σύστηµα η οµοιότητα των εικόνων I q και I. Σε αντίθεση µε την προηγούµενη στρατηγική, εδώ είναι εφικτή η επιστροφή κενού συνόλου αποτελεσµάτων S R. Η διαφορά των συστηµάτων ανάκτησης εικόνων και ανίχνευσης αντιγράφων έγκειται όχι µόνο στο είδος της στρατηγικής που χρησιµοποιείται για το καθένα αλλά και στον ορισµό των γειτονιών στο χώρο των χαρακτηριστικών. Η διαφορά στην έννοια γειτονιά των εικόνων των δύο συστηµάτων είναι στενά συνδεδεµένη µε τη διαφορετική προσέγγιση του όρου οµοιότητα από το κάθε σύστηµα. Για την περίπτωση των συστηµάτων ανάκτησης εικόνων, CBIR, η οµοιότητα θα έπρεπε ιδανικά να έχει σηµασιολογική διάσταση, υπό την έννοια ότι το ανακτώµενο σύνολο εικόνων θα πρέπει να περιλαµβάνει εικόνες µε σηµασιολογικά ίδιο περιεχόµενο µε την εικόνα ερωτήµατος. Στην πράξη βέβαια το ανακτώµενο σύνολο περιέχει συνήθως εικόνες µε απλές οπτικές οµοιότητες (οµοιότητα χρώµατος, οµοιότητα περιγράµµατος κτλ.). Συµβολίζοντας µε N IR (I) τη γειτονιά χαρακτηριστικών µιας αρχικής εικόνας I που εµπεριέχει εικόνες όµοιες µε την I και µε S(I) τη συνάρτηση-γεννήτρια όλων των 19

σηµασιολογικά (ή στην πράξη οπτικά) παρόµοιων εικόνων µε την I, προκύπτει ότι S( I) NIR( I). Από την άλλη πλευρά για τα συστήµατα ανίχνευσης αντιγράφων, µια εικόνα είναι όµοια µε κάποια άλλη µόνο αν έχει προκύψει από τη δεύτερη µέσω κάποιου µετασχηµατισµού (επίθεσης). Οµοίως µε τον προηγούµενο ορισµό, το N RD (I) αποτελεί τη γειτονιά των χαρακτηριστικών µιας εικόνας I, ενώ R(I) είναι η συνάρτηση παραγωγής όλων των αλλαγµένων εικόνων της I. Ισχύει ότι R( I) NRD( I). Βέβαια η ιδανική περίπτωση είναι η γειτονιά N RD (I) να περιλαµβάνει αποκλειστικά εικόνες που είναι αποτέλεσµα µετασχηµατισµού. υστυχώς στην πράξη εκτός των αλλαγµένων εικόνων εµπεριέχονται στο N RD (I) και οπτικά παρεµφερείς εικόνες. 20

ΚΕΦΑΛΑΙΟ 3 ΠΕΡΙΓΡΑΦΗ ΟΜΙΚΩΝ ΣΤΟΙΧΕΙΩΝ ΤΟΥ ΥΠΟ ΚΑΤΑΣΚΕΥΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ Στο κεφάλαιο αυτό θα παρουσιάσουµε τις βασικές αρχές τριών βασικών δοµικών στοιχείων του συστήµατος ανίχνευσης αντιγράφων σε πολυγωνικές γραµµές. Τα δοµικά αυτά στοιχεία είναι οι περιγραφείς Fourier (Fourier descriptors), τα R-δένδρα (R-trees) και η γραµµική διακριτική ανάλυση (Linear Discriminant Analysis, LDA). 3.1 Γενικός ορισµός των Περιγραφέων Με τον όρο περιγραφείς (descriptors) αναφερόµαστε σε σύνολα αριθµών που παράγονται για να περιγράψουν ένα πολυµεσικό αντικείµενο (εικόνα, βίντεο, ήχο, γραφικά). Το αντικείµενο δεν είναι απαραίτητο να ανακατασκευάζεται πλήρως από τους περιγραφείς. Το σηµαντικό όµως είναι οι περιγραφείς διαφορετικών αντικειµένων να διαφοροποιούνται σε µεγάλο βαθµό, ώστε εντελώς διαφορετικά αντικείµενα να διακρίνονται µεταξύ τους. Αντιθέτως, οι περιγραφείς θα πρέπει να εµφανίζουν µικρή διαφορά για παρόµοια αντικείµενα. υστυχώς, ιδανικός περιγραφέας δεν υπάρχει στην πράξη για το λόγο ότι δεν είναι δυνατός ο ακριβής προσδιορισµός της έννοιας οµοιότητα αντικειµένου. Παρόλα αυτά έχουν γίνει σηµαντικές προσπάθειες προς την κατεύθυνση προσδιορισµού αντικειµένων µέσω των περιγραφέων. Στο κεφάλαιο αυτό θα περιγραφεί µια συγκεκριµένη κατηγορία περιγραφέων για πολυγωνικές γραµµές (οι οποίες αποτελούν και το αντικείµενο αυτής της εργασίας). Αυτοί είναι οι περιγραφείς Fourier (Fourier descriptors) τα πλάτη των οποίων στο εξής θα αποτελούν τα στοιχεία του διανύσµατος των χαρακτηριστικών x I που εξάγονται από τα ψηφιακά δεδοµένα, δηλαδή τις πολυγωνικές γραµµές. 3.1.1 Ορισµός των Fourier Descriptors (FD) Υποθέτουµε ότι παριστούµε µε L µια πολυγωνική γραµµή που αποτελείται από N κορυφές. Αναπαριστούµε µε [x(n), y(n)], n=0,1,...,n-1 τις καρτεσιανές συντεταγµένες κάθε κορυφής και κατασκευάζουµε το µιγαδικό σήµα z(n), όπου z(n)=x(n)+j y(n), n=0,1,...,n-1 µε τυχαία 21

επιλογή της κορυφής εκκίνησης και µε διάσχιση των κορυφών κατά ή αντίθετα προς τη φορά των δεικτών του ρολογιού. Συµβολίζουµε µε Z(k) το µετασχηµατισµό Fourier του µιγαδικού σήµατος z(n): N 1 j2π kn Z( k) = z( n) exp, 0 k N 1 n= 0 N Οι µιγαδικοί συντελεστές Z(k) καλούνται Fourier descriptors της πολυγωνικής γραµµής. 3.1.1.1 Σηµαντικές ιδιότητες των Fourier Descriptors Οι Z(k) συντελεστές γύρω από το σταθερό όρο Z(0) (DC term) περιγράφουν πληροφορία χαµηλής συχνότητας (low-frequency), ενώ οι συντελεστές γύρω από τον όρο Z(Ν/2) έχουν υψηλό συχνοτικό περιεχόµενο (high-frequency). Οι συντελεστές χαµηλής συχνότητας τυπικά αναπαριστούν το γενικό σχήµα του αντικειµένου, ενώ οι λεπτοµέρειες του σχήµατος περιγράφονται από τους όρους υψηλής συχνότητας. 3.1.1.2 Ιδιότητες των Fourier Descriptors σε σχέση µε τους γεωµετρικούς µετασχηµατισµούς της πολυγωνικής γραµµής Στις µαθηµατικές εκφράσεις που ακολουθούν χρησιµοποιείται ο συµβολισµός z '(). για το µιγαδικό σήµα που περιγράφει την πολυγωνική γραµµή µετά το γεωµετρικό µετασχηµατισµό της και Z '(). για τον αντίστοιχο µετασχηµατισµό Fourier. Μετατόπιση (Translation) Η µετατόπιση αντιστοιχεί στην προσθήκη ενός σταθερού παράγοντα z 0 (όπου z 0 = x 0 +j y 0 ) σε όλες τις τιµές x(n)+j y(n). Οι Fourier descriptors µετά από µετατόπιση είναι ίδιοι µε τους αρχικούς. Μόνο ο DC συντελεστής Z(0) υφίσταται τροποποίηση. Όµως ο όρος DC δεν κρύβει πληροφορία σχετική µε το σχήµα αλλά µόνο µε τη θέση του αντικειµένου. Ουσιαστικά ο DC αντιπροσωπεύει το κέντρο βαρύτητας Z 0 = z n ). του σχήµατος ( ( ) ( ) 22

z'( n) = z( n) + z0 ( ) ( ) F N 1 N 1 N 1 j2 πnk / N j2 πnk / N j2 πnk / N ( 0) ( ) 0 ( ) 0δ( ) Z' k = z n+ z e = z ne + z e = Z k + z k n= 0 n= 0 n= 0 όπου µε δ(k) δηλώνεται η συνάρτηση µοναδιαίας ώσης η οποία 0, k 0 ορίζεται ως εξής: δ ( k ) = 1, k = 0 Το πλάτος του µετασχηµατισµού παραµένει αναλλοίωτο αγνοώντας Z ' k = Z k, k 0 τον DC όρο. ηλαδή ισχύει: ( ) ( ) Περιστροφή (Rotation) Στο µιγαδικό χώρο η περιστροφή κατά γωνία φ ως προς το κέντρο του σχήµατος ισοδυναµεί µε πολλαπλασιασµό των αρχικών Fourier descriptors µε τον όρο e jφ. '( ) = ( ) j z n z n e ϕ F j Z '( k) = Z( k) e ϕ Οµοίως µε τη µετατόπιση, το πλάτος του Fourier δεν επηρεάζεται: ( ) = Z( k) Z' k Κλιµάκωση (Scaling) Η κλιµάκωση γίνεται κατά τον ίδιο παράγοντα S τόσο στο σήµα όσο και στο µετασχηµατισµό Fourier. z '( n) = Sz( n) F Z '( k) = SZ( k) Αλλαγή του σηµείου εκκίνησης (Change of traversal starting vertex) Η αλλαγή του σηµείου από το οποίο θα αρχίσει η διάσχιση του περιγράµµατος είναι απλά µετατόπιση του µονοδιάστατου σήµατος z(n) κατά µήκος της n διάστασης. ( ) = z( n n ) z' n 0 Z ' k = Z k e F j 2 π n0k / N ( ) ( ) 23

Όπως φαίνεται από την παραπάνω σχέση πάλι το πλάτος δε µεταβάλλεται. Αντιστροφή της φοράς διάσχισης (Inversion of the traversal direction) Η αντιστροφή της φοράς διάσχισης της πολυγωνικής γραµµής έχει σαν αποτέλεσµα την αντανάκλαση των συντεταγµένων αλλά και των Fourier descriptors. ( ) ( ) F z' n = z N n, n= 0,1,..., N 1 ( ) ( ) Z' k = Z N k, k= 1,2,..., N 1, ενώ για k=0 ισχύει Z '( 0) = Z( 0) Εποµένως το πλάτος µεταβάλλεται ανάλογα: ( ) ( ) ( ) = Z( ) Z' k = Z N k, k= 1,2,..., N 1 Z' 0 0 Καθρεπτισµός/ Αντανάκλαση (mirroring) Με z% ( n) συµβολίζεται ο µιγαδικός συζυγής του σήµατος z(n). ( ) ( ) % F z' n = z n, n= 0,1,..., N 1 ( ) = ( ) =, ενώ για k=0 Z' ( 0) = Z ( 0) Z' k Z N k, k 1,2,..., N 1 Το πλάτος των Fourier descriptors γίνεται: ( ) ( ) ( ) = Z( ) Z' k = Z N k, k= 1,2,..., N 1 Z ' 0 0 Οι παραπάνω ισοδυναµίες για το πλάτος δεν ισχύουν µόνο για αντανάκλαση ως προς τον άξονα x αλλά και ως προς µια αυθαίρετη ευθεία. Ο λόγος είναι ότι η αντανάκλαση ως προς αυθαίρετη γραµµή ισοδυναµεί µε αντανάκλαση, περιστροφή και µετατόπιση ως προς x. Όµως όπως περιγράφηκε προηγουµένως η περιστροφή και η µετατόπιση δεν επιδρούν στο πλάτος των Fourier descriptors. 24

3.1.1.3 Fourier Descriptors µεγαλύτερης διάστασης Οι Fourier descriptors χρησιµοποιούνται και για την περιγραφή σχηµάτων αντικειµένων µεγαλύτερης διάστασης. Το πεδίο της συνάρτησης αυξάνεται από µονοδιάστατο για διδιάστατα σήµατα (εικόνες) σε Ν-1-διάστασης για N-διάστατα σήµατα (εικόνες). Ειδικότερα για τις τριδιάστατες εικόνες χρησιµοποιούνται οι σφαιρικές αρµονικές. 3.2 Ορισµός των R- ένδρων (R-Trees) Τα R-δένδρα προτάθηκαν από τον Antonin Guttman το 1984 [32], ως επέκταση των B-Trees σε n-διαστάσεις. Αποτελούν κύρια δοµή δεικτοδότησης των χωρικών δεδοµένων. Η δοµή δεδοµένων είναι δενδρική και συγκεκριµένα ένα ισοζυγισµένο δέντρο. Τα χωρικά δεδοµένα υποδιαιρούνται ιεραρχικά σε κοντινές συστάδες. Εικόνα 6: Στο πάνω µέρος της εικόνας απεικονίζεται ένα σύνολο 2D ορθογωνίων, ενώ ακριβώς από κάτω το αντίστοιχο R-tree. 25

3.2.1 Βασικά χαρακτηριστικά των R-δένδρων Προσέγγιση της γεωµετρίας αντικειµένων - µε ελάχιστα περιβάλλοντα παραλληλόγραµµα (Minimum Bounding Rectangles MBR). Από το Rectangle προήλθε και η ονοµασία R δένδρα. Τα MBR είναι επίσης γνωστά και ως περιβάλλοντα κουτιά (Bounding Boxes-BB). Ταχεία εκτέλεση ερωτηµάτων (για παράδειγµα µε χρήση της στρατηγικής του κοντινότερου γείτονα) Αποτελούν µια δυναµική δοµή δεδοµένων. Έχουν λιγότερες απαιτήσεις σε χώρο αποθήκευσης συγκριτικά µε άλλες δενδρικές δοµές αναπαράστασης. 3.2.2 Ιδιότητες που πρέπει να πληρούνται από τα R-δένδρα Έστω ότι µε M συµβολίζεται ο µέγιστος αριθµός εισόδων ενός κόµβου, M ενώ µε m δηλώνεται ο ελάχιστος αριθµός. ( 2 m ) 2 Η ρίζα έχει τουλάχιστον δυο παιδιά εκτός και αν είναι φύλλο (τερµατικός/ εξωτερικός κόµβος). Όλοι οι µη τερµατικοί ή εσωτερικοί κόµβοι - εκτός της ρίζας - έχουν από m µέχρι και Μ παιδιά. Όλοι οι εξωτερικοί κόµβοι - εκτός της ρίζας - έχουν από m µέχρι και Μ εισόδους. Όλοι οι εξωτερικοί κόµβοι βρίσκονται στο ίδιο επίπεδο. 3.2.3 Τοµείς εφαρµογής των R-trees Γεωγραφικά συστήµατα πληροφοριών (GIS - Geographical Information Systems) Σχεδίαση CAD/ CAM (Computer - Aided Design/ Computer - Aided Manufacturing) Βάσεις δεδοµένων εικόνων ή πολυµέσων 26

3.3 Γραµµική ιακριτική Ανάλυση (Linear Discriminant Analysis LDA) Η LDA αποτελεί µια από τις δηµοφιλέστερες µεθόδους για τον µετασχηµατισµό δεδοµένων ώστε να είναι καλύτερα διαχωρίσιµα και για ελάττωση της διάστασης των χαρακτηριστικών. Εφαρµόζεται συνήθως αµέσως µετά από την ανάλυση πρωτευουσών συνιστωσών (Principal Component Analysis - PCA). Η LDA είναι επίσης γνωστή και ως: o Fisher s Linear Discriminant Analysis O Fisher την παρουσίασε για πρώτη φορά το 1936 και αρχικά αναπτύχθηκε για το διαχωρισµό δύο κλάσεων. o Fisher - Rao Linear Discriminant Analysis Ο Rao το 1965 επέκτεινε τη µέθοδο για το διαχωρισµό πολλαπλών κλάσεων. 3.3.1 Χρήση της µεθόδου LDA σε διάφορους τοµείς επεξεργασίας της πληροφορίας Μηχανική µάθηση (machine learning) Εξόρρυξη δεδοµένων (data mining) Ανάκτηση πληροφορίας (information retrieval) Αναγνώριση προτύπων (pattern recognition) Επεξεργασία σήµατος (signal processing) 3.3.2 Μελέτη της µεθόδου LDA Το αποτέλεσµα της µεθόδου LDA είναι η εύρεση ενός γραµµικού µετασχηµατισµού W έτσι ώστε να µεγιστοποιείται ο λόγος της µέσης διασποράς µεταξύ κλάσεων προς τη µέση διασπορά εντός της κλάσης (οι όροι αυτοί επεξηγούνται στη συνέχεια). Υποθέτουµε ότι υπάρχουν Ν διανύσµατα δειγµάτων διάστασης n που συµβολίζονται µε x i, καθένα από τα οποία ανήκει σε µια από τις J κλάσεις. Ισχύει η σχέση: ( ), {1,2,..., } g x = j j J, i όπου g(.) είναι η συνάρτηση κατάταξης στην κλάση. 27

Ακολουθεί ο ορισµός κάποιων στατιστικών µεγεθών πριν την εφαρµογή του µετασχηµατισµού W. Ο µέσος όρος (mean) του δείγµατος είναι: x 1 N xi N i = 1 = 1 = Οι µέσοι όροι των δειγµάτων της κλάσης είναι: j i N j g( xi) = j Οι συνδιακυµάνσεις (covariances) των δειγµάτων της κλάσης είναι: ( x x )( x x ) 1 Σ = j i j i j N j g( x) = j i Μέση διασπορά εντός της κλάσης (average within-class variation): S 1 = N Σ N w j j j Μέση διασπορά µεταξύ κλάσεων (average between-class variation): ( )( ) 1 T b = j j j N j S N x x x x Έστω ότι εφαρµόζεται ο γραµµικός µετασχηµατισµός W: W = [ w 1w 2... w m ] Τότε τα παραπάνω µεγέθη τροποποιούνται ανάλογα: T x x Τα νέα διανύσµατα δειγµάτων θα γίνουν: y i = T W xi Ο νέος µέσος όρος του δείγµατος γίνεται: N N 1 T T 1 T y = W xi = W xi W x N = i= 1 N i= 1 Οι νέοι µέσοι όροι των δειγµάτων της κλάσης είναι: 1 T T y = W x = W x j i j N j g( x ) = j i 28

Νέα µέση διασπορά εντός της κλάσης: T 1 1 1 1 N j N j g( xi) j N = j g( xi) = j N j g( xi) = j T T T T Sw= Nj W xi ( W xi) W xi ( W xi) T 1 T = W NjΣ j W= W SwW N j Οµοίως η νέα µέση διασπορά µεταξύ κλάσεων γίνεται: T S = W S W b b Σκοπός της µεθόδου είναι η εύρεση του βέλτιστου µετασχηµατισµού W που µεγιστοποιεί τη συνάρτηση J: ( ) J W T Sb W SbW = = T S W S W w w Ο βέλτιστος πίνακας W αποδεικνύεται ότι είναι αυτός του οποίου τα διανύσµατα στήλης είναι τα ιδιοδιανύσµατα w i που αντιστοιχούν στις µεγαλύτερες ιδιοτιµές του S 1 w ηλαδή ισχύει: 1 Sbwi = λiswwi Sw Sbwi = λiwi S b. x y W S w S S b S w b 29

ΚΕΦΑΛΑΙΟ 4 ΠΡΟΤΕΙΝΟΜΕΝΟ ΣΥΣΤΗΜΑ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ ΣΕ ΠΟΛΥΓΩΝΙΚΕΣ ΓΡΑΜΜΕΣ Το σύστηµα ανίχνευσης αντιγράφων σε πολυγωνικές γραµµές που υλοποιήθηκε αποτελεί µια τροποποίηση του συστήµατος ανίχνευσης αντιγράφων εικόνων που προτάθηκε στο [15]. Οι βασικές διαφορές όπως υπαγορεύονται από τη διαφορετική φύση των σηµάτων (γραµµές έναντι εικόνων) είναι οι εξής: Στο [15] χρησιµοποιούνται χαρακτηριστικά σχετικά µε το χρώµα (χρωµατικό ιστόγραµµα), ενώ στην προτεινόµενη µέθοδο κάθε πολυγωνική γραµµή περιγράφεται από το πλάτος των Fourier descriptors το οποίο όπως αναφέρθηκε προηγουµένως εµφανίζει αµεταβλητότητα σε αρκετούς γεωµετρικούς µετασχηµατισµούς. Για την ακρίβεια δε χρησιµοποιούνται όλοι οι Fourier descriptors (Z[k]) αλλά µόνο αυτοί που βρίσκονται µέσα σε µια περιοχή µέσων συχνοτήτων που το εύρος της προσδιορίζεται από δύο παραµέτρους α και b. [ ] Z k k < an ή k > (1 a) N οι συντελεστές απορρίπτονται, εαν = ή bn < k < (1 b) N οι συντελεστές παραµ ένουν, σε κάθε άλλη περίπτωση όπου µε N δηλώνεται το σύνολο των συντελεστών Z[k]. Οι επιθέσεις τις οποίες πρέπει να αντιµετωπίζει το σύστηµα στην περίπτωση των πολυγωνικών γραµµών είναι προφανώς διαφορετικές από ότι στην περίπτωση των εικόνων. Στην περίπτωση των γραµµών οι επιθέσεις αυτές πρέπει να συµπεριλαµβάνουν την προσθήκη θορύβου, την περιστροφή, τη µετατόπιση, την κλιµάκωση, την εξοµάλυνση της καµπύλης, την υποδειγµατοληψία, την υπερδειγµατοληψία κλπ. Οι πολυγωνικές γραµµές δεν έχουν το ίδιο µήκος και γι αυτό θα πρέπει να ληφθεί µέριµνα εξίσωσης του αριθµού των στοιχείων του χαρακτηριστικού διανύσµατος (Fourier descriptors). Για το σκοπό αυτό δοκιµάστηκαν είτε προσθήκη µηδενικών στο σήµα είτε υπο/υπερδειγµατοληψία στις γραµµές, ώστε να αποκτήσουν όλες το ίδιο µήκος. 30

4.1 Φάσεις επεξεργασίας του συστήµατος ιακρίνονται δυο ανεξάρτητες φάσεις επεξεργασίας: A. Η φάση της κατασκευής και οργάνωσης της βάσης δεδοµένων, όπου εδώ τα δεδοµένα είναι τα ψηφιακά αποτυπώµατα (χαρακτηριστικά) των πολυγωνικών γραµµών. B. Η φάση της κανονικής λειτουργίας του συστήµατος ανίχνευσης αντιγράφων. 4.1.1 Α Φάση Για την προσθήκη µιας πολυγωνικής γραµµής στη βάση δεδοµένων, αρχικά απαιτείται να υποβληθεί η γραµµή σε ένα σύνολο καθορισµένων µετασχηµατισµών οι οποίοι θα χρησιµοποιηθούν στο στάδιο της εκπαίδευσης του συστήµατος. Η διαδικασία αυτή είναι πολύ σηµαντική για το σύστηµα γιατί µέσω αυτών των τροποποιήσεων πετυχαίνεται η προσοµοίωση όλων των δυνατών επιθέσεων που µπορεί να υποστεί µια γραµµή. Επιπλέον πραγµατοποιείται κανονικοποίηση δηλαδή κατάλληλη κλιµάκωση και µετατόπιση στους άξονες, ώστε τα σήµατα (δηλαδή οι πολυγωνικές γραµµές) να µετατραπούν σε αντίστοιχα σήµατα µε µέσο όρο µ=0 και τυπική απόκλιση σ=1. Με τον τρόπο αυτό έρχονται όλες οι γραµµές στις ίδιες διαστάσεις. Έπειτα γίνεται η διαδικασία της προσαρµογής των σηµείων των γραµµών ώστε να γίνουν όλες του ίδιου µήκους. Ακολουθεί ο υπολογισµός των χαρακτηριστικών διανυσµάτων των γραµµών - αντιγράφων που είναι αποτέλεσµα των επιθέσεων. Με αυτά τα διανύσµατα καθορίζεται το διάνυσµα της έκτασης (extent vector) της γειτονιάς της πρωτότυπης πολυγωνικής γραµµής. Έτσι λοιπόν, το χαρακτηριστικό διάνυσµα της πρωτότυπης µαζί µε το διάνυσµα έκτασης της γειτονιάς (δηλαδή του Bounding Box που περιλαµβάνει τις επιθέσεις της εκπαίδευσης) εισέρχονται στη δοµή του R-δένδρου που παρουσιάστηκε σε προηγούµενη ενότητα. Το αποτέλεσµα είναι η δεικτοδότηση των πολυγωνικών γραµµών µέσα σε R-δένδρο. Η εικόνα 7 που παρατίθεται είναι σχηµατική απεικόνιση της πρώτης φάσης. 31

Εικόνα 7: Κατασκευή και οργάνωση της βάσης των ψηφιακών αποτυπωµάτων. 4.1.2 Β Φάση Στην αρχή της δεύτερης φάσης υπολογίζεται το χαρακτηριστικό διάνυσµα (το πλάτος των Fourier descriptors) της πολυγωνικής γραµµής της οποίας η νοµιµότητα εξετάζεται από το σύστηµα (αν αποτελεί αντίγραφο ή όχι µιας γραµµής της βάσης). Στη συνέχεια αυτό το διάνυσµα υποβάλλεται ως ερώτηµα στο R-δένδρο. Το αποτέλεσµα που εξάγεται µετά τη διάσχιση του δένδρου είναι η επιστροφή ενός συνόλου το οποίο µπορεί να είναι: µη κενό σύνολο υποψήφιων γραµµών της βάσης εκ των οποίων η µία ενδεχοµένως να αποτελεί την πρωτότυπη γραµµή που συσχετίζεται µε την υπό εξέταση γραµµή. Το σύνολο των υποψήφιων γραµµών περιλαµβάνει εκείνες στις γειτονιές των οποίων ανήκει το χαρακτηριστικό διάνυσµα της υπό εξέταση γραµµής. Συνήθως το σύνολο αυτό είναι µικρό σε αριθµό και για την εύρεση µια µοναδικής γραµµής απαιτείται ένα επιπρόσθετο βήµα κατάταξης µετά και την εφαρµογή της γραµµικής διακριτικής ανάλυσης (Linear Discriminant Analysis, LDA [34], [35], [36]) που αναλύθηκε πιο πάνω. Στην ιδανικότερη περίπτωση το σύνολο περιέχει µια µοναδική γραµµή ως την πρωτότυπη. κενό σύνολο για την περίπτωση που η υπό εξέταση γραµµή δεν είναι αντίγραφο της βάσης. ηλαδή το χαρακτηριστικό διάνυσµα της γραµµής που υποβάλλεται ως ερώτηµα δεν ανήκει στη γειτονιά N(I) κάποιας γραµµής της βάσης. 32

Εικόνα 8: Στάδιο ανίχνευσης των αντιγράφων. Στην παραπάνω εικόνα και πιο συγκεκριµένα στην πρώτη κατάταξη των υποψήφιων γραµµών που επιστρέφονται από το R-δένδρο, διακρίνονται κάποιες τάξεις που αναπαρίστανται από κύκλους ή ελλείψεις. Η κάθε κλάση περιλαµβάνει: το χαρακτηριστικό διάνυσµα της κάθε υποψήφιας (αρχικής) γραµµής τα χαρακτηριστικά διανύσµατα των αλλοιωµένων γραµµών που είναι αποτέλεσµα των µετασχηµατισµών της πρώτης φάσης. Για να αποφανθεί ξεκάθαρα το σύστηµα της ανίχνευσης αντιγράφων για το ποια από τις υποψήφιες γραµµές είναι η σωστή που σχετίζεται µε την υπό εξέταση, επιχειρείται και µια δεύτερη κατάταξη που όπως αναφέρθηκε νωρίτερα στηρίζεται στη γραµµική διακριτική ανάλυση (LDA). Πιο συγκεκριµένα, εφαρµόζεται LDA στις κλάσεις των πολυγωνικών γραµµών που επιστρέφονται από το R-δένδρο και στο νέο µετασχηµατισµένο χώρο βρίσκεται η πολυγωνική γραµµή της οποίας το χαρακτηριστικό διάνυσµα είναι πιο κοντά σε αυτό της υπό εξέταση καµπύλης. Εάν η απόστασή τους είναι µικρότερη από ένα κατώφλι, τότε αποφαινόµαστε ότι η πολυγωνική γραµµή είναι αντίγραφο της γραµµής της βάσης που επιλέχθηκε. Σε διαφορετική περίπτωση θεωρούµε ότι η πολυγωνική γραµµή δεν αντιστοιχεί σε καµία πολυγωνική γραµµή της βάσης. 33

ΚΕΦΑΛΑΙΟ 5 ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΝΙΧΝΕΥΣΗΣ ΑΝΤΙΓΡΑΦΩΝ ΣΕ ΠΟΛΥΓΩΝΙΚΕΣ ΓΡΑΜΜΕΣ 5.1 Απαιτήσεις του συστήµατος Η εφαρµογή λειτουργεί σε λειτουργικό σύστηµα WINDOWS µε εγκατεστηµένο το MATLAB Version 7.5.0.342 (R2007b) που περιλαµβάνει την έκδοση 6.0 του Image Processing Toolbox. Η συγκεκριµένη έκδοση του εργαλείου αυτού εµπεριέχει ένα µεγάλο σύνολο συναρτήσεων για την επεξεργασία εικόνων. Επιπλέον για ένα µέρος της εφαρµογής χρησιµοποιείται το Microsoft Visual Studio 6.0 (και συγκεκριµένα ο compiler της C++ 6.0). Θα πρέπει απαραίτητα να είναι εγκατεστηµένη και η OpenCV. 5.2 Συστατικά µέρη που απαρτίζουν το σύστηµα Η υλοποίηση µπορεί να διασπαστεί σε τρία µέρη τα οποία εκτελούνται µέσα από τα προαναφερθέντα προγραµµατιστικά περιβάλλοντα. Παρακάτω περιγράφονται οι κλήσεις των συναρτήσεων που το κάθε µέρος περιλαµβάνει. Κάθε συνάρτηση παρουσιάζεται µε ένα παράδειγµα χρήσης των αντίστοιχων ορισµάτων της. 5.2.1 Μέρος 1 Περιβάλλον του Matlab Αρχικά εκτελείται η συνάρτηση: contour_extraction ( ) η οποία περιλαµβάνει ένα σύνολο συναρτήσεων που εκτελούνται διαδοχικά ως εξής: gif2txt_images ('D:\matlab2\original_images\','D:\matlab2\original0\') πρώτο όρισµα το µονοπάτι που οδηγεί στο φάκελο µε τις αρχικές εικόνες σε µορφή gif 34

δεύτερο όρισµα το µονοπάτι που οδηγεί στο φάκελο όπου θα αποθηκευτούν τα αρχεία txt που το καθένα περιλαµβάνει τα σηµεία του περιγράµµατος των απεικονιζόµενων αντικειµένων (δηλαδή τις πολυγωνικές γραµµές). Τα εξαγόµενα αρχεία αποθηκεύονται στο φάκελο υπό το όνοµα filename-traceboundary. Συγκεκριµένα η συνάρτηση περιλαµβάνει κάποιες διαδοχικές κλήσεις. Για κάθε εικόνα ξεχωριστά καλείται η traceboundary(.) η οποία µε τη σειρά της καλεί την έτοιµη συνάρτηση του matlab (build-in function) imcontour(.) που περιέχεται στο Image Processing Toolbox. Η τελευταία είναι αρµόδια για την εξαγωγή ενός πίνακα µε τα σηµεία του περιγράµµατος (ζεύγη συντεταγµένων της µορφής (x, y)). subsampling_all_images('d:\matlab2\original0\','d:\matlab2\original\') πρώτο όρισµα το µονοπάτι που οδηγεί στο φάκελο που περιέχει το σύνολο των πολυγωνικών γραµµών δεύτερο όρισµα το µονοπάτι που οδηγεί στο φάκελο όπου αποθηκεύονται τα αρχεία txt µετά την υποδειγµατοληψία σηµείων µε το όνοµα filename-traceboundary-ss_3. Στο εξής ο φάκελος αυτός θα αποτελεί το φάκελο των πολυγωνικών γραµµών της βάσης. Η συνάρτηση καλεί την subsampling_image µε την οποία γίνεται υποδειγµατοληψία µε συντελεστή 3 στα σηµεία της κάθε πολυγωνικής γραµµής χωριστά, ώστε οι γραµµές να έχουν µικρότερο αριθµό σηµείων. Η contour_extraction ( ) εκτελείται µόνο µια φορά, ενώ ο αριθµός των εκτελέσεων των υπόλοιπων συναρτήσεων εξαρτάται από τα πειράµατα που επιθυµούµε να υλοποιήσουµε για το προτεινόµενο σύστηµα της ανίχνευσης αντιγράφων. Έπειτα εκτελείται η συνάρτηση: [original, manipulated, query] = run_functions_part1 ( ) που περιέχει τις παρακάτω κλήσεις συναρτήσεων: produce_attacks('d:\matlab2\original\','d:\matlab2\train\') πρώτο όρισµα το µονοπάτι που οδηγεί στο φάκελο που περιέχει το σύνολο των πολυγωνικών γραµµών της βάσης δεύτερο όρισµα το µονοπάτι που οδηγεί στο φάκελο όπου εξάγονται τα αρχεία και που αποτελεί το φάκελο των επιθέσεων της εκπαίδευσης. 35

Στο στάδιο αυτό πραγµατοποιούνται 10 επιθέσεις/µετασχηµατισµοί που χρησιµοποιούνται στη φάση της εκπαίδευσης και ειδικότερα: 1. φίλτρο κινούµενου µέσου (moving-average-filter) µε παράθυρο 3 2.»»»»» 5 3.»»»»» 7 4. φίλτρο µεσαίου (median-filter) µε παράθυρο 3 5.»»»» 5 6.»»»» 7 7. subsampling κατά συντελεστή 2 8.»»» 3 9. supersampling κατά συντελεστή 2 10.»»» 3 Το φίλτρο κινούµενου µέσου υλοποιείται µέσω της συνάρτησης: filtering('d:\matlab2\original\',filename,'d:\matlab2\train\', window_width) η οποία περιέχει την κλήση της moving_average( signal,window_width) Το signal δηλώνει το εισαγόµενο σήµα που φιλτράρεται, δηλαδή την πολυγωνική γραµµή. Ανάλογα µε την τιµή της παραµέτρου window_width εκτελείται το φίλτρο µε το αντίστοιχο πλάτος παραθύρου. Το φίλτρο µεσαίου υλοποιείται µέσω της συνάρτησης: filtering2('d:\matlab2\original\',filename,'d:\matlab2\train\',order), η οποία οµοίως µε την προηγούµενη εκτελείται µε παράθυρο που ορίζεται από την τιµή της παραµέτρου order. Για την υπερδειγµατοληψία και την υποδειγµατοληψία έχουν χρησιµοποιηθεί οι συναρτήσεις supersampling('d:\matlab2\original\',filename,'d:\matlab2\train\',step) και subsampling('d:\matlab2\original\',filename,'d:\matlab2\train\',step) αντίστοιχα µε κατάλληλους συντελεστές. Η ονοµασία των παραγόµενων αρχείων είναι ανάλογη µε τη συνάρτηση που χρησιµοποιήθηκε στην εκάστοτε επίθεση. ηλαδή: filename-traceboundary-ss_3-moving-average-filter_w, µε w = 3, 5, 7 filename-traceboundary-ss_3-median-filter_w, µε w = 3, 5, 7 filename-traceboundary-ss_3-subsampling_s, µε s = 2, 3 filename-traceboundary-ss_3-supersampling_s, µε s = 2, 3 36

ιακρίνονται οι εξής περιπτώσεις των υπό εξέταση πολυγωνικών γραµµών (queries): a) Οι πολυγωνικές γραµµές της βάσης ως queries. b) Οι πολυγωνικές γραµµές της βάσης δέχονται διάφορα είδη επιθέσεων, δηλαδή επιθέσεις που χρησιµοποιήθηκαν στην εκπαίδευση αλλά και άλλες που δε χρησιµοποιήθηκαν. Αυτές οι µετασχηµατισµένες πολυγωνικές γραµµές τίθενται ως queries. Οι επιθέσεις που πραγµατοποιούνται στο στάδιο αυτό είναι συνολικά 20 για τη συγκεκριµένη εφαρµογή και είναι οι εξής: 1. µετατόπιση (translation) κατά x=2, y=3 2. περιστροφή (rotation) κατά 45º µε κέντρο το x=0, y=0 3. κλιµάκωση (scaling) (x=2, y=1.5) µε κέντρο το x=0, y=0 4.» (x=1.5, y=2)» 5.» (x=0.5, y=1)» 6.» (x=1, y=0.5)» 7. αλλαγή του σηµείου εκκίνησης (change starting vertex) µε σηµείο νέας εκκίνησης το 50οστό σηµείο της αρχικής καµπύλης. 8. φίλτρο κινούµενου µέσου µε παράθυρο 3 9.»»»» 5 10.»»»» 7 11. φίλτρο µεσαίου µε παράθυρο 3 12.»»» 5 13.»»» 7 14. supersampling κατά συντελεστή 2 15.»»» 3 16. subsampling κατά συντελεστή 2 17.»»» 3 18. gaussian_noise µε mean= 0 & variance= 1 19.» mean= 0 & variance= 1.5 20.» mean= 0 & variance= 2 Οι επιθέσεις αυτές εκτελούνται µέσω της συνάρτησης: produce_attacks_query('d:\matlab2\original\','d:\matlab2\query\') πρώτο όρισµα το µονοπάτι που οδηγεί στο φάκελο που περιέχει το σύνολο των πολυγωνικών γραµµών της βάσης δεύτερο όρισµα το µονοπάτι που οδηγεί στο φάκελο όπου εξάγονται τα αρχεία µετά τις επιθέσεις και που αποτελεί το φάκελο των «ερωτηµάτων», δηλαδή των υπό εξέταση γραµµών. 37

Όπως διακρίνεται από τα παραπάνω περιλαµβάνονται οι ίδιες επιθέσεις που χρησιµοποιήθηκαν στην εκπαίδευση αλλά και επιπλέον που δεν χρησιµοποιήθηκαν και οι οποίες είναι: Η µετατόπιση που υλοποιείται µέσω της: translation('d:\matlab2\original\',filename, 'D:\matlab2\query\',tx,ty) όπου οι παράµετροι tx, ty ορίζουν τις µετατοπίσεις στον οριζόντιο και κάθετο άξονα αντίστοιχα. Η περιστροφή που εφαρµόζεται από τη συνάρτηση: rotation('d:\matlab2\original\',filename,'d:\matlab2\query\',angle, x_center,y_center) όπου οι τρεις τελευταίες παράµετροι δηλώνουν τη γωνία και το κέντρο της περιστροφής. Η κλιµάκωση που εκτελείται από την: scaling('d:\matlab2\original\',filename,'d:\matlab2\query\',sx,sy,x_center, y_center) Τα sx, sy αποτελούν τους συντελεστές κλιµάκωσης µε κέντρο το (x_center,y_center). Η αλλαγή του σηµείου εκκίνησης της διάσχισης που γίνεται από τη συνάρτηση: starting_vertex('d:\matlab2\original\',filename,'d:\matlab2\query\',mo) µε το mo να δηλώνει το σηµείο της νέας αρχής. Η προσθήκη θορύβου (gaussian noise) γίνεται µε: add_noise ('D:\matlab2\original\', filename,'d:\matlab2\query\', mean, variance) Η συνάρτηση αυτή αντιστοιχεί σε τυχαία µετατόπιση όλων των σηµείων του περιγράµµατος βάσει της γεννήτριας τυχαίων αριθµών random('normal',mean,variance) που χρησιµοποιεί κανονική κατανοµή µέσου όρου τιµής mean και διασποράς τιµής variance. Παρόλο που οι υπόλοιπες επιθέσεις είναι ίδιες µε αυτές της εκπαίδευσης και επεξηγήθηκαν νωρίτερα, πρέπει να διευκρινιστεί ότι µε την κλήση της produce_attacks_query('d:\matlab2\original\','d:\matlab2\query\') διαµορφώνεται αναλόγως το τρίτο όρισµα που δέχονται. ηλαδή γίνεται 'D:\matlab2\query\' και όχι 'D:\matlab2\train\' όπως στην produce_attacks('d:\matlab2\original\','d:\matlab2\train\'). 38

Τα ονόµατα των αρχείων που παράγονται έχουν ως εξής: filename-traceboundary-ss_3-gaussian_noise_m_v, µε m=0 & v=1, 1.5, 2 filename-traceboundary-ss_3-rotation filename-traceboundary-ss_3-scaling_sx_sy, µε (sx,sy)= (2, 1.5),(1.5, 2) (0.5, 1),(1, 0.5) filename-traceboundary-ss_3-translation_tx_ty, µε tx=2, ty=3 filename-traceboundary-ss_3-starting-vertex_ mo, µε mo=50 c) Οι πολυγωνικές γραµµές που δεν ανήκουν στη βάση ως queries. Σε αυτή την περίπτωση κατά αναλογία µε τα δύο βήµατα της contour_extraction (.) τα οποία αφορούν το αρχικό σύνολο εικόνων (φάκελος in_images) εκτελείται η εξής συνάρτηση: gif2txt_images ('D:\matlab2\query_images\','D:\matlab2\query0\'). Η παραπάνω δέχεται ως πρώτο όρισµα το φάκελο µε τις εικόνες που δεν ανήκουν στη βάση. Ακολούθως εκτελείται η συνάρτηση: subsampling_all_images('d:\matlab2\query0\','d:\matlab2\query\') της οποίας τα αποτελέσµατα αποθηκεύονται στο φάκελο του δεύτερου ορίσµατος. Οι δύο προηγούµενες συναρτήσεις µπορούν να συµπεριληφθούν στην contour_extraction (.) ως τρίτο και τέταρτο βήµα αντίστοιχα. Στο σηµείο αυτό πρέπει να διευκρινιστεί ότι έγιναν τρεις διαφορετικές δοκιµές ανάλογα µε την κάθε κατηγορία queries που αναφέρθηκαν πιο πριν. Οπότε οι επόµενες εντολές που αφορούν τα queries εκτελούνται και για τις τρεις κατηγορίες ξεχωριστά σε κάθε δοκιµή. normalization('d:\matlab2\original\','d:\matlab2\original2\') normalization('d:\matlab2\train\','d:\matlab2\train2\') normalization('d:\matlab2\query\','d:\matlab2\query2\') Η παραπάνω συνάρτηση είναι υπεύθυνη για την κανονικοποίηση. Η πρώτη παράµετρος δηλώνει το φάκελο εισόδου πριν την κανονικοποίηση, ενώ η δεύτερη το φάκελο εξόδου µετά την εφαρµογή της. Τα ονόµατα των αρχείων τροποποιούνται µε την προσθήκη του new- ως πρόθεµα σε κάθε παραγόµενο αρχείο. resample_images('d:\matlab2\original2\','d:\matlab2\original3\') resample_images('d:\matlab2\train2\','d:\matlab2\train3\') resample_images('d:\matlab2\query2\','d:\matlab2\query3\') 39

Με την κλήση της παραπάνω συνάρτησης γίνεται υπερδειγµατοληψία ή υποδειγµατοληψία σηµείων σε όλα τα αρχεία µε τις πολυγωνικές γραµµές, ανάλογα µε το πλήθος των σηµείων της καθεµιάς, ώστε όλες να αποκτήσουν ένα προκαθορισµένο µήκος. Η πρώτη παράµετρος δηλώνει το φάκελο εισόδου των αρχείων µε τις γραµµές πριν αυτές αποκτήσουν το ίδιο µήκος, ενώ η δεύτερη το φάκελο εξόδου των αρχείων µετά την εξίσωση στον αριθµό των σηµείων. Τα ονόµατα των αρχείων στους εξαγόµενους φακέλους παραµένουν ίδια. Μόνο το µέγεθός τους προσαρµόζεται κατάλληλα. [original]=feature_extraction('d:\matlab2\original3\','original',0.1,0.3) [manipulated]=feature_extraction('d:\matlab2\train3\','manipulated',0. 1,0.3) [query]= feature_extraction ('D:\matlab2\query3\','query',0.1,0.3) Με την feature_extraction(.) γίνεται εξαγωγή των χαρακτηριστικών που όπως έχει ήδη αναφερθεί είναι τα πλάτη των Fourier descriptors. Όπως αναφέρθηκε στο τέταρτο κεφάλαιο χρησιµοποιούνται µόνο οι Fourier descriptors που ανήκουν σε µια περιοχή µέσων συχνοτήτων. Το εύρος της περιοχής αυτής ρυθµίζεται από τις δύο τελευταίες παραµέτρους της feature_extraction (όπου εδώ είναι a=0.1 & b=0.3). Το µήκος του χαρακτηριστικού διανύσµατος (αποτύπωµα) που χρησιµοποιείται τελικά είναι 282 πλάτη. Οι πίνακες original, manipulated, query περιέχουν τα χαρακτηριστικά για τις αρχικές, τις αλλαγµένες (µετά από τις επιθέσεις της εκπαίδευσης) και για τις υπό εξέταση εικόνες αντίστοιχα. subsampling_features(original,'original',1) εξαγωγή του αρχείου IndexingModuleoriginal-ss_1 subsampling_features (manipulated,'manipulated',1) >> >> >> IndexingModulemanipulated-ss_1 subsampling_features (query,'query',1) >> >> >> IndexingModulequery-ss_1 Η συγκεκριµένη υποδειγµατοληψία (όπου ο συντελεστής της υποδειγµατοληψίας είναι το τρίτο όρισµα) αφορά τα χαρακτηριστικά (και όχι τα σηµεία όπως στο δεύτερο στάδιο του πρώτου µέρους του συστήµατος) και γίνεται γιατί πρέπει ο αριθµός των χαρακτηριστικών να είναι µικρότερος από το σύνολο των αρχικών εικόνων (οι οποίες είναι 450). Στη συγκεκριµένη δοκιµή της εφαρµογής δε χρειάστηκε να επιλεγεί υποδειγµατοληψία γιατί ικανοποιείται ο παραπάνω περιορισµός (282<450). Κατά συνέπεια η τιµή του τρίτου ορίσµατος είναι η µονάδα. 40

5.2.2 Μέρος 2 Περιβάλλον Microsoft Visual Studio Τα αρχεία IndexingModule-filename που εξάγονται από το πρώτο µέρος περνούν σαν παράµετροι στο RtreeIndex.cpp. Η εκτέλεσή του επιστρέφει τα αποτελέσµατα µιας πρώτης κατάταξης των εικόνων στο αρχείο rtree_result. Οι συναρτήσεις που εκτελούνται στο περιβάλλον Microsoft Visual Studio C++ είναι οι παρακάτω: 1) int BuildIndexingStructure(char* StructureName, char* ReferenceFts, char* TrainFts, int ireferencetrainratio, int inumofdims, double dradiousregulator, bool TrainingFLAG); Η συνάρτηση BuildIndexingStructure (.) κατασκευάζει τη δοµή του R-δένδρου. έχεται µε τη σειρά τα ακόλουθα ορίσµατα: το όνοµα της δοµής του R-δένδρου, το αρχείο µε τα χαρακτηριστικά διανύσµατα των γραµµών της βάσης, το αρχείο µε τα χαρακτηριστικά διανύσµατα των µετασχηµατισµένων γραµµών της εκπαίδευσης (τα δύο τελευταία αρχεία εξάγονται από το πρώτο µέρος), τον αριθµό των επιθέσεων της εκπαίδευσης για κάθε πολυγωνική γραµµή, το µήκος των χαρακτηριστικών διανυσµάτων (δηλαδή τον αριθµό των διαστάσεων). Ως παράµετρο dradiousregulator δέχεται την τιµή 1 για κανονική εκπαίδευση. Το TrainingFLAG καθορίζει αν θα γίνει εκπαίδευση ή θα χρησιµοποιηθεί σταθερή τιµή για τη δηµιουργία των γειτονιών (1 εκπαίδευση, 0 σταθερή τιµή). Ένα παράδειγµα χρήσης των ορισµάτων της (µε τη σειρά που παρουσιάστηκαν) είναι: "treeindexnew","indexingmoduleoriginal-ss_1.txt", "IndexingModulemanipulated-ss_1.txt", "10", "282", "1", "1" 2) int BatchSearchIndexStructure(char* StructureName, char* QueryFts, char* ResultFile, int inumofdims,double dquerybbradius); Η συνάρτηση BatchSearchIndexStructure (.) επιστρέφει τις αντιστοιχήσεις των «ερωτηµάτων» της βάσης σύµφωνα µε τη δοµή της δεικτοδότησης (R-δένδρο). Η σειρά των ορισµάτων της είναι: το όνοµα της δοµής του R-δένδρου, το αρχείο µε τα χαρακτηριστικά διανύσµατα των υπό εξέταση γραµµών (έχει εξαχθεί από το πρώτο µέρος της εφαρµογής), το όνοµα του αρχείου αποτελεσµάτων, ο αριθµός των διαστάσεων και η παράµετρος dquerybbradius που καθορίζει το περιβάλλον κουτί (Bounding Box) γύρω από το «ερώτηµα» (αν είναι 0 point-based query, αλλιώς box-based query, βλέπε παράγραφο 2.2.2.2) 41

Για το συγκεκριµένο παράδειγµα η συνάρτηση δέχεται τα ορίσµατα: "treeindexnew","indexingmodulequery-ss_1.txt","rtree_result.txt", "282","0.00001" Η λύση αντιστοίχηση που παράγεται για την κάθε εισαγόµενη υπό εξέταση (query) πολυγωνική γραµµή δεν είναι µοναδική, αλλά ενδεχοµένως να υπάρχει ένα σύνολο υποψήφιων λύσεων για την καθεµιά. Ο λόγος είναι ότι στο χώρο των χαρακτηριστικών υπάρχουν οι κλάσεις των χαρακτηριστικών της κάθε υποψήφιας γραµµής οι οποίες µπορεί να αλληλοεπικαλύπτονται (ο ορισµός της έννοιας «κλάση» δόθηκε σε προηγούµενη ενότητα). Η επικάλυψη αυτή γίνεται εµφανής στα µη µοναδικά αποτελέσµατα κάθε γραµµής του rtree_result. Στο αρχείο αυτό η κάθε γραµµή αντιστοιχεί σε µια query γραµµή, ενώ οι αριθµοί που εµφανίζονται δηλώνουν τον αριθµό της δεικτοδότησης των υποψήφιων γραµµών της βάσης. Αν ο αριθµός είναι το µηδέν τότε δεν υπάρχει αντιστοίχηση µε καµία γραµµή και εποµένως η εξεταζόµενη γραµµή δεν αποτελεί αντίγραφο. Άρα το στάδιο αυτό είναι προπαρασκευαστικό στάδιο εύρεσης υποψήφιων λύσεων που ολοκληρώνεται µε το τελευταίο µέρος του συστήµατος και την επιστροφή µοναδικής λύσης. 5.2.3 Μέρος 3 Επιστροφή στο περιβάλλον του Matlab Ακολουθεί η εκτέλεση της δεύτερης συνάρτησης του matlab: [table,lda_results,dim,querytable,size,total_falses,false_array]= run_functions_part2 (original, manipulated, query) η οποία εκτελεί µαζικά τις ακόλουθες συναρτήσεις: [table]= create_matrix('rtree_result') Η συνάρτηση αυτή χρησιµεύει για να περαστούν τα αποτελέσµατα του αρχείου rtree_result σε πίνακα του matlab µε το όνοµα table. [LDA_Results, dim]= apply_lda(original, manipulated, query, table) Τα ορίσµατα original, manipulated, query, table είναι οι πίνακες του χώρου εργασίας (workspace) του matlab που επιστρέφονται από τα προηγούµενα βήµατα. Οι πίνακες αυτοί αποτελούν τις εισόδους της συνάρτησης apply_lda(.) που υλοποιεί τη γραµµική διακριτική ανάλυση (LDA). Μέσω της LDA αναδιαµορφώνεται ο χώρος των χαρακτηριστικών µε αναπροσαρµογή των κλάσεων των εικόνων έτσι ώστε να µην υπάρχει αλληλοεπικάλυψη σε τόσο µεγάλο βαθµό. 42

Το LDA_Results είναι ο πίνακας µε τα τελικά µοναδικά, για κάθε πολυγωνική γραµµή, αποτελέσµατα της αντιστοίχησης. Για την κατασκευή του πίνακα QueryTable που περιέχει τα σωστά ids των ελεγχόµενων γραµµών, δηλαδή αυτά που θα επιστρέφονταν στην ιδανική περίπτωση που δεν υπάρχουν λάθη αντιστοίχησης διακρίνονται οι εξής περιπτώσεις: Όταν οι πολυγωνικές γραµµές της βάσης τίθενται ως queries εκτελείται η παρακάτω συνάρτηση κατασκευής του πίνακα: [QueryTable]=real_ids (450,1) Η real_ids επιστρέφει τον πίνακα QueryTable που περιέχει τα στοιχεία µε τιµές από το 1 έως το 450 (δεδοµένου ότι οι εικόνες της βάσης είναι 450) µε βήµα 1. ηλαδή 1, 2, 3, 4,..., 449, 450. Όταν οι πολυγωνικές γραµµές της βάσης µετά από διάφορες επιθέσεις τίθενται ως queries εκτελείται η: [QueryTable]=real_ids (450,20) Το αποτέλεσµα της παραπάνω κλήσης είναι η επιστροφή του QueryTable µε στοιχεία τιµών από το 1 έως το 450 και µε κάθε τιµή να επαναλαµβάνεται 20 φορές, όπου το 20 δηλώνει τον αριθµό των επιθέσεων που δέχονται οι εξεταζόµενες γραµµές. ηλαδή 1,1,...,1,1, 14243 2, 14243 2,..., 2, 2,..., 450, 144424443 450,..., 450, 450. 20 ϕορές 20 ϕορές 20 ϕορές Όταν οι πολυγωνικές γραµµές που είναι εκτός βάσης τίθενται ως queries εκτελείται η: [QueryTable]=zero_array (198) Το αποτέλεσµα της συνάρτησης είναι η επιστροφή ενός πίνακα QueryTable µε 198 µηδενικά. Εδώ τα µηδενικά δηλώνουν ότι η πολυγωνική γραµµή δε θα πρέπει να αποτελεί αντίγραφο της βάσης. 43

[size, total_falses]=evaluate_false(lda_results, QueryTable) Η evaluate_false υπολογίζει τα λάθη (µεταβλητή total_falses) που επιστρέφονται για το σύνολο των πολυγωνικών γραµµών. Για την περίπτωση που οι γραµµές που εξετάζονται είναι εκτός βάσης, η total_falses αποτελεί την εσφαλένη αποδοχή. Η µεταβλητή size δηλώνει το µέγεθος του πίνακα LDA_Results. [false_array]=evaluate_false_array(lda_results,querytable) Ο πίνακας false_array περιέχει το σύνολο των λαθών που µπορούν να προκύψουν για την περίπτωση που τα queries είναι είτε οι µετασχηµατισµένες πολυγωνικές γραµµές της βάσης (µετά τις 20 επιθέσεις που περιγράφηκαν πριν) είτε οι ίδιες οι γραµµές της βάσης. Η πρώτη στήλη του πίνακα είναι η εσφαλµένη απόρριψη (FN), η δεύτερη είναι η εσφαλµένη κατάταξη (MC), ενώ η τρίτη είναι το άθροισµά τους. Η κάθε γραµµή του πίνακα αντιστοιχεί σε µια από τις 20 επιθέσεις. Η σειρά των επιθέσεων φαίνεται στους πίνακες των πειραµατικών αποτελεσµάτων στην ενότητα 5.3. ImNames('D:\matlab2\original3\','original3') ImNames('D:\matlab2\train3\','manipulated3') ImNames('D:\matlab2\query3\','query3') Η εκτέλεση της παραπάνω συνάρτησης παραθέτει σε αρχεία τα ονόµατα των εικόνων, ώστε να είναι εφικτή η εύρεση του ονόµατος µιας εικόνας αντί του id που την αντιπροσωπεύει. 5.3 Πειραµατικά αποτελέσµατα Η βάση των πολυγωνικών γραµµών που χρησιµοποιήθηκαν, προέρχεται από εικόνες που χρησιµοποιήθηκαν στο Core Experiment CE-Shape-1 του προτύπου MPEG-7. Από αυτές χρησιµοποιούνται 450 εικόνες που απεικονίζουν λευκά αντικείµενα πάνω σε µαύρο φόντο. Οι εικόνες αυτές έχουν επιλεγεί µε τέτοιο τρόπο, ώστε το αντικείµενο που απεικονίζεται να µην περιέχει κενά τµήµατα στο εσωτερικό του. 44

Εικόνα 9: Ένα σύνολο 12 εικόνων. Εικόνα 10: Οι πολυγωνικές γραµµές που εξάγονται από τα παραπάνω αντικείµενα (εικόνα 9) µετά από διάφορες επιθέσεις. 45