ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ



Σχετικά έγγραφα
Συστήματα Πολυμέσων. Ενότητα 8: Συμπίεση Εικόνας κατά JPEG Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συμπίεση Δεδομένων

Τι είναι το JPEG2000?

Ανάκτηση πολυμεσικού περιεχομένου

Συμπίεση Δεδομένων

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Δ13b. Συμπίεση Δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Ενότητα 5: Μετασχηματισμοί Εικόνας.

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Συστήµατα και Αλγόριθµοι Πολυµέσων

Διακριτός Μετασχηματισμός Fourier

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Digital Image Processing

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Ακαδημαϊκό Έτος Παρουσίαση Νο. 2. Δισδιάστατα Σήματα και Συστήματα #1

ΑΝΙΧΝΕΥΣΗ ΡΩΓΜΩΝ ΣΕ ΜΕΤΑΛΛΙΚΑ ΥΛΙΚΑ ΜΕ ΘΕΡΜΟΓΡΑΦΙΑ ΔΙΝΟΡΡΕΥΜΑΤΩΝ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Εργασίες στο µάθηµα Ψηφιακής Επεξεργασίας και Αναγνώρισης Εγγράφων

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

1. Εισαγωγή Βάση δεδομένων Μεθοδολογία Νευρωνικών Δικτύων Αποτελέσματα Βιβλιογραφια Παραρτήμα Ι...

Α.Τ.Ε.Ι. ΜΑΚΕΔΟΝΙΑΣ Τμήμα πληροφορικής και επικοινωνιών. Συμπίεση ψηφιακών εικόνων με ανάλυση κύριων συνιστωσών και χρήση νευρωνικού δικτύου.

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ

Detection and Recognition of Traffic Signal Using Machine Learning

Ειδικές Επιστηµονικές Εργασίες

Ψηφιακή Επεξεργασία Σημάτων

Χαρακτηρισµός Νεοπλασµάτων στη Μαστογραφία από το Σχήµα της Παρυφής µε χρήση Νευρωνικών ικτύων

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

Σήματα και Συστήματα ΙΙ

Ο μετασχηματισμός wavelet (Discrete Wavelet Transform, DWT) έχει χρησιμοποιηθεί με επιτυχία στη συμπίεση εικόνας6

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Ασκήσεις Επεξεργασίας Εικόνας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΤΑΧΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

Παρουσίαση του μαθήματος

12 ο ΕΡΓΑΣΤΗΡΙΟ ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Μάθημα: Μηχανική Όραση

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Ακαδημαϊκό Έτος Παρουσίαση Νο. 2. Δισδιάστατα Σήματα και Συστήματα #1

Σχεδιασμός εκτυπώσεων ERG

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Area Location and Recognition of Video Text Based on Depth Learning Method

Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΦΙΛΤΡΑ ΜΕ ΠΑΘΗΤΙΚΑ ΣΤΟΙΧΕΙΑ

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 2 η : Δισδιάστατα Σήματα & Συστήματα Μέρος 1

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

Υποέργο: 2 Τίτλος: «Δημιουργία και Αξιολόγηση Εικονικού Χώρου Εργαστηριών Ηλεκτρονικής» Επιστημονικός Υπεύθυνος: ΠΑΝΕΤΣΟΣ ΣΠΥΡΟΣ

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Ψηφιακή Επεξεργασία Εικόνας

Ασκήσεις μελέτης της 19 ης διάλεξης

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

Current Status and Future Prospects of Camera-Based Character Recognition and Document Image Analysis

ΤΕΧΝΙΚΕΣ ΚΑΤΑΓΡΑΦΗΣ ΣΥΝΑΙΣΘΗΜΑΤΩΝ (EMOTIONS) ΑΠΟ ΤΗ ΧΡΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ. Ελένη Καλκοπούλου. στα πλαίσια του μαθήματος Πολυμέσα (ΓΤΠ61)

Σχεδιασμός εκτυπώσεων ERG

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης

[1] DNA ATM [2] c 2013 Information Processing Society of Japan. Gait motion descriptors. Osaka University 2. Drexel University a)

Απεικόνιση Υφής. Μέρος Α Υφή σε Πολύγωνα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

Α. Αιτιολογήστε αν είναι γραμμικά ή όχι και χρονικά αμετάβλητα ή όχι.

Method to Distinguish between Handwritten and Machine-printed Characters Inspired by Human Vision System

ΚΑΤΑΤΜΗΣΗ ΥΦΗΣ ΜΕ ΧΡΗΣΗ ΤΕΛΕΣΤΗ ΤΟΠΙΚΟΥ ΥΑ ΙΚΟΥ ΠΡΟΤΥΠΟΥ ΚΑΙ ΕΦΑΡΜΟΓΗ ΜΟΝΤΕΛΟΥ ΕΝΕΡΓΟΥ ΠΕΡΙΓΡΑΜΜΑΤΟΣ ΧΩΡΙΣ ΑΚΜΕΣ *

Στοιχεία επεξεργασίας σημάτων

Ημερομηνία Παράδοσης: 4/1/2013

Εξεταστική Ιανουαρίου 2007 Μάθηµα: «Σήµατα και Συστήµατα»

Λογισμική Εφαρμογή Διαχείρισης Ερωτηματολογίων ΟΔΗΓΟΣ ΧΡΗΣΗΣ System Συμβουλευτική Α.Ε

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ, ΣΕΡΡΕΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

ΑΡΜΟΝΙΚΑ ΜΕΓΕΘΗ-ΒΑΣΙΚΟ ΛΟΓΙΣΜΙΚΟ- ΕΦΑΡΜΟΓΗ ΣΤΑ ΕΝΑΛΛΑΣΣΟΜΕΝΑ ΡΕΥΜΑΤΑ

11 ο ΕΡΓΑΣΤΗΡΙΟ ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΘΕΜΑ : ΠΡΟΟΠΤΙΚΟ ΣΧΕΔΙΟ ΜΕ 2 Σ.Φ ΙΣΟΜΕΤΡΙΚΗ ΠΡΟΒΟΛΗ. ΔΙΑΡΚΕΙΑ: 1 περιόδους. 28/9/ :48 Όνομα: Λεκάκης Κωνσταντίνος καθ.

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

ΕΥΡΕΣΗ ΤΟΥ ΔΙΑΝΥΣΜΑΤΟΣ ΘΕΣΗΣ ΚΙΝΟΥΜΕΝΟΥ ΡΟΜΠΟΤ ΜΕ ΜΟΝΟΦΘΑΛΜΟ ΣΥΣΤΗΜΑ ΟΡΑΣΗΣ

6-Aνίχνευση. Ακμών - Περιγράμματος

Τηλεπισκόπηση. Ψηφιακή Ανάλυση Εικόνας Η ΒΕΛΤΙΩΣΗ εικόνας 1. ΔΙΑΧΕΙΡΙΣΗ ΑΝΤΙΘΕΣΗΣ 2. ΔΙΑΧΕΙΡΙΣΗ ΧΩΡΙΚΩΝ ΣΤΟΙΧΕΙΩΝ 3. ΔΙΑΧΕΙΡΙΣΗ ΠΟΛΛΑΠΛΩΝ ΕΙΚΟΝΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Ψηφιακή Επεξεργασία Εικόνων

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ

Προχωρημένες Εργασίες

ΤΕΛΙΚΕΣ ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ (6 Μονάδες ECTS)- Ακαδημαϊκό Έτος

No. 7 Modular Machine Tool & Automatic Manufacturing Technique. Jul TH166 TG659 A

ΑΝΙΧΝΕΥΣΗ ΦΩΤΙΑΣ. Χαοτικό φαινόμενο, με ακανόνιστο σχήμα Βασικό χαρακτηριστικό της φωτιάς είναι το χρώμα

25SMEs2009 ΠΑΡΑΔΟΤΕΑ ΕΝΟΤΗΤΑΣ ΕΡΓΑΣΙΩΝ 5: ΟΛΟΚΛΗΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ. 5.1 Ολοκλήρωση Υποσυστημάτων Πλατφόρμας Διαχείρισης Αισθητήρων

Advances in Digital Imaging and Computer Vision

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

Transcript:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΥΠΟΕΡΓΟ 3 ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΥΠΕΥΘΥΝΟΣ ΧΑΡΑΛΑΜΠΟΣ ΣΤΡΟΥΘΟΠΟΥΛΟΣ - ΚΑΘΗΓΗΤΗΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΤΗΣ ΔΟΜΗΣ ΣΕΛΙΔΑΣ ΠΑΚΕΤΟ ΕΡΓΑΣΙΑΣ 2

Διερεύνηση της χρησιμότητας του διακριτού μετασχηματισμού κυματιδίου (DWT) στον εντοπισμό περιοχών κειμένου σε έγγραφα μικτού περιεχόμενου (ΤΕΧΝΙΚΗ ΑΝΑΦΟΡΑ) Στα πλαίσια της έρευνάς μας ασχοληθήκαμε με την ανάπτυξη μεθόδων που αποσκοπούσαν στον εντοπισμό και στην εξαγωγή περιοχών κειμένου από έγγραφα με μικτό περιεχόμενο, δηλαδή έγγραφα που περιέχουν κείμενο, εικόνες και γραμμικά σχέδια. Πολλές από τις μεθόδους που έχουν προταθεί έως σήμερα αναλύουν τη δομή των εγγράφων όχι στο πεδίο της εικόνας, αλλά σε κάποιο πεδίο μετασχηματισμού όπως ο διακριτός μετασχηματισμός συνημιτόνου (DCT) ή ο διακριτός μετασχηματισμός Fourier (DFT). Η προσέγγιση αυτή έχει το πλεονέκτημα της αναπαράστασης της πληροφορίας σε σχέση με το συχνοτικό της περιεχόμενο, το οποίο μπορεί να αποκαλύψει ευκολότερα ποιες περιοχές της εικόνας έχουν συγκεκριμένη υφή. Οι Li et al [1] πρότειναν τη χρήση του διακριτού μετασχηματισμού κυματιδίου (DWT) προκειμένου να προκύψουν εκδόσεις της αρχικής εικόνας σε πολλαπλές αναλύσεις και να εξάγουν στη συνέχεια χαρακτηριστικά των υψηλοσυχνοτικών περιοχών σε κάθε επίπεδο. Στη συνέχεια, και αφού γίνει επιλογή των ισχυρότερων χαρακτηριστικών, το διάνυσμα χαρακτηριστικών εισάγεται σε ένα νευρωνικό δίκτυο τριών επιπέδων για εκπαίδευση. Τέλος, σαρώνεται η εικόνα με ένα παράθυρο κατάλληλου μεγέθους και αποφασίζεται, αναλόγως της εξόδου του νευρωνικού δικτύου, αν το παράθυρο περιέχει κείμενο ή όχι. Οι Ye et al [2] επίσης χρησιμοποίησαν τον DWT σε ένα αρχικό στάδιο της μεθόδου τους προκειμένου να εντοπίσουν στη συνέχεια υποψήφιες γραμμές κειμένου. Με τη βοήθεια ενός εκπαιδευμένου μοντέλου SVM (Support Vector Machine) και με χρήση χαρακτηριστικών υφής, αναγνωρίζουν τις περιοχές κειμένου. Τα αποτελέσματα για κάθε επίπεδο ανάλυσης συγχωνεύονται για να δώσουν τις τελικώς ανιχνευμένες γραμμές κειμένου. Αυτές με τη σειρά τους αποτελούν νέο σύνολο εκπαίδευσης για το μοντέλο SVM. 2

Οι Jiménez και Martí [3] έδειξαν ότι είναι δυνατό να εντοπιστούν οι περιοχές κειμένου που έχει υπερτεθεί σε φυσικές εικόνες, χρησιμοποιώντας και πάλι τον DWT ακολουθούμενο από μια ανάλυση της κατανομής των στατιστικών δεύτερης τάξης στις ζώνες υψηλών συχνοτήτων του μετασχηματισμού. Μια αντίστοιχη προσέγγιση επιχειρήσαμε να ακολουθήσουμε κι εμείς στα πειράματά μας με εικόνες μικτού περιεχόμενου. Έτσι εφαρμόσαμε τον διακριτό μετασχηματισμό κυματιδίου (DWT) με χρήση της συνάρτησης βάσης του Haar. Ο μετασχηματισμός αυτός ουσιαστικά εφαρμόζει ένα υψηλοπερατό και ένα χαμηλοπερατό μονοδιάστατο φίλτρο στην αρχική εικόνα, ακολουθούμενα από υποδειγματοληψία κατά 2. Αυτό γίνεται και κατά τις δύο διαστάσεις της εικόνας, σε όλους τους συνδυασμούς, με αποτέλεσμα την παραγωγή τεσσάρων εικόνων, της εικόνας προσέγγισης LL και των τριών εικόνων λεπτομέρειας HL, LH και HH. Ένα παράδειγμα αποσύνθεσης μιας εικόνας που περιέχει και κείμενο με χρήση του μετασχηματισμού DWT φαίνεται στη Εικόνα 1. Πάνω αριστερά διακρίνεται η εικόνα προσέγγισης, πάνω δεξιά η εικόνα λεπτομέρειας HL, κάτω αριστερά η LH και κάτω δεξιά η HH. Είναι προφανές ότι οι εικόνες λεπτομέρειας μας παρέχουν πληροφορία για τις τοπικές ασυνέχειες της εικόνας, ενώ ταυτόχρονα είναι και χωρικά προσανατολισμένες. Με άλλα λόγια, η μία εικόνα λεπτομέρειας μας δίνει τις οριζόντιες ακμές της αρχικής εικόνας, η άλλη τις κάθετες και η τρίτη τις διαγώνιες. Η 3

Εικόνα 1: Αποσύνθεση εικόνας με τον διακριτό μετασχηματισμό κυματιδίου (DWT) ενέργεια σε κάθε μια από αυτές τις χωροσυχνοτικές μπάντες, δείχνει ουσιαστικά το πόσο έντονη είναι η αντίστοιχη ακμή της αρχικής εικόνας. Η διαδικασία του μετασχηματισμού μπορεί να συνεχιστεί με την εικόνα προσέγγισης, η οποία είναι ουσιαστικά μια χονδρική εκδοχή της αρχικής εικόνας. Μπορούμε δηλαδή να εφαρμόσουμε και πάλι τον DWT στην εικόνα LL ώστε να 4

πάρουμε πληροφορία για το περιεχόμενο της εικόνας σε ένα χαμηλότερο επίπεδο ανάλυσης. Ωστόσο η εφαρμογή του μετασχηματισμού, έστω και στο αρχικό μόνο επίπεδο ανάλυσης, είναι εξαιρετικά χρονοβόρα διαδικασία, καθώς απαιτεί συνέλιξη της εικόνας με τα κατάλληλα φίλτρα. Αυτό, ακόμα και με τις πιο βελτιστοποιημένες μεθόδους υπολογισμού όπως είναι το lifting, έχει πολυπλοκότητα Ο(Ν 2 ), όπου Ν το πλήθος των σημείων της εικόνας. Είναι προφανές ότι, ιδιαίτερα για εικόνες υψηλής ανάλυσης, ο υπολογισμός του DWT είναι ασύμφορος. Στην δική μας περίπτωση, που επιθυμούμε να υλοποιήσουμε μια εφαρμογή πραγματικού χρόνου και, μάλιστα, ο χρόνος διεκπεραίωσης να είναι ανταγωνιστικός σε σχέση με αυτόν ενός καλού αλγόριθμου οπτικής αναγνώρισης χαρακτήρων (OCR), καταλήξαμε ότι η χρήση του DWT, καθώς και οποιουδήποτε άλλου μετασχηματισμού σε υποζώνες συχνοτήτων, δεν είναι αποδεκτή. Επιπλέον, για την περίπτωση της δικής μας έρευνας, όπου επιθυμούμε τελικά την εξαγωγή των περιοχών κειμένου, οπωσδήποτε απαιτείται περαιτέρω ανάλυση των εικόνων λεπτομέρειας. Αυτό θα μπορούσε να γίνει με χρήση χαρακτηριστικών υφής που θα ήταν μονοσήμαντα για χαρακτήρες, αλλά αφού πρώτα θα είχαν προσαρμοστεί κατάλληλα σε μια συχνοτική αναπαράσταση. Αντί για αυτό, μπορούμε να χρησιμοποιήσουμε απευθείας αυτά τα ίδια χαρακτηριστικά, για τον εντοπισμό του κειμένου στο πεδίο της εικόνας. [1] H. Li, D. Doermann and O. Kia, Automatic Text Detection and Tracking in Digital Video, IEEE Transactions on Image Processing, vol. 9(1), January 2000, pp. 147-156. [2] Q. Ye, Q. Huang, W. Gao and D. Zhao, Fast and Robust Text Detection in Images and Video Frames, Image and Vision Computing, vol. 23(6), June 2005, pp. 565-576. [3] J. Jiménez and E. Martí, Localization of Caption Texts in Natural Scenes 5

Using a Wavelet Transformation, 9 th Iberoamerican Congress on Pattern Recognition (CIARP 2004), Puebla, Mexico, October 26-29, 2004, pp. 100-107. Μετά από τα συμπεράσματα που προέκυψαν από την παραπάνω μελέτη σχετικά με την αντιμετώπιση του προβλήματος της ανάλυσης δομής σελίδας στο πεδίο της συχνότητας οδηγηθήκαμε στην επιλογή αντιμετώπισης του προβλήματος στο πεδίο του χώρου. Υπάρχει πληθώρα δημοσιευμένων μεθόδων που ασχολούνται με την ανάλυση δομής σελίδας στο πεδίο του χώρου. Οι μέθοδοι αυτές προϋποθέτουν ότι οι χαρακτήρες του κειμένου έχουν κοινό προσανατολισμό και μέγεθος μέσα στην σελίδα, πολλές δε από αυτές προϋποθέτουν ότι τα blocks κειμένου είναι οριζόντια. Η έρευνα μας εστιάσθηκε στην εύρεση μιας αποδοτικής τεχνικής ανεξάρτητης από τον προσανατολισμό και το μέγεθος των χαρακτήρων. Το αποτέλεσμα της ερευνητικής προσπάθειας ήταν η δημιουργία μιας της τεχνικής που περιγράφεται συνοπτικά ακολούθως. Αρχικά προσδιορίζονται τα συνεκτικά χωρία στο δυαδικό έγγραφο. Με ανάλυση των κύριων αξόνων κάθε συνεκτικού χωρίου βρίσκουμε τις διαστάσεις (ύψος και πλάτος) κάθε χωρίου κατά την διεύθυνση κάθε άξονα.. Υπολογίζεται ακολούθως η απόσταση κάθε χωρίου με το γειτονικότερό του. Με χαρακτηριστικά τις διαστάσεις κάθε χωρίου τροφοδοτείται ένας αυτό-οργανούμενος πίνακας απεικόνισης χαρακτηριστικών (νευρωνικό δίκτυο Kohonen) και προσδιορίζονται οι συγκεντρώσεις ομοιογενών χωρίων του εγγράφου. Τα πρωτότυπα που βρίσκονται χρησιμοποιούνται στην υλοποίηση ενός ασαφούς ταξινομητού που διακρίνει τα χωρία των χαρακτήρων. Η τεχνική αυτή εστάλη προς κρίση και δημοσίευση με τον ακόλουθο τίτλο: Rotation and scale invariant text extraction in binary document images, C.Strouthopoulos and A.Nikolaidis. 6