Αλγόριθμος Ομαδοποίησης

Σχετικά έγγραφα
ΣΧΕΔΙΑΣΜΟΣ ΚΑΤΑΣΚΕΥΩΝ

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Συνθήκες Θ.Μ.Τ. Τρόπος αντιμετώπισης: 1. Για να ισχύει το Θ.Μ.Τ. για μια συνάρτηση f σε ένα διάστημα [, ] (δηλαδή για να υπάρχει ένα τουλάχιστον (, )

Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών - Μηχανικών Υπολογιστών. ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ Νεκτάριος Κοζύρης ΑΡΙΘΜΗΤΙΚΕΣ ΠΡΑΞΕΙΣ

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

/5

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πληροφοριακά Συστήματα Διοίκησης

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Τηλεπισκόπηση - Φωτοερμηνεία

Επανάληψη Μιγαδικών Αριθμών

Ονοματεπώνυμο Τμήμα. 1. Τι ονομάζουμε εμβαδόν ενός επιπέδου σχήματος (χωρίου) και πως υπολογίζεται αυτό; Απάντηση

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Δομές Δεδομένων και Αλγόριθμοι

Διακριτός Μετασχηματισμός Fourier

4.3. Γραµµικοί ταξινοµητές

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Κατηγορία 1 η. Σταθερή συνάρτηση Δίνεται παραγωγίσιμη συνάρτηση f : 0, f '( x) 0 για κάθε εσωτερικό σημείο x του Δ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

1.8 ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ ΘΕΩΡΗΜΑ BOLZANO A. ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

Μέθοδοι Εντοπισμού Κινδύνων

Ο Παλμογράφος στη Διδασκαλία της Τριγωνομετρίας. Εφαρμογές της Τριγωνομετρίας σε πραγματικά προβλήματα και ενδιαφέρουσες επεκτάσεις

Θεώρημα Βolzano. Κατηγορία 1 η Δίνεται η συνάρτηση:

ΥΠΟΛΟΓΙΣΤΕΣ ΙΙ Εντολές επανάληψης Εντολές επανάληψης while for do-while ΥΠΟΛΟΓΙΣΤΕΣ ΙΙ Παράδειγμα #1 Εντολή while

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Ανισώσεις Α Βαθμού -Εφαρμογές στις Ανισώσεις

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Ολοκληρωµένο Περιβάλλον Σχεδιασµού Και Επίδειξης Φίλτρων

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

Λύσεις θεμάτων προσομοίωσης 1-Πανελλαδικές Εξετάσεις 2016

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ - ΑΡΙΘΜΗΤΙΚΕΣ ΠΡΑΞΕΙΣ

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Βιοπληροφορική II. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

ΑΡΙΘΜΗΤΙΚΗ ΓΙΑ ΥΠΟΛΟΓΙΣΤΕΣ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Μαθηματικά Γ Γυμνασίου. Επαναληπτικές Ασκήσεις στο Κεφάλαιο 1: Μονώνυμα - Πολυώνυμα - Ταυτότητες

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ραδιομετρική Ενίσχυση - Χωρική Επεξεργασία Δορυφορικών Εικόνων

ΥΠΟΛΟΓΙΣΤΕΣ ΙI. Άδειες Χρήσης. Εντολές for, while, do-while Διδάσκοντες: Αν. Καθ. Δ. Παπαγεωργίου, Αν. Καθ. Ε. Λοιδωρίκης

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση

f(x) = και στην συνέχεια

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

,, δηλαδή στο σημείο αυτό παρουσιάζει τη μέγιστη τιμή της αν α < 0 2α 4α και την ελάχιστη τιμή της αν α > 0. β Στο διάστημα,

Λογικά Διανύσματα. >>x = -3/2*pi : pi/100 : 3/2*pi; >>y = tan(x); >>plot(x, y)

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

είναι πρόβλημα μεγιστοποίησης όλοι οι περιορισμοί είναι εξισώσεις με μη αρνητικούς του σταθερούς όρους όλες οι μεταβλητές είναι μη αρνητικές

Συστήµατα και Αλγόριθµοι Πολυµέσων

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

όπου Η μήτρα ή πίνακας του συστήματος

Ανάλυση κατά Συστάδες. Cluster analysis

y 1 (x) f(x) W (y 1, y 2 )(x) dx,

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

Ενότητα: Δυαδική Αναζήτηση Σχέδιο Δραστηριότητας: Παιχνίδι: Βρες τον αριθμό

Πληροφορική 2. Αλγόριθμοι

0x2 = 2. = = δηλαδή η f δεν. = 2. Άρα η συνάρτηση f δεν είναι συνεχής στο [0,3]. Συνεπώς δεν. x 2. lim f (x) = lim (2x 1) = 3 και x 2 x 2

Μέγιστη ροή. Κατευθυνόμενο γράφημα. Συνάρτηση χωρητικότητας. αφετηρίακός κόμβος. τερματικός κόμβος. Ροή δικτύου. με τις ακόλουθες ιδιότητες

ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ, , 3 ο ΕΞΑΜΗΝΟ ΑΠΑΝΤΗΣΕΙΣ ΕΡΓΑΣΙΑΣ #3: ΑΡΙΘΜΗΤΙΚΗ ΠΑΡΕΜΒΟΛΗ ΕΠΙΜΕΛΕΙΑ: Σ. Βαρούτης. x x

ΤΕΙ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Τεχνητή Νοημοσύνη ( )

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

2η Σειρά Γραπτών Ασκήσεων

Συμπίεση Δεδομένων

ΠΑΡΑΔΕΙΓΜΑΤΑ ΘΕΜΑ Β. Να εξετάσετε αν ισχύουν οι υποθέσεις του Θ.Μ.Τ. για την συνάρτηση στο διάστημα [ 1,1] τέτοιο, ώστε: C στο σημείο (,f( ))

Microsoft EXCEL ΛΟΓΙΣΤΙΚΑ ΦΥΛΛΑ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Χρήση της Εφαρμογής.

Πληροφορική 2. Τεχνητή νοημοσύνη

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

A. ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

ΚΕΦΑΛΑΙΟ 10 ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ

Κρυπτογραφία. MAC - Γνησιότητα/Ακεραιότητα μηνύματος. Πέτρος Ποτίκας

κι επιβάλλοντας τις συνοριακές συνθήκες παίρνουμε ότι θα πρέπει

Επεξεργασία Ερωτήσεων

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Ενότητα 3: Αποκατάσταση Εικόνας.

HMY 795: Αναγνώριση Προτύπων

A. ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

Αλγόριθμοι και Πολυπλοκότητα

Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. 6 ο Μάθημα. Λεωνίδας Αλεξόπουλος Λέκτορας ΕΜΠ. url:

Μαθηματικά Γ Γυμνασίου. Επαναληπτικές Ασκήσεις στο Κεφάλαιο 1: Μονώνυμα - Πολυώνυμα - Ταυτότητες

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

Υπερπροσαρμογή (Overfitting) (1)

Προσομοίωση Συστημάτων

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Κεφάλαιο 4: Διαφορικός Λογισμός

Στατιστικοί πίνακες. Δημιουργία κλάσεων

Transcript:

Αλγόριθμος Ομαδοποίησης Εμπειρίες από τη μελέτη αναλλοίωτων χαρακτηριστικών και ταξινομητών για συστήματα OCR Μορφονιός Κωνσταντίνος Αθήνα, Ιανουάριος 2002

Γενικά Ένα σύστημα OCR χρησιμοποιείται για την αυτόματη αναγνώριση χαρακτήρων Το κείμενο μπορεί να είναι τυπωμένο ή χειρόγραφο Πώς γίνεται η αναγνώριση; Μηχανική Μάθηση!

Δύο προβλήματα Επιλογή χαρακτηριστικών για την περιγραφή ενός χαρακτήρα Επιλογή μεθόδου ταξινόμησης

Αναλλοίωτα Περιγραφείς Fourier Περιγραφείς Granlund Ελλειπτικοί Περιγραφείς Περιγραφείς Shridhar - Badreldin Συντελεστές Wavelet Συνδυασμός των παραπάνω (με ή χωρίς βάρη) Μορφολογικά χαρακτηριστικά...

Ταξινομητές k-κοντινότερων γειτόνων (πόσο είναι το κ; Χρειάζονται και βάρη;) Νευρωνικά δίκτυα (αρχιτεκτονική; Συντελεστές;) Bayesian ταξινομητής (πιθανότητες;)...

Ποιος συνδυασμός είναι ο καλύτερος; Πειράματα! Βάση NIST (National Institute of Standards and Technology) Benchmarking

Τι σημαίνει καλύτερος συνδυασμός; Καλά ποσοστά σωστής ταξινόμησης Όσο γίνεται πιο γρήγορα Εύκολη υλοποίηση

Νέο πρόβλημα! Η βάση του NIST περιέχει για εκπαίδευση: 61.094 αριθμούς 24.420 κεφαλαία 24.205 πεζά και για έλεγχο: 60.089 αριθμούς 12.092 κεφαλαία 11.578 πεζά

Και όλα αυτά με MATLAB Καλό για πολλαπλασιασμούς πινάκων Άριστο για θέματα επεξεργασίας σήματος αρκεί να μη χρησιμοποιούνται for, while, if Ταξινομητής χωρίς τέτοιες εντολές δεν προγραμματίζεται

Αποτέλεσμα; Ένα πείραμα την ημέρα, το διήμερο, την εβδομάδα, Ακόμα και τη Μεγάλη Εβδομάδα! Έλλειψη υπολογιστικών πόρων... Χρειάζεται και debugging... Κόπηκε και το ρεύμα Άλλαξε και ο μήνας Αααααχ, αυτός ο Murphy!

Λύση; Ο αλγόριθμος ομαδοποίησης Προϋπήρχε σα μέθοδος για «unsupervised» ταξινόμηση Εντοπίζει ομάδες «κοντινών» αντικειμένων Στην αρχική του έκδοση δε γνωρίζει το είδος τον αντικειμένων και δε δημιουργεί απαραίτητα ομογενείς ομάδες

Παραλλαγή Αν καταφέρουμε να «συμπιέσουμε» το σύνολο εκπαίδευσης χωρίς μεγάλη απώλεια πληροφορίας, οι χρόνοι θα βελτιωθούν Επομένως, φάνηκε χρήσιμο να εφαρμόσουμε «ομαδοποίηση» στο σύνολο εκπαίδευσης με «supervised» τρόπο

Η ιδέα Στα 61.000 δείγματα, σίγουρα θα υπάρχουν και κάποια «κοντινά» Είναι πολύ πιθανό να υπάρχουν «περιοχές» όμοιων χαρακτήρων Διαφορετικά, έτσι κι αλλιώς το αναλλοίωτο είναι λάθος επιλεγμένο Μένει ο εντοπισμός τον περιοχών αυτών και η περιγραφή τους μέσο ενός αντιπροσώπου για κάθε μία

Πλεονεκτήματα Αν τα δεδομένα ομαδοποιούνται, μπορούμε να τα «πετάξουμε» και να τα αντικαταστήσουμε από τους αντιπροσώπους τους Οι αντιπρόσωποι αναμένονται να είναι κατά τάξη μεγέθους λιγότεροι Λίγες ομάδες αποτελούν ένδειξη καλού χαρακτηριστικού

Ο αλγόριθμος

Σχόλια Ο αλγόριθμος επιστρέφει τους «αντιπροσώπους» των ομάδων Δε χρειάζεται πλέον k-nn Ποιο είναι όμως το «Θ»;

Ευριστικό Εύρεση διαστήματος [Θ min, Θ max ] Θ min > 0 Θ min < απόσταση μεταξύ των πιο απομακρυσμένων Θ min = 0 τόσες ομάδες όσα και τα αρχικά σημεία Θ max = d max τόσες ομάδες όσες κλάσεις υπάρχουν Η λύση κάπου ενδιάμεσα

Ευριστικό Χωρισμός του σε n ίσα υποδιαστήματα Εκτέλεση φάσης αρχικοποίησης για κάθε υποδιάστημα και προσδιορισμός του αριθμού m των ομάδων Γραφική παράσταση του m ως προς Θ Εύρεση μεγαλύτερου «πλατώματος» και επιλογή του κέντρου του

Βελτιώσεις Έχει σημασία η σειρά με την οποία εμφανίζονται τα σημεία. Όσο πιο «ανακατεμένα» τόσο καλύτερα Αφαίρεση ομάδων με μικρή συμμετοχή (κυρίως 1 και 2). Μάλλον πρόκειται για θόρυβο

Αποτελέσματα Δραματική μείωση χρόνου (μέχρι και 400 φορές!!!) Καλά ποσοστά αναγνώρισης παρατηρήθηκαν στα χαρακτηριστικά που δημιουργούσαν τις λιγότερες ομάδες Τα ποσοστά αναγνώρισης μειώθηκαν ελάχιστα (< 1%), παρά τη συμπίεση και την απώλεια πληροφορίας

Συμπέρασμα Λιγότερος χρόνος περισσότερα πειράματα και με μικρότερη πιθανότητα κάτι να πάει στραβά Άρα καλύτερη έρευνα και με λιγότερους πόρους

Ευχαριστώ