Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ (Clustering Techniques Using Autoencoding Neural Networks) ΝΕΣΤΟΡΙΔΗΣ ΑΝΤΩΝΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΤΕΦΑΣ ΑΝΑΣΤΑΣΙΟΣ, ΕΠΙΚΟΥΡΟΣ ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΙΚΗ 2015

ΠΕΡΙΛΗΨΗ Π Ε Ρ Ι Λ Η Ψ Η Αντικείμενο της παρούσας εργασίας είναι η χρήση νευρωνικών δικτύων, και συγκεκριμένα της τεχνικής του autoencoding, σε συνδυασμό με τον γνωστό αλγόριθμο ομαδοποίησης δεδομένων k-means, για τη δημιουργία ενός νέου αλγόριθμου ομαδοποίησης. Σκοπός του αλγορίθμου αυτού είναι ο μετασχηματισμός των δεδομένων, με τέτοιο τρόπο ώστε να επιτευχθεί η καλύτερη ομαδοποίηση τους. Πρακτικά αυτό που επιτυγχάνει, είναι τα δεδομένα που παρουσιάζουν κάποιου είδους ομοιότητες, να βρίσκονται μετά την εφαρμογή του αλγορίθμου σε κοντινές θέσεις, ενώ αυτά που παρουσιάζουν διαφορές να βρίσκονται σε μακρινές θέσεις. Ο αλγόριθμος εκπαιδεύει σταδιακά ένα νευρωνικό δίκτυο χρησιμοποιώντας δεδομένα εκπαίδευσης, στα οποία εφαρμόζεται ταυτόχρονα ο αλγόριθμος k-means. Η εκπαίδευση αυτή επιτυγχάνεται με διάφορους τρόπους και ο αλγόριθμος παρουσιάζει αρκετές παραλλαγές. Για την δοκιμή του αλγορίθμου, χρησιμοποιείται η βάση δεδομένων MNIST η οποία περιέχει εικόνες χειρόγραφων αριθμητικών ψηφίων από το 0 έως το 9. Για την εκτίμηση της απόδοσης του αλγορίθμου, γίνεται μια άμεση σύγκριση της ομαδοποίησης που επιτεύχθηκε από τον αλγόριθμο και μιας εφαρμογής του k-means στα δεδομένα εκπαίδευσης, μέσω διαφόρων μετρικών που υπολογίζουν την ποιότητα της ομαδοποίησης. Ακόμη, η απόδοση μπορεί να αξιολογηθεί και με το κατά πόσο μπορεί να προσφέρει καλύτερη κατηγοριοποίηση των δεδομένων. III

ABSTRACT A B S T R A C T The aim of this diploma thesis is the creation of a new clustering algorithm which makes use of neural networks and more specifically the technique of autoencoding, as well as the clustering algorithm k-means. The purpose of the algorithm is to transform data in vector space in such a way, that their clustering will be better. The algorithm tries to transform the data such that those who are similar in some way lay in close positions, while data that show differences lay in different positions. The algorithm gradually trains a neural network using train data, while k-means is applied to them. This can be achieved by using several techniques making the algorithm easily extensible to several variants. In order to test the algorithm, we use the MNIST database, which consists of images containing handwritten numerical digits from 0 through 9. To measure the performance of the algorithm, we compare the clustering achieved by the algorithm against a simple implementation of k-means, by using several clustering evaluation metrics. Moreover, the accuracy can be evaluated by the ability to make better classification of the data. V

ΕΥΧΑΡΙΣΤΙΕΣ Ε Υ Χ Α Ρ Ι Σ Τ Ι Ε Σ Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου Αναστάσιο Τέφα για την ευκαιρία που μου έδωσε να ασχοληθώ με το συγκεκριμένο τομέα, την ενδιαφέρουσα ιδέα που μου πρόσφερε για να υλοποιήσω αλλά και για την καθοδήγηση και την υπομονή του σε όλη αυτή μου την προσπάθεια. <Ιούνιος 2015> Νεστορίδης Αντώνης VII

ΠΕΡΙΕΧΟΜΕΝΑ Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΠΕΡΙΛΗΨΗ... III ABSTRACT... V ΕΥΧΑΡΙΣΤΙΕΣ... VII ΠΕΡΙΕΧΟΜΕΝΑ... IX ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ... XI ΛΙΣΤΑ ΠΙΝΑΚΩΝ... XIII ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ... 15 1.1 Ο ΑΛΓΟΡΙΘΜΟΣ K-MEANS... 17 1.2 ΤΟ ΜΟΝΤΕΛΟ MCCULLOCH-PITS... 21 1.3 ΤΟ ΔΙΚΤΥΟ PERCEPTRON... 23 1.4 ΤΟ ΔΙΚΤΥΟ PERCEPTRON ΠΟΛΛΩΝ ΣΤΡΩΜΑΤΩΝ... 26 1.5 O AUTOENCODER... 30 ΚΕΦΑΛΑΙΟ 2: AUTOENCODING K-MEANS... 34 2.1 Ο ΠΡΟΤΕΙΝΟΜΕΝΟΣ ΑΛΓΟΡΙΘΜΟΣ... 33 2.2 ΟΡΙΣΜΟΣ ΤΩΝ ΔΙΑΝΥΣΜΑΤΩΝ ΣΤΟΧΩΝ - ΠΑΡΑΛΛΑΓΕΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ... 35 ΚΕΦΑΛΑΙΟ 3: ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ... 41 3.1 ΟΡΙΣΜΟΙ ΠΕΙΡΑΜΑΤΩΝ ΚΑΙ ΜΕΤΡΙΚΩΝ... 40 3.2 ΠΕΙΡΑΜΑΤΑ... 46 ΚΕΦΑΛΑΙΟ 4: ΣΥΜΠΕΡΑΣΜΑΤΑ... 90 ΠΑΡΑΡΤΗΜΑ I: ΑΝΑΦΟΡΕΣ... 91 IX

ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ Λ Ι Σ Τ Α Σ Χ Η Μ ΑΤ Ω Ν ΣXΗΜΑ 1:ΤΟ ΜΟΝΤΕΛΟ MCCULLOCH-PITS... 21 ΣXΗΜΑ 2:ΚΑΤΑΝΟΜΗ ΠΡΟΤΥΠΩΝ ΑΛΟΓΩΝ ΚΑΙ ΓΑΙΔΟΥΡΙΩΝ... 24 ΣXΗΜΑ 3:ΤΟ ΔΙΚΤΥΟ MLP... 26 ΣXΗΜΑ 4:AUTOENCODER ΕΝΟΣ ΚΡΥΦΟΥ ΕΠΙΠΕΔΟΥ... 31 ΣXΗΜΑ 5: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 46 ΣXΗΜΑ 6: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 47 ΣXΗΜΑ 7: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΜΕ ΜΕΓΕΝΘΥΣΗ... 48 ΣXΗΜΑ 8: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΓΙΑ ΤΗΝ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ. 49 ΣXΗΜΑ 9: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΓΙΑ ΤΗΝ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ. 49 ΣXΗΜΑ 10:ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΓΙΑ ΤΗΝ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 50 ΣXΗΜΑ 11:ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΓΙΑ ΤΗΝ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 50 ΣXΗΜΑ 12:ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗ N MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 52 ΣXΗΜΑ 13: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗN MH- ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 53 ΣXΗΜΑ 14: ΤΕΛΙΚΕΣ ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ P=1, P=3, P=5 ΑΝΤΙΣΤΟΙΧΑ ΓΙΑ ΤΗΝ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 54 ΣXΗΜΑ 15:ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 55 ΣXΗΜΑ 16: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 1ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 55 ΣXΗΜΑ 17:ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΤΗΣ MH- ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 56 ΣXΗΜΑ 18: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 56 ΣXΗΜΑ 19: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 58 ΣXΗΜΑ 20: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 59 ΣXΗΜΑ 21: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΓΙΑ ΤΗ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 60 ΣXΗΜΑ 22: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΧΩΡΙΣ ΧΡΗΣΗ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΓΙΑ ΤΗ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 60 ΣXΗΜΑ 23: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ.... 61 ΣXΗΜΑ 24: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ.... 61 ΣXΗΜΑ 25: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 63 ΣXΗΜΑ 26: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 64 ΣXΗΜΑ 27:ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 65 ΣXΗΜΑ 28: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 65 ΣXΗΜΑ 29: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ.... 66 ΣXΗΜΑ 30: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ.... 66 ΣXΗΜΑ 31: : ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 68 XI

ΣXΗΜΑ 32: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ MH-ΓΡΑΜΜΙΚΗ ΠΕΡΙΠΤΩΣΗ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 69 ΣXΗΜΑ 33: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 70 ΣXΗΜΑ 34: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 70 ΣXΗΜΑ 35: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 71 ΣXΗΜΑ 36: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 71 ΣXΗΜΑ 37: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 73 ΣXΗΜΑ 38: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 74 ΣXΗΜΑ 39: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ 1 ΗΣ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 75 ΣXΗΜΑ 40: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ 2 ΗΣ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 75 ΣXΗΜΑ 41: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 76 ΣXΗΜΑ 42: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 76 ΣXΗΜΑ 43: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ ΠΕΡΙΠΤΩΣΗ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 78 ΣXΗΜΑ 44: ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗΝ ΠΕΡΙΠΤΩΣΗ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 79 ΣXΗΜΑ 45: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 80 ΣXΗΜΑ 46: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 80 ΣXΗΜΑ 47: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 81 ΣXΗΜΑ 48: ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 81 ΣXΗΜΑ 49:ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗ ΣΥΝΔΥΑΣΤΙΚΗ ΜΕΘΟΔΟ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 83 ΣXΗΜΑ 50:ΘΕΣΕΙΣ ΔΙΑΝΥΣΜΑΤΩΝ ΓΙΑ ΤΗ ΣΥΝΔΥΑΣΤΙΚΗ ΜΕΘΟΔΟ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 84 ΣXΗΜΑ 51: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΗ ΣΥΝΔΥΑΣΤΙΚΗ ΜΕΘΟΔΟ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 85 ΣXΗΜΑ 52: ΔΙΑΓΡΑΜΜΑΤΑ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΗ ΣΥΝΔΥΑΣΤΙΚΗ ΜΕΘΟΔΟ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ... 85 ΣXΗΜΑ 53:ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΓΙΑ ΤΗ ΣΥΝΔΥΑΣΤΙΚΗ ΜΕΘΟΔΟ ΓΙΑ 1 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 86 ΣXΗΜΑ 54:ΔΕΔΟΜΕΝΑ ΔΟΚΙΜΗΣ ΓΙΑ ΤΗ ΣΥΝΔΥΑΣΤΙΚΗ ΜΕΘΟΔΟ ΓΙΑ 2 Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ... 86 ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 12

Λ Ι Σ Τ Α Π Ι Ν Α Κ Ω Ν ΠΙΝΑΚΑΣ 1: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ... 51 ΠΙΝΑΚΑΣ 2: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ... 51 ΠΙΝΑΚΑΣ 3: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΧΩΡΙΣ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ... 57 ΠΙΝΑΚΑΣ 4: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΧΩΡΙΣ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ... 57 ΠΙΝΑΚΑΣ 5: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΧΩΡΙΣ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ... 62 ΠΙΝΑΚΑΣ 6: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΧΩΡΙΣ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ... 62 ΠΙΝΑΚΑΣ 7: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ... 66 ΠΙΝΑΚΑΣ 8: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΚΛΑΣΜΑΤΙΚΗΣ ΕΛΞΗΣ... 66 ΠΙΝΑΚΑΣ 9: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ... 72 ΠΙΝΑΚΑΣ 10: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ MH-ΓΡΑΜΜΙΚΗΣ ΠΕΡΙΠΤΩΣΗΣ ΜΕ ΚΑΝΟΝΙΚΟΠΟΙΗΤΗ ΕΚΘΕΤΙΚΗΣ ΕΛΞΗΣ... 72 ΠΙΝΑΚΑΣ 11: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ... 77 ΠΙΝΑΚΑΣ 12: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕΣΟΥ ΔΙΑΝΥΣΜΑΤΟΣ... 77 ΠΙΝΑΚΑΣ 13: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ... 82 ΠΙΝΑΚΑΣ 14: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΠΤΩΣΗΣ ΚΟΝΤΙΝΟΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΜΕ ΧΡΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΟΙΟΤΗΤΑΣ... 82 ΠΙΝΑΚΑΣ 15: ΜΕΤΡΙΚΕΣ 1 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΤΗΣ ΣΥΝΔΙΑΣΤΙΚΗΣ ΜΕΘΟΔΟΥ... 87 ΠΙΝΑΚΑΣ 16: ΜΕΤΡΙΚΕΣ 2 ΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΤΗΣ ΣΥΝΔΙΑΣΤΙΚΗΣ ΜΕΘΟΔΟΥ... 87 XIII

Κ Ε Φ Α Λ Α Ι Ο 1 : Ε Ι Σ Α Γ Ω Γ Η Η σύγχρονη εποχή χαρακτηρίζεται συχνά ως η εποχή της πληροφορίας. Αυτό οφείλεται στην δυνατότητα των ανθρώπων να ανταλλάσσουν, να μεταφέρουν και να αποθηκεύουν πληροφορίες ελεύθερα, καθώς και να έχουν άμεση πρόσβαση σε γνώση που στο παρελθόν θα ήταν δύσκολο ή ακόμη και αδύνατο. Από τις ανεξάρτητες βάσεις δεδομένων εταιριών παγκοσμίως, τις ατομικές πληροφορίες των πολιτών που διαθέτει κάθε κράτος, τον επιστημονικό κόσμο, μέχρι την καθημερινή χρήση των κοινωνικών δικτύων, των ηλεκτρονικών εγκυκλοπαιδειών και των μηχανών αναζήτησης, η ποσότητα της πληροφορίας είναι πρωτοφανής. Οι ποσότητες λοιπόν των ψηφιακών δεδομένων που βρίσκονται αποθηκευμένες στις ηλεκτρονικές βάσεις δεδομένων και η ανάγκη επεξεργασίας τους, έδωσε την αφορμή σε ένα νέο κλάδο της πληροφορικής να ανθίσει. Η εξόρυξη δεδομένων (Data Mining επίσης γνωστή και ως KDD δηλαδή Knowledge Discovery in Data ) είναι η υπολογιστική διαδικασία της ανακάλυψης προτύπων σε μεγάλες ομάδες δεδομένων ή αλλιώς η επιστήμη της εξαγωγής χρήσιμης γνώσης από αποθήκες δεδομένων η οποία μπορεί να μετασχηματιστεί σε μία κατανοητή δομή και να χρησιμοποιηθεί στο μέλλον. Ο όρος είναι παραπλανητικός, καθώς ο σκοπός δεν είναι η ίδια η εξαγωγή των δεδομένων, αλλά η εξαγωγή των προτύπων και της γνώσης από αυτά. Τεχνικές της εξόρυξης δεδομένων χρησιμοποιούνται ευρέως σε προβλήματα στην βιομηχανία, την επιστήμη, την μηχανική αλλά και τις κυβερνήσεις [1,2]. Μία από τις πιο γνωστές τεχνικές, που δεν συναντάται μόνο στην εξόρυξη δεδομένων αλλά και σε άλλους επιστημονικούς τομείς όπως η στατιστική ανάλυση, η μηχανική μάθηση, η βιοπληροφορική και η ανάλυση εικόνων, είναι η ομαδοποίηση δεδομένων (cluster analysis ή απλώς clustering). Η ομαδοποίηση είναι η διαδικασία δημιουργίας ομάδων ( clusters) σε ένα σύνολο αντικειμένων, με τέτοιο τρόπο ώστε τα αντικείμενα που ανήκουν στο ίδιο cluster να παρουσιάζουν κάποια ομοιότητα (με κάποια έννοια) μεταξύ τους, σε σχέση με αυτά που βρίσκονται σε διαφορετικό cluster. Η τεχνική πρωτοχρησιμοποιήθηκε στην ανθρωπολογία από τους Driver και Kroeber το 1932 [3], και στην συνέχεια εισήχθη στην ψυχολογία από τον Zubin to 1938, τον Robert Tryon το 1939 [4] και χρησιμοποιήθηκε ευρέως από τον Cattell το ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 15

1943 [5], για την θεωρία κατηγοριοποίησης χαρακτηριστικών στην ψυχολογία της προσωπικότητας. Πρέπει να αναφέρουμε ότι η ομαδοποίηση δεν αποτελεί από μόνη της έναν συγκεκριμένο αλγόριθμο αλλά είναι μια θεωρία που έχει τον σκοπό που αναφέραμε παραπάνω. Ο σκοπός αυτός μπορεί να επιτευχθεί με ποικίλους αλγόριθμους, μεθόδους και μοντέλα που ορίζουν με διαφορετικούς τρόπους την έννοια της ομάδας (cluster) και βελτιστοποιούν διαφορετικά κριτήρια, όπως π.χ. την απόσταση των δεδομένων από τα κέντρα των ομάδων τους, την διασπορά τους κτλ. Στην εργασία αυτή θα ασχοληθούμε με έναν από τους παλαιότερους και κλασικότερους, τον αλγόριθμο k μέσων ( k-means ), και θα δούμε πώς με την χρήση νευρωνικών δικτύων μπορούμε να δημιουργήσουμε μια παραλλαγή του. Τι είναι όμως ένα νευρωνικό δίκτυο; Ένα τεχνητό νευρωνικό δίκτυο (για χάριν συντομίας θα αναφερόμαστε σε αυτό απλώς σαν νευρωνικό δίκτυο) είναι ένα σύστημα επεξεργασίας πληροφορίας, εμπνευσμένο από τα βιολογικά νευρικά συστήματα, όπως είναι ο εγκέφαλος. Αποτελείται από ένα μεγάλο αριθμό μικρότερων και απλούστερων υπολογιστικών στοιχείων, των νευρώνων, οι οποίοι έχουν ισχυρή συνεκτικότητα μεταξύ τους, και δουλεύουν ταυτόχρονα για την επίλυση συγκεκριμένων προβλημάτων. Τα τεχνητά νευρωνικά δίκτυα μαθαίνουν μέσα από παραδείγματα, όπως και οι άνθρωποι, και ρυθμίζονται για συγκεκριμένες εφαρμογές, όπως για αναγνώριση προτύπων ή στην δική μας περίπτωση για ομαδοποίηση δεδομένων. Η μάθηση αυτή επιτυγχάνεται, όπως και στα βιολογικά νευρωνικά δίκτυα, με την προσαρμογή των συναπτικών βαρών που υπάρχουν ανάμεσα στους νευρώνες [6]. Το πρώτο τεχνητό νευρωνικό δίκτυο δημιουργήθηκε το 1943 από τον νευροφυσιολόγο Warren McCulloch και τον επιστήμονα της λογικής Walter Pits. Η τεχνολογία όμως της εποχής δεν ήταν ανεπτυγμένη αρκετά και οι θεωρίες της μάθησης μέσω νευρωνικών δικτύων δεν μπόρεσαν να αναπτυχθούν αρκετά. Θα χρειαστεί η ανάπτυξη των υπολογιστών και θα περάσουν αρκετά χρόνια για να γίνουν χρήσιμες και παραγωγικές προσομοιώσεις, οι οποίες θα αναζωπυρώσουν το ενδιαφέρον και την χρηματοδότηση του κλάδου που ήταν ανενεργή για αρκετά χρόνια. Στην συνέχεια της εισαγωγής αυτής, θα εξηγήσουμε με περισσότερες λεπτομέρειες και παραδείγματα το πώς δουλεύει ο αλγόριθμος Κ-μέσων, καθώς και η βασική θεωρία των νευρωνικών δικτύων που αναπτύχθηκε παραπάνω και θα χρησιμοποιήσουμε στην εργασία. Ο αναγνώστης που είναι εξοικειωμένος με τα θέματα αυτά, μπορεί να μεταβεί κατευθείαν στο δεύτερο κεφάλαιο όπου περιγράφεται ο προτεινόμενος αλγόριθμος. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 16

1.1 Ο αλγόριθμος k-means Ο όρος k-means χρησιμοποιήθηκε για πρώτη φορά από το James MacQueen το 1967 [7] αν και η ιδέα υπήρχε ήδη από το 1957 από τον Hugo Steinhaus [8]. Ο αλγόριθμος προτάθηκε για πρώτη φορά από τον Stuart Lloyd σαν μια τεχνική για την διαμόρφωση παλμικού κώδικα [9], αλλά δεν δημοσιεύθηκε εκτός των εργαστηρίων της εταιρίας Bell μέχρι το 1982. To 1965 o Ε.W.Forgy δημοσίευσε την ίδια μέθοδο ακριβώς [10], γι αυτό και ο αλγόριθμος είναι γνωστός σαν αλγόριθμος Lloyd-Forgy. Δεδομένου ενός συνόλου παρατηρήσεων ( ), όπου κάθε παρατήρηση είναι ένα d-διάστατο διάνυσμα, ο αλγόριθμος προσπαθεί να χωρίσει τις n παρατηρήσεις σε σύνολα (κλάσεις) S =, έτσι ώστε να ελαχιστοποιείται το άθροισμα των τετραγωνικών αποστάσεων εσωτερικά σε κάθε κλάση. Με άλλα λόγια προσπαθεί να βρει το : (1) Όπου είναι το μέσο διάνυσμα της κλάσης. Η κλασική μορφή του αλγορίθμου είναι η εξής. Δεδομένου ενός αρχικού συνόλου k μέσων : 1) (Βήμα ανάθεσης) Εκχώρησε κάθε παρατήρηση στην κλάση της οποίας ο μέσος απέχει την μικρότερη τετραγωνική ευκλείδεια απόσταση, ουσιαστικά δηλαδή στον κοντινότερο μέσο. (2) Όπου κάθε εκχωρείτε σε ακριβώς ένα, ακόμη και αν θα μπορούσε να εκχωρηθεί σε δύο ή παραπάνω. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 17

2) (Βήμα αναβάθμισης) Υπολογίζουμε τα νέα κέντρα κάθε κλάσης σαν τον αριθμητικό μέσο των παρατηρήσεων που ανήκουν σε αυτή. (3) Ο αλγόριθμος επαναλαμβάνει τα βήματα 1 και 2 μέχρι να μην υπάρχουν πλέον διαφορές στις εκχωρήσεις 2 συνεχόμενων επαναλήψεων των βημάτων. Επίσης, επειδή και τα δύο βήματα του αλγορίθμου βελτιστοποιούν το κριτήριο των ελάχιστων τετραγωνικών αποστάσεων, και υπάρχει ένας πεπερασμένος αριθμός από διαφορετικούς διαχωρισμούς των παρατηρήσεων, ο αλγόριθμος συγκλίνει σε ένα τοπικό ελάχιστο. Δεν υπάρχει απόδειξη ότι ο αλγόριθμος θα καταλήξει σε ολικό ελάχιστο. Όσον αφορά την αρχικοποίηση των k μέσων, οι πιο συνήθεις μέθοδοι είναι η Forgy και η τυχαία ανάθεση. Η μέθοδος Forgy χρησιμοποιεί k τυχαίες παρατηρήσεις ως τους k-μέσους του πρώτου βήματος. Η τυχαία μέθοδος αναθέτει με τυχαίο τρόπο τις παρατηρήσεις σε κάποια από τις k κλάσεις και συνεχίζει με το βήμα υπολογισμού μέσων από αυτά. Για να γίνει πιο κατανοητός ο αλγόριθμος ακολουθεί ένα απλουστευμένο παράδειγμα που αφορά παρατηρήσεις 2 διαστάσεων, δηλαδή σημεία στον ευκλείδειο δισδιάστατο χώρο [11]. Έστω ότι οι παρατηρήσεις μας είναι τα εξής σημεία με συντεταγμένες (x,y) : Σημείο x y 1 1.0 1.0 2 1.5 2.0 3 3.0 4.0 4 5.0 7.0 5 3.5 5.0 6 4.5 5.0 7 3.5 4.5 ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 18

και προσπαθούμε να τα χωρίσουμε σε k=2 κλάσεις. Θα χρησιμοποιήσουμε την αρχικοποίηση Forgy και επιλέγουμε τυχαία σαν αρχικά κέντρα των κλάσεων τις παρατηρήσεις: Σημείο Κέντρο Κλάση 1 1 (1.0, 1.0) Κλάση 2 4 (5.0, 7.0) Τα δύο αυτά σημεία αυτόματα ανήκουν στις αντίστοιχες κλάσεις. Για τα υπόλοιπα σημεία θα εξεταστούν σε σειρά οι αποστάσεις του καθενός από τα κέντρα των κλάσεων, και το καθένα θα ενταχθεί σε αυτή από την οποία απέχει λιγότερο. Το μέσο διάνυσμα κάθε κλάσης επαναϋπολογίζεται με την προσθήκη κάθε νέου σημείου στην κλάση. Ο παρακάτω πίνακας δείχνει την σειρά των εντάξεων του κάθε σημείου και τον υπολογισμό του μέσου διανύσματος που προκύπτει από τα σημεία που ανήκουν στην κλάση σε κάθε βήμα: Κλάση 1 Κλάση 2 Βήμα Σημεία Μέσο διάνυσμα Σημεία Μέσο διάνυσμα Κλάσης κλάσης (κέντρο) Κλάσης κλάσης (κέντρο) 1 1 (1.0, 1.0) 4 (5.0, 7.0) 2 1, 2 (1.2, 1.5) 4 (5.0, 7.0) 3 1, 2, 3 (1.8, 2.3) 4 (5.0, 7.0) 4 1, 2, 3 (1.8, 2.3) 4, 5 (4.2, 6.0) 5 1, 2, 3 (1.8, 2.3) 4, 5, 6 (4.3, 5.7) 6 1, 2, 3 (1.8, 2.3) 4, 5, 6, 7 (4.1, 5.4) Οι κλάσεις λοιπόν έγιναν οι εξής: Κλάση Σημεία Μέσο διάνυσμα Κλάση 1 1, 2, 3 (1.8, 2.3) Κλάση 2 4, 5, 6, 7 (4.1, 5.4) Δεν είμαστε σίγουροι για το αν οι αναθέσεις είναι σωστές, γι αυτό επαναλαμβάνουμε ξανά το βήμα ανάθεσης και εξετάζουμε τις αποστάσεις των παρατηρήσεων από τα κέντρα των κλάσεων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 19

Σημείο Απόσταση από κέντρο κλάσης 1 Απόσταση από κέντρο κλάσης 2 1 1.5 5.4 2 0.4 4.3 3 2.1 1.8 4 5.7 1.8 5 3.2 0.7 6 3.8 0.6 7 2.8 1.1 Βλέπουμε ότι το σημείο 3 είναι λανθασμένα στην κλάση 1 αφού απέχει λιγότερο από το κέντρο της κλάσης 2, επομένως αλλάζουμε την ανάθεση του στην κλάση 2. Τα υπόλοιπα σημεία παραμένουν όπως ήταν. Επαναϋπολογίζουμε λοιπόν τα κέντρα των κλάσεων. Σημεία Μέσο διάνυσμα Κλάση 1 1, 2 (1.3, 1.5) Κλάση 2 3, 4, 5, 6, 7 (3.9, 5.1) Κανονικά ο αλγόριθμος θα συνέχιζε τα παραπάνω βήματα και θα επαναϋπολόγιζε αποστάσεις. Στο συγκεκριμένο όμως παράδειγμα φτάσαμε σε σύγκλιση καθώς κάθε σημείο ανήκει στην σωστή κλάση (κάθε σημείο απέχει λιγότερο από το κέντρο της κλάσης του σε σχέση με το κέντρο της άλλης κλάσης) γι αυτό και ο αλγόριθμος σταματάει εδώ. Να αναφέρουμε ότι υπάρχει η πιθανότητα ο αλγόριθμος να μην συγκλίνει πάντα σχετικά γρήγορα, επομένως είναι καλό να υπάρχει συνθήκη τερματισμού, όπως κάποιος συγκεκριμένος αριθμός βημάτων. Το παραπάνω παράδειγμα έδειξε την απλή λειτουργία του k-means. Υπάρχουν όπως έχουμε αναφέρει, διάφορες παραλλαγές του οι οποίες όμως δεν θα μας απασχολήσουν στα πλαίσια της εργασίας αυτής και αφήνεται στον αναγνώστη να ψάξει σχετική βιβλιογραφία. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 20

1.2 Το μοντέλο McCulloch-Pits Το παρακάτω μοντέλο νευρώνα που θα παρουσιάσουμε αναφέρεται σε τεχνητούς νευρώνες οι οποίοι είναι εμπνευσμένοι από τους βιολογικούς νευρώνες του εγκεφάλου και το περιέγραψαν πρώτοι, όπως αναφέραμε, οι Αμερικανοί επιστήμονες McCulloch και Pits. Το μοντέλο νευρώνα McCulloch-Pits παρουσιάζεται στο Σχήμα 1 : Σχήμα 1 : Το μοντέλο McCulloch-Pits Ο νευρώνας σε αυτό το μοντέλο δεν είναι τίποτα παραπάνω από μια μαθηματική συνάρτηση που δέχεται πολλές εισόδους και παράγει μια τιμή y, η οποία όταν y=0 λέμε ότι ο νευρώνας μένει αδρανής ή αλλιώς δεν πυροδοτεί, ενώ όταν y=1 ο νευρώνας πυροδοτεί. Ο τρόπος με τον οποίο ο νευρώνας παράγει την έξοδο αυτή και αποφασίζει για το αν θα πυροδοτήσει ή όχι είναι ο εξής: Καταρχήν ορίζει την ποσότητα u, που λέγεται φορτίο εισόδου του νευρώνα ως: (4) Το οποίο είναι το άθροισμα των γινομένων των τιμών εισόδου με τα συναπτικά βάρη του νευρώνα. Τα συναπτικά βάρη είναι πραγματικοί θετικοί αριθμοί για τις ενισχυτικές συνάψεις και αρνητικοί για τις ανασταλτικές συνάψεις. Το αν ο νευρώνας θα πυροδοτήσει ή όχι, εξαρτάται από το αν η τιμή u είναι μεγαλύτερη ή όχι από ένα κατώφλι θ. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 21

Έτσι μπορούμε να γράψουμε ότι: (5) Όπου f (u) η λεγόμενη βηματική συνάρτηση. (6) Συνήθως το κατώφλι θ, ορίζεται σαν τιμή εισόδου, του οποίου το συναπτικό βάρος είναι πάντα -1. Με αυτό τον τρόπο μπορούμε να γράψουμε ότι (7) Στο παραπάνω μοντέλο λοιπόν η απόφαση για πυροδότηση ή όχι γίνεται από την βηματική συνάρτηση. Υπάρχουν όμως και άλλα μοντέλα για τον νευρώνα που μπορούν να χρησιμοποιηθούν. Η διαφορά των μοντέλων αυτών είναι κυρίως στη μορφή της μη γραμμικής συνάρτησης f, που στην παραπάνω περίπτωση ήταν η βηματική. Η συνάρτηση αυτή λέγεται και συνάρτηση ενεργοποίησης του νευρώνα και κάποιες από τις μορφές που μπορεί να πάρει είναι οι εξής: Βηματική -1/1 Σιγμοειδής Υπερβολική Εφαπτομένη ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 22

Αλλά και αρκετές άλλες. Στα πλαίσια της εργασίας αυτής η συνάρτηση ενεργοποίησης που χρησιμοποιήθηκε είναι η σιγμοειδής. 1.3 Το δίκτυο Perceptron Το πιο απλό νευρωνικό δίκτυο που μπορεί να σχεδιαστεί και να μελετηθεί είναι προφανώς ένα δίκτυο το οποίο αποτελείται από ένα μόνο νευρώνα. Η λέξη δίκτυο χρησιμοποιείται καταχρηστικά αφού δεν υπάρχουν περισσότεροι από ένας νευρώνες για να συνδεθούν μεταξύ τους. Οι μόνες συνδέσεις που υπάρχουν είναι αυτές μεταξύ των εισόδων και του νευρώνα, όπως ακριβώς παρουσιάστηκε στο Σχήμα 1 που δείχνει το μοντέλο του ενός νευρώνα. Η συνάρτηση μεταφοράς που υλοποιεί ο μοναδικός νευρώνας του Perceptron βρίσκεται στην εξίσωση (8): (8) Οι ορισμοί των παραμέτρων του δικτύου είναι όμοιοι με αυτούς που αναφέραμε παραπάνω, όσον αφορά δηλαδή το διάνυσμα εισόδου [ ], το διάνυσμα συναπτικών βαρών, τον τρόπο που χρησιμοποιούμε την διέγερση εισόδου u, το κατώφλι θ που καθορίζει την ενεργοποίηση του νευρώνα ή όχι κτλ. Μια μικρή διαφορά που αξίζει να αναφέρουμε είναι ότι στην προτίμηση να χρησιμοποιούμε το κατώφλι ενεργοποίησης θ σαν παράμετρο στο διάνυσμα εισόδου, σαν, αυτό που κάνουμε έχοντας ακριβώς το ίδιο αποτέλεσμα είναι αντί για =θ και =-1, να χρησιμοποιούμε = -θ (το οποίο ονομάζουμε πόλωση ή bias) και =1. Ακόμη μπορούμε να αναγνωρίσουμε την εξίσωση (8) ως το εσωτερικό γινόμενο των διανυσμάτων w και x, οπότε είναι: (9) Τι μπορούμε όμως πρακτικά να πετύχουμε με το δίκτυο αυτό; Χρησιμοποιώντας π.χ την βηματική συνάρτηση (0/1) που παρουσιάσαμε είδαμε ότι μπορούμε με την συνάρτηση μεταφοράς να λάβουμε μια δυαδική έξοδο y. Ένα απλό παράδειγμα χρήσης αυτής της μεταβλητής είναι το εξής: Η εξίσωση (10) ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 23

αντιστοιχεί σε ένα υπέρ επίπεδο στο χώρο των n διαστάσεων ( ). Τα σημεία x που αντιστοιχούν σε θετικές τιμές u>0 βρίσκονται από την μια πλευρά του υπέρ-επιπέδου, τα σημεία x που αντιστοιχούν σε αρνητικές τιμές u<0 βρίσκονται από την απέναντι πλευρά ενώ για όσα σημεία u=0, αυτά βρίσκονται πάνω στο διαχωριστικό υπερεπίπεδο. Μπορούμε άρα να πούμε ότι ο χώρος είναι χωρισμένος σε 2 μέρη: Στο ένα είναι y=1 ενώ στο άλλο y=0. Αν σκεφτούμε τις 2 διαστάσεις (n=2), το υπερεπίπεδο που αναφέραμε δεν είναι τίποτα παραπάνω από μια ευθεία με εξίσωση: (11) η οποία ευθεία είναι κάθετη στο διάνυσμα συναπτικών βαρών w. Με αυτόν τον τρόπο λοιπόν χωρίσαμε τον χώρο σε 2 τμήματα, το ένα προς την κατεύθυνση του w το οποίο περιέχει τα σημεία x για τα οποία u>0 (και άρα y=1), και το τμήμα το οποίο είναι αντίθετο στο w και περιέχει τα σημεία για τα οποία u<0 (και άρα y=0). Ένα παράδειγμα που μπορούμε να δούμε την χρησιμότητα των παραπάνω είναι το εξής: Έστω ότι έχουμε κάποια διανύσματα χαρακτηριστικών x=[ ] (λέγονται πρότυπα) ως προς τα οποία 2 κλάσεις ζώων παρουσιάζουν χαρακτηριστικές διαφορές, π.χ. έχουμε = μήκος αυτιών, = το ύψος του. Γνωρίζουμε π.χ. ότι τα γαϊδούρια έχουν μεγαλύτερο μήκος αυτιών από τα άλογα, και ταυτόχρονα είναι πιο κοντά σε ύψος. Αυτό σημαίνει ότι αν πάρουμε κάποια δείγματα τέτοιων διανυσμάτων χαρακτηριστικών και τα αποτυπώσουμε στον χώρο σαν δισδιάστατα σημεία, περιμένουμε τα δείγματα αλόγων, να βρίσκονται σε διαφορετική περιοχή από τα δείγματα των γαϊδουριών. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 24

Σχήμα 2 : Κατανομή προτύπων αλόγων και γαϊδουριών Βλέπουμε ότι για την παραπάνω περίπτωση, οι κλάσεις απέχουν αρκετά μακριά μεταξύ τους και είναι γραμμικά διαχωρίσιμες, που σημαίνει ότι μπορούμε με μια ευθεία να τις διαχωρίσουμε. Όταν υπάρχει λοιπόν μια τέτοια ευθεία αυτό σημαίνει ότι υπάρχει και ένα δίκτυο Perceptron που αντιστοιχεί στην ευθεία αυτή, και μπορεί να ταξινομήσει με βάση αυτήν τα δείγματα εισόδου, στο παράδειγμα μας, σε άλογα (y=1) ή γαϊδούρια (y=0). Ουσιαστικά αυτό που πρέπει να οριστεί στην εξίσωση (12) είναι τα βάρη w, τα οποία θα καθορίσουν το ποια είναι η ευθεία. Το δίκτυο δεν γνωρίζει προφανώς τις κατάλληλες τιμές των βαρών από την αρχή, και ούτως ή άλλως σκοπός του νευρωνικού δικτύου είναι ακριβώς η αυτόματη εκμάθηση αυτών για την επίλυση συγκεκριμένων προβλημάτων. Τα βάρη ξεκινάνε με τυχαίες τιμές και θα προσαρμοστούν επαναληπτικά χρησιμοποιώντας εκπαίδευση με επίβλεψη. Μάθηση με επίβλεψη σημαίνει ότι για κάθε πρότυπο εκπαίδευσης x, υπάρχει ένα στόχος d, ο οποίος ορίζεται από κάποιον επιβλέποντα, και θα προσφέρει μια διορθωτική κατεύθυνση, με την έννοια ότι θα προσαρμόζει τα βάρη, ώστε η έξοδος του δικτύου για το πρότυπο x να διαφέρει όσο το δυνατόν λιγότερο από την αντίστοιχη τιμή στόχο. Ο κανόνας εκπαίδευσης Perceptron, γνωστός και ως κανόνας σταθερής αύξησης, είναι ένας επαναληπτικός αλγόριθμος στον οποίο τα πρότυπα παρουσιάζονται στο ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 25

δίκτυο με κυκλική σειρά και όταν τελειώσουν επαναλαμβάνονται από την αρχή (ένας κύκλος των προτύπων ονομάζεται και εποχή του αλγορίθμου). Σε κάθε εποχή, κάθε συναπτικό βάρος του δίκτυο προσαρμόζει την τιμή του με βάση τον παρακάτω κανόνα: (13) Δηλαδή κάθε βάρος έχει την τιμή που είχε στην προηγούμενη εποχή, αλλαγμένο με κάποιο ποσοστό της διαφοράς του στόχου και της εξόδου του δικτύου για το πρότυπο p. Όπως είναι προφανές αυτή η διόρθωση μπορεί να είναι είτε προσθετική είτε αφαιρετική ανάλογα την ανάγκη. Το β είναι το μέγεθος της διόρθωσης και καλείται βήμα εκπαίδευσης ή ρυθμός εκπαίδευσης (learning step η learning rate ), και πρέπει να είναι ένας μικρός θετικός αριθμός. Η εκπαίδευση λοιπόν γίνεται με τέτοιο τρόπο ώστε ένα πρότυπο που ταξινομήθηκε λανθασμένα στην προηγούμενη εποχή, πλέον θα ταξινομηθεί σωστά ή θα πλησιάζει περισσότερο στο να ταξινομηθεί σωστά [12]. Ο Perceptron με τον παραπάνω αλγόριθμο, αποδεικνύεται ότι συγκλίνει σε μια λύση, η οποία ταξινομεί σωστά όλα τα πρότυπα, αρκεί βέβαια να υπάρχει μια τέτοια λύση, δηλαδή τα πρότυπα να είναι γραμμικά διαχωρίσιμα. Η απόδειξη δεν περιλαμβάνεται για λόγους συντομίας, αλλά ο αναγνώστης μπορεί να την αναζητήσει σε σχετική βιβλιογραφία. Τα περισσότερα προβλήματα όμως δεν είναι γραμμικά διαχωρίσιμα και το απλό μοντέλο Perceptron που περιγράψαμε αδυνατεί να τα λύσει. Για τον λόγο αυτό μελετήθηκε ο Perceptron πολλαπλών νευρώνων και στρωμάτων που θα εξηγήσουμε παρακάτω. 1.4 Το δίκτυο Perceptron πολλών στρωμάτων Είδαμε λοιπόν ότι το απλό δίκτυο Perceptron μπορεί να αναπαραστήσει μόνο επίπεδες διαχωριστικές επιφάνειες. Αυτό συμβαίνει εξαιτίας της επιλογής του να χρησιμοποιεί μονάχα ένα νευρώνα στο δίκτυο. Ο περιορισμός αυτός λοιπόν μπορεί να αναιρεθεί, και έχουμε την δυνατότητα να αναπαραστήσουμε πολυπλοκότερες επιφάνειες με την χρήση περισσότερων νευρώνων. Ας δούμε όμως πώς οι περισσότεροι νευρώνες οργανώνονται σε ένα δίκτυο MLP (multi-layer Perceptron). Ένα δίκτυο MLP φαίνεται στο Σχήμα 3: ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 26

Σχήμα 3 : Το δίκτυο MLP Βλέπουμε λοιπόν ότι το δίκτυο πλέον οργανώνεται σε στρώματα (layers). Αυτά είναι τα εξής: 1) Το στρώμα εισόδου x, το οποίο βέβαια δεν θεωρείται στρώμα νευρώνων αφού οι κόμβοι εισόδου δεν λειτουργούν σαν νευρώνες, αλλά μεταδίδουν τιμές στο επόμενο στρώμα. 2) Το κρυφό στρώμα, το οποίο μπορεί να μην αποτελείται από μονάχα ένα στρώμα αλλά από πολλαπλά στρώματα νευρώνων τα οποία τροφοδοτούν τις τιμές τους σε κάθε επόμενο επίπεδο. Στο Σχήμα 3, το κρυφό επίπεδο π.χ. αποτελείται από 2 μόνο στρώματα. 3) Το στρώμα εξόδου y το οποίο αποτελεί και έξοδο του δικτύου. Αξίζει να τονίσουμε πως οι νευρώνες κάθε επιπέδου l τροφοδοτούν αποκλειστικά τους νευρώνες του επόμενου επιπέδου l+1, και ταυτόχρονα τροφοδοτούνται αποκλειστικά από τους νευρώνες του προηγούμενου ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 27

επιπέδου l-1. Κάθε νευρώνας στο επίπεδο l, συνδέεται με κάθε ένα νευρώνα του επόμενου επιπέδου με κάποιο βάρος. Ακόμη πρέπει να αναφέρουμε πως αυτό το μοντέλο του Perceptron χρησιμοποιεί εκτός από γραμμικές συναρτήσεις στους νευρώνες του και μη γραμμικές, με πιο κοινή την σιγμοειδή συνάρτηση. Ας δούμε όμως πώς γίνεται η εκπαίδευση του νευρωνικού. Ένας από τους πιο κοινούς τρόπους εκπαίδευσης του MLP είναι ο λεγόμενος αλγόριθμος back-propagation και είναι ο τρόπος που χρησιμοποιούμε και στον αλγόριθμο της εργασίας. Όπως και στον απλό Perceptron, η μάθηση γίνεται με επίβλεψη, δηλαδή υπάρχουν διανύσματα στόχοι και επιθυμούμε οι έξοδοι του δικτύου να τους προσεγγίσουν. Ιδανικά επιθυμούμε αυτές οι τιμές να ταυτιστούν, όμως επειδή αυτό μπορεί να μην είναι δυνατόν, αυτό που προσπαθούμε να κάνουμε είναι η βέλτιστη προσέγγιση μέσω κάποιου κριτήριου κόστους, και αυτό το κριτήριο είναι το μέσο τετραγωνικό σφάλμα. Δηλαδή: (14) Προσπαθούμε σε κάθε εποχή του αλγορίθμου, να αλλάζουμε τα βάρη του νευρωνικού με τέτοιο τρόπο ώστε το παραπάνω κριτήριο να ελαχιστοποιείτε. Ο αλγόριθμος Back Propagation ή Γενικευμένος Κανόνας Δέλτα είναι ένας αλγόριθμος που αποτελείται από 3 φάσεις. Η πρώτη φάση είναι η φάση ανάκλησης (Forward Phase) όπου υπολογίζουμε τις εξόδους α του κάθε νευρώνα κάθε στρώματος. Να θυμίσουμε ότι σαν έξοδο του νευρώνα θεωρούμε το άθροισμα των εισόδων του νευρώνα (είτε από το προηγούμενο στρώμα του νευρωνικού, είτε από τις αρχικές εισόδους x) πολλαπλασιασμένες με τα αντίστοιχα συναπτικά βάρη που καταλήγουν στον εξεταζόμενο νευρώνα και κανονικοποιημένες από την αντίστοιχη συνάρτηση ενεργοποίησης. Πιο συγκεκριμένα η έξοδος του νευρώνα i στο στρώμα l είναι: (15) Όπου (16) ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 28

Η δεύτερη φάση του αλγορίθμου, η φάση υπολογισμού δ (Backward Phase) υπολογίζει τις κλίσεις δ κάθε νευρώνα κάθε στρώματος σύμφωνα με τον τύπο: Για το στρώμα L= τελευταίο στρώμα (17) Για τα στρώματα l =1,, L-1 (18) Τα σφάλματα αυτά που δίνουν και το όνομα στην μέθοδο, φαίνεται ότι πηγάζουν από το τελευταίο στρώμα και μεταδίδονται προς τα πίσω, προς τα αρχικά στρώματα. Οι κλίσεις του τελευταίου στρώματος είναι η διαφορά του στόχου από την έξοδο του συγκεκριμένου νευρώνα, επί την παράγωγο της συνάρτησης ενεργοποίησης f. Οι κλίσεις των ενδιάμεσων στρωμάτων ουσιαστικά παίρνουν πληροφορία από τις κλίσεις των επόμενων στρωμάτων, γι αυτό και λέμε ότι πηγαίνουμε προς τα πίσω. Το ενδιαφέρον είναι ότι τα βάρη που χρησιμοποιούνται στην οπισθοδρόμηση του σφάλματος, είναι τα ίδια με τα βάρη που χρησιμοποιούμε στην ανάκληση. Η τελευταία φάση είναι η φάση της ενημέρωσης βαρών, σύμφωνα με τους παρακάτω τύπους και είναι απλώς η φάση στο τέλος κάθε εποχής όπου αλλάζουμε την τιμή των βαρών. j=0,1,,n(l ), l=1,,l (19) Το β αποτελεί και πάλι το βήμα εκπαίδευσης, και είναι δύσκολο να προσεγγιστεί η σωστή τιμή του. Ένα μικρό βήμα εκπαίδευσης το οποίο θα προσομοιώσει σωστά την κατάβαση δυναμικού, θα οδηγήσει στην σύγκλιση στο κοντινότερο τοπικό ελάχιστο, αλλά θα είναι αργή. Ένα μεγαλύτερο βήμα εκπαίδευσης οδηγεί σε πιο γρήγορη σύγκλιση αλλά υπάρχει ο κίνδυνος να μην γίνει καλή προσέγγιση της κατάβασης δυναμικού και ο αλγόριθμος να παρουσιάζει ταλαντώσεις ή και απόκλιση (τα βάρη να αποκτήσουν τιμές στο ± ) [12]. Οι παραπάνω φάσεις συνεχίζουν μέχρι το σφάλμα J να είναι μικρότερο από κάποιο κατώφλι ε που θέτουμε και θεωρούμε ότι είναι ικανοποιητικό. Ο πλήρης αλγόριθμος παρουσιάζεται παρακάτω: ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 29

Back Propagation Έισοδοι : P ζεύγη διανυσμάτων εισόδων-στόχων { }. Έξοδοι : Τα εκπαιδευμένα βάρη Μέθοδος : Αρχικοποίηση των βαρών σε μικρές τυχαίες τιμές για κάθε στρώμα l. Το βάρος αντιστοιχεί στο κατώφλι του νευρώνα i του στρώματος l. Θέσε εποχή n 1 Επανέλαβε { Για κάθε πρότυπο p=1,,p{ 1) Φάση ανάκλησης Υπολόγισε τις εξόδους 2) Φάση υπολογισμού δ Με βάση τον τύπο (17) υπολόγισε τις κλίσεις Με βάση τον τύπο (18) υπολόγισε τις κλίσεις Για 3) Φάση ενημέρωσης βαρών του στρώματος L του στρώματος l (από το προ-τελευταίο προς το πρώτο στρώμα) Με βάση τον τύπο (19) ενημέρωσε τα βάρη όλων των στρωμάτων } n n+1 } Mέχρι το συνολικό σφάλμα J σε μια εποχή να είναι μικρότερο από κάποιο κατώφλι ε που ορίσαμε. Ένα τέτοιο νευρωνικό δίκτυο χρησιμοποιούμε και στην εργασία μας, έναν απλό MLP με ένα κρυφό στρώμα και αλγόριθμο εκπαίδευσης back propagation με συνάρτηση ενεργοποίησης την σιγμοειδή [12]. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 30

1.5 O Autoencoder Η αρχική ιδέα που ενέπνευσε την θεωρία των autoencoder ήταν η επιθυμία για έναν αλγόριθμο back propagation χωρίς την επίβλεψη δασκάλου με την μορφή των καθοδηγητικών διανυσμάτων στόχων όπως είδαμε μέχρι τώρα στα MLP, αλλά που θα χρησιμοποιούσε σαν πρότυπα στόχους τα ίδια τα δεδομένα εισόδου. Είναι ένα από τα πιο θεμελιώδη παραδείγματα μάθησης χωρίς επίβλεψη και προτάθηκε για πρώτη φορά από τον Geoffrey Hinton το 1980 [13]. Ένας autoencoder, είναι ένα τεχνητό νευρωνικό δίκτυο όπως και ο MLP που περιγράψαμε παραπάνω. Έχουν την ίδια δομή, έχει δηλαδή στρώμα εισόδου, εξόδου και κάποιον αριθμό στρωμάτων στο κρυφό ενδιάμεσο επίπεδο, αλλά έχουν μια διαφορά. Το στρώμα εξόδου,έχει τον ίδιο αριθμό κόμβων με το στρώμα εισόδου. Αυτό συμβαίνει γιατί τα πρότυπα στόχοι, δηλαδή η έξοδος που επιθυμούμε, είναι όπως είπαμε τα ίδια τα πρότυπα εισόδου επομένως οι διαστάσεις τους πρέπει να ταιριάζουν [13,14]. Σκοπός ενός autoencoder είναι η κωδικοποίηση των δεδομένων εισόδου με τέτοιο τρόπο ώστε αφού περάσουν μέσα από το νευρωνικό, να παράγονται και στην έξοδο με την μικρότερη δυνατή παραμόρφωση. Με αυτό τον τρόπο μπορούμε να πούμε πως το νευρωνικό μαθαίνει να τα ανακατασκευάζει, αφού πρώτα τα αναπαραστήσει σε κάποια άλλη διάσταση (συνήθως μικρότερη από την αρχική τους) στο κρυφό επίπεδο. Για να γίνει αυτό κατανοητό ας φανταστούμε ένα απλό νευρωνικό δίκτυο με ένα κρυφό στρώμα όπως στο Σχήμα 4: ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 31

Σχήμα 4 : Αutoencoder ενός κρυφού επιπέδου Το διάνυσμα εισόδου τροφοδοτείτε στο κρυφό επίπεδο το οποίο έχει 3 νευρώνες, που σημαίνει ότι η έξοδος του είναι ένα τρισδιάστατο διάνυσμα. Επομένως μπορούμε να πούμε ότι η είσοδος κωδικοποιείται σε μια 3-διάστατη μορφή και στην συνέχεια αποκωδικοποιείται ξανά στην έξοδο σαν το 6 διαστάσεων διάνυσμα x. Προφανώς χρειάζεται κάποιος αριθμός εποχών ώστε το νευρωνικό να εκπαιδεύσει τα συναπτικά βάρη των επιπέδων ώστε η τελική έξοδος y να είναι όμοια με την είσοδο, και είναι πιθανό να μην καταφέρει τέλεια ανακατασκευή, αλλά το νευρωνικό θα προσπαθήσει να ελαχιστοποιήσει το τετραγωνικό σφάλμα όπως και στον MLP και να κάνει την καλύτερη δυνατή προσέγγιση. Στο τέλος της εκπαίδευσης το διάνυσμα h του κρυφού επιπέδου, θεωρείται μια συμπιεσμένη αναπαράσταση της εισόδου x (εφόσον η διάσταση του διανύσματος h είναι μικρότερη από την αρχική) αφού οι νευρώνες του κρυφού επιπέδου αναγκάστηκαν να μάθουν να αναπαριστούν την είσοδο σε λιγότερες διαστάσεις. Για τον λόγο αυτό οι autoencoder χρησιμοποιούνται ευρέως σαν μια μέθοδος μείωσης διάστασης δεδομένων, όπως είναι η Principal component analysis (PCA) [13,14,15]. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 32

Η θεωρία των autoencoder επεκτείνεται αρκετά και η βασική θεωρία τους συνδυάζεται με πολλές τεχνικές. Χαρακτηριστικές παραλλαγές των autoencoder είναι οι denoising και οι sparse autoencoders και χρησιμοποιούνται αρκετά στον κλάδο της βαθιάς μάθησης (deep learning). Στα πλαίσια αυτής της εργασίας δεν είναι απαραίτητη η χρήση κάποιου πιο πολύπλοκου μοντέλου από αυτό που παρουσιάσαμε παραπάνω, γι αυτό και δεν θα επεκταθούμε παραπάνω. Αφήνεται στον αναγνώστη να αναζητήσει περισσότερες πληροφορίες για την ενδιαφέρουσα αυτή θεωρία. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 33

Κ Ε Φ Α Λ Α Ι Ο 2 : A U T O E N C O D I N G K - M E A N S 2.1 Ο προτεινόμενος αλγόριθμος Στο παρόν κεφάλαιο, θα παρουσιάσουμε τον προτεινόμενο αλγόριθμο του autoencoding k-means. Δεδομένου πίνακα Χ, διαστάσεων, όπου Μ είναι το πλήθος των δεδομένων εκπαίδευσης προς ομαδοποίηση και Ν να είναι η διάσταση αυτών, και ενός ακέραιου αριθμού k που εκφράζει τον επιθυμητό αριθμό κέντρων για τον k-means, ο αλγόριθμος αρχικοποιεί με τυχαίο τρόπο τα βάρη ενός απλού autoencoder ενός κρυφού στρώματος, διαστάσεων [Μ,P,M] με P να είναι ο αριθμός νευρώνων του κρυφού επιπέδου και P M. Η περιγραφή του αλγορίθμου είναι η εξής: Ο αλγόριθμος αρχικά εκπαιδεύει τον autoencoder για κάποιον αριθμό εποχών ώστε να μάθει να ανακατασκευάζει σε έναν αρκετά ικανοποιητικό βαθμό τα δεδομένα του πίνακα Χ. Αυτό το βήμα μπορούμε να το θεωρήσουμε σαν μια προεπεξεργασία που συμβαίνει μόνο μια φορά για την αρχική είσοδο. Για λόγους σημασιολογίας θα αναφερόμαστε από εδώ και πέρα στον αρχικό πίνακα δεδομένων εισόδου σαν (στην συνέχεια θα φανεί η χρησιμότητα αυτού του ορισμού). Αφού τα βάρη καταφέρουν να ανακατασκευάσουν τα δεδομένα, ο αλγόριθμος εφαρμόζει στα δεδομένα εισόδου τον αλγόριθμο ομαδοποίησης k-means με αριθμό κέντρων k που επιλέχθηκε παραπάνω. Ο αλγόριθμος τρέχει μέχρι να συγκλίνει ή για κάποιον αριθμό εποχών που θεωρούμε πως το αποτέλεσμα του αλγορίθμου είναι ικανοποιητικό και δεν πρόκειται να αλλάξει. Τώρα πλέον, κάθε πρότυπο εισόδου, ανήκει σε μία από τις k κλάσεις. Η ιδέα είναι να χρησιμοποιήσουμε την πληροφορία αυτής της ομαδοποίησης και να προσπαθήσουμε να μετασχηματίσουμε τα δεδομένα εισόδου, να τους αλλάξουμε δηλαδή θέση στον χώρο ελπίζοντας πως μια ομαδοποίηση των μετασχηματισμένων πλέον προτύπων θα είναι καλύτερη. Τον μετασχηματισμό αυτόν θα τον πραγματοποιήσει το νευρωνικό μας δίκτυο. Με το τέλος του k-means, θα χρησιμοποιήσουμε τα κέντρα του αλγορίθμου για να ορίσουμε με διάφορους τρόπους κάποια νέα πρότυπα στόχους για τον autoencoder (όχι δηλαδή πλέον την ίδια την είσοδο). Αυτά θα έχουν την ίδια διάσταση με τα πρότυπα εισόδου και τα ορίζουμε με τέτοιο τρόπο ώστε η θέση τους να απέχει ελάχιστα από τα ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 34

προηγούμενα διανύσματα. Θα δούμε με λεπτομέρεια πως μπορούν να οριστούν αργότερα. Στην συνέχεια, θα αφήσουμε τον autoencoder να τρέξει για κάποιον μικρό αριθμό εποχών, με είσοδο τα αρχικά δεδομένα, έξοδο τα διανύσματα που ορίσαμε στο προηγούμενο βήμα, τα οποία ονομάζουμε ενώ τα συναπτικά βάρη των στρωμάτων συνεχίζουν την εκπαίδευση τους από εκεί που είχαν σταματήσει και δεν αρχικοποιούνται ξανά. Με αυτόν τον τρόπο το νευρωνικό πλέον μαθαίνει να μετασχηματίζει τα αρχικά δεδομένα, στα διανύσματα. Ο αλγόριθμος στην συνέχεια θα επαναλάβει την διαδικασία. Θα εφαρμόσει k-means επάνω στα δεδομένα, με την διαφορά ότι πλέον τα αρχικά k κέντρα του αλγορίθμου θα είναι τα τελικά κέντρα από την προηγούμενη εφαρμογή του k-means στα και όχι τυχαία. Ακολούθως,θα οριστούν ξανά νέα διανύσματα στόχοι, πλέον αναφορικά με τα διανύσματα και τα τρέχοντα κέντρα, και τέλος θα συνεχίσουμε την εκπαίδευση των βαρών του autoencoder. Αυτά τα βήματα αποτελούν μια εποχή του αλγορίθμου η οποία επαναλαμβάνεται όσες φορές επιθυμούμε. Είναι σημαντικό να τονίσουμε ξανά πως σε κάθε εκπαίδευση του autoncoder, η είσοδος είναι πάντοτε τα αρχικά δεδομένα και όχι τα εκάστοτε δεδομένα. Αυτό συμβαίνει γιατί όπως έχουμε αναφέρει τελικός στόχος του αλγορίθμου είναι να έχουμε ένα εκπαιδευμένο νευρωνικό δίκτυο το οποίο μετασχηματίζει τα αρχικά δεδομένα σε άλλες θέσεις, και συνεπώς η σταδιακή εκπαίδευση γίνεται γι αυτό το σκοπό. Ακόμη να τονιστεί πως τα βάρη αρχικοποιούνται μόνο μια φορά στην δημιουργία του autoencoder και παραμένουν τα ίδια (με την έννοια της συνεχούς εκπαίδευσης από εκεί που είχαν μείνει) σε όλη την διάρκεια του αλγορίθμου. Ο αλγόριθμος σε μορφή ψευδοκώδικα είναι ο εξής: Είσοδοι : - Πίνακας διανυσμάτων εισόδου διάστασης Μ N { Χ ο } - Αριθμός επιθυμητών κέντρων { k } - Αριθμός εποχών αλγορίθμου { max_epoch } - Αριθμός εποχών εκπαίδευσης autoencoder ανά εποχή {train_epoch} Έξοδοι : Τα εκπαιδευμένα βάρη Μέθοδος : Τα τελικά k κέντρα του τελευταίου k-means που πραγματοποιήθηκε. Αρχικοποίηση με μικρές τιμές του πίνακα συναπτικών βαρών του κρυφού στρώματος διάστασης όπου Η είναι ο αριθμός των νευρώνων του κρυφού επιπέδου. Αρχικοποίηση με μικρές τιμές του πίνακα συναπτικών βαρών του στρώματος εξόδου διάστασης. Εκπαίδευση του autoencoder για κάποιον αριθμό εποχών με είσοδο. και στόχους ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 35

Θέσε εποχή i 1 Επανέλαβε { 1. Εφαρμογή k-means για k κέντρα στα δεδομένα. Αν i=1 τότε σαν αρχικά κέντρα επέλεξε κ διανύσματα από τον. Αν τότε αρχικά κέντρα είναι τα τελικά κέντρα της προηγούμενης εποχής. 2. Ορισμός των νέων διανυσμάτων στόχων με κάποιον από τους τρόπους που θα ορίσουμε παρακάτω. 3. Εκπαίδευση του autoencoder για train_epoch εποχές με είσοδο και έξοδο. i i +1 } Μέχρι i = max_epoch 2.2 Ορισμός των διανυσμάτων στόχων - παραλλαγές του αλγορίθμου Στην συνέχεια παρουσιάζουμε τους τρόπους με τους οποίους ορίζουμε τα διανύσματα στόχους του autoencoder. Οι διάφοροι τρόποι ορισμού αυτών είναι και οι παραλλαγές του αλγορίθμου, καθώς μετασχηματίζουν τα δεδομένα με μια διαφορετική προσέγγιση. Η ιδέα είναι να χρησιμοποιήσουμε με κάποιο τρόπο την πληροφορία που μας δίνει η ομαδοποίηση για τα δεδομένα. 1) Γραμμική περίπτωση Η αρχική και πιο απλή ιδέα που χρησιμοποιήσαμε είναι η λεγόμενη γραμμική περίπτωση. Με βάση αυτόν τον ορισμό, κάθε διάνυσμα στόχος ορίζεται σαν: Όπου : - είναι το διάνυσμα στόχος για την αντίστοιχη είσοδο i =1,2,,M - είναι το κέντρο της κλάσης στην οποία ανήκει το διάνυσμα το οποίο είναι ένα διάνυσμα διάστασης Ν - α είναι μια αριθμητική μεταβλητή 0<α<1 Αυτό που πρακτικά ορίζει η παραπάνω εξίσωση, δεν είναι τίποτα άλλο από ένα σημείο επάνω στην ευθεία που ενώνει τα σημεία και. Ανάλογα με το α, το σημείο θα είναι κοντύτερα στο ένα άκρο ή στο άλλο. (20) ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 36

Με αυτόν τον τρόπο τα διανύσματα σταδιακά έρχονται με μια σταθερή αναλογία πιο κοντά στα κέντρα των κλάσεων που ανήκουν. Μια διαφορετική εκδοχή της εξίσωσης (20) όπου πρακτικά έχει την ίδια λειτουργία είναι η εξίσωση (21): (21) Όπου dist είναι η ευκλείδεια απόσταση του από το κέντρο. Με αυτόν τον τρόπο τα διανύσματα δεν έλκονται από τα αντίστοιχα κέντρα με τον ίδιο σταθερό ρυθμό (παράμετρος α), αλλά τα σημεία που βρίσκονται πιο κοντά στα αντίστοιχα κέντρα επηρεάζονται πιο έντονα από αυτά που βρίσκονται πιο μακριά. 2) Μη Γραμμικές Περιπτώσεις Γενικεύοντας την εξίσωση (20), αντί να χρησιμοποιήσουμε μόνο ένα κέντρο για τον ορισμό μας, χρησιμοποιούμε ένα γραμμικό συνδυασμό των κέντρων που επιστρέφει ο k-means. Έτσι κάθε κέντρο έλκει με κάποιο ποσοστό το εξεταζόμενο σημείο και αθροίζουμε το αποτέλεσμα αυτών των δυνάμεων. Στην συνέχεια, ορίζουμε το διάνυσμα στόχο με βάση την αρχική θέση και το σημείο άθροισμα που βρήκαμε χρησιμοποιώντας την παράμετρο α. Ο ορισμός είναι ο εξής : (22) Πρέπει να τονίσουμε πως οι παράμετροι αθροίζουν στην μονάδα και τις ονομάζουμε παραμέτρους ομοιότητας (similarities). Βρίσκουμε μια παράμετρο για κάθε κέντρο και την ορίζουμε με βάση την απόσταση του εξεταζόμενου από αυτό. Στην εργασία χρησιμοποιούμε δύο διαφορετικούς τρόπους. Ο πρώτος τρόπος που τον ονομάζουμε κλασματικό ορισμό είναι ο εξής: Πρώτα υπολογίζουμε για κάθε ένα κέντρο τις τιμές: Η τιμή dist αποτελεί την ευκλείδεια απόσταση ανάμεσα στο σημείο και το κέντρο, ενώ p είναι κάποιος μικρός φυσικός αριθμός συνήθως από [1,..,5], και είναι σταθερός για όλο το πείραμα. Με τον ορισμό αυτό όσο πιο κοντά βρίσκεται ένα κέντρο στο σημείο, τόσο μεγαλύτερη είναι η ποσότητα. (23) Αφού βρούμε τις τιμές τις αθροίζουμε σε μια τιμή Smax και υπολογίζουμε: ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 37

(24) Με αυτόν τον τρόπο εγγυόμαστε ότι < 1 και πώς το άθροισμα τους είναι η μονάδα. Τα κέντρα που βρίσκονται πιο κοντά στο σημείο θα έχουν μεγαλύτερη παράμετρο ομοιότητας, και άρα έχουν μεγαλύτερη επιρροή στο σημείο (το έλκουν με περισσότερη δύναμη από τα υπόλοιπα ). Ο δεύτερος τρόπος που ονομάζουμε εκθετικό είναι αρκετά όμοιος με τον πρώτο. Σύμφωνα με αυτόν: Ουσιαστικά η λειτουργία είναι ίδια απλώς αλλάζει η συνάρτηση που υπολογίζει την παράμετρο έλξης. Επειδή η εκθετική συνάρτηση μπορεί για κάποιες αποστάσεις να παράξει πολύ μικρές εξόδους (στα όρια της μηχανής) για να αποφευχθούν σφάλματα διαιρούμε με ένα συντελεστή σ που τον ορίζουμε σαν κάποια υποδιαίρεση της διαμέτρου των δεδομένων (μέγιστη απόσταση ανά δύο των αρχικών δεδομένων εισόδου) για να κάνουμε πιο ομαλές και όχι πιθανώς προβληματικές τις τιμές, διατηρώντας ταυτόχρονα τις ιδιότητες τους. Στην συνέχεια, όπως και στον προηγούμενο τρόπο, θα υπολογίσουμε τους συντελεστές ομοιότητας σύμφωνα την εξίσωση (24). Ένα πρόβλημα που αντιμετωπίστηκε και αξίζει να αναφέρουμε, είναι πως στην περίπτωση της κλασματικής περίπτωσης, όταν η δύναμη p είναι μικρή [1-3], οι δυνάμεις έλξης είναι σχετικά ομοιόμορφα κατανεμημένες, που σημαίνει πως τα κέντρα έλκουν με λίγο πολύ όμοιο τρόπο και οι διαφορές στις δυνάμεις μεταξύ κέντρων δεν απέχουν πολύ. Αυτό έχει σαν αποτέλεσμα τα σημεία σιγά σιγά να παρουσιάζουν σύμπτυξη στο κέντρο των δεδομένων και οι κλάσεις να αλληλεπικαλύπτονται. Για να αποφύγουμε αυτό το φαινόμενο, χρησιμοποιήσαμε ένα κανονικοποιητή (regulariser) με τον εξής τρόπο. Αφού ορίσουμε διανύσματα στόχους σε κάθε εποχή του αλγορίθμου, εφαρμόζουμε ένα παραπάνω βήμα του οποίου ο σκοπός είναι να διατηρήσει την μέση απόσταση των δεδομένων από το κέντρο τους (το οποίο είναι το άθροισμα τους προς το πλήθος τους) σταθερή και να αποτρέψει την σύμπτυξη. Ο ορισμός αυτού είναι ο εξής: (25) (26) Όπου - είναι το κέντρο των δεδομένων, - D είναι η μέση απόσταση των διανυσμάτων στόχων την πρώτη εποχή - d είναι η μέση απόσταση των διανυσμάτων στόχων την εποχή i. Το είναι ουσιαστικά ένα μοναδιάιο διάνυσμα με αρχή το κέντρο και πέρας το στόχο κάθε δεδομένου που ορίστηκε για την τρέχουσα εποχή. Αυτό κλιμακώνεται ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 38

με την διαφορά των μέσων αποστάσεων ώστε οι νέοι στόχοι πλέον να έχουν συνολικά ξανά μέση απόσταση D. Με αυτό τον τρόπο ελαττώνουμε το πρόβλημα και δίνουμε την δυνατότητα στα κοντινότερα κέντρα να επηρεάσουν περισσότερο τα σημεία. Προφανώς η απόφαση του αν θα χρησιμοποιήσουμε ή όχι την κανονικοποίηση αυτή, και το να διαλέξουμε ποια μέθοδο ορισμού θα χρησιμοποιήσουμε για τις παραμέτρους ομοιότητας είναι ανοιχτή για την πειραματική μας μελέτη και δίνει διαφορετικά αποτελέσματα όπως θα δούμε παρακάτω. 3) Μέθοδος κοντινότερων γειτόνων Μια διαφορετική προσέγγιση στον ορισμό τον στόχων, ήταν το να μην χρησιμοποιήσουμε τα κέντρα του k-means. Αντί γι αυτά θα χρησιμοποιήσουμε μια γνωστή τεχνική, αυτή των κοντινότερων γειτόνων. Θα επιλέξουμε έναν αριθμό n γειτόνων οι οποίοι θα επηρεάσουν το σημείο και θα του δώσουν κατεύθυνση. Αυτοί ορίζονται με 2 τρόπους: Δηλαδή για τον ορισμό τον στόχων βρίσκουμε το μέσο διάνυσμα των n κοντινότερων γειτόνων και προσπαθούμε να το προσεγγίσουμε. Σε αυτή την περίπτωση κάθε ένας από τους n γείτονες επηρεάζει το σημείο στόχο με όμοιο τρόπο. Εναλλακτικά ορίζουμε: Όπου χρησιμοποιούμε και πάλι συντελεστές ομοιότητας, αυτή την φορά όμως για τους κοντινότερους γείτονες. Με τον τρόπο αυτό οι γείτονες θα επηρεάσουν με διαφορετικό τρόπο με βάση την απόσταση τους από το δείγμα. Οι συντελεστές ορίζονται ακριβώς όπως περιγράψαμε και στην προηγούμενη περίπτωση. (27) (28) ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 39

4) Συνδυαστική Μέθοδος (κοντινότεροι γείτονες και γραμμικές περιπτώσεις) Σαν μια τελευταία προσέγγιση, χρησιμοποιούμε μια συγχώνευση της γραμμικής περίπτωσης με αυτή τον κοντινότερων γειτόνων. Ο ορισμός είναι ο εξής : (29) Το τελικό σημείο που επηρεάζει τελικά το κάθε σημείο είναι ο μέσος όρος του σημείου που βρίσκουμε από το άθροισμα έλξεων των k κέντρων και του σημείου από το άθροισμα έλξεων των γειτόνων. Ο τρόπος που μπορούμε να βρούμε κάθε ένα από τα 2 σημεία και πάλι μπορεί να οριστεί με τις διάφορες παραλλαγές που ορίστηκαν για κάθε περίπτωση. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 40

Κ Ε Φ Α Λ Α Ι Ο 3 : Π Ε Ι ΡΑ Μ ΑΤ Ι Κ Η Μ Ε Λ Ε Τ Η 3.1 Ορισμοί Πειραμάτων και Μετρικών Στο προηγούμενο κεφάλαιο είδαμε την δομή του αλγορίθμου και κάποιες παραλλαγές του. Για να εξετάσουμε την λειτουργία του και την αποτελεσματικότητα του, δημιουργήσαμε ένα αριθμό πειραμάτων. Θα χρησιμοποιήσουμε την βάση δεδομένων MNIST η οποία περιέχει εικόνες χειρόγραφων ψηφίων από το 0 έως το 9. Οι εικόνες αυτές είναι ασπρόμαυρες 28 28 και κάθε κελί της εικόνας περιέχει μια ακέραια τιμή φωτεινότητας από το 0 (μαύρο) μέχρι το 255 (άσπρο). Για την εισαγωγή των δεδομένων εκπαίδευσης αυτών στον αλγόριθμο, μετατρέπουμε το πλέγμα της εικόνας 28 28 σε διανύσμα 784 1, βάζοντας ουσιαστικά τις 28 γραμμές σε σειρά την μία μετά την άλλη. Επειδή η MNIST είναι σχετικά μεγάλη βάση δεδομένων με συνολικά 60000 δεδομένα εκπαίδευσης και 10000 δεδομένα δοκιμής, για τις δοκιμές μας δημιουργήσαμε 2 μικρότερες βάσεις δεδομένων ώστε τα πειράματα μας να τρέχουν σε μικρούς σχετικά χρόνους και να καλυφθούν περισσότερα πειράματα. Βάση Δεδομένων 1 Για δεδομένα εκπαίδευσης χρησιμοποιούμε 500 συνολικά δείγματα από τα ψηφία 0,1 (250 από το καθένα ) των δεδομένων εκπαίδευσης. Αυτά επιλέχθηκαν με τυχαίο τρόπο από το σύνολο των 0 και 1. Για δεδομένα δοκιμής (test) χρησιμοποιούμε και πάλι 500 δείγματα τα οποία επιλέχθηκαν με τυχαίο τρόπο από τα αντίστοιχα δεδομένα δοκιμής των 0,1. Αυτή η βάση επιλέχθηκε για τον λόγο ότι θέλαμε μια μικρή βάση δεδομένων, με εικόνες που να είναι εύκολα διαχωρίσιμες για να δούμε την συμπεριφορά μιας απλής περίπτωσης. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 41

Βάση Δεδομένων 2 Για δεδομένα εκπαίδευσης χρησιμοποιούμε 1000 συνολικά δείγματα από τα ψηφία 0,3,4,5,9 (200 από το καθένα ) των δεδομένων εκπαίδευσης. Ομοίως με την πρώτη μας βάση αυτά επιλέχθηκαν με τυχαίο τρόπο. Για δεδομένα δοκιμής (test) χρησιμοποιούμε 1000 δείγματα τα οποία επιλέχθηκαν με τυχαίο τρόπο από τα αντίστοιχα δεδομένα δοκιμής των 0,3,4,5,9. Ο λόγος που επιλέξαμε την βάση με τέτοιο τρόπο είναι για να δούμε πως ο αλγόριθμος θα λειτουργήσει για περισσότερες κλάσεις ενώ μάλιστα κάποιες από αυτές θα είναι σχετικά όμοιες. Π.χ. τα ψηφία 0 και 3 και 9 έχουν αρκετές ομοιότητες και παρουσιάζει ενδιαφέρον να δούμε πώς θα λειτουργήσει ο αλγόριθμος σε αυτήν την περίπτωση. Για κάθε πείραμα που πραγματοποιούμε, υπολογίζουμε τις εξής γραφικές παραστάσεις για να μας δώσουν μια εικόνα της ομαδοποίησης που έγινε: 1) Το μέσο τετραγωνικό σφάλμα του autoencoder για κάθε εποχή που έτρεξε το πείραμα. 2) Την μέση απόσταση των δεδομένων από τα κοντινότερα κέντρα τους. Το ορίζουμε: : (30) 3) Την κλασματική μέση απόσταση των δεδομένων, η οποία ορίζεται σαν (31) Όπου -new_dist(i) είναι η απόσταση του δεδομένου την τωρινή εποχή, από το κοντινότερο κέντρο του για -old_dist(i) είναι αντίστοιχα η απόσταση για την προηγούμενη εποχή. Η τιμή αυτή θα κυμαίνεται γύρω από το 1, και θα μας δείχνει την συμπεριφορά της μέσης απόστασης των δεδομένων. 4) Την μέση απόσταση των δεδομένων όπως ορίσαμε παραπάνω στο 2) αλλά για το κρυφό επίπεδο όπου η διάσταση είναι μικρότερη. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 42

Στα παραπάνω διαγράμματα θα αναφερόμαστε από εδώ και πέρα σαν διαγράμματα εκπαίδευσης στην πειραματική μελέτη που θα ακολουθήσει. Αφού εκπαιδευτεί ο autoencoder για τον αριθμό των εποχών που ορίσαμε στο κάθε πείραμα, τροφοδοτούμε στην είσοδο τα δεδομένα δοκιμής από την αντίστοιχη βάση δεδομένων. Μετασχηματίζουμε δηλαδή τα δεδομένα δοκιμής και βλέπουμε πως ο autoencoder φέρεται σε άγνωστα δεδομένα και σε ποια ομάδα τα κατατάσσει (με βάση τις αποστάσεις από τα τελικά κέντρα του αλγορίθμου). Για να έχουμε και μια οπτική εικόνα της λειτουργίας του αλγορίθμου δημιουργούμε μια αναπαράσταση των σημείων στις 2 διαστάσεις. Επειδή τα διανύσματα είναι 784 διαστάσεων, για να τα μειώσουμε στις 2 χρησιμοποιούμε την τεχνική PCA για να μειώσουμε την διάσταση και τα εκτυπώνουμε πλέον σαν δισδιάστατα σημεία στον χώρο. Προφανώς δεν γίνεται όλη η πληροφορία που είχαν τα σημεία στις 784 διαστάσεις να αποτυπωθεί πλήρως στις 2 διαστάσεις καθώς η μείωση της πληροφορίας είναι μεγάλη, αλλά παίρνουμε μια διαίσθηση του πώς τα σημεία θα μετακινηθούν στον χώρο ανά εποχή του αλγορίθμου. Τέλος έχοντας στα χέρια μας τις πληροφορίες για τα δεδομένα εκπαίδευσης και δοκιμής, υπολογίζουμε κάποιον αριθμό μετρικών ομαδοποίησης που θα παρουσιάσουμε παρακάτω για να συγκρίνουμε τις επιδόσεις του αλγορίθμου μας σε σχέση με τον απλό k-means. Σαν κριτήριο σύγκρισης θα χρησιμοποιήσουμε επίσης μια πολύ απλή κατηγοριοποίηση των δεδομένων. Γνωρίζοντας τις ετικέτες των δεδομένων εκπαίδευσης, μετράμε σε κάθε κλάση που δημιουργήθηκε από την ομαδοποίηση τον αριθμό των σημείων κάθε ετικέτας (δηλαδή πόσα από τα σημεία στην κλάση είναι μηδενικά, άσσοι κ.ο.), και η ετικέτα που πλειοψηφεί θα δώσει στα δεδομένα της κλάσης την ετικέτα αυτή, θα θεωρήσει δηλαδή ότι η κλάση αυτή εκπροσωπεί μηδενικά. Αυτές τις ετικέτες θα τις ονομάσουμε πειραματικές ετικέτες και στην συνέχεια θα δούμε πώς θα τις χρησιμοποιήσουμε στην αξιολόγηση του αλγορίθμου. Οι μετρικές που υπολογίζουμε χωρίζονται σε 2 κατηγορίες, αυτές της εσωτερικής αξιολόγησης, όπου υπολογίζονται με βάση πληροφορίες που βρέθηκαν από την ομαδοποίηση καθαρά, και αυτές της εξωτερικής αξιολόγησης που υπολογίζονται συγκρίνοντας τις ετικέτες των δεδομένων εκπαίδευσης με τις πειραματικές. Οι μετρικές είναι οι εξης: ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 43

Εσωτερική αξιολόγηση - Davies Bouldin Index Ορίζεται σαν : Όπου σαν ορίζουμε την μέση απόσταση των σημείων της ομάδας k από το κέντρο της και την απόσταση ανάμεσα στα κέντρα της ομάδας k και k. Ο αλγόριθμος θα αθροίσει τα που είναι οι μέγιστες τιμές για τους διάφορους συνδυασμούς των τιμών της παρένθεσης και θα βγάλει τελικά τον μέσο όρο αυτών. Μία μικρότερη τελική τιμή του δείκτη υποδεικνύει καλύτερη ομαδοποίηση [16]. (32) -Άθροισμα τετραγωνικών αποστάσεων (SSE) Όπως λέει και το όνομα είναι το άθροισμα των αποστάσεων κάθε δείγματος από το κέντρο στο οποίο ανήκει υψωμένων στο τετράγωνο. Μικρότερη τιμή σημαίνει ότι τα δείγματα είναι πιο συμπυκνωμένα γύρω από τα κέντρα τους. Ο ορισμός είναι ο εξής : (33) Εξωτερική αξιολόγηση -Δείκτης καθαρότητας (Purity ) Ορίζεται σαν : (34) ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 44

και αποτελεί το πηλίκο των σωστά κατηγοριοποιημένων δειγμάτων (correctly classified - CC) προς το συνολικό πλήθος των δειγμάτων. Σωστή κατηγοριοποίηση θεωρούμε το ταίριασμα της ετικέτας ενός δείγματος μετά την διαδικασία που περιγράψαμε για το πείραμα με την αρχική του ετικέτα. -NMI Ορίζεται σαν : (35) Είναι μια μετρική που χρησιμοποιείται στην στατιστική και στην περίπτωση μας την χρησιμοποιούμε για να δούμε πόσο όμοια ή διαφορετικά είναι τα 2 σύνολα κλάσεων. Θα συγκρίνουμε λοιπόν την κοινή πληροφορία ανάμεσα στις κλάσεις που δημιουργήσαμε με τον αλγόριθμο και τις κλάσεις που δημιούργησε ο απλός k- means. [17] F-measure Ορίζεται σαν : (36) Με ακρίβεια και ανάκληση να ορίζονται σαν (37) (38) Οι συντομογραφίες tp, fp, fn είναι αντίστοιχα για true positive,false positive, false negative. Παίρνει τιμές από 0 έως 1 με ένα 0 να είναι η πλήρης αποτυχία σωστής κατάταξης και 1 να είναι η απόλυτα σωστή (σε σύγκριση πάντα με τις αρχικές ετικέτες).[16] Δείκτης Jaccard Για να ορίσουμε τον δείκτη θα κάνουμε τις εξής παραδοχές. Για ένα ζεύγος δεδομένων βλέπουμε αν οι 2 εξεταζόμενες κατηγοριοποιήσεις P1,P2 το τοποθετούν ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 45

στην ίδια κλάση ή όχι. Υπάρχουν οι εξής περιπτώσεις yy, yn, ny, nn που δηλώνουν ναι ή όχι (yes, no) για το αν οι κατηγοριοποιήσεις P1,P2 έθεσαν τα 2 σημεία αντίστοιχα στην ίδια κλάση ή όχι. Ο δείκτης jaccard με βάση αυτά ορίζεται ως εξής: (39) Παίρνει τιμές από 0-1 και όσο πιο κοντά στο 1 είμαστε, τόσο πιο πολύ ταιριάζουν οι 2 κατηγοριοποιήσεις. [16] Ορίσαμε λοιπόν τις μετρικές μας και τον τρόπο που θα αξιολογήσουμε τα πειράματα μας. Στην συνέχεια θα εξετάσουμε τέτοια πειράματα για κάθε μια διαφορετική παραλλαγή του αλγορίθμου, για να δούμε πώς η φιλοσοφία κάθε μιας συμπεριφέρεται και αν όντως προσφέρει καλά αποτελέσματα. Να αναφέρουμε πως στις γραφικές παραστάσεις που ακολουθούν για κάθε πείραμα, στην θέση των διανυσμάτων εκτυπώνουμε την εικόνα 28 28 που αντιστοιχεί στο κάθε ψηφίο για να έχουμε μια καλύτερη εικόνα για την συμπεριφορά τους. Ακόμη στις παραστάσεις αυτές με κίτρινα σημεία παρουσιάζονται τα διανύσματα στόχοι της αναγραφόμενης εποχής, (των σημείων στα οποία τα διανύσματα μας θα προσπαθήσουν να ανακατασκευαστούν), με κόκκινα σημεία θα παρουσιάζονται τα κέντρα των κλάσεων του k-means, ενώ το πράσινο σημείο είναι το κέντρο των δεδομένων. Τέλος να αναφέρουμε πως για κάθε πείραμα ο αριθμός των k κέντρων είναι αντίστοιχος με τον αριθμό των ετικετών ψηφιών που χρησιμοποιήσαμε σε κάθε βάση δεδομένων, δηλαδή k=2 για την πρώτη βάση και k=5 για την δεύτερη βάση. 3.2 ΠΕΙΡΑΜΑΤΑ 1) Γραμμική περίπτωση με παράμετρο α Ήταν η πρώτη και πιο απλή περίπτωση που αναφέρθηκε. Η συμπεριφορά των διανυσμάτων του αλγορίθμου κατά την διάρκεια της εκπαίδευσης φαίνεται στα Σχήματα 5 και 6 αντίστοιχα για τις 2 βάσεις δεδομένων όταν χρησιμοποιούμε την ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 46

παράμετρο α για τον ορισμό τον στόχων. Η τιμή του α είναι 0.1 και για τις 2 βάσεις δεδομένων ενώ τρέχουμε τα πειράματα για 20 εποχές συνολικά. Σχήμα 5 : Θέσεις διανυσμάτων για την γραμμική περίπτωση 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 47

Σχήμα 6 : Θέσεις διανυσμάτων για την γραμμική περίπτωση 2 ης βάσης δεδομένων Επειδή ο αριθμός των σημείων είναι σχετικά μεγάλος στα πειράματα και η μεγέθυνση δεν δείχνει επαρκώς τις ετικέτες με λεπτομέρεια, παραθέτουμε στο Σχήμα 7 στιγμιότυπο της θέσης των προτύπων κατά την διάρκεια της εκπαίδευσης με μεγέθυνση σαν χαρακτηριστικό παράδειγμα για να κατανοήσει ο αναγνώστης την μορφή του πειράματος. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 48

Σχήμα 7 : Θέσεις διανυσμάτων για την γραμμική περίπτωση 1 ης βάσης δεδομένων με μεγέθυνση Τα μηδενικά στο παράδειγμα αυτό είναι αρκετά εμφανή ενώ οι άσσοι έχουν ήδη συμπτυχθεί περισσότερο και βρίσκονται κοντά στο κέντρο τους. Μπορούμε να δούμε από τις κίτρινες ενδείξεις, την κατεύθυνση στην οποία τα δείγματα θα προσπαθήσουν να μετατοπιστούν (ανακατασκευαστούν). Σημαντική παρατήρηση που έχει ενδιαφέρον, είναι τα μηδενικά που βρίσκονται πιο κοντά στον σωρό των άσσων και έχουν κερδηθεί από το λάθος κέντρο. Αυτό το καταλαβαίνουμε από τα σημεία στόχους τους που βρίσκονται στα δεξιά τους και άρα η κατεύθυνση τους είναι προς τους άσσους και όχι προς τα περισσότερα μηδενικά. Επιστρέφοντας στην γενικότερη περίπτωση, όσον αφορά τα Σχήματα 5 και 6 του πειράματος μας, βλέπουμε τα σημεία να έρχονται όλο και πιο κοντά στα κέντρα τους και στις 2 περιπτώσεις. Σε αυτήν την παραλλαγή η μόνη περίπτωση να αλλάξει ένα σημείο κέντρο είναι μέσω της ανακατασκευής του σημείου στόχου που μπορεί προφανώς να μην είναι πλήρως η επιδιωκόμενη αλλά να διαφέρει ελάχιστα. Ο ορισμός δεν προδιαθέτει κάτι τέτοιο αφού ο στόχος κάθε φορά πηγαίνει σίγουρα προς το αντίστοιχο κέντρο, αλλά ένα σημείο που βρίσκεται στα όρια μεταξύ 2 ή παραπάνω κέντρων (προφανώς είναι πιο κοντά στο ένα ) ίσως να καταφέρει να ξεφύγει από αυτό και να πάει σε κάποιο άλλο. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 49

Για την πρώτη βάση δεδομένων βλέπουμε εύκολα τις 2 μεγάλες ομάδες που δημιουργούνται και υπάρχουν πολύ λίγα δεδομένα τα οποία χρειάστηκαν περισσότερο χρόνο να έρθουν κοντά στους σωρούς που έχουν δημιουργηθεί. Τα 2 ψηφία λοιπόν είναι αρκετά καλά διαχωρίσιμα. Για την δεύτερη βάση δεδομένων παρατηρούμε πως οι 2 μεγάλες ομάδες επάνω και αριστερά αποτελούνται στο μεγαλύτερο ποσοστό της από 1 μόνο ψηφίο (3 για την επάνω ενώ ο δεξιός σωρός περιέχει τα υπόλοιπα 3 ψηφία.. Λόγω του πλήθους των δεδομένων η θέση των κέντρων δεν είναι ευδιάκριτη. Ακόμη παρατηρούμε πως τα δεδομένα λόγω της ανακατασκευής έχουν μια ελαφριά περιστροφή εκτός από σύγκλιση προς τα κέντρα τους. Γενικά περιμένουμε από αυτήν την περίπτωση να δώσει παρόμοια αποτελέσματα με τον k-means όσον αφορά το σε ποια κλάση θα ανήκει κάθε δεδομένο αλλά να έχει συμπυκνώσει τα δεδομένα κοντινότερα στα κέντρα Στα Σχήματα 8 και 9 παρουσιάζονται τα διαγράμματα εκπαίδευσης για την μη γραμμική περίπτωση, όπως αυτά ορίστηκαν στον πρώτο σκέλος του κεφαλαίου αυτού: Σχήμα 8 : Διαγράμματα εκπαίδευσης της γραμμικής περίπτωσης για την 1 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 50

. Σχήμα 9 : Διαγράμματα εκπαίδευσης της γραμμικής περίπτωσης για την 2 η βάση δεδομένων Και στα 2 πειράματα βλέπουμε καλά αποτελέσματα καθώς το σφάλμα του autoencoder μειώνεται (σύγκλιση), όπως και η μέση απόσταση των δεδομένων στις 784 διαστάσεις αλλά και στο κρυφό επίπεδο δηλαδή στις 300 διαστάσεις. Στα Σχήματα 10 και 11 βλέπουμε το πώς μετασχηματίζονται τα δεδομένα δοκιμής αφού τα περάσουμε από τα εκπαιδευμένα δίκτυα. Με μπλε βλέπουμε τις τελικές θέσεις των δεδομένων εκπαίδευσης για να κάνουμε μια άμεση σύγκριση της επίδρασης του μετασχηματισμού στα δεδομένα εκπαίδευσης και δοκιμής. Τα δεδομένα δοκιμής παρουσιάζονται και πάλι σαν εικόνες. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 51

Σχήμα 10 : Δεδομένα δοκιμής γραμμικής περίπτωσης για 1 η βάση δεδομένων. Σχήμα 11 : Δεδομένα δοκιμής γραμμικής περίπτωσης για 2 η βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 52

Στους Πίνακες 1 και 2 παρουσιάζονται οι μετρικές για τις 2 βάσεις δεδομένων. Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 1.6722 1158.4 0.99 0.9291 0.99 0.99 1 1.7912 1775.5 0.99 0.9291 0.99 0.99 - - - 0.198 0.9291 0.99 0.99 - Πίνακας 1: Μετρικές 1 ης βάσης δεδομένων γραμμικής περίπτωσης Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 2.94 33162 62.1% 0.485 0.6206 0.6206 0.737 3.13 41810 55.1% 0.4251 0.5621 0.5621 - - - 59.3% 0.4786 0.6043 0.6043 - Πίνακας 2: Μετρικές 2 ης βάσης δεδομένων γραμμικής περίπτωσης Βλέπουμε πως για την πρώτη βάση δεδομένων το SSE είναι μειωμένο σε σχέση με τον k-means όπως και το DBI πράγμα που υποδηλώνει μια καλύτερη ομαδοποίηση. Όσον αφορά τις μετρικές εξωτερικής αξιολόγησης τα αποτελέσματα των 2 είναι πρακτικά ίδια (κάτι αναμενόμενο). Για την δεύτερη βάση τα αποτελέσματα είναι επίσης θετικά προς τον αλγόριθμό μας σε όλες τις μετρικές. Ο δείκτης Jaccard υποδηλώνει πως στην περίπτωση αυτή και σε αντίθεση με την πρώτη βάση τα 2 σύνολα των κατηγοριοποιήσεων παρουσιάζουν διαφορά. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 53

2.α.1) Μη Γραμμική Περίπτωση χωρίς κανονικοποιητή κλασματικής έλξης Η επόμενη εξεταζόμενη περίπτωση που παρουσιάζει ενδιαφέρον είναι η γραμμική περίπτωση (όπως ορίστηκε στην εξίσωση (22) ) χρησιμοποιώντας τον κλασματικό ορισμό για τους συντελεστές ομοιότητας και χωρίς την χρήση κανονικοποιητή. Στο Σχήμα 11 βλέπουμε την θέση των δεδομένων κατά την διάρκεια της εκπαίδευσης για κλασματική δύναμη p=3.. Σχήμα 12 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση κλασματικής έλξης χωρίς χρήση κανονικοποιητή 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 54

Σχήμα 13 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση κλασματικής έλξης χωρίς χρήση κανονικοποιητή 2 ης βάσης δεδομένων Και για τις 2 βάσεις δεδομένων, και ιδίως για την δεύτερη όπου τα κέντρα και τα δεδομένα είναι περισσότερα, φαίνεται αρκετά καθαρά το πρόβλημα σύμπτυξης που αναφέραμε νωρίτερα στην παρουσίαση της περίπτωσης αυτής του αλγορίθμου. Στο Σχήμα 14 παρουσιάζεται μια σύγκριση της τελευταίας εποχής της εκπαίδευσης για 3 διαφορετικές εκθετικές δυνάμεις στο κλάσμα απόστασης, για να φανεί το πώς οι διαφορετικές δυνάμεις επηρεάζουν την εκπαίδευση, και πώς όσο μεγαλύτερη η δύναμη, τόσο μειώνεται το πρόβλημα αυτό. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 55

Σχήμα 14 :Τελικές θέσεις διανυσμάτων για την μη-γραμμική περίπτωση κλασματικής έλξης για p=1, p=3, p=5 αντίστοιχα για την 1 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 56

Στα Σχήματα 15 και 16 παρουσιάζονται τα διαγράμματα εκπαίδευσης.. Σχήμα 15 : Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης κλασματικής έλξης χωρίς χρήση κανονικοποιητή για τη 1 η βάση δεδομένων Σχήμα 16 : Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης κλασματικής έλξης χωρίς χρήση κανονικοποιητή για την 2 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 57

Σχήμα 17 : Δεδομένα δοκιμής για την μη-γραμμική περίπτωση κλασματικής έλξης χωρίς χρήση κανονικοποιητή για 1 η βάση δεδομένων. Σχήμα 18 : Δεδομένα δοκιμής για την μη-γραμμική περίπτωση κλασματικής έλξης για 2 η χωρίς χρήση κανονικοποιητή βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 58

Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 1.96 1242.7 0.992 0.9407 0.992 0.992 0.998 1.79 17755 0.99 0.9291 0.99 0.99 - - - 0.196 0.8782 0.98 0.98 - Πίνακας 3: Μετρικές 1 ης βάσης δεδομένων μη-γραμμικής περίπτωσης χωρίς κανονικοποιητή κλασματικής έλξης Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 16.3 709.3 0.558-0.5599 0.5599 0.6283 3.01 41732 0.559-0.5745 0.5745 - - - 0.5450-0.5528 0.5528 - Πίνακας 4: Μετρικές 2 ης βάσης δεδομένων μη-γραμμικής περίπτωσης χωρίς κανονικοποιητή κλασματικής έλξης Η πρώτη βάση δεδομένων παρόλη την τάση για σύμπτυξη δεν επηρεάστηκε αρκετά όσον αφορά τις μετρικές αξιολόγησης. Για την δεύτερη όμως τα αποτελέσματα είναι παραπλανητικά όσο αφορά την εσωτερική αξιολόγηση καθώς μπορεί οι αριθμοί να είναι καλοί, αλλά αυτό οφείλεται στην σύμπτυξη καθαρά. Όσον αφορά την εξωτερική αξιολόγηση βλέπουμε πως ο k- means τα πήγε τελικά καλύτερα. Να αναφέρουμε πώς το ΝΜΙ δεν μπόρεσε να οριστεί εδώ (καθώς και σε μερικά ακόμη πειράματα όπως θα φανεί παρακάτω) διότι 2 κλάσεις είχαν πλειοψηφία του ίδιου ψηφίου με αποτέλεσμα μια ετικέτα να χαθεί. Το ΝΜΙ βασίζεται για να μπορέσει να συγκρίνει 2 κατηγοριοποιήσεις στον ίδιο αριθμό ετικετών γι αυτό και δεν μπόρεσε να υπολογιστεί. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 59

2.α.2) Μη Γραμμική Περίπτωση χωρίς κανονικοποιητή εκθετικής έλξης Είναι η ίδια περίπτωση με την προηγούμενη με την διαφορά ότι οι παράμετροι ομοιότητας ορίζονται σύμφωνα με την εξίσωση (25). Σχήμα 19 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση εκθετικής έλξης χωρίς χρήση κανονικοποιητή 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 60

Σχήμα 20 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση εκθετικής έλξης χωρίς χρήση κανονικοποιητή 2 ης βάσης δεδομένων Παρατηρούμε μια σαφώς καλύτερη ομαδοποίηση οπτικά καθώς το πρόβλημα έχει μειωθεί, αλλά μπορούμε να πούμε ότι παραμένει, κυρίως για την δεύτερη βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 61

Σχήμα 21 : Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης εκθετικής έλξης χωρίς χρήση κανονικοποιητή για τη 1 η βάση δεδομένων. Σχήμα 22: Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης εκθετικής έλξης χωρίς χρήση κανονικοποιητή για την 2 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 62

Σχήμα 23 : Δεδομένα δοκιμής μη-γραμμικής περίπτωσης εκθετικής έλξης για 1 η βάση δεδομένων. Σχήμα 24 : Δεδομένα δοκιμής μη-γραμμικής περίπτωσης εκθετικής έλξης για 2 η βάση δεδομένων. Τα δεδομένα δοκιμής μετασχηματίζονται και πάλι σύμφωνα με τα δεδομένα εκπαίδευσης με αρκετά έντονο τρόπο και κληρονομούν επίσης το πρόβλημα. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 63

Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 1.7209 1282.1 0.988 0.9181 0.988 0.988 0.998 1.7212 17755 0.99 0.9291 0.99 0.99 - - - 0.98 0.8782 0.98 0.98 - Πίνακας 5: Μετρικές 1 ης βάσης δεδομένων μη-γραμμικής περίπτωσης χωρίς κανονικοποιητή εκθετικής έλξης Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 12.1 945.9 0.563-0.6179 0.6179 0.516 3.01 41732 0.559-0.5745 0.5745 - - - 0.539-0.599 0.599 - Πίνακας 6: Μετρικές 2 ης βάσης δεδομένων μη-γραμμικής περίπτωσης χωρίς κανονικοποιητή εκθετικής έλξης Τα αποτελέσματα αξιολόγησης είναι αρκετά όμοια με της προηγούμενης περίπτωσης όπως είδαμε στους Πίνακες 3 και 4, αλλά σίγουρα έχουν βελτιωθεί καθώς ο αλγόριθμος αυτή τη φορά καταφέρνει καλύτερη εξωτερική αξιολόγηση από τον k- means. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 64

2.β.1) Μη Γραμμική Περίπτωση με κανονικοποιητή κλασματικής έλξης Η αντίστοιχη περίπτωση με την κλασματική έλξη που παρουσιάστηκε μόνο που πλέον γίνεται χρήση του κανονικοποιητή σύμφωνα με τον ορισμό (26). Σχήμα 25 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση με κανονικοποιητή κλασματικής έλξης 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 65

Σχήμα 26 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση με κανονικοποιητή κλασματικής έλξης 2 ης βάσης δεδομένων Η χρήση του κανονικοποιητή η οποία απομακρύνει σε κάθε εποχή τα αντίστοιχα διανύσματα στόχους ώστε η μέση απόσταση να παραμείνει ίδια, καταφέρνει να λύσει σε αρκετά καλό βαθμό το πρόβλημα σύμπτυξης και για τις 2 βάσεις δεδομένων. Για τη πρώτη χωρίζει ξεκάθαρα τις 2 κλάσεις και τις τοποθετεί σε αντίθετα σημεία του χώρου γύρω από το κέντρο. Για τη δεύτερη δεν το καταφέρνει στο ίδιο βαθμό όπως με την πρώτη αλλά γίνεται σαφής η προσπάθεια για να εμποδιστεί η σύμπτυξη και ταυτόχρονα οι κλάσεις να βρεθούν σε διαφορετικό μέρος του χώρου καθώς γίνονται αντιληπτές διαφορετικές ομάδες ψηφίων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 66

Σχήμα 27 : Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης με κανονικοποιητή κλασματικής έλξης 1 η βάση δεδομένων Σχήμα 28 : Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης με κανονικοποιητή κλασματικής έλξης για την 2 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 67

Σχήμα 29 : Δεδομένα δοκιμής για την μη-γραμμική περίπτωση με κανονικοποιητή κλασματικής έλξης για 1 η βάση δεδομένων. Σχήμα 30 : Δεδομένα δοκιμής μη-γραμμικής περίπτωσης με κανονικοποιητή κλασματικής έλξης για 2 η βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 68

Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 1.4135 2796.6 0.9860 0.9076 0.9860 0.9860 0.996 1.7912 17755 0.99 0.9291 0.99 0.99 - - - 0.99 0.9291 0.99 0.99 - Πίνακας 7: Μετρικές 1 ης βάσης δεδομένων μη-γραμμικής περίπτωσης με κανονικοποιητή κλασματικής έλξης Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 2.664 26298 0.555-0.6082 0.6082 0.4966 3.1391 41810 0.551-0.5621 0.5621 - - - 0.55-0.6137 0.6137 - Πίνακας 8: Μετρικές 2 ης βάσης δεδομένων μη-γραμμικής περίπτωσης με κανονικοποιητή κλασματικής έλξης ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 69

2.β.2) Μη Γραμμική Περίπτωση με κανονικοποιητή εκθετικής έλξης Ομοίως εξετάζουμε την περίπτωση εκθετικής έλξης με χρήση κανονικοποιητή: Σχήμα 31 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση με κανονικοποιητή εκθετικής έλξης 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 70

Σχήμα 32 : Θέσεις διανυσμάτων για την μη-γραμμική περίπτωση με κανονικοποιητή εκθετικής έλξης 2 ης βάσης δεδομένων Και σε αυτή την περίπτωση η χρήση του κανονικοποιητή βοήθησε στον καλύτερο διαχωρισμό των δεδομένων και στην λύση του προβλήματος και μάλιστα με πιο έντονο τρόπο. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 71

Σχήμα 33 : Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης με κανονικοποιητή εκθετικής έλξης 1 η βάση δεδομένων Σχήμα 34: Διαγράμματα εκπαίδευσης της μη-γραμμικής περίπτωσης με κανονικοποιητή εκθετικής έλξης για την 2 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 72

Σχήμα 35 : Δεδομένα δοκιμής μη-γραμμικής περίπτωσης με κανονικοποιητή εκθετικής έλξης για 1 η βάση δεδομένων. Σχήμα 36 : Δεδομένα δοκιμής μη-γραμμικής περίπτωσης με κανονικοποιητή εκθετικής έλξης για 2 η βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 73

Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 1.398 1765 0.9860 0.9076 0.986 0.986 0.996 1.791 17755 0.99 0.9291 0.99 0.99 - - - 0.99 0.9291 0.99 0.99 - Πίνακας 9: Μετρικές 1 ης βάσης δεδομένων μη-γραμμικής περίπτωσης με κανονικοποιητή εκθετικής έλξης Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 2.52 19395 0.554 0.4406 0.5634 0.5634 0.9662 3.13 41810 0.5510 0.4251 0.5621 0.5621 - - - 0.5350 0.4521 0.5694 0.6087 - Πίνακας 10: Μετρικές 2 ης βάσης δεδομένων μη-γραμμικής περίπτωσης με κανονικοποιητή εκθετικής έλξης Τα αποτελέσματα της πρώτης βάσης είναι και πάλι αρκετά όμοια με τον k- means και μάλιστα στην εξωτερική αξιολόγηση ο αλγόριθμος φαίνεται να μην τα πηγαίνει καλύτερα. Όσον αφορά την δεύτερη βάση η εσωτερική και εξωτερική αξιολόγηση είναι καλύτερη χωρίς όμως να απέχει πολύ από τον k-means, γι αυτό και ο δείκτης Jaccard είναι υψηλός. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 74

3.α) Κοντινότεροι γείτονες μέσου διανύσματος Εξετάζουμε την διαφορετική προσέγγιση των κοντινότερων γειτόνων, αφήνοντας την πληροφορίας των κέντρων στην άκρη. Η χρήση μέσου διανύσματος θυμίζουμε πως είναι η χρήση του ορισμού (27), δηλαδή ενός μέσου διανύσματος των γειτόνων. Στα παρακάτω πειράματα ο αριθμός γειτόνων που χρησιμοποιήθηκε είναι 20 και 40 αντίστοιχα για την κάθε βάση. Σχήμα 37 : Θέσεις διανυσμάτων περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 75

Σχήμα 38 : Θέσεις διανυσμάτων για την περίπτωση κοντινότερων γειτόνων μέσου διανύσματος 2 ης βάσης δεδομένων Αυτό που φαίνεται να καταφέρνει ο αλγόριθμος είναι ο σχηματισμός πολλών μικρότερων ομάδων από τον αριθμό των κέντρων που επιλέχθηκαν. Οι ομάδες αυτές μπορεί να ευνοήσουν την ομαδοποίηση ή να μην την ευνοήσουν καθώς φαίνεται πως η θέση των δεδομένων παίζει πιο σημαντικό ρόλο στον μετασχηματισμό από τις προηγούμενες περιπτώσεις και το αποτέλεσμα μπορεί να είναι σχετικά τυχαίο. Αυτό που σίγουρα επιτυγχάνεται παρόλα αυτά είναι σύμπτυξη των δεδομένων στις γειτονιές τους και μείωση της διασποράς τους στον χώρο.. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 76

Σχήμα 39 : Διαγράμματα εκπαίδευσης της περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος 1 η βάση δεδομένων. Σχήμα 40: Διαγράμματα εκπαίδευσης της περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος για την 2 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 77

Παρατηρούμε πως τα διαγράμματα εκπαίδευσης δείχνουν θετικά αποτελέσματα καθώς υπάρχει σύγκλιση του σφάλματος του autoencoder και είναι λογικό καθώς όσο περνάνε οι εποχές τα δεδομένα επηρεάζονται μόνο από τους γείτονες που έχουν επιλεχθεί στο παρελθόν και βρίσκονται ήδη κοντά τους, που σημαίνει πως η επιρροή των υπόλοιπων εξαλείφεται. Σχήμα 41 : Δεδομένα δοκιμής περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος για 1 η βάση δεδομένων. Σχήμα 42 : Δεδομένα δοκιμής περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος για 2 η βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 78

Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 1.715 8189 0.998 0.9812 0.998 0.998 0.992 1.791 17755 0.99 0.9291 0.99 0.99 - - - 0.99 0.9291 0.99 0.99 - Πίνακας 11: Μετρικές 1 ης βάσης δεδομένων περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος Autoencoding K-means Train Data K-means train data Autoencoding K-means Test Data Davies Bouldin SSE Purity NMI Fmeasure Fmerge Jaccard 3.42 7240 0.573-0.5922 0.5922 0.6795 3.013 41732 0.559-0.5745 0.5745 - - - 0.584-0.5972 0.5972 - Πίνακας 12: Μετρικές 2 ης βάσης δεδομένων περίπτωσης κοντινότερων γειτόνων μέσου διανύσματος Τα αποτελέσματα των μετρικών είναι επίσης θετικά και φαίνεται πως ο αλγόριθμος για κάθε βάση δεδομένων τα πηγαίνει καλύτερα. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 79

3.β) Κοντινότεροι γείτονες με χρήση παραμέτρων ομοιότητας Ομοίως με την προηγούμενη περίπτωση με την διαφορά πως αντί για μέσο διάνυσμα χρησιμοποιούνται παράμετροι ομοιότητας,όπως και στις γραμμικές περιπτώσεις, για τους γείτονες όμως αυτή την φορά αντί για τα κέντρα των κλάσεων όπως ορίζονται στην εξίσωση (28). Σχήμα 43 : Θέσεις διανυσμάτων για την περίπτωση κοντινότερων γειτόνων με χρήση παραμέτρων ομοιότητας 1 ης βάσης δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 80

Σχήμα 44 : Θέσεις διανυσμάτων για την περίπτωση κοντινότερων γειτόνων με χρήση παραμέτρων ομοιότητας 2 ης βάσης δεδομένων Όσον αφορά την οπτική αναπαράσταση των δεδομένων δεν βλέπουμε κάποιο πολύ διαφορετικό αποτέλεσμα με την προηγούμενη περίπτωση. Υπάρχει και πάλι σχηματισμός μικρών γειτονιών και ίσως μάλιστα πιο συμπυκνωμένων σε σχέση με πριν. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 81

Σχήμα 45 : Διαγράμματα εκπαίδευσης της περίπτωσης κοντινότερων γειτόνων με χρήση παραμέτρων ομοιότητας 1 ης βάσης δεδομένων Σχήμα 46: Διαγράμματα εκπαίδευσης της περίπτωσης κοντινότερων γειτόνων με χρήση παραμέτρων ομοιότητας για την 2 η βάση δεδομένων ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 82

Σχήμα 47 : Δεδομένα δοκιμής περίπτωσης κοντινότερων γειτόνων με χρήση παραμέτρων ομοιότητας για 1 η βάση δεδομένων. Σχήμα 48 : Δεδομένα δοκιμής περίπτωσης κοντινότερων γειτόνων με χρήση παραμέτρων ομοιότητας για 2 η βάση δεδομένων. ΤΕΧΝΙΚΕΣ ΟΜΑΔΟΠΟΙΗΣΗΣ ΜΕ ΧΡΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΥΤΟΚΩΔΙΚΟΠΟΙΗΣΗΣ 83