ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Στέφανος Παπαβασιλείου

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ Τομέας: Τομέας Ηλεκτρονικής & Υπολογιστών Εργαστήριο: Εργαστήριο Ενσύρματων Τηλεπικοινωνιών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Στέφανος Παπαβασιλείου ΑΜ: Θέμα Κατασκευή Συστήματος Τρισδιάστατης Ταξινόμησης με Μεθόδους Βαθιάς Μάθησης Επιβλέπων Αναπληρωτής Καθηγητής Δερματάς Ευάγγελος Αριθμός Διπλωματικής Εργασίας: Πάτρα, Ιούνιος 2020

2

3 ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η διπλωματική εργασία με θέμα Κατασκευή Συστήματος Τρισδιάστατης Ταξινόμησης με Μεθόδους Βαθιάς Μάθησης του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Στέφανου Παπαβασιλείου (Α.Μ.: ) παρουσιάστηκε δημόσια και εξετάστηκε στο τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στις / / Ο Επιβλέπων Ο Διευθυντής του Τομέα Δερματάς Ευάγγελος Αναπληρωτής Καθηγητής Μουρτζόπουλος Ιωάννης Καθηγητής

4

5 Περίληψη Η παρούσα διπλωματική εργασία ασχολείται με τον κλάδο της Βαθιάς Μάθησης και συγκεκριμένα με την επεξεργασία τρισδιάστατων δεδομένων. Σκοπός είναι η υλοποίηση ενός μοντέλου τρισδιάστατης ταξινόμησης αντικειμένων, σε μορφή νέφους σημείων, με πρωτότυπο αλλά αποδοτικό τρόπο. Τα αποτελέσματα είναι άμεσα συγκρίσιμα με ήδη εφαρμόσιμες υλοποιήσεις, οι οποίες ωστόσο απαιτούν πολύ μεγάλη υπολογιστική ισχύ και έχουν ιδιαίτερα μεγάλη πολυπλοκότητα κατά το σχεδιασμό. Με βάση το μοντέλο του PointNet, του οποίου η αρχιτεκτονική και προσέγγιση χρησιμοποιείται, σχεδιάζεται ένα δίκτυο τρισδιάστατης ταξινόμησης. Αρχικά, φορτώνονται τα δεδομένα, δέχονται κατάληλλη προεπεξεργασία και δημιουργούνται τα κατάλληλα σύνολα για την εκπαίδευση και την αξιολόγηση του μοντέλου. Στη συνέχεια, δημιουργείται το μοντέλο, το οποίο δεχόμενο αντικείμενα σε μορφή νέφους σημείων, απδοδίδει τελικά προβλέψεις για την κατηγορία στην οποία αυτά ανήκουν, με δημιουργία ξεχωριστής κλάσης για την προσθήκη ανοχής αντιμεταθέσεων των σημείων, από το δίκτυο. Ορίζοντας παραμέτρους όπως η απώλεια και ο αλγόριθμος βελτιστοποίησης εκπαιδεύουμε το μοντέλο για σύνολο 80 εποχών, δημιουργώντας έναν αποδοτικό και ακριβή ταξινομητή για τρισδιάστατα αντικείμενα. Η υλοποίηση του μοντέλου έγινε με χρήση της γλώσσας προγραμματισμού Python, ενώ η ανάπτυξη και ο σχεδιασμός του δικτύου βασίστηκε στη βιβλιοθήκη TensorFlow. Τέλος για την εκπαίδευση του μοντέλου αλλά και την αποδοτικότερη υλοποίηση με χρήση ισχυρών cloud καρτών γραφικών, χρησιμοποιήθηκε ο διαδικτυακός editor, Kaggle Notebooks. Λέξεις κλειδιά:βαθιά μάθηση,τρισδιάστατα δεδομένα,ταξινόμηση,νέφη σημείων,pointnet,tensorflow v

6

7 Abstract This diploma thesis deals with the field of Deep Learning and especially studies its application in 3D data processing. The goal is to implement a model for 3D object classification, that directly consumes point clouds, in an innovative yet efficient way. The results of this implementation are directly comparable with state-of-the-art approaches, architectures which are severely constrained by their computation cost and complexity. Based on PointNet network and the provided approach, we design a unified neural network for 3-dimensional classification. Initially, data loading and pre-processing is being made and separate sets for training and evaluation of the model are composed. Subsequently, our classification network for 3-dimensional objects in point cloud format is designed, suitable for consuming unordered point sets in 3-dimensions while accurately predicting their semantic label. After defining our custom loss and fine-tune model s hyperparameters, we train our network for a total of 80 epochs, finally creating a highly efficient and effective 3-dimensional object classifier. The implementation of the aforementioned model was done using Python programming language, while the design and the whole architecture was based on TensorFlow framework. In addition, as far as training our model is concerned, cloud computational environment Kaggle Notebooks was used, with free cloud GPU availability that substantially empowered our implementation. Keywords:deep learning,3d data,classification,point cloud,tensorflow vii

8 viii

9 Ευχαριστίες Θα ήθελα να ευχαριστήσω την οικογένειά μου, που με στήριξε καθόλη την προσπάθεια ενασχόλησης με τη σχολή απο την πρώτη κιόλας μέρα, πιστεύωντας στις δυνατότητες και στο χαρκτήρα μου. Πολύ σημαντική, ωστόσο ήταν η συνδρομή της κοπέλας και των φίλων μου, που αποτέλεσαν τη δεύτερη μου οικογένεια, προσπαθώντας με όποιον τρόπο μπορούσαν να με βοηθήσουν και να με στηρίξουν ανιδιοτελώς, με μοναδική σκέψη την αγάπη προς το πρόσωπό μου. Τους είμαι πραγματικά υπόχρεος και τίποτα δε θα ήταν το ίδιο χωρίς αυτούς. Ευχαριστώ τον κ.δερματά και τέλος, θα ήθελα να ευχαριστήσω θερμά τον κ.σγάρμπα, ο οποίος σε μια εξαιρετικά δύσκολη στιγμή για εμένα, έδωσε το έναυσμα με την άμεση ανταπόκρισή του, δίνοντας μου ελπίδα για τη συνέχιση και την τελική εκπόνηση της εργασίας μου. ix

10 x

11 Περιεχόμενα Περίληψη Abstract Περιεχόμενα Κατάλογος Σχημάτων vi viii xi xiii 1 Εισαγωγή Εισαγωγικό Σημείωμα Σκοπός Διπλωματικής Εργασίας Διάρθρωση Κειμένου Βασικές έννοιες Βαθιάς Μάθησης Aπό την Τεχνητή Νοημοσύνη στη Βαθιά Μάθηση Βασικές έννοιες Νευρωνικών Δικτύων Το Perceptron Μέθοδος Gradient Descent Συνάρτηση Ενεργοποίησης Πολυστρωματικά Νευρωνικά Δίκτυα Πολυεπίπεδο Perceptron και Θεώρημα Καθολικής Προσέγγισης Βαθιά δίκτυα και συναρτήσεις απωλειών Εκπαίδευση και αλγόριθμος Οπισθοδιάδοσης(Backpropagation) Βελτιστοποιήσεις κατά την εκπαίδευση του νευρωνικού δικτύου Ορισμός Learning rate Eκπαίδευση με mini-batches και SGD Υπερπροσαρμογή και Εξομάλυνση Συνελικτικά Νευρωνικά Δικτυα (Convolutional Neural Networks) Εισαγωγή στα Convolutional Neural Networks Δομή και λειτουργία των Convolutional Neural Networks Βαθιά Μάθηση σε 3D Δεδομένα Πρωτοφανής πρόοδος στη Βαθιά Μάθηση Σύνοψη Τρισδιάστατων Αναπαραστάσεων Ευκλείδια Δεδομένα Μη-Ευκλείδια Δεδομένα Σύνολα τρισδιάστατων δεδομένων μεγάλης κλίμακας D Επεξεργασία και Πεδία Εφαρμογής D Ταξινόμηση αντικειμένων D Τεμαχισμός και αναγνώριση αντικειμένων D ανακατασκευή αντικειμένων xi

12 4 Μελέτη Δικτύου PointNet Νέφη σημείων και Βαθιά Μάθηση Νέφη σημείων Βαθιά Μάθηση και νέφη σημείων PointNet Συνεισφορά και σύνοψη του μοντέλου Βασική αρχιτεκτονική του PointNet Σταθερότητα μετασχηματισμών Spatial Transformers Τransformation Networks Ανάλυση και αποτελέσματα του PointNet Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow Tensorflow Keras Kaggle Notebooks Η βάση δεδομένων ModelΝet Υλοποίηση μοντέλου 3D ταξινόμησης Προ-επεξεργασία δεδομένων Σχεδιασμός μοντέλου Ορισμός συνάρτησης απωλειών και διαδικασία εκπαίδευσης μοντέλου Αποτελέσματα και απόδοση μοντέλου Συμπεράσματα και μελλοντικές κατευθύνσεις Συμπεράσματα και μελλοντικές κατευθύνσεις Bibliography 77 xii

13 Κατάλογος Σχημάτων 1.1 Σύγχρονη εποχή και τεχνητή νοημοσύνη Μερικα απο τα μοντέλα της βάσης δεδομένων ModelNet Οπτική αναπαράσταση υπολογισμών σε ενα Συνελικτικό Δίκτυο για την αναγνώριση ενός προσώπου Σχηματικό διάγραμμα τυπικού νευρώνα Σχηματική απεικόνιση τεχνητού νευρωνικού δικτύου Είσοδοι-Βάρη- Άθροιση-Μη-Γραμμική Συνάρτηση-Έξοδος Δυαδική ταξινόμηση δεδομένων Απλουστευμένη απεικόνιση Perceptron Βελτιστοποίηση συνάρτησης απωλειών με χρήση gradient descent σε δισδιάστατο περιβάλλον βαρών Γραφική παράσταση σιγμοειδούς συνάρτησης Εικόνα απο το περιβάλλον playground της TensorFlow Νευρωνικό δίκτυο με ένα κρυφό επίπεδο Softmax συνάρτηση για 3 δεδομένα εξόδου ενός δικτύου Υπολογισμός απώλειας cross-entropy για 3 εξόδους δικτύου Nευρωνικό δίκτυο με έναν κρυφό νευρώνα και συνάρτηση απωλειών J(w) Οπτικοποίηση συνάρτησης απωλειών για το ResNet-110 [1] Διαδικασία συνέλιξης για δισδιάστατες εικόνες Βασική δομή ενός CNN για ταξινόμηση εικόνας Οπτικοποίηση λειτουργίας εφαρρμοζόμενου φίλτρου σε εικόνα Λειτουργία συνάρτησης ReLU Διαδικασία max-pooling Descriptors για επιμέρους σημεία ανθρώπινου σώματος Δισδιάστατη προβολή σφαίρας Έγχρωμη εικόνα με πληροφορία βάθους (RGB-D) Απεικόνιση ογκοστοιχείου Απεικόνιση Octree Συνελικτικό δικτύωμα πολλαπλών λήψεων για τρισδιάστατη αναγνώριση σχήματος Τρισδιάστατη αναπαράσταση αντικειμένου μοφής νέφους σημείων (Point Cloud) Απεικόνιση αντικειμένου μορφής τρισδιάστατου πλέγματος (Mesh) Συνέλιξη στον τρισδιάστατο χώρο Μετατροπή αντικειμένου σε μορφή ογκοστοιχείου (Voxelization) Tεμαχισμός μοντέλου αλόγου σε επιμέρους κατηγορίες Διαδικασία συνέλιξης και αντι-συνέλιξης στο δισδιάστατο χώρο Σχηματική σύνοψη μοντέλου 3DMV Διαδικασία τρισδιάστατης αναγνώρισης αντικειμένου δικύου Frustum PointNet Εύρεση κατάλληλων συντεταγμένων για νέφος σημείων Στάδια διαφορετικού μεγέθους ογκοστοιχείων στο μοντέλο Octree Generating Networks Εικόνα εισόδου και παραχθέν νέφος σημείων απεικονιζόμενου αντικειμένου DeepSDF απεικόνιση μοντέλου xiii

14 4.1 Αρχιτεκτκονική δικτύου PointNet Υλοποίηση max-pool και εύρεση των σημαντικότερων σημείων (global feature) Δομικα χαρακτηριστικά Spatial Transformer Πλέγμα δειγματοληψίας Τελικό στάδιο κανονικοποίησης εισόδου Αποτελέσματα Spatial Transformer για διαφορες εισόδους Μετασχηματισμός εισόδων με χρήση T-Net Αρχιτεκτονική δικτύου T-Net για μετασχηματισμό στο επίπεδο εισόδου Επίδραση bottleneck μεγέθους και πλήθος σημείων εισόδου στην ακρίβεια ταξινόμησης του μοντέλου Απεικόνιση εισόδου και κρίσιμων σημείων για κάθε είσοδο Τρεις διαφορετικές προσεγγίσεις για επίτευξη μη μεταβλητότητας κατά την αντιμετάθεση σημείων Σύγκριση πολυπλοκότητας μοντέλων ανά εκατομμύρια παραμέτρους και απαιτούμενες υπολογιστικές πράξεις ανά δείγμα Ακρίβεια μοντέλων για απώλεια δεδομένων εισόδου DataFrame για point cloud εισόδου Οπτική αναπαράσταση δείγματος point cloud εκπαίδευσης Ανομοιομορφία των κλάσεων στα δεδομένα εκπαίδευσης Αρχιτεκτονική δικτύου 3D ταξινόμησης PointNet Υλοποίηση max-pooling για Ν σημεία Μοντέλο 3D ταξινόμησης PointNet Αποτελέσματα εκπαίδευσης μοντέλου 3D ταξινόμησης Τελική ακρίβεια μοντέλου 3D ταξινόμησης Απόδοση υλοποίησης κατά την πρόβλεψη αντικειμένων από Test Dataset Παρουσίαση εκμάθησης χαρακτηριστικών από 2D νέφη σημείων (PointNet++) xiv

15 1

16 2

17 1. Εισαγωγή 1.1 Εισαγωγικό Σημείωμα Η ραγδαία ανάπτυξη της τεχνολογίας δίνει τόσο στον άνθρωπο, όσο και στην επιστήμη νέες δυνατότητες. Ο άνθρωπος με τη χρήση μηχανών και μηχανημάτων έχει πλέον τη δυνατότητα να πραγματοποιήσει ενέργειες που για χρόνια αποτελούσαν αντικείμενο προς έρευνα. Οι λειτουργίες των παραπάνω μηχανημάτων αποκτούν ολοένα και πιο εκλεπτυσμένες πτυχές, με δημιουργία καινοτόμων προγραμμάτων που βασίζονται σε προσομοίωση της ανθρώπινης νοημοσύνης. Ο όρος της Τεχνητής Νοημοσύνης λοιπόν άρχισε να αναπτύσσεται και να εξελίσσεται με πολύ γρήγορο τρόπο. Μηχανές οι οποίες καταφέρνουν να λύνουν πολύπλοκα προβλήματα με δημιουργικό και πρωτοφανή τρόπο σε μια προσπάθεια μίμησης και της ανθρώπινης αντίληψης και λογικής, χρησιμοποιούνται καθημερινά από ανθρώπους σε πάρα πολλές εφαρμογές. Έτσι η Τεχνητή Νοημοσύνη σταδιακά αλλάζει τις ζωές των ανθρώπων και των σύγχρονων κοινωνιών αποτελώντας ταυτόχρονα κύριο ερευνητικό πεδίο. Επόμενο βήμα προς αυτή την κατεύθυνση αποτέλεσε η δημιουργία και ανάπτυξη συστημάτων, τα οποία θα έχουν τη δυνατότητα να βελτιώνονται αυτόματα μέσω εμπειρίας, χωρίς ωστόσο αυτή τους η λειτουργία να είναι σαφώς προγραμματισμένη από τους ερευνητές. Δηλαδή, ακόμα και να μην υπάρχει η δυνατότητα υπολογισμού της ορθής λύσης σε ένα πρόβλημα, αναπτύσσεται το καλύτερο δυνατό μοντέλο για την προσέγγιση αυτής. Μια πληθώρα αλγορίθμων έχουν διατυπωθεί, οι οποίοι περιγράφουν τον τρόπο με τον οποίο επιτελείται η διαμόρφωση των μοντέλων με τη χρήση των υπολογιστών. Όλες αυτές οι μέθοδοι περιλαμβάνονται στον όρο Μηχανική Μάθηση. Κατάλληλες μέθοδοι διαμορφώνονται που εκμεταλλεύονται την υπολογιστική ικανότητα των μηχανών ώστε να παρουσιαστούν όσο το δυνατόν καλύτερες λύσεις, σε προβλήματα που δεν έχουμε τη δυνατότητα να επιλύσουμε αναλυτικά. Figure 1.1: Σύγχρονη εποχή και τεχνητή νοημοσύνη H απόδοση όμως των αλγορίθμων Μηχανικής Μάθησης εξαρτάται σε μεγάλο βαθμό απο το είδος της αναπαράστασης των δεδομένων με αποτέλεσμα η επιλογή της κατάλληλης αναπαράστασης να είναι ζωτικής σημασίας. Έτσι, η παρουσία των επιστημόνων είναι απραίτητη στο κομμάτι της προ-επεξεργασίας των δεδομένων, όπως η συλλογή δεδομένων και ο καθαρισμός τους απο τυχόν μη σχετικά στοιχεία, αλλά και για την σχεδίαση κατάλληλων χαρακτηριστικών για το κάθε πρόβλημα ξεχωριστά. Η εξαγωγή των χρήσιμων και ουσιαστικών 3

18 4 Εισαγωγή χαρακτηριστικών από έναν αλγόριθμο αναγνωρίζεται απο τους ερευνητές προκειμένου να σχεδιαστούν μοντέλα με αποδοτικό τρόπο και κατάλληλη εκμάθηση στοιχείων για το κάθε πρόβλημα. Αυτός ο ορισμός των χρήσιμων χαρακτηριστικών ωστόσο, αποτελεί μια αρκετά δύσκολη και χρονοβόρα διαδικασία σε αρκετά προβλήματα. Για την αντιμετώπιση αυτού του προβλήματος λοιπόν, δημιουργήθηκαν αλγόριθμοι σε συμβολική μέθοδο, οι οποίοι θα μπορούσαν να αξιολογούν και να αυτοβελτιώνουν την ακρίβειά τους αποσπώντας χρήσιμες πληροφορίες και ανακαλύπτοντας τις απαιτούμενες αναπαραστάσεις και χαρακτηριστικά απευθείας απο τα δεδομένα, χωρίς την παρέμβαση ανθρώπου. Σε αυτή τη βάση αναπτύχθηκε μια συμβολική μέθοδος, που αποτελεί υποσύνολο του πεδίου της Μηχανικής Μάθησης, η οποία ονομάστηκε Βαθιά Μάθηση και αποτελεί το θεμέλιο της παρούσας διπλωματικής. Οι αλγόριθμοι Βαθιάς Μάθησης αναπτύσσονται σε αρχιτεκτονικές Τεχνητών Νευρωνικών Δικτύων, με στόχο την τεχνητή απόδοση του τρόπου λειτουργίας και τη δομής του ανθρώπινου εγκεφάλου και κυριαρχούν στο πεδίο της Μηχανικής Όρασης αποτελώντας την αιχμή της τεχνολογίας για την αντιμετώπιση εξαιρετικά δύσκολων μέχρι τώρα προβλημάτων. Καινοτόμες αρχιτεκτονικές σε βαθιά δίκτυα για διδιάστατες κυρίως απεικονίσεις (εικόνα,βίντεο), έχουν σημειώσει σημαντικές επιτυχίες αποτελώντας ριζοσπαστικές προσεγγίσεις με εξαιρετικές αποδόσεις και ακρίβεια υπολογισμών. Με εφαρμογές που ποικίλουν απο τα πεδία της ρομποτικής, βιοιατρικής, αυτόματης οδήγησης μέχρι και την επεξεργασία φυσικής γλώσσας σε επίπεδο αναγνώρισης ομιλίας και κειμένου, καταφαίνεται το τεράστιο εύρος εφαρμογής των αλγορίθμων Βαθιάς Μάθησης. Ως κύριο χαρακτηριστικό των ήδη αναφερθέντων εφαρμογών Βαθιάς Γνώσης, αποτελεί η ικανότητα των δικτυωμάτων, για σταδιακή εκμάθηση χαρακτηριστικών-γνωρισμάτων βασιζόμενα στα δεδόμενα που εισάγονται στον υπολογιστή. Προφανώς τέτοιου είδους καινοτομίες, οι οποίες αποτελούν πλέον την αιχμή της τεχνολογίας, δεν θα καθίστανται δυνατές δίχως την πληθώρα δεδομένων, προς εκπαίδευση των αλγορίθμων και υψηλής υπολογιστικής ισχύος για την επεξεργασία τους. Τεράστια σύνολα εικόνων και κειμένων βρίσκονται σε ελεύθερη μορφή και έτοιμα προς επεξεργασία, αποτελώντας αναπόσπαστο κομμάτι της γενικότερης προόδου στο χώρο της Βαθιάς Μάθησης στα πεδία της δισδιάστατης απεικόνιησης και της επεξεργασίας της φυσικής γλώσσας. Ωστόσο ζούμε σε ένα τρισδιάστατο κόσμο και μερικά απο τα πιο δύσκολα προβλήματα στον κλάδο της Μηχανικής Όρασης, σχετίζονται με το τρισδιάστατο περιβάλλον. Ένα τέτοιο γεγονός δε θα μπορούσε παρα να καταδείξει την σημαντικότητα για τρισδιαστατη αντιληπτική ικανότητα στο χώρο της Τεχνητής Νοημοσύνης και πιο συγκεκριμένα της Βαθιάς Μάθησης. Αναδυόμενες εφαρμογές των τελευταίων κυρίως χρόνων, επωφελούνται από την εξέλιξη της τρισδιάστατης τεχνολογίας, όπως η δημιουργία νέων αισθητήρων και συσκευών χαμηλού κόστους για καταγραφή κίνησης όπως το Kinect, ενώ ταυτόχρονα αυτή η εξέλιξη κάνει τη συλλογή των τρισδιάστατων δεδομένων πιο εφικτή και προσιτή από ποτέ. Έτσι με δεδομένη, την πρόοδο της Βαθιάς Μάθησης αλλά και του πλήθους τρισδιάστατων δεδομένων, ανοίγει ο δρόμος για περαιτέρω ανάπτυξη των αρχιτεκτονικών Βαθιάς Μάθησης και στα τρισδιάστατα δεδομένα, μια εξέλιξη που οδηγεί σε αντιμετώπιση εξαιρετικά δύσκολων ακόμη και άλυτων μέχρι σήμερα προβλημάτων. Από τα παραπάνω διαφαίνεται μια αύξηση στο πλήθος δεδομένων τρισδιάστατης μορφής, πλούσια σε πληροφορίες για την γεωμετρία των αντικειμένων που απεικονίζουν, τα οποία συλλέγονται καθημερινά μέσω τρισδιάστατων σαρωτών και καμερών. Η επέκταση ωστόσο ήδη εφαρμοζώμενων μεθόδων Βαθιάς Μάθησης, οι οποίες επεξεργάζονται και τρισδιάστατα δεδομένα, μπορεί να αποτελέσει μια αρκετά δύσκολη διαδικασία ακόμη και για βασικές εφαρμογές αναγνώρισης, ταξινόμησης, τεμαχισμού και ανάκτησης τρισδιάστατατων αντικειμένων. Σε αντίθεση με την παραδοσιακή μορφή απεικόνισης που κατακλύζει τις εφαρμογές βίντεο και εικόνων, αυτή των δισδιάστατων πινάκων εικονοστοιχείων, στον τρισδιάστατο χώρο υπάρχουν πολλές ευρέως αποδεκτές αναπαραστάσεις. Τρισδιάστατες αναπαραστάσεις στις οποίες η δομή καθώς και οι γεωμετρικές ιδιότητες διαφέρουν μεταξύ τους. Συνεπώς, η εφαρμογή κλασσικών τεχνικών Βαθιάς Μάθησης σε τέτοιες μορφές αναπαραστάσεων αποτελεί μια πολύ δύσκολη διαδικασία. 1.2 Σκοπός Διπλωματικής Εργασίας Η παρούσα διπλωματική εργασία εκπονήθηκε με σκοπό τη δημιουργία ενός δικτύου 3D ταξινόμησης για δεδομένα τρισδιάστατης δομής και συγκεκριμένα μορφής νέφους σημείων. Όπως ήδη αναφέραμε η διαδικασία της ταξινόμησης αποτελεί μια εκ των θεμελιωδών εφαρμογών, αν όχι την κυριότερη, για την διαδικασία της

19 Διάρθρωση Κειμένου 5 αναγνώρισης ενός αντικειμένου. Ηδη έχει αναφερθεί ωστόσο, ότι για τα τρισδιάστατα δεδομένα υπάρχουν πολλές πιθανές αναπαραστάσεις, στις οποίες η δομή και οι γεωμετρικές ιδιότητες διαφέρουν μεταξύ τους, γεγονός που προκαλεί σύγχυση στην επιλογή της κατάλληλης και αποδοτικότερης αναπαράστασης για κάθε πρόβλημα. Σε αυτή την κατεύθυνση μελετήθηκε η προσέγγιση για την απευθείας επεξεργασία αντικειμένων εκφρασμένα σε μορφή νέφους σημείων καθώς και η δημιουργία ενός μοντέλου τρισδιάστατης ταξινόμησης τους. Με βάση το δίκτυο PointNet και την αρχιτεκτονική που προτείνεται και με χρήση του συνόλου τρισδιάστατων δεδομένων ModelNet40, δημιουργήθηκε ένα μοντέλο το οποίο δέχεται αντικείμενα απευθείας σε μορφή νέφους σημείων και καταφέρνει να πετύχει την ακριβή ταξινόμησή τους σε ένα σύνολο από 40 κατηγορίες. Figure 1.2: Μερικα απο τα μοντέλα της βάσης δεδομένων ModelNet40 Στόχος λοιπόν της εργασίας είναι να δώσει ένα αποδοτικό και ταυτόχρονα πρωτότυπο δίκτυο Βαθιάς Μάθησης, το οποίο θα καταφέρνει να επεξεργαστεί απευθείας τρισδιάστατα αντικείμενα σε μορφή νέφους σημείων, χωρίς να απαιτούνται, όπως συμβαίνει στην πλειοψηφία των προσεγγίσεων, πρόσθετες μετατροπές τους σε άλλες μορφές. Η προσέγγιση που μελετήθηκε ξεπερνά με απλό και αποδοτικό τρόπο το πρόβλημα της επεξεργασίας των τρισδιάστατων δεδομένων παρουσιάζοντας μια πρωτότυπη πρόταση τρισδιάστατης ταξινόμησης αντικειμένων, με μεγάλο πλήθος εφαρμογών αλλά και ενδεχόμενων προεκτάσεων. Τα τελικά αποτελέσματα και η απόδοση του παρουσιαζόμενου μοντέλου είναι άμεσα συγκρίσιμα με υλοποιήσεις πολύ μεγαλύτερης πολυπλοκότητας και απαιτούμενης υπολογιστικής ισχύος. 1.3 Διάρθρωση Κειμένου Στο κεφάλαιο 2 δίνεται το υπόβαθρο της Βαθιάς Μάθησης, με εισαγωγή σε έννοιες, αρχιτεκτονικές και μαθηματικές σχέσεις που θα χρειαστεί ο αναγνώστης για την καλύτερη κατανόηση της παρούσας διπλωματικής Στο κεφάλαιο 3 γίνεται μια σύνοψη των διαφορετικών τρισδιάστατων αναπαραστάσεων, αναλύονται θεμελιώδη τρισδιάστατα σετ δεδομένων για ξεχωριστές εφαρμογές, ενώ παρουσιάζοανται προσεγγίσεις και πεδία εφαρμογής για την 3D επεξεργασία, που αποτελούν την επιτομή της τεχνολογίας. Στο κεφάλαιο 4 δίνεται μια σύντομη ανάλυση της φύσης του νέφους σημείων που ωθεί και στην ενασχόληση τους στην παρούσα εργασία με τεχνικές Βαθιάς Μάθησης, καθώς επίσης αναλύεται το θεωρητικό υπόβαθρο του μοντέλου PointNet, βάση του οποίου σχεδιάστηκε και ο 3D ταξινομητής που υλοποίησαμε. Στο κεφάλαιο 5 παρουσιάζεται ο σχεδιασμός και οι λειτουργίες του μοντέλου 3D ταξινόμησης που αποτελεί και το βασικό θέμα της παρούσας εργασίας. Ακόμη, παρατίθενται τα αποτελέσματα και η τελική απόδοση του δικτύου καθώς και ο σχολιασμός τους. Στο κεφάλαιο 6 παρουσιάζονται τα συμπεράσματα καθώς και ορισμένες μελλοντικές κατευθύνσεις για τη βελτίωση της παρούσας διπλωματικής εργασίας.

20 6 Εισαγωγή

21 2. Βασικές έννοιες Βαθιάς Μάθησης 2.1 Aπό την Τεχνητή Νοημοσύνη στη Βαθιά Μάθηση Τις τελευταίες δεκαετίες παρατηρείται ραγδαία ανάπτυξη της τεχνολογίας που δίνει τόσο στον άνθρωπο όσο και στην επιστήμη ολοένα και αυξανόμενες δυνατότητες. Ο άνθρωπος με τη χρήση μηχανών και μηχανημάτων έχει πλέον τη δυνατότητα να πραγματοποιήσει ενέργειες που για χρόνια αποτελούσαν αντικείμενο προς έρευνα. Καθημερινές λειτουργίες,από την απλή εύρεση πληροφορίας διαδικτυακά και τη χρήση χαρτών για πλοήγηση, μέχρι ακόμη και τη λειτορυργία ρομπότ στις μονάδες παραγωγής εργοστασίων βασίζονται στη χρήση και αξιοποίηση μηχανών και συστημάτων. Η ειδοποιός διαφορά σε σχέση με την βιομηχανική έκρηξη του 20ου αιώνα έγκειται στο γεγονός ότι με τη χρήση υπολογιστικών συστημάτων, τα παραχθέντα πλέον μηχανήματα καταφέρνουν και αποκτούν πιο εκλεπτυσμένες λειτουργίες βασιζόμενα στην προσομοίωση της ανθρώπινης νοημοσύνης. Έτσι σταδιακά αναπτύχθηκε ο όρος Τεχνητή Νοημοσύνη(AI) ως η ανάπτυξη υπολογιστικών συστημάτων και μηχανών με αντιληπτικές και λογικές ικανότητες για την εκτέλεση εργασιών που απαιτούν ανθρώπινη νοημοσύνη και ερμηνεία. Tέτοιες εργασίες είναι, η οπτική αντίληψη, η αναγνώριση ομιλίας,η λήψη αποφάσεων η μετάφραση ανάμεσα σε διαφορετικές γλώσσες και άλλες.η Τεχνητή Νοημοσύνη αλλάζει τις ζωές των ανθρώπων και των σύγχρονων κοινωνιών αποτελώντας ταυτόχρονα κύριο ερευνητικό πεδίο. Εφαρμογές σε τομείς όπως, η ιατρική με ανάλυση και εντοπισμό χαρακτηριστικών απο ιατρικές εικόνες,η αυτόματη οδήγηση και πλοήγηση,η οικονομία με συστήματα πρόβλεψης επενδύσεων,αποτελούν μερικά μόνο δείγματα του εύρους αξιοποίησης της Τεχνητής Νοημοσύνης στη σημερινή εποχή. Καθώς όμως τα μηχανήματα άρχισαν να γίνονται όλο και πιο αποδοτικά,επόμενο βήμα για την ερευνητική κοινότητα αποτέλεσε η ανάπτυξη συστημάτων με χρήση στατιστικών μοντέλων, τα οποία να έχουν την ικανότητα να μαθαίνουν και να βελτιώνονται αυτόματα μέσω εμπειρίας,χωρίς ωστόσο να χρειάζεται να είναι σαφώς προγραμματισμένα για αυτή τους τη λειτουργία.η Μηχανική Μάθηση όπως ονομάστηκε αυτός ο κλάδος,στοχεύει κυρίως στην παραγωγή προβλέψεων ακριβείας με εμπειρικό τρόπο μέσω εκμάθησης των αλγορίθμων απο δεδομένα που παρέχονται στο σύστημα.τέτοιες προβλέψεις μπορόυν να χρησιμοποιηθούν σε εφαρμογές όπως η αναγνώριση αντικειμένων σε φωτογραφίες,η αυτόματη δημιουργία υποτίτλων σε ταινίες απο αναγνώριση ομιλίας και πολλές άλλες,χωρίς να απαιτείται η ανάπτυξη και δημιουργία προγραμμάτων απο ερευνητές.αντίθετα μέσω εισαγωγής δεδομένων και των επιθυμητών αποτελεσμάτων,τα υπολογιστικά συστήματα μέσω επεξεργασίας της πληροφορίας,καταφέρνουν να αποδώσουν τους ζητούμενους αλγορίθμους ακόμη και σε προβλήματα για τα οποία η τυπική ανάπτυξη αλγορίθμων θα αποτελούσε ιδιαίτερα δύσκολη διαδικασία.οι εργασίες στη Μηχανική Μάθηση ταξινομούνται σε τρεις κατηγορίες ανάλογα με την προσέγγιση και τον τρόπο εκμάθησης.εργασίες στις οποίες τα προγράμματα δέχονται εισόδους και επιθυμητά αποτελέσματα με στόχο τη δημιουργία κανόνων για την ακριβή αντιστοίχισή τους,απαρτίζουν την επιτηρούμενη μάθηση που είναι και η πιο κοινή απο τις μορφές της μηχανικής μάθησης. Έστω ότι θέλουμε να δημιουργήσουμε ένα σύστημα ταξινόμησης σε εικόνες που περιέχουν, για παράδειγμα, ένα σπίτι, ένα αυτοκίνητο, ένα άτομο ή ένα κατοικίδιο.συλλέγουμε πρώτα ένα μεγάλο σύνολο δεδομένων εικόνων σπιτιών, αυτοκινήτων, ανθρώπων και κατοικίδιων ζώων, το καθένα με την κατηγορία του. Κατά τη διάρκεια της εκπαίδευσης, στο μηχάνημα εμφανίζεται μια εικόνα και παράγει μια έξοδο με τη μορφή ενός διανύσματος βαθμολογίας, ένα για κάθε κατηγορία. Θέλουμε η επιθυμητή κατηγορία να έχει την υψηλότερη βαθμολογία όλων των κατηγοριών, αλλά αυτό είναι απίθανο να συμβεί πριν από την εκπαίδευση. Υπολογίζουμε μια συνάρτηση που μετρά το σφάλμα (ή την απόσταση) μεταξύ των αποτελεσμάτων εξόδου και του επιθυμητού μοτίβου βαθμολογίας. Στη συνέχεια, το μηχάνημα τροποποιεί τις εσωτερικές του ρυθμιζόμενες παραμέτρους για να μειώσει αυτό το σφάλμα. Αυτές οι ρυθμιζόμενες παράμετροι, που συχνά ονομάζονται βάρη, είναι πραγματικοί αριθμοί που καθορίζουν τη λειτουργία εισόδου-εξόδου του μηχανήματος. 7

22 8 Βασικές έννοιες Βαθιάς Μάθησης Σε ένα τυπικό σύστημα Μηχανικής Μάθησης μπορεί να υπάρχουν εκατοντάδες από αυτά τα ρυθμιζόμενα βάρη, και εκατοντάδες επισημασμένα παραδείγματα με τα οποία μπορούμε να εκπαιδεύσουμε το μηχάνημα.στον αντίποδα,βρίσκεται η μη επιτηρούμενη μάθηση που έχει σα στόχο την εκμάθηση της δομής και των ξεχωριστών ιδιοτήτων των δεδομένων από τον αλγόριθμο, χωρίς να έχει προηγηθεί παροχή κάποιας εμπειρικής πληροφορίας για αυτά.οι περισσότερες εφαρμογές αυτής της κατηγορίας αφορούν συστήματα σύστασης,όπως το Netflix και το YouTube.Αυτά τα συστήματα ανακαλύπτουν σχέσεις στα δεδομένα που παρέχουν οι χρήστες,όπως ταινίες ή βίντεο που έχουν δει και κατά πόσο τους άρεσαν,και παρέχουν εξατομικευμένες προτάσεις στους χρήστες.τελευταία κατηγορία αρκετά διαφορετική απο τις προηγούμενες αποτελεί η ενισχυτική μάθηση.τα στυστήματα επιτρέπουν σε τεχνητά προγραμματισμένους πράκτορες να αλληλεπιδρούν με δυναμικά περιβάλλοντα όπου μέσω ανταμοιβής σε σωστές ενέργειες μαθαίνουν να λαμβάνουν τις σωστές αποφάσεις.παραδείγματα τέτοιων αλγορίθμων αποτελούν η βελτιστοποίηση στον έλεγχο κινήσεων ενός ρομπότ αλλά και η εκμάθηση επιτραπέζιων παιχνιδιών σε συστήματα,όπως λόγου χάρη το σκάκι.έτσι η Μηχανική Μάθηση προσπαθεί επί της ουσίας να ορίσει κανόνες και να αποκτά πληροφορίες απο διάφορα χαρακτηριστικά στα δεδομένα, με σκοπό τα μοντέλα να βελτιώνονται συνεχώς στις λειτουργίες τους. H απόδοση όμως των αλγορίθμων Μηχανικής Μάθησης εξαρτάται σε μεγάλο βαθμό απο το είδος της αναπαράστασης των δεδομένων με αποτέλεσμα η επιλογή της κατάλληλης αναπαράστασης να είναι ζωτικής σημασίας.kυρίως, αναπαραστάσεις σε μορφές δομημένων στηλών με δεδομένα αποτελούν τις εισόδους των αλγορίθμων Μηχανικής Μάθησης.Απαραίτητη είναι η παρουσία επιστημόνων στο κομμάτι της προ- επεξεργασίας των δεδομένων,όπως η συλλογή δεδομένων και ο καθαρισμός τους απο τυχόν μη σχετικά στοιχεία, αλλά και για την σχεδίαση κατάλληλων χαρακτηριστικών για το κάθε πρόβλημα ξεχωριστά.αυτά τα χαρακτηριστικά, τα οποία ένας αλγόριθμος θα εξάγει, οφείλουν οι ερευνητές να αναγνωρίζουν μέσα σε τεράστιους όγκους δεδομένων με στόχο την πιο ακριβή και αποδοτική εκμάθησή του για τη συνολική βελτίωση του μοντέλου.ωστόσο, για πλήθος προβλημάτων ο σαφής ορισμός του συνόλου των χρήσιμων χαρακτηριστικών τα οποία θα πρέπει να αναγνωρίζονται από τους αλγορίθμους, ανάλογα με την εκάστοτε αναπαράσταση αποτελεί μια εξαιρετικά δύσκολη διαδικασία.ενώ λοιπόν τα περισσότερα μοντέλα Μηχανικής Μάθησης σταδιακά βελτιώνονται στη λειτουργία τους,εντούτοις απραίτητη είναι η καθοδήγησή τους και η συμμετοχή ανρθώπινου δυναμικού στη βελτιστοποίησή τους. Επόμενο βήμα λοιπόν αποτέλεσε η ανάπτυξη αλγορίθμων με συμβολική μέθοδο (Representation Learning Technique), οι οποίοι θα μπορούσαν δηλαδή να αξιολογούν και να αυτοβελτιώνουν την ακρίβειά τους αποσπώντας χρήσιμες πληροφορίες και ανακαλύπτοντας τις απαιτούμενες αναπαραστάσεις και χαρακτηριστικά απευθείας απο τα δεδομένα, χωρίς την παρέμβαση ανθρώπου.σε αυτή τη βάση αναπτύχθηκε μια συμβολική μέθοδος,που αποτελεί υποσύνολο του πεδίου της Μηχανικής Μάθησης, η οποία ονομάστηκε Βαθιά Μάθηση και αποτελεί το θεμέλιο της παρούσας διπλωματικής. Οι αλγόριθμοι Βαθιάς Μάθησης χωρίς τη συμβολή επιστημόνων στο σχεδιασμό ξεχωριστών χαρακτηριστικών,καταφέρνουν και αποδίδουν πολύπλοκες αναπαραστάσεις μέσα απο την έκφραση τους σε επιμέρους απλούστερες.κατ αυτόν τον τρόπο με παροχή δεδομένων, οι αλγόριθμοι αυτόματα ανακαλύπτουν τις κατάλληλες αναπαραστάσεις που χρειάζονται για την εξαγωγή και πρόβλεψη των ζητούμενων κάθε φορά χαρακτηριστικών σε κάθε ξεχωριστό πρόβλημα.ενώ οι παραδοσιακοί αλγόριθμοι και τα μοντέλα Μηχανικής Μάθησης είναι κυρίως γραμμικής μορφής, τα αποτελέσματα δηλαδή των αλγορίθμων απορρέουν ως γραμμικός συνδυασμός συγκεκριμένων χαρακτηριστκών,οι αλγόριθμοι Βαθιάς Μάθησης υλοποιούνται σε μια δικτυακή ιεραρχία ολοένα και αυξανόμενης πολυπλοκότητας και αοριστίας.

23 Aπό την Τεχνητή Νοημοσύνη στη Βαθιά Μάθηση 9 Figure 2.1: προσώπου Οπτική αναπαράσταση υπολογισμών σε ενα Συνελικτικό Δίκτυο για την αναγνώριση ενός Αναπτύσσονται σε αρχιτεκτονικές Τεχνητών Νευρωνικών Δικτύων, με στόχο την τεχνητή απόδοση του τρόπου λειτουργίας και τη δομής του ανθρώπινου εγκεφάλου.γενικά,ο άνθρωπος αλλά και άλλοι ζώντες οργανισμοί έχουν ένα κεντρικό νευρικό σύστηµα, το οποίο είναι υπεύθυνο για µια πλειάδα από διεργασίες, όπως είναι η επαφή µε τον εξωτερικό κόσµο, η µάθηση, η µνήµη, κλπ. Το νευρικό σύστηµα των οργανισµών αποτελείται από πολλά νευρωνικά δίκτυα τα οποία είναι εξειδικευµένα στις διεργασίες αυτές.κάθε νευρωνικό δίκτυο αποτελείται από ένα µεγάλο αριθµό µονάδων, που λέγονται νευρώνες (neurons) και αποτελούν την πιο µικρή ανεξάρτητη µονάδα του δικτύου. Figure 2.2: Σχηματικό διάγραμμα τυπικού νευρώνα Οι νευρώνες συνεχώς επεξεργάζονται πληροφορίες στέλνοντας και λαμβάνοντας ηλεκτρικά σήματα απο άλλους. Σε αυτή τη βάση λοιπόν, σε μια προσπάθεια μοντελοποίησης του ανθρώπινου νευρωνικού συστήματος και των λειτουργιών που υλοποιεί αυτό (π.χ. αναγνώριση ενός σχήματος), δημιουργήθηκαν τα Τεχνητά Νευρωνικά Δίκτυα.Αυτά σαν πρότυπα του ανθρώπινου νευρωνικού συστήματος αποτελούμενα απο επίπεδα με επιμέρους νευρώνες τεχνητής φύσης, έχουν σα στόχο την επίλυση κάποιου υπολογιστικού προβλήματος, μιας διεργασίας,αφού προηγουμένως έχουν εκπαιδευτεί κατάλληλα. Όπως ο εγκέφαλος καταφέρνει να αναγνωρίζει ορισμένα χαρακτηριστικά που βοηθούν στην κατηγοριοποίηση και ταξινόμηση της πληροφορίας,με παρόμοιο τρόπο επιτυγχάνεται και η επεξεργασία της πληροφορίας από τα Τεχνητά Νευρωνικά δίκτυα για τους υπολογιστές. Οι τεχνητοί νευρώνες είναι τα κύρια δομικά στοιχεία ενός δικτύου. Τα Τεχνητά Νευρωνικά Δίκτυα(ΤΝΔ), όπως φαίνεται και στην εικόνα που ακολουθεί, αποτελούνται απο διασυνδεδεμένους νευρώνες, ενώ μέσα από τα λεγόμενα βάρη μεταξύ των διασυνδέσεων στους νευρώνες, η πληροφορία αποθηκεύεται και μεταφέρεται. Τα βάρη, τα οποία έχουν ευπροσάρμοστη δομή,ρυθμίζονται κατάλληλα μέσω αλγορίθμων εκμάθησης απο συγκεκριμένα δεδομένα για

24 10 Βασικές έννοιες Βαθιάς Μάθησης κάθε πρόβλημα, με στόχο την συνολική βελτίωση του μοντέλου.κάθε νευρώνας δέχεται ένα σύνολο αριθμητικών εισόδων από διαφορετικές πηγές (είτε από άλλους νευρώνες, είτε από δεδομένα), επιτελεί έναν υπολογισμό με βάση αυτές τις εισόδους και παράγει μία έξοδο. Η εν λόγω έξοδος είτε κατευθύνεται στο περιβάλλον σαν αποτέλεσμα της υλοποίησης, είτε τροφοδοτείται ως είσοδος σε άλλους νευρώνες του δικτύου. Υπάρχουν τρεις τύποι νευρώνων: οι νευρώνες εισόδου, οι νευρώνες εξόδου και οι υπολογιστικοί νευρώνες ή κρυφοί νευρώνες. Περισσότερες τεχνικές λεπτομέρειες των TNΔ θα παρουσιαστούν στη συνέχεια. Figure 2.3: Σχηματική απεικόνιση τεχνητού νευρωνικού δικτύου 2.2 Βασικές έννοιες Νευρωνικών Δικτύων Το Perceptron Η περαιτέρω ανάλυση του πεδίου των Νευρωνικών Δικτύων δε θα μπορούσε να συνεχιστεί χωρίς να έχει γίνει πρώτα αναφορά στο θεμελιώδες δομικό στοιχείο αυτών των δικτύων. Η έννοια του Perceptron ή ενός τεχνητού νευρώνα,επιλύει το απλό πρόβλημα της κατηγοριοποίησης των δεδομένων (classification) σε δύο γραμμικά διαχωρίσιμες κλάσεις και αποτελεί την απλούστερη μορφή ενός νευρωνικού δικτύου.ανήκει στην κατηγορία της εποπτευόμενης μάθησης και αποτελεί έναν εκτιμητή γραμμικής φύσεως,ορίζει δηλαδή μια ευθεία γραμμή στο επίπεδο για το διαχωρισμό των κλάσεων και την κατάλληλη κατηγοριοποίηση των δεδομένων σε αυτές. Ξεκινώντας την ανάλυση σημαντική είναι η εξήγηση της έννοιας της εμπρόσθιας διάδοσης της πληροφορίας(forward Propagation)μέσω ενός νευρώνα. Αρχικά,θεωρούμε ένα σύνολο απο εισόδους στο νευρώνα,που αποτελούν και το αρχικό επίπεδο εισόδου για το δίκτυο. Αυτό το σύνολο εισόδων,αναπαρίσταται με μια σειρά μεταβλητών [ x1,..., x m ] μέχρι και την τελευταία είσοδο έστω x m. Καθεμιά απο τις εισόδους αυτές έχει μια αντίστοιχη σύνδεση,, [ w1,..., w m ], όπου πάλι m ο αριθμός των συνολικών εισόδων. Τα βάρη πρακτικά καθορίζουν τη σημαντικότητα της

25 Βασικές έννοιες Νευρωνικών Δικτύων 11 πληροφορίας που βρίσκεται σε ένα επίπεδο και θα μεταφερθεί σε ένα νευρώνα στο επόμενο επίπεδο.μέσα από πολλαπλασιασμό λοιπόν αντίστοιχων εισόδων και βαρών παίρνουμε στο επόμενο βήμα ένα συνολικό άθροισμα.από αυτόν τον αριθμό,το άρθοισμα,γίνεται η προσπέλαση απο μια μη-γραμμική συνάρτηση,που ονομάζεται συνάρτηση ενεργοποίησης. Αυτή αποδίδει τη συνολική τιμή σε μια κατάλληλη κλάση, για να δωθεί τελικα το δυαδικό αποτέλεσμα ŷ στην έξοδο(0 ή 1),που αποτελεί και την πρόβλεψη του δικτύου για ένα δεδομένο εισόδου. Σημαντική είναι η διαφοροποίηση μεταξύ της πρόβλεψης του δικτύου ŷ και της πραγματικής τιμής y που έχει μια είσοδος. Πιο συγκεκριμένα, ορίζουμε το σφάλμα μεταξύ της προβλεπόμενης τιμής ŷ και της πραγματικής τιμής y για μια είσοδο x να είναι J(x) = y ŷ. Aν μια είσοδος προβλέπεται σωστά,δηλαδή η πραγματική και η προβλεπόμενη τιμή της είναι ίδιες τότε το σφάλμα είναι μηδενικό. Στις περιπτώσεις όμως που η τιμή του σφάλματος J(x)(συχνα συναντάται και σαν E(x)) είναι μη μηδενική τα βάρη του δικτύου πρέπει να ενημερωθούν με βάση την (αρνητική) κατεύθυνση της παραγώγου αυτού του σφάλματος. Γενικότερα όπως θα αναλυθεί και στη συνέχεια η διαδικασία της εκπαίδευσης σε ένα νευρωνικό δίκτυο δεν είναι δυνατό να επιτευχθεί χωρίς τον ορισμό και κατ επέκταση τη βελτιστοποίηση μιας συνάρτησης σφάλματος. Kρίσιμος ειναι και ο όρος της πόλωσης (Bias) b (αναφέρεται και σαν w o ), κυρίως σε περιπτώσεις όπου υπάρχει ανισορροπία στα δεδομένα των 2 κλάσεων, o οποίος δίνει τη δυνατότητα για μετατόπιση προς τα δεξιά ή προς τα αριστερά της μη-γραμμικής συνάρτησης ενεργοποίησης, ανεξαρτήτως των εισόδων. Figure 2.4: Είσοδοι-Βάρη- Άθροιση-Μη-Γραμμική Συνάρτηση-Έξοδος Για την καλύτερη κατανόηση χρήσιμη αξιολογείται η μαθηματική ανάλυση του παραπάνω διαγράμματος για τον αλγόριθμο Perceptron. m ŷ = g( x i w i + b ) (2.1) i=1 Στην παραπάνω εξίσωση ŷ είναι η δυαδική έξοδος-πρόβλεψη του δικτύου, g η μη γραμμική συνάρτηση ενεργοποίησης, b η πόλωση ενώ το άθροισμα m i=1 x iw i δηλώνει το γραμμικό συνδυασμό των εισόδων. Η απόδοση στο περιβάλλον της Γραμμικής Άλγεβρας κρίνεται ιδιαίτερα βοηθητική, με πίνακες διανυσμάτων και πράξεις εσωτερικών γινομένων μεταξύ των εισόδων και των αντίστοιχων βαρών. Ορίζουμε έτσι έναν πίνακα στηλών X T (ανάστροφος πίνακας) για τις εισόδους και ένα πίνακα με διανύσματα W για το σύνολο των βαρών. Αυτή η απεικόνιση των δεδομένων εισόδου και των βαρών εκτός απο μεγαλύτερη ευκολία στους υπολογισμούς κρίνεται και πολυ πιο αποδοτική, καθώς οι υπολογισμοί γίνοται παράλληλα και κατ επέκταση πολυ πιο γρήγορα. Για τον υπολογισμό της εξόδου ενός Perceptron, αρκεί να πολλαπλασιαστούν στοιχείο προς στοιχείο οι δύο πίνακες,να προστεθεί η πόλωση και τέλος να εφαρμοστεί στο αποτέλεσμα αυτό μια μη γραμμική συνάρτηση, εδώ g. Έτσι παίρνουμε,

26 12 Βασικές έννοιες Βαθιάς Μάθησης ŷ = g(x T W + b), (2.2) όπου X, W αρχικοποιούνται αντίστοιχα σε, x 1 w 1. X =.. W =... x m w m (2.3) Πρακτικά δηλαδή το Perceptron δοθέντος εισόδων Χ δημιουργεί ένα υπερπεπίπεδο στο δισδιάστατο χώρο για το όποιο ισχύει W X T + b = 0, όπου αν W X T + b > 0 μια είσοδος ανήκει σε μια κατηγορία και βρίσκεται πάνω απο αυτό το επιπεδο, αλλιώς αν βρίσκεται στην άλλη κατηγορία η φορά της ανίσωσης θα είναι ανάποδα, δηλαδή το δεδομένο εισόδου θα βρίσκεται κάτω απο το ορισμένο υπερεπίπεδο. Όπως φαίνεται και στην παρακάτω εικόνα ο διαχωρισμός των μπλε και κίτρινων δεδομένων πετυχαίνεται με τη δημιουργία μιας ευθείας γραμμής. Figure 2.5: Δυαδική ταξινόμηση δεδομένων Τέλος μια απλούστερη απεικόνιση του Perceptron, με αφαίρεση του όρου bias αλλά και των διασυνδέσεων με βάρη, μπορεί να χρησιμοποιηθεί.

27 Βασικές έννοιες Νευρωνικών Δικτύων 13 Figure 2.6: Απλουστευμένη απεικόνιση Perceptron Για την παραπάνω λοιπόν απλούστευση υποθέτουμε ότι σε κάθε γραμμή αντιστοιχίζεται ένα αντίστοιχο βάρος καθώς και ότι ορίζεται σαν z το αποτέλεσμα του εσωτερικόυ γινομένου των επιμέρους εισόδων με τα αντίστοιχα βάρη συν τον όρο bias. Το z αναφέρεται στη βιβλιογραφία σαν logit. m z = g( x i w i + b ) (2.4) i=1 Το τελικό αποτέλεσμα y = g(z) υπολογίζεται αν στο παραπάνω logit εφαρμοστεί μια συνάρτηση ενεργοποίησης g Μέθοδος Gradient Descent Όπως αναφέρθηκε παραπάνω το συνολικό σφάλμα σε ένα δίκτυο αποτελεί κυρίαρχο χαρακτηριστικό. Δίνεται μέσα απο την άθροιση των επιμέρους σφαλμάτων για καθεμιά είσοδο και προσδιορίζει το πόσο απέχει ένα μοντέλο απο τις ιδανικές προβλέψεις. Έπεται δηλαδή, οτι με μείωση του σφάλματος στο δίκτυο, το μοντέλο γίνεται όλο και πιο ακριβές. Αν ορίσουμε το σφάλμα του μοντέλου σαν μια συνάρτηση πρακτικά επιζητούουμε να υπολογίσουμε το έλάχιστο μιας αυτής της συνάρτησης, με την προυπόθεση οτι σε εκείνο το σημείο το μοντέλο θα αποδίδει με τη μεγαλύτερη ακρίβεια. Καθότι ωστόσο μιλάμε για την περίπτωση του Perceptron,ενός γραμμικού ταξινομητή δηλάδή, η απόδοση του δικτύου πρακτικά εξαρτάται απο την κατάλληλο διαχωρισμό των εισόδων και την σωστή κατηγοριοποίησή τους σε 2 κλάσεις. Αυτός ο διαχωρισμός πετυχαίνεται με μια ευθεία γραμμή και ο προσδιορισμός της κατάλληλης κατεύθυνσής της οδηγεί στην ελαχιστοποίηση του συνολικού σφάλματος. Για τον υπολογισμό λοιπόν αυτού του ελαχίστου της συνάρτησης κόστους χρησιμοποιείται μια επαναληπτική μέθοδος, που ονομάζεται μέθοδος καθόδου κλίσης ή όπως είναι γνωστή gradient descent. Η συνάρτηση κόστους πρακτικά αποτελείται απο τα βάρη του δικτύου,καθώς αυτά είναι που επηρεάζουν την απόδοση του μοντέλου, οπότε με κατάλληλη τροποποίησή τους πετυχαίνεται η ελαχιστοποίηση της. Σύμφωνα με τη μέθοδο gradient descent και ενώ αρχικά το μοντέλο έχει τυχαία τοποθετημένα βάρη,μη έχοντας εκπαιδευτεί ακόμη, η ανανέωση των βαρών του γίνεται στην αντίθετη κατεύθυνση της παραγώγου της συνάρτησης κόστους w J(w). Όπως φαίνεται και στην εικόνα που ακολουθεί για απεικόνιση με 2 βάρη 2.7, η απώλεια συναρτήσει των βαρών του δικτύου για ένα συγκεκριμένο πρόβλημα παίρνει την ακόλουθη μορφή. Έτσι για κάθε τιμή του w μπορούμε να βρούμε την τιμή της απώλειας για εκείνο το σημείο.ψάχνουμε το ελάχιστο όμως αυτής της συνάρτησης,δηλαδή τις τιμές των w 1, w 2 για τις οποίες η συνάρτηση θα πάρει την ελάχιστη τιμή.ξεκινώντας

28 14 Βασικές έννοιες Βαθιάς Μάθησης απο ένα τυχαία επιλεγμένο σημείο (w 1, w 2 ) αρχικά υπολογίζουμε την τιμή της παραγώγου του J(w) συναρτήσει των w 1, w 2, που δείχνει την κατεύθυνση προς μια μέγιστη τιμή. Αν λοιπόν υπολογίσουμε το αρνητικό της παραπάνω παραγώγου θα οδηγηθούμε σταδιακά προς το ελάχιστο σημείο. Αυτη η διαδικασία επαναλαμβάνεται μέχρι να επιτευχθεί σύγκλιση, να βρεθεί δηλαδή ο κατάλληλος συνδυασμός των w 1, w 2 που δίνει το ελάχιστο για την J(w 1, w 2 ). Figure 2.7: Βελτιστοποίηση συνάρτησης απωλειών με χρήση gradient descent σε δισδιάστατο περιβάλλον βαρών Η παράγωγος της συνάρτησης κόστους w J(w) πρακτικά ορίζεται από τον πίνακα των επιμέρους μερικών παραγώγων της συνάρτησης κόστους συναρτήσει των βαρών και του όρου bias (αναγράφεται σαν b). Δηλαδη, w J(w) = ( J J,...,, J w 1 w m b ) (2.5) Ορίζεται επιπλέον ο όρος, η, ως ποσοστό μάθησης (learning rate) που καθορίζει το μέγεθος των επιμέρους βημάτων προς την κατεύθυνση της αρνητικής παραγώγου που θα γίνουν σε κάθε επανάληψη προκειμένου να ετνοπιστεί το (ολικό) ελάχιστο [2]. Mέχρι λοιπόν την εύρεση του ελαχίστου για τη συνάρτηση κόστους το δίκτυο μας ανανεώνει τα βάρη και αντίστοιχα τους bias όρους του σύμφωνα με τον ακόλουθο τυπο : w i = w i η J w i, (2.6) J όπου w i το ανανεωμένο βάρος της i-οστής εισόδου, η το learning rate και w i η μερική παράγωγος της συνάρτησης κόστους συναρτήσει των βαρών του δικτύου. H παραπάνω ανανέωση των βαρών πραγματοποιείται μέχρις ότου επιτευχθεί σύγκλιση στο μοντέλο, οπότε και επιστρέφονται οι τελικές τιμές των βαρών του. Έτσι ενώ αρχικά το δίκτυο μας είχε μια πρόβλεψη ŷ = g(w X + b), (2.7) μετά από εύρεση του ελάχιστου της συνάρτησης κόστους και της κατάλληλης ανανέωσης των βαρών και bias όρων το δίκτυο πετυχαίνει μια πολύ καλύτερη πρόβλεψη, ŷ = g(w X + b ) (2.8)

29 Βασικές έννοιες Νευρωνικών Δικτύων 15 Ωστόσο, χρειάζεται να υπολογιστούν οι παράγωγοι για όλα τα δεδομένα εισόδου, προτού γίνει μια ανανέωση στα βάρη.κάθε βήμα του αλγορίθμου προς την κατεύθυνση της αρνητικής παραγώγου, καλείται εποχή(epoch). Αναφερόμενοι λοιπόν στον αριθμό των βημάτων του αλγορίθμου, πρακτικά κάνουμε λόγο για το σύνολο των epochs. Για την πραγματοποίηση λοιπόν ενός βήματος στον αλγόριθμο του gradient descent πρέπει πρώτα να έχει γίνει προσπέλαση απο όλα τα δεδομένα εισόδου. Αυτό το χαρακτηριστικό του αλγορίθμου τον κάνει ιδιαίτερα αργό και δύσχρηστο σε περιπτώσεις που έχουμε πολλές εισόδους Συνάρτηση Ενεργοποίησης. Αναφορά έγινε σε μη γραμμικές συναρτήσεις ενεργοποίησης στο δίκτυο.μια τυπική συνάρτηση ενεργοποίησης είναι η σιγμοειδής με τύπο, σ (x) = e x (2.9) Figure 2.8: Γραφική παράσταση σιγμοειδούς συνάρτησης Όπως φαίνεται και απο την εικόνα παραπάνω, δοθέντος ενός πραγματικού αριθμού σαν είσοδο στον Χ άξονα, η σιγμοειδής συνάρτηση μετατρέπει αυτόν τον αριθμό σε ένα βαθμωτό αποτέλεσμα φραγμένο μεταξυ 0 και 1. Τέτοιου είδους συναρτήσεις αποκτούν ιδιαίτερο ενδιαφέρον και πρακτική εφαρμογή, στις περιπτώσεις που το αποτέλεσμα ενός αριθμού για κάποια εφαρμογή, είναι επιθυμητό να βρίσκεται σε πιθανοτική μορφή. Έτσι αν θέλουμε να προβλέψουμε την πιθανότητα μιας δυαδικής κλάσης, μπορούμε να χρησιμοποιήσουμε τη σιγμοειδή συνάρτηση για ενεργοποίηση του κόμβου εξόδου,ούτως ώστε η πρόβλεψη του δικτύου ŷ να υποδεικνύει στην ουσία την πιθανότητα, η προς παρατήρηση τιμή να πάρει την τιμή 1. Άλλες συνηθισμένες συναρτήσεις ενεργοποίησης εκτός της σιγμοειδούς είναι η υπερβολική εφαπτομένη καθώς και η μονάδα γραμμικής ανόρθωσης ή όπως είναι γνωστή, ReLU [3] (Rectified Linear Unit). Το κύριο χαρακτηριστικό των προαναφερθέντων συναρτήσεων ενεργοποίησης και ο βασικός στόχος τους είναι να προσδώσουν κάποιας μορφής μη-γραμμικότητα στα δεδομένα,ώστε τα δεδομένα ενός τεχνητού νευρωνικού δίκτυο να αντιπροσωπεύουν κατά το δυνατόν τη μηγραμμική φύση που υπάρχει και στα πραγματικά δεδομένα. Στην εικόνα που ακολουθεί 2.9, η ταξινόμηση των δεδομένων ανάμεσα στις 2 κατηγορίες (μπλε-κίτρινη) δε θα μπορούσε να επιτευχθεί με γραμμικές συναρτήσεις και γραμμικούς εκτιμητές, αφού δε μπορούν να οριστούν ευθείες στο δισδιάστατο επίπεδο που να τα διαχωρίζουν με ακριβή τρόπο, δηλαδή οι 2 κλάσεις δεν είναι γραμμικά διαχωρίσιμες. Παρατηρούμε ότι ο αλγόριθμος του Perceptron δε θα λειτουργήσει σε αντίστοιχες περιπτώσεις καθώς μια πιο περίπλοκη έκφραση αναζητάται. Η

30 16 Βασικές έννοιες Βαθιάς Μάθησης μη-γραμμικότητα επιτρέπει την προσέγγιση περίπλοκων συναρτήσεων και αυτή η ιδιότητα είναι που καθιστά τα νευρωνικά δίκτυα τόσο σημαντικά. Figure 2.9: Εικόνα απο το περιβάλλον playground της TensorFlow 2.3 Πολυστρωματικά Νευρωνικά Δίκτυα Το Perceptron όπως ήδη αναλύθηκε αποτελείται απο δύο επίπεδα, ένα επίπεδο εισόδου που μεταφέρει απλά τις τιμές εισόδου και ένα επίπεδο εξόδου, το οποίο έιναι και το μοναδικό στο οποίο λαμβάνουν χώρα υπολογισμοί. Η ύπαρξη μονάχα ενός επιπέδου υπολογισμών καθιστά το Perceptron σαν ένα μονοστρωματικό νευρωνικό δίκτυο. Με προσθήκη περισσότερων του ενός υπολογιστικών επιπέδων σε ένα νευρωνικό δίκτυο πραγματοποιείται η σύνθεση των λεγόμενων Πολυστρωματικών Νευρωνικών Δικτύων. Τα Πολυστρωματικά Νευρωνικά δίκτυα λοιπόν περιέχουν πολλαπλά υπολογιστικά επίπεδα (layer) μεταξύ εισόδου και εξόδου, τα οποία ονομάζονται κρυφά επίπεδα, αφού οι υπολογισμοί που υλοποιούνται σε αυτά δεν είναι ορατοί στο χρήστη. Με απλή πρόσθεση λοιπόν ενός ακόμη Perceptron στο βασικό μοντέλο, μπορούμε να πάρουμε στην έξοδο 2 αποτελέσματα, y 1 και y 2 ακριβώς με τον ίδιο τρόπο που έχουμε ορίσει μέχρι στιγμής. Το καθένα απο τα 2 αυτά Perceptrons είναι διασυνδεδεμένο με ένα ξεχωριστό σύνολο βαρών με το επίπεδο εισόδων και έχει τον bias όρο του. Ακριβώς επειδή όλες οι είσοδοι βρίσκουν διασυνδέσεις μέσω βαρών με τις εξόδους αυτό το είδος στρωμάτων (layers) καλούνται πυκνά επίπεδα ή όπως αναφέρεται και στη βιβλιογραφία, Dense layers Πολυεπίπεδο Perceptron και Θεώρημα Καθολικής Προσέγγισης Άμεση προέκταση αποτελεί η υλοποίηση ενός δικτύου με ένα επίπεδο. Ένα επίπεδο, δηλαδή το συγκεκριμένο δίκτυο αποτελείται από ένα κρυφό επίπεδο το οποίο τροφοδοτεί ένα επίπεδο εξόδου. Προφανώς, στα δίκτυα

31 Πολυστρωματικά Νευρωνικά Δίκτυα 17 το επίπεδο εισόδου συχνά παραλείπεται,αφού σε αυτό δεν επιτελούνται υπολογιστικές πράξεις παρά μόνο μετάβαση των εισόδων στο επόμενο επίπεδο. Σε δίκτυα ενός επιπέδου πραγματοποιούνται μετασχηματισμοί μεταξύ του επιπέδου εισόδου με το κρυφό επίπεδο, αλλά και του κρυφού με το επίπεδο εξόδου. O μετασχηματισμός μεταξύ επιπέδου εισόδου και κρυφού έχει σα στόχο την προβολή των δεδομένων εισόδου σε ένα χώρο στον οποίο τα δεδομένα είναι γραμμικώς διαχωρίσιμα. Αυτή είναι μια πολύ σημαντική λειτουργία του συγκεκριμένου δικτύου, αφού επιτρέπει την επεξεργασία και μη-γραμμικού τύπου δεομένων. Καθένας από αυτούς τους 2 μετασχηματισμούς θα έχει ένα ξεχωριστό πίνακα με βάρη W (1), W (2) σε συμφωνία με το αντίστοιχο επίπεδο, όπως φαίνεται και στην εικόνα που ακολουθεί Figure 2.10: Νευρωνικό δίκτυο με ένα κρυφό επίπεδο Έστω ότι γίνεται επιλογή ενός στοιχείου στο κρυφό επίπεδο, για παράδειγμα του δεύτερου στοιχείου Z 2 όπως βλέπουμε και στην εικόνα. Όπως ήδη έχει αναφερθεί αυτό το στοιχείο, αποτελεί ένα απλό Perceptron το οποίο υπολογίζει το σταθμισμένο άθροισμα όλων των εισόδων που τροφοδοτούνται σε αυτό και εφαρμόζει μια μη γραμμική συνάρτηση στο συνολικό άθροισμα, προτού με τη σειρά του τροφοδοτήσει την παραγόμενη τιμή στο επόμενο επίπεδο. Η ύπαρξη αυτού του κρυφού επιπέδου στο νευρωνικό δίκτυο είναι αρκετή ώστε να μετατρέψει αυτό το δίκτυο μονού επιπέδου ή το Πολυεπίπεδο-Perceptron (Multi-Layer Perceptron) όπως συχνά αναφέρεται σε έναν καθολικό εκτιμητή για οποιαδήποτε συνάρτηση και δεδομένα εισόδου. Ένα Πολυεπίπεδο-Perceptron με ένα κρυφό επίπεδο αποτελεί μια συνάρτηση f : R D R L, (2.10) όπου D είναι το μέγεθος του πίνακα εισόδου x και L το μέγεθος του πίνακα εξόδου του δικτύου f(x) έτσι ώστε σε περιβάλλον πινάκων να ισχύει: f(x) = G(b (2) + W (2) (s(b (1) + W (1) x))), (2.11) όπου b (1), b (2) οι πίνακες bias στο πρώτο και δεύτερο επίπεδο και W (1), W (2) οι πίνακες των αντίστοιχων βαρών με την συνάρτηση ενεργοποίησης στο επίπεδο εξόδου και τη συνάρτηση ενεργοποίησης στο πρώτο επίπεδο. Βάση του θεωρήματος καθολικής προσέγγισης (Universal approximation theorem) [4], κάθε απλό νευρωνικό δίκτυο με τουλάχιστον 3 επίπεδα μπορεί να χρησιμοποιηθεί σχεδόν σε οποιδήποτε πρόβλημα ενδιαφέροντος,

32 18 Βασικές έννοιες Βαθιάς Μάθησης αφού πρακτικά έχει τη δυνατότητα να εκτιμήσει οποιαδήποτε συνάρτηση. Μπορεί, δηλαδή, να υλοποιήσει οποιαδήποτε μη-γραμμική διάκριση περιοχών για ένα πρόβλημα ταξινόμησης (classification) ή να αναπτύξει οποιαδήποτε μη-γραμμική συνάρτηση για την πρόβλεψη κάποιας τιμής σε ένα κλασικό πρόβλημα παλινδρόμησης (regression) Βαθιά δίκτυα και συναρτήσεις απωλειών Με βάση τα παραπάνω λοιπόν,αν θέλουμε να δημιουργήσουμε ένα βαθύ Νευρωνικό Δίκτυο μπορούμε απλά να προσθέσουμε παραπάνω επίπεδα δημιουργώντας ένα κλιμακώτο μοντέλο από διαδοχικά επίπεδα. Η τυπική μορφή ενός βαθιού δικτύου με εμπρόσθια μορφή πληροφόρησης, αποτελείται από Dense layers νευρώνων όπου κάθε νευρώνας έχει ένα σύνολο από συναπτικά βάρη και έναν bias όρο. Έτσι η συνολική μορφή του δικτύου μπορεί να αποδωθεί με την απλή αναφορά του αριθμού των επιπέδων που το αποτελούν καθώς και τον αριθμό των νευρώνων σε κάθε επίπεδο. Το μόνο που μένει να δηλωθεί είναι η συνάρτηση απωλειών (loss function) την οποία το δίκτυο προσπαθεί να βελτιστοποιήσει στο επίπεδο εξόδου. Μια ποσοτικοποίηση του σφάλματος για το δίκτυο δίνεται απο την παρακάτω εξίσωση. J(w) = 1 m L(ym, fw(x m )), (2.12) Η εξίσωση αποδίδει τις απώλειες που υπάρχουν στο δίκτυο λόγο λανθασμένων προβλέψεων.στην ουσία, γίνεται μια σύγκριση μεταξύ των προβλέψεων fw(x m ) που δώθηκαν απο το δίκτυο και των πραγματικών τιμών y i που έπρεπε το δίκτυο να αποδώσει βάση των εισόδων. Ακριβώς επειδή σε ένα βαθύ δίκτυο δεν γίνεται εξέταση ενός χαρακτηριστικού αλλά πολλών εισόδων(έστω m), η συνάρτηση που δίνει τις συνολικές απώλειες εκφράζεται πρακτικά από το μέσο όρο των επιμέρους σφαλμάτων για κάθε ένα δεδομένο εισόδου. Πρακτικά το επιμέρους σφάλμα ορίζει την απόκλιση σε ένα δεδομένο μεταξύ της πραγματικής και της προβλεπόμενης τιμής του. Έχοντας ήδη αναπτύξει την έννοια της δυαδικής κατηγοριοποίησης δεδομένων, όπως στην περίπτωση του Perceptron, αξίζει να γίνει αναφορά σε μια συνηθισμένη συνάρτηση σφάλματος,όπως είναι η softmax cross-entropy με logits. Η συγκεκριμένη συνάρτηση υπολογίζει τη softmax cross-entropy απώλεια μεταξύ των προβλέψεων του δικτύου (logits) και των πραγματικών τιμών για κάθε είσοδο (labels). Η απώλεια cross-entropy χρησιμοποείται σε μοντέλα,όπου ζητούμενη, για την κατηγοριοποίηση των δεδομένων, είναι η απόδοση εξόδου σε πιθανοτική μορφή 0 εως 1. Όπως και με τη σιγμοειδή, το δίκτυο πρακτικά για κάθε είσοδο μετρά τη διαφορά μεταξύ των πιθανοτικών πορβλέψεων και των πραγματικών τιμών. Δηλαδή τη διαφορά μεταξύ της πιθανότητας ενός δεδομένου να βρίσκεται σε μια κατηγορία και της πραγματικής κατάστασης. Για ένα πρόβλημα ταξινόμησης κατά την εκπαίδευση η πραγματική τιμή ενός δεδομένου, y, θα έχει 0 σε όλες τις κλάσεις εκτός απο εκείνη στην οποία θα ανήκει που θα έχει 1, μια αναπαράσταση ιδιαίτερα βολική όταν υπάρχει πιθανοτικό περιεχόμενο στα δεδομένα. Αυτής της μορφής η κωδικοποίηση ονομάζεται one-hot κωδικοποίηση και βοηθάει σημαντικά στη διαδικασία εκπαίδευσης των δικτύων. Αναφερόμενοι σε περιπτώσεις όπου ένα βαθύ δίκτυο καλείται να προβλέψει και να κατηγοριοποιήσει δεδομένα σε πολλές κλάσεις και όχι 2 όπως το Perceptron, δεν είναι δυνατή η χρήση της μη-γραμμικής σιγμοειδούς,ως συνάρτηση ενεργοποίησης. Γι αυτό το λόγο αναγκαία είναι η χρήση της softmax συνάρτησης, η οποία δέχεται σαν εισόδους έναν πίνακα με τις προβλέψεις του δικτύου (τα logits), εστω i συνολικές προβλέψεις, για την κατηγοριοποίηση καθεμιάς εισόδου. Στη συνέχεια, κανονικοποιεί τα logits σε μια αθροιστική συνάρτηση κατανομής η οποία αποτελείται από i πιθανότητες σε ευθεία αναλογία με την εκθετική τιμή καθεμιάς τιμής εισόδου. Με την εκθετική έκφραση των τιμών αποτρέπεται η περίπτωση αρνητικής τιμής στην πιθανοτική έκφραση των προβλέψεων όταν η τιμή ενός logit είναι αρνητική.

33 Πολυστρωματικά Νευρωνικά Δίκτυα 19 Figure 2.11: Softmax συνάρτηση για 3 δεδομένα εξόδου ενός δικτύου Έχοντας ορίσει τη συνάρτηση softmax, μπορεί να οριστεί η απώλεια cross-entropy την οποία το δίκτυο καλείται να ελαχιστοποιήσει στο επίπεδο εξόδου. Παίρνοντας τις πραγματικές τιμές για την κάθε είσοδο (labels) αλλά και τις προβλέψεις του δικτύου (logits) μετα τη συνάρτηση softmax σε πιθανοτική μορφή, η cross-entropy απώλεια πρακτικά μετρά πόσο απέχουν αυτές οι τιμές. Για το παράδειγμα του νευρώνα δηλαδή πάλι και με δεδομένο οτι για m εισόδους η έξοδος του νευρώνα είναι ŷ = g(z) με z = m i=1 (x iw i + b) τα logit και y η πραγματική τιμή ενός δεδομένου εισόδου, η απώλεια cross-entropy μπορεί να οριστεί ως: J = 1 m m [y ln ŷ + (1 y) ln(1 ŷ)] (2.13) i=1 Η παραπάνω απώλεια χρησιμοποείται με το ίδιο σκεπτικό για νευρωνικά δίκτυα με πολλαπλές εξόδους έστω k για προβλήματα πολλαπλής ταξινόμησης ως εξής: J = 1 m m k [y ik ln yˆ ik + (1 y ik ) ln(1 yˆ ik )], (2.14) i=1 n=1 η οποία θα πάρει την ελάχιστη τιμή όταν y ik = yˆ ik, που για δυαδικές εισόδους είναι μηδέν. Figure 2.12: Υπολογισμός απώλειας cross-entropy για 3 εξόδους δικτύου Στην περίπτωση, ωστόσο που αντί για πρόβλημα ταξινόμησης καλούμαστε να αντιμετωπίσουμε ένα πρόβλημα λογιστικής παλινδρόμησης των δεδομένων, με σκοπό την ανάδειξη συσχετίσεων μεταξύ των δεδομένων τότε στις εξόδους των δικτύων δε βρίσκονται πιθανότητες αλλά συνεχείς πραγματικοί αριθμοί. Αυτή η διαφοροποίηση

34 20 Βασικές έννοιες Βαθιάς Μάθησης στις εξόδους του δικτύου, οδηγεί σε επιλογή ξεχωριστών συναρτήσεων απωλειών, οι οποίες να αποδίδουν στο συγκεκριμένο πρόβλημα σε ένα αριθμητικό πλέον περιβάλλον. Έτσι γίνεται συχνά χρήση της συνάρτησης του μέσου όρου των ελαχίστων τετραγώνων σαν απώλεια που το δίκτυο καλείται να βελτιστοποιήσει, μεταξύ των πραγματικών τιμών και των προβλέψεων. Δίνεται απο την εξίσωση, J(w) = 1 m (ym fw(x m )) 2 (2.15) Εκπαίδευση και αλγόριθμος Οπισθοδιάδοσης(Backpropagation) Έχοντας ορίσει λοιπόν την έννοια της συνάρτησης κόστους και έχοντας ποσοτικοποιήσει το σφάλμα σε ένα νευρωνικό δίκτυο επόμενο βήμα αποτελεί η κατανόηση της διαδικασίας εκπαίδευσής του. Ένα μοντέλο εκπαιδεύεται ώστε να καταφέρει να βρει τις κατάλληλες τιμές που πρέπει να έχουν τα βάρη του, τα οποία θα χρειαστούν για μια ακριβή πρόβλεψη σε ένα πρόβλημα.πρακτικά δηλαδή, το ενδιαφέρον συγκεντρώνεται στην εύρεση του κατάλληλου συνόλου βαρών (W ) τα οποία το μοντέλο θα χρησιμοποιήσει, προκειμένου να ελαχιστοποιήσει τις απώλειες J(w) για το σύνολο των δεδομένων εισόδου σε ένα συγκερκιμένο πρόβλημα. W* = argmin W J(W) (2.16) Όπως αναφέρθηκε στην ανάλυση του gradient descent απαραίτητη για τον υπολογισμό του ελαχίστου της συνάρτησης απωλειών, είναι η εύρεση μερικών παραγώγων συναρτήσει των βαρών και των όρων bias, w J(w) = ( J J,...,, J w 1 w m b ) (2.17) Με τον υπολογισμό λοιπόν των παραπάνω μερικών παραγώγων, ενδιαφερόμαστε να μετρήσουμε την επιρροή που θα έχει στο συνολικό μας δίκτυο μια μικρή μεταβολή σε κάποιο βάρος, κατά πόσο δηλαδή μια αλλαγή στο βάρος επηρεάζει τη συνάρτηση απωλειών. Αναλύοντας το παράδειγμα ενός εντελώς απλού δικτύου με μόνο ένα κρυφό νευρώνα,έστω z 1 και μια έξοδο ŷ 2.13, θα αναλυθεί ο τρόπος υπολογισμού της μερικής παραγώγου για τη συνάρτηση απωλειών συναρτήσει του w (2) του βάρους. Το w (2) δηλαδή το βάρος μεταξύ του κρυφού επιπέδου και του επιπέδου εξόδου. Έτσι, αφού υπολογιστεί μπορεί να διευκρινιστεί κατά πόσο μια αλλαγή στο w (2) θα επηρεάσει τη συνολική απώλεια J(w). Figure 2.13: Nευρωνικό δίκτυο με έναν κρυφό νευρώνα και συνάρτηση απωλειών J(w) Στην πράξη επιζητούμε τον υπολογισμό, J(w) w 2 (2.18) Με κατάλληλη χρήση του κανόνα της αλυσίδας και με δεδομένο ότι η έξοδος ŷ εξαρτάται από το w (2), αλλά και ότι το σφάλμα J(w) εξαρτάται και από το επίπεδο εξόδου η παραπάνω σχέση μπορεί να αναλυθεί:

35 Πολυστρωματικά Νευρωνικά Δίκτυα 21 J(w) w 2 = J(w) ŷ ŷ w 2 (2.19) Aν τώρα στο συγκεκριμένο παράδειγμα επιθυμούμε να υπολογίσουμε τη μερική παράγωγο συναρτήσει τώρα του w (1), του βάρους δηλαδή μεταξύ του επιπέδου εισόδου και του κρυφού, αντικαθιστώντας στην παραπάνω εξίσωση το w (1) παίρνουμε : J(w) w 1 = J(w) ŷ ŷ w 1 (2.20) Και εδώ παρατηρούμε ότι ο όρος ŷ w 1 δε μπορεί να υπολογιστεί απευθείας όποτε γίνεται χρήση του κανόνα της αλυσίδας για ακόμη μια φορά. Τελικά παίρνουμε, J(w) w 1 = (w) ŷ ŷ z 1 z 1 w 1, (2.21) όπου ο δεύτερος όρος αναφέρεται στην κατάσταση z 1. Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε βάρος στο δίκτυο. Στη συγκεκριμένη περίπτωση που υπάρχουν 2 μόνο βάρη αυτή ήταν μια ολοκληρωμένη διαδικασία εύρεσης των μερικών παραγώγων που χρειάζονται για την ανανέωση των βαρών του παραπάνω μοντέλου σύμφωνα πάντα και με τον gradient descent. Κατά ανάλογο τρόπο εργαζόμαστε και σε δίκτυα με πολλά επίπεδα και μεγάλο πλήθος βαρών. Μόνο που σε αυτή την περίπτωση, το πρόβλημα εντοπίζεται στο γεγονός ότι η απώλεια έχει μια περίπλοκη σύνθεση και εξαρτάται από τα βάρη των αρχικών επιπέδων. Πρακτικά γίνεται υπολογισμός των παραγώγων της απώλειας συναρτήσει κάθε βάρους ξεχωριστά μέσω του κανόνα της αλυσίδας. Με φορά απο το επίπεδο εξόδου προς το επίπεδο κάθε συγκεκριμένου βάρους,έχουμε τη δυνατότητα να αξιολογήσουμε, τη σημαντικότητα κάθε βάρους και κατά πόσο μια μικρή αλλαγή του επηρεάζει τα επόμενα επίπεδα και τελικά τη συνάρτηση απωλειών του μοντέλου. Με αυτό τον τρόπο οδηγούμαστε στον υπολογισμό των μερικών παραγώγων που χρειαζόμαστε για το δίκτυο μας και τη βελτιστοποίηση της συνάρτησης απωλειών, με μια κατεύθυνση απο το επίπεδο εξόδου στο επίπεδο εισόδου. Έτσι, επιτρέποντας στο σφάλμα να διαδίδεται κατά αντίθετο τρόπο από το εμπρόσθιο πέρασμα (forward pass) σε όλα τα επίπεδα του δικτύου, δηλαδή απο το επίπεδο εξόδου στο επίπεδο εισόδου,μπορούμε να ανακαλύψουμε τυχόν επιρροές απο βάρη αρχικών επιπέδων στο συνολικό σφάλμα του μοντέλου. Ένα χαρακτηριστικό ιδιαίτερα σημαντικό αν αναλογιστεί κανείς την πολυεπίπεδη φύση νευρωνικών δικτύων και το τεράστιο πλήθος βαρών που αυτά περιλαμβάνουν. Η παραπάνω διαδικασία ονομάζεται Backpropagation και αποτελεί μία απο τις βασικότερες έννοιες κατα την εκπαίδευση νευρωνικών δικτύων. Αποτελεί μια επέκταση του gradient descent για πολυεπίπεδα νευρωνικά δίκτυα καιχρησιμοποιείται για την εύρεση των πεπλεγμένων μερικών παραγώγων στα βάρη τους. Ο αλγόριθμος του Backpropagation είναι πρακτικά μια εφαρμογή του κανόνα της αλυσίδας των μερικών παραγώγων και ένα χαρακτηριστικό παράδειγμα δυναμικού προγραμματισμού. Αποτελείται ουσιαστικά απο 2 φάσεις,την προς τα εμπρός (forward phase) και την προς τα πίσω (backward). Κατά τη forward φάση σε ένα πρόβλημα ταξινόμησης, γίνεται η εισαγωγή των εισόδων για ένα δεδομένο εκπαίδευσης στο δίκτυο.ακολουθούν υπολογισμοί με τυχαία βάρη και bias όρους, γίνεται προσπέλαση απο τα επίπεδα του μοντέλου και υπολογίζεται μια σειρά απο logits ανάλογα με το πλήθος των κατηγοριών στις οποίες καλούμαστε να ταξινομήσουμε τα δεδομένα. Το τελικό αποτέλεσμα στο επίπεδο εξόδου, η πρόβλεψη του μοντέλου, συγκρίνεται με την πραγματική κατηγορία του δεδομένου εισόδου ενώ ταυτόχρονα υπολογίζεται η παράγωγος της συνάρτησης απωλειών συναρτήσει της εξόδου του μοντέλου.αυτή η μερική παράγωγος πρέπει στο επόμενο στάδιο να υπολογιστεί συναρτήσει όλων των βαρών του δικτύου σε όλα τα επίπεδα μέσω της backward φάσης. Κύριος στόχος κατά τη διάρκεια της backward φάσης είναι ο υπολογισμός και η εκμάθηση των μερικών παραγώγων της συνάρτησης απωλειών

36 22 Βασικές έννοιες Βαθιάς Μάθησης για όλα τα βάρη,χρησιμοποιώντας τον κανόνα της αλυσίδας. Αυτές οι παράγωγοι χρησιμοποιούνται ακριβώς όπως και στο gradient descent για το Perceptron για την ανανέωση των βαρών τα οποία θα οδηγήσουν στην ελαχιστοποίηση της συνάρτησης απωλειών για το μοντέλο. Έτσι τα νέα βάρη, w i = w i η J w i, (2.22) θα οδηγήσουν σε καλύτερη πρόβλεψη ŷ = g(w + b ) (2.23) Όπως και στην περίπτωση του Perceptron η διαδικασία του gradient descent και στα πολυεπίπεδα νευρωνικά δίκτυα, επαναλαμβάνεται μέχρις ότου υπάρξει καποιας μορφής σύγκλιση στο μοντέλο. Γίνονται πολλές επαναλήψεις στο σύνολο των δεδομένων εκπαίδευσης, τις οποίες καλούμε εποχές του μοντέλου,μέχρις ότου να βρεθούν τα κατάλληλα σύνολα βαρών και bias όρων που να ελαχιστοποιούν το σφάλμα. Στη σημερινή εποχή οι παραπάνω υπολογισμοί και η γενικότερη διαδικασία του Backpropagation,αυτοματοποιούνται μέσα απο περιβάλλοντα εργασίας και προγράμματα οπως το TensorFlow,μέσω αυτόματης διαφόρισης.κατά αυτόν τον τρόπο η εκπαίδευση των νευρωνικών δικτύων γίνεται αισθητά ευκολότερη,χωρίς οι χρήστες να ασχολούνται με υπολογισμούς περίπλοκων πεπλεγμένων μερικών παραγώγων κατά τον υπολογισμό του Backpropagation για τεράστια πλήθη βαρών στα μοντέλα 2.4 Βελτιστοποιήσεις κατά την εκπαίδευση του νευρωνικού δικτύου Η βελτιστοποίηση στα νευρωνικά δίκτυα, η εύρεση δηλαδή των κατάλληλων βαρών και bias όρων για την ελαχιστοποίηση του σφάλματος στα μοντέλα, αποτελεί μια ιδιαίτερα δύσκολη διαδικασία. Αυτό γιατί σε αντίθεση με τις προαναφερθείσες περιπτώσεις και συναρήσεις απωλειών σε απλά νευρωνικά δίκτυα, στην πραγματικότητα στις περισσότερες εφαρμογές τα νευρωνικά δίκτυα έχουν εκατομμύρια παραμέτρους. Πλήθος από βάρη και bias όρους κάνουν το μοντέλο αισθητά πιο περίπλοκο. Στην παρακάτω εικόνα 2.14 φαίνεται μια συνάρτηση απώλειας για ένα τέτοιο μοντέλο όπου έχει γίνει γραφική απόδοσή της σε περιβάλλον δισδιάστατου χώρου.όπως φαίνεται, δεν είναι εύκολο να αποσαφηνιστεί το σημείο στο οποίο βρίσκεται το ελάχιστο της συνάρτησης απωλειών,αφού το γράφημα περιέχει μεγάλο πλήθος απο επιμέρους τοπικά ελάχιστα, τα οποία ο αλγόριθμος του gradient descent μπορεί εσφαλμένα να κατηγοριοποιήσει ως ολικά.τέτοια περιβάλλοντα δηλαδή αν και είναι αρκετά συνηθισμένα στα μοντέλα νευρωνικών δικτύων,αποτελούν ιδιαιτέρως δύσκολες περιπτώσεις για την εφαρμογή του gradient descent και την ακριβή απόδοση του ολικού ελαχίστου των συναρτήσεων.

37 Βελτιστοποιήσεις κατά την εκπαίδευση του νευρωνικού δικτύου 23 Figure 2.14: Οπτικοποίηση συνάρτησης απωλειών για το ResNet-110 [1] Ορισμός Learning rate Όπως έχει αναφερθεί η ανανέωση των βαρών κατά την διαδικασία της εκπαίδευσης στα νευρωνικά δίκτυα πετυχαίνεται κατά την αντίθετα φορά της παραγώγου του σφάλματος. Πιο συκγεκριμένα μέσω του gradient descent έχουμε, w i = w i η J w i, (2.24) Σαν η, όπως ήδη έχει αναφερθεί ορίζεται το learning rate. Πρακτικά αναφέρεται σα μέγεθος βήματος προς την κατεύθυνση της παραγώγου ενώ στην πράξη έχει πολύ μεγάλη επίδραση στην απόδοση ενός μοντέλου. Το learning rate ορίζεται σαν μια υπερ-παράμετρος, αφού η τιμή του θα χρησιμοποιηθεί για την εκπαίδευση του μοντέλου, οπότε η βελτιστοποίησή του αποτελεί μια πολύ σημαντική διαδικασία. Ένα ιδιαίτερα μικρό learning rate,συνεπάγεται σε μια μικρή μετατόπιση προς την αντίθετη κατεύθυνση που δείχνει η παράγωγος. Κάτι τέτοιο έχει σαν αποτέλεσμα,κατά την διάρκεια της επανάληψης του gradient descent, μπορεί να βρεθεί κάποιο τοπικό ελάχιστο το οποίο να μη μπορεί να ξεπεραστεί. Καθώς σε κάθε επανάληψη γίνεται πολύ μικρή μεταβολή του βήματος, αυτή δεν είναι ικανή για να μετατοπιστεί η διαδικασία προς την κατάλληλη κατεύθυνση του ολικού ελαχίστου. Σε αυτή την περίπτωση ο αλγόριθμος λανθασμένα θα μας δώσει συνήθως ένα τοπικό ελάχιστο σαν ολικό ελάχιστο ή στην καλύτερη περίπτωση θα συγκλίνει σωστά στο ελάχιστο έπειτα όμως από πάρα πολλές επαναλήψεις. Στον αντίποδα ένα αρκέτα μεγάλο learning rate θα οδηγούσε σε απόκλιση,καθώς ένα πολύ μεγάλο μέγεθος σε κάθε βήμα θα οδηγούσε σε προσπέραση του ελαχίστου,κάτι που θα δημιουργούσε ανισορροπία στην επαναληπτική διαδικασία. Παρατηρείται λοιπόν,ότι η σωστή επιλογή του learning rate,αποτελεί μια δύσκολη διαδικασία.και αυτό γιατί πρέπει να είναι αρκετά μεγάλο, ώστε να καταφέρνει να υπερπηδά τα τοπικά ελάχιστα,αλλά ταυτόχρονα αρκετά μικρό ώστε ο αλγόριθμος να συγκλίνει βρίσκοντας το ολικό ελάχιστο. Έτσι εκτός απο την δοκιμή πολλαπλών διαφορετικών τιμών για το learning rate σε κάθε μοντέλο, αναπτύχθηκαν αρκετές θεωρίες σχετικές με πιο αποδοτικές προσεγγίσεις. Σε αυτόν τον άξονα λοιπόν,ξεκίνησε η σχεδίαση ενός προσαρμοστικού τρόπου επιλογής της τιμής του learning rate κατά τη διάρκεια του gradient descent και σύμφωνα με την εκάστοτε μορφή της συνάρτηση απώλειας που καλείται ένα μοντέλο να βελτιστοποιήσει. Έτσι

38 24 Βασικές έννοιες Βαθιάς Μάθησης η τιμή του learning rate δεν είναι σταθερή αλλά αυξομειώνεται κατά τη διάρκεια της εκπαίδευσης, ανάλογα με το μέγεθος των επιμέρους εξεταζόμενων μερικών παραγώγων,της ταχύτητας εκπαίδευσης και της απόστασης απο το ολικό ελάχιστο, ώστε τελικά να επιτευχθεί σύγκλιση στο κατάλληλο σημείο.η σχεδίαση προσαρμοστικών αλγορίθμων αποτελεί αντικείμενο έρευνας ενώ έχουν παρατεθεί διαφορετικές προσεγγίσεις με αξιοσημείωτα αποτελέσματα.επιγραμματικά,μερικοί αλγόριθμοι με προσαρμοστική τιμή learning rate όπως ο SGD,Adam,Adadelta και Adagrad κρίνονται ιδιαιτέρως σημαντικοί και χρησιμοποιούνται αποδοτικά στην πλειοψηφία των εφαρμογών. Πιο συγκεκριμένα ο Adam [5], του οποίου γίνεται χρήση και στην παρούσα διπλωματική, βασίζεται στον υπολογισμό πρωτοβάθμιων και δευτεροβάθμιων εκθετικά κινούμενων μέσων τιμών για τις μερικές παραγώγους των παραμέτρων και εφαρμόζει τον stochastic gradient descent (SGD).Δεχόμενος με τυχαία σειρά μικρά σύνολα παρατηρήσεων (minibatches) από τα δείγματα και κάνοντας μικρά βήματα σε κάθε επανάληψη, ο stochastic gradient descent αποδίδει αποτελεσματικά και σε πολύ καλύτερο χρόνο από τον gradient descent,που απαιτεί προσπέλαση όλων των εισόδων για την ανανέωση των βαρών.έτσι ο Adam,είναι ιδιαίτερα αποδοτικός υπολογιστικά καθότι απαιτείται πολύ μικρό μέγεθος μνήμης για την εκτέλεσή του μετατρέποντάς τον σε μια απο τις ιδανικότερες επιλογές αλγορίθμων για προβλήματα με μεγάλο πλήθος δεδομένων και παραμέτρων Eκπαίδευση με mini-batches και SGD Όπως ήδη έχουμε αναφέρει για τον gradient descent, κάθε βήμα ανανέωσης των βαρών του, συμβαίνει όταν έχει γίνει προσπέλαση σε όλα τα δεδομένα εισόδου και καλείται epoch. Έτσι σε κάθε epoch προσπελαύνουμε όλα τα δεδομένα από όλο το δίκτυο και παίρνουμε τις προβλέψεις του μοντέλου για κάθε πρόβλημα. Στη συνέχεια γίνεται υπολογισμός του σφάλματος συκγριτικά με τις πραγματικές τιμές για την κάθε είσοδο και τέλος χρησιμοποιώντας το back propagation διαδίδουμε αυ το το σφάλμα από την έξοδο στην είσοδο και σε όλα τα επίπεδα,ανανεώνοντας τα βάρη του δικτύου. Με αυτό τον τρόπο επαναληπτικά παίρνουμε καλύτερες προβλέψεις απο το μοντέλο. Αυτή η διαδικασία ωστόσο εύκολα μπορεί να παρατηρηθεί οτι θα απαιτούσε μεγάλη υπολογιστική ισχύ και θα χρησιμοποιούσε μεγάλο κομμάτι της μνήμης, μοναχά για μια απλή ενημέρωση στα βάρη ενός μοντέλου. Αρχιτεκτονικές με πολλά επίπεδα και επιμέρους βάρυ θα απαιτούσαν μεγάλο πλήθος υπολογισμών μεταξύ πινάκων, μετατρέποντας τον υπολογισμό παραγώγων σε μια ιδιαίτερα δύσκολη διεργασία. Για την καταπολέμηση του παραπάνω προβλήματος αναπτύχθηκαν τεχνικές βελτιστοποίησης και ανανέωση βαρών, οι οποίες επιλέγοντας κάθε φορά ένα υποσύνολο των δεδομένων υλοποιούν τον αλγόριθμο και πετυχαίνουν την ανανέωση στα βάρη.παρόμοιο είναι και η λειτουργία του stochastic gradient descent (SGD) [6]. Χωρίζοντας το σύνολο των δεδομένων σε επιμέρους ισόποσα mini-batches, επιτελεί την λειτουργία του gradient descent υπολογίζοντας το σφάλμα για τα συγκεκριμένα δεδομένα και υπολογίζει τις παραγώγους της συνάρτησης απωλειών συναρτήσει των βαρών,με βάση τα δεδομένα που επέλεξε. Ανανεώνει τις τιμές των βαρών και στη συνέχεια επιλέγει το επόμενο mini-batch δεδομένων και επιτελεί ακριβώς την ίδια λειτουργία.η τιμή για τον υπολογισμό των παραγώγων oρίζεται σαν τον μέσο όρο για κάθε παράγωγο του mini-batch (B) που επιλέχθηκε. Η μαθηματική ερμηνεία δίνεται από: J(W ) W = 1 B B k=1 J k (W ) W, (2.25) J k (W ) W Όπου είναι το πλήθος του mini-batch που επιλέχθηκε, μέχρι μερικές εκατοντάδες σημεία συνήθως και περιγράφει τις επιμέρους μερικές παραγώγους για καθένα απο τα σημεία του. Στο επόμενο στάδιο όπως και στο gradient descent γίνεται η ανανέωση των βαρών για κάθε mini-batch που επιλέγουμε,προς την αντίθετη κατεύθυνση της παραγώγου που ορίσαμε παραπάνω. Ο SGD αποτελεί μια πολύ γρηγορότερη υπολογιστικά προσέγγιση και ταυτόχρονα πολύ πιο ακριβή απο ότι ο gradient descent, οδηγώντας σε σύγκλιση τον αλγόριθμο πιο αποδοτικά.τέλος, αν συνυπολογιστεί και η έννοια της παράλληλης επεξεργασίας,που μπορεί να επιτευχθεί με χρήση επιμέρους καρτών γραφικών για κάθε mini-batch ξεχωριστά

39 Βελτιστοποιήσεις κατά την εκπαίδευση του νευρωνικού δικτύου 25 κατά την εκπαίδευση του μοντέλου, μπορεί κανείς να παρατηρήσει ιδιαίτερα γρηγορότερες αποκρίσεις με τη χρήση του SGD σε ένα νευρωνικό δίκτυο Υπερπροσαρμογή και Εξομάλυνση Για την όσο το δυνατόν καλύτερη περιγραφή των διαθέσιμων δεδομένων, χρησιμοποιούμε πολύπλοκα μοντέλα, με την έννοια ότι το πλήθος των άγνωστων ελεύθερων παραμέτρων τους είναι μεγάλο σε σχέση με τον αριθμό των διαθέσιμων παρατηρήσεων. Αυτό είναι ταυτόσημο με εκείνο που στη μηχανική μάθηση ονομάζουμε overfitting, την υπερπροσαρμογή δηλαδή του μοντέλου στα δεδομένα εκπαίδευσης. Το overfitting [7] αποτελεί ένα απο τα θεμελιώδη προβλήματα στο πεδίο της μηχανικής μάθησης. Για την αντιμετώπισή του και την αξιολόγηση της απόδοσης του μοντέλου θα χρησιμοποιηθεί έτσι ένα ξεχωριστό σύνολο δεδομένων (test set) που το μοντέλο δεν έχει εκαπιδευτεί σε αυτά, σε σχέση με τα δεδομένα στα οποία θα το έχουμε εκπαιδεύσει (training set). Αυτό έχει σα στόχο την ανάδειξη της πραγματικής συμπεριφοράς του δικτύου σε νέα δεδομένα στα οποία δεν έχει εκπαιδευτεί και δεν έχει έρθει σε επαφή ξανά. H γενίκευση του μοντέλου, όπως ονομάζεται αυτό το χαρακτηριστικό, αποτελεί μια βασική αρχή για τη διαδικασία της εκπαίδευσης και κατ επέκταση αξιολόγησης των δικτύων. Αναπτύχθηκε παραπάνω ότι ένα κεντρικό πρόβλημα στη μηχανική μάθηση είναι η ανάπτυξη ενός αλγορίθμου που όχι μόνο αποδίδει καλά στα δεδομένα εκπαίδευσης, άλλα και σε άγνωστα σε αυτό. Πέραν, λοιπόν, του συνόλου εκπαίδευσης (training set), χρησιμοποιούμε ένα σύνολο ελέγχου (test set) με παρατηρήσεις που δεν μετέχουν στην εκπαίδευση για να συμπεράνουμε την ικανότητα γενίκευσης του μοντέλου/εκτιμητή. Κατά τη διάρκεια της εκπαίδευσης μέσα από την επιλογή του κατάληλλου εκτιμητή (optimizer), όπως ο gradient descent, επιδιώκουμε το μοντέλο μας να έχει τέτοια πολυπλοκότητα, ώστε το σφάλμα στο test set να γίνει κατά το δυνατόν ελάχιστο. Παρατηρούμε ότι πολλές στρατηγικές που χρησιμοποιούνται στη μηχανική μάθηση στοχεύουν στη μείωση του test σφάλματος. Οι στρατηγικές αυτές συγκεντρώνονται όλες μαζί υπό τον όρο regularization (μέθοδοι εξομάλυνσης). Αποτελούν προσεγγίσεις, οι οποίες αποσκοπούν στη μείωση της πολυπλοκότητας των μοντέλων με στόχο την αποφυγή υπερπροσαρμογής του μοντέλου στα δεδομένα εκπαίδευσης, ούτως ώστε τελικά να βελτιωθεί η γενικευτική ικανότητα του σε νέα δεδομένα που δεν έχει έρθει σε επαφή ξανά. Μία από τις πλέον γνωστές τεχνικές για εξομάλυνση αποτελεί το Dropout [8]. Η χρήση του backpropagation κατά την εκμάθηση, αναπτύσσει ελαφριές αλληλο-προσαρμογές μεταξύ των νευρώνων οι οποίες δουλεύουν καλά για το σύνολο εκπαίδευσης, δεν παρέχουν όμως δυνατότητα γενίκευσης σε άγνωστα δεδομένα. Έτσι κατά τη διάρκεια της εκπαίδευσης θέτουμε με τυχαίο τρόπο, ορισμένες από τις συναρτήσεις ενεργοποίησης των νευρώνων στα κρυφά επίπεδα ίσες με 0. Βάση μιας πιθανότητας που θα ορίσουμε εξ αρχής, σε κάθε επανάληψη κατά την εκπαίδευση, επιλέγουμε τυχαία νευρώνες ορίζοντας τις συναρτήσεις ενεργοποίησης τους ίσες με 0, πρακτικά αποκόπτοντάς τους από την εκπαίδευση για αυτή την επανάληψη. Για παράδειγμα αν ορίσουμε μια πιθανότητα ίση με 0.5, θα συνεπάγεται ότι κάθε ένας από τους νευρώνες των κρυφών επιπέδων σε ένα δίκτυο έχει πιθανότητα 50% να οριστεί η συνάρτηση ενεργοποίησής του ίση με 0. Πρακτικά δηλαδή αφαιρούμε τυχαία σε κάθε επανάληψη κάποιους νευρώνες και βλέπουμε πως αλλάζει η συμπεριφορά του μοντέλου μας. Η μέθοδος αυτή έχει συμβάλει στην αύξηση της απόδοσης των νευρωνικών δικτύων σε μια πληθώρα εφαρμογών από την ταξινόμηση αντικειμένων και ψηφίων μέχρι την αναγνώριση ομιλίας, την ταξινόμηση κειμένου και την ανάλυση βιολογικών δεδομένων. Επόμενο χαρακτηριστικό παράδειγμα τεχνικής εξομάλυνσης αφορά στην εξομάλυνση με ποινές στη νόρμα παραμέτρων. Παραδοσιακά, πολλές μέθοδοι εξομάλυνσης βασίζονται στην αποδοκιμασία των μεγάλων τιμών των παραμέτρων, προσθέτοντας μια παράμετρο ποινής νόρμας Ω(w) στη συνάρτηση κόστους J. Η εξομαλυμένη συνάρτηση κόστους, που εξαρτάται απο τα βάρη w είναι τότε,

40 26 Βασικές έννοιες Βαθιάς Μάθησης J (w) = J(w) + α(w), (2.26) όπου α [0, ) μια υπερπαράμετρος που καθορίζει τη συμβολή του όρου ποινής σε σχέση με την συνάρτηση απωλειών J. Θέτοντας το α στην τιμή 0, δεν έχουμε καθόλου regularization ενώ μεγαλύτερες τιμές του α οδηγούν σε μεγαλύτερη εξομάλυνση. Πολύ γνωστή και με ευρεία χρήση σε τεχνικές βελτιστοποίησης μοντέλων, είναι η μέθοδος L 2 regularization. Το όνομα L 2 χρησιμοποείται για να καταδείξει την έννοια της L 2 νόρμας ενός διανύσματος w. Πιο συγκεκριμένα η L 2 νόρμα ή αλλίως Ευκλείδια νόρμα του w ορίζεται ως, w 2 = ( w w w N 2 ) 1/2 (2.27) και άρα εφαρμογή της, συνεπάγεται όρους βαρών ενός διανύσματος w υψωμένους στο τετράγωνο. Για την υλοποίηση της νέας συνάρτησης κόστους με την προσθήκη της παραπάνω νόρμας, αρκεί να προσθέσουμε τον όρο Ω(w) = w 2 και να τον πολλαπλασιάσουμε με μια υπερπαράμετρο, όπου αν επιθυμούμε να θέτουμε μεγάλες ποινές στις μεγάλες τιμές βαρών το θα έχει μεγάλη τιμή. Η L 2 regularization συνάρτηση κόστους προσπαθεί να διατηρήσει την πλειοψηφία των βαρών σε μικρές τιμές και έτσι δίνει καλύτερα αποτελέσματα αν χρησιμοποιηθεί κατά τη διάρκεια της εκπαίδευσης των μοντέλων. 2.5 Συνελικτικά Νευρωνικά Δικτυα (Convolutional Neural Networks) Εισαγωγή στα Convolutional Neural Networks Σε αυτό το σημείο και έχοντας προηγουμένως ορίσει την πλειοψηφία των παραμέτρων και χαρακτηριστικών που διέπουν τα νευρωνικά δίκτυα και την εκπαίδευσή τους, θα γίνει μια σύντομη αναφορά σε μια ευρέως χρησιμοποιούμενη δομή τους, τα Συνελικτικά Νευρωνικά Δίκτυα που είναι γνωστά και ως CNNs. Τα CNNs είναι ένα είδος νευρωνικών δικτύων ιδιαίτερα κατάλληλων στην επεξεργασία δεδομένων που παρουσιάζουν μια πλεγματοειδή τοπολογία. Το πιο γνωστό παράδειγμα είναι οι εικόνες που μπορούν να λογιστούν σαν ένα δισδιάστατο πλέγμα από pixels. Τα CNNs είναι εξαιρετικά αποδοτικά σε πρακτικές εφαρμογές που έχουν να κάνουν με την επεξεργασία εικόνων και γενικότερα την τεχνητή όραση των υπολογιστών. Το όνομα Convolutional υποδηλώνει ότι πρόκειται για νευρωνικά δίκτυα τα οποία χρησιμοποιούν την πράξη της συνέλιξης στη θέση του πολλαπλασιασμού πινάκων που κυριαρχούσε μέχρι στιγμής, σε τουλάχιστον ένα επίπεδό τους. Η πράξη της συνέλιξης συμβολίζεται συνήθως ως: s(t) = (x w)(t) (2.28) Στα CNNs, το αντίστοιχο της συνάρτησης x είναι κατά κανόνα η είσοδός του δικτύου ενώ αναφέρουμε το αντίστοιχο w ως πυρήνα (kernel) ή φίλτρο. Ακόμα, η έξοδος αναφέρεται συχνά ως ο χάρτης των χαρακτηριστικών (feature map). Στις εφαρμογές της μηχανικής μάθησης, η είσοδος είναι συνήθως ένας πολυδιάστατος πίνακας δεδομένων, για παράδειγμα ένα δισδιάστατο πλέγμα pixels, και ο πυρήνας ένας πολυδιάστατος πίνακας παραμέτρων

41 Συνελικτικά Νευρωνικά Δικτυα (Convolutional Neural Networks) 27 που προσαρμόζεται στο πλέγμα μέσω του αλγορίθμου εκπαίδευσης. Υποθέτουμε ότι οι συναρτήσεις της εισόδου και του πυρήνα είναι παντού 0 εκτός από τα σημεία εκείνα για τα οποία έχουμε αποθηκευμένες τιμές. H ένταση χρώματος στις δισδιάστατες εικόνες αποδίδεται με τιμές στο δίαστημα [0, 255], όπου συνήθως με 0 αποδίδεται το μαύρο χρώμα και 255 το λευκό. Τα φίτλρα αποτελούν σε αυτή τη βάση δισδιάστατους πίνακες συνήθως μικρότερων διαστάσεων και με το πέρασμα τους απο την εικόνα εισαγωγής αποδίδουν τελικά τιμές στο feature map. Figure 2.15: Διαδικασία συνέλιξης για δισδιάστατες εικόνες Δομή και λειτουργία των Convolutional Neural Networks Σε αντίθεση με τα συνηθισμένα νευρωνικά δίκτυα που έχουν αναφερθεί μέχρι στιγμής τα συνελικτικά επίπεδα σε ένα CNN έχουν διαφορετική δομή, με νευρώνες σε περιβάλλον 3 διαστάσεων: πλάτος ύψος και βάθος. Σε ότι αφορά την εφαρμογή τους στο πεδίο των εικόνων, η εικόνα εισαγωγής θα αναπαρίσταται σαν ένας όγκος με διαστάσεις, ύψος και πλάτος ταυτόσημο με τον αριθμό των pixel σε καθεμία απο τις 2 διαστάσεις της εικόνας και τιμή βάθους ανάλογη με το αν η εικόνα εισαγωγής είναι έγχρωμη(βαθος:3) ή ασπρόμαυρη (βάθος:1). Figure 2.16: Βασική δομή ενός CNN για ταξινόμηση εικόνας Στην παραπάνω εικόνα 2.16 φαίνεται η λειτουργία ενός δικτύου CNN για την αναγνώριση και τη σωστή ταξινόμηση μιας εικόνας εισόδου σε διάφορες κατηγορίες, όπως αυτοκίνητο, φορτηγό, βαν και ποδήλατο. Tα CNNs όπως φαίνεται και από την εικόνα αποτελούνται απο ακολουθίες επιμέρους επιπέδων, οπού σε κάθε επίπεδο ενός CNN ένας όγκος (η εικόνα εισαγωγής) μετατρέπεται σε έναν άλλο μέσω διαφορίσιμων

42 28 Βασικές έννοιες Βαθιάς Μάθησης συναρτήσεων, με στόχο την τελική ταξινόμηση της εικόνας εισόδου. Υπάρχουν 4 βασικές λειτουργίες/επίπεδα σε κάθε CNN και είναι, η συνέλιξη, η εφαρμογή μη γραμμικής συνάρτησης (ReLU), η υποδειγματοληψία στην εικόνα εισόδου(pooling) και τελικά η ταξινόμηση (Dense/Fully Connected Layers). Αρχικά δηλαδή, τα δίκτυα CNN βαθιάς μάθησης σε εφαρμογές εικόνων, εφαρμόζουν στις εικόνες εισαγωγής φίλτρα μέσω συνελικτικών διαδοχικών επιπέδων. Αυτό που παρατηρούμε είναι ότι η συνέλιξη της αρχικής εικόνας με κάποιο φίλτρο (πυρήνας) επιφέρει μεγάλη διαφοροποίηση σε αυτή. Μετατρέπει, με άλλα λόγια, την πληροφορία που είναι διαθέσιμη. Με αυτό τον τρόπο πετυχαίνουμε την εξαγωγή πληθώρας χαρακτηριστικών, ανάλογα και με τα φίλτρα που εφαρμόζουμε, απο τις εικόνες εισαγωγής. Η εφαρμογή πολλών διαφορετικών φίλτρων μπορεί να οδηγήσει σε λειτουργίες όπως, η ανίχνευση άκρων (edge detection), το θόλωμα (blur) και η βελτιστοποίηση ευκρίνειας, στις εικόνες εφαρμογής. Figure 2.17: Οπτικοποίηση λειτουργίας εφαρρμοζόμενου φίλτρου σε εικόνα Στην εικόνα 2.17 φαίνεται η εφαρμογή μέσω συνέλιξης του 3x3 φίλτρου στην αρχική εικόνα εισόδου σε ένα δίκτυο. Παρατηρούμε ότι η λειτουργία του συγκεκριμένου φίλτρου αποσκοπεί στην έυρεση των άκρων και στην ουσία του περιγράμματος για την εικόνα εισαγωγής και το αποτέλεσμα αυτό ορίζει ένα χάρτη χαρακτηριστικών. Σημαντική είναι η απόδοση του μεγέθους βήματος του εκάστοτε φίλτρου στην εικόνα εισαγωγής. Το βήμα (stride) με το οποίο θα εφαρμόζουμε το κάθε φίλτρο στις εικόνες, οδηγεί συχνά σε απόδοση εικόνων με μικρότερο χωρικά όγκο απο ότι στο επίπεδο εισαγωγής. Όταν χρησιμοποιούμε stride = 1, τότε μετακινούμε το φίλτρο κατά 1 pixel τη φορά. Ωστόσο δεν είναι λίγες οι φορές που ένα φίλτρο μπορεί να μην ταιρίαζει ακριβώς στις διαστάσεις μιας εικόνας. Για αυτές τις περιπτώσεις λοιπόν υπάρχουν 2 προσεγγίσεις. Η πρώτη αφορά το γέμισμα (padding) της εικόνας εισαγωγής με μηδενικά pixel (zero-padding/same padding), ώστε τελικά να αποκτήσει διαστάσεις για τις οποίες να υπάρχει τέλεια εφαρμογή του εκάστοτε φίλτρου σε αυτή. Mε αυτόν τον τρόπο μας επιτρέπεται να ελεγχξουμε τη διαστασιμότητα του όγκου στην εικόνα που αποδίδεται μετά την εφαρμογή του φίλτρου στην αρχική εικόνα. Η δεύτερη προσέγγιση έχει να κάνει με την αποκοπή των περιοχών της εικόνας που δε μπορεί να γίνει εφαρμογή των φίλτρων. Ορίζεται σαν valid padding και πρακτικά διατηρεί μόνο τα έγκυρα τμήματα μιας εικόνας. Στη διαδικασία της συνέλιξης των εικόνων σημαντικό ρόλο παίζει και η εφαρμογή μιας μη γραμμικής συνάρτησης. Πιο συγκεκριμένα η ReLU, όπως ονομάζεται η πιο συνηθισμένη μη γραμμική συνάρτηση, αποδίδει σαν αποτέλεσμα f(x) = max(0, x).

43 Συνελικτικά Νευρωνικά Δικτυα (Convolutional Neural Networks) 29 Figure 2.18: Λειτουργία συνάρτησης ReLU Όπως φαίνεται και από την εικόνα 2.18, το επίπεδο ReLU αφορά εφαρμογή της συνάρτησης ενεργοποίησης για κάθε στοιχείο ξεχωριστά με κατώτατο όριο το 0, διατηρώντας τις ίδιες διαστάσεις της εικόνας. Στις εικόνες που προκύπτουν από τις ReLUs, οι οποίες ονομάζονται και feature maps, εφαρμόζουμε pooling ή αλλιώς υποδειγματοληψία. Με τον τρόπο αυτό μειώνουμε τη διάσταση κάθε feature map διατηρώντας παράλληλα τις σημαντικότερες πληροφορίες. Υπάρχουν διάφοροι τρόποι να το επιτύχουμε αυτό, αλλά ο πιο συχνός είναι το max pooling κατά το οποίο ορίζουμε μια γειτονιά από στοιχεία και κρατάμε τη μεγαλύτερη τιμή από τα στοιχεία της γειτονιάς αυτής. Ορίζουμε, επίσης, το βήμα (stride) που θα κάνουμε για να μεταβούμε από τη μία γειτονιά στην επόμενη. Στην εικόνα 2.19 φαίνεται ένα παράδειγμα της διαδικασίας max pooling. Figure 2.19: Διαδικασία max-pooling Η πληροφορία μετά το max-pooling αναπαριστά υψηλού-επιπέδου χαρακτηριστικά της αρχικής εικόνας. Αυτά καταλήγουν, σε τελικό στάδιο, σε ένα κλασικό πολυστρωματικό Perceptron (fully connected layers), το οποίο συνήθως χρησιμοποιεί softmax συνάρτηση ενεργοποίησης στο στρώμα εξόδου για την τελική ταξινόμηση. Σκοπός των fully connected layers είναι να χρησιμοποιήσουν τα features αυτά για να ταξινομήσουν σωστά την εικόνα. Πέρα από την ταξινόμηση, προσθέτοντας ένα fully-connected layer επιτυγχάνουμε την εκμάθηση μη γραμμικών συνδυασμών των χαρακτηριστικών που έχουν εξαχθεί, για την σωστότερη ταξινόμηση των εικόνων εισόδου. Όπως έχει αναφερθεί, με τη συνάρτηση softmax θα έχουμε τις πιθανότητες να ανήκει η εικόνα εισόδου σε κάθε κατηγορία, οι οποίες θα αθροίζουν στη μονάδα.

44 30 Βασικές έννοιες Βαθιάς Μάθησης

45 3. Βαθιά Μάθηση σε 3D Δεδομένα 3.1 Πρωτοφανής πρόοδος στη Βαθιά Μάθηση Κατά την τελευταία δεκαετία έχει παρατηρηθεί αξιοσημείωτη πρόοδος στο χωρο της Βαθιάς Μάθησης, η οποία σε συνδυασμό με την ταυτόχρονη εξέλιξη της Μηχανικής Όρασης(Computer Vision), έχει δώσει εντυπωσιακά αποτελέσματα σε πολλά πεδία. Καινοτόμες αρχιτεκτονικές σε βαθιά δίκτυα για διδιάστατες απεικονίσεις (εικόνα,βίντεο), έχουν σημειώσει σημαντικές επιτυχίες. H ταξινόμηση εικόνων σε κατηγορίες και η σωστή και ακριβής προβλεψή τους, αποτελεί πλέον βασικό στοιχείο έρευνας με τεράστιο πλήθος εφαρμογών. O τεμαχισμος (Segmentation), ο εντοπισμός,η αναγνώριση και η κατανόηση σκηνής, κυρίως απο εικόνες, αποκτούν ολοένα μεγαλύτερη ισχύ, τόσο σε οτι αφορά την αυτόματη οδήγηση όσο σε κλάδους ρομποτικής. Σε συνέχεια των παραπάνω, πεδίο απασχόλησης αποτελεί και η επεξεργασία φυσικής γλώσσας, όπου εφαρμογές αναγνώρισης ομιλίας και κειμένου βοηθούν στην καταπολέμηση πλήθους προβλημάτων. Ως κύριο χαρακτηριστικό των ήδη αναφερθέντων εφαρμογών Βαθιάς Γνώσης, αποτελεί η ικανότητα των δικτυωμάτων, για σταδιακή εκμάθηση χαρακτηριστικών-γνωρισμάτων βασιζόμενα στα δεδόμενα που εισάγονται στον υπολογιστή. Προφανώς τέτοιου είδους καινοτομίες, οι οποίες και αποτελούν πλέον την αιχμή της τεχνολογίας, δεν θα καθίστανται δυνατές δίχως την πληθώρα δεδομένων, προς εκπαίδευση και υπολογιστικής ισχύος. Αναύτικότερα, σύνολα δεδομένων και βιβλιοθήκες εικόνων και κειμένων είναι καθημερινά στη διάθεση του κοινού προς χρήση, η πλειοψηφία των οποίων παρέχεται δωρεάν μέσω διαδικτύου στον χρήστη. Tαυτόχρονα η εξέλιξη των Η/Υ και πιο συγκεκριμένα η εφαρμογή μεθόδων παράλληλης επεξεργασίας με χρήση πολλαπλών καρτών γραφικών, καθώς και η μεγαλύτερη πρόσβαση σε υλικό και λογισμικό μεγάλης ισχύος, έχουν δημιουργήσει το κατάλληλο κλίμα για εφαρμογή τεχνικών Βαθιάς Μάθησης με πιο απλό και αποδοτικό τρόπο για πλήθος προβλημάτων. Τα τελευταία χρόνια έχει παρατηρηθεί σημαντική πρόοδος στο χώρο της Βαθιάς Μάθησης σε ό,τι αφορά τη δισδιάστατη απεικόνιση καθώς και την επεξεργασία φυσικής γλώσσας. Ωστόσο ζούμε σε ένα τρισδιάστατο κόσμο και μερικά απο τα πιο δύσκολα προβλήματα στον κλάδο της Μηχανικής Όρασης, σχετίζονται με το τρισδιάστατο περιβάλλον. Ένα τέτοιο γεγονός δε θα μπορούσε παρα να καταδείξει την σημαντικότητα για τρισδιαστατη αντιληπτική ικανότητα στο χώρο της Τεχνητής Νοημοσύνης και πιο συγκεκριμένα της Βαθιάς Μάθησης. Αναδυόμενες εφαρμογές των τελευταίων κυρίως χρόνων, επωφελούνται από την εξέλιξη της τρισδιάστατης τεχνολογίας(σε κάμερες-σαρωτές), ενώ η επιδοσή τους βελτιώνεται σημαντικά με χρήση τρισδιάστατης γεωμετριας και βάθους. Έφαρμογές ρομποτικής, με αναγνώριση αντικειμένων και λήψη αποφασεων, αυτόματης οδήγησης, επαυηξημένης πραγματικότητας αλλά και επεξεργασίας ιατρικών εικόνων κυριαρχούν και υπογραμμίζουν τη σημαντικότητα τόσο της ύπαρξης αλλά και της επεξεργασίας τρισδιάστατων δεδομένων. Η δημιουργία συσκευών χαμηλού κόστους καταγραφής κίνησης όπως το Kinect, σε συνδυασμό με την ύπαρξη νέων τεχνολογικά αισθητήρων (LiDAR, UAV), κάνουν τη συλλογή δεδομένων τρισδιάστατου χαρακτήρα πιο εφικτή και προσιτή απο ποτέ. Πλήθος ανεπεξέργαστων δεδομένων τρισδιάστατης μορφής, πλούσια σε πληροφορίες για την γεωμετρία των αντικειμένων που απεικονίζουν, συλλέγονται καθημερινά μέσω τρισδιάστατων σαρωτών και καμερών. Έτσι με δεδομένη, την πρόοδο της Βαθιάς Μάθησης αλλά και του πλήθους τρισδιάστατων δεδομένων, ανοίγει ο δρόμος για περαιτέρω ανάπτυξη των αρχιτεκτονικών Βαθιάς Μάθησης στα τρισδιάστατα δεδομένα. Ένας απο τους σημαντικότερους λόγους της επιτυχίας των δικτύων Βαθιάς Μάθησης, αποτελεί η ικανότητά τους να αξιοποιούν τις στατιστικές ιδιότητες των δεδομένων. Μέσω τοπικών στατιστικών στοιχείων, που παρατηρούνται σε εικόνες,βίντεο και στην ομιλία, τα δίκτυα έχουν τη δυνατότη τα να αποκτήσουν ιδιότητες όπως η στατιστική σταθερότητα ενός σήματος στη διάρκεια του χρόνου ή η ικανότητα σύνθεσης και δημιουργίας νέων δεδομένων.σε εφαρμογές ανάλυσης εικόνων, κυριαρχεί η θεώρηση της εικόνας ως συνάρτησης στον 31

46 32 Βαθιά Μάθηση σε 3D Δεδομένα Ευκλειδιο χώρο-επίπεδο, δειγματοληπτημμένη σε μορφή δισδιάστατου πλέγματος. Σε αυτό το περιβάλλον, η στατιστική σταθέροτητα στο χρόνο μετατρέπεται σε σταθερότητα διακριτού τύπου, υπάρχει τοπική συνδεσιμότητα που οδηγεί σε πρόσβαση γειτονικών δεδομένων ενώ η πολυδιάστατη δομή του πλέγματος(βάθος εικόνων) βελτιώνει την ιδιότητα γενίκευσης (Generalization) του δικτύου και σε νέα δεδομένα. Αρχιτεκτονικές και δίκτυα συνέλιξης αξιοποιούν τα παραπάνω χαρακτηριστικά, μέσω τεχνικών συνέλιξης και υπο-δειγματοληψίας των δεδομένων [9]. Σαν αποτέλεσμα της χρησης συνελικτικών δικτύων, γίνεται εξαγωγή τοπικών χαρακτηριστικών που υπάρχουν και διαμοιράζονται σε ολο το εύρος των εικόνων, μειώνοντας με αυτό τον τρόπο τον αριθμό των παραμέτρων στο δίκτυο. Μοντέλα Βαθιάς Μάθησης, με εισόδους σήματα απο εικόνες, βίντεο ή ομιλία σημειώνουν επιτυχίες, χρησιμοποιώντας τις παραπάνω αρχιτεκτονικές. Όλες οι παραπάνω κατηγορίες σημάτων έχουν Ευκλείδια δομή, με αποτέλεσμα οι ιδιότητες τωνιακριτοποιημένων δεδομένων να διατηρούνται Σύνοψη Τρισδιάστατων Αναπαραστάσεων Σε αντίθεση με την παραδοσιακή μορφή απεικόνισης που κατακλύζει τις εφαρμογές βίντεο και εικόνων, αυτή των δισδιάστατων πινάκων εικονοστοιχείων (pixel arrays), στον τρισδιάστατο χώρο υπάρχουν πολλές ευρέως αποδεκτές αναπαραστάσεις [10]. Τρισδιάστατες αναπαραστάσεις στις οποίες η δομή καθώς και οι γεωμετρικές ιδιότητες διαφέρουν μεταξύ τους. Συνεπώς, η εφαρμογή κλασσικών τεχνικών Βαθιάς Μάθησης σε τέτοιες μορφές αναπαραστάσεων αποτελεί μια πολύ δύσκολη διαδικασία. Η περαιτέρω ανάπτυξη, αρχιτεκτονικών και εφαρμογών Βαθιάς Μάθησης και σε τρισδιάστατα δεδομένα, απαιτεί την κατανόηση των δομών και ιδιοτήτων, των διαφορετικών τρισδιάστατων αναπαραστάσεων. Η γενική ταξινομησή των τρισδιάστατων δεδομένων αφορά τρισδιάστατα δεδομένα Ευκλείδιας δομής και δεδομένα Μη-Ευκλείδιας δομής Ευκλείδια Δεδομένα Η πλειοψηφία εφαρμογών Βαθιάς Μάθησης, απο εικόνες-βίντεο μέχρι ομιλία, εκτελείται σε δεδομένα Ευκλείδιας δομής. Δεδομένα δηλαδή που μπορούν να αποκτήσουν δομή πλέγματος. Συνεπώς και τρισδιάστατα δεδομένα με Ευκλείδια δομή διατηρούν την πλεγματική δομή, η οποία επιτρέπει μια καθολική παραμετρικοποίηση καθώς και ένα κοινό σύστημα συντεταγμένων. Οι κυρίαρχες τρισδιάστατες αναπαραστάσεις αυτής της κατηγορίας περιλαμβάνουν περιγραφείς(descriptors), RGB-D δεδομένα [11], ογκομετρικά καθώς και δεδομένα πολλαπλών όψεων. - Περιγραφεις(Descriptors).

47 Πρωτοφανής πρόοδος στη Βαθιά Μάθηση 33 Figure 3.1: Descriptors για επιμέρους σημεία ανθρώπινου σώματος Οι περιγραφείς σχήματος αποτελούν εργαλεία απλοποιημένης απεικόνισης και περιεκτικής πληροφορίας, για την περιγραφή τοπολογικών και γεωμετρικών ιδιοτήτων ενός τρισδιάστατου αντικειμένου. Περιέχουν χαρακτηριστικά του τρισδιάστατου σχήματος, τα οποία διευκολύνουν την επεξεργασία και τους υπολογισμούς ενώ βοηθούν τη σύγκριση, ταξινόμηση και ανάκτηση τρισδιάστατων σχημάτων. Αποτελούνται απο μαθηματικές συναρτήσεις, οι οποίες εφαρμοζόμενες σε ένα σχήμα, αποδίδουν αριθμητικές τιμές [12]. Συνήθως, συνδυάζονται με μοντέλα, για την εξαγωγή πιο αντιπροσωπευτικών χαρακτηριστικών με στόχο την καλύτερη απόδοση του εκάστοτε σχήματος. Οι τρισδιάστατοι περιγραφείς μπορούν να χωριστούν σε δύο κύριες κατηγορίες. Έτσι αναφέρονται οι καθολικοι περιγραφείς, που δίνουν μια λεπτομερή εικόνα για όλο το τρισδιάστατο σχήμα και τοπικοί περιγραφείς που παρέχουν πληροφορίες για πιο μικρά κομμάτια ενός σχήματος. - Προβολές τρισδιάστατων δεδομένων.

48 34 Βαθιά Μάθηση σε 3D Δεδομένα Figure 3.2: Δισδιάστατη προβολή σφαίρας Η προβολή τρσιδιάστατων δεδομένων στο δισδιάστατο κυρίως χώρο αποτελεί ακόμη μια μορφή αναπαράστασης τρισδιάστατων δεδομένων. Τρισδιάστατα αντικείμενα μετατρέπονται σε μορφή δισδιάστατου πλέγματος (2D Grid), ενώ τα προβαλλόμενα δεδομένα διατηρούν τις πιο σημαντικές ιδιότητες των πρωτότυπων τρισδιάστατων αντικειμένων. Οι προβολές σε κυλινδρικές ή σφαιρικές συντεταγμένες αποτελούν μια συνηθισμένη προσέγγιση για την δισδιάστατη απεικόνιση τους. Εξαιτίας της Ευκλείδιας δομής των συγκεκριμένων προβολών διευκολύνεται η επεξεργασία των τρισδιάστατων δεδομένων, αφού τα προβαλλόμενα δεδομένα είναι αμετάβλητα σε περιστροφές γύρω από τον κύριο άξονα προβολής. Ωστόσο, τέτοιου τύπου αναπαραστάσεις, δεν είναι ενδεδειγμένες για περίπλοκες εφαρμογές Μηχανικής Όρασης, εξαιτίας κυρίως της απώλειας πληροφορίας που παρατηρείται κατα την προβολή των δεδομένων. - Εικόνες RGB-D. Figure 3.3: Έγχρωμη εικόνα με πληροφορία βάθους (RGB-D) Mία RGB-D εικόνα είναι πρακτικά ένας συνδυασμός ενας χάρτη βάθους (Depth map) και μιας δισδιάστατης έγχρωμης εικόνας (RGB). Η αναπαράσταση τρισδιάτων δεδομένων μέσω εικόνων RGB-D, αποκτά όλο και μεγαλύτερη φήμη τα τελευταία χρόνια. Τέτοιου τύπου εικόνες και σετ δεδομένων, γίνονται ολοένα και πιο προσιτά εξαιτίας της ύπαρξης και ανάπτυξης τρισδιάστατων αιθητήρων, όπως λογου χαρη το Kinect, μέσω των οποίων μπορεί να γίνει πολύ απλά και γρήγορα η εξαγωγή τους. - Ογκομετρικά Δεδομένα.

49 Πρωτοφανής πρόοδος στη Βαθιά Μάθηση 35 Figure 3.4: Απεικόνιση ογκοστοιχείου Figure 3.5: Απεικόνιση Octree Ο ογκομετρικός τρόπος απεικόνισης αποτελείται απο δύο ξεχωριστές απεικονίσεις τρισδιάστατων δεδομένων. Τα ογκοστοιχεία (Voxels) χρησιμοποιούνται στη μοντελοποίηση τρσιδιάστατων δεδομένων περιγράφοντας την κατανομή του αντικειμένου στις τρεις διαστάσεις. Αν και η απλή μορφή παρουσίασης ογκοστοιχείων έχει την ικανότητα κωδικοποίησης πληροφορίας για το τρισδιάστατο σχήμα και την οπτική του γωνία, υποφέρει από σημαντικούς περιορισμούς. Κατειλημμένα και μη τμήματα αναπαρίστανται, γεγονός που καθιστά τον τρόπο

50 36 Βαθιά Μάθηση σε 3D Δεδομένα απεικόνισης μη αποδοτικό, με μεγάλη διάθεση μνήμης να απαιτείται. Ένας πιο αποδοτικός τρόπος ογκομετρικής αναπαράστασης των δεδομένων ειναι τα Octrees. Αποτελούν ογκοστοιχεία μεταβλητού μεγέθους. Τα δέντρα αυτά, χωρίζουν την τρισδιάστατη σκήνη σε κύβους που είτε περικλειούν είτε όχι τα τρισδιάστατα αντικείμενα. Αυτό το χαρακτηριστικό τους δίνει μεγάλη ισχύ για πιο απαιτητικές και λεπτομερείς απεικονίσεις αντικειμένων συγκριτικά με τα ογκοστοιχεία. - Δεδομένα πολλαπλών λήψεων. Figure 3.6: Συνελικτικό δικτύωμα πολλαπλών λήψεων για τρισδιάστατη αναγνώριση σχήματος Μια από τις πλέον σημαντικές προκλήσεις για τον κλάδο της Μηχανικής Όρασης αποτελεί η εξαγωγή συμπερασμάτων για τον τρισδιάστατο κόσμο μέσα απο δισδιάστατες εικόνες [13]. Τρισδιάστατα αντικείμενα έχουν τη δυνατότητα να αναπρασταθούν σαν ένας συνδυασμός πολλαπλών λήψεων, με απεικονίσεις μέσω προγραμμάτων και χρήση εικονικών καμερών. Η εξέλιξη αλγορίθμων δισδιάστατης μορφής ενισχύει τη συγκερκιμένη μορφή απεικόνισης, διευκολύνοντας την εφαρμογή και χρήση της σε πλήθος προβλημάτων. Η εκμάθηση μοντέλων, από τις πολλαπλές δισδιάστατες απεικονίσεις του ίδιου αντικειμένου, έχει σα στόχο την εξαγωγή χαρακτηριστικών για την κάθε λήψη ξεχωριστά. Επίσης, μέσα απο την κοινή βελτιστοποιήσή των γνωρισμάτων αυτών, η αναπαράσταση του τρισδιάστατου αντικειμένου γίνεται πιο ακριβής και το δίκτυο αποκτά δυνατότητα για γενίκευση και σε νέα τρισδιάστατα σχήματα. Σαν αποτέλεσμα, κατά την εκμάθηση μέσω πολλαπλών λήψεων παρατηρείται μείωση του θορύβου και ατελειών στα δεδομένα. Ολοκληρώνοντας, στοιχείο έρευνας, αποτελεί ο επαρκής αριθμός λήψεων για την αποδοτική καταγραφή των ιδιοτήτων και λεπτομερειών των τρισδιάστατων αντικειμένων. Σημαντικό μειονέκτημα παραμένει, ωστόσο, το μέγεθος της υπολογιστικής ισχύος που απαιτείται καθώς και η πολυπλοκότητα των μοντέλων που χρησιμοποιούνται, συνθήκες ικανές να αποθαρρύνουν την καθολική χρήση τους Μη-Ευκλείδια Δεδομένα Το δεύτερο είδος τρισδιάστατων αναπαραστάσεων αφορά δεδομένα μη Ευκλείδιας δομής, που συναντώνται τα τελευταία χρόνια σε όλο και μεγαλύτερο πλήθος εφαρμογών. Δεδομένα στα οποία, παρατηρείται απουσία καθολικής παραμετρικοποίησης και κοινού συστήματος συντεταγμένων. Η χρήση και επέκταση αλγορίθμων και τεχνικών δισδιάστατης μορφής, σε τέτοιου τύπου δεδομένα, δεν αποτελεί μια απλή και ξεκάθαρη διαδικασία. Τα τελευταία χρόνια πραγματοποιείται έρευνα, σε πολλά επιστημονικά πεδία, με βάση δεδομένα μη Ευκλείδιας

51 Πρωτοφανής πρόοδος στη Βαθιά Μάθηση 37 δομής, με ολοένα και περισσότερες εφαρμογές τέτοιας δομής δεδομένων να αναδύονται. Κυρίαρχες αναπαραστάσεις μη Ευκλείδιων δεδομένων, αποτελούν τα τρισδιάστατα νέφη σημείων(3d Point Clouds), τα τρισδιάστατα δικτυώματα(3d Mesh) και οι γράφοι. - Τρισδιάστατα Νέφη Σημείων (Point Clouds). Figure 3.7: Τρισδιάστατη αναπαράσταση αντικειμένου μοφής νέφους σημείων (Point Cloud). Τα τρισδιάστατα νέφη σημείων αποτελούν ακαθόριστα σετ διανυσμάτων, με μη δομημένη μορφή. Το συγκεκριμένο γεγονός αρκεί για να κατηγοριοποιηθούν σαν μια μη Ευκλείδια αναπαράσταση τρισδιάστατων δεδομένων. Αυτά τα σημεία αποδίδουν γεωμετρικά τις συντεταγμένες στον Χ,Υ,Ζ άξονα κάθε σημείου μιας δειγματοληπτημένης επιφάνειας ή αντικειμένου. Τρισδιάστατοι σαρωτές, τυπου ανίχνευσης και έυρους φωτός (LiDAR), έχουν συμβάλλει καθοριστικά στη δημιουργία συνόλων με νέφη σημείων, καθιστώντας την λήψη τους αρκετά εύκολη και προσιτή. Τα νέφη σημείων αποτελούν μια συνηθισμένη και ταυτόχρονα απλή μορφή τρισδιάστατης απεικόνισης, με μεγάλο εύρος εφαρμογών, εξαιρετικά πλούσια σε γεωμετρικές λεπτομέρειες των αντικειμένων. Η τρισδιάστατη ανακατεσκευή, η αναγνώριση αντικειμένων και ο εντοπισμός οχημάτων είναι μερικές από τις σημαντικότερες υλοποιήσεις, οι οποίες βασίστηκαν για την ανάπτυξή τους στην επεξεργασία νέφων σημειών. Όμως, η μη δομημένη μορφή τους καθώς και η παρουσία θορύβου κατά την σάρωση των αντικειμένων, δημιουργούν πλήθος προβλημάτων μετατρέποντας την επεξεργασία τους σε μια απαιτητική διαδικασία. Για αυτό το λόγο τα νέφη σημείων συνήθως μετασχηματίζονται σε αναπαραστάσεις Ευκλείδιας δομής όπως, πλέγματα ογκοστοιχείων ή δεδομένα πολλαπλών λήψεων. Τεχνικές απευθείας επεξεργασίας τους αναδύονται τα τελευταία χρόνια με καινοτόμες προσεγγίσεις για μια πιο αποδοτική και ακριβή εφαρμογή τους σε προβλήματα. Η συγκεκριμένη κατηγορία αποτελεί και το αντικείμενο έρευνας της παρούσας εργασίας. - Γράφοι και Τρισδιάστατα Πλέγματα.

52 38 Βαθιά Μάθηση σε 3D Δεδομένα Figure 3.8: Απεικόνιση αντικειμένου μορφής τρισδιάστατου πλέγματος (Mesh). Τα τρισδιάστατα πλέγματα αποτελούν ίσως την πιο συνηθισμένη μορφή αναπαράστασης τρισδιάστατων δεδομένων. Αποτελούν συνοριακές αναπαραστάσεις αντικειμένων, αποτελούμενα απο πεπερασμένα σετ πολυγώνων, τις λεγόμενες πλευρες (edges), σε κλειστή μορφή. Κύρια χαρακτηριστικά των πλεγμάτων, ειναι οι πλευρές, οι άκρες και οι κορυφές. Οι κορυφές απαρτίζονται απο τρισδιάστατες συντεταγμένες, των σημείων του πλέγματος, ενώ παρέχεται λίστα που περιγράφει ποιές κορυφές συνδέονται μεταξύ τους. Η ένωση δύο κορυφών απαρτίζει μια άκρη του πλέγματος, ενώ η ένωση τριών μια πλευρά.συχνή είναι η μετατροπή πλεγμάτων σε τριγωνικά τρισδιάστατα πλέγματα, με στόχο την απλοποίηση της δομής και τη βελτίωση της γραφικής τους απόδοσης. Τριγωνικά πολύγωνα, στα οποία κάθε πλευρά αποτελεί ένα τρίγωνο.τρισδιάστατα πλέγματα μπορούν να αποδωθούν και με τη μορφή γράφων, όπου οι κόμβοι του γράφου αποτελούν τις κορυφές του πλέγματος και οι άκρες την σύνδεση αυτών των κορφυφών.h εκμάθηση από τέτοιες δομές δεδομένων αποτελεί πρόκληση λόγω θορύβου στα δεδομένα, με προβλήματα ανάλυσης και ευκρίνειας.σαν αποτέλεσμα, δεν υπάρχει σημαντική επέκταση μεθόδων Βαθιάς Μάθησης σε αυτές τις μορφές τρισδιάστατης αναπαράστασης. 3.2 Σύνολα τρισδιάστατων δεδομένων μεγάλης κλίμακας Η εκτόξευση που παρατηρείται στο χωρο έρευνας της Βαθιάς Μάθησης για τρισδιάστατα δεδομένα, οφείλεται κατά κύριο λόγο στην ευρεία ανάπτυξη και παροχή τρισδιάστατων μοντέλων διαδικτυακά. Τα τελευταία χρόνια έχουν δημιουργηθεί τεράστιες συλλογές δεδομένων, ζωτικής σημασίας για την ανάπτυξη και βελτίωση μεθόδων Μηχανικής Μάθησης. Πιο εκλεπτυσμένα μοντέλα παρουσιάζονται αξιοποιώντας το πλήθος των συγκεντρωμένων δεδομένων. Συλλογές οι οποίες παρέχουν στην κοινότητα δεδομένα υψηλής ποιότητας,κατά κύριο λόγο σε ελεύθερη μορφή,για την εκπαίδευση αλγορίθμων. Επίσης συνεισφέρουν σημαντικά κατά τη σύγκριση και αξιολόγηση αποδόσεων, διαφορετικών τεχνικών και προσεγγίσεων μεταξύ των αλγορίθμων. Άξιο αναφοράς αποτελεί το γεγονός, ότι ακόμη και οι μεγαλύτερες τρισδιάστατες συλλογές έχουν σημαντικά μικρότερο μέγεθος, από αντίστοιχες δισδιάστατης μοφής όπως το ImageNet [14]. Υπάρχουν δύο κύριες κατηγορίες δεδομένων που χρησιμοποιούνται. Φυσικά σετ δεδομένων από τον πραγματικό κόσμο και συνθετικά σετ δεδομένων, απο μοντέλα σχδιασμένα με τη βοήθεια υπολογιστή (CAD). Αν και είναι προτιμότερη η χρήση σετ δεδομένων απο τον πραγματικό κόσμο, η συχνή παρουσία θορύβου σε τέτοια δεδομένα λειτουργεί αποτρεπτικά. Ετσι, προτιμάται η εκπαίδευση αλγορίθμων με συνθετικά δεδομένα, τα οποία περιλαμβάνουν καθαρά στοιχεία και δεν δημιουργούν προβλήματα κατά την μοντελοποίηση. Αν και τα παραπανάνω χαρακτηριστικά των συνθετικών δεδομένων φαίνεται να αποτελούν προνόμιο, περιορίζουν σημαντικά τη δυνατότητα των μοντέλων για γενίκευση και σε δεδομένα του πραγματικού κόσμου. Παρακάτω αναφέρονται μερικά απο τα σημαντικότερα τρισδιάστατα σετ δεδομένων. - ModelNet.

53 Σύνολα τρισδιάστατων δεδομένων μεγάλης κλίμακας 39 Αποτελεί ίσως το πιο γνωστό και με ευρεία χρήση σετ δεδομένων, για εφαρμογές τρισδιάστατης ανάγνωρισης και ταξινόμησης αντικειμένων. Περιλαμβάνει περίπου 130 χιλιάδες μοντέλα σχεδιασμένα με τη βοήθεια υπολογιστή, απο 662 διαφορετικές κατηγορίες. Η συλλογή των τρισδιάστατων μοντέλων έγινε με χρήση διαδικτυακών μηχανών αναζήτησης, ξεχωριστά για κάθε κατηγορία. Στη συνέχεια, ομάδες ατόμων χειροκίνητα επαναξιολόγησαν την ορθότητα στην κατηγοριοποίηση του κάθε μοντέλου. Το ModelNet [15] έχει δύο υποσύνολα. Το Model- Net10, το οποίο περιλαμβάνει μοντέλα απο 10 κατηγορίες για εκπαίδευση και το ModelNet40, που περιλαμβάνει δεδομένα απο 40 διαφορετικές κατηγορίες. Τα παραπάνω σετ ειναι και αυτά που χρησιμοποιούνται στην πλειοψηφία των εφαρμογών. - SUNCG. To SUNCG [16] είναι μια συλλογή από συνθετικά δεδομένα με λήψεις ρεαλιστικών χώρων με επίπλωση, κατσκευασμένα στο χέρι, μέσω της πλατφόρμας Planner5D. Αυτή η εφαρμογή επεκτείνει το διαδικτυακό σχεδιάσμό και διακόσμηση,επιτρέποντας στο χρήστη να δημιουργήσει δωμάτια και χώρους με αντικείμενα από βιβλιοθήκες δεδομένων. Περισσότερα απο 400 χιλιάδες πλήρη μοντέλα δωματίων και 40 χιλιάδες διαφορετικές τρισδιάστατες σκηνές περιέχονται στο SUNCG. Το συγκερκιμένο σετ, είναι ιδιαίτερα χρήσιμο για εφαρμογές που χρειάζεται η εκμάθηση σχέσης σκηνής-αντικειμένων, όπως η κατανόηση σκήνης και ο τεμαχισμός των αντικειμένων. - ScanNet. Σετ δεδομένων για αναγνώριση σκηνής, με RGB-D σαρώσεις και βίντεο απο πραγματικό περιβάλλον [17]. Περιέχει 2,5 εκατομμύρια RGB-D εικόνες σε 1513 σαρώσεις από περισσότερα απο 700 διαφορετικούς χώρους. Ιδιαίτερα πολύτιμη συλλογή με δεδομένα απο τρσιδάστατες ακολουθίες βίντεο απο πραγματικές σκηνές εσωτερικού χώρου. Αυτό που την καθιστά ξεχωριστή για εφαρμογές κατανόησης σκηνής σε σύγκριση με άλλες συλλογές δεδομένων τέτοιου τύπου είναι η παρουσία τρισδιάσατατων πληροφοριών στα δεδομένα. Σχόλια και ενημερώσεις σχετικά με το σημασιολογικό τεμαχισμό, την τρισδιάστατη ανακατασκευή επιφανειών και τον προσανατολισμό κάμερας διεκολύνουν την έρευνα και χρησιμοποίηση του συγκεκριμένου σετ. - Semantic3DNet. Νέφη σημείων αποκτούν όλο και μεγαλύτερη χρήση, λόγω της ευκολίας απεικόνισης δεδομένων μέσω προσιτών σαρωτών.το παραπάνω σετ δεδομένων περιέχει περισσότερα απο 4 δισεκατομμύρια σημεία, κατηγοριοποιημένα ξεχωριστά από ομάδα ερευνητών. Δημιουργήθηκε [18] με τη βοήθεια στατικών χερσαίων σαρώτων τεχνολογίας λέιζερ, με απόδοση των δεδομένων σε μορφή νέφους σημείων. Περιέχει 8 σημασιολογικές κατηγορίες δεδομένων με ποικιλία πραγματικών σκηνών απο πόλεις. Περιλαμβάνει ολοκληρωμένα και λεπτομερή νέφη σημείων, με πολύ ακριβέστερη κατηγοριοποίηση σε σύγκριση με άλλες συλλογές. Επιπρόσθετα, σημαντική είνα και η αναφορά σε συλλογές δεδομένων μορφής τρισδιάστατου πλέγματος, που με την πάροδο των χρόνων, έχει στη διάθεσή της η κοινότητα της Μηχανικής Όρασης.Το σετ δεδομένων TOSCA [19]. Περιλαμβάνει τρισδιάστατα συνθετικά πλέγματα για σχήματα σε ποικιλία από πόζες. Συνολικά 80 αντικείμενα βρίσκονται στη διάθεση ερευνητών για εφαρμογές συσχέτισης και ομοιότητας.αντικείμενα ίδιας κατηγορίας διαθέτουν ίδια τριγωνοποιήση και ίδιο αριθμό κορυφών. Αν και μικρό σε μέγεθος παρέχει τη δυνατότητα παραμόρφωσεις στα τρισδιάστατα πλέγματα, γεγονός που συμβαδίζει με την σάρωση αντικειμένων στον πραγματικό κόσμο.στο παραπάνω σετ δεδομένων προστίθεται το SHREC, το οποίο αποτελεί μια συλλογή αξιολόγησης για αλγορίθμους, αποτελούμενο απο 1184 σχήματα,συγκετνρωμένα απο τρεις συλλογές: την συλλογή δεδομένων TOSCA, σετ δεδομένων του Robert Summer [20] και τη συλλογή σχημάτων του Πρίνστον [21]. Τα σχήματα στο σετ SHREC, υποβάλλονται σε μετασχηματισμούς στρέψεις ενώ προστίθεται τεχνητός θόρυβος.

54 40 Βαθιά Μάθηση σε 3D Δεδομένα 3.3 3D Επεξεργασία και Πεδία Εφαρμογής Όπως ήδη έχει αναφερθεί η αξιοσημείωτη πρόοδος αλγορίθμων Βαθιάς Μάθησης σε εργασίες δισδιάστατου περιεχομένου, έχει σαν αποτέλεσμα την καθολική αναγνώρισή τους απο την κοινότητα της Μηχανικής Όρασης. Κορυφαίες επιδόσεις και σπουδαία αποτελέσματα έχουν επιτευχθεί τα τελευταία χρόνια, με αποτέλεσμα τεχνικές και μέθοδοι Βαθιάς Μάθησης να βρίσκουν όλο και μεγαλύτερη αποδοχή και εύρος εφαρμογών. Έτσι, σταδιακά παρατηρείται μια επέκταση της Βαθιάς Μάθησης και στο τρσιδιάστατο περιβάλλον για την επίλυση πιο δύσκολων και περίπλοκων προβλημάτων. Ακολουθει μια σύνοψη της προόδου της 3D επεξεργασίας σε ό,τι αφορά την 3D ταξινόμηση, την αναγνώριση, τον τεμαχισμό αλλά και την ανακατασκευή τρισδιάστατων δεδομένων D Ταξινόμηση αντικειμένων. Ο ορισμός αυτής της κατηγορίας εφαρμογών είναι αρκετά απλός και ξεκάθαρος, αφού η ταξινόμηση περιλαμβάνει τη σημασιολογική κατηγοριοποίηση δεδομένων εισόδου μέσω ενός δικτύου. Πιο συγκεκριμένα δοθέντος ενός τρισδιάστατου σχήματος, ο στόχος είναι να γίνει ταυτοποίηση της κατηγορίας στην οποία ανήκει αυτό το σχήμα (3D ταξινόμηση). Οι λύσεις σε θεμελιώδη προβλήματα Μηχανικής Όρασης που έχουν προταθεί μέσω τεχνικών ταξινόμησης 3D αντικειμένων, καθιστούν τη συγκερκιμένη κατηγορία εφαρμογών ιδιαίτερα χρήσιμη και σημαντική. Σαν αποτέλεσμα, πλήθος επιστημόνων διερευνούν ενεργά και προτείνουν νέες μεθόδους και αρχιτεκτονικές Νευρωνικών Δικτύων για 3D ταξινόμηση. Οι προτεινόμενοι αλγόριθμοι που επικρατούν, κατηγοριοπούνται κυρίως με βάση την αναπαράσταση των δεδομένων στην είσοδο μιας διεργασίας. Αρχικά, έχουμε αλγορίθμους με αναπαράσταση δεδομένων πολλαπλών λήψεων (Multi-View CNN) [13]. Η αναπαράσταση με δεδομένα πολλαπλών λήψεων,όπως ήδη έχει αναφερθεί, αποτελεί μια απο τις βασικότερες και δημοφιλέστερες στον κλάδο της Βαθιάς Μάθησης. Τοποθετώντας μια σειρά απο τεχνητές κάμερες σε αρκετά σημεία γύρω απο ένα τρισδιάστατο αντικείμενο, παίρνουμε ξεχωριστές προβολές του απο διαφορετικές γωνίες λήψης. Προβολές σε μορφή εικόνων RGB-D, στις οποίες μπορεί να γίνει κατευθείαν εφαρμογή γνωστών δισδιάτατων συνελικτικών τεχνικών επεξεργασίας εικόνων, αφού κάθε μια προβολή αποτελεί μια ξεχωριστή εικόνα. Η 3D επεξεργασία τους δηλαδή είναι αρκετά ξεκάθαρη, συγκεντρώνοντας τα κύρια χαρακτηριστικά κάθε μιας εικόνας απο τις διαφορετικές λήψεις. Η παραπάνω διαδικασία ονομάζεται ομαδοποίηση λήψεων (view pooling) και δίνει τα γενικά χαρακτηριστικά του τρισδιάστατου αντικειμένου. Στη συνέχεια μπορεί να προστεθεί στην υπάρχουσα αρχιτεκτονική ακόμη ένα συνελικτικό δίκτυο προκειμένου να γίνει η ταξινόμηση ή ακόμη και ο τεμαχισμός του αντικειμένου.αν και ιδιαίτερα απλή στην κατανοησή της, η συγκεκριμένη πρόταση αναγνώρισης μέσω πολλαπλών λήψεων, καταφέρνει να πετύχει ακριβή αποτελέσματα ξεπερνώντας σε απόδοση άλλες μεθόδους. Παρά τις επιδόσεις, την αξιοποίηση της δισδιάτατης ταξινόμησης και της χρήσης ήδη εκπαιδευμένων χαρακτηριστκών από άλλα σχήματα, υπάρχουν ορισμένα μειονεκτήματα και περιορισμοί. Σημαντική πληροφορία, απαραίτητη για ευκρινή και λεπτομερή αποτελέσματα, χάνεται μέσω της παραπάνω διαδικασίας συγκέντρωσης των κυριότερων χαρακτηριστικών απο ξεχωριστές λήψεις. Ταυτόχρονα, η δύσκολη προβολή όψεων απο δεδομένα με παρουσία θορύβου, οπως νέφη σημείων, περιορίζει ακόμη περισσότερο την ποιότητα των αποτελεσμάτων. Όπως εύκολα γίνεται αντιληπτό, η παρουσία των παραπάνω μειονεκτημάτων, δημιούργησε μια τάση για έρευνα σχετικά με το κατά πόσο είναι εφικτό να χρησιμοποιηθούν τα συνελικτικά δίκτυα χωρίς την προυπόθεση προβολής του τρσδιάστατου περιβάλλοντος σε δυο διαστάσεις.έρευνα δηλαδή για την αυτούσια επεξεργασία 3D δεδομένων χωρίς μετασχηματισμούς και μετατροπές. Η προσέγγιση που αναπτύχθηκε, ήταν αυτή της ογκομετρικής αναπαράστασης των 3D δεδομένων.προτεινεται δηλαδή αρχικά η μετατροπή των σχημάτων σε επιμέρους διακριτά σύνολα κελιών, κυβικού σχήματος,τα ογκοστοιχεία. Καταγραφή συγκερκιμένης πληροφορίας, για παράδειγμα αν το δεδομένο κελί περιέχει μέρος του σχήματος,περιέχεται στα εκάστοτε ογκοστοιχεία.με αυτή την διακριτοποίηση (voxelization) γίνεται εύκολη η μετάβαση απο τη δισδιάστατη στην τρισδιάστατη συνέλιξη.

55 3D Επεξεργασία και Πεδία Εφαρμογής 41 Figure 3.9: Συνέλιξη στον τρισδιάστατο χώρο. Τρισδιάστατα αντικείμενα ταξινομούνται και αναγνωρίζονται απευθείας απο τα ογκοστοιχεία των σχημάτων. Δεδομένα είτε απο χάρτες βάθους όπως στο 3D Shape Nets [15], είτε ακόμη και απο δισδιάστατες εικόνες [22] μετατρέπονται σε πλέγματα ογκοστοιχείων επιτρέποντας 3D συνελίξεις με πρωτοφανή αποτελέσματα. Ωστόσο, η δεδομένη τρισδιάστατη πολυπλοκότητα στους μαθηματικούς υπολογισμούς, αφού με τα ογκοστοιχεία η είσοδος των δικτύων είναι πλέον τρισδιάστατη, επιφέρει σημαντική αύξηση στη μνήμη με αποτέλεσμα τον περιορισμό στην ευκρίνεια κατά την αναπαράσταση των αντικειμένων. Έτσι παρατηρείται σημαντική απώλεια πληροφορίας, ενώ οι επιδόσεις είναι αρκετά πιο περιορισμένες σε σχέση με μεθόδους πολλαπλών λήψεων. Figure 3.10: Μετατροπή αντικειμένου σε μορφή ογκοστοιχείου (Voxelization). Το παραπάνω χαρακτηριστικό 3.10 αντιμετωπίζεται ικανοποιητικά, με χρήση μιας ειδικής κατηγορίας δεδομένων τα Octree s, μιας ιεραρχικής δενδρικής δομής αποθήκευσης δεδομένων. Ο χώρος λοιπόν διαμελίζεται σε στοιχεία μεταβλητού όγκου σε μορφή δέντρων, με αποτέλεσμα την πολύ πιο αποδοτική και λεπτομερή απεικόνιση, κάτι που φαίνεται στα αποτελέσματα υλοποιήσεων όπως του O-CNN [23]. Προσεγγίσεις απευθείας επεξεργασίας σε ακαθόριστα σετ σημείων, για την αντιμετώπιση των μειονεκτημάτων των ογκομετρικών απεικονίσεων, αποτελούν επιτομή της τεχνολογίας για εφαρμογές αναγνώρισης και ταξινόμησης αντικειμένων. Μέθοδοι όπως το PointNet [24], που αποτελεί και αντικείμενο έρευνας της παρούσας διπλωματικής, έχουν προταθεί και κυριαρχούν. Με επεξεργασία κάθε σημείου ξεχωριστά, το δίκτυο εκπαιδεύεται και αναγνωρίζει τη χωρική πληροφορία καθενός σημείου, ενώ στη συνέχεια συγκεντρώνεται το σύνολο των χαρακτηριστικών όλων των σημείων και προτείνεται μια προσέγγιση του αναγνωρισμένου αντικειμένου. Μια βελτίωσή του

56 42 Βαθιά Μάθηση σε 3D Δεδομένα παραπάνω δικτύου με περαιτέρω κωδικοποίηση και αξιοποίηση των τοπικών χαρακτηριστικών των σημείων αποτελει το PointNet++ [25]. Η κεντρική ιδέα του PointNet++ αρχικά είναι η δειμγατοληψία ενός υποσυνόλου σημείων του νέφους, τα λεγόμενα σημεία συγκέντρωσης (anchor points). Στη συνέχεια σχεδιάζεται η τοπική όμαδα για κάθε σημείο συγκέντρωσης, ενώ μέσω εφαρμογής του PointNet σε κάθε τοπική γειτονιά γίνεται σύνοψη των σημείων όπως και στα συνελικτικά δίκτυα. Τελικά το δίκτυο είναι ικανό να αντιλαμβάνεται σε μεγαλύτερη κλίμακα τοπικά χαρακτηριστικά από γεωμετρικές δομές μέσω τοπικών ομάδων και να επεξεργάζεται το σύνολο τους για την απόδοση χαρακτηριστικών υψηλότερου επιπέδου. Η διαδικασία επαναλαμβάνεται μέχρι την εκμάθηση χαρακτηριστικών από όλα τα σημεία του νέφους. Ολοκληρώνοντας, άξια αναφοράς είναι η πρωτοποριακή έρευνα και ανάπτυξη αλγορίθμων τα τελευταία χρόνια σχετικά με τη φασματική συνέλιξη με χρησιμοποίηση μετασχηματισμου Φουριέ. Αυτή η συνέλιξη αφοράς κυρίως μη Ευκλείδιες αναπραστάσεις, οπως γράφοι και πολυπτυχα μορφώματα (manifolds) [26] D Τεμαχισμός και αναγνώριση αντικειμένων. Ο τρισδιάστατος τεμαχισμός των αντικειμένων ορίζεται σαν την αναγνώριση και σημασιολογική κατηγοριοποίηση κάθε σημείου από ένα νέφος σημείων ή κάθε ογκοστοιχείου από ένα πλέγμα. Figure 3.11: Tεμαχισμός μοντέλου αλόγου σε επιμέρους κατηγορίες. Αρχιτεκτονικές δικτύων όπως το PointNet και το SparseConvNet [27], υποδειγματοληπτούν το νέφος σημείων για να κωδικοποιήσουν ορισμένα χαρακτηριστικά. Έτσι, καθοριστική είναι η δημιουργία και ο σχεδιασμός αποκωδικοποιητών ή μεθόδων για υπερδειματολήπτηση των παραπάνω χαρακτηριστικών. Με αυτό τον τρόπο εισάγεται η έννοια της τρισδιάστατης αντίστροφης συνέλιξης (Deconvolution), σαν επέκταση της δισδιάστατης μορφής της. Σε αραιές αναπαραστάσεις, όπως γράφοι ή πολύπτυχα μορφώματα, ο υπολογισμός της και η γενικότερη διαδικασία της αποκωδικοποίησης είναι αρκετά ευθύς και αφορά μονάχα τα ενεργοποιημένα ογκοστοιχεία. Figure 3.12: Διαδικασία συνέλιξης και αντι-συνέλιξης στο δισδιάστατο χώρο. Αν όμως η αναπαράσταση αφορά τρισδιάστατα νέφη σημείων ο σχεδιασμός των αποκωδικοποιητών διαφέρει.

57 3D Επεξεργασία και Πεδία Εφαρμογής 43 Κάθε υπερδειγματοληπτημένο χαρακτηριστικό, αποτελεί μια παρεμβολή των κοντινότερων γειτονικών χαρακτηριστικών της χαμηλής ανάλυσης κατά την κωδικοποίηση, όπως συμβαίνει και στο προαναφερθέν δίκτυο PointNet++.Επιπρόσθετα, αξιοσημείωτες είναι οι μέθοδοι που έχουν σαν στόχο την αξιοποίηση των πληροφοριών τόσο του 3D χώρου όσο και του 2D περιβάλλοντος, για περαιτέρω αύξηση της απόδοσης. Ένα τέτοιο παράδειγμα αποτελεί το 3DMV [28], το οποίο αποτελείται απο ενα δισδιάστατο και ενα τρσιδιάστατο μέρος. Figure 3.13: Σχηματική σύνοψη μοντέλου 3DMV. Αρχικά γίνεται εξαγωγή και εκμάθηση χαρακτηριστικών δισδιάστατης μορφής από πολύχρωμες εικόνες βάθους που αποδίδουν το νέφος σημείων, μέσω 2D συνελικτικών δικτύων, με μια απώλεια προσέγγισης. Αυτά τα χαρακτηριστικά στη συνέχεια αποδίδονται στις τρεις διαστάσεις, μέσω διαφορικής επαναπροβολής τους σε ογκοστοιχεία.τα σημαντικότερα χαρακτηριστικά απο τις δισδιάστατες προβολές συγκεντρώνονται σε μορφή ογκοστοιχείων που στη συνέχεια τροφοδοτούνται σε μια σειρά απο 3D συνελιξεις. Ταυτόχρονα, η 3D γεωμετρία του αντικειμένου τοποθετείται σε σειρά 3D συνελίξεων. Τελικά μέσω των δύο σταδίων συνελίξεων, γίνεται η πρόβλεψη για την σημασιολογική κατηγοριοποίηση κάθε 3D ογκοστοιχείου. Ανάλογες τεχνικές έχουν προταθεί και για την περεταίρω επέκταση του δικτύου PointNet για κατανόηση 3D σκηνής μέσω πολλαπλών εικόνων στην είσοδο [29]. Τα αποτελέσματα καταδεικνύουν τη σημασία του συνδυασμού τρσδιάστατων και δισδιάστατων χαρακτηριστικών στην είσοδο τρισδιάστατων δικτύων και την ξεχωριστή επεξεργασία τους. Αρκετές από τις σύγχρονες εφαρμογές απαιτούν την ανανγώριση και κατανόηση των ξεχωριστών αντικειμένων σε μια σκηνή. Η 3D αναγνώριση δεδομένων αφορά στον προσδιορισμό του oρθογωνίου περιγράμματος ενός αντικειμένου, καθώς και την πρόβλεψη της κατηγορίας του. Στην ίδια κατεύθυνση, ο τεμαχισμός αντικειμένων, απαιτεί την κατηγοριοποίηση καθενός σημείου χωριστά.ο τρισδιάστατος τεμαχισμός των επιμέρους μερών κάθε αντικειμένου σε μια σκηνή αποτελεί μια ξεχωριστή υποκατηγορία, τεμαχισμού δεδομένων, με παρόμοια χαρακτηριστικά.οι μέθοδοι και τεχνικές που χρησιμποιούνται μπορούν να διαχωριστούν σε δύο κατηγορίες. Αρχικά έχουμε μεθόδους απο πάνω προς τα κάτω. Βασική αφετηρία των συγκεκριμένων τεχνικών αποτελεί η ύπαρξη ή όχι ενός αντικειμένου σε μια σκηνή.η τυπική και πλέον συνηθισμένη προσέγγιση, σε τέτοιες μεθόδους, είναι αυτή του ολισθαίνοντος παραθύρου (sliding window), σε όλη την έκταση του χώρου και η πρόβλεψη κατα πόσο το κάθε παράθυρο περιέχει ένα αντικείμενο. Αυτή η τεχνική, προτείνεται και στα Sliding Shapes [30], ένα δίκτυο που αποτελεί μια απο τις πιο βασικές προτάσεις για 3D αναγνώριση απο εικόνες βάθους. Συνθετικά δεδομένα κατηγοριών συλλέγονται με την βοήθεια Η/Υ απο δεδομένα πολλαπλών λήψεων σε μια προσπάθεια για προσομείωση της RGB-D απεικόνισης και προβάλλονται υπό μορφή νέφους σημείων. Μετά την εκπαίδευση του αλγορίθμου και κατά τη διαδικασία της αξιολόγησης ένα τρισδιάστατο παράθυρο αναγνώρισης ολισθαίνει στον 3D χώρο, συκρίνοντας τις προβλέψεις απο την εκπαίδευση.όπως καταλαβαίνουμε, μια τέτοια διαδικασία έχει ιδιαίτερα μεγάλο κόστος στους υπολογισμούς για εφαρμογές πραγματικού χρόνου.σε αυτή την κατεύθυνση, οι ερευνητές βελτίωσαν την παραπάνω μέθοδο του ολισθαίνοτνος παραθύρου, με ένα μοτίβο δύο επιπέδων. Σε πρώτο στάδιο γίνεται επεξεργασία και δίδονται προτάσεις, ενώ σε δεύτερο

58 44 Βαθιά Μάθηση σε 3D Δεδομένα στάδιο και με βάση τις προηγούμενες προτάσεις, οι προβλέψεις βελτιστοποιούνται. Ο αριθμός των προτάσεων είναι αισθητά μικρότερος απο αυτόν των παραθύρων με αποτέλεσμα, τη σημαντική μείωση της υπολογιστικής δαπάνης αλλά και τη διευκόλυνση της εκπαιδευτικής διαδικασίας των αλγορίθμων. Το δίκτυο Frustum PointNet [31], μελετά τη 3D αναγνώριση αντικειμένων μέσω δεδομένων RGB-D, τόσο για σκηνές εσωτερικού οσό και εξωτερικού χώρου. Ενώ, προηγούμενες μέθοδοι εστιάζουν σε εικόνες ή τρισδιάστατα ογκοστοιχεία για επεξεργασία των αντικειμένων, στη συγκεκριμένη προσέγγιση γίνεται απευθείας εφαρμογή των δεδομένων σε νέφη σημείων. Figure 3.14: Διαδικασία τρισδιάστατης αναγνώρισης αντικειμένου δικύου Frustum PointNet. Σε πρώτο στάδιο, μέσω συνελικτικών δισδιάστατων δικτύων,δημιουργούνται προτάσεις περιοχών δισδιάστατης μορφής μέσω RGB εικόνων, με χρησιμοποίηση ήδη έτοιμων τεχνικών αναγνώρισης. Με δεδομένη την πληροφορία του βάθους, γίνεται 3D προβολή κωνικής μορφής (Frustum) κάθε περιοχής σε μορφή νέφους σημείων. Ακολούθως, γίνεται πρόβλεψη του 3D περιγράμματος για κάθε αντικείμενο μέσα απο τα σημεία στην κωνική προβολή. Δοθείσας, ωστόσο μιας πρόβλεψης, συχνό είναι το φαινόμενο να παρεμβάλλονται στο πλαίσιο και άλλα αντικείμενα εκτός του αντικειμένου ενδιαφέροντος. Για αυτό το λόγο, το επόμενο στάδιο του δικτύου αποτελείται από κατά μέρους 3D τεμαχισμό των αντικειμένων από τις κωνικές προβολές τους, ώστε να γίνει η επιθυμητή και μόνο αναγνώριση. Κλειδί για την αποτελεσματικότητα του μοντέλου είναι η ιδιότητα του στην κανονικοποίηση των συντεταγμένων. Figure 3.15: Εύρεση κατάλληλων συντεταγμένων για νέφος σημείων. Με χρηση των T-Net απο το PointNet καταφέρνει μέσω περιστροφών, να μειώνει τις διαφορές που υπάρχουν μεταξύ της θέασης ενός αντικειμένου απο την κάμερα και της οπτικής από τη γωνία των αντικειμένων. Έτσι επιτυγχάνεται η πρόβλεψη του περιγράμματος αλλά και της κατηγορίας ενός αντικειμένου, από κατάλληλα νέφη σημείων τοποθετημένα στις τρισδιάστατες συντεταγμένες των αντικειμένων. Τα τελευταία χρόνια, έρευνα για 3D αναγνώριση και τεμαχισμό επεκτείνεται και γύρω απο προσεγγίσεις από κάτω προς τα πάνω. Μέχρι τώρα οι διαφορετικές μέθοδοι έθεταν σαν βασική ιδέα την ύπαρξη ή μη ενός αντικειμένου σε μια σκηνή. Στην από κάτω προς τα πάνω προσέγγιση ωστόσο, θεμέλιο αποτελεί η

59 3D Επεξεργασία και Πεδία Εφαρμογής 45 αναγνώριση επιμέρους σημείων σε τμήματα αντικειμένων με κυρίαρχη πρόκληση τη μέτρηση της μεταξύ τους ομοιότητας. Εφαρμογή που εντάσσεται σε αυτή την κατηγορία αποτελεί το δίκτυο SGPN (Similarity Group Proposal Network) [32]. To μοντέλο μαθαίνει αντιστοιχίσεις(embedding)ανά σημείο ούτως ώστε σημεία από ίδια επιμέρους τμήματα να έχουν ίδιες αντιστοιχίσεις. Αρχικά, γίνεται χρήση του PointNet ή του PointNet++, προκειμένου να αποδοθεί ένας πίνακας περιγραφικών χαρακτηριστικών για καθένα σημείο σε ένα νέφος. Στηριζόμενο σε αυτούς τους πίνακες γνωρισμάτων, το μοντέλο υπολογίζει πίνακες ομοιότητας και εμπιστοσύνης ενώ ταυτόχρονα γίνεται και σημασιολογική πρόβλεψη για κάθε σημείο του νέφους. Τελικά, οι συλλογικές προτάσεις χαμηλής εμπιστευτικότητας και μικρού μεγέθους απορρίπονται ενώ οι υπόλοιπες συγχωνεύονται οδηγώντας σε επιμέρους τεμαχισμό αντικειμένων D ανακατασκευή αντικειμένων. Η 3D ανακατασκευή αντικειμένων απο δομικά στοιχεία της κατοχής μας, αποτελεί ένα απο τα κυρίαρχα προβλήματα σε πολλούς χώρους της Μηχανικής Όρασης, όπως η Αναγνώριση Προτύπων αλλά ακόμη και στη Ρομποτική,την Ιατρική ή τη 3D εκτύπωση. Για πολλά χρόνια τα 3D μοντέλα κατασκευάζονταν στο χέρι από ερευνητές,κάτι που εκτός απο χρονοβόρο, δημιουργεί και απαίτηση για πλήθος γεωμετρικών πληροφοριών του αντικειμένου. Ταυτόχρονα, η ολοένα και αυξανόμενη ζήτηση για 3D γεωμετρικά μοντέλα σε πλήθος εφαρμογών δυσχαιρένει ακόμη περισσότερο αυτή την παραγωγική διαδικασία. Σε αυτή την κατεύθυνση, το τελευταίο διάστημα γίνεται χρήση υλικού και εργαλείων με στόχο την αυτόματη δημιουργία και κατασκευή 3D μοντέλων απευθείας απο υπάρχοντα αντικείμενα. H διαδικασία για την 3D ανακατασκευή μπορεί να συνοψιστεί σε τέσσερα επιμέρους στάδια. Σε πρώτη φάση, η απόκτηση δεδομένων για την ανακατασκευή αντικειμένων αποτελεί απαραίτητη προϋπόθεση. Μέθοδοι τόσο εξ επαφής,μέσω ρομποτικών βραχιόνων και αισθητήρων όσο και από απόσταση, με επεξεργασία εικόνων και χρήση γεωμετρίας, χρησιμοποιούνται για απόσπαση 3D νέφους σημείων και πληροφοριών των αντικειμένων.στη συνέχεια,με εφαρμογή κατάλληλων φίλτρων γίνεται η προ-επεξεργασία των δεδομένων,όπου επιτυγχάνεται η απομάκρυνση τυχόν θορύβου από τα δεδομένα.θόρυβος, ο οποίος προφανώς αλλοιώνει τα δεδομένα επηρεάζοντας άμεσα την ποιότητα του 3D μοντέλου προς κατασκευή. Τρίτο βήμα αποτελεί ο τεμαχισμός του αντικειμένου και η κατηγοριοποίηση των επιμέρους μερών του. Tεχνικές χρησιμοποιούνται με στόχο την εξαγωγή λεπτομερειών,όπως οι άκρες ενός αντικειμένου αλλά και χαρακτηριστικών σχετικά με το κατά πόσο η επιφάνεια του μοντέλου είναι ομαλή, λεία και συνεχής. Τέλος και μετα προηγούμενα στάδια να έχουν προηγηθεί, γίνεται η 3D ανακατσκευή και δημιουργείται το μοντέλο. Τα δεδομένα εισχωρούνται σε κατάλληλα υπολογιστικά προγράμματα και λογισμικά με στόχο τη δημιουργία πρωτοτύπων για το μοντέλο. Με αυτόν τον τρόπο επιτυγχάνεται και ολοκληρώνεται η 3D ανακατασκευή ενός αντικειμένου. Πριν την ανάλυση και παρουσίαση των παραγωγικών μοντέλων για τη 3D ανακατασκεύη, σημαντική κρίνεται η αξιολόγηση των παραγόμενων σχημάτων. Υπάρχουν θεμελιώδης τεχνικές αξιολόγησης για αναπαραστάσεις δεδομένων, κυρίως σε μορφή νέφους σημείων αφού η μετατροπή απο τις περισσότερες απεικονίσεις σε σύνολο σημείων είναι σχετικά απλή διαδικασία.σύγκριση σε δύο νέφη σημείων συχνά βασίζονται σε αρκετά συνηθισμένες και δημοφιλείς μεθόδους μέτρησης. Η απόσταση Σάμφερ (Chamfer Distance) μεταξύ δύο συνόλων σημείων υπολογίζει την κοντυνότερη απόσταση ενός σημείου κάποιου συνόλου με ένα σημείο ενός άλλου νέφους και αντιστοιχα για τα σημεία του άλλου συνόλου. Η ομοιότητα τελικά ανάμεσα σε δύο νέφη σημείων υπολογίζεται ως η ελάχιστη απόσταση στα ζεύγη σημείων για τα δύο νέφη όπως φαίνεται και στην ακόλουθη σχέση. Παρόμοιο τρόπο υπολογισμού για την ομοιότητα ανάμεσα σε δύο νέφη σημείων αποτελεί και η απόσταση Μεταφορέα Γης (Earth Movers Distance) [33]. Ωστόσο για τον υπλογισμό της απόστασης σε αυτή την

60 46 Βαθιά Μάθηση σε 3D Δεδομένα περίπτωση,απαιτείται η συνθήκη αμφιμονοσήμαντης αντιστοιχείας, σύφμωνα με την οποία μεταξύ δύο συνόλων, κάθε σημείο ενός συνόλου αντιστοιχεί ακριβώς ένα σημείο απο ένα άλλο σύνολο. Αυτή η ιδιότητα κάνει τη συγκεκριμένη απόσταση πολύ πιο ευαίσθητη σε μετατροπές στη συνάρτηση πυκνότητας πιθανότητας των σημείων,ορίζοντας πρακτικά το ελάχιστο έργο που πρέπει να δαπανηθεί σε δύο ιστογράμματα για να μετατραπεί μία κατανομή σε μια άλλη. Μεταξύ δύο ιστογραμμάτων Η(Α), Η(Β) με μετρήσης πληθους Z η απόσταση δίνεται απο τον ακόλουθο τύπο. Επίσης, σημαντικές μέθοδοι για την αξιολόγηση των παραγόμενων σχημάτων αποτελούν η ακρίβεια (Precision) και η ανάκληση (Recall). Υπολογίζονται ως το ποσοστό σε ένα πλήθος σημείων ενός νέφους που μπορεί να βρει γείτονες σε μια ορισμένη περιοχή ενός άλλου νέφους.περισσότερες λεπτομέρειες θα αναφερθούν και στη συνέχεια. Τέλος, η προβολή στο δισδιάστατο χώρο και η χρήση γνωστών μεθόδων για συγκρίσεις εικόνων, αποτελούν ακόμη μερικές μεθόδους αξιολόγησης των 3D μοντέλων. Κύριο θέμα κατά την ανάλυση της τρισδιάστατης ανακατασκευής αντικειμένων αποτελούν τα παραγωγικά μοντέλα (Generative models). Βασικό μέλημα σε όλες τις διαφορετικές προσεγγίσεις μοντέλων αποτελεί η παραγωγή 3D σχημάτων με τη βοήθεια δικτύων Βαθιάς Μάθησης. Η είσοδος μπορεί να είναι μια εικόνα που μπορεί να αποδώσει σαν αποτέλεσμα την ανακατασκευή ολόκληρου του τρισδιάστατου σχήματος με τις απαραίτητες γεωμετρικές ιδιότητες. Διαφορετική μορφή εισόδου μπορεί να αποτελούν τα δεδομένα σε μορφή νέφους σημείων από ένα αισθητήρα, με σκοπό της εφαρμογής τη βελτιστοποίηση και συμπλήρωση των σημείων για την ακριβέστερη απόδοση του αντικειμένου. Γενικά σε αντίθεση με τις εικόνες τα τρσιδιάστατα σχήματα έχουν αρκετές αναπαραστάσεις, με τις αναπαραστάσεις ογκομετρικού τύπου να είναι αρκετά απλές και κατανοητές. Οι συμβατικές δισδιάστατες συνελίξεις εικόνων με τα δίκτύα τους, εύκολα επεκτείνονται στο τρσιδιάστατο χώρο και δίκτυα τρισδιάστατων συνελίξεων καταλήγουν σε προβλέψεις σχετικά με την πληρότητα κάθε ογκοστοιχείου. Ωστόσο, όπως ήδη έχει αναφερθεί, η κυβική κλίμακα στους υπολογισμούς δημιουργεί προβλήματα τόσο στο κόστος των υπολογισμών όσο και στην διαθέσιμη μνήμη και γιαυτό πιο αποδοτική μορφή απεικόνισης για τα 3D μοντέλα αποτελεί το Octree [23]. To δίκτυο Octree Generating Networks [34] αποτελεί ένα χαρακτηριστικό παράδειγμα αφού μέσω αρχιτεκτονικής αποκωδικοποιητή με συνελικτικά μέρη, καταφέρνει να αποδώσει 3D ογκομετρικά σχήματα με μορφή Octree. Υπάρχουν τρια ξεχωριστά στάδια κατά τη διαδικασία παραγωγής των δεδομένων, καθένα απο τα οποία χρησιμοποιεί ογκοστοιχεία αυξανόμενου μεγέθους για την αποδοτικότερη και ευκρενέστερη απεικόνιση του αντικειμένου. Figure 3.16: Στάδια διαφορετικού μεγέθους ογκοστοιχείων στο μοντέλο Octree Generating Networks. Όπως έχει ήδη αναφερθεί, η χρησιμοποίηση νέφους σημείων για την αναπαράσταση 3D δεδομένων, είναι απο τις πλέον διαδεδομένες και εύχρηστες. Θεμελιώδη προσέγγιση για ανακατασκευή με χρήση νέφους σημείων

61 3D Επεξεργασία και Πεδία Εφαρμογής 47 αποτελεί το Point Set Generation Network, το οποίο δεχόμενο σαν είσοδο μια απλή δισδιάστατη εικόνα καταφέρνει και αποδίδει το πλήρες μοντέλο του απεικονιζόμενου αντικειμένου σε μορφή νέφους σημείων. Figure 3.17: Εικόνα εισόδου και παραχθέν νέφος σημείων απεικονιζόμενου αντικειμένου. Με μια σειρά συνελικτικών και πλήρως διασυνδεδεμένων εφαρμογών στην εικόνα εισόδου, το δίκτυο προβλέπει τις τρισδιάστατες συντεταγμένες του αντικειμένου στο 3D χώρο. Στη συνέχεια, υπολογίζεται η συνάρτηση κόστους ως η διαφορά μεταξυ των προβλεπόμενων απο τη δισδιάστατη εικόνα συντεταγμένων ενός ήδη γνωστού αντικειμένου και των πραγματικών του συντεταγμένων στο 3D χώρο. Το μοντέλο καταφέρνει τελικά να ανακατασκευάσει ολόκληρο το αντικείμενο, με συμπλήρωση του νέφους σημείων, απο μια μόνο εικόνα.xαρακτηριστικό παράδειγμα για 3D παραγωγή σχημάτων,αποτελεί το AtlasNet. Δεχόμενο σαν είσοδο εικόνες ή τρισδιάστατα νέφη σημείων, το συγκεκριμένο δίκτυο καταφέρνει και αποδίδει την πλεγματική αναπαράσταση του σχήματος, καθώς και γεωμετρικές παραμετρικοποιήσεις του, μέσω αντιστοίχισης του 2D επιπέδου σε 3D επιφάνειες. Δειγματοληπτεί σημεία, σε ομοιόμορφες τετράγωνες 2D περιοχές ενώ μέσω κωδικοποίησης μαθαίνει την αντιστοίχιση ενός επιπέδου σε μια επιφάνεια. Έτσι τα σημεία του δισδιάστατου χώρου μετατρέπονται στα ανάλογα για τον τρισδιάστατο δημιουργώντας μικρές περιοχές, το άθροισμα τον οποίων αποδίδει τελικά το 3D μοντέλο. Ιδιαίτερη προσέγγιση, η οποία δε χρησιμοποιεί τις κυρίαρχες και συνηθισμένες απεικονίσεις είναι το DeepSDF [35], το οποίο χρησιμοποιεί έμμεση αναπαράταση του σχήματος. Εκπαιδεύεται με σκοπό να μαθαίνει προσημασμένες συναρτήσεις απόστασης,εύρεση δηλαδή των ορίων ενός σχήματος. Η συνάρτηση προσήμου υποδεικνύει την απόσταση ενός σημείου απο μια επιφάνεια με τέτοιο τρόπο,ώστε αν το σημείο βρίσκεται εντός της επιφάνειας το αποτέλεσμα της συνάρτησης να είναι θετικό, ενώ αν βρίσκεται εκτός να είναι αρνητικό.

62 48 Βαθιά Μάθηση σε 3D Δεδομένα Figure 3.18: DeepSDF απεικόνιση μοντέλου. To δίκτυο αποδίδει ένα τρισδιάστατο σημείο σε μια συνάρτηση προσήμου και γίνεται εξαγωγή επιμέρους επιφανειών με συγκεκριμένους αλγορίθμους (Marching Cubes κα).

63 4. Μελέτη Δικτύου PointNet 4.1 Νέφη σημείων και Βαθιά Μάθηση Αντικείμενο έρευνας και στόχος της παρούσας διπλωματικής αποτελεί η μελέτη μιας ιδιαίτερης τρισδιάστατης δομής δεδομένων, όπως είναι τα νέφη σημείων. Πιο συγκεκριμένα μελετάται η εκπαίδευση αλγορίθμου και ο σχεδιασμός δικτύου ταξινόμησης αντικειμένων σε μορφή point cloud, μέσω υλοποίησης που έχει σα βάση το ευρέως γνωστό, για εφαρμογές τρισδιάστατης αντίληψης,δίκτυο PointNet Νέφη σημείων Η ενασχόληση και η εφαρμογή μεθόδων 3D βαθιάς μάθησης, σε δεδομένα μορφής point cloud δεν αποτέλεσε μια τυχαία επιλογή. Τα τρισδιάστατα δεδομένα στη σημερινή εποχή, αποτελούν βάση για πολλές εφαρμογές, επιλύοντας σημαντικά προβλήματα. Σε αντίθεση με τις δισδιάστατες εικόνες, οι οποίες χρησιμοποιούν απεικονίσεις με πίνακες εικονοστοιχείων, τα τρισδιάστατα δεδομένα μπορούν να αποδωθούν σε αρκετές αναπαραστάσεις όπως, τρισδιάστατα πολυγωνικά πλέγματα, πλέγματα ογκοστοιχείων και φυσικά νέφη σημείων. Απο αυτές τις προτάσεις ωστόσο η απλούστερη, με τη μεγαλύτερη διαθεσιμότητα και με τη μεγαλύτερη προσαρμοστικότητα σε εφαρμογές, είναι τα νέφη σημείων.τα τρισδιάστατα νέφη σημείων είναι σημεία στο τρισδιάστατο επίπεδο, χωρίς κάποιας μορφής σύνδεση μεταξύ τους αποτελούμενα απο ακαθόριστα σύνολα διανυσμάτων.τα νέφη σημείων είναι μια από τις ευρέως χρησιμοποιούμενες τρισδιάστατες μορφές για την αναπαράσταση τρισδιάστατων αντικειμένων, η οποία όμως ταυτόχρονα μπορεί να παραχθεί με απλό τρόπο. Η ταχεία ανάπτυξη τεχνικών για τρισδιάστατη λήψη δεδομένων και συγκεκριμένα η εξέλιξη και διαθεσιμότητα αισθητήρων βάθους και τρισδιάστατων σαρωτών, όπως είναι οι LiDAR και RGB-D κάμερες ή το Kinect, έχουν οδηγήσει σε σταδιακή αύξηση των δεδομένων σε αναπαραστάσεις νέφους σημείων. Ως μια συνήθως χρησιμοποιούμενη μορφή για τρισδιάστατα αντικείμενα, η αναπαράσταση με νέφη σημείων έχει την ιδιότητα της διατήρησης των αρχικών γεωμετρικών ιδιοτήτων και πληροφοριών του αντικειμένου στο τρισδιάστατο επίπεδο, χωρίς να επιβάλλονται διακριτοποιήσεις. Αυτό τους το χαρακτηριστικό καθιστά αυτή τη μορφή αναπαράστασης προτιμότερη ειδικά σε εφαρμογές κατανόησης σκηνής, όπως η αυτόματη οδήγηση και η ρομποτική Βαθιά Μάθηση και νέφη σημείων Η βαθιά μάθηση και η εφαρμογή αλγορίθμων σε δεδομένα τρισδιάστατης μορφής, τα οποία αναπαρίστανται με ξεχωριστές απεικονίσεις, οδηγεί σε ένα πλήθος απο εντελώς διαφορετικές προσεγγίσεις για την εκπαίδευση και ανάπτυξη μοντέλων σε επιμέρους προβλήματα. Όπως έχει γίνει ήδη αναφορά και στο κεφάλαιο 3 διαφορετικές αναπαραστάσεις τρισδιάστατων δεδομένων οδηγούν σε διαφορετικές προσεγγίσεις κατά την εκπαίδευση. Έτσι, σε 3D δεδομένα συχνά χρησιμοποιούνται ογκομετρικά συνελλικτικά δίκτυα,που ονομάζονται Volumetric CNN s. Αυτά τα μοντέλα αποτέλεσαν την απαρχή στις εφαρμογες σε 3D δεδομένα, κάνοντας εφαρμογή για πρώτη φορά συνελλικτικών νευρωνικών δικτύων σε σχήματα με ογκομετρική αναπαράσταση. Ωστόσο οι περιορισμοί από την δυσκολία απόδοσης υψηλής ανάλυσης σε ογκομετρική απεικόνιση και το υψηλό υπολογιστικό κόστος των παραπάνω εφαρμογών δεν επέτρεψαν την περαιτέρω εξέλιξή τους. Σε αυτή την κατεύθυνση, λοιπόν, άρχισε να αναπτύσσεται η απεικόνιση τρισδιάστατων δεδομένων από μια σειρά πολλαπλών λήψεων. Δημιουργήθηκαν 49

64 50 Μελέτη Δικτύου PointNet λοιπόν τα συνελλικτικά δίκτυα που δέχονταν δεδομένα απο τρισδιάστατα αντικείμενα μέσω πολλαπλών εικόνων και λήψεών τους απο διάφορες οπτικές γωνίες. Τα Multiview-CNN s [13], όπως ονομάστηκαν, δέχονται σαν είσοδο τρισδιάστατα αντικείμενα σε μορφή νέφους σημείων και μέσω απόδοσής τους σε 2D εικόνες, υλοποιούν ήδη γνωστές τεχνικές δισδιάστατης συνέλιξης μέσω 2D συνελλικτικών δικτύων, για την ακριβή ταξινόμηση τους. Η συγκεκριμένη προσέγγιση κάνοντας χρήση των ήδη αποτελεσματικών και σαφώς ορισμένων αρχιτεκτονικών συνελλικτικών δικτύων για εικόνες, κατάφερε να επιτύχει πρωτοφανή αποτελέσματα και ακρίβεια προβλέψεων, τόσο σε εφαρμογές ταξινόμησης όσο και 3D ανακατασκευή αντικειμένων. Ωστόσο ο περιοριστικός παράγοντας τους αφορά το γεγονός ότι η συγκεκριμένη προσέγγιση του MV-CNN δε μπορεί να εφαρμοσθεί σε εφαρμογές κατανόησης σκηνής ή άλλες 3D διεργασίες όπως η ταξινόμηση επιμέρους σημείων, που χρησιμοποιείται και στο τεμαχισμό αντικειμένων, ή την ολοκλήρωση αλλοιωμένων σχημάτων. Υπάρχουν αρκετές ακόμη υλοποιήσεις κυρίως σε τρισδιάστατα πλέγματα (meshes), όπως τα Spectral CNN s. Όμως τέτοιες τεχνικές αφορούν κυρίως πολύπτυχα μορφώματα (manifolds) και η έρευνα που επιτελείται δεν έχει αποσαφηνιστεί πως μπορεί να έχει εφαρμογή και σε άλλους τομείς και άλλα είδη αντικειμένων. Από τα παραπάνω χαρακτηριστικά παραδείγματα γίνεται αντιληπτό ότι αναζητείται μια προσέγγιση και ένας τρόπος απεικόνισης των τρισδιάστατων δεδομένων, απλής φύσεως και με μεγάλο εύρος εφαρμογών. Όπως αναφέρθηκε ήδη, σύνολα δεδομένων σε μορφή νέφους σημείων γίνονται όλο και πιο διαθέσιμα τα τελευταία χρόνια, μετατρέποντας την επεξεργασία τους και την χρήση τους σε εφαρμογές βαθιάς μάθησης περισσότερο εφικτή από ποτέ. Τα νέφη σημείων αποτελούν απλές και συνεκτικές δομές χωρίς να υπάρχει στη φύση τους η μη ομαλότητα και η πολυπλοκότητα των τρισδιάστατων πλεγμάτων. Συμπαιρένουμε δηλαδή ότι τα νέφη σημείων, αποτελούν δομές απο τις οποίες είναι πιο εύκολο να γίνει εξαγωγή χαρακτηριστικών μέσω εφαρμογής νευρωνικών δικτύων. Ωστόσο αν και θεωρητικά, βάση και των προαναφερθέντων, η εκπαίδευσή τους θα έπρεπε να είναι κάπως πιο εύκολη συγκριτικά με άλλες τρισδιάστατες δομές, στην πράξη αυτό δεν ισχύει απόλυτα. Στις περισσότερες εφαρμογές βαθιάς μάθησης σε νέφη σημείων συναντώνται αρκετές δυσκολίες κυρίως λόγο της δεδομένης φύσης του νέφους. Έτσι αν και τα νέφη σημείων φαντάζουν ιδανική επιλογή δομής, υπάρχουν ορισμένες δυσκολίες οι οποίες πρέπει να ξεπεραστούν σε ότι αφορά την εφαρμογή σε αυτά, τεχνικών βαθιάς μάθησης. Αρχικά,τα νέφη σημείων αποτελούν ένα ακαθόριστο σύνολο απο σημεία για ένα αντικείμενο, αφού τα σημεία δεν δειγματοληπτούνται με ακρίβεια για κάθε περιοχή ενός σχήματος. Για αυτό το λόγο δημιουργούνται περιοχές με μεγάλη πυκνότητα απο σημεία και περιοχές όπου τα σημεία είναι πιο αραιά μεταξύ τους. Ένα δεύτερο χαρακτηριστικό τους που πρέπει να ληφθεί σοβαρά υπόψιν κατά το σχεδιασμό αλγορίθμων, είναι ότι τα νέφη σημείων κατέχουν μια μη-δομημένη μορφή, καθότι ανήκουν και στην κατηγορία των μη ευκλείδιων δεδομένων. Ενώ στις δισδιάστατες εικόνες, λοιπόν,τα εικονοστοιχεία απεικονίζονται σε ενα δισδιάστατο πλέγμα με συγκερκιμένες πάντα αποστάσεις μεταξύ γειτονικών εικονοστοιχείων, κάτι ανάλογο δεν παρατηρείται και στα νέφη σημείων. Κάθε ένα σημείο αποτελεί ένα ξεχωριστό σύνολο με την απόσταση μεταξύ γειτονικών σημείων να μην είναι πάντα σταθερή. Τελευταίο χαρακτηριστικό τους που προσθέτει δυσκολίες στην ανάπτυξη αλγορίθμων αποτελεί η αταξία των επιμέρους σημείων τους. Τα νέφη σημείων είναι ένα σύνολο σημείων, συνήθως με απόδοση στο ΧΥΖ καρτεσιανό σύστημα, και συνήθως αποθηκέυονται σε λίστες διανυσμάτων, όπου κάθε διάνυσμα περιγράφει ένα σημείο στον τρισδιάστατο χώρο. Η διάταξη με την οποία θα αποδωθούν τιμές στις παραπάνω λίστες διανυσμάτων δεν αλλάζει στο ελάχιστο τη σχηματική απεικόνιση του νέφους σημείων. Πρακτικά δηλαδή αν υπάρχει ένα σύνολο απο Ν σημεία, αυτό μπορεί να παρασταθεί με Ν! διαφορετικές αναπαραστάσεις χωρίς την παραμικρή αλλαγή στην αναπαράστασή του. 4.2 PointNet Όπως γίνεται αντιληπτό, τα νέφη σημείων αποτελούν μια πολύ καλή και αποδοτική λύση για επεξεργασία και εφαρμογή σε προβλήματα, αν καταφέρουν να υπερπηδηθούν κάποια από τα εμπόδια που αναφέρθηκαν και προηγουμένως. Σε αυτήν την κατεύθυνση λοιπόν, προτάθηκε το PointNet [24], το οποίο αποτελεί και θεμέλιο για την υλοποίηση της παρούσας διπλωματικής. Η προσέγγιση και η αρχιτεκτονική που προτείνεται αποτελούν πολύ σημαντικά κομμάτια στο πεδίο της μηχανικής όρασης και της τρισδιάστατης επεξεργασίας με τεχνικές βαθιάς μάθησης, με πρωτοφανή και αξιοσημείωτα αποτελέσματα σε πολλά προβλήματα τρισδιάστατης αναγνώρισης, όπως η ταξινόμηση και ο τεμαχισμός των δεδομένων.

65 PointNet Συνεισφορά και σύνοψη του μοντέλου Πρωταρχικός στόχος και επιδίωξη στην πρόταση του PointNet, είναι ο σχεδιασμός ενός μοντέλου το οποίο να έχει την ικανότητα της απευθείας απορρόφησης και επεξεργασίας point clouds, χωρίς να απαιτείται κάποια προ- επεξεργασία τους ή μετατροπή τους σε άλλες μορφές δεδομένων. Με αυτό τον τρόπο δίνεται η δυνατότητα για άμεση υλοποίηση απευθείας απο δεδομένα αισθητήρων και σαρωτών. Έτσι αποφεύγονται μετατροπές των point clouds σε τρισδιάστατα ογκοστοιχεία (voxels) ή συλλογές εικόνων, τεχνικές που χρησιμοποιούνται για την καλύτερη επεξεργασία των δεδομένων με εφαρμογή ήδη γνωστών προσεγγίσεων συνελλικτικών δικτύων. Βέβαια όλες αυτές οι μετατροπές των δεδομένων δημιουργούν υπολογιστική επιβάρυνση και απαιτούν μεγάλη ισχύ. Έχοντας απλή ενοποιημένη δομή και αρχιτεκτονική το PointNet με είσοδο δεδομένα σε μορφή νέφους σημείων, αποδίδει τις πραγματικές τιμές κλάσεων για το καθένα (labels), για το σύνολο του νέφους ή εκτελεί τεμαχισμό του νέφους και κατηγοριοποιεί τα επιμέρους σημεία που το απαρτίζουν. Κάθε ένα σημείο δέχεται την ίδια ξεχωριστή επεξεργασία με κάθε άλλο του συνόλου, ενώ για λόγους απλούστευσης για κάθε σημείο χρησιμοποιείται η καρτεσιανή αναπαράσταση (X,Y,Z). To δίκτυο έχει την ικανότητα να μαθαίνει ένα σύνολο βελτιστοποιήσεων και κριτηρίων ώστε να διαχωρίζει τα πιο σημαντικά σημεία απο το σύνολο του νέφους, βάση των οποίων σε μετέπειτα στάδιο θα γίνει η ταξινόμηση ή ο τεμαχισμός του νέφους σε επιμέρους κατηγορίες. Τα παραπάνω σημεία συνοψίζουν πρακτικά την πληροφορία για όλο το νέφος σημείων αποτελώντας οπτικά το σκελετό των αντικειμένων. Το μοντέλο λειτουργεί σαν ένας εκτιμητής για οποιαδήποτε συνεχή συνάρτηση και η κατηγοριοποιήση των αντικειμένων γίνεται με βάση αυτό το σύνολο των σημείων. Εξαιρετικά σημαντικό χαρακτηριστικό αποτελεί κομμάτι του μοντέλου που είναι υπεύθυνο για κανονικοποιήσεις των εισαχθέντων point clouds, σε κάθε επιμέρους σημείο ξεχωριστά. Με χρήση ειδικών δικτύων (Transformation Networks), που βασίζονται στους χωρικούς μετατροπείς (Spatial Transformers), τα δεδομένα εισόδου δέχονται κανονικοποιήσεις προτού δεχθούν οποιαδήποτε επεξεργασία απο το μοντέλο. Τέλος,η απόδοση και τα αποτελέσματα του μοντέλου συγκρίνονται άμεσα με ήδη γνωστές τεχνικές και προσεγγίσεις όπως είναι, η εκπαίδευση με δεδομένα πολλαπλών λήψεων ή η ογκομετρική μετατροπή και επεξεργασία δεδομένων. Περισσότερη ανάλυση και πληροφορίες σχετικά με το δίκτυο PointNet θα δωθεί και στη συνέχεια Βασική αρχιτεκτονική του PointNet Όπως ήδη έχουμε αναφέρει το μοντέλο δέχεται απευθείας σαν είσοδο,τυχαία μη διατεταγμένα σύνολα από σημεία. Ένα point cloud απεικονίζεται σαν ένα σύνολο τρισδιάστατων Ν σημείων, έστω P i με i (1,, N), όπου κάθε P i αποτελεί έναν πίνακα με τις καρτεσιανές συντεταγμένες του κάθε σημείου ( Χ, Υ, Ζ). Figure 4.1: Αρχιτεκτκονική δικτύου PointNet. Στην παραπάνω εικόνα δίνεται η γραφική απόδοση της αρχιτεκτονικής του PointNet, τόσο για την υλοποίηση της ταξινόμησης (μπλε γράφημα), όσο και για την υλοποίηση του τεμαχισμού των σημείων, που αποτελείται από το προαναφερθέν δίκτυο ταξινόμησης σε συνδυασμό με ένα ειδικό δίκτυο για τον τεμαχισμό.

66 52 Μελέτη Δικτύου PointNet Το δίκτυο της ταξινόμησης (μπλε χρώμα), που αποτελεί και το αντικείμενο της παρούσας διπλωματικής, δεχόμενο σαν είσοδο ένα νέφος με Ν σημεία, όπου το καθένα σημείο αποτελείται απο επιμέρους 3 συντεταγμένες, καταφέρνει να αποδώσει k ξεχωριστές προβλέψεις σχετικά με την κατηγορία που αυτά ανήκουν, από ένα σύνολο k κλάσεων. Πιο συγκεκριμένα, αφού τα σημεία έχουν δεχθεί μια αρχική κανονικοποίηση και μετασχηματισμό, μέσω των Transformation Networks που θα αναλυθούν και παρακάτω, γίνεται χρήση ενός κοινού Multi-Layer Perceptron, προκειμένουν να γίνει αντιστοίχισή τους απο τις 3 διαστάσεις των συντεταγμένων των σημείων (Χ, Υ, Ζ), στις 64. Είναι σημαντική η παρατήρηση ότι γίνεται χρήση ενός κοινού Multi-Layer Perceptron (MLP) για όλα τα N σημεία του νέφους, καθώς με αυτό τον τρόπο η απόδοση στις 64 διαστάσεις γίνεται ανεξάρτητα και με τον ίδιο τρόπο για κάθε σημείο. Στη συνέχεια και αφού περάσει απο ακόμη ένα MLP 64 διαστάσεων, παργματοποείται ακόμη ένας μετασχηματισμός με χρήση των Transformation Networks, αυτή τη φόρα στο χώρο των 64 διαστάσεων. Μέσω της ίδιας ακριβώς διαδικασίας, περνάμε σταδιακά απο τις 64 στις 128 και τελικά στις 1024 διαστάσεις. Σε αυτό το σημείο κρίνεται σημαντικό να αναφερθεί ένα απο τα πιο σημαντικά τμήματα στο δίκτυο ταξινόμησης του PointNet. Παρατηρούμε οτί μετα τις 1024 διαστάσεις το μοντέλο πραγματοποιεί μια maxpool διεργασία από την οποία τελικά ορίζονται 1024 κύρια καθολικά στοιχεία. Ο ορισμός αυτού του επιπέδου δεν αποτελεί μια τυχαία επιλογή. Όπως έχουμε αναφέρει ένα από τα σημαντικότερα προβλήματα της φύσης των point clouds που δυσχεραίνει σε μεγάλο βαθμό την επεξεργασία τους αποτελεί η μη δομημένη μορφή τους.οπότε ένα δίκτυο το οποίο θα επεξεργάζεται point clouds θα πρέπει να έχει την ικανότητα,να παραμένει αμετάβλητο σε αντιμεταθέσεις των εισόδων του, αφού η σειρά με την οποία εισάγονται τα σημεία ενός νέφους δεν αλλάζουν στο ελάχιστο τη μορφή του αντικειμένου, που συνολικά το νέφος απεικονίζει. Η πρόταση για την παραπάνω υλοποίηση αφορά τη χρήση μια συμμετρικής συνάρτησης, της οποία η τιμή για Ν στοιχεία θα παραμένει ίδια ανεξάρτητα απο τη σειρά επιλογής τους, για τον συνοψισμό όλης της πληροφορίας από όλα τα σημεία ενός νέφους. Στο δίκτυο αυτό εφαρμόζεται με προσθήκη ενός max-pool επιπέδου σαν συμμετρική συνάρτηση. Figure 4.2: Υλοποίηση max-pool και εύρεση των σημαντικότερων σημείων (global feature). Όπως φαίνεται και από την εικόνα,με είσοδο σε αυτό το επίπεδο των συνολικών σημείων σαν Ν διανύσματα, γίνεται χρήση της max-pool λειτουργίας για να αποδωθεί στην έξοδο του επιπέδου ένα μοναδικό διάνυσμα το οποίο θα είναι σταθερό και αμετάβλητο, ανεξάρτητο απο τη σειρά εισόδου των σημείων. Έτσι και με δεδομένο ότι τα σημεία βρίσκονται στις 1024 διαστάσεις, το max-pooling επίπεδο χρησιμοποείται για τη δημιουργία ενός καθολικού διανύσματος στοιχείων στο R Αυτό το δίανυσμα αποτελεί τα κύρια σημεία τα οποία στη συνέχεια θα επεξεργασθούν για να αποδώσει τελικά το δίκτυο τις προβλέψεις του. Πρακτικά δηλαδή το μοντέλο καταφέρνει και μαθαίνει να συνοψίζει το σχήμα που αναπαριστά ένα point cloud, από ένα σύνολο κάποιων κομβικών σημείων. Στη συνέχεια και αφού έχει αποδωθεί το παραπάνω διάνυσμα με τα 1024 σημεία από ένα point cloud, στο επόμενο επίπεδο γίνεται χρήση 3 Dense επιπέδων, όπου σταδιακά γίνεται απόδοση του διανύσματος σημείων

67 Σταθερότητα μετασχηματισμών 53 σε k πιθανότητες ταξινόμησης, για τις συνολικά k κλάσεις που μελετούνται και έτσι γίνεται μια πρόβλεψη σχετικά με την κατηγορία που ανηκεί το αρχικό point cloud. Σε ότι αφορά το δίκτυο του segmentation καθένα απο τα Ν σημεία πρέπει να αποδωθεί σε μια απο τις συνολικές Μ κλάσεις. Αυτό το μέρος του δικτύου αποτελεί μια προέκταση του δικτύου της ταξινόμησης και η διαδικασία μέχρι την απόδοση των δεδομένων εισόδου στις 64 διαστάσεις δε διαφέρει στο ελάχιστο. Ωστόσο το segmentation για ένα πλήθος σημείων εξαρτάται τόσο απο τα καθολικά χαρακτηριστικά,το διάνυσμα δηλαδή των 1024 σημαντικότερων σημείων ενός νέφους, όσο και απο τα τοπικά χαρακτηριστικά. Τοπικά χαρακτηριστικά τα οποία βρίσκονται ενσωματωμένα στις 64 διαστάσεις (local features). Έτσι για την επίτευξη του τεμαχισμού του συνόλου των σημείων και την απόδοση για κάθε ένα μιας κατηγορίας απο τις συνολικές Μ, γίνεται μια σειριακή σύνδεση μεταξύ των local και global features για κάθε σημείο ξεχωριστά. Αυτό έχει σαν αποτέλεσμα τη δημιουργία, για κάθε ένα σημείο, ενός διανύσματος στο R 1088, δηλαδή γίνεται απόδοση των σημείων στις 1088 διαστάσεις. Στη συνέχεια γίνεται χρήση πάλι κοινών MLPs όπως και στην ταξινόμηση των σημείων, για την σταδιακή μείωση των διαστάσεων από 1088 σε 128 και τελικα σε Μ, όσες δηλαδή και οι κλάσεις. Τελικά ένας πίνακας (ΝxM), των Ν σημείων του point cloud, και των Μ προβλέψεων για την κατηγοριοποίηση του καθενός αποδίδεται απο το δίκτυο. 4.3 Σταθερότητα μετασχηματισμών Ένα κύριο χαρακτηριστικό ενός δικτύου για την αναγνώριση και ταξινόμηση αντικειμένων απο point clouds, εκτός των προαναφερθέντων είναι ότι το μοντέλο θα πρέπει να είναι αμετάβλητο σε μετασχηματισμούς των εισόδων του. Για παράδειγμα, υλοποίηση περιστροφής στα σημεία σε ένα point cloud, δεν πρέπει να δημιουργεί σύγχυση και διαφορά στις προβλέψεις του δικτύου μας, σχετικά με την καθολική κατηγοριοποίησή και τον τεμαχισμό των σημείων.η μορφή των point clouds στις εισόδους του δικτύου επιτρέπουν την απλή υλοποίηση του παραπάνω χαρακτηριστικού.μέσω ενός μικρού δικτύου,του Transformation Network (T-Net), επιτυγχάνεται κανονικοποίηση των σημείων του point cloud, μέσω πρόβλεψης ενός πίνακα μετασχηματισμού και απευθείας εφαρμογής του στις συντεταγμένες των σημείων Spatial Transformers Αναλυτικότερα,για την ακριβή ταξινόμηση και τεμαχισμό των αντικειμένων σε ένα δίκτυο, απαραίτητη είναι η σταθερότητα και μη μεταβολή του σε γεωμετρικούς μετασχηματισμούς των δεδομένων εισόδου. Στο δίκτυο PointNet και με αφορμή τα δίκτυα των Spatial Transformers [36], υλοποιούνται τα επίπεδα του input transform και feature transform σαν δομικά υπο-δίκτυα που έχουν σα στόχο την επίτευξη κανονικοποίησης στα δεδομένα εισόδου,στην περίπτωσή μας στα επιμέρους σημεία. Για την καλύτερη και βαθύτερη κατανόηση των T-Nets που χρησιμοποιούνται στο δίκτυό μας, κρίνεται σκόπιμο να γίνει μια εισαγωγή στα Spatial Transformer δίκτυα. Κύρια λειτουργία αυτών των υλοποιήσεων είναι η επίτευξη κανονικοποίησης των δεδομένων εισόδου σε ότι αφορά ενδεχόμενους μετασχηματισμούς τους,όπως για παράδειγμα περιστροφή των στοιχείων τους. Η ταυτόχρονη χρήση τέτοιων δικτυωμάτων συμπληρωματικά σε δίκτυα αναγνώρισης, κρίνεται ιδιαίτερα ωφέλιμη καθώς μειώνει την αναγκαιότητα περαιτέρω προ επεξεργασίας των δεδομένων εισόδου (data augmentation). Η εφαρμογή των Spatial Transformers σε περιβάλλον δεδομένων point cloud λειτουργεί καταλυτικά, αφού τα αντικείμενα μπορούν να πάρουν πολλές διαφορετικές πόζες με απλή περιστροφή των σημείων τους. Έτσι η κανονικοποίηση των δεδομένων εισόδου και για το δίκτυο Point- Net κρίνεται κάτι παραπάνω από απαραίτητη. Αναλυτικότερα, στην εικόνα που ακολουθεί βλέπουμε τα δομικά χαρακτηριστικά ενός Spatial Transformer δικτύου.

68 54 Μελέτη Δικτύου PointNet Figure 4.3: Δομικα χαρακτηριστικά Spatial Transformer. Για μια είσοδο U, υπάρχουν 3 κύρια δομικά στοιχεία,το δίκτυο τοπικοποίησης (Localization net) η γεννήτρια πλέγματος (Grid generator) και ο δειγματολήπτης (sampler). H είσοδος λοιπόν U R HxW xc (H:ύψος W:πλάτος C:αριθμός καναλιών) ορίζει έναν πίνακα χαρακτηριστικών (feature map) και σε πρώτο επίπεδο γίνεται προσπέλαση απο το Localization net το οποίο συκλίνει και δίνει σαν έξοδο τις παραμέτρους θ του μετασχηματισμού Τ θ που πρέπει να εφαρμοστεί στο feature map.προκειμένου να κατασκευαστεί η κανονικοποιημένη έξοδος του δικτύου V, δοθέντος της αρχικής εισόδου U και του συνόλου των παραμέτρων θ, απαραίτητη είναι η εφαρμογή του Grid generator και του δειγματολήπτη. Για την κατανόηση της εφαρμογής των Spatial Transformers υποθέτουμε ότι μας ενδιαφέρει η αναγνώριση και η ταξινόμηση εικόνων με δεκαδικούς αριθμούς, όπου η θέση και το μέγεθος των ψηφίων μπορεί να διαφέρουν σημαντικά μεταξύ των δειγμάτων εισόδου. Η εφαρμογή ενός δικτύου Spatial Transformer σε μια τέτοια εφαρμογή με τα παραπάνω χαρακτηριστικά, με τη δυνατότητα κανονικοποίησης και αποκοπής περιττών χαρακτηριστικών απο τα δείγματα,απλοποιεί αισθητά τη διαδικασία ταξινόμησης και προσδίδει μεγαλύτερη ακρίβεια στο μοντέλο. Για την καλύτερη σύνδεση και επεξήγηση της λειτουργίας του Grid generator και του δειγματολήπτη στο πρόβλημα της ταξινόμησης των ψηφίων,δεχόμαστε σαν είσοδο ένα δείγμα με περιστροφή, με τον αριθμό 9.Το αποτέλεσμα και η έξοδος από το Localization δίκτυο, θα είναι η περιστροφή του αριθμού κατά μια γωνία θ. Figure 4.4: Πλέγμα δειγματοληψίας.

69 Σταθερότητα μετασχηματισμών 55 Όπως φαίνεται και από την εικόνα, για τη δημιουργία μιας νέας εικόνας με σωστή στρέψη του αριθμού, η πρωταρχική εικόνα εισόδου θα πρέπει να δειγματοληπτηθεί καταλλήλως, ώστε η πληροφορία του αριθμού που αυτή περιέχει να αποκοπεί και να δημιουργηθεί το αρχικό πλέγμα G = T ι (G), όπου Ι είναι ο μοναδιαίος πίνακας των παραμέτρων μετασχηματισμού. Στη συνέχεια και με δεδομένη τη γωνία θ που μας έχει δωθεί σαν αποτέλεσμα απο το Localization δίκτυο ορίζουμε το πλέγμα δειγματολήψιας, σαν μια έκφραση Τ θ (G), δηλαδή σαν μια απόδοση του αρχικού πλέγματος G βασισμένο στον παρόν μετασχηματισμό Τ θ. Figure 4.5: Τελικό στάδιο κανονικοποίησης εισόδου. Τελικά, όπως παρατηρούμε και από την παραπάνω εικόνα το αποτέλεσμα V καταλήγει σαν έξοδος του δικτύου Spatial Transformer. Ακολουθεί ακόμη μια επεξηγηματική εικόνα για τη λειτουργία του δικτύου,όπου στο ενδιάμεσο στάδιο φαίνεται η αναγνώριση και η δειγματοληψία του εκάστοτε ψηφίου, το οποίο τελικα οδηγείται στην έξοδο κανονικοποιμένο διευκολύντας την διαδικασία της ταξινόμησής του.

70 56 Μελέτη Δικτύου PointNet Figure 4.6: Αποτελέσματα Spatial Transformer για διαφορες εισόδους. Ολοκληρώνοντας,γίνεται σαφές ότι η επιπλέον εφαρμογή και προέκταση των συνελλικτικών δικτύων και με δίκτυα Spatial Transformers, επιτρέπουν στα μοντέλα την δυναμική εκμάθηση μετασχηματισμών στα εισαγώμενα feature maps με στόχο τη μείωση της συνολικής συνάρτησης απωλειών του μοντέλου κατά τη διάρκεια της εκπαίδευσης. Τέλος η τοποθέτηση,πολλαπλών δικτύων Spatial Transformers σε διαφορετικά βάθη σε ένα δίκτυο επιτρέπει την απόδοση και κατανόηση μετασχηματισμών για πιο ακαθόριστες αναπαραστάσεις παρέχοντας στα localization δίκτυα τη δυνατότητα απόδοσης πιο ολοκληρωμένων αναπαραστάσεων για τους μετασχηματισμούς των παραμέτρων που προβλέπουν Τransformation Networks Επιστρέφοντας στο δίκτυο PointNet και μετά την επεξήγηση των Spatial Transformers, αναλύεται στη συνέχεια η εφαρμογή παρόμοιας μεθοδολογίας στη λειτουργία των συμπληρωματικών υπο-δικτυωμάτων Transformation Networks(T-Nets). Δοθέντος δηλαδή μιας εισόδου σε μορφή point clouds,θα αναλύσουμε την λειτουργία των T-Nets, με εφαρφογή γεωμετρικών μετασχηματισμών, για την κανονικοποίηση των σημείων. Η παραπάνω εφαρμογή πραγματοποιείται τόσο στο επίπεδο του input transform όσο και σε αυτό feature transform κατά ανάλογο τρόπο. Η είσοδος αποτελείται απο Ν σημεία εισόδου που παραστούν ένα point cloud. Η εφαρμογή γεωμετρικών μετασχηματισμών ουσιαστικά μεταφράζεται σε πολλαπλασιασμό μεταξύ των συντεταγμένων όλων των επιμέρους σημείων του συνόλου Ν, με έναν πίνακα μετασχηματισμού (T-Net). Πρακτικά δηλαδή λόγο της φύσης των δεδομένων εισόδου, αποφεύγεται η ανάγκη θεώρησης νέων επιπέδων όπως στα spatial transformer δίκτυα. Δεν υπάρχει ανάγκη δηλαδή για δειγματοληψία στην είσοδο όπως στην εφαρμογή των spatial transformer για εικόνες. Τα υπο-δίκτυα T-Net έχουν παρόμοια μορφή με το κύριο δίκτυο του PointNet, αποτελούμενα από απλά επίπεδα, με στόχο την εξαγωγή χαραρκτηριστικών για το κάθε σημείο του point cloud ξεχωριστά. Αναφορά θα γίνει για το επίπεδο του input transform,που γίνεται χρήση των T-Nets, καθώς όπως ήδη αναφέρθηκε η λειτουργία του feature transform είνα ανάλογη. Στο επίπεδο λοιπόν input transform,γίνετια εισαγωγή των Ν σημείων με συντεταγμένες (ΧΥΖ), όπου το κάθε σημείο χωριστά θα προσπελαστεί απο το T- Net. Παρόμοιο με το δίκτυο Localization στα spatial transformers δίκτυα, το T-Net υλοποιεί παλινδρόμηση με στόχο την πρόβλεψη ενός 3x3 πίνακα για κάθε ένα σημείο του point cloud στην είσοδο. Στη συνέχεια ο τελικός μετασχηματισμός εισόδου υλοποιείται με απλό πολλαπλασιασμό του πίνακα πρόβλεψης με τις συντεταγμένες του κάθε σημείου.

71 Σταθερότητα μετασχηματισμών 57 Figure 4.7: Μετασχηματισμός εισόδων με χρήση T-Net. Οι διεργασίες που υλοποιούνται στο εσωτερικό του T-Net, ακολουθούν διαδικασία και έχουν αρχιτεκτονική παρόμοια με αυτή που συναντάται και στο κυρίως δίκτυο PointNet. Figure 4.8: Αρχιτεκτονική δικτύου T-Net για μετασχηματισμό στο επίπεδο εισόδου. Δεχόμενο σαν είσοδο N σημεία ενός point cloud, γίνεται ανεξάρτητη και αντίστοιχη απόδοσή τους από τις 3 διαστάσεις αρχικά στις 64 με χρήση,κατ ανάλογο τρόπο όπως και στο κύριο δίκτυο του PointNet, ενός κοινού MLP. Η ίδια διαδικασία ακολουθείται για την απόδοσή τους στις 128 και τελικά στις 1024 διαστάσεις. Σε αυτό το σημείο γίνεται χρήση max-pool λειτουργίας,όπου κωδικοποιείται ένα καθολικό διάνυσμα 1024 στοιχείων. Στη συνέχεια μέσω 2 Dense επιπέδων οι διαστάσεις του διανύσματος μειώνονται στο R 256. Τα στοιχεία απο το τελευταίο Dense επίπεδο στη συνέχεια συνδυάζονται με τα καθολικά βάρη και όρους bias για το κάθε σημείο, δίνοντας στην έξοδο του T-Net έναν 3x3 πίνακα μετασχηματισμού. Η αρχική τιμή του πίνακα ορίζεται σαν τον μοναδιαίο πίνακα. Επιπρόσθετα σε όλα τα επίπεδα πλην του τελευταίου γίνεται χρήση συνάρτησης ενεργοποίησης ReLU, ενώ πραγματοποιούνται και κανονικοποιήσεις μεταξύ των batches (batch-

72 58 Μελέτη Δικτύου PointNet normalization) κατά την εκπαίδευση του μοντέλου. H έννοια της κανονικοποίησης επεκτείνεται και στις 64 διαστάσεις μέσω του feature transform. Και σε αυτό το σημείο γίνεται παρόμοια χρήση του T-Net, με μοναδική διαφορά τις διαστάσεις των πινάκων για τα βάρη και τους bias όρους. Καθώς λοιπόν έχουμε εισόδους Ν που βρίσκονται στις 64 διαστάσεις, τα βάρη θα πρέπει να έχουν αντιστοιχη μορφή.βρισκόμενοι στο επίπεδο με τα 256 στοιχεία, μετά τα 2 διαδοχικά Dense επίπεδα, ο πίνακας των βαρών έχει διαστάσεις (256x4096) και οι bias όροι 1x4096. Με αυτό τον τρόπο πετυχαίνεται η απόδοση ενός πίνακα μετασχηματισμού της μορφής (64x64) από το δίκτυο T-Net που ταιριάζει με τη διαστασιμότητα του κάθε σημείου στο επίπεδο του feature transform. Σημαντική σε αυτό το σημείο είναι η επισήμανση του μεγάλου αριθμού παραμέτρων προς εκπαίδευση που προκαλεί η προηγούμενη αύξηση των βαρών και bias όρων. Σαν αποτέλεσμα η δυσκολία βελτιστοποίησης του μοντέλου αυξάνεται αισθητά. Για αυτό το λόγο προτείνεται η προσθήκη ενός regularization όρου και συγκεκριμένα, μιας L2 regularization συνάρτησης απωλειών στην softmax συνάρτηση απωλειών της ταξινόμησης. Όπως έχει αναφερθεί με τον όρο regularization,εννοούμε μια μέθοδο που έχει σα στόχο τη μείωση της πολυπλοκότητας του μοντέλου.η συνάρτηση L2 regularization πρακτικά είναι μια νόρμα του πίνακα του τετραγώνου των βαρών του δικτύου. Καθώς ο βαθμός των στοιχείων εισόδου αυξάνεται, στην περίπτωσή μας οι διαστάσεις απο 3 γίνονται 64, το μοντέλο γίνεται όλο και πιο περίπλοκο και προσπαθεί να επεξεργαστεί όλα τα δεδομένα κατά την εκπαίδευση με μεγάλο το ενδεχόμενο του overfit. Σε αυτή την κατεύθυνση λοιπόν η προσθήκη μιας επιπλέον συνάρτησης στη συνολική συνάρτηση απωλειών, η οποία θα προσπαθεί να μηδενίσει τα βάρη υψηλού βαθμού, μπορεί να οδηγήσει σε απλούστευση του μοντέλου και καλύτερες επιδόσεις. O όρος που προστίθεται κατά το feature transform στην τελική συνάρτηση απωλειών softmax κατά την εκπαίδευση δίνεται απο τον τύπο: L reg = I AA T 2, (4.1) όπου Α είναι ο 64x64 πίνακας μετασχηματισμού που έχει προβλεφθεί για κάθε σημείο μέσω του T-Net,. 2 η ευκλείδεια νόρμα ενός διανύσματος και I ο μοναδιαίος πίνακας με ίδιες διαστάσεις. Με αυτόν τον τρόπο, δεν αφήνουμε το μοντέλο μας εντελώς ελεύθερο να προσδιορίσει κάποια λύση, αλλά περιορίζουμε τον χώρο στον οποίο θα την αναζητήσει. Συχνά η εξομάλυνση αυτή αναφέρεται ως weight decay. Σε κάθε βήμα του αλγορίθμου gradient descent στην εκπαίδευση, πετυχαίνεται μια συρρίκνωση του διανύσματος των βαρών κατά μια σταθερή τιμη,πριν την τελική ανανέωση των βαρών. Τέλος, αξίζει να σημειωθεί ότι με τον παραπάνω regularization όρο, μετατρέπουμε τον πίνακα που αποδίδει το T-Net κατά το feature transform, σε ορθογώνιο πίνακα, γεγονός που τελικά δεν αφαιρεί κάποια πληροφορία της εισόδου απο το τους υπολογισμούς. 4.4 Ανάλυση και αποτελέσματα του PointNet Συμπεραίνουμε, βάση της συνολικής ανάλυσης που έγινε για το δίκτυο του PointNet, τη σημαντικότητα της πληροφορίας που μπορεί να αποκομιστεί από το διάνυσμα με τα κύρια σημεία κάθε εισαγόμενου point cloud. Το διάνυσμα global feature πρακτικά περιλαβάνει τα κύρια σημεία,βάση των οποίων μπορεί να γίνει η ακριβής πρόβλεψη της κλάσης στην οποία ανήκει ένα σύνολο σημείων. Οι διαστάσεις αυτού του διανύσματος, δηλαδή ο αριθμός των κύριων σημείων που θα οδηγήσουν σε προβλέψεις, ορίζεται σαν bottleneck διάσταση και συμβολίζεται με K. Ένας μεγάλος αριθμός από σημεία, για την περιγραφή ενός point cloud, πορεί μεν να οδηγεί σε πιο ακριβείς προβλέψεις, ωστόσο αυξάνει σημαντικά την πολυπλοκότητα του μοντέλου.το μοντέλο

73 Ανάλυση και αποτελέσματα του PointNet 59 του PointNet ορίζεται βασικά για bottleneck μέγεθος με K=1024 κύρια σημεία, ενώ στην εικόνα φαίνεται η διαφορά στην ακρίβεια του μοντέλου για διάφορες τιμές του Κ που περιγράφουν το point cloud εισόδου. Figure 4.9: Επίδραση bottleneck μεγέθους και πλήθος σημείων εισόδου στην ακρίβεια ταξινόμησης του μοντέλου. Για την καλύτερη κατανόηση της αποδοτικότητας του διανύσματος global feature για κάθε point cloud που εισάγεται στο δίκτυο, παραθέτονται γραφικά τα σημεία εισόδου και τα κρίσιμα σημεία που το δίκτυο δίνει σαν έξοδο. Παρατηρούμε ότι για έναν αριθμό Κ σημείων και πάνω,προτείνεται K=1024 σημεία,τα κρίσιμα σημεία καταφέρνουν να περιγράψουν επαρκώς το αντικείμενο εισόδου. Figure 4.10: Απεικόνιση εισόδου και κρίσιμων σημείων για κάθε είσοδο. Για τον ορισμό του παραπάνω διανύσματος με τα Κ κρίσιμα σημεία από ένα point cloud, έγινε χρήση μια συμμετρικής συνάρτησης (max-pool), με στόχο την εξασφάλιση της μη μεταβλητότας στην πρόβλεψη για διαφορετική σειρά εισαγωγής σημείων που τελικά περιγράφουν το ίδιο point cloud. Για την επίτευξη αυτής της ιδιότητας στο μοντέλο, η παρούσα προσέγγιση και και πρόταση για το δίκτυο του PointNet αφορά στη χρήση του max-pooling. Το αποτέλεσμα του επιπέδου max-pool πρακτικά συγκεντρώνει τα Ν σημεία του point cloud εισόδου σε ένα υποσύνολο K κρίσιμων σημείων, τα οποία αποτελούν και το διάνυσμα global feature. Όπως παρατηρείται και στην εικόνα,αρκετές προτάσεις μελετήθηκαν, όπως η χρήση κοινού MLP 5 κρυφών επιπέδων για κάθε σημείο ή η χρήση της συνάρτησης average pooling, χωρίς ωστόσο να καταφέρουν να αποδώσουν τα αποτελέσματα της max-pool διεργασίας.

74 60 Μελέτη Δικτύου PointNet Figure 4.11: σημείων. Τρεις διαφορετικές προσεγγίσεις για επίτευξη μη μεταβλητότητας κατά την αντιμετάθεση Το μεγάλο πλεονέκτημα ωστόσο που αποτέλεσε και έναυσμα για την ενάσχοληση με το PointNet και στην παρούσα διπλωματική, έγκυται στην απόδοση και τη σημαντική μείωση της απαιτούμενης υπολογιστικής ισχύος μέσω της απευθείας επξεργασίας point clouds. Υπάρχουν αρκετές προτάσεις με εισόδους ογκομετρικά ή δεδομένα πολλαπλών λήψεων για την διαδικασία ταξινόμησης τρισδιάστατων αντικειμένων, όπως το MVCNN ή το Subvolume [37]. Aν και αυτές οι προτάσεις καταφέρνουν να επιτύχουν υψηλές αποδόσεις, στην πράξη χρησιμοποιούν μεγάλο αριθμό παραμέτρων κάτι που αυξάνει σημαντικά το χρόνο επεξεργασίας και την πολυπλοκότητα των μοντέλων. Η υλοποίηση συνέλλιξης σε δισδιάστατο περιβάλλον εικόνων αυξάνει τετραγωνικά το χρόνο επεξεργασίας συγκριτικά με την ανάλυση της εικόνας για τις μεθόδους πολλαπλών λήψεων ενώ η συνέλλιξη σε ογκομετρικά δεδομένα αυξάνει το χρόνο κυβικά ανάλογα με το μέγεθος του όγκου. Η διαφορά στις χρησιμοποιούμενες παραμέτρους μεταξύ του PointNet και των άλλων προσεγγίσεων όπως και η διαφορά στους απαραίτητους υπολογισμούς ανά δεδομένο εισόδου, είναι εμφανής. Figure 4.12: Σύγκριση πολυπλοκότητας μοντέλων ανά εκατομμύρια παραμέτρους και απαιτούμενες υπολογιστικές πράξεις ανά δείγμα. Ολοκληρώνοντας, αξίζει να σημειωθεί η επίδοση του μοντέλου PointNet κατά την ταξινόμηση δεδομένων με ατέλειες κατά τη δειγματοληψία. Θόρυβος η λανθασμένη δειγματοληψία στα δεδομένα εισόδου επηρεάζει σημαντικά την απόδοση των μοντέλων πρόβλεψης. Ωστόσο παρατηρούμε ότι σε σύγκριση με άλλα μοντέλα για τρισδιάστατη ταξινόμηση αντικειμένων, το μοντέλο του PointNet καταφέρνει να επιτύχει μεγάλη ακρίβεια ακόμη και σε περιπτώσεις που υπάρχει απώλεια δεδομένων στα σημεία ενός point cloud.

75 Ανάλυση και αποτελέσματα του PointNet 61 Figure 4.13: Ακρίβεια μοντέλων για απώλεια δεδομένων εισόδου.

76 62 Μελέτη Δικτύου PointNet

77 5. Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow Στο συγκεκριμένο κεφάλαιο θα γίνει αναφορά στο τελικό στάδιο αυτής της εργασίας, δηλαδή στο συνδυασμό των παραπάνω κεφαλαίων για τη δημιουργία του μοντέλου του PointNet για την 3D ταξινόμηση δεδομένων σε μορφή point clouds. Θα αναφέρουμε, τα βασικά δομικά στοιχεία της πλατφόρμας του TensorFlow και του περιβάλλοντος εκπαίδευσης Kaggle, τη βάση δεδομένων που χρησιμοποιήθηκε και τελικά το μοντέλο που δημιουργήθηκε. 5.1 Tensorflow Keras Kaggle Notebooks Για την υλοποίηση του μοντέλου για την 3D ταξινόμηση δεδομένων μορφής point cloud έγινε χρήση της ανοιχού λογισμικού βιβλιοθήκης της TensorFlow 2.0 [38] σε συνδυασμό με το tf.keras, που αποτελεί μια υλοποίηση του Keras API στο περιβάλλον της TensorFlow.Το Keras είναι ένα απο τα πιο ευρέως χρησιμοποιούμενα framework βαθιάς μάθησης. Η εφαρμογή του στο περιβάλλον της TensorFlow 2.0 μέσω του tf.keras με επιμέρους βιβλιοθήκες για τον έυκολο ορισμό επιπέδων και λειτουργιών, διευκολύνει αισθητά τη δημιουργία μοντέλων. Όπως φαίνεται και απο το όνομα το TensorFlow βασίζεται στις δομές δεδομένων που ονομάζονται tensors για την υλοποίηση νευρωνικών δικτύων.όλοι οι υπολογισμοί, οι είσοδοι, έξοδοι καθώς και οι μετασχηματισμοί κατά την υλοποίηση του μοντέλου απεικονίζονται με τη βοήθεια των tensors. Oι tensors είναι ουσιαστικά μια γενίκευση των διανυσμάτων και των πινάκων σε υψηλότερες διαστάσεις.στο περιβάλλον της TensorFlow οι tensors πρακτικά αποτελούν n-διάστατους πίνακες δεδομένων με δυναμικές ιδιότητες. Για την καλύτερη κατανόηση αναφέρουμε ότι, ένας μονοδιάστατος tensor αντιστοιχίζεται πρακτικά σε ένα διάυνυσμα ενώ ενας δισδιάστατος σε ένα πίνακα στοιχείων. Οι παραπάνω λειτουργίες βελτιστοποιούνται, αν κατά την υλοποίηση της εκπαίδευσης του μοντέλου χρησιμοποιηθούν κάρτες γραφικών για τους υπολογισμούς μεταξύ των tensors. Στη συγκεκριμένη διπλωματική για την εκπαίδευση του δικτύου ταξινόμησης PointNet χρησιμοποιήθηκε ο διαδικτυακός editor του Kaggle Notebooks, που αποτελεί ένα υπολογιστικό περιβάλλον στο cloud για την εφαρμογή και υλοποίηση κώδικα βαθιάς μάθησης, ενώ η γλώσσα που χρησιμοποιήθηκε είναι η Python 3.7. Το μεγαλύτερο πλεονέκτημα της χρήσης του Kaggle Notebooks, αποτέλεσε η δυνατότητα χρησιμοποίησης επιταχυντή (accelerator) κατά την πραγματοποίηση της εκπαίδευσης. Πρακτικά δηλαδή κατά την υλοποίηση του μοντέλου χρησιμοποιήσαμε τοπικά στον υπολογιστή μας, μέσω cloud κάρτες γραφικών τύπου NVidia K80, με τη βοήθεια των οποίων ο χρόνος επεξεργασίας κατά τη διενέργεια υπολογισμών στο δίκτυο, μειώθηκε δραστικά. Αναφορικά, υπολογίζεται ότι η χρήση κάρτας γραφικών τέτοιου τύπου κατά την εκπαίδευση ενός μοντέλου οδηγεί σε 12.5 φορές γρηγορότερα αποτελέσματα, απο ότι με χρήση της τοπικής κάρτας γραφικών του Η/Υ μας. 63

78 64 Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow 5.2 Η βάση δεδομένων ModelΝet40 H βάση δεδομένων που χρησιμοποιήθηκε στην παρούσα εργασία είναι το ModelΝet40 σε μια παραλλαγή του για πιο εύκολη απόδοση δεδομένων εισόδου σε μορφή point cloud. Όπως έχουμε ήδη αναφέρει το ModelNet αποτελεί μια από τις σημαντικότερες συλλογές δεδομένων για εφαρμογές αναγνώρισης και ταξινόμησης. Το ModelNet40, το οποίο είναι ένα υποσύνολο του κύριου σετ, αποτελείται από αρχεία πολυγωνικής μορφής (PLY format) και αποτελείται από συνολικά 40 διαφορετικές κλάσεις αντικειμένων για την εκπαίδευση μοντέλων.για την συγκεκριμένη εφαρμογή ωστόσο, χρησιμοποιήθηκε μια διαφορετική έκδοση, η οποία περιείχε τα δεδομένα σε μορφή κωδικοποίησης HDF5, για συρρίκνωση του απαιτούμενου όγκου τους. Τα συγκεκριμένα αρχεία αν και θεωρητικά θα απαιτούσαν διακριτοποίηση για τη μετατροπή των πολυγωνικών πλεγμάτων σε point clouds, στην προκειμένη περίπτωση δεν απαιτούν κάποια επιπλέον ενέργεια. Και αυτό γιατί τα κωδικοποιημένα αρχεία της βάσης δεδομένων, έχουν ήδη δεχτεί διακριτοποίηση στην επιφάνεια των πλεγμάτων και έχουν επιλεγεί τελικά 2048 σημεία για κάθε πολυγωνικό αρχείο,τα οποία απαρτίζουν την έκφραση του point cloud για κάθε αντικείμενο. Δηλαδή στα μοντέλα έχει πραγματοποιηθεί μια αρχική διακτριτοποίηση που οδήγησε σε σημεία για κάθε αντικείμενο, ενώ στη συνέχεια με διακριτοποίηση τύπου Farthest Point [39] επιλέχθηκαν τα τελικώς 2048 σημεία για το κάθε αντικείμενο. Αξίζει να αναφέρουμε ότι η βάση αποτελείται από αρχεία που περιλαμβάνουν εκτός από τα σημεία του κάθε δεδομένου, και την κλάση του.τέλος τα δεδομένα διαχωρίζονται σε 2 ξεχωριστές κατηγορίες, 9843 μοντέλα για την εκπαίδευση (train data) και 2468 μοντέλα για την αξιολόγηση (test data). Το παραπάνω χαρακτηριστικό καθώς και το όνομα της κατηγορίας που ανήκει το κάθε μοντέλο, βοηθούν αισθητά το επίπεδο της προ-επεξεργασίας για τα δεδομένα εισόδου και κατ επέκταση τη συνολική λειτουργία της εκπαίδευσης του μοντέλου. Οι 40 διαθέσιμες κλάσεις της βάσης δεδομένων περιέχουν καθημερινά αντικείμενα, από γραφεία κιθάρες και Η/Υ μέχρι τηλεοράσεις καρέκλες και Xbox. 5.3 Υλοποίηση μοντέλου 3D ταξινόμησης Στόχος της παρούσας εργασίας αποτελεί η υλοποίηση του δικτύου ταξινόμησης του PointNet για την απευθείας επεξεργασία και κατηγοριοποίηση δεδομένων μορφής point cloud. Πρόκειται για μία καινοτόμα αρχιτεκτονική για την 3D επεξεργασία δεδομένων point cloud, χωρίς να απαιτείται ο μετασχηματισμός τους σε άλλες μορφές, όπως 3D πλέγματα ή δεδομένα από εικόνες πολλαπλών λήψεων. Με αποδοτικό τρόπο και απλή σχετικά δομή το μοντέλο καταφέρνει να επιτύχει αποδόσεις, άμεσα συγκρίσιμες με άλλες υπερσύγχρονες μεθόδους. Αξίζει να σημειωθεί ότι κατά τη διάρκεια της υλοποίησης γίνεται χρήση της βιβλιοθήκης Pandas για την ανάλυση των δεδομένων καθώς και της NumPy [40], που υποστηρίζει πράξεις μεταξύ Ν-διάστατων πινάκων, σαν τη μορφή των δεδομένων μας πρακτικά, παρέχοντας αρκετά υπολογιστικά εργαλεία Προ-επεξεργασία δεδομένων Ξεκινώντας την περιγραφή της υλοποίησης και έχοντας ήδη αναφέρει τη χρησιμοποιούμενη βάση δεδομένων, πρωταρχικός στόχος αποτελεί η φόρτωση των δεδομένων και η κατάλληλη προ-επεξεργασία τους, προκειμένου να βρίσκονται στην κατάλληλη μορφή για την εφαρμογή τους στη δημιουργία του μοντέλου. Έτσι αρχίζουμε την επεξεργασία με το διαχωρισμό των δεδομένων σε 2 κατηγορίες. Έχουμε τα μοντέλα που θα απαρτίσουν τα δεδομένα εκπαίδευσης (training data) και τα μοντέλα που θα χρησιμοποιηθούν μόνο για την αξιολόγηση του δικτύου (test data) μετά τη διαδικασία της εκμάθησης. Τα training data αποτελούνται απο 9840 μοντέλα από 40 κατηγορίες σε μορφή point cloud ενώ η μορφή τους σε μορφή πινάκων είναι (9840,2048,3). Πρακτικά αυτό σημαίνει ότι έχουμε συνολικά 9840 μοντέλα, το καθένα απο τα οποία αποτελείται απο 2048 σημεία, όπου το κάθε σημείο περιγράφεται απο τις 3 συντεταγμένες του. Αντίστοιχα για τα test data η μορφή είναι (2468,2048,3) αφού περιέχονται 2468 συνολικά μοντέλα. Παρράλληλα, γίνεται διαχωρισμός και του συνόλου των πραγματικών κλάσεων (labels) για κάθε δεδομένο σε αντίστοιχες κατηγορίες. Για την εκπαίδευση έχουμε

79 Υλοποίηση μοντέλου 3D ταξινόμησης 65 τα train labels με μορφή πίνακα (9840,) ενώ για την αξιολόγηση τα test labels (2468,) που περιέχουν αριθμούς στο σύνολο 0-39 για καθεμία κατηγορία αντικειμένων από τις ήδη υπάρχουσες στη βάση δεδομένων. Όπως ήδη έχει περιγραφεί τα δεδομένα μας βρίσκονται σε κωδικοποίηση HDF5 μορφής, για την συμπιεσμένη αποθήκευση τεράστιων συνόλων δεδομένων και το χειρισμό τους μέσω NumPy σαν πίνακες. Οπότε για την παραπάνω επεξεργασία τους γίνεται χρήση της βιβλιοθήκης h5py [41]. Έχοντας φορτώσει τα δεδομένα που θα χρειαστούμε, πρωταρχικό βήμα αποτελεί η οπτικοποίησή τους για την καλύτερρη κατανόηση και εξοικείωση με τα μοντέλα. Με χρήση της βιβλιοθήκης pyntcloud κάνουμε οπτική απεικόνιση των point cloud δεδομένων για τυχαία δείγματα από τα δεδομένα train data. Για την απεικόνιση απαιτείται η απόδοση ενός τυχαίου μοντέλου που θα επιλέξουμε σε μορφή DataFrame [42], προκειμένου να αποδωθούν, τα σημεία του μοντέλου σε ένα αρχείο δισδιάστατης δομής με 3 στήλες για κάθε σημείο του point cloud, με μια στήλη για κάθε συντεταγμένη του σημείου. Figure 5.1: DataFrame για point cloud εισόδου. Για τη δημιουργία του αρχείου DataFrame για κάθε point cloud χρησιμοποιήθηκε η βιβλιοθήκη Pandas και συγκεκριμένα η κλάση DataFrame. Με χρήση λοιπόν της κλάσης PyntCloud στον παραπάνω πίνακα με στήλες (Χ,Υ,Ζ) καταφέρνουμε τελικά να αποδώσουμε οπτικά το point cloud για ένα τυχαίο δείγμα απο το train data 5.2.

80 66 Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow Figure 5.2: Οπτική αναπαράσταση δείγματος point cloud εκπαίδευσης. Έχοντας αποκτήσει μια αίσθηση και απο την οπτική αναπαράσταση των δεδομένων, επόμενο βήμα ουσιαστικά αποτελεί η υλοποίηση του μοντέλου της 3D ταξινόμησης. Σημαντικό κομμάτι της προεπεξεργασίας των δεδομένων αποτελεί και η ενίσχυση των δεδομένων (data augmentation). Με αυτό τον όρο περιγράφεται η περεταίρω επεξεργασία των δεδομένων εισόδου, με συχνή την προσθήκη πρόσθετων χαρακτηριστικών σε αυτά, με σκοπό την πιο αποδοτική εκπαίδευση του μοντέλου. Στο PointNet προτείνονται 2 τεχνικές. Μία αφορά σε τυχαία περιστροφή των εισαγόμενων προς εκπαίδευση point clouds ενώ η δεύτερη σε προσθήκη θορύβου στα δεδομένα εισόδου.η προσθήκη αυτών των επιπλέον χαρακτηριστικών στα δεδομένα, αυξάνει την απόδοση του μοντέλου βελτιώνοντας την ικανότητα του για generalization, ενώ η εφαρμογή τους γίνεται σε κάθε σημείο για κάθε επιμέρους point cloud που θα εισαχθεί στο δίκτυο. Η δημιουργία του τελικού συνόλου δεδομένων για train και test υλοποιείται με χρήση του API της Tensor- Flow Dataset. Με το συγκεκριμένο εργαλείο, δημιουργούμε τα τελικά σύνολα δεδομένων train dataset, test dataset, αφού πρώτα ορίσουμε κάποιες πληροφορίες για αυτά. Έτσι εκτός απο τα δεδομένα που θα περιέχονται ορίζουμε το data augmentation κομμάτι που επιθυμούμε να περιέχουν τα δεδομένα μας, καθώς επίσης δημιουργούμε μια τυχαία σειρά εισαγωγής τους και τα χωρίζουμε σε batches για την αποδοτικότερη επεξεργασία τους. Αυτά τα χαρακτηριστικά εμπλουτίζουν τα δεδομένα μας και θα οδηγήσουν σε αισθητά καλύτερα αποτελέσματα κατά την εκπαίδευση. Μια πιο προσεκτική ματιά στα δεδομένα και στην κατανομή τους οδηγεί στο συμπέρασμα ότι τα δεδομένα δεν είναι ομοιόμορφα σε όλες τις κατηγορίες. Πιο συγκεκριμένα και για την περίπτωση των train data βλέπουμε ότι ο αριθμός των δεδομένων μεταξύ των κλάσεων διαφέρει σημαντικά. Ένα τέτοιο χαρακτηριστικό στα δεδομένα ενδέχεται να παρουσιάσει προβλήματα στην εκπαίδευση του μοντέλου καθώς και στην αξιολόγηση της ακρίβειάς του. Η παρουσία μεγάλεων αποκλίσεων μεταξύ των κλάσεων μπορεί να οδηγήσει το μοντέλο σε εσφαλμένες προβλέψεις λόγο πολύ περισσότερων δεδομένων εκπαίδευσης σε κάποιες κατηγορίες, από ότι σε κάποιες άλλες.

81 Υλοποίηση μοντέλου 3D ταξινόμησης 67 Figure 5.3: Ανομοιομορφία των κλάσεων στα δεδομένα εκπαίδευσης. Περισσότερες λεπτομέρειες για το ζήτημα της μη ομοιόμορφης κατανομής θα αναφέρουμε και στη συνέχεια, όπου θα αναλυθεί και η εκπαίδευση του μοντέλου Σχεδιασμός μοντέλου Το δίκτυο της 3D ταξινόμησης που επιθυμούμε να υλοποιήσουμε φαίνεται από την εικόνα και αποτελεί το κύριο κομμάτι του PointNet (Classification Network), καθώς είναι κοινό και για τη περεταίρω διαδικασία του τεμαχισμού των δεδομένων (Segmentation Network). Figure 5.4: Αρχιτεκτονική δικτύου 3D ταξινόμησης PointNet. Αρχικά, μελετώντας το παραπάνω γράφημα 5.4, θα αναλύσουμε την έννοια και την εφαρμογή κατά την υλοποίηση, των κοινών MLP που χρησιμοποιούνται σε πολλά επίπεδα για την αύξηση των διαστάσεων και την εκμάθηση της χωρικής κωδικοποίησης του κάθε σημείου σε ένα point cloud. Τα συγκεκριμένα MLP πρακτικά υλοποιούνται μέσω 1x1 συνελίξης, σε κάθε ένα απο τα επιμέρους σημεία ενός point cloud. Η διαστασιμότητα (1,1) του εφαρμοζόμενου φίλτρου καταδεικνύει οτι με χρήση του δεν ενδιαφερόμαστε για τη συσχέτιση πληροφορίας στο ίδιο feature map. Σε αντίθεση το φίλτρο εφαρμόζει pool μεταξύ πολλών feature maps για την συγκέντρωση της πληροφορίας. Για την κατανόηση της λειτουργίας των (1,1) φίλτρων θα αναφερθούμε στο παράδειγμα του πρώτου επιπέδου στο δίκτυο μας για χρήση αρχικά ενός φίλτρου στις συντεταγμένες εισόδου απο τα συνολικά 64. Στην παρούσα υλοποίηση με είσοδο τα Ν σημεία κάθε νέφους, στην περίπτωσή μας Ν = 2048, εκφρασμένα σε μια μορφή διανύσματος (2048,1,3) με τις τρεις συντεταγμένες των σημείων να λειτουργούν ουσιαστικά σαν τα κανάλια, δημιουργούμε ένα δισδιάστατο συνελλικτικό επίπεδο με διαστάσεις φίλτρου (1,1,3) το οποίο εφαρμόζεται στο point cloud εισόδου. Στο αρχικό επίπεδο έχουμε 64 φίλτρα (1,1,3) που αποδίδουν 64 feature maps. Το καθένα από αυτα τα 64 φίλτρα υλοποιεί 1x1 συνέλιξη για κάθε ένα απο τα 2048 στοιχεία παίρνοντας το γινόμενο στοιχείο-στοιχείο μεταξύ των 3 διαστάσεων του σημείου εισόδου και των 3 διαστάσεων του φιλτρου που εφαρμόζεται και αποδίδει έναν αριθμό. Στο επόμενο στάδιο γίνεται εφαρμογή μιας συνάρτησης ενεργόποιήσης μορφής ReLU στον αριθμό και αποδίδεται το αποτέλεσμα, στο feature map του φίλτρου, για κάθε ένα απο τα 2048 σημεία. Στην ουσία το κάθε ένα (1,1,3) συνελικτικό φίλτρο λειτοργεί σαν ένας επιμέρους

82 68 Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow νευρώνας με είσοδο τους 3 αριθμούς συντεταγμένων για κάθε σημείο στο νέφος. Στη συνέχεια ο νευρώνας πολλαπλασιάζει πρακτικά καθεμια απο τις συντεταγμένες των σημείων με καθένα απο τα 3 κανάλια του φίλτρου και στο αποτέλεσμα εφαρμόζει μια ReLU, για την απόδοση μιας τιμής στο feature map. Ο ορισμός όχι μόνο ενός τέτοιου φίλτρου αλλά για παράδειγμα 64, όπως στο αρχικό επίπεδο του μοντέλου μας πρακτικά υλοποιεί ένα MLP αποτελούμενο απο 64 νευρώνες που αποδίδει τιμές για κάθε σημείο του νέφους σε 64 ξεχωριστά feature maps. Το κάθε μονοδιάστατο συνελικτικό φίτλρο 1x1 δημιουργεί σταδιακά σε κάθε επίπεδο πολλαπλά feature maps για κάθε σημείο αντί να φτιάχνει ένα feature map για όλα τα σημεία. Με τη χρήση 1x1 συνελίξης, πρακτικά τα σημεία αποκτούν μια σύνδεση Dense μορφής, χρησιμοποιώντας όλα τα ίδια κοινά βάρη κατά την εκμάθηση, ανάλογα με τον αριθμό των εφαρμοζόμενω φίλτρων( ). Έτσι γίνεται κοινή χρήση βαρών και bias όρων σε όλα τα σημεία ενός νέφους. Μέσα στο συνολικό μας δίκτυο δηλαδή έχουμε επιμέρους υποδίκτυα μορφής MLP με σύνολο νευρώνων ανάλογο του αριθμού των εφαρμοζόμενων 1x1 φίλτρων. Η έννοια της 1x1 συνέλιξης και των λεγόμενων MLP-convolutional επιπέδων, πρωτοέγινε γνωστή μέσω της υλοποίησης του μοντέλου Network in Network [43]. Στην εφαρμογή οι ερευνητές προτείνουν τη χρήση MLP συνελικτικών δικτύων και τονίζουν την έννοια του pooling διαμέσω όλων των επίπεδων ενός δικτύου για την πιο αποδοτική εκμάθηση χαρακτηριστικών απο όλα τα επιμέρους επίπεδα. Όπως γίνεται αντιληπτό η χρήση φίλτρων με διαστάσεις 1x1 οδηγεί σε έλεγχο στον αριθμό των παραγώμενων feature maps σε ένα συνελικτικό δίκτυο, κάτι που εφαρμόζεται και στην παρούσα εργασία πριν το επίπεδο του global feature, όπου επιθυμούμε οι διαστάσεις του δικτύου μας να έχουν πάρει την τιμή 1024, δηλαδή να έχουμε 1024 ξεχωριστά φίλτρα που θα αποδώσουν 1024 ξεχωριστά feature maps. Πρακτικά το κάθε feature map απαρτίζει ένα νευρώνα με βάρη, οπότε το πλήθος των συνολικών feature maps που αποδίδονται δημιουργεί επιμέρους MLP αντίστοιχων νευρώνων μέσα στο συνολικό δίκτυο. Η σταδιακή προβολή σε ανώτερες διαστάσεις μέσω του αριθμού των φίλτρων που χρησιμοποιούνται, στην εργασία απο 64 σε 128 και τελικά 1024, εφαρμόζεται επανειλημένα στην είσοδο επιτρέποντας τελικά στον αριθμό των feature maps να αυξηθεί, ενώ παράλληλα να δημιουργείται μια σύνθεση που εξάγει τα σημαντικότερα χαρακτηριστικά της αρχικής εισόδου των 3 διαστάσεων. Δηλαδή η προβολή μέσω 1x1 συνέλιξης οδηγεί σε μια pooling διαδικασία μέσα απο τα σύνολο των επιπέδων. Αυτό που κάνει την αρχιτεκτονική του μοντέλου τόσο ιδιαίτερη, είναι η προσέγγιση που προτείνεται για την επίτευξη μη μεταβλητότητας σε περίπτωση αλλαγής διάταξης σημείων. Αυτό το χαρακτηριστικό υλοποιείται με την εφαρμογή της 1x1 συνελίξης που αναφέρθηκε και παραπάνω, σε συνδυασμό με μια συμμετρική συνάρτηση η οποία αποδίδει για Ν σημεία εισόδου σε ένα point cloud, έναν πίνακα εισόδου ( Ν x D ) σε ένα καθολίκό διάνυσμα (global feature) D διαστάσεων. Η εφαρμογή 1x1 συνελίξης κρίνεται όπως αναφέρθηκε ιδιαίτερα χρήσιμη στις περιπτώσεις, που είναι επιθυμητό να μεταβληθεί ο αριθμός των καναλίών εισόδου, δηλαδή οι διαστάσεις. Γενικά εφαρμόζοντας p 1x1 συνελλικτικά φίλτρα σε μια είσοδο με μορφή n h x n w x n c, (υψος x πλάτος x αριθμό καναλιών), όπως δηλαδή στην περίπτωση μιας εικόνας εισόδου, μπορούμε να πάρουμε σαν έξοδο αποτέλεσμα μορφής n h x n w x p.δηλαδή διατηρώντας τις διαστάσεις (υψος x πλάτος) ίδιες μπορούμε να αυξήσουμε τον αριθμό των καναλιών. Στο επίπεδο των point clouds, η 1x1 συνελίξη πρακτικά ισοδυναμεί με συνέλιξη σε κάθε ξεχωριστό χαρακτηριστικό για κάθε σημείο ενός νέφους, δημιουργώντας επιμέρους feature maps για το σύνολο των σημείων. Για την περίπτωση του PointNet εκφράζουμε κάθε point cloud αποτελούμενο απο 2048 σημεία και με συντεταγμένες (ΧΥΖ) 3 διαστάσεων, σαν μια είσοδο μορφής (2048,1,3) προκειμένου να εκμεταλλευτούμε την ιδιότητα τις 1x1 συνελίξης όπως στην εφαρμογή των εικόνων. Αρχικά στο πρώτο επίπεδο MLP(64) εφαρμόζεται δισδιάστατη συνέλλιξη με φίλτρο σχήματος (1,1) προκειμένου να γίνει συμψηφισμός της σχετικής πληροφορίας απο τις 3 συντεταγμένες (ΧΥΖ). Το αποτέλεσμα στην έξοδο του πρώτου MLP(64) έχει μορφή για Ν=2048 σημεία, (2048,1,64),καθότι έγινε χρήση 64 φίλτρων σχήματος (1,1). Ακολούθως, η ίδια διαδικασία επαναλαμβάνεται με 1x1 συνελίξεις,δηλαδή φίλτρα (1,1), για τα επόμενα MLP μέχρι και το MLP(1024). Πλέον έχουμε φτάσει στις 1024 διαστάσεις και η έξοδος είναι της μορφής (2048,1,1024). Βρισκόμαστε στο επίπεδο του εντοπισμού χαρακτηριστικών για κάθε σημείο ξεχωριστά. Έχουμε δημιουργήσει πρακτικά 1024 ξεχωριστά feature maps για καθένα απο τα 2048 σημεία ενός point cloud. Σε αυτό ακριβώς το επίπεδο γίνεται και η χρήση της συμμετρικής συνάρτησης, μιας καθολικής maxpooling, προκειμένου να εξασφαλιστεί ότι ενδεχόμενη αντιμετάθεση σημείων σε ένα νέφος, δεν επηρεάζει το

83 Υλοποίηση μοντέλου 3D ταξινόμησης 69 συνολικό point cloud. Όπως αναφέραμε και παραπάνω δοθέντος ενός πίνακα (Ν x D ), η συμμετρική συνάρτηση τον αποδίδει σαν ένα δίανυσμα χαρακτηριστικών Μ διαστάσεων. Η εφαρμογή της max-pooling συνάρτησης πρακτικά στο PointNet, εξάγει μόνο τα μεγαλύτερα στοιχεία για κάθε έναν υποπίνακα D διάστασης από τους συνολικά Ν(για κάθε σημείο δηλαδή), αποδίδοντας τελικά ένα διάνυσμα D διάστασης το οποίο πρακτικά περιέχει τα κύρια στοιχεία της εισόδου. Στην εφαρμογή μας ο αριθμός Ν των σημείων είναι 2048 και η τελική διαστασιμότητα του D είναι Figure 5.5: Υλοποίηση max-pooling για Ν σημεία. Η παραπάνω εικόνα οπτικοποιεί ακριβώς αυτή τη λειτουργία. Για Ν=2048 σημεία σε ένα νέφος μέσα απο τις παραπάνω λειτουργίες των MLP εντοπίζονται τα χαρακτηριστικά για κάθε ένα σημείο σε D=1024 διαστάσεις. Στη συνέχεια με εφαρμογή της max-pooling συνάρτησης, συγκεντρώνονται τα πιο σημαντικά, πρακτικά οι μεγαλύτερες τιμές για κάθε σημείο, σε ένα διάνυσμα μήκους 1024 στοιχείων σε συμφωνία με την τελική διαστασιμότητα του τελευταίου MLP(1024). Το PointNet δημιουργεί το διάνυσμα global feature, μέσω εφαρμογής της max-pooling στα επιμέρους χαρακτηριστικά για κάθε σημείο ενός δεδομένου εισόδου. Το global feature δίνει τα 1024 σημαντικότερα σημεία, που αποτελούν τον κύριο κορμό ενός νέφους( bottleneck), από τα οποία μπορεί να περιγραφεί ένα point cloud και βάση των οποίων θα γίνει και η τελική πρόβλεψη του μοντέλου. Μελετήθηκε, μέχρι στιγμής, η λειτουργία της συμμετρικής συνάρτησης max-pooling και του global feature διανύσματος, αλλά και η εφαρμογή 1x1 συνελίξεων στο δίκτυο για την εξαγωγή χαρακτηριστικών για κάθε σημείο ενός δοθέντος point cloud. Το επόμενο στοιχείο της αρχιτεκτονικής που θα αναλυθεί αφορά στους μετασχηματισμούς που υλοποιούνται μέσα απο τα δίκτυα T-Nets. Η λειτουργία αυτών των δικτύων ειναι πολύ σημαντική, καθώς όπως έχουμε αναφέρει ήδη, ένα point cloud, πρέπει να είναι σταθερό σε γεωμετρικούς μετασχηματισμούς, όπως για παράδειγμα περιστροφή των σημείων του. Καθότι το δίκτυο T-Net χρησιμοποιείται τόσο στις 3(input transform) όσο και στις 64 διαστάσεις (feature transform) με μικρές διαφορές μεταξύ τους, δημιουργήσαμε μια κλάση T-Net, η οποία ανάλογα με τις διαστάσεις και το επίπεδο που βρισκόμαστε επιτελεί τόσο λειτουργία του μετασχηματισμού εισαγωγής όσο και του feature transform. Ο αρχικός μετασχηματισμός θα πρέπει να αποδίδει έναν 3x3 πίνακα ορθογώνιο μετασχηματισμού των αρχικών συντεταγμένων εισόδου, ενώ ο feature transform έναν πίνακα μετασχηματισμού 64x64.Έχοντας ήδη αναλύσει την αρχιτεκτονική αυτών των δικτύων και στο προηγούμενο κεφάλαιο το μόνο που μένει, είναι να αναλύσουμε την τελική απόδοσή τους στο μοντέλο. Αρχικά, θα αναλύσουμε τη λειτουργία και υλοποίηση του πρώτου T-Net, που βρίσκεται στο επίπεδο του μετασχηματισμού εισόδου.δεχόμενο σαν είσοδο ένα point cloud, με διαστάσεις (Νx3), όπου Ν ο αριθμός που έχει επιλεγεί για τα σημεία του,στην προκειμένη περίπτωση Ν=2048, το T-Net αποδίδει έναν 3x3 πίνακα μετασχηματισμού.με επέκταση της βιβλιοθήκης tf.keras.layers και με απορρόφηση των μεθώδων και χαρακτηριστικών που αφορούν τα επίπεδα, όπως ο ορισμός βαρών τους και η συναρτήσεις ενεργοποίησης που τα διέπουν, δημιουργήσαμε μια κλάση για τα T-Net. Βασιζόμενοι στην θεωρία και στην μορφή αυτών των δκτύων ορίστηκαν

84 70 Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow αρχικά, τα συνελλικτικά επίπεδα που το απαρτίζουν και οι συναρτήσεις ενεργοποίησης που τα διέπουν (ReLU). Αξίζει να σημειωθεί οτί μετά από κάθε επίπεδο, υλοποιείται ένα BatchNormalization για επιπλέον κανονικοποίηση των σημείων μετά απο τους επιμέρους υπολογισμούς ενώ παράλληλα δημιουργούμε μεταβλητές για τον ορισμό των βαρών και τον bias όρων, οι οποίοι αρχικοποιούνται σαν μοναδιαίοι πίνακες. Η τελευταία λειτουργία που ορίζουμε στην κλάση των δικτυωμάτων αφορά την εμπρόσθια διάδοση και συνολική διαδικασία από την είσοδο στην έξοδο του δικτύου. Ο ίδιος μετασχηματισμός θα εφαρμοστεί και στις 64 διαστάσεις στο επίπεδο feature transform και στο δεύτερο T-Net. Tελικά με εισαγωγή της ίδιας κλάσης στα δύο επίπεδα κατεφέρνουμε για διαφορετικές τιμές διαστάσεων Κ, είτε 3 είτε 64, να γίνεται απόδοση πινάκων μετασχηματισμού ΚxK. Επόμενο βήμα αποτελεί η προσθήκη των τελευταίων Dense επιπέδων μετά την συνάρτηση max-pooling και το global feature διάνυσμα, που αποτελείται από τα κυριότερα σημεία ενός νέφους. Με Dense επίπεδα 512,256 και τελικά 40 στοιχείων το δίκτυο καταλήγει στις τελικές του προβλέψεις για την πιο πιθανή κλάση του εισαγόμενου point cloud από τις συνολικά 40 διαφορετικές. Όπως αναφέρεται και στη θεωρία κατά την προσπέλαση των τελευταίων Dense επιπέδων, 512 και 256 στοιχείων, γίνεται χρήση Dropout με πιθανότητα εγκατάλειψης 30% σε κάθε νευρώνα εισαγωγής. Η συγκεκριμένη μέθοδος και εφαρμογή της βελτιώνει αισθητά την απόδοση του μοντέλου ενισχύοντας την ικανότητα του προς το generalization. Έχοντας ήδη ορίσει όλα τα παραπάνω είμαστε πλέον έτοιμοι να αποδώσουμε το συνολικό μοντέλο της ταξινόμησης για το δίκτυο PointNet, που αποτελεί και τη βάση της παρούσας εργασίας.

85 Υλοποίηση μοντέλου 3D ταξινόμησης 71 Figure 5.6: Μοντέλο 3D ταξινόμησης PointNet. Όπως φαίνεται και απο την παραπάνω εικόνα το μοντέλο δέχεται σαν είσοδο (2048,3) δεδομένα, δηλαδή point clouds συνολικά 2048 σημείων και 3 συντεταγμένων (ΧΥΖ). Η έξοδος τελικά του μοντέλου αποδίδει 40 τιμές που περιγράφουν την πιθανότητα να βρίσκεται το εισαχθέν point cloud σε κάθε μια απο τις 40 κατηγορίες αντικειμένων. Παρατηρούμε επίσης ότι ο αριθμός των συνολικών παραμέτρων εκπαίδευσης συμπίπτει με αυτόν της θεωρίας Ορισμός συνάρτησης απωλειών και διαδικασία εκπαίδευσης μοντέλου Όπως ήδη έχουμε αναφέρει, μέχρι στιγμής έχουμε καταφέρει να επεξεργαστούμε κατάλληλα τα δεδομένα απο τη βάση δεδομένων δημιουργώντας 2 ξεχωριστά σύνολα,train και test dataset.επίσης, έχουμε ορίσει πλήρως το μοντέλο που θα τα επεξεργαστεί για την ταξινόμησή τους.το τελευταίο βήμα λοιπόν για την υλοποίηση της εφαρμογής της ταξινόμησης αφορά στον ορισμό των παραμέτρων που απαιτούνται για την διαδικασία εκπαίδευσης του μοντέλου. Αρχικά θα οριστεί η συνάρτηση απωλειών. Στην παρούσα διπλωματική προτείνεται η softmax cross entropy με logits, η οποία υπολογίζει την softmax cross entropy μεταξύ των προβλεπόμενων logits και των πραγματικών κλάσεων(labels) για κάθε point cloud. Υπολογίζει την πιθανότητα σφάλματος για περιπτώσεις που μια είσοδος αντιστοιχεί σε μοναδική κλάση. Το προβλεπόμενο logit το οποίο δημιουργεί το μικρότερο σφάλμα επιλέγεται κάθε φορά για batches με μέγεθος 40 δείγματα τη φορά και τελικά υπολογίζεται ο μέσος όρος των παραπάνω 40 σφαλμάτων, σαν σφάλμα του εκάστοτε batch, και με βάση αυτό το σφάλμα γίνεται σε κάθε batch η ανανέωση των βαρών στο δίκτυο. Εκτός της παραπάνω συνάρτησης απωλειών, όπως έχει αναπτυχθεί και στο προηγούμενο κεφάλαιο κατά την ανάλυση των δικτύων T-Nets, πρέπει να προστεθεί και ένας όρος regularization μετά την προσπέλαση του δεύτερου δικτύου T-Net κατά τον feature transform. Ο ορισμός ενός πίνακα μετασχηματισμού στις 64 διαστάσεις, καθώς και οι υπλογισμοί που απαιτούνται για τόσες πολλές παραμέτρους αυξάνουν σημαντικά την πολυπλοκότητα και το σύνολο των εκπαιδεύσιμων παραμέτρων του μοντέλου. Έτσι, για την αποφυγή αυτών των χαρακτηριστικών, προστίθεται στη συνολική συνάρτηση απωλειών μια συνάρτηση απώλειας L2 regularization, η οποία για το επίπεδο του feature transformation και τις 64 διαστάσεις είναι υπεύθυνη για την επιβολή ποινών στα βάρη μεγάλης τάξης, με στόχο την μείωση των συνολικών προς εκπαίδευση παραμέτρων. Έτσι οι συνολικές απώλειες σε κάθε επανάληψη κατά την εκπαίδευση θα δίνονται ως το άθροισμα των παραπάνω δύο απωλειών, της softmax cross entropy και της L2 regularization απώλειας. Ο αλγόριθμος βελτιστοποίησης που επιλέχτηκε είναι ο Adam, με μεταβαλλόμενο βήμα - learning rate.για τον σαφή ορισμό του learning rate τέθηκε ένα χρονικό πρόγραμμα βάση του οποίου μετά απο κάποια ορισμένα βήματα ο αλγόριθμος σταδιακά θα ελαττώνει το learning rate εκθετικά.το αρχικό learning rate είναι ενώ

86 72 Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow η τιμή του θα ελαττώνεται εκθετικά κάθε βήματα του αλγορίθμου βελτιστοποίησης Adam. Τα δεδομένα όπως ήδη έχουμε αναφέρει θα δίνονται σε τυχαία σειρά στο μοντέλο σε ομάδες(batches) των 40, τόσο για την εκπαίδευση όσο και για την αξιολόγηση. Τελικό βήμα πριν την έναρξη της διαδικασίας της εκπαίδευσης αποτελεί η δήλωση των μετρικών παραμέτρων που θα χρησιμοποιηθούν για την αξιολόγηση του μοντέλου. Στην παρούσα υλοποίηση προτείνεται η χρήση της κατηγορικής ακρίβειας(categorical Accuracy), που προκύπτει υπολογίζοντας τη συχνότητα κατά την οποία οι προβλέψεις ταιριάζουν με τις πραγματικές τιμές των κλάσεων. Για την κατάλληλη λειτουργία της παραπάνω ακρίβειας επιλέγεται ο πίνακας των κλάσεων με τις πραγματικές τιμές για τα 40 δεδομένα εισόδου(batch) να μετασχηματιστεί σε μορφή one hot κωδικοποίησης προκειμένου να αποκτήσει μορφή (40,40), έτσι ώστε τα logits για τα 40 δεδομένα εισόδου να έχουν ίδια μορφή, πίνακες (40,40) στοιχείων, με τις πραγματικές τιμές των κλάσεων. Ωστόσο όπως ήδη έχουμε αναφέρει τα μοντέλα σε κάθε κατηγορία του συνόλου δεδομένων δεν είναι ομοιόμορφα κατανεμημένα. Κάποιες κλάσεις έχουν πολλά περισσότερα μοντέλα, κάτι που μπορεί να επηρεάσει αισθητά την αξιπιοπιστία του μοντέλου μας. Για αυτό το λόγο προτείνεται η ακόλουθη προσέγγιση. Συγκεκριμένα, εκτός απο την κατηγορική ακρίβεια θα ορίσουμε ακόμη μια παράμετρο, το Precision. Όπως αναφέραμε υπάρχει μεγάλη ανομοιομορφία στα δεδομένα, και γιαυτό το λόγο η προσθήκη μιας επιπλέον παραμέτρου κρίνεται αναγκαία. Το Precision δημιουργεί 2 μεταβλητές, μια ορίζεται σαν true positives και μια σαν false positives.οι δύο αυτές κατηγορίες περιέχουν το σύνολο των δεδομένων για τα οποία το μοντέλο, αφενός είχε προβλέψει μια κατηγορία και το δεδομένο όντως άνηκε σε αυτή(true positives) και αφετέρου το μοντέλο είχε προβλέψει οτι το δεδομένο άνηκε σε μια κατηγορία και τελικά η πρόβλεψη ήταν λανθασμένη (false positives). To συνολικό Precision δίνεται σαν τον αριθμό των true positives διαιρεμένο προς το σύνολο των true και false positives. Αυτό που κάνει όμως τη χρήση του Precision τόσο σημαντική αφορά την προσθήκη πληροφορίας σχετικά με την ανομοιομορφία των κλάσεων. Πιο συγκεκριμένα όπως φαίνεται και από την εικόνα 5.3, έχουμε ήδη υπολογίσει το πλήθος των μοντέλων που βρίσκονται σε καθεμία απο τις 40 κατηγορίες για τα δεδομένα εκπαίδευσης. Μπορούμε να ορίσουμε μια μεταβλήτη sample weight, η οποία για κάθε κατηγορία θα υπολογίζει ένα ξεχωριστό βάρος, ανάλογα με το πλήθος των διαθέσιμων μοντέλων. Αναλυτικότερα, επιθυμούμε να προσδώσουμε στο μοντέλο μας την ικανότητα να αξιολογεί με παρόμοιο τρόπο και βαρύτητα τα δεδομένα, σε μια προσπάθεια περιορισμού της ανομοιομορφίας των κλάσεων. Έτσι, αν πρακτικά αυξάνουμε τα βάρη κάθε κατηγορίας κατά τον υπολογισμό της συνάρτησης απωλειών, με αντιστρόφως ανάλογο τρόπο συγκριτικά με το πλήθος των μοντέλων της, δηλαδή κατηγορίες με λίγα μοντέλα να έχουν πιο υψηλά βάρη από κατηγορίες με μεγάλο αριθμό μοντέλων, μπορούμε να επιτύχουμε μια πολύ πιο ολοκληρωμένη εκπαίδευση για το μοντέλο μας. Στην πράξη, βρίσκουμε την κατηγορία με το μεγαλύτερο πλήθος μοντέλων και τον αριθμό αυτόν και στη συνέχεια για κάθε άλλη κατηγορία διαιρούμε το μέγιστο πλήθος προς τον αριθμό των μοντέλων της κάθε κατηγορίας. Σαν αποτέλεσμα, τα βάρη της κατηγορίας με το μεγαλύτερο πλήθος έχουν συντελεστή 1 ενώ, κάθε κατηγορία με λιγότερα μοντέλα έχει μεγαλύτερο συντελεστή. Κατά ανάλογο τρόπο λειτουργούμε και στην περίπτωση των δεδομένων αξιολόγησης. Το μόνο που μένει να αναφέρουμε είναι ότι η διαδικασία της εκπαίδευσης, η οποία λαμβάνει χώρα για 80 συνολικά epochs, καθότι κατά αυτή τη διάρκεια έχουμε ικανοποιητική ακρίβεια στους υπολογισμούς μας. Τα δεδομένα εκπαίδευσης προσπελαύνονται συνολικά 80 φορές σε υπο-ομάδες των 40 δειγμάτων τη φορά (batches), ενώ κάθε 100 δείγματα τυπώνεται η κατηγορική ακρίβεια και το Precision. Για την αξιολόγηση τελικά του μοντέλου μας, προσπελαύνεται για πρώτη φορά το σύνολο δεδομένων test set και τυπώνεται τελικά η ακρίβεια και το Precision για αυτά τα δεδομένα. Κατά τη διαδικασία της αξιολόγησης και για μια προσπέλαση απο τα δεδομένα του test data συνόλου, δεν επιτρέπουμε στο μοντέλο μας να ανανεώσει περαιτέρω τα βάρη του, καθώς επιθυμούμε να κρίνουμε την απόδοσή του και όχι να τη βελτιώσουμε. Τα δεδομένα αυτού του συνόλου αποτελούν πρακτικά νέα δεδομένα για το μοντέλο μας, αφού δεν έχει εκπαιδευτεί σε αυτά, οπότε η επαλήθευση του μοντέλου μας και η τελική του απόδοση μετράται απο αυτές τις τιμές.

87 Αποτελέσματα και απόδοση μοντέλου Αποτελέσματα και απόδοση μοντέλου Έχοντας ολοκληρώσει την εκπαίδευση του μοντέλου για την 3D ταξινόμηση επόμενο βήμα αποτελεί η παρουσίαση των αποτελεσμάτων και ο σχολιασμός τους. Στην εικόνα που ακολουθεί βλέπουμε τις τελικές τιμές για την ακρίβεια και το precision κατά τη διαδικασία της εκπαίδευσης, μετά απο το πέρας 80 epochs. Το σημαντικότερο ωστόσο που επιβεβαιώνει και την ικανότητα για generalization του μοντέλου μας αποτελεί η παράμετρος της ακρίβειας για τα δεδομένα αξιολόγησης. Όπως προαναφέραμε για μια προσπέλαση των δεδομένων στο μοντέλο, η τελική τιμή της ακρίβειας τυπώνεται χωρίς περεταίρω ανανέωση των βαρών του μοντέλου. Στην παρακάτω εικόνα φαίνονται τα αποτελέσματα κατά την εκπαίδευση του μοντέλου. Figure 5.7: Αποτελέσματα εκπαίδευσης μοντέλου 3D ταξινόμησης. Η σημαντικότερη παράμετρος ωστόσο αποτελεί η ακρίβεια που μετράται κατά το πέρασμα απο τα δεδομένα test data για πρώτη φορά. Τα δεδομένα του συνόλου αποτελούν στην ουσία νέα δεδομένα για το μοντέλο καθώς δεν έχει εκπαιδευτεί σε αυτά και άρα μπορούμε να τα χρησιμοποιήσουμε σαν επαλήθευση για την απόδοση του δικτύου. Figure 5.8: Τελική ακρίβεια μοντέλου 3D ταξινόμησης. Παρακάτω παρουσιάζονται οι προβλέψεις για το δίκτυο της 3D ταξινόμησης που υλοποιήσαμε. Πιο συγκεκριμένα με χρήση της βιβλιοθήκης matplotlib [44] οπτικοποιούμε την απόδοση του εκπαιδευμένου πλέον μοντέλου μας. Figure 5.9: Απόδοση υλοποίησης κατά την πρόβλεψη αντικειμένων από Test Dataset. Παίρνοντας προβλέψεις απο το δίκτυο μας για 8 μοντέλα απο το test dataset καταγράφουμε τα τελικά

88 74 Σχεδιασμός μοντέλου 3D ταξινόμησης με χρήση του TensorFlow αποτελέσματα που δίνονται σαν έξοδο. Για καθένα απο τα παραπάνω μοντέλα γνωρίζουμε τις πραγματικές κατηγορίες που ανήκουν καθότι βρίσκονται στο σύνολο δεδομένων test dataset. Οπότε για 8 τυχαία μοντέλα που θα επιλεγούν απο το test dataset μαζί με τα πραγματικά τους labels, γίνεται μια σύγκριση και εμφάνιση τόσο των προβλέψεων του μοντέλου αλλά και των πραγματικών label, ενώ παρουσιάζονται και τα τρισδιάστατα αντικείμενα. Παρατηρούμε ότι για τα επιλεγμένα στην εικόνα μοντέλα το δίκτυό μας έχει προβλέψει τέλεια τη σωστή κατηγορία που το καθένα πραγματικά ανήκει. Γεγονός λογικό αν συνυπολογίσει κανεί την ακρίβεια των προβλέψεων του μοντέλου που υλοποιήσαμε. Παρατηρούμε ότι η τελική τιμή της ακρίβειας για το μοντέλο μας ειναι στο 87%. Η συγκερκιμένη τιμή κρίνεται ιδιαίτερα ενθαρρυντική καθώς επιβεβαιώνει την ορθότητα της υλοποίησης του μοντέλου ενώ παράλληλα συμφωνεί και με τη θεωρητική προσέγγιση. Πιο συγκεκριμένα η προτεινόμενη ακρίβεια του μοντέλου για 1024 σημεία του διανύσματος global feature, που χρησιμοποιούμε και εμείς προσεγγίζει το 89% όπως φαίνεται και από την εικόνα 4.9. Πρακτικά δηλαδή ένα εισαχθέν point cloud στο μοντέλο μας, μπορεί να περιγραφεί με ακρίβεια κοντά στο 87%, από ένα σύνολο 1024 κύριων σημείων του. Στην παρούσα διπλωματική πετύχαμε απόδοση που προσεγγίζει κατά πολύ την ιδανική θεωρητική πρόταση. Σημαντική είναι επίσης η παρατήρηση ότι αν και υπάρχει μεγάλη ανομοιομορφία στα δεδομένα, η προσθήκη διαφορετικής συνάρτησεις απωλειών που να λειτουργεί με βάση αυτή την ανομοιομορφία δεν συντέλεσε στη βελτιστοποίηση της απόδοσης και των αποτελεσμάτων. Για αυτό το λόγο και στην παρούσα πρόταση χρησιμοποιήθηκε η πιο απλή αλλά εξίσου αποδοτική softmax cross entropy. Το παραπάνω χαρακτηριστικό μας οδηγεί στο συμπέρασμα οτί τα δεδομένα είχαν μεγάλες αποκλίσεις μεταξύ τους και διέφεραν σημαντικά, οπότε η διαφορά στο πλήθος τους δεν επηρέασε κατά πολύ το μοντέλο και τις προβλέψεις του. Προφανώς σε αυτό συντέλεσε και η προσθήκη του Precision και η επιμέρους διαφοροποίηση των βαρών κατά την εκπαίδευση ανάλογα με το πλήθος μοντέλων κάθε κλάσης.

89 6. Συμπεράσματα και μελλοντικές κατευθύνσεις 6.1 Συμπεράσματα και μελλοντικές κατευθύνσεις Η παρούσα εργασία αποτελεί μια ισχυρή βάση για εφαρμογή τεχνικών βαθιάς μάθησης σε δεδομένα 3D δομής και συγκεκριμένα σε δεδομένα point cloud. Πιο αναλυτικά έγινε έρευνα για την εφαρμογή 3D ταξινόμησης αντικειμένων σε μορφή point cloud και αναπτύχθηκε ένα μοντέλο βασιζόμενο στο δίκτυο του PointNet, το οποίο καταφέρνει να κατηγοριοποιήσει με μεγάλη ακρίβεια το σύνολο των δεδομένων, από μια βάση αντικειμένων. Όμως, όπως είναι λογικό η εφαρμογή που υλοποιήθηκε επιδέχεται πολλών βελτιώσεων και περαιτέρω αλλαγών, προκειμένου να υπάρξει καλύτερη ποιότητα στα αποτελέσματα και μεγαλύτερο έυρος στις εφαρμογές. Η έρευνα και η υλοποίηση της 3D ταξινόμησης για δεδομένα τύπου point cloud, που υλοποιήθηκε στην παρούσα εργασία, έδειξε τη σημαντικότητα της επεξεργασίας τους και την ακρίβεια που μπορεί να έχουν τα αποτελέσματα με την συγκεκριμένη προσέγγιση και αρχιτεκτονική. Aντιμετωπίστηκαν οι δυσκολίες που πηγάζουν απο τη φύση των δομών και παρουσιάστηκαν τα μεγάλα οφέλη από την επεξεργασία τους, που αφορούν κυρίως στην απλότητα των δικτύων που δέχονται απευθείας point cloud και στην μείωση του συνολικού χρόνου επεξεργασίας χωρίς περιορισμό στην απόδοση του μοντέλου. Μέσα από εισαγωγή στις έννοιες και τα βασικά δομικά στοιχεία της βαθιάς μάθησης, δώθηκαν οι απαραίτητες πληροφορίες, ώστε να μπορεί να γίνει αναφορά και στην επεξεργασία 3D δεδομένων, που αποτελεί ακόμη και τώρα ένα απαιτητικό και πολλά υποσχόμενο πεδίο της μηχανικής όρασης. Μέσα από επίδειξη των κορυφαίων τάσεων που επικρατούν αυτή τη στιγμή στον τεχνολογικό κλάδο, παρουσιάστηκαν πολλές από τις εφαρμογές των 3D δεδομένων. Επίσης, έγινε αναφορά σε σημαντικά σύνολα 3D δεδομένων που μπορούν να συνδράμουν σε πληθώρα εφαρμογών και υπογραμμίστηκε η βαρύτητα της επεξεργασίας τους για την αντιμετώπιση μη επιλύσιμων μέχρι στιγμής προβλημάτων. Αρχικά, είναι σημαντικό ότι ερευνήθηκε το κομμάτι που αφορά στην ταξινόμηση των 3D αντικειμένων, οπότε και το μοντέλο που σχεδιάστηκε ανταποκρίνεται σε αυτή την ανάγκη. Μια πρόσθετη υλοποίηση και του δικτυώματος για τον τεμαχισμό των δεδομένων, που βασίζεται στο παρόν δίκτυο που ήδη έχουμε υλοποιήσει, θα οδηγούσε σε διεύρυνση του συνόλου των εφαρμογών που θα μπορούσε να χρησιμοποιηθεί το μοντέλο μας. Αναλυτικότερα, μια επέκταση του κυρίως δικτύου με προσθήκη και του Segmentation Network, θα μπορούσε να οδηγήσει σε ένα πλήρες μοντέλο, για την επεξεργασία δεδομένων point cloud με πολύ μεγαλύτερη εφαρμογή σε προβλήματα. Στην περίπτωση του μοντέλου τεμαχισμόυ των δεδομένων εισόδου σε επιμέρους κατηγορίες γίνεται χρήση τόσο των καθολικών χαρακτηριστικών που έχουν εξαχθέι από τη διαδικασία της ταξινόμησης για το κάθε νέφος, όσο και τοπικών χαρακτηριστικών κάθε σημείου ξεχωριστά. Ο τεμαχισμός αντικειμένων σε επιμέρους κατηγορίες, αποτελεί μια απο τις πιο σημαντικές λειτουργίες σε εφαρμογές όπως η βιοιατρική ή η ρομποτική, πεδία στα οποία η ακριβής και ολοκληρωμένη αναγνώριση αντικειμένων αποτελεί κύριο στοιχείο της επεξεργασίας. Η δημιουργία ενός μοντέλου μεγάλης απόδοσης και ακρίβειας, όπως το πλήρες Point- Net(classification and segmentation), θα είχε σαν αποτέλεσμα την ουσιαστική αντιμετώπιση προβλημάτων σε πολλούς τομείς, καθώς θα επέτρεπε την περεταίρω επεξεργασία των point cloud ακόμη και σε επίπεδο κατανόησης σκηνής. Έτσι θα δημιουργήσουμε ένα καθολικό μοντέλο για εφαρμογές 3D αναγνώρισης, που θα περιλαμβάνει εκτός απο ταξινόμηση, μερικό τεμαχισμό(part segmentation) και κατανόηση/αναγνώριση μιας ολόκληρης σκηνής με επιμέρους αντικείμενα απο διαφορετικές κατηγορίες. Σημαντική είναι και η προσέγγιση και ο σχεδιασμός αυτού του καθολικού μοντέλου που θα δημιουργηθεί, η οποία θα βασίζεται στη διαδικασία της ταξινόμησης που ήδη έχει υλοποιηθεί απο την παρούσα εργασία. Κύριο στοιχείο και σε αυτή τη λειτουργία θα αποτελούν κάποια δειγματοληπτημένα κύρια σημεία απο κάθε point cloud, τα οποία θα περιγράφουν μια 75

90 76 Συμπεράσματα και μελλοντικές κατευθύνσεις πιο γενική εικόνα των μοντέλων. Έτσι ο χρόνος επεξεργασίας βελτιώνεται κατά πολύ, σε σχέση με επεξεργασία όλου του συνόλου σημείων που απαρτίζουν κάθε μοντέλο, επιδρώντας σημαντικά και στη μείωση της συνολικής πολυπλοκότητας του δικτύου. Εκτός ωστόσο απο την επιπλέον υλοποίηση του δικτύου για τεμαχισμό των point clouds, αρκετές βελτιστοποιήσεις μπορούν να γίνουν και στην παρούσα πρόταση. Η πιο σημαντική προσθήκη που ενδεχομένως να είχε και ουσιαστική διαφορά στην απόδοση του μοντέλου αφορά στην πολυπλοκότητά του. Από την επεξεργασία των δεδομένων και τις προβλέψεις που έδωσε σαν έξοδο τελικά το δίκτυο που υλοποιήθηκε, καταλήγουμε στο συμπέρασμα ότι ενδεχομένως μια πιο περίπλοκη αρχιτεκτονική να μπορούσε να οριστεί. Το μοντέλο μας και λόγο της παρούσας βάσης δεδομένων που χρησιμοποιήθηκε(modelnet40) παρατηρούμε ότι είναι πιθανό να υπάρχει underfit, δηλαδή ότι το μοντέλο είναι πιο απλό από ότι χρειάζεται για τη σωστή επεξεργασία των δεδομένων. Προσθήκη μερικών επιπλέον επιπέδων, θα μπορούσε να οδηγήσει σε εξαγωγή ακόμη πιο χρήσιμων χαρακτηριστικών από το μοντέλο, τόσο για το μέρος της ταξινόμησης όσο και στο επίπεδο του τεμαχισμού των αντικειμένων, οδηγώντας σε αρκετά πιο ακριβής προβλέψεις. Σε αυτή την κατεύθυνση θα μπορούσε να λειτουργήσει ενδεχομένως και μια δειγματοληψία με περισσότερα απο 2048 σημεία απο κάθε point cloud, με πολύ μεγαλύτερο χρόνο επεξεργασίας ωστόσο. Τέλος, σημαντική είναι και η αναφορά της χρήσης του πλήρες δικτύου PointNet σε επιμέρους τμήματα ενός point cloud εισαγωγής. Όπως παρουσιάζεται και στο δίκτυο PointNet++ [25], μέσω επιμέρους δειγματοληψίας στο point cloud εισόδου δημιουργούνται επιμέρους σύνολα στα οποία με εφαρμογή PointNet γίνεται πιο ακριβής εκμάθηση των γεωμετρικών χαρακτηριστικών του αρχικού αντικειμένου. Figure 6.1: Παρουσίαση εκμάθησης χαρακτηριστικών από 2D νέφη σημείων (PointNet++). Με αυτή την περαιτέρω υλοποίηση παίρνουμε ακόμη πιο ακριβή αποτελέσματα με μικρότερο επιμέρους σφάλμα τόσο για την ταξινόμηση όσο και για τον τεμαχισμό point clouds. Όπως γίνεται αντιληπτό η παρούσα εργασία αποτελεί μοναχά την απαρχή της έρευνας γύρω απο τις δομές των point clouds και της 3D επεξεργασίας γενικότερα με τεχνικές βαθιάς μάθησης. Η δημιουργία και η υλοποίηση ενός μοντέλου 3D ταξινόμησης το οποίο να μπορεί με ακρίβεια να προβλέπει τις κατηγορίες των αντικειμένων εισαγωγής αποτέλεσε μια πολύ απαιτητική διαδικασία που απαιτούσε, την κατανόηση σε βάθος της φύσης των point cloud καθώς και τον κατάλληλο σχεδιασμό του μοντέλου για την σωστή επεξεργασία τους. Ολοκληρώνοντας λοιπόν, αναφέρονται μερικές μελλοντικές κατευθύνσεις και ενδεχόμενες προεκτάσεις για τη δημιουργία ενός μοντέλου για ολοκληρωμένη αναγνώριση αντικειμένων και τεμαχισμό τους που θα μπορεί να εφαρμοστεί σε παρα πολλά πεδία, με απευθείας επεξεργασία σε δεδομένα που θα είναι εύκολο να προσκομιστούν απο αισθητήρες, όπως είναι τα point clouds.

Δείτε περισσότερα