Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία (Μ1046) Επιβλέποντες: Επίκουρος Καθηγητής, Χατζηευθυμιάδης Ευστάθιος Υποψήφιος Διδάκτωρ, Παπαταξιάρχης Βασίλειος Αθήνα, Δεκέμβριος 2011
Σκοπός Διπλωματικής Μελέτη & σύγκριση στατιστικών μεθοδολογιών για εκτίμηση ελλιπούς πληροφορίας (interpolation - extrapolation). Μελέτη & σύγκριση αλγορίθμων κατηγοριοποίησης για εκτίμηση μεμονωμένων τιμών. Υπολογισμός απώλειας πληροφορίας έπειτα από εφαρμογή τεχνικών μείωσης διαστάσεων.
Σφάλματα Αισθητήρων Μεροληψία στα συλλεχθέντα δεδομένα. Πλήρη αποτυχία μετάδοσης της τιμής. Ελλειπούσα τιμή ή μετάδοση μιας σταθεράς. Συσσωρευτική απόκλιση σφαλμάτων. Υποβάθμιση της ακρίβειας της μέτρησης.
Ανάλυση Κύριων Συνιστωσών Principal Component Analysis - PCA Χρησιμοποιείται όταν έχουμε ψηλά συσχετισμένες μεταβλητές. Μειώνει τον αριθμό των αρχικών μεταβλητών σε ένα μικρότερο αριθμό κύριων συνιστωσών που μετρούν τη μεγαλύτερη δυνατή διασπορά του δείγματος. Μείωση Δεδομένων Οπτικοποίηση Δεδομένων Ανίχνευση Ακραίων Τιμών (noise reduction) Ομαδοποίηση Δεδομένων
Ανάλυση Κύριων Συνιστωσών - PCA Υπολογισμός του πίνακα συνδιακύμανσης (covariance matrix) S. Υπολογισμός των ιδιοτιμών και ιδιοδιανυσμάτων του πίνακα S. Προβολή στη βασική συνιστώσα με τη μεγαλύτερη ιδιοτιμή.
Μεθοδολογίες Παρεμβολής / Προεκβολής Παρεμβολή (Interpolation) είναι η διαδικασία ανάκτηση τιμών ανάμεσα στα ήδη γνωστά σημεία (δεδομένα) μιας καμπύλης. Προεκβολή (Extrapolation) είναι η διαδικασία απόκτησης μιας τιμής από ένα γράφημα ή μια γραφική παράσταση που εκτείνεται πέρα από τα συλλεχθέντα δεδομένα.
Αλγόριθμοι Παρεμβολής - Προεκβολής Γραμμική Συνάρτηση Πολυώνυμα Lagrange Cubic Spline Τα δεδομένα δεν παρουσιάζουν περιοδικότητα. Δεν μπορεί να υπολογιστεί η παράγωγος της συνάρτησης. Η καμπύλη δεν είναι υποχρεωτικό να περνά από όλες τις μετρήσεις (Cubic Spline)
Αλγόριθμοι Κατηγοριοποίησης Δημιουργία δένδρων απόφασης που χρησιμοποιούνται ως μοντέλα πρόβλεψης ελλιπών τιμών. ID3 / C4.5 Ελαχιστοποίηση Εντροπίας Information Gain (δηλ. ελαχιστοποίηση ερωτήσεων για την επιλογή του επόμενου μονοπατιού) C4.5 VS ID3 Αντιμετώπιση αριθμητικών γνωρισμάτων Χειρισμός ελλιπών τιμών (δεν υπολογίζονται στον υπολογισμό της εντροπίας) Αντιμετώπιση «θορύβου» δεδομένων (τεχνική εκτίμησης ποσοστού λάθους) Δημιουργία Κανόνων
Αλγόριθμοι Κατηγοριοποίησης (2) M5P Τα φύλλα των δένδρων που χτίζει (model trees), αποτελούνται από γραμμικά μοντέλα πολλών μεταβλητών και οι κόμβοι του δένδρου επιλέγονται βάσει του γνωρίσματος ελαχιστοποιεί το αναμενόμενο σφάλμα σε συνάρτηση με την τυπική απόκλιση της τιμής εξόδου. RepTree Εφαρμόζεται σε αριθμητικά δεδομένα και δίνει ως αποτέλεσμα την μέση τιμή των αντικειμένων του κάθε φύλλου. Χρησιμοποιεί τη μετρική του information gain και τη μείωση της διακύμανσης στους εσωτερικούς κόμβους.
Αλγόριθμοι Κατηγοριοποίησης (3) Decision Stump Δένδρο απόφασης ενός επιπέδου (βάθους 1). Κάνει τις προβλέψεις βασιζόμενο στην τιμή μίας μόνο μεταβλητής εισόδου. Υπολογίζει ένα σκορ, για κάθε ένα γνώρισμα, καταμετρώντας πόσο καλά χωρίζει το σύνολο της τάξης. Πολυπλοκότητα Επαγωγής Δένδρων Ο(m n log n) + O(n (log n) 2 )
Πειραματική Αξιολόγηση Δεδομένα που συλλέχθηκαν σε πραγματικό χρόνο. 387 διαφορετικές μετρήσεις για διακριτές χρονικές στιγμές. Το δίκτυο αισθητήρων αποτελείται από τρία ζευγάρια αισθητήρων που μετρούν την θερμοκρασία και την υγρασία του περιβάλλοντος και έναν τέταρτο αισθητήρα που μετρά την ταχύτητα του ανέμου τις ίδιες χρονικές στιγμές. Διανυσματική Μέτρηση x = (temp_1, hum_1, temp_2, hum_2, temp_3, hum_3, wind_speed) Επέκταση και σε ένα γενικότερο περιβάλλον με πλήθος κόμβων αισθητήρων (άρα και διαφορετικό αριθμό μεταβλητών) καθώς και σε διαφορετικό είδος μετρήσεων.
Πειράματα Προεκβολής (1) Προβλέψεις για την θερμοκρασία του τρίτου ζεύγους αισθητήρων την 251 η χρονική στιγμή. Η πραγματική τιμή της μέτρηση είναι 18,6.
Πειράματα Προεκβολής (2) Προβλέψεις για την υγρασία του τρίτου ζεύγους αισθητήρων την 251 η χρονική στιγμή. Η πραγματική τιμή της μέτρηση είναι 74,5.
Πειράματα Κατηγοριοποίησης Πρόβλεψη Θερμοκρασίας 3 ου Ζεύγους Αισθητήρων Σενάρια που δοκιμάστηκαν 1 ο Σενάριο: Προβλέψεις Μετρήσεων 251 300 2 ο Σενάριο: Προβλέψεις Μετρήσεων 338 387 Δεδομένα Εκπαίδευσης 20 Μετρήσεις (1/20 του συνόλου) 75 Μετρήσεις (1/5 του συνόλου) 190 Μετρήσεις (1/2 του συνόλου) Διακριτοποίηση Τιμών a : 6-9,9 βαθμούς C. b : 10-13,9 βαθμούς C. c : 14-17,9 βαθμούς C. d : 18-22,3 βαθμούς C.
Μετρικές Ποσοστό Επιτυχίας Αλγορίθμων Κατηγοριοποίησης Τετραγωνική Ρίζα Μέσου Τετραγωνικού 2 2 Σφάλματος ( p 1 a 1 ) +... + ( p a ) Συντελεστές Συσχέτισης Μέση Τιμή Σχετικού Σφάλματος έπειτα από χρήση PCA pi p j p i Διακύμανση Σχετικού Σφάλματος έπειτα από 2 χρήση PCA ( x x) n 1 n n n
Παραδείγματα εκτίμησης τιμών
Διαγραμματική Απεικόνιση Ποσοστά Επιτυχίας Αλγορίθμων για το 1 ο δείγμα Ποσοστά Επιτυχίας Αλγορίθμων για το 2 ο δείγμα
Ποσοστά Τετραγωνικής Ρίζας Μέσου Τετραγωνικού Σφάλματος
Συντελεστές Συσχέτισης Αριθμητικών Αλγορίθμων
Παραδείγματα με χρήση PCA
Συγκεντρωτική Διαγραμματική Απεικόνιση
Συμπεράσματα Τα συμπεράσματα δεν μπορούν να γενικευτούν σε δείγμα με χαμηλή συσχέτιση μεταβλητών. Το μέγεθος του δείγματος πιθανόν να τροποποιήσει τα αποτελέσματα των πειραμάτων. Extrapolation Χρειάζονται περίπου 10 μετρήσεις για να σταθεροποιηθεί η τιμή της πρόβλεψης Όσο μικρότερο ήταν το δείγμα εκπαίδευσης τόσο καλύτερες ήταν οι τιμές εκτίμησης. Υπερτερεί η χρήση της Μέσης Τιμής Αλγόριθμοι Κατηγοριοποίησης Η χρήση Pruning δεν διαφοροποιεί σημαντικά τα αποτελέσματα. Καλύτερη απόδοση με μεγαλύτερο ποσοστό δεδομένων εκπαίδευσης. (Ποιο το κόστος?) Μικρή απώλεια πληροφορίας με χρήση PCA
Ανοιχτά Θέματα Σύγκριση PCA με Factor Analysis Αλλαγή στον τρόπο υπολογισμού των κύριων συνιστωσών καθώς και στην επιλογή του πλήθους των κύριων συνιστωσών Μελέτη όλων των κατηγοριών σφαλμάτων Τρόποι δυναμικής ανανέωσης των μοντέλων πρόβλεψης
Ευχαριστώ πολύ!