Σειρά: Επεξεργασία Δεδομένων Εκδοση/Ημ.νία: #3.1/018-0-15 Συγγραφέας: Μίχος Θεόδωρος, Φυσικός 1. Μέθοδος Ελαχίστων Τετραγώνων Μια από τις πρώτες δουλειές που μαθαίνει ένας φοιτητής θετικών επιστημών μόλις μπαίνει σε εργαστήριο είναι η σύγκριση πειραματικών δεδομένων με εξισώσεις προβλεπόμενες από κάποια αντίστοιχη θεωρία. Πρόκειται για την«μέθοδο των ελαχίστων τετραγώνων», την οποία αναγκάζεται ν αποστηθίσει, αφού δεν διαθέτει ακόμη το μαθηματικό υπόβαθρο για την κατανόησή της. Σήμερα μάλιστα που η χρήση λογισμικού εισάγεται στα εργαστήρια από την πρώτη μέρα, η πολύτιμη αυτή διαδικασία συχνά περνά απαρατήρητη. Βασικό πρόβλημα αποτελεί η περιγραφή μιας φυσικής ποσότητας ως γραμμικής συνάρτησης ενός πλήθους άλλων φυσικών ποσοτήτων και παραμέτρων. Μπορούμε να γράψουμε το πρόβλημα στη γενική μορφή: y = i a i x i +b (1) από την οποία υπολογίζουμε τις τιμές της y και παίρνουμε τις διαφορές μεταξύ αυτών και των παρατηρημένων τιμών (t y). Στόχος της μεθόδου είναι η επιλογή των συντελεστών a i ώστεναελαχιστοποιείταιτοάθροισματωντετραγώνων των διαφορών αυτών. Συνήθως έχουμε στη διάθεσή μας 1
έναπλήθοςζευγών {[x i ] j, y j },οπότεθαείναι: E = 1 (t i,j y i,j ) min () i,j Πρόκειται για τυπικό πρόβλημα βελτιστοποίησης όπου, από την σκοπιά του απειροστικού λογισμού, το ακρότατο επιτυγχάνεται σε σημεία όπου μηδενίζονται οι πρώτες παράγωγοι του αθροίσματος της(): ( ) E = 0 (3) a i Την μοναδικότητα του ακρότατου, το οποίο είναι και ε- λάχιστο, εγγυάται η διαπίστωση πως όλες οι ης τάξης μερικές παράγωγοι της E είναι θετικά ορισμένες: ( ) ( ) E = (4) a i j Ο παράγοντας 1/ στην E εισάγεται για απλούστερη μορφή των εξισώσεων μετά την παραγώγιση. Η συνθήκη της(3)μετηνχρήσητης(1),γίνεται: 1 ( t j j i j i x i j a i,j x i,j b) min (5) Ετσι, από την(5) παίρνουμε το σύστημα εξισώσεων: ( t j ) a i,j x i,j b x i,j = 0 (6) j i ( t j ) a i,j x i,j b = 0 (7) j i
όπουη(7)προκύπτειωςμερικήλύσητης(6)γιαάθροισμα των x i,j 0. Οιεξισώσειςαυτέςγράφονταιστηνπιο εύχρηστη μορφή: a i,j x i,j +nb x i,j = t j x i,j i j j j a i,j x i,j +nb = t j i j j όπου n το πλήθος δομών δεδομένων που διαθέτουμε. Πρόκειταιγιαένασύστημαμε (i + 1)εξισώσεις. Στην απλούστερηπερίπτωσημε i = 1έχουμετηνμορφή: a j x j +nb j x j = j t j x j a j x j +nb = j t j με την γνωστή λύση: yj x j y j j a = x j x j ( x j ) (8) yj a x j b = (9) n ηοποίαγράφτηκεμετηναντικατάσταση t y,ώστενα έχει την οικεία μορφή της. Ανησχέσημεταξύ x i και yδενείναιγραμμική,τότε μπορεί να γίνει εισαγωγή της μη γραμμικής σχέσης στις ανεξάρτητες μεταβλητές, έτσι ώστε να μπορεί να εφαρμοστεί η παραπάνω μέθοδος. 3
. Διανυσματική Προσέγγιση Η περιγραφή του βασικού προβλήματος παραμένει η ίδια, όπως περιγράφεται από την εξίσωση(1). Οι συντελεστές a i αντιπροσωπεύουντηναντίστοιχηστην x i μεταβολήτης εξαρτημένης μεταβλητής y. Ετσι, μπορούμε να γράψουμε: y a i = x i δa i δy x i (10) Ηχρήσητης(10)γιαδιόρθωσητωνσυντελεστώνa i κατά την εισαγωγή νέων δεδομένων προσκρούει σε διαίρεση με μηδέν,ότανεισάγονταιμικρέςτιμέςτης x i. Αρχική ιδέα για την υπέρβαση αυτού του εμποδίου στάθηκεηχρήσημιαςσυνάρτησηςτου x i,ηοποίαναδιαθέτει κάποιαχαρακτηριστικάτης f(x) = x,όπωςτηνπληροφορίαγιατοπρόσημο,αλλάναμηνπέφτειποτέστηντιμή μηδέν. Υπό την προϋπόθεση πως έχουμε μια συνάρτηση f(x)ηοποίαναμπορείναδουλέψει,η(10)γίνεται: δa i δy f(x i ) (11) Ομως, δεν επιθυμούμε την πλήρη προσαρμογή των συντελεστών a i στοσυγκεκριμένοσημείοτης yαλλάμιαμικρή μετατόπιση προς την σωστή κατεύθυνση. Ετσι, καλή επιλογή για την συνάρτηση f αποτελεί μια σταθερά, διατηρώντας την ιδιότητα του προσήμου: c f(x i ) = (1) sgn(x i ) οπότε η(11) γίνεται: δa i sgn(x i) c 4 δy (13)
Τομέγεθοςτηςσταθεράς cθαείναιμικρότεροαπότο τυπικό μέγεθος της y. Για δεδομένα με μεγάλη διασποράθαπαραμείνειστηνίδιατάξημεγέθουςαλλάγιακαλά εστιασμένα δεδομένα μπορεί να κατέβει μία ή δύο τάξεις, βελτιώνοντας την ακρίβεια του υπολογισμού. Αφούδιορθώσουμετονπίνακατωνσυντελεστών a i σύμφωνα με την(13), υπολογίζουμε μια νέα προσέγγιση της σταθερής παραμέτρου b από την(1) ως: b = y i a i x i (14) Ηδιαφοράανάμεσαστηνπαλιάκαιτηννέατιμήτης bαντιπροσωπεύει το απόλυτο σφάλμα της προσέγγισης: e = b new b old (15) Σ αυτότοσημείομπορούμενακρατάμεμιααπλήστατιστικήδιαδικασίαγιατηνμεταβολήτων bκαι eσεμικρό πλήθος προηγούμενων δεδομένων, ώστε η διόρθωσή τους να μην ακολουθεί άμεσα την μεταβολή των δεδομένων. Η παραπάνω διαδικασία διορθώνει σταδιακά τις τιμές των συντελεστών a i,καθώςεισάγεταιηπληροφορία,σημείο προς σημείο, και μπορεί να χρησιμοποιηθεί για να περιγράψειοποιοδήποτεγραμμικόμετασχηματισμό R n R m με m n. Για απλότητα, οι δείκτες παρακάτω χρησιμοποιούνται και ωςμέγεθοςλίσταςμε,ελπίζω,προφανήτρόπο.γιαm = 1, οαλγόριθμος«εκπαίδευσης»τωνσυντελεστών a i, bέχει ως εξής: 5
load: a i, b k while(data){ input: x i,y do: sa = Σa i x i for i = 1 to n do: a i + = (y sa b k )f(x i ) do: sb = Σb k for k = 1 to k do: b k 1 = b k do: b k = y Σb k do: b k = (b k +sb)/(k +1) } save: a i, b k 3. Πειραματικός Ελεγχος Εστω στατιστικό μέγεθος y για το οποίο θέλουμε να εξετάσουμε κατά πόσο ικανοποιεί την: y = 3x 1 +x 5x 3 + (16) από την οποία παράγουμε δεδομένα εισόδου, προσθέτοντας σ αυτά μια τυχαία απόκλιση. Είναι σημαντικό αυτή η τεχνητή απόκλιση να έχει αθροιστικό και όχι πολλαπλασιαστικό χαρακτήρα. Ο πολλαπλασιασμός θα εισάγει έναν παράγοντα κλίσης στα δεδομένα. Τα δεδομένα δεν είναι ταξινομημένα, όπως ακριβώς περιμένουμε να χρησιμοποιηθεί ο αλγόριθμος στην πράξη. Στην εξίσωση(16), ο ος όρος δεν είναι γραμμικός. Χρησιμοποιώνταςταδεδομέναεισόδουστημορφή x,ηδιαδικασία παραμένει γραμμική. Παρόμοιες αντικαταστάσεις μπορούν να γίνουν και σε άλλες περιπτώσεις μη γραμμικής συμπεριφοράς. 6
Ορίζουμετοεύροςτιμώνως 10 < x i < 10καιπαράγουμε τυχαία δεδομένα εισόδου. Στις υπολογισμένες α- πό την(16) τιμές εξόδου προσθέτουμε στατιστικό«θόρυβο» 10 < δy < 10,ίδιαςτάξηςμεγέθουςμεαυτήτης y, ως τυπική σχετική απόκλιση κακών μετρήσεων. Γιατηνσταθεράστην(11)χρησιμοποιείταιητιμή c = k, τοεύροςτηςλίσταςπροσαρμογήςγιατηντιμήτης b,για το οποίο επιλέχθηκε η τιμή k = 3. Εκτυπώνουμε τις τιμές των συντελεστών, όπως αυτές διορθώνονται κατά την εισαγωγή των δεδομένων: 10-5.9465 1.471-9.777 1.7304 0.00 0-3.86 1.68-6.148.5933-0.01 40 -.7064.453-5.0345 1.9375-0.13 70 -.783 1.7168-4.5918.7065 0.10 10 -.6431 1.531-5.9944 3.8179 0.8 180 -.636 1.9597-4.788.735 0.00 60-3.0747.0748-4.897.0064-0.00 370-3.1433.155-4.5810 1.8580-0.06 500-3.091 1.7500-6.9.7186 0.11 70-3.3109 1.395-4.9370 1.7570 0.09 980 -.9133 1.887-5.3880 1.9589 0.13 n a 1 = 3 a = a 3 = 5 b = δy Π1:Διαμόρφωσητωνσυντελεστών a i, b κατά την εισαγωγή n δεδομένων. Είναι εμφανές πως ο αλγόριθμος κρατάει μια σταθερότητα για n > 00. Αςδούμεπωςσυμπεριφέρεταιότανέχει εκπαιδευτεί στην κατάσταση της εξίσωσης(16) και κάποια στιγμή αρχίσουν να έρχονται δεδομένα από μια διαφορετική κατάσταση: y = x 1 7x x 3 + (17) 7
n old a 1 = 3 a = a 3 = 5 b = δy 990-3.1371 1.7767-4.1.134 0.08 1000 -.9796.113-4.844 1.6695 0.03 1010 1.6969-6.43-1.563.0903-0.33 100.119-6.7469-1.01.119 0.01 1030.1385-6.7568-0.7651.0348 0.05 n new a 1 = 3 a = 7 a 3 = 1 b = δy Π: Από τον δείκτη 1000 αλλάζουν μορφή τα δεδομένα. Φαίνεται ο τρόπος με τον οποίο ο αλγόριθμος αναγνωρίζει την αλλαγή και προσαρμόζεται. Ο αλγόριθμος προορίζεται για εφαρμογές διαχείρισης«εμπειρίας», με τις μεταβλητές αποθηκευμένες σε βάση δεδομένων. Στην ίδια βάση δεδομένων μπορούν να έχουν πρόσβαση διαφορετικές εφαρμογές από διαφορετικά μηχανήματα. Μίααπόαυτέςόμωςθαείναιυπεύθυνηγιατην εκπαίδευση των συντελεστών σε νέα δεδομένα. Για χρήση του αλγόριθμου σε εργαστηριακά δεδομένα μικρού πλήθους, τα ίδια δεδομένα μπορούν να εισαχθούν πολλέςφορές,ώστετοπλήθοςτηςεισόδουναείναιστατιστικά επαρκές. Βιβλιογραφία 1. S. Marsland, Machine Learning: An Algorithmic Prespective, nd Edition, CRC Press Taylor & Francis Group, New York, (015).. D. Cherney, T. Denton, R. Thomas and A. Waldro, Linear Algebra, Davis, California, (013). 3. D. Moore and G. McCabe, Introduction to the Practice of Statistics, W. H. Freeman and Co., London, (003). 4. F. Mandl, R.J. Ellison, D.J. Sandiford, Στατιστική Φυσική, Εκδόσεις Γ. Πνευματικού, Αθήνα(1986). 8
9