Επιστηµονικός Υπολογισµός ΙΙ Ε. Γαλλόπουλος 1 1 Τµήµα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πολυτεχνική Σχολή, Πανεπιστήµιο Πατρών 22/5/13
Ιδιοτιµές: Εισαγωγικά Ισως ο πιο σηµαντικός στόχος. της γραµµικής άλγεβρας είναι η µελέτη των ιδιοτήτων, π.χ. του τρόπου δράσης, των γραµµικών µετασχηµατισµών µεταξύ διανυσµατικών χώρων. Θα χρησιµοποιούµε τη λέξη δοµή για να αναφερόµαστε στις ιδιότητες των µετασχηµατισµών. Τα µητρώα έχουν πρωτεύοντα ϱόλο στη µελέτη αυτή γιατί, όπως γνωρίζετε από τη γραµµική άλγεβρα, αποτελούν τον πιο κοινό τρόπο έκφρασης των γραµµικών µετασχηµατισµών µεταξύ δ.χ. Μια µεγάλη ειδική κατηγορία γραµµικών µετασχηµατισµών είναι οι γραµµικοί τελεστές: Αυτοί είναι γραµµικοί µετασχηµατισµοί από ένα δ.χ. επί του ιδίου. Εστω ότι συµβολίζουµε τους τελεστές στο δ.χ. V µε L(V).
Πρόβληµα ιδιοτιµών και ιδιοδιανυσµάτων Πρόβληµα ιδιοτιµών οθέντος τετραγωνικού µητρώου A R n n, Ϲητούνται ϐαθµωτός λ (ιδιοτιµή) και διάνυσµα x 0 (ιδιοδιάνυσµα) ώστε Ax = λx. Οι ιδιοτιµές του A είναι οι n ϱίζες του χαρακτηριστικού πολυώνυµου det(a λi) = 0 Το σύνολο των ιδιοτιµών του A συνήθως συµβολίζεται σ(a) και αποκαλείται «ϕάσµα» του A.
Αριστερά ιδιοδιανύσµατα Ποιά είναι η σχέση των ιδιοτιµών/διανυσµάτων του A µε αυτά του A ; Αν Ax = λx τότε x A = λx εποµένως το λ είναι ιδιοτιµή του A Εποµένως οι ιδιοτιµές του A είναι οι συζυγείς των ιδιοτιµών του A. Γενικά δεν υπάρχει απλή σχέση µεταξύ των ιδιοδιανυσµάτων των A,A. Αν λ είναι ιδιοτιµή του A τότε ϑα υπάρχει ιδιοδιάνυσµα y ώστε A y = λy εποµένως y A = λy το y αποκαλείται αριστερό ιδιοδιάνυσµα του A που αντιστοιχεί στο λ.
Σχετικά µε τη γεωµετρική πολλαπλότητα Είπαµε ότι είναι η διάσταση του χώρου που ϕτιάχνουν τα ιδιοδιανύσµατα που αντιστοιχούν στο συγκεκριµένο ιδιοδιάνυσµα Αν σε κάποιο λ αντιστοιχούν δύο ιδιοδιανύσµατα x, y, τότε κάθε διάνυσµα z x, y είναι επίσης ιδιοδιάνυσµα. Τα ιδιοδιανύσµατα που αντιστοιχούν σε µία ιδιοτιµή µαζί µε το διάνυσµα 0 ϕτιάχνουν υποχώρο. Η διάσταση του υπόχωρου λέγεται γεωµετρική πολλαπλότητα της ιδιοτιµής.
Μη ελλειµµατικές ιδιοτιµές/µητρώα Αν ένα µητρώο δεν είναι ελλειµµατικό, τότε όλοι ορµαθοί Jordan είναι τετριµµένοι,... αλγεβρική πολλαπλότητα ίση µε την γεωµετρική πολλαπλότητα για κάθε ιδιοτιµή... υπάρχουν n γραµµικά ανεξάρτητα ιδιοδιανύσµατα το µητρώο είναι διαγωνιοποιήσιµο αλλά αν ένα µητρώο είναι ελλειµµατικό, δεν υπάρχουν n γραµµικά ανεξάρτητα ιδιοδιανύσµατα το µητρώο είναι δεν είναι διαγωνιοποιήσιµο η πιο διαγώνια µορφή τους είναι η Jordan µε µη τετριµµένους ορµαθούς
Σηµαντικές ιδιότητες ϕάσµατος Αν P R n n αντιστρέψιµος τότε λ σ(a) αν και µόνο αν λ(a) σ(p 1 AP). Ο µετασχηµατισµός A P 1 AP αποκαλείται µετασχηµατισµός οµοιότητας, και δεν επηρεάζει τις ιδιοτιµές. Η ϕασµατική ακτίνα µητρώου είναι το µέτρο της µεγαλύτερης σε απόλυτη τιµή ιδιοτιµής. Αν A R n n έχει n γραµµικά ανεξάρτητα ιδιοδιανύσµατα u 1,...,u n, τότε U 1 AU = diag[λ 1,...,λ n ], όπου U = [u 1,...,u n ], και ο A αποκαλείται διαγωνιοποιήσιµος.
ιάφορες ιδιότητες ϕάσµατος Οι ιδιοτιµές τριγωνικού µητρώου είναι τα διαγώνια στοιχεία του. Αν A = A C n n τότε έχει n πραγµατικές ιδιοτιµές και n γραµµικά ανεξάρτητα ιδιοδιανύσµατα τα οποία µπορούν να επιλεχθούν ώστε να είναι ΟΚ µεταξύ τους. ηλαδή το A διαγωνιοποιείται µε ορθογώνιους (unitary) µετασχηµατισµούς οµοιότητας. Εστω ο A διαγωνιοποιήσιµος και p τυχόν πολυώνυµο, τότε σ(p(a)) = p(σ(a)). Αν π.χ. λάβουµε p(z) = z µ, έχουµε ότι σ(a µi) = σ(a) µ.
Γενικές αρχές Η ιδιότητα των µετασχηµατισµών οµοιότητας να µην επηρεάζουν τις ιδιοτιµές παίζει πρωταρχικό ϱόλο στην εύρεση ιδιοτιµών, αφού µπορούµε να µετατρέψουµε το πρόβληµα σε κάποιο άλλο, ίσως πιο εύκολο χωρίς να επηρεάσουµε τις ιδιοτιµές. εν υπάρχει διαδικασία που για τυχόν A να υπολογίζει τις ιδιοτιµές σε πεπερασµένο αριθµό των συνηθισµένων αριθµητικών πράξεων. όµως Μια µεγάλη κατηγορία µεθόδων αποκαλούνται άµεσες (direct) αν, εµπειρικά, δεν αποτυγχάνουν σχεδόν ποτέ µετά από έναν ορισµένο αριθµό από επαναλήψεις.
Μία απαράδεκτη για αριθµητικές εφαρµογές µέθοδος Μέθοδος απαράδεκτη για τυχόν A 1 ανάπτυξη ορίζουσας πολυώνυµο ϐαθµού n 2 εύρεση ϱιζών λ j πολυωνύµου ϐαθµού n
Μερικές ιδιότητες Από ιδιοτιµή σε ιδιοδιάνυσµα: Επίλυση του (A λ)x = 0 Από ιδιοδιάνυσµα σε ιδιοτιµή 1 Υπολογισµός του λ = xt Ax x T x οι παραπάνω ιδιότητες πρέπει να χρησιµοποιούνται µε προσοχή 1 Κλάσµα Rayleigh
Πρωταρχικά Πριν προσπαθήσουµε να υπολογίσουµε µία ποσότητα, είναι σηµαντικό να γνωρίζουµε πόσο ευαίσθητη είναι ως προς διαταραχές στα δεδοµένα. δείκτης κατάστασης Σηµαντικό ϑέµα: Μελέτη ευαισθησίας ιδιοτιµών Ευαισθησία ιδιοτιµών αρχικά µοιάζει µε ευαισθησία ϱιζών πολυώνυµου Ευαισθησία ιδιοδιανυσµάτων
Ευαισθησία ιδιοτιµών Σηµαντική πηγή: The Algebraic Eigenvalue Problem, J.H. Wilkinson, Oxford Η ευαισθησία αυξάνει καθώς προχωράµε στις παρακάτω περιπτώσεις: απλή πολλαπλή µε αντίστοιχους ορµαθούς Jordan διάστασης 1 πολλαπλή και ελλειµµατική Παρατηρείστε ότι δεν υπάρχει αντίστοιχο αποτέλεσµα για τις ϱίζες πολυώνυµου
Ευαισθησία ιδιοτιµών Σηµαντικό ϱόλο παίζουν τα ιδιοδιανύσµατα. Ενας ορµαθός Jordan J n (λ) µεγέθους n έχει µία ιδιοτιµή λ µε αλγεβρική) πολλαπλότητα n, ένα δεξιό ιδιοδιάνυσµα e n, και ένα αριστερό e 1 αν στην ιδιοτιµή αντιστοιχεί ένας µόνος ορµαθός Jordan, το λ ϑα έχει γεωµετρική πολλαπλότητα 1. Αν για κάθε ιδιοτιµή υπάρχει ένας µόνος ορµαθός Jordan, το µητρώο αποκαλείται µη-µειωτικό (non-derogatory) Αν η µορφή Jordan (δεν) έχει µη τετριµµένους ορµαθούς, (δεν) ϑα υπάρχει ιδιοτιµή λ µε αριστερό και δεξιό ιδιοδιάνυσµα y,x ώστε y x = 0.
Ευαισθησία ιδιοτιµών Πόσο καλά προσεγγίζουν τα διαγώνια στοιχεία του A τις ιδιοτιµές; Θεώρηµα [Gerschgorin] Οι ιδιοτιµές Λ(A) κείνται στην ένωση των δίσκων n Λ(A) D k (A), k=1 D k (A) = {z C : z a kk n j = 1 j k a kj } Θεώρηµα [Bauer-Fike] Αν µ είναι ιδιοτιµή του A + E C n n και X 1 AX = D = diag[λ 11,...,λ nn ] τότε min λ µ κ p(x) E p. λ Λ(A)
Ιδιοδιανύσµατα Αν ο A είναι διαγωνιοποιήσιµος και X 1 AX = Λ, τότε µπορούµε να ϑέσουµε Y := X 1, οπότε Y AX = Λ και Y X = I εποµένως y 1 x 1 y 1 x 2 y 1 x n I = y 2 x 1 y 2 x...... 2.. y n x 1 y n x 2 y n x n εποµένως y j x k = δ jk (δ του Kronecker)
Στο παραπάνω αποτέλεσµα, τα ιδιοδιανύσµατα δεν είναι κανονικοποιηµένα ώστε να ισχύει εκ των προτέρων ότι x k 2 = y j 2 = 1. Θα µπορούσαµε να κανονικοποιήσουµε, οπότε x k x k x k 2, y j y j y j 2, k = 1,...,n j = 1,...,n. Στην περίπτωση αυτή, δεν ϑα ισχύει πια ότι y j x j = 1 αλλά y j x j = x j 2 y j 2 cos( x j,y j ) = cos( x j,y j ) 1 Η τιµή ϑα είναι πολύ µικρή αν το δεξιό και αριστερό ιδιοδιάνυσµα πλησιάζουν να είναι ορθογώνια.
Κανονικά µητρώα Είναι αυτά που διαγωνιοποιούνται µέσω ορθογώνιων µετασχηµατισµών οµοιότητας: Q AQ = Λ όπου Q Q = I. Στην περίπτωση αυτή τα δεξιά ιδιοδιανύσµατα είναι q j, τα αριστερά q j και q j q j = 1.
είκτης κατάστασης ιδιοτιµών Θεώρηµα Εστω λ απλή ιδιοτιµή του A µε δεξιό ιδιοδιάνυσµα x, αριστερό y, κανονικοποιηµένα ώστε x 2 = y 2 = 1. Εστω λ + δλ ιδιοτιµή του A + δa. Τότε δλ = y Ax y x + O( δa 2 2) δλ δa 2 y x + O( δa 2 2) και το 1/ y x ϑεωρείται η κατάσταση της ιδιοτιµής λ.
(A + δa)(x + δx) = (λ + δλ)(x + δx), Ax = λx αγνοώντας όρους δεύτερης τάξης y Aδx + y δax = λy δx + y δλx εποµένως δλ = y δax y x Ορισµός Θέτουµε s(λ) = y x, ο αριθµός Wilkinson, και αποκαλούµε τον 1/ y x δείκτη κατάστασης της ιδιοτιµής λ. Ο δείκτης κατάστασης είναι ή πολύ µεγάλος αν το δεξιό και αριστερό ιδιοδιάνυσµα είναι ορθογώνια ή σχεδόν ορθογώνια.
Παρατηρήσεις Αν το µητρώο δεν είναι ελλειµµατικό, τότε y x 0.... µπορεί όµως να είναι πολύ µικρό. Αν το µητρώο είναι συµµετρικό ή κανονικό, τότε δλ δa + O( δa 2 2)
Μορφή Jordan Κάθε ορµαθός Jordan ορίστηκε να έχει τη µορφή J k = trid k [λ,1,0,...,0] όµως το 1 στην υπερδιαγώνιο είναι µια κανονικοποίηση. Για παράδειγµα, αν D διαγώνιο αντιστρέψιµο, και J = X 1 AX τότε D 1 JD = D 1 X 1 AXD οπότε (XD) 1 A(XD) είναι ισοδύναµο µε το J (µετασχηµατισµός οµοιότητας) και έχει τις ίδιες ιδιοτιµές. Προσέξτε ότι D 1 JD = diag[δ 1 i ]trid k [λ,1,0,...,0]diag[δ i ] δ i = trid k [λ,,0,...,0] δ i+1 µπορούµε να διαλέξουµε το D ώστε να δώσει ό,τι τιµές ϑέλουµε στην υπερδιαγώνιο. Πώς χαρακτηρίζουµε αυτή τη µορφή; Ποιά ϑα είναι η ευαισθησία αυτής της µορφής Jordan; Γιατί να µην χρησιµοποιήσουµε µια τέτοια µορφή αν έχει µικρότερη ευαισθησία;
Πίσω ευστάθεια (από Stewart) Αν υπολογίσουµε ένα ιδιοζεύγος (µ,x) ώστε x 2 = 1, και r = Ax µx τότε r = 0, εποµένως το Ϲεύγος (µ,x) είναι ακριβές. r 0, λόγω πεπερασµένης ακρίβειας, κακής µεθόδου, κλπ. Τι µπορούµε να πούµε για το Ϲεύγος;
Παράδειγµα Εστω A = ( 1 1 ε 1 ) Οι ιδιοτιµές του είναι 1 ± ε. Τότε αν x = [0,1] και µ = 1 είναι εκτιµήσεις για το ιδιοζεύγος, r 2 = (0,ε) 2 = ε ηλαδή το r = O(ε) ενώ η υπολογισµένη ιδιοτιµή µ = 1 απέχει O(ε 1/2 ) από τις ακριβείς ιδιοτιµές. Αν το ε είναι πολύ µικρό, η διαφορά µπορεί να είναι σχετικά µεγάλη. Παράδειγµα: Αν ε = 10 10 τότε ε 1/2 = 10 5.
Παρατηρήσεις Ισχύει το παρακάτω αποτέλεσµα: Για κάθε x 0 και κάθε ϐαθµωτό µ έστω r = Ax µx. Τότε υπάρχει µητρώο E = rx x ώστε 2 και E 2 = r 2 x 2. (A + E)x = µx
Κλάσµα Rayleigh Οταν έχουµε προσέγγιση ιδιοδιανύσµατος αλλά όχι ιδιοτιµής: ηλαδή x τέτοιο ώστε για κάποιο µ το r = Ax µx ϑα πρέπει να είναι µικρό. Πώς υπολογίζουµε το µ; Ιδέα: Ελαχιστοποιούµε το r 2 την ϐέλτιστη προσέγγιση που προσφέρει η ορθογώνια προβολή: min µ Ax µx 2 Προβάλλουµε το Ax στο χώρο που παράγεται από το x, δηλ. xµ = xx x x Ax Πηλίκο Rayleigh: µ = x Ax x x
Μέθοδος Jacobi «Αρχαία» µέθοδος υπολογισµού ιδιοτιµών συµµετρικών µητρώων (1846) Εργαλείο: Εφαρµογή µετασχηµατισµών (περιστροφών) Jacobi για µηδενισµό των µη διαγώνιων στοιχείων Επανάληψη όσπου τα µη διαγώνια στοιχεία γίνουν αρκετά µικρά Οι ιδιοτιµές στη διαγώνιο, τα ιδιοδιανύσµατα το γινόµενο των περιστροφών Πολλές εκδοχές (µέθοδοι!) Περιστροφή Jacobi: Εστω γωνία θ [ π,π] και R(θ) R 2 2, όπου ( ) cosθ sinθ R(θ) :=. sinθ cosθ Τότε αν x R 2, το διάνυσµα R(θ)x προέρχεται από τη δεξιόστροφη περιστροφή του x κατά γωνία θ. Επίσης R(θ) = R( θ), R(θ)R( θ) = I, R(θ) R(θ) = I.
Γενίκευση και κλειδί Το µητρώο περιστροφής Jacobi γενικεύεται για περιστροφές n-διάστατων διανυσµάτων όπως και η περιστροφή Givens. Εστω n > 2, γωνία θ [ π,π], 1 p < q n, και R (pq) (θ) R n n όπως το ταυτοτικό µητρώο εκτός από τα στοιχεία { (R (pq) (R (θ)) i,j := (pq) (θ)) pp = cosθ (R (pq) (θ)) pq = sinθ (R (pq) (θ)) qp = sinθ (R (pq) (θ)) qq = cosθ. Τότε αν x R n, το διάνυσµα R (pq) (θ)x προέρχεται από τη δεξιόστροφη περιστροφή του x κατά γωνία θ. ).
Βασικό εργαλείο Θεώρηµα Εστω συµµετρικό A R n n. Για κάθε Ϲεύγος ϑετικών ακεραίων (p,q) όπου 1 p < q n, υπάρχει θ [ π/4,π/4] τ.ώ. οι ϑέσεις (p,q) και (q,p) του συµµετρικού µητρώου (R (pq) (θ)) AR (pq) (θ) είναι µηδέν. Επιλογή θ: Χωρίς µεγάλη δυσκολία αποδεικνύεται ότι: θ := 1 2 arctan 2α pq α qq αpp Παρατηρήσεις: Στατηγικές σάρωσης: - οι παρακάτω στρατηγικές πρακτικά οδηγούν σε τετραγωνική σύγκλιση: Κλασική Jacobi: Μηδενισµός µεγίστου (greedy) Σειριακή: π.χ. (1,2),(1,3),...,(1,n),(2,3),...,(2,n),...,(n 1,n) Παράλληλη: «έξυπνη» σάρωση για παράλληλο µηδενισµό
Σχόλια για τη µέθοδο Jacobi Η Jacobi αφορά κυρίως συµµετρικά µητρώα, αλλά µπορεί να επεκταθεί για υπολογισµό ιδιοτιµών κανονικών (normal) µητρώων... και στον υπολογισµό SVD γενικών µητρώων (one sided Jacobi) Γενικά είναι πιο ακριβή από άλλες µεθόδους (O(n 3 ) µε µεγάλη σταθερά για γενικά συµµετρικά µητρώα) µπορεί όµως να οδηγήσει σε πολύ µικρό σχετικό σφάλµα σε σχέση µε άλλες µεθόδους,... και ενδιαφέρουσες παράλληλες υλοποιήσεις.
Μέθοδος δύναµης Η απλούστερη µέθοδος για την προσέγγιση του κυρίαρχου ιδιοδιανύσµατος... και για (συµπτωµατικό) υπολογισµό της κυρίαρχης ιδιοτιµής Εστω A µε ιδιοτιµές σ(a) = {λ j }, όπου λ 1 > λ }{{} 2 λ 3 > λ n κυρίαρχη ιδιοτιµή και µε γ.α. ιδιοδιανύσµατα u 1,...,u n
Μέθοδος δύναµης Εκκίνηση: Τυχόν διάνυσµα x := x 0 for k = 1,... x k+1 Ax k end x = ξ 1 u 1 + + ξ n u n A k x = ξ 1 λ k 1 u 1 + + ξ n λ k n u n 1 λ k 1 A k x = ξ 1 u 1 + + ξ n ( λ n λ 1 ) k u n Αν ξ 1 0, A k x τείνει να γίνει παράλληλο µε το u 1. Ανάλυση σύγκλισης: Πόσο γρήγορα µειώνεται η απόσταση των υπόχωρων
Παρατηρήσεις Αν ξ 1 0 και [u 1 ] j 0 τότε ξ (k+1) j ξ (k) j = λ 1 + O( λ 2 λ 1 k ) Προς αποφυγή υπερ/υποχείλισης: Εκκίνηση: Τυχόν διάνυσµα x 0 for i = 1,... v j Au j u j 1 σ j v j end όπου σ j κατάλληλα επιλεγµένα, π.χ. σ j := u Η ταχύτητα σύγκλισης εξαρτάται από το λ 2 λ 1
Γενικεύσεις της Μ [Μέθοδος δύναµης: κανονικοποιηµένη µορφή] Εκκίνηση: Τυχόν διάνυσµα x (0) q (0) = x (0) / x (0) 2 for k = 1,... x (k) = Aq (k 1) q (k) = x (k) / x (k) 2 λ (k) = (q (k) ) Aq (k) end Ανάλυση σύγκλισης: Πόσο γρήγορα µειώνεται η απόσταση των υπόχωρων dist( u 1, q (k) ) = O( λ 2 λ 1 k ) λ 1 λ (k) = O( λ 2 λ 1 k )
Εκτίµηση σφάλµατος Αν r (k) = Aq (k) λ (k) q (k) τότε όπως είδαµε όπου (A + E (k) )x = µx E (k) = r(k) (q (k) ) q (k) 2 Εποµένως λ (k) είναι ιδιοτιµή του A + E (k) και λ 1 λ (k) E(k) 2 s(λ 1 ) = r(k) 2 s(λ 1 )
Παρατηρήσεις Η Μ είναι απλή και Οµως υλοποιείται πολύ εύκολα στηρίζεται σε ϱουτίνα για υπολογισµό MXV Θα πρέπει y 1 x 0 0 όπου y 1 είναι το αριστερό ιδιοδιάνυσµα Για να είναι η µέθοδος αποτελεσµατική, πρέπει y 1 x 0 να µην είναι µικρό πρόβληµα αν A πραγµατικό και λ 1 µιγαδικό λ 1 = λ 2. επιτάχυνση σύγκλισης άλλες µέθοδοι
Επιτάχυνση Μ µε µετατόπιση µητρώου Ax = λx (A µi)x = (λ µ)x λ 1 > λ }{{} 2 λ 3 > λ n κυρίαρχη ιδιοτιµή Στόχος: Να επιλέξουµε µ που ελαχιστοποιεί το λόγο Αν A έχει σ(a) R : έστω max λ j µ j 1 λ 1 µ λ 1 > λ 2 λ n 1 > λ n Η κυρίαρχη ιδιοτιµή του A µi ϑα είναι µια από λ 1 µ ή λ n µ
Βέλτιστες επιλογές Το arg min max λ j µ µ R j 1 λ 1 µ είναι ανεξάρτητο του παρονοµαστή, άρα ϑέλουµε το µ για το οποίο ελαχιστοποιείται το max λ j µ j 1 που είναι το µ = 1 2 (λ 2 + λ n ) λ 2 λ n µε το οποίο x u 1 µε παράγοντα σύγκλισης 2λ 1 λ 2 λ n s.
Για σύγκλιση προς ιδιοδιάνυσµα ελαχίστου µ = 1 2 (λ 1 + λ n 1 ) για x u n Παράδειγµα Αν A R 6 6 και σ(a) = {15,16,17,18,19,20} η απλή µέθοδος δύναµης «µηδενίζει» τα ιδιοδιανύσµατα u 2,...,u 6 µε παράγοντα ( 19 20 )s, π.χ. ( 19 20 )20 = 0.35 Αν ϑέσουµε µ = 17 τότε ο παράγοντας γίνεται ( 2 3 )s, π.χ. ( 2 3 )20 10 4
Γενικευµένη µέθοδος δύναµης [Γενικευµένη µέθοδος δύναµης] Ισχύουν Εκκίνηση: Τυχόν µητρώο X (0) R n p Υπολ. Q (0) ώστε X (0) = Q (0) R (0) (* παργν. QR *) for k = 1,... X (k) = AQ (k 1) Υπλ. Q (k) ώστε X (k) = Q (k) R (k) end Q (k 1) {}}{ X (k) = AX (k 1) (R (k 1) ) 1 = A 2 X (k 2) (R (k 2) ) 1 (R (k 1) ) 1 = A k X (0) R
Παρατηρήσεις Επισης subspace iteration, orthogonal iteration, simultaneous iteration Εστω λ p > λ p+1. Αν p = 1 έχουµε τη Μ. Αν p > 1 τότε εποµένως span(q (k) ) = span(x (k) ) = span(aq (k 1) ) span(q (k) ) = span(a k Q (0) ) = span(pλ k P 1 Q (0) ) PΛ k P 1 Q (0) = Pdiag[λ k 1,...,λ k n]p 1 Q (0) όπου V k R p p, W k R (n p) p, = λ i p Pdiag[( λ 1 ) k,,1,,( λ n ) k ]P 1 Q (0) λ p λ p ( ) = λ i p P Vk W k
εποµένως το W k τείνει στο 0 όπως το ( λ p+1 λ p ) k. Αν το V 0 έχει πλήρη τάξη, τότε και το V k ϑα έχει πλήρη τάξη. Αν είναι τα ιδιοδιανύσµατα, τότε εποµένως P = [p 1,...,p n ] = [P p,p n p ] PΛ k P 1 Q (0) = λ i p P(P pv k + P n p W k ) και span(q (k) ) = span(pλ k P 1 Q (0) ) = span(p p V k + P n p W k ) }{{} 0 span(q (k) ) span(p p V k ) = span(p p ) που είναι ο αναλλοίωτος υποχώρος των πρώτων p ιδιοδιανυσµάτων.
Ιδιότητες ορθογώνιας επανάληψης/υπόχωρου Εστω κάποιο J p. Τα πρώτα διανύσµατα (για (J = 1,...,p» του Q (k) είναι τα ίδια µε το αν τρέχαµε τον αλγόριθµο χρησιµοποιώντας µόνον τα J πρώτα διανύσµατα του X (0). Η επανάληψη υπόχωρου τρέχει έµµεσα τον αλγόριθµο για j = 1,...,p. Πόρισµα Αν όλες οι ιδιοτιµές είναι διαφορετικές σε απόλυτη τιµή, οι πρώτες j στήλες του Q (k) συγκλίνουν στον υπόχωρο span{p 1,...,p j } που παράγεται από τα πρώτα j ιδιοδιανύσµατα του A.
Θεώρηµα Εστω ότι τρέχουµε την επανάληψη υπόχωρου στον A για p = n ξεκινώντας από X (0) = I. Αν όλες οι ιδιοτιµές έχουν διαφορετικές απόλυτες τιµές και όλα τα κυρίαρχα υποµητρώα P(1 : j,1 : j), j = 1 : n, του µητρώου των ιδιοδιανυσµάτων P είναι πλήρους τάξης, τότε A (k) = (Q (k) ) AQ (k) συγκλίνει στη µορφή Schur του A µε τις ιδιοτιµές σε ϕθίνουσα σειρά στη διαγώνιο.
Σύγκλιση Εστω Q (k) = [Q (k) 1,Q (k) 2 ], όπου το Q (k) 1 C n p, τότε ( A (k) = (Q (k) ) AQ (k) = (Q (k) 1 ) AQ (k) 1 (Q (k) 1 ) AQ (k) 2 (Q (k) 2 ) AQ (k) 1 (Q (k) 2 ) AQ (k) 2 (Q (k) 2 ) AQ (k) 1 Αφού το span{q (k) 1 } συγκλίνει σε αµετάβλητο υπόχωρο του A, το span{aq (k) 1 } επίσης συγκλίνει εκεί, εποµένως span{(q (k) 2 ) AQ (k) 1 } 0 Αυτό συµβαίνει για κάθε υπόχωρο µεγέθους k = 1,...,n εποµένως το A (k) = (Q (k) ) AQ (k) τείνει σει διαγώνια µορφή Schur. Επίσης το υποµητρώο (Q (k) 2 ) AQ (k) 1 = A (k) (p + 1 : n,1 : p) τείνει στο 0 όπως το λ p+1 /λ p k. Εποµένως το A (k) (p,p) ϑα τείνει στο λ p µε ταχύτητα max( λ p+1 /λ p k, λ p /λ p 1 k. )
Μέθοδος µετατοπισµένης αντίστροφης δυνάµης Αν x = ξ 1 u 1 + ξ n u n άρα αν µ λ 1 : (A µi) 1 x = ξ 1 λ 1 µ) u 1 + + ξ n (λ n µ) u n λ 1 µ 1 max( λ j µ ) j 1 Μπορούµε να ορίσουµε µέθοδο ϐασισµένη στην επανάληψη ώστε ˆx u 1. ˆx (A µi) 1 x
Παρατηρήσεις δυνατότητα σύγκλισης προς οποιαδήοτε ιδιοτιµή... µε κατάλληλη επιλογή του µ χρήσιµη όταν έχουµε καλή προσέγγιση στην ιδιοτιµή και ϑέλουµε το ιδιοδιάνυσµα Πως υπολογίζεται το µ; Αλλη µέθοδος Πώς υπολογίζεται το (A µi) 1 x; κόστος: αριθµητική ευστάθεια
Κόστος απευθείας λύση 2 3 n3 α.κ.υ. Αρα συµφέρει να αναγάγουµε σε ειδική µορφή για ταχύτερη λύση συστήµατος: LU Μια ϕορά παραγοντοποίηση, µετά O(n 2 ) πράξεις α.κ.υ. ανά ϐήµα. Χρειάζεται νέα παραγοντοποίηση αν αλλάξει το µ (π.χ. µέθοδος Rayleigh). Hessenberg O(n 2 ) πράξεις α.κ.υ. ανά ϐήµα τριδιαγώνιο Αν A = A T, O(n) πράξεις α.κ.υ. ανά ϐήµα. Αν H Hessenberg τότε H µi επίσης Hessenberg.
Αναγωγή σε απλούστερη µορφή Hessenberg Αναγωγή µε Householder ή Givens Τριδιαγώνιο Αν A = A T τότε Hessenberg είναι τριδιαγώνιο ιαφορές από ΑΓΑ.1, ΑΓΑ.2: 1 Μετασχηµατισµοί σε µορφή Hessenberg 2 Μετασχηµατισµοί οµοιότητας Εχουµε Ax = λx Q } T {{ AQ } Q T x = λq T x H Οι ιδιοτιµές παραµένουν αµετάβλητες Τα ιδιοδιανύσµατα υπολογίζονται y = Q T x x = Qy
Ευστάθεια Παρατήρηση: Αν το µ είναι κοντά σε ιδιοτιµή τότε το σύστηµα A µi είναι σχεδόν µη αντιστρέψιµο κακός δείκτης κατάστασης. Ερώτηµα: Πως µπορούµε να λύσουµε το σύστηµα µε τέτοιες συνθήκες; Απάντηση: Αν χρησιµοποιήσουµε πίσω ευσταθή αλγόριθµο για την επίλυση, τότε ισχύει ότι (A µi + E)ˆx = y, για µικρό E. Εποµένως παρόλο που το ˆx µπορεί να έχει µεγάλο µπρος σφάλµα, το υπολογισθέν x προέρχεται από ένα ϐήµα της µετατοπισµένης µεθόδου δύναµης για το µητρώο A + E. Αν η ιδιοτιµή λ µ είναι µακριά από τις υπόλοιπες (αρκεί λ να είναι µακριά από τις υπόλοιπες) το αντίστοιχο ιδιοδιάνυσµα δεν είναι ευαίσθητο σε διαταραχές του A άρα το ιδιοδιάνυσµα του A + E είναι περίπου το ίδιο µε αυτό του A.
Επαναλήψεις Rayleigh Εκκίνηση προσέγγιση ιδιοδιανύσµατος Βήµα κ.1 Προσέγγιση µ (k) = xt Ax x T x Βήµα κ.2 Μέθοδος αντίστροφης δύναµης x new x Υλοποίηση µε επιλύσεις του συστήµατος (A µ (k) I)ˆx = αx Η µέθοδος των επαναλήψεων Rayleigh συγκλίνει τετραγωνικά Ax new µ (k+1) x new I 2 κ Ax µ (k) xi 2 2 Οταν το µητρώο είναι ερµιτιανό, ο ϱυθµός είναι κυβικός
«Αποπληθωρισµός» (deflation) ΕΡΩΤΗΜΑ: Αν ϐρούµε τα κυρίαρχα λ 1,u 1 πως συνεχίζουµε; Εστω µητρώο H (π.χ. ανακλαστής) ώστε Hu 1 = e 1. Τότε HAH 1 Hu 1 }{{} = λ 1 Hu }{{} 1 e 1 e 1 ( HAH 1 λ1?? = 0 Â και συνεχίζουµε ϐρίσκοντας τα ιδιοζεύγη του Â (µέγεθος n 1). Προσοχή: Στο επόµενο ϐήµα η σύγκλιση ϑα εξαρτάται από το επόµενο λ διάκενο, δηλ. 2 λ 3. )
Γενικεύσεις της Μ Αλγόριθµος: Μέθοδος δύναµης: κανονικοποιηµένη µορφή Εκκίνηση: Τυχαίο διάνυσµα x (0) q (0) = x (0) / x (0) 2 for k = 1,... x (k) = Aq (k 1) q (k) = x (k) / x (k) 2 λ (k) = (q (k) ) T Aq (k) end Ποιά είναι η αντίστοιχη διαδικασία αν x (0) είναι ορµαθός από στήλες; κανονικοποίηση διανύσµατος ΟΚ στηλών
Αλγόριθµος: Γενικευµένη µέθοδος δύναµης Εκκίνηση: Τυχαίο µητρώο X (0) R n n end Εχουµε Υπολ. Q (0) ώστε X (0) = Q (0) R (0) (* παργν. QR *) for k = 1,... X (k) = AQ (k 1) Υπλ. Q (k) ώστε X (k) = Q (k) R (k) Q (k 1) {}}{ X (k) = AX (k 1) (R (k 1) ) 1 = A 2 X (k 2) (R (k 2) ) 1 (R (k 1) ) 1 = A k X (0) R
Απλός αλγόριθµος QR Εκκίνηση: Μητρώο A (* Υπολογίζουµε την µορφή Hessenberg του A: *) P = Q T 0 AQ 0 for k = 1,... Υπλ. Q (k) ώστε P = QR P = RQ end P άνω τριγωνικό ή κατά πλοκάδες άνω τριγωνικό. οι ιδιοτιµές διαθέσιµες άµεσα στην διαγώνιο ή έµµεσα ως ιδιοτιµές πλοκάδων 2 2 κατά µήκος της διαγωνίου.
Επαναλήψεις QR Εκκίνηση: Μητρώο A και ορθογώνιο Q (0) R n n Εχουµε T 0 = Q0 T AQ 0 for k = 1,... Υπλ. Q (k) ώστε T (k 1) = Q (k) R (k) T (k) = R (k) Q (k) end T (k) = R (k) Q (k) = (Q (k) ) T (k 1) T (k) = (Q (0)...Q (k 1) ) A(Q (0)...Q (k 1) ) T (k) όµοιο µε A
Παρατηρήσεις Πόρισµα Εστω T (k) το µητρώο στο k ϐήµα της QR. Τότε T (k) = (Q (k) ) AQ (k) όπου Q (k) είναι το µητρώο που προκύπτει από τον αλγόριθµο υπόχωρου εκκινώντας από το Q (0) = I. Εποµένως, ο αλγόριθµος QR συγκλίνει στη µορφή Schur αν όλες οι ιδιοτιµές έχουν διαφορετικές απόλυτες τιµές.
Αλγόριθµος QR Εκκίνηση: Μητρώο A for k = 1,... Επιλογή µετατόπισης κ k Υπλ. µοναδιαίο Q (k) ώστε A k κ k I = Q (k) R (k) και e n R(k) = ρ nn e n A k+1 = R (k) Q (k) + κ k I end
Μορφές µητρώου Παρατήρηση: εν µπορούµε να διαγωνοποιήσουµε τυχαίο µητρώο µόνο µε ορθογώνιους µετασχηµατισµούς οµοιότητας. Πόσο απλό µπορούµε να κάνουµε ένα τυχαίο µητρώο µέσω ορθογώνιων µετασχηµατισµών οµοιότητητας; ιαγώνιο αν A κανονικό (A A = AA ). ιαγώνιο αν χρησιµοποιήσουµε άνισους ορθογώνιους µετασχηµατισµούς (δηλ. A = UΣV T ) Τριγωνικό - η µορφή Schur
(Πραγµατική) µορφή Schur [Παραγοντοποίηση Schur] Αν A R n n τότε υπάρχει ορθογώνιο Q ώστε R 11 R 12... R 1m Q T 0 R 22... R 2m AQ =........ 0 0 R mm όπου ο κάθε R ii είτε είναι ϐαθµωτός είτε µητρώο µεγέθους 2, µε µιγαδικές (συζυγείς) ιδιοτιµές. Οι ιδιοτιµές του A συµπίπτουν µε αυτές των R ii.
Λαπλασιανά µητρώα Μερικοί ορισµοί: Επίλυση Μ Ε Το µητρώο που προκύπτει από τη διακριτοποίηση του τελεστή Laplace, π.χ. 2 φ(x) = 2 x 2 + 2 y 2 Γραφοθεωρία Εστω µη κατευθυνόµενο γράφηµα G = (V, E), το µητρώο γειτνίασης A = [α i,j ], όπου α i,j = 1 αν υπάρχει ακµή (i,j) E αλλοιώς α i,j = 0. Επίσης D = diagδ i,i το διαγώνιο µητρώο όπου δ i,i είναι ο ϐαθµός του κόµβου i V. Το Λαπλασιανό µητρώο του G ορίζεται ως το L := D A.
Σχετικά µε το «γραφοθεωρητικό» L(G): L = L, εποµένως οι ιδιοτιµές είναι πραγµατικές, έστω λ 1 λ 2 λ n 1 λ n, Ισχύει x Lx = i j>i α i,j (ξ i ξ j ) 2 0. Le = 0 όπου e = ones(n,1), εποµένως λ n = 0 µε ιδιοδιάνυσµα e. λ n 1 > 0 ανν το γράφηµα είναι συνεκτικό. Τιµή και διάνυσµα Fiedler λ n 1,x: Lx = λ n 1 x.
Ιδιότητες e x για το διάνυσµα Fiedler x λ 2 = min x,x e=0 x Lx x x ιαχωρισµός γραφήµατος (graph separation) Αλγόριθµοι διαχωρισµού ενός γραφήµατος G σε υπογραφήµατα G 1,G 2 έτσι ώστε G = G 1 G 2,G 1 G 2 = /0, και να ικανοποιούνται ορισµένοι περιορισµοί. Ορίζουµε E(G 1,G 2 ) το σύνολο των ακµών που έχουν ένα άκρο στο G 1 και το άλλο στο G 2. bisection: #G 1 #G 2 1. cut ratio: φ(g 1,G 2 ) = #E(G 1,G 2 ) min(#g 1,#G 2 )
Επιλογές διαχωρισµού µε ϐάση το διάνυσµα Fiedler x = [ξ 1,...,ξ n ]. Επιλέγουµε σ, και διαχωρίζουµε G 1 := {j : ξ j σ}, G 2 := {j : ξ j < σ}. median σ το µέσο των {ξ 1,...,ξ n } sign σ = 0 ratio cut σ επιλέγεται ώστε να δίνει το ϐέλτιστο cut ratio gap cut σ επιλέγεται στο µέγιστο διάκενο των διατεταγµένων {ξ 1,...,ξ n }.
Μέθοδος Arnoldi για υπολογισµό ιδιοτιµών Θυµηθείτε την αναδροµή Arnoldi Και τη συνθήκη Petrov-Galerkin AV m = V m H m + w m+1 e m Λύνουµε µε Krylov και ορθογώνιες προβολές (K m = L m µε ϐάση το V m ) V m (AV m y m λ m V m y m ) = 0 H m λ m µ m y m Το διάνυσµα V m y m ελαχιστοποιεί το σφάλµα Az m λ m z m 2.
Αλγόριθµος [V m,h m+1,m ] = arnoldi(a,v,m) v 1 := v/ v 2 for j = 1,...,m h ij = (Av j,v i ), i = 1,...,j w j := Av j j i=1 h ijv i h j+1,j = w j 2 if h j+1,j = 0 Stop v j+1 = w j /h j+1,j end
Arnoldi για ιδιοζεύγη Τιµές και διανύσµατα Ritz Εστω ότι τα ιδιοζεύγη του H m είναι {θ j,y j } m j=1. τιµές Ritz Οι ιδιοτιµές {θ (m) j } m j=1 του H m διανύσµατα Ritz Τα διανύσµατα q j = V m y j ΣΗΜΑΝΤΙΚΟ Γενικά, καθώς το m µεγαλώνει, οι τιµές θ j και τα διανύσµατα Ritz q j τείνουν προς τα ιδοζεύγη του A. Συνήθως οι ακραίες ιδιοτιµές προσεγγίζονται ταχύτερα. [Saad] Ερωτήµατα Πόσο γρήγορα ; Μονοτονικά; Προσοχή: Οι απαντήσεις µπορεί να είναι διαφορετικές για τις τιµές και για τα διανύσµατα. Αν δεν υπάρχουν σφάλµατα στρογγύλευσης στο ϐήµα m = n όλα έχουν υπολογιστεί ακριβώς. Ποιότητα προσέγγισης (A θ j I)q j = h m+1,m e m y j. Το δεξιό µέλος άµεσα διαθέσιµο και χρησιµοποιείται ως κριτήριο τερµατισµού.
Arnoldi µε επανεκκίνηση για PageRank Require: A R n n, di astash m, arqik o di anusma q, kat wfli ε Ensure: pros eggish dian usmatoc PageRank 1: repeat 2: [V m+1,h m+1,m ] = arnoldi(a,q,m) 3: Upologism oc tim wn kai idiodianusm atwn Ritz tou H m,m 4: Estw to m egisto ze ugoc (θ 1,y m ) 5: q = V m y m 6: until Aq q 2 < ε Ερωτήµατα Πόσο αρνητικά επιδρά η επανεκκίνηση στη σύγκλιση; Πώς µπορούµε να ϐελτιώσουµε τη συµπεριφορά;
Μερικά προβλήµατα της Arnoldi 1 Αργή σύγκλιση προς ορισµένες ιδιοτιµές. 2 Πολύ ϐραδύτερη σγκλιση προς τα ιδιοδιανύσµατα. 3 Επιβάρυνση µνήµης καθώς αυξάνει το m. 4 Αρνητική επίδραση της επανεκκίνησης. Εκλεπτυσµένος αλγόριθµος Arnoldi Σε ορισµένες περιπτώσεις, τα διανύσµατα µπορεί να καθυστερούν πολύ περισσότερο από τις ιδιοτιµές. Μία ενδιαφέρουσα συµβολή [Jia 96-98] αναλύει το πρόβληµα και προτείνει ϐελτιώσεις.
Εκλεπτυσµένος αλγόριθµος Arnoldi για PageRank [Jia 96] [Golub, Greif 06] Require: A R n n, διάσταση m, αρχικό διάνυσµα q, κατώφλι ε Ensure: προσέγγιση διανύσµατος PageRank 1: repeat 2: [Q m+1,h m+1,m ] = arnoldi(a,q,m) 3: υπολογισµός τιµών και ιδιοδιανυσµάτων Ritz του H m,m 4: έστω το µέγιστο Ϲεύγος (θ 1,y m ) 5: υπολογισµός SVD H m+1,m θ 1 Ĩ = UΣV 6: v = V :,m 7: q = Q m v 8: until Aq q 2 < ε Πλεονεκτήµατα Αν (θ 1,y m ) περιέχει µιγαδικές τιµές, αποφεύγεται η µιγαδική αριθµητική στα επόµενα ϐήµατα. Το µέγιστο διάνυσµα Ritz µπορεί να συγκλίνει πιο γρήγορα (Jia)
Παραλλαγή Αξιοποιώντας το γεγονός ότι η µέγιστη ιδιοτιµή που αντιστοιχεί στο υπό αναζήτηση διάνυσµα είναι γνωστή και ίση µε 1, αποφεύγουµε τον υπολογισµό της τιµής Ritz:
PageRank µε Krylov 1 Ως γραµµικό σύστηµα GMRES 2 Ως ιδιοδιάνυσµα Arnoldi Γιατί; Αποκτούν ενδιαφέρον όταν α 1 οπότε οι απλές επαναληπτικές µέθοδοι καθυστερούν λόγω µείωσης της απόστασης της δεύτερης µεγαλύτερης ιδιοτιµής από το 1. Μη πρακτικά χωρίς επανεκκίνηση m n. Προσοχή δεν ενδιαφέρουν τόσο οι τιµές του x αλλά η διάταξη που υποδεικνύεται από τα στοιχεία του!