ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ, ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
|
|
- Ιώ Γαλάνη
- 6 χρόνια πριν
- Προβολές:
Transcript
1 ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ, ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Algorithms for the fast estimation of statistical leverage scores Αλγόριθμοι για την ταχεία εκτίμηση τιμών στατιστικής μόχλευσης Η ΠΑΡΟΥΣΑ ΕΡΓΑΣΙΑ ΚΑΤΑΤΙΘΕΤΑΙ ΩΣ ΜΕΡΟΣ ΤΩΝ ΥΠΟΧΡΕΩΣΕΩΝ ΓΙΑ ΤΗΝ ΑΠΟΚΤΗΣΗ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ Σόμπτσυκ Αλέξανδρος Τριμελής Επιτροπή Καθηγητής, Ευστράτιος Γαλλόπουλος (επιβλέπων) Αναπληρωτής καθηγητής, Ιωάννης Καραγιάννης Επίκουρος καθηγητής, Εμμανουήλ Ψαράκης Πάτρα, Φεβρουάριος 2017
2 2 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής, Σόμπτσυκ Αλέξανδρος 2017 Με την επιφύλαξη παντός δικαιώματος
3 Περίληψη Στην παρούσα εργασία μελετώνται αλγόριθμοι για την ταχεία εκτίμηση τιμών μόχλευσης σε σύνολα δεδομένων. Οι τιμές στατιστικής μόχλευσης αποτελούν ισχυρό εργαλείο για την ανάλυση δεδομένων και τη στατιστική και έχουν χρησιμοποιηθεί επιτυχώς για τον εντοπισμό έκτοπων τιμών σε σύνολα δεδομένων, εύρεση σημαντικών κόμβων σε γράφους, ενώ πρόσφατα έχουν εφαρμοσθεί σε αλγόριθμους τυχαιοποιημένης γραμμικής άλγεβρας. Για την κατασκευή εκτιμητών αναλύουμε διάφορες τεχνικές μείωσης διαστατικότητας που χρησιμοποιούν τυχαιότητα σε συνδυασμό με επαναληπτικές μεθόδους για την επίλυση γραμμικών συστημάτων με πολλά δεξιά μέλη. Βασισμένοι σε αυτές τις τεχνικές προσπαθούμε να προσπεράσουμε συγκεκριμένους περιορισμούς που εντοπίζονται στις μέχρι στιγμής βέλτιστες προσεγγίσεις και προτείνουμε έναν αλγόριθμο ο οποίος αποδεδειγμένα επιστρέφει καλές εκτιμήσεις των τιμών μόχλευσης, παρουσιάζει καλή απόδοση σε υπολογισμούς κλίμακας σε παράλληλα/κατανεμημένα περιβάλλοντα και διαχειρίζεται αποδοτικά αραιά μητρώα. Παρουσιάζουμε τα αποτελέσματά μας σε τεχνητά και πραγματικά σύνολα δεδομένων και παρέχουμε σχολιασμό των αποτελεσμάτων και συζητήσεις σχετικά με τα πλεονεκτήματα και μειονεκτήματα διαφόρων αλγορίθμων. 3
4 4
5 Abstract In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical linear algebra algorithms. In order to build estimators, we consider dimensionality reduction techniques that use randomization in combination with iterative methods for solving linear systems with multiple right hand sides. Based on these techniques we try to overcome certain limitations of the current state-of-the-art algorithms and propose an approach which provably returns good estimations of leverage scores, scales well in parallel/distributed environments and effectively utilizes sparsity. We present our results on synthetic and real world data sets and evaluate its performance, and discuss the advantages and drawbacks relative to all considered approaches. 5
6 6
7 Ευχαριστίες Με το πέρας αυτής της εργασίας θέλω να ευχαριστήσω όλους τους ανθρώπους, καθηγητές, συνεργάτες, φίλους και γνωστούς που μου με στήριξαν και με βοήθησαν να φέρω σε πέρας το ΜΔΕ. Πρώτα θέλω να ευχαριστήσω την οικογένειά μου για την οικονομική και ψυχική υποστήριξη που μου παρείχαν καθ'όλη τη διάρκεια των σπουδών μου. Ευχαριστώ επίσης τον επιβλέποντα καθηγητή Ευστράτιο Γαλλόπουλο για όλες τις ευκαιρίες που μου δόθηκαν κατά τη διάρκεια της συνεργασίας μας. Του είμαι ευγνώμων για όλες τις γνώσεις που απέκτησα καθώς και για τη στήριξη και για τις συμβουλές που μου παρείχε όλο αυτό το διάστημα σχετικά με ακαδημαϊκά και διάφορα άλλα ζητήματα. Θέλω να ευχαριστήσω τα μέλη της τριμελούς εξεταστικής επιτροπής της μεταπτυχιακής εργασίας, επίκουρο καθηγητή Εμμανουήλ Ψαράκη και αναπληρωτή καθηγητή Ιωάννη Καραγιάννη. Ένα μεγάλο ευχαριστώ στο Βασίλειο Καλατζή για τις εκτενείς συζητήσεις μας σχετικά με διάφορα θέματα που μελετήθηκαν στην εργασία και για όλες τις συμβουλές και τα σχόλια που μου παρείχε. Ευχαριστώ επίσης τον καθηγητή Πέτρο Δρινέα για τις συζητήσεις, παρατηρήσεις και σχόλια σχετικά με το περιεχόμενο της εργασίας, τη βιβλιογραφία και την εκτέλεση πειραμάτων. 7
8 8 Θέλω επίσης να ευχαριστήσω τους Κίμωνα Φουντουλάκη, Ευγενία Κοντοπούλου και Fred Roosta για τις συζητήσεις μας και διάφορα σχόλια. Ευχαριστώ τον καθηγητή Χρήστο Ζαρολιάγκη που μας παρείχε πρόσβαση σε υπολογιστικούς πόρους για την εκτέλεση πειραμάτων. Θέλω να ευχαριστήσω τον Δρ. Γιώργο Κόλλια για την εξαιρετική του υποστήριξη και τις συμβουλές σχετικά με βιβλιοθήκες λογισμικού και γενικές κατευθύνσεις για την εκτέλεση πειραμάτων. Θέλω να ευχαριστήσω ιδιαίτερα το ίδρυμα Υποτροφίες Ανδρέας Μεντζελόπουλος για το Πανεπιστήμιο Πατρών για τη χρηματοδότηση αυτού του ΜΔΕ με υποτροφία. Τέλος, θέλω να ευχαριστήσω τη Μαριάννα. Η υποστήριξή της ήταν ένας από τους σημαντικότερους παράγοντες που έφεραν σε πέρας αυτό το ΜΔΕ. Επίσης είμαι ευγνώμων σε όλους μου τους φίλους, συμφοιτητές και συνεργάτες για την ενθάρυνση και υποστήριξή τους όλο αυτό το διάστημα. Αλέξανδρος Σόμπτσυκ, Πάτρα 2017.
9 Acknowledgements With the end of this Thesis I want to thank all the people, faculty, co-workers, friends and family who helped me finish my MSc. First of all I want to thank my family for their love and support during the years of my studies. My advisor, professor Stratis Gallopoulos for all the opportunities that I was given during this period of working together. I want to thank him for all the knowledge I received and for all the support and advising he offered me during this period concerning academic and other various matters. I want to thank assistant professor Emmanouil Z. Psarakis and associate professor Ioannis Caragiannis for accepting to be part of the examination committee and for their overall contribution. I especially acknowledge Vasilios Kalantzis for our thorough discussions and for all the comments and advice he gave me. Professor Petros Drineas for many observations and comments concerning existing literature and experiments. Kimon Fountoulakis, Fred Roosta and Eugenia Kontopoulou for our discussions and various comments. Professor Christos Zaroliagis for granting us access to computational resources to run our experiments. 9
10 10 Dr. George Kollias for excellent support and advice concerning software implementations and general guidelines for experiments. I want to especially thank Andreas Mentzelopoulos scholarships for University of Patras for financially supporting this research with scholarship. I lastly and mostly want to thank Marianna. Her support is one of the most important factors which led to the end of this MSc. Also all my friends, fellow students and officemates for their encouragement and support. Aleksandros Sobczyk, Patras 2017.
11 Contents Ευχαριστίες 8 Acknowledgements 10 Εισαγωγή 15 1 Introduction Applications Algorithms Contribution Some indicative results Outline Notation Dimensionality reduction Johnson-Lindenstrauss transforms Subspace embeddings Subsampled Randomized Hadamard Transform Sparse Embedding Matrix
12 12 CONTENTS 3 Least squares problems with multiple right hand sides Rank deficiency and leverage scores computation Solving each system independently Complexity Block-CG Complexity Block-seed CG Complexity Preconditioning Constructing preconditioners using randomization Jacobi preconditioning with sparse JLTs Preconditioning least squares using a Gaussian sketch Preconditioned BCG Complexity Algorithms State of the art 1: A(SA) Π State of the art 2: (AA ) q Π Diagonal estimator framework Matrix functions Proposed approach 1: Diagonal estimation based Expectation and variance of the estimated values Complexity Proposed approach 2: Row norm estimation based Bounds for the estimated values Complexity Comparison
13 CONTENTS 13 5 Experiments Approximation Accuracy α, τ, γ, and the number of iterations Performance evaluation Real world datasets, parallelization and scaling Concluding Remarks Failed attempts and lessons learned Future work Αʹ Supplementary proofs 85 Αʹ.1 Expectation and Variance of S S where S is a SRHT Αʹ.2 Expectation and Variance of S S where S is a SEM Βʹ Notes on implementations 89 Βʹ.1 SJLT Βʹ.2 SRHT Βʹ.3 SEM
14 14 CONTENTS
15 Εισαγωγή Στην παρούσα Διπλωματική Εργασία μελετώνται αλγόριθμοι για την ταχεία εκτίμηση τιμών μόχλευσης σε σύνολα δεδομένων. Οι τιμές στατιστικής μόχλευσης αποτελούν ισχυρό εργαλείο για την ανάλυση δεδομένων και τη στατιστική και έχουν χρησιμοποιηθεί επιτυχώς για τον εντοπισμό έκτοπων τιμών (outliers) σε σύνολα δεδομένων [10], [11], [12], εύρεση σημαντικών κόμβων σε γράφους [31], ενώ πρόσφατα έχουν εφαρμοσθεί σε αλγόριθμους τυχαιοποιημένης αριθμητικής γραμμικής άλγεβρας [20], [31], [45]. Στις εφαρμογές, τα δεδομένα είναι συχνά χρήσιμο να θεωρούνται ως σημεία στον R d και να αποθηκεύονται ως διανύσματα ή ως στήλες ενός μητρώου A R n d. Οι τιμές μόχλευσης αναδεικνύουν την επιρροή του κάθε σημείου στη γραμμή βέλτιστης προσέγγισης των δεδομένων. Στο Σχήμα 1 φαίνεται μία γραφική αναπαράσταση. Σημεία τα οποία βρίσκονται μακρυά από τη γραμμή έχουν υψηλές τιμές μόχλευσης. Ορισμός 1. Έστω μητρώο A R n d, όπου n > d. Έστω U R n d μητρώο τέτοιο ώστε οι στήλες του αποτελούν ορθοκανονική βάση για το χώρο στηλών του A. Η τιμή μόχλευσης της i-οστής γραμμής του A, θ i για i = 1,..., n, ορίζεται ως θ i = U (i) 2 2, (1) όπου U (i) η i-οστή γραμμή του U και 2 είναι η Ευκλείδεια νόρμα διανύ- 15
16 16 CONTENTS σματος. Η μέγιστη τιμή μόχλευσης µ = max 1 i n θ i ονομάζεται συνοχή του μητρώου (matrix coherence). Figure 1: Ευθεία που προσεγγίζει ένα σύνολο σημείων σύμφωνα με τις Ευκλείδειες αποστάσεις.² Η πιο απλή προσέγγιση για τον ακριβή υπολογισμό τιμών μόχλευσης είναι μέσω της παραγοντοποίησης QR ή της SVD για την κατασκευή ορθοκανονικής βάσης για το χώρο στηλών του A. Μία τέτοια προσέγγιση έχει πολυπλοκότητα O(nd 2 ) πράξεις αριθμητικής κινητής υποδιαστολής (α.κ.υ.), κόστος το οποίο μπορεί να είναι απαγορευτικό όταν υπάρχουν πάρα πολλά σημεία υψηλής διάστασης. Σε πρόσφατη βιβλιογραφία έχουν προταθεί αλγόριθμοι για την ταχεία εκτίμηση των τιμών μόχλευσης [30], [20], [22], [13]. Πιο συγκεκριμένα, έχουν προταθεί αλγόριθμοι οι οποίοι επιστρέφουν προσεγγίσεις θ i των τιμών μόχλευσης θ i για τις οποίες ισχύει με μεγάλη πιθανότητα η ακόλουθη ανισότητα θ i θ i ϵθ i (2) με κόστος υπολογισμού o(nd 2 ). ² Το σχήμα προέρχεται από το άρθο του wikipedia Regression analysis.
17 CONTENTS 17 Εφαρμογές Όπως συζητήθηκε ήδη, οι τιμές μόχλευσης έχουν μελετηθεί εκτενώς στη στατιστική γραμμικής παλινδρόμισης για την εύρεση έκτοπων στοιχείων σε σύνολα δεδομένων ([10], [11]). Δεδομένα με υψηλή μόχλευση στη βέλτιστη γραμμή προσέγγισης (best-fit line) μπορεί είτε να είναι αθέμιτα είτε μεγάλης σημασίας. Ένας χονδρικός κανόνας δηλώνει ότι τέτοια στοιχεία μπορούν να εντοπισθούν εάν η τιμή μόχλευσης τους είναι 2 ή 3 φορές μεγαλύτερη ή ίση της μέσης τιμής μόχλευσης όλου του συνόλου δεδομένων, π.χ. εάν θ i > 2d/n [43], [12]. Σε πιο πρόσφατη βιβλιογραφία [8], [41] προτείνεται η άποψη ότι οι τιμές μόχλευσης αναδεικνύουν κατά πόσον ένα γραμμικό μοντέλο είναι κατάλληλο για κάποιο σύνολο δεδομένων. Για παράδειγμα, η ύπαρξη μη ομοιόμορφα κατανεμημένων τιμών μόχλευσης, ενδεχομένως δηλώνουν ότι δεν είναι κατάλληλη μια τέτοια προσέγγιση. Στην περιοχή της ανάλυσης γράφων, έστω κάποιος γράφος G(V, E) όπου V το σύνολο d κόμβων και E το σύνολο n ακμών όπου κάθε ακμή διαθέτει κάποια τιμή βάρους w. Το μητρώο γειτνίασης ακμών B του G ορίζεται ως το μητρώο μεγέθους n d όπου κάθε γραμμή αναπαριστά κάποια ακμή του E και διαθέτει ακριβώς 2 μη μηδενικά στοιχεία τα οποία αντιστοιχούν στους κόμβους οι οποίοι συνδέονται από τη συγκεκριμένη ακμή. Ορίζοντας ως W το διαγώνιο n n μητρώο όπου κάθε στοιχείο διαθέτει το βάρος της αντίστοιχης ακμής, το Λαπλασιανό μητρώο του G ορίζεται ως L = B W B. Ο βαθμός ενός κόμβου ορίζεται ως ο αριθμός ακμών όπου συνδέονται με αυτόν. Οι σημαντικοί κόμβοι τείνουν να έχουν μεγάλο βαθμό ενώ σημαντικές ακμές είναι αυτές οι οποίες συνδέουν μεγάλες συστάδες κόμβων. Μία χρήσιμη έννοια που μπορεί να αναδείξει σημαντικές ακμές είναι οι ενεργές αντιστάσεις (effective resistances), οι οποίες είναι τα διαγώνια στοιχεία του μητρώου R = BL B. Είναι εύκολο να
18 18 CONTENTS αποδειχθεί ότι οι ενεργές αντιστάσεις είναι ανάλογες των τιμών μόχλευσης του μητρώου W 1/2 B [35]. Οι τιμές μόχλευσης είναι σημαντικές και στην περιοχή της τυχαιοποιημένης αριθμητικής γραμμικής άλγεβρας (RNLA). Στην περιοχή αυτή, μία στρατηγική που χρησιμοποιείται συχνά είναι η δειγματοληψία γραμμών/στηλών σύμφωνα με κάποια κατανομή σπουδαιότητας. Η χρήση τιμών μόχλευσης μπορεί να οδηγήσει σε βελτίωση της επίδοσης αλγορίθμων της περιοχής αυτής σε σύγκριση με την ομοιόμορφη δειγματοληψία [31], [45], [15]. Έχει αποδειχθεί μάλιστα ότι η δειγματοληψία μπορεί να γίνει ντετερμινιστικά χρησιμοποιώντας τιμές μόχλευσης για το πρόβλημα της προσέγγισης χαμηλής τάξης μητρώου [37]. Μείωση διαστατικότητας Οι αλγόριθμοι που πετυχαίνουν την ανισότητα (2) χρησιμοποιούν τεχνικές μείωσης διαστατικότητας με χρήση τυχαιότητας. Πιο συγκεκριμένα, στη βιβλιογραφία έχει γίνει εκτενής μελέτη μεθόδων που βασίζονται στη χρήση μητρώων με τυχαία στοιχεία τα οποία πολλαπλασιάζουν το μητρώο δεδομένων μειώνοντας τη διαστατικότητα, ενώ διατηρούνται κατά προσέγγιση συγκεκριμένα χαρακτηριστικά όπως Ευκλείδειες αποστάσεις, μήκη διανυσμάτων και ιδιάζουσες τιμές. Αναφέρουμε δύο βασικές έννοιες. Η πρώτη είναι οι μετασχηματισμοί Johnson- Lindenstrauss (JLT) [26]. Πρόκειται για τυχαία μητρώα τα οποία μετασχηματίζουν σύνολα διανυσμάτων από το χώρο R d στον R r, όπου r < d, διατηρώντας τα μεταξύ τους εσωτερικά γινόμενα. Πιο συγκεκριμένα Ορισμός 2. Ένα τυχαίο μητρώο Π μεγέθους r n είναι μετασχηματισμός Johnson-Lindenstrauss με παραμέτρους ϵ, δ, f, ή JLT(ϵ, δ, f), εάν με πιθανότητα
19 CONTENTS 19 τουλάχιστον 1 δ, για κάθε υποσύνολο f στοιχείων V του R n ισχύει η ανισότητα Πv, Πw v, w ϵ v 2 w 2 για κάθε v, w V. Θέτοντας w = v συμπεραίνουμε ότι οι μετασχηματισμοί αυτοί διατηρούν κατά προσέγγιση και τα μήκη των διανυσμάτων. Η δεύτερη έννοια είναι τα μητρώα ενσωμάτωσης υπόχωρου (subspace embeddings SE) [40]. Η διαφορά με τους μετασχηματισμούς JLT είναι ότι διατηρούν τις Ευκλείδειες αποστάσεις σε έναν ολόκληρο υπόχωρο, έναντι ενός πεπερασμένου συνόλου διανυσμάτων. Ο χώρος αυτός περιγράφεται από το χώρο στηλών ενός μητρώου A. Ορισμός 3. Δεδομένου μητρώου A μεγέθους n d, ένα ϵ-se για το χώρο στηλών A είναι ένα μητρώο S τέτοιο ώστε για κάθε x R d (1 ϵ) Ax 2 2 SAx 2 2 (1 + ϵ) Ax 2 2 Αλγόριθμοι Επιστρέφοντας στον υπολογισμό τιμών μόχλευσης, οι πιο αποδοτικοί αλγόριθμοι που έχουν προταθεί μέχρι στιγμής εφαρμόζουν JLTs ή/και SE έτσι ώστε να μειωθεί η διαστατικότητα του μητρώου δεδομένων και στη συνέχεια εκτελούν πράξεις στο αποτέλεσμα που είναι ένα μητρώο μικρότερου μεγέθους. Έτσι μειώνεται η πολυπλοκότητα ενώ επιστρέφονται με μεγάλη πιθανότητα αποδεκτές προσεγγίσεις της πραγματικής λύσης. Σε προηγούμενες εργασίες, οι Holdonak et al. δίνουν αποτελέσματα σχετικά με τις διαταράξεις τον τιμών μόχλευσης χρησιμοποιώντας ως υπολογιστικό πυρήνα την παραγοντοποίηση QR [23]. Για μεγάλα μητρώα τέτοιου είδους προσέγγιση μπορεί να είναι ιδιαίτερα χρονοβόρα. Στην εργασία [30] ³ οι Malik- Magdon Ismail et al. περιγράφουν έναν αλγόριθμο για τον προσεγγιστικό υπο- ³Η εργασία αυτή δεν έχει δημοσιευθεί μέχρι στιγμής.
20 20 CONTENTS λογισμό τιμών μόχλευσης πετυχαίνοντας την ανισότητα (2). Μετέπειτα, στην εργασία [20] οι Drineas et al. επιτυγχάνουν ακόμη μικρότερη θεωρητική πολυπλοκότητα εκμεταλλευόμενοι τις ιδιότητες του γενικευμένου αντίστροφου Moore-Penrose. Οι Clarkson et al. [13] προτείνουν ένα καινούργιο μητρώο για τη μείωση διαστατικότητας το οποίο είναι εξαιρετικά αραιό και εξ αυτού μπορεί να πολλαπλασιαστεί σε πολύ μικρό χρόνο με το μητρώο δεδομένων. Το μειονέκτημα αυτού του μητρώου είναι ότι το μέγεθος του μητρώου που προκύπτει μετά τον πολλαπλασιασμό είναι ανάλογο του τετραγώνου της διάστασης d του A ([33] ⁴) και συνεπώς είναι πιο χρήσιμο σε εξαιρετικά ``ψηλά και λεπτά'' μητρώα όπου n d 2. Εκτενής ανάλυση τέτοιου είδους αλγορίθμων έχει γίνει στην εργασία [22], όπου οι Gittens et al. προτείνουν αλγόριθμο για τον ταχύ προσεγγιστικό υπολογισμό τιμών μόχλευσης της βέλτιστης ``τάξης-k'' προσέγγισης του μητρώου. Πρόσφατα οι Drineas et al. δίνουν φράγματα για παρόμοιες προσεγγίσεις μειωμένης τάξης με βάση τη θεωρία υπόχωρων Krylov [19]⁵. Αναφέρουμε συνοπτικά 2 αλγόριθμους που έχουν προταθεί στις αναφορές [20], [22]. Αλγόριθμος 1 [20] 1: Υπολογισμός του μητρώου B = SA, όπου S είναι SE. 2: Υπολογισμός της SVD του B = UΣV. 3: Υπολογισμός του μητρώου C = V Σ 1 Π όπου Π είναι JLT για n διανύσματα. 4: Επιστροφή των Ευκλείδειων νορμών των γραμμών του AC. ⁴Οι Clarkson et al. αρχικά απέδειξαν ότι η μειωμένη διάσταση θα είναι της τάξης O(d 4 ) και βελτιώθηκε αργότερα σε Ω(d 2 ) από τους Nelson et al. ⁵Η εργασία αυτή δεν έχει δημοσιευθεί μέχρι στιγμής.
21 CONTENTS 21 Αλγόριθμος 2 [22] 1: Υπολογισμός του μητρώου B = AΠ όπου το Π είναι SE για τη βέλτιστη k-τάξης προσέγγιση του A. 2: Υπολόγισε το C = (AA ) q B, όπου q 0 είναι ακέραιος. 3: Επιστροφή των Ευκλείδειων νορμών των γραμμών των γραμμών C. Η πολυπλοκότητα των δύο Αλγορίθμων είναι o(nd 2 ). Παρόλ'αυτά έχουν ορισμένα μειονεκτήματα. Το βασικό μειονέκτημα του Αλγόριθμου 1 είναι ότι το μέγεθος του B είναι O(d log(d/δ)/ϵ 2 ) d, που στην πράξη μπορεί να είναι μεγαλύτερο από το A. Όσον αφορά τον Αλγόριθμο 2, βασική του αδυναμία είναι ότι επιστρέφει προσεγγιστικές τιμές μόχλευσης ως προς τη βέλτιστη τάξης-k προσέγγισης του A, αντί για τις τιμές μόχλευσης του A. Συνεισφορά Στην παρούσα Διπλωματική Εργασία μελετώνται τα πλεονεκτήματα και οι περιορισμοί των αλγορίθμων που αναφέρθηκαν. Συνδυάζοντας ιδέες από την υπάρχουσα βιβλιογραφία προτείνουμε έναν αλγόριθμο ο οποίος έχει τα εξής χαρακτηριστικά: 1. Επιστρέφει καλές προσεγγίσεις των τιμών μόχλευσης ψηλών και λεπτών μητρώων πλήρους τάξης. 2. Παρουσιάζει υψηλές επιδόσεις σε υπολογισμούς κλίμακας σε παράλληλα και κατανεμημένα περιβάλλοντα. 3. Εκμεταλλεύεται την αραιότητα του μητρώου δεδομένων. 4. Παρουσιάζονται υλοποιήσεις του αλγορίθμου και πειραματικά αποτελέσματα χρησιμοποιώντας συνθετικά και πραγματικά δεδομένα που δεί-
22 22 CONTENTS χνουν ότι ο αλγόριθμος λειτουργεί αποδοτικά στην πράξη. Στην προσέγγισή μας η βασική παρατήρηση είναι ότι οι τιμές μόχλευσης βρίσκονται στη διαγώνιο του λεγόμενου μητρώου hat. Υπενθυμίζουμε ότι πρόκειται για το μητρώο ορθογώνιας προβολής H = AA, ή H = A(A A) 1 A εάν το A είναι πλήρους τάξης. Η χρήση της δεύτερης εξίσωσης περιλαμβάνει την επίλυση της εξίσωσης μητρώων A AX = A Παρατηρούμε ότι πρόκειται για n γραμμικά συστήματα μεγέθους d d, όπου d n. Με βάση αυτά προτείνουμε να χρησιμοποιηθεί μία επαναληπτική μέθοδος για την επίλυση αυτών των συστημάτων με απώτερο στόχο τον υπολογισμό των τιμών μόχλευσης. Συγκεκριμένα προτείνεται η χρήση μιας Μπλοκ μεθόδου Συζυγών Κλίσεων (BCG). Για να γίνει πρακτική μια τέτοια προσέγγιση υιοθετούμε τεχνικές προρρύθμισης από την υπάρχουσα βιβλιογραφία [4], [32] και χρησιμοποιούμε JLT για τη μείωση του αριθμού των δεξιών μελών από n σε O(ln(n)/ϵ 2 ), όπου ϵ πολλαπλασιαστικός παράγοντας σφάλματος στο τελικό αποτέλεσμα. Δείχνουμε ότι η διαστατική μείωση και οι επαναληπτικές μέθοδοι μπορούν να συνδυαστούν αποδοτικά και κατά συνέπεια αποδεικνύουμε θεωρητικά αποτελέσματα που αφορούν τόσο το ρυθμό σύγκλισης των εμπλεκόμενων επαναληπτικών μεθόδων καθώς και την ακρίβεια της προσέγγισης των τιμών μόχλευσης. Στη Δ.Ε. μελετώνται διάφορες παραλλαγές των ανωτέρω εργαλείων. Περιγράφουμε περιληπτικά την προτεινόμενη προσέγγιση στον Αλγόριθμο 3. Συνοπτικά τα αποτελέσματά μας είναι τα ακόλουθα. 1. Ο Αλγόριθμος 3 αποδεικνύεται ότι επιστρέφει προσεγγίσεις θ i των τιμών μόχλευσης θ i για τις οποίες ισχύει με μεγάλη πιθανότητα η ακόλουθη ανι-
23 CONTENTS 23 Αλγόριθμος 3 Προτεινόμενη προσέγγιση 1: Υπολογισμός του μητρώου B = AΠ όπου το Π είναι JLT. 2: Υπολογισμός της SVD του GA = UΣV όπου G τυχαίο μητρώο με στοιχεία που ακολουθούν την κανονική κατανομή. 3: Επίλυση (AN) (AN)Y = N B με χρήση επαναληπτικής μεθόδου, όπου N = V Σ 1 προρρυθμιστής για το A. 4: Επιστροφή των Ευκλείδειων νορμών των γραμμών του AX, όπου X = NY. σότητα θ i θ i ϵθ i + f(ϵ, τ, d), όπου f(ϵ, τ, d) είναι κάποια συνάρτηση των παραμέτρων ϵ (η επιθυμητή ακρίβεια του αποτελέσματος), τ (το κριτήριο τερματισμού της επαναληπτικής μεθόδου) και d (η μικρή διάσταση του A). δείχνουμε τόσο στην ανάλυση όσο και στα πειράματα της Δ.Ε. ο προσθετικός αυτός παράγοντας είναι αμελητέος στην πράξη. 2. Κατασκευάζοντας προρρυθμιστή όπως περιγράφεται στα βήματα 2,3 του Αλγορίθμου 3 αποδεικνύεται ότι για γ > 1, για κάθε α (0, 1 1/γ) με πιθανότητα τουλάχιστον 1 2e α2 γd/2 θα χρειαστούν το πολύ k log τ log(α + 1/γ) επαναλήψεις έτσι ώστε η BCG να συγκλίνει σε λύση με σχετικό κατάλοιπο μικρότερο ή ίσο από τ. 3. Η υπολογιστική πολυπλοκότητα του αλγορίθμου είναι περίπου O ( nd 2) όμως οι ακριβότεροι υπολογισμοί μπορούν να γίνουν παράλληλα και εκμεταλλεύονται την αραιότητα του A, καθιστώντας τον αλγόριθμο πρακτικό
24 24 CONTENTS και αποτελεσματικό σε παράλληλα και κατανεμημένα υπολογιστικά περιβάλλοντα. Ενδεικτικά αποτελέσματα Στο Σχήμα 2 παρουσιάζουμε ενδεικτικά αποτελέσματα από πειράματα. Σημειώνουμε ότι για τα συγκεκριμένα σύνολα δεδομένων ο Αλγόριθμος 1 δεν είναι πρακτικό να χρησιμοποιηθεί γιατί για την επίτευξη αντίστοιχης ακρίβειας με τον προτεινόμενο αλγόριθμο το μέγεθος του μητρώου μετά τη μείωση διαστατικότητας είναι μεγαλύτερο από το αρχικό μέγεθος του A. mesh_deform 10 4 rail4284 time (seconds) Number of MPI processes Figure 2: Χρόνοι εκτέλεσης για τα σύνολα δεδομένων mesh_deform και rail4284 χρησιμοποιώντας 1,2,4 και 8 MPI processes. Δομή της εργασίας Η εργασία αποτελείται από έξι κεφάλαια. Στο Κεφάλαιο 2 γίνεται μια επισκόπιση των θεωρητικών αποτελεσμάτων από την τρέχουσα βιβλιογραφία μείωσης διαστατικότητας με χρήση τυχαίων μητρώων. Στο Κεφάλαιο 3 γίνεται μελέτη επαναληπτικών μεθόδων για την επίλυση
25 CONTENTS 25 συστημάτων με πολλά δεξιά μέλη και τεχνικές για την κατασκευή προρρυθμιστών. Εξετάζονται παραλλαγές της μεθόδου Συζυγών Κλίσεων για την περίπτωση γραμμικών συστημάτων με πολλά δεξιά μέλη. Στο Κεφάλαιο 4 γίνεται επισκόπηση προηγούμενων προσεγγίσεων του προβλήματος και συγκρίνουμε με την προτεινόμενη προσέγγιση. Ο πρώτος αλγόριθμος που αναλύεται βασίζεται σε ένα πλαίσιο για την εκτίμηση της διαγωνίου ενός μητρώου χρησιμοποιώντας τυχαιότητα. Οι υπόλοιποι αλγόριθμοι βασίζονται σε τεχνικές μείωσης διαστατικότητας. Παρουσιάζονται τα πλεονεκτήματα και μειονεκτήματα των αλγορίθμων αυτών και δίνεται θεωρητική ανάλυση της προσέγγισης που προτείνεται, τόσο για την ακρίβεια των αποτελεσμάτων όσο και την υπολογιστική πολυπλοκότητα. Στο Κεφάλαιο 5 παρουσιάζονται πειραματικά αποτελέσματα χρησιμοποιώντας συνθετικά και πραγματικά σύνολα δεδομένων. Αρχικά επιλέγονται μητρώα με ειδική δομή και ιδιότητες έτσι ώστε να επιβεβαιωθούν τα θεωρητικά αποτελέσματα στην πράξη. Επίσης δοκιμάζονται διαφορετικές τιμές για τις παραμέτρους των αλγορίθμων έτσι ώστε να βελτιωθεί η απόδοση. Τέλος παρουσιάζονται τα αποτελέσματα σε πραγματικά σύνολα δεδομένων από πειράματα που εκτελέσθηκαν σε κατανεμημένο σύστημα υπολογισμού. Στο Κεφάλαιο 6 γίνεται ανασκόπηση της εργασίας και συζήτηση σχετικά με θέματα μελλοντικής έρευνας.
26 26 CONTENTS
27 Chapter 1 Introduction In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets [10], [11], [12], locating important nodes in graphs [31] and more recently have been successfully applied to numerical linear algebra algorithms [20], [31], [45]. In applications, data points are commonly stored as columns of a matrix and leverage scores are values which gauge the influence of each point on the best-fit line of the data set. See the visualization in Figure 1.1. Points which are far from the best-fit line have large leverage scores. Definition 1. Let matrix A R n d, where n > d. Let U R n d be a matrix whose columns are an orthonormal basis for the column space of A. The leverage score of the i-th row (data point) of A, say θ i for i = 1,..., n, is defined as θ i def = U (i) 2 2, (1.1) where U (i) denotes the i-th row of U and 2 denotes the vector 2-norm. The largest leverage score µ def = max 1 i n θ i is called matrix coherence. 27
28 28 CHAPTER 1. INTRODUCTION Figure 1.1: A line that approximates a set of points with respect to Euclidean distances.² A straightforward approach for the exact computation of leverage scores is by computing an orthonormal basis for the column space of A via SVD or QR decomposition. Such an approach costs O(nd 2 ) floating point operations, which might be prohibitively expensive when the dataset consists of a very large number of points with high dimensionality. In recent bibliography algorithms have been proposed which return approximations θ i of the leverage scores θ i which satisfy with high probability the following inequality θ i θ i ϵθ i (1.2) while the computational complexity is o(nd 2 ). 1.1 Applications As already discussed, leverage scores have been broadly used for outlier detection in linear regression statistics ([10], [11]). Data points with high leverage on the ``best- ² Figure from Wikipedia article Regression analysis.
29 1.1. APPLICATIONS 29 fit'' line might either be illegitimate or of high actual importance. A rule of thumb states that such data points can be traced if their leverage scores are higher than 2 or 3 times the mean leverage of all the set, i.e. if θ i > 2d/n; cf. [43], [12]. In more recent bibliography [8], [41] it is argued that leverage scores reveal if a linear model is appropriate for a dataset, e.g. non-uniform leverage scores suggest that it might not. In graph analytics, consider a graph G(V, E) where V is the set of d nodes and E is the set of n edges where each edge is associated with some weight w. The edge incidence matrix B of G is defined as an n d matrix where each row represents an edge in E and has only 2 non-zero values at the columns which correspond to the nodes that are connected by the specific edge. Taking W to be the diagonal weight matrix the Laplacian of G is defined as L = B W B. The degree of a node is the number of edges connected to it. Important nodes tend to have a high degree while important edges usually are the ones which connect large communities or clusters. A useful concept that can reveal important edges are the so called effective resistances which are the diagonal entries of R = BL B. It is easy to see that effective resistances are proportional to leverage scores of the matrix W 1/2 B; cf. [35]. Leverage scores are also of importance in randomized numerical linear algebra (RNLA). In that area, a common strategy is to sample rows and/or columns based on some type of ``importance distribution''. The use of leverage scores in sampling can lead to improved performance of RNLA algorithms compared to the uniform sampling approach [31], [45], [15]. It has also been shown that deterministic sampling using leverage scores can be used efficiently for low rank approximations; cf. [37]. Dimensionality reduction Algorithms which achieve inequality (1.2) use randomized dimensionality reduction techniques. More specificaly, various methods have been examined in literature
30 30 CHAPTER 1. INTRODUCTION which use matrices with random elements to multiply the data matrix reducing its dimensionality, while certain properties are approximately preserved including dot products, vector norms and singular values. We refer to two basic concepts. The first is Johnson-Lindenstrauss transforms (JLT) [26]. JLTs are random matrices which transform a set of vectors from R d to R r, where r < d, preserving the pairwise dot products up to a multiplicative error term. More specifically Definition 2. A random matrix Π of size r d forms a Johnson-Lindenstrauss transform with parameters ϵ, δ, f, or JLT(ϵ, δ, f), if with probability at least 1 δ, for any f-element set V subset of R d, for all v, w V it holds that Πv, Πw v, w ϵ v 2 w 2. Taking w = v it follows that JLTs also approximately preserve vector 2-norms. The second concept is subspace embedding matrices (SE) [40]. The difference between SEs and JLTs is that they preserve Euclidean distances of an entire subspace rather than a finite set of vectors. This subspace is described by the column space of a matrix A. Definition 3. Given a matrix A of size n d an ϵ-se for the column space of A is a matrix S such that for all x R d SAx 2 2 = (1 ± ϵ) Ax Algorithms Returning to the computation of leverage scores, the current state-of-the-art algorithms use JLTs and/or SEs in order to reduce the dimensionality of the data matrix and ultimately perform computations on the resulting matrix which has smaller size.
31 1.2. ALGORITHMS 31 This way the computational complexity is reduced while the values returned are good approximations of the true leverage scores with high probability. In previous work, Holdonak et al. study the conditioning of leverage scores and give perturbation results by computing an orthonormal basis for the column space using the QR decomposition [23]. For large matrices, however, this becomes be a very expensive task. In [30]³ Malik Magdon-Ismail describes an algorithm for approximate computation of statistical leverage scores which achieves computational complexity of o(nd 2 ). The idea pioneered is to use a matrix with random entries (often called a ``sketch'') and multiply it with the data matrix A in order to reduce its dimension and ultimately decrease the computational overhead at the expense of a multiplicative error term in the final result. In [20] Drineas et al. improve the complexity by exploiting properties of the Moore-Penrose generalized inverse and use similar dimensionality reduction techniques. In [13] Clarkson et al. present a new embedding which is extremely sparse; it only requires 1 non-zero element per column. This matrix is very fast to multiply with sparse datasets in comparison to the one in [20]. A drawback is that the dimension of the reduced matrix is Ω(d 2 ) (see [33])⁴ and therefore is more useful on ``extremely tall and thin'' sparse matrices and in streaming environments. An extensive analysis of such algorithms is given in [22]. In this work Gittens et al. propose an algorithm which computes very fast approximations to the leverage scores of the best rank-k spectral approximation of A. Very recently Drineas et al. give bounds for similar low-rank matrix approximations from Krylov subspaces; cf. [19]⁵. We briefly state 2 algorithms from [20] and [22]. ³This work is not published to date. ⁴The original reduced dimension by Clarkson et al. was O(d 4 ) and was later improved to Ω(d 2 ) by Nelson et al. ⁵This work is not published to date.
32 32 CHAPTER 1. INTRODUCTION Algorithm 4 [20] 1: Compute B = SA where S is a SE for the column space of A. 2: Compute the compact SVD of B = UΣV. 3: Use a JLT Π for n 2 vectors and compute C = V Σ 1 Π. 4: Return the row norms of AC. Algorithm 5 [22] 1: Compute B = AΠ where Π is a SE for the best rank-k approximation of A. 2: Compute C = (AA ) q B, where q 0 is an integer. 3: Return the row norms of C. 1.3 Contribution In this thesis we study the advantages and limitations of the algorithms mentioned earlier. Combining ideas from the current state-of-the-art, our contribution is an algorithm which has the following properties: 1. Successfully returns good approximations of leverage scores and the coherence of a full rank tall and thin matrix. 2. Scales well in parallel/distributed environments. 3. Effectively utilizes sparsity. 4. Performs very well in modern computational environments on synthetic and real world problems In our approach the key observation is that leverage scores can be found in the diagonal of the so called hat matrix. Recall that it is the orthogonal projection matrix H = AA or H = A(A A) 1 A if A is full rank. The second equation involves
33 1.3. CONTRIBUTION 33 the solution of the matrix equation A AX = A Note that it consists of n linear systems of size d d. In order to solve such systems we propose to use an iterative method in order to ultimately compute leverage scores. Specifically we propose the use of a Block Conjugate Gradients algorithm (BCG). In order for this approach to be practical we adopt preconditioning techniques from recent literature [4], [32] and use JLTs in order to reduce the number of right hand sides from n to O(ln(n)/ϵ 2 ), where ϵ a small multiplicative error term to the final result. We show that dimensionality reduction and iterative methods can be effectively combined and as a consequence we prove theoretical results concerning the convergence rate of BCG and bounds on the estimations returned. In this Thesis we study several variations of the aforementioned tools. We briefly describe our approach in Algorithm 6. Algorithm 6 Levis 1: Compute B = A Π where Π is a JLT. 2: Compute the SVD of GA = USV, where the elements of G are drawn from N(0, 1). 3: Solve (AN) (AN)Y = N B using an iterative method, where N = V Σ 1 is a preconditioner for A. 4: Return the row norms of AX, where X = NY. In brief, our results are described as follows. 1. We propose an algorithm which provably returns the values θ i and the following inequality is satisfied with high probability θ i θ i (1 + ϵ)θ i + f(ϵ, τ, d),
34 34 CHAPTER 1. INTRODUCTION where f(ϵ, τ, d) is a function of the input parameters ϵ (the estimation accuracy), τ (the convergence tolerance of the iterative method) and d (the small dimension of A). This additive error term is negligible as we will show in the chapters to follow. 2. Constructing a preconditioner as described in steps 2, 3 of Algorithm 6 it can be proved that with probability at least (1 2e α2 γd/2 ) BCG will require at most iterations k log τ log(α + d/m), to converge to a solution with relative residual less than or equal to τ. 3. The computational complexity of the algorithm is approximately O ( nd 2) but the heavier computations can be executed in parallel and utilize the sparsity of A, rendering it practical to use in parallel/distributed environments, outperforming the current state-of-the-art in many cases. 1.4 Some indicative results In Figure 1.2 we present results from our experiments. In this graph we can see the runtimes of a python implementation of Algorithm 6 in an MPI environment. We note that Algorithm 4 is not practical to use for both of these datasets because in order to achieve similar accuracy to that of Algorithm 6 the size of the resulting matrix after the dimensionality reduction is actually larger than A itself.
35 1.5. OUTLINE 35 mesh_deform 10 4 rail4284 time (seconds) Number of MPI processes Figure 1.2: Total runtime for the mesh_deform and rail4284 datasets using 1,2,4 and 8 MPI processes. 1.5 Outline The rest of this thesis is structured as follows. In Chapter 2 we review all the tools that are used by our algorithm and by the current state of the art. We review theoretical properties of randomized embeddings, variations of CG and Block CG algorithms and respective convergence results. We also review various preconditioning techniques. In Chapter 3 we review previous work in detail and compare theoretically to our approach. The first algorithm is based on an framework for estimating the diagonal entries of a matrix. The rest of the algorithms dive more deeply in the randomized embeddings literature and exploit existing results in order to improve computational complexity. We point out the advantages and drawbacks of each algorithm. We also give theoretical analysis for our approach, estimation bounds for the values returned
36 36 CHAPTER 1. INTRODUCTION and the total computational complexity. In Chapter 4 we present experimental results on synthetic and real world datasets. First, we choose input matrices with special structure and properties in order to test our theoretical results in practice and also to tune various input parameters in order to choose appropriate default values. Second we run experiments on synthetic datasets to provide evidence that our algorithm performs in practice as intended. Finally we present our results using sparse real world datasets on a distributed environment. In Chapter 5 we give our concluding remarks and discussion for future work. 1.6 Notation In the chapters to follow we denote by θ i and µ the leverage scores and coherence. Capital letters denote matrices, small letters denote vectors and Greek small letters denote constants. The inner product of two vectors v, u is denoted by v, u. For a vector v, v p denotes the vector p-norm ( v is equivalent to v 2 ). For a matrix A, A (i) is the i-th row as a row vector and A (i), a i is the i-th column as a column vector, A is the transpose of A, A is the Moore-Penrose generalized inverse, trace(a) is the sum of the diagonal entries and range(a) is the column space. Also, A p = sup{ Ax p, x p = 1} is the induced p-norm and κ p (A) = A p A p is the condition number of A w.r.t the p-norm (κ(a) is equivalent to κ 2 (A)). The singular values of A are denoted by σ 1 σ 2... σ r, where r is the rank of A. For a positive integer n, [n] the set of all positive integers up to n, while log(n) is the natural logarithm of any real positive n. By N(0, 1) we denote the standard normal probability distribution and P[a] [0, 1] denotes the probability of event a to happen. E[x] denotes the expectation of a random variable x and V ar[x] is its variance. We denote by the element-wise multiplication between two vectors and by the element-wise division.
37 Chapter 2 Dimensionality reduction Datasets in modern applications tend to increase in size rapidly. In the era of Big Data, dimensionality reduction is a key ingredient to analyze large datasets. Sketching is a very powerful tool in modern algorithms for numerical linear algebra. Many state of the art algorithms use randomized embeddings to speed up computations while returning a good approximation of the true solution with high probability. Some applications include regression, low rank approximations and graph sparsification [15], [31], [45]. In this section we review a few of these tools and properties that will be later used in our analysis. Taking A R n d a tall and thin matrix, there exists a linear map B from R n R d such that for every x, y in range(a) the following holds B(x y) 2 2 = x y 2 2 This embedding comes immediately from the thin QR decomposition of A. Take A = QR, Q R n d has orthonormal columns, and R R d d is upper triangular. The Euclidean distance between any two vectors in range(a) gives Ax Ay 2 2 = A(x y) 2 2 = QR(x y) 2 2 = R(x y)
38 38 CHAPTER 2. DIMENSIONALITY REDUCTION the last equality holding because Q has orthonormal columns. It also holds that Q A = Q QR Q A = R Thus Q is a linear map that preserves pairwise distances in range(a) since A(x y) 2 2 = R(x y) 2 2 = Q A(x y) 2 2 The intuition behind this equality is that, since the columns of A form a subspace of dimension no more than d, then there exists a rotation of this subspace such that it's orthonormal basis will be d canonical vectors. Q performs this rotation. This is not practical, however, because the cost of computation and also because Q is not oblivious, which means that is dependent on the input and will not be useful for other matrices than A, except if they share the same column space. 2.1 Johnson-Lindenstrauss transforms The Johnson-Lindenstrauss lemma [26] states that n vectors in R d can be mapped down to O(log n) dimensions while the inner products will be preserved up to some multiplicative error. We give the following definition for a Johnson-Lindenstrauss transform (JLT). Definition 4. A random matrix Π of size r n forms a Johnson-Lindenstrauss transform with parameters ϵ, δ, f, or JLT(ϵ, δ, f), if with probability at least 1 δ, for any f-element subset V of R n, for all v, w V it holds that Πv, Πw v, w ϵ v 2 w 2. In [25] a JLT is constructed as a r n matrix where the elements are independent standard normal random variables, scaled by 1/ r. More formally
39 2.1. JOHNSON-LINDENSTRAUSS TRANSFORMS 39 Definition 5 (GJLT [25]). Let V a set of n vectors v i R d,i [n]. Let Π be a 4 log n r d matrix with i.i.d entries drawn from N(0, 1) and r ϵ 2 /2 ϵ 3, with /3 ϵ (0, 1/2). Then, with probability at least 1 1/n, for all pairs v, w V (1 ϵ) v w 2 2 Π(v w) 2 2 (1 + ϵ) v w 2 2. Since then many improvements and refinements have been proposed; cf. [2], [16], [28], [34]. See [45], [7] for a detailed review. Achlioptas in [2] presents two distributions of matrices which form JLTs. Definition 6 ([2]). Take V a set of n vectors v i R d,i [n] and parameters ϵ, δ 4 log n + 2 log 1 δ (0, 1). Let Π be a r d matrix with r ϵ 2 /2 ϵ 3. Each element π of Π /3 is drawn independently from either one of the following two probability distributions and rescaled by 1/ r: +1 w.p. 1/2 π = 1 w.p. 1/2 (RJLT) +1 w.p. 1/6 π = 1 w.p. 1/6 0 w.p. 2/3 (SJLT) Then, with probability at least 1 δ (1 ϵ) v i 2 2 Πv i 2 2 (1 + ϵ) v i 2 2 For the RJLT it is easy to prove that E[Π Π] = I d (2.1) and V ar[π Π] = (d/r 1)I d (2.2)
40 40 CHAPTER 2. DIMENSIONALITY REDUCTION 2.2 Subspace embeddings JLTs preserve the pairwise dot products of a set with finite number of elements. Subspace embeddings, on the other hand, preserve pairwise distances between vectors from a whole subspace of R n. Definition 7 (Subspace embedding). Given a matrix A of size n d an ϵ-subspace embedding for the column space of A is a matrix S such that for all x R d SAx 2 2 = (1 ± ϵ) Ax 2 2. One can assume without loss of generality that A has orthonormal columns, call it U, then the definition above can be simplified to I d U S SU 2 ϵ, (2.3) where I n is the n n size identity matrix and U is a matrix with orthonormal columns (i.e. an orthonormal basis for range(a)). For more details see Chapter 2 in [45]. Of much interest are the Oblivious Subspace Embeddings (OSE), which are random matrices drawn from a distribution such that with high probability they will form an ϵ-subspace embedding, independent from the input. Definition 8 (OSE). Given input parameters n, d, ϵ, δ let Π be a distribution on r n size matrices S where r is a function of n, d, ϵ, δ. Π will be called an (ϵ, δ)-oblivious subspace embedding if S, drawn from Π, is an ϵ-subspace embedding for any fixed n d matrix A with probability at least 1 δ. Henceforth, for brevity, the term subspace embedding will denote an (ϵ, δ)-ose in l 2. In general ϵ is desired to be small. Ideally, S should be chosen s.t. I U S SU is minimized. Subspace embeddings can be constructed through JLTs as first proposed in [40].
41 2.2. SUBSPACE EMBEDDINGS 41 Many of these analyses also aim to keeping S sparse. This is desirable for two reasons, first because Sx can be computed very fast and second to reduce the memory overhead. It is worth noting, however, that it is possible to apply Sx fast without S being sparse (e.g. the Fast JLT in [3]) Subsampled Randomized Hadamard Transform The following theorem defines the Subsampled Randomized Hadamard Transform. (See [3],[20],[42],[45]). Theorem 1. (Subsampled Randomized Hadamard Transform) n Let S = r P H nd where D is an n n diagonal matrix with i.i.d. diagonal entries D (i,i) in which D ( i, i) = ±1 with probability 1/2. H n is a Walsh-Hadamard matrix of size n¹, i.e. H n (i, j) is given by ( 1/ n) i 1,j 1 where i 1, j 1 is the dot product of the m-bit vectors i, j expressed in binary. The r n matrix P samples r coordinates of an n-dimensional vector uniformly at random, where r d log ( ) 2d δ ϵ 2 Then with probability at least 1 (δ + n e d ) for any fixed n d matrix U with orthonormal columns, I d U S SU 2 ϵ. Moreover, Sx can be computed in O(n log r), x R n. The expectation and variance of S S are given by ( ) n E[S S] = I n, V ar[s 2 S] = r 2 1 I n (2.4) ¹Note that n has to be equal to 1, 2, 4k where k N.
42 42 CHAPTER 2. DIMENSIONALITY REDUCTION Sparse Embedding Matrix While O(n log r) is much faster than the standard O(nr) that is required for a matrix-vector multiplication, in [45] it has been shown that there exist subspace embeddings s.t. Sx can be computed in O(n). The number of required rows was improved in [34]. The key idea is that the vectors we want to embed is not an arbitrary set of vectors in R n but rather a specific set of vectors coming from the column space of A. Theorem 2. (Sparse Embedding Matrix) Let h : [n] [r] be a random map s.t. i [n], h(i) = k for k [t] distributed uniformly. Let S = ΦD where Φ {0, 1} r n is a binary matrix with Φ h(i),i = 1, i [n], and all the other entries of the matrix are equal to 0. D is a n n diagonal matrix where the diagonal elements are +1, 1 with probability 1/2 chosen independently. If r d2 + d δ(2ϵ ϵ 2 ) 2 then for any fixed n d matrix A, S will be a subspace embedding for the column space of A with probability at least 1 δ while SA can be computed in O(nnz(A)) time. The expectation and variance of S S are given by E[S S] = I n + 1 r (ee I n ), V ar[s S] = rn + r 1 r 2 I n n r I n (2.5) Matrix In Table 2.1 we sum up properties for the SRHT and the Sparse Embedding
43 2.2. SUBSPACE EMBEDDINGS 43 Table 2.1: Subspace embeddings for fixed matrix A R n d with n d and input parameters ϵ, δ. type min{r} E[S S] C = V ar[s S] SA time ( (log d)( d + ) log n) 2 ( n ) SRHT Ω I n r 1 I n O(nd log n) ϵ 2 SEM O(d 2 /(δϵ 2 )) I n + 1 r (ee I n ) rn + r 1 r 2 I n O(nnz(A))
44 44 CHAPTER 2. DIMENSIONALITY REDUCTION
45 Chapter 3 Least squares problems with multiple right hand sides Assuming a tall and skinny matrix A R n d of full column rank and a vector b R n, let x denote the unconstrained least squares solution x = arg min x Ax b 2. (3.1) For the case of the least squares problems with multiple right hand sides we are interested in solving X = {[x 1, x 2,..., x r] x i = arg min x i b i Ax i 2, i [r]}. (3.2) The solution is given by X = A B or equivalently X = (A A) 1 A B since A is not rank deficient. 3.1 Rank deficiency and leverage scores computation At this point we want to make a few comments concerning rank deficiency of the input data. We point out that in [20] the authors also consider the input is a full col- 45
46 46 CHAPTER 3. LEAST SQUARES WITH MRHS. umn rank matrix. They note, however, that theoretically there exists a straightforward approach to handle rank deficiency but it is left as future work to examine numerical rank deficiency, which is a common phenomenon in real world applications. We point out that our approach is not designed to handle numerical rank deficiency and we provide experimental results to support it. In [23] the authors give bounds for the relative accuracy of individual leverage scores by computing using QR decomposition. They point out that there exist applications where, in practice, a truncated SVD should be used to handle numerical rank deficiency. Our algorithm is not designed to successfully be used on ill conditioned datasets but it is possible to receive knowledge and terminate to use another algorithm in such occasions. 3.2 Solving each system independently A naive approach is to use Conjugate Gradients to solve each system separately, i.e. i [r] solve A Ax i = (A (i) ). We give an algorithmic description in Algorithm Complexity In each iteration the dominant complexity factor is a matrix-vector multiplication with A. This takes O(nd) computations. A well known convergence result of the CG method states that the following inequality holds for the error term e k = x x k after iteration k ( ) k x k x M κ(m) 1 x 0 x 2 (3.3) M κ(m) + 1 Given tolerance τ such that x 0 x M τ x 0 x M then
47 3.3. BLOCK-CG 47 Algorithm 7 CGLS (A, b, x 0, τ) Input: A, b, x 0, τ Output: x i 1: Set r 0 = A b A Ax 0 2: Set p 0 = r 0 3: set i = 0 4: repeat 5: α i = r i 2 2 p i A A 6: x i+1 = x i + p i α i 7: r i+1 = r i α i A Ap i 8: β i = r i r i 2 2 9: p i+1 = r i+1 + β i p i 10: i = i : until r i+1 / r 0 τ 12: return x i. k 1 1 κ(m) log 2 τ (3.4) iterations suffice in exact arithmetic. Replacing M with A A we get k 1 κ(a 2 A) log 1 1 = τ 2 κ(a) log 1 τ (3.5) 3.3 Block-CG In [36] analysis is given for the Block Conjugate Gradients (BCG) algorithm and variations. Instead of solving each linear system separately a block-krylov subspace
48 48 CHAPTER 3. LEAST SQUARES WITH MRHS. Algorithm 8 MRHS-CGLS (A, Z, X 0, τ) Input: A, Z = {z (1), z (2),..., z (r) }, X 0 = {x (1) Output: X 1: for i = 1,..., r do 2: Set x (i) = CGLS(A, z (i), x (i) 0, τ) 3: end for 4: return X = {x (1), x (2),..., x (r) } 0, x(2) 0,..., x(r) 0 }, τ is formed instead. We denote by K m a block Krylov subspace of order m, i.e. K m = {Z, MZ, M 2 Z,..., M m 1 Z}. In each iteration i a new block-solution X i is chosen to minimize tr[(x i X) M(X i X)] over all X i such that X i X 0 K i and X is the true solution of MX = Z. We give an algorithmic description in Algorithm 9 for the case where M = A A Complexity The number of iterations required for such method is described by Lemma 1; cf. [36]. PBCG has the following costs per iteration. We mark with ( ) those which contribute the most to the overall computational cost. 3 (2d 1)r 2 flops, MM between direction/residual blocks 2 O(r 3 ) flops, Computing the pseudoinverse of r r matrices ( ) 2 (2d 1)dr flops, MM between N and direction blocks ( ) 2 (2d 1)nr flops, MM between A and direction blocks 3 (2r 1)dr flops, MM between direction block and α, β 3 dr flops, Updating solution, residual and direction blocks Lemma 1. After iteration k of Algorithm 9 the error of the i-th right hand side is
Other Test Constructions: Likelihood Ratio & Bayes Tests
Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :
Διαβάστε περισσότεραNumerical Analysis FMN011
Numerical Analysis FMN011 Carmen Arévalo Lund University carmen@maths.lth.se Lecture 12 Periodic data A function g has period P if g(x + P ) = g(x) Model: Trigonometric polynomial of order M T M (x) =
Διαβάστε περισσότερα2 Composition. Invertible Mappings
Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,
Διαβάστε περισσότεραLecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3
Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 1 State vector space and the dual space Space of wavefunctions The space of wavefunctions is the set of all
Διαβάστε περισσότεραEE512: Error Control Coding
EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3
Διαβάστε περισσότεραST5224: Advanced Statistical Theory II
ST5224: Advanced Statistical Theory II 2014/2015: Semester II Tutorial 7 1. Let X be a sample from a population P and consider testing hypotheses H 0 : P = P 0 versus H 1 : P = P 1, where P j is a known
Διαβάστε περισσότεραSCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions
SCHOOL OF MATHEMATICAL SCIENCES GLMA Linear Mathematics 00- Examination Solutions. (a) i. ( + 5i)( i) = (6 + 5) + (5 )i = + i. Real part is, imaginary part is. (b) ii. + 5i i ( + 5i)( + i) = ( i)( + i)
Διαβάστε περισσότεραHomework 3 Solutions
Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For
Διαβάστε περισσότεραSection 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
Διαβάστε περισσότεραCHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS
CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =
Διαβάστε περισσότεραk A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +
Chapter 3. Fuzzy Arithmetic 3- Fuzzy arithmetic: ~Addition(+) and subtraction (-): Let A = [a and B = [b, b in R If x [a and y [b, b than x+y [a +b +b Symbolically,we write A(+)B = [a (+)[b, b = [a +b
Διαβάστε περισσότεραReminders: linear functions
Reminders: linear functions Let U and V be vector spaces over the same field F. Definition A function f : U V is linear if for every u 1, u 2 U, f (u 1 + u 2 ) = f (u 1 ) + f (u 2 ), and for every u U
Διαβάστε περισσότεραMatrices and Determinants
Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z
Διαβάστε περισσότερα6.3 Forecasting ARMA processes
122 CHAPTER 6. ARMA MODELS 6.3 Forecasting ARMA processes The purpose of forecasting is to predict future values of a TS based on the data collected to the present. In this section we will discuss a linear
Διαβάστε περισσότεραOrdinal Arithmetic: Addition, Multiplication, Exponentiation and Limit
Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit Ting Zhang Stanford May 11, 2001 Stanford, 5/11/2001 1 Outline Ordinal Classification Ordinal Addition Ordinal Multiplication Ordinal
Διαβάστε περισσότεραProblem Set 3: Solutions
CMPSCI 69GG Applied Information Theory Fall 006 Problem Set 3: Solutions. [Cover and Thomas 7.] a Define the following notation, C I p xx; Y max X; Y C I p xx; Ỹ max I X; Ỹ We would like to show that C
Διαβάστε περισσότερα6.1. Dirac Equation. Hamiltonian. Dirac Eq.
6.1. Dirac Equation Ref: M.Kaku, Quantum Field Theory, Oxford Univ Press (1993) η μν = η μν = diag(1, -1, -1, -1) p 0 = p 0 p = p i = -p i p μ p μ = p 0 p 0 + p i p i = E c 2 - p 2 = (m c) 2 H = c p 2
Διαβάστε περισσότεραExample Sheet 3 Solutions
Example Sheet 3 Solutions. i Regular Sturm-Liouville. ii Singular Sturm-Liouville mixed boundary conditions. iii Not Sturm-Liouville ODE is not in Sturm-Liouville form. iv Regular Sturm-Liouville note
Διαβάστε περισσότεραMatrices and vectors. Matrix and vector. a 11 a 12 a 1n a 21 a 22 a 2n A = b 1 b 2. b m. R m n, b = = ( a ij. a m1 a m2 a mn. def
Matrices and vectors Matrix and vector a 11 a 12 a 1n a 21 a 22 a 2n A = a m1 a m2 a mn def = ( a ij ) R m n, b = b 1 b 2 b m Rm Matrix and vectors in linear equations: example E 1 : x 1 + x 2 + 3x 4 =
Διαβάστε περισσότεραStatistical Inference I Locally most powerful tests
Statistical Inference I Locally most powerful tests Shirsendu Mukherjee Department of Statistics, Asutosh College, Kolkata, India. shirsendu st@yahoo.co.in So far we have treated the testing of one-sided
Διαβάστε περισσότεραC.S. 430 Assignment 6, Sample Solutions
C.S. 430 Assignment 6, Sample Solutions Paul Liu November 15, 2007 Note that these are sample solutions only; in many cases there were many acceptable answers. 1 Reynolds Problem 10.1 1.1 Normal-order
Διαβάστε περισσότεραPhys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)
Phys460.nb 81 ψ n (t) is still the (same) eigenstate of H But for tdependent H. The answer is NO. 5.5.5. Solution for the tdependent Schrodinger s equation If we assume that at time t 0, the electron starts
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή
Διαβάστε περισσότερα= λ 1 1 e. = λ 1 =12. has the properties e 1. e 3,V(Y
Stat 50 Homework Solutions Spring 005. (a λ λ λ 44 (b trace( λ + λ + λ 0 (c V (e x e e λ e e λ e (λ e by definition, the eigenvector e has the properties e λ e and e e. (d λ e e + λ e e + λ e e 8 6 4 4
Διαβάστε περισσότεραFractional Colorings and Zykov Products of graphs
Fractional Colorings and Zykov Products of graphs Who? Nichole Schimanski When? July 27, 2011 Graphs A graph, G, consists of a vertex set, V (G), and an edge set, E(G). V (G) is any finite set E(G) is
Διαβάστε περισσότεραThe Probabilistic Method - Probabilistic Techniques. Lecture 7: The Janson Inequality
The Probabilistic Method - Probabilistic Techniques Lecture 7: The Janson Inequality Sotiris Nikoletseas Associate Professor Computer Engineering and Informatics Department 2014-2015 Sotiris Nikoletseas,
Διαβάστε περισσότεραTMA4115 Matematikk 3
TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet
Διαβάστε περισσότεραNew bounds for spherical two-distance sets and equiangular lines
New bounds for spherical two-distance sets and equiangular lines Michigan State University Oct 8-31, 016 Anhui University Definition If X = {x 1, x,, x N } S n 1 (unit sphere in R n ) and x i, x j = a
Διαβάστε περισσότεραHOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:
HOMEWORK 4 Problem a For the fast loading case, we want to derive the relationship between P zz and λ z. We know that the nominal stress is expressed as: P zz = ψ λ z where λ z = λ λ z. Therefore, applying
Διαβάστε περισσότεραPartial Differential Equations in Biology The boundary element method. March 26, 2013
The boundary element method March 26, 203 Introduction and notation The problem: u = f in D R d u = ϕ in Γ D u n = g on Γ N, where D = Γ D Γ N, Γ D Γ N = (possibly, Γ D = [Neumann problem] or Γ N = [Dirichlet
Διαβάστε περισσότεραCongruence Classes of Invertible Matrices of Order 3 over F 2
International Journal of Algebra, Vol. 8, 24, no. 5, 239-246 HIKARI Ltd, www.m-hikari.com http://dx.doi.org/.2988/ija.24.422 Congruence Classes of Invertible Matrices of Order 3 over F 2 Ligong An and
Διαβάστε περισσότεραΜηχανική Μάθηση Hypothesis Testing
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider
Διαβάστε περισσότεραSrednicki Chapter 55
Srednicki Chapter 55 QFT Problems & Solutions A. George August 3, 03 Srednicki 55.. Use equations 55.3-55.0 and A i, A j ] = Π i, Π j ] = 0 (at equal times) to verify equations 55.-55.3. This is our third
Διαβάστε περισσότεραBayesian statistics. DS GA 1002 Probability and Statistics for Data Science.
Bayesian statistics DS GA 1002 Probability and Statistics for Data Science http://www.cims.nyu.edu/~cfgranda/pages/dsga1002_fall17 Carlos Fernandez-Granda Frequentist vs Bayesian statistics In frequentist
Διαβάστε περισσότεραNowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in
Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in : tail in X, head in A nowhere-zero Γ-flow is a Γ-circulation such that
Διαβάστε περισσότεραΠαράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ
Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Διπλωματική Εργασία Μεταπτυχιακού Προγράμματος στην Εφαρμοσμένη Πληροφορική Κατεύθυνση: Συστήματα Υπολογιστών
Διαβάστε περισσότεραSolution Series 9. i=1 x i and i=1 x i.
Lecturer: Prof. Dr. Mete SONER Coordinator: Yilin WANG Solution Series 9 Q1. Let α, β >, the p.d.f. of a beta distribution with parameters α and β is { Γ(α+β) Γ(α)Γ(β) f(x α, β) xα 1 (1 x) β 1 for < x
Διαβάστε περισσότεραConcrete Mathematics Exercises from 30 September 2016
Concrete Mathematics Exercises from 30 September 2016 Silvio Capobianco Exercise 1.7 Let H(n) = J(n + 1) J(n). Equation (1.8) tells us that H(2n) = 2, and H(2n+1) = J(2n+2) J(2n+1) = (2J(n+1) 1) (2J(n)+1)
Διαβάστε περισσότερα3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β
3.4 SUM AND DIFFERENCE FORMULAS Page Theorem cos(αβ cos α cos β -sin α cos(α-β cos α cos β sin α NOTE: cos(αβ cos α cos β cos(α-β cos α -cos β Proof of cos(α-β cos α cos β sin α Let s use a unit circle
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
Διαβάστε περισσότεραSecond Order Partial Differential Equations
Chapter 7 Second Order Partial Differential Equations 7.1 Introduction A second order linear PDE in two independent variables (x, y Ω can be written as A(x, y u x + B(x, y u xy + C(x, y u u u + D(x, y
Διαβάστε περισσότεραΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΑΝΑΛΥΣΗ ΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΧΡΕΟΚΟΠΙΑΣ ΚΑΙ ΤΩΝ
Διαβάστε περισσότεραChapter 6: Systems of Linear Differential. be continuous functions on the interval
Chapter 6: Systems of Linear Differential Equations Let a (t), a 2 (t),..., a nn (t), b (t), b 2 (t),..., b n (t) be continuous functions on the interval I. The system of n first-order differential equations
Διαβάστε περισσότεραThe Simply Typed Lambda Calculus
Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and
Διαβάστε περισσότεραMath 6 SL Probability Distributions Practice Test Mark Scheme
Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry
Διαβάστε περισσότεραEvery set of first-order formulas is equivalent to an independent set
Every set of first-order formulas is equivalent to an independent set May 6, 2008 Abstract A set of first-order formulas, whatever the cardinality of the set of symbols, is equivalent to an independent
Διαβάστε περισσότεραApproximation of distance between locations on earth given by latitude and longitude
Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth
Διαβάστε περισσότεραforms This gives Remark 1. How to remember the above formulas: Substituting these into the equation we obtain with
Week 03: C lassification of S econd- Order L inear Equations In last week s lectures we have illustrated how to obtain the general solutions of first order PDEs using the method of characteristics. We
Διαβάστε περισσότεραAreas and Lengths in Polar Coordinates
Kiryl Tsishchanka Areas and Lengths in Polar Coordinates In this section we develop the formula for the area of a region whose boundary is given by a polar equation. We need to use the formula for the
Διαβάστε περισσότεραAreas and Lengths in Polar Coordinates
Kiryl Tsishchanka Areas and Lengths in Polar Coordinates In this section we develop the formula for the area of a region whose boundary is given by a polar equation. We need to use the formula for the
Διαβάστε περισσότεραSolutions to Exercise Sheet 5
Solutions to Eercise Sheet 5 jacques@ucsd.edu. Let X and Y be random variables with joint pdf f(, y) = 3y( + y) where and y. Determine each of the following probabilities. Solutions. a. P (X ). b. P (X
Διαβάστε περισσότεραPARTIAL NOTES for 6.1 Trigonometric Identities
PARTIAL NOTES for 6.1 Trigonometric Identities tanθ = sinθ cosθ cotθ = cosθ sinθ BASIC IDENTITIES cscθ = 1 sinθ secθ = 1 cosθ cotθ = 1 tanθ PYTHAGOREAN IDENTITIES sin θ + cos θ =1 tan θ +1= sec θ 1 + cot
Διαβάστε περισσότεραderivation of the Laplacian from rectangular to spherical coordinates
derivation of the Laplacian from rectangular to spherical coordinates swapnizzle 03-03- :5:43 We begin by recognizing the familiar conversion from rectangular to spherical coordinates (note that φ is used
Διαβάστε περισσότεραES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems
ES440/ES911: CFD Chapter 5. Solution of Linear Equation Systems Dr Yongmann M. Chung http://www.eng.warwick.ac.uk/staff/ymc/es440.html Y.M.Chung@warwick.ac.uk School of Engineering & Centre for Scientific
Διαβάστε περισσότεραSection 9.2 Polar Equations and Graphs
180 Section 9. Polar Equations and Graphs In this section, we will be graphing polar equations on a polar grid. In the first few examples, we will write the polar equation in rectangular form to help identify
Διαβάστε περισσότεραJesse Maassen and Mark Lundstrom Purdue University November 25, 2013
Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering
Διαβάστε περισσότεραStatistics 104: Quantitative Methods for Economics Formula and Theorem Review
Harvard College Statistics 104: Quantitative Methods for Economics Formula and Theorem Review Tommy MacWilliam, 13 tmacwilliam@college.harvard.edu March 10, 2011 Contents 1 Introduction to Data 5 1.1 Sample
Διαβάστε περισσότεραΑπόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.
Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο The time integral of a force is referred to as impulse, is determined by and is obtained from: Newton s 2 nd Law of motion states that the action
Διαβάστε περισσότεραThe challenges of non-stable predicates
The challenges of non-stable predicates Consider a non-stable predicate Φ encoding, say, a safety property. We want to determine whether Φ holds for our program. The challenges of non-stable predicates
Διαβάστε περισσότεραTridiagonal matrices. Gérard MEURANT. October, 2008
Tridiagonal matrices Gérard MEURANT October, 2008 1 Similarity 2 Cholesy factorizations 3 Eigenvalues 4 Inverse Similarity Let α 1 ω 1 β 1 α 2 ω 2 T =......... β 2 α 1 ω 1 β 1 α and β i ω i, i = 1,...,
Διαβάστε περισσότεραCHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS
CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS EXERCISE 01 Page 545 1. Use matrices to solve: 3x + 4y x + 5y + 7 3x + 4y x + 5y 7 Hence, 3 4 x 0 5 y 7 The inverse of 3 4 5 is: 1 5 4 1 5 4 15 8 3
Διαβάστε περισσότεραSection 7.6 Double and Half Angle Formulas
09 Section 7. Double and Half Angle Fmulas To derive the double-angles fmulas, we will use the sum of two angles fmulas that we developed in the last section. We will let α θ and β θ: cos(θ) cos(θ + θ)
Διαβάστε περισσότεραUniform Convergence of Fourier Series Michael Taylor
Uniform Convergence of Fourier Series Michael Taylor Given f L 1 T 1 ), we consider the partial sums of the Fourier series of f: N 1) S N fθ) = ˆfk)e ikθ. k= N A calculation gives the Dirichlet formula
Διαβάστε περισσότεραA Note on Intuitionistic Fuzzy. Equivalence Relation
International Mathematical Forum, 5, 2010, no. 67, 3301-3307 A Note on Intuitionistic Fuzzy Equivalence Relation D. K. Basnet Dept. of Mathematics, Assam University Silchar-788011, Assam, India dkbasnet@rediffmail.com
Διαβάστε περισσότεραΠρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις
Διαβάστε περισσότεραSCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018
Journal of rogressive Research in Mathematics(JRM) ISSN: 2395-028 SCITECH Volume 3, Issue 2 RESEARCH ORGANISATION ublished online: March 29, 208 Journal of rogressive Research in Mathematics www.scitecresearch.com/journals
Διαβάστε περισσότεραEstimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University
Estimation for ARMA Processes with Stable Noise Matt Calder & Richard A. Davis Colorado State University rdavis@stat.colostate.edu 1 ARMA processes with stable noise Review of M-estimation Examples of
Διαβάστε περισσότεραEcon 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1
Eon : Fall 8 Suggested Solutions to Problem Set 8 Email questions or omments to Dan Fetter Problem. Let X be a salar with density f(x, θ) (θx + θ) [ x ] with θ. (a) Find the most powerful level α test
Διαβάστε περισσότεραInverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- -----------------
Inverse trigonometric functions & General Solution of Trigonometric Equations. 1. Sin ( ) = a) b) c) d) Ans b. Solution : Method 1. Ans a: 17 > 1 a) is rejected. w.k.t Sin ( sin ) = d is rejected. If sin
Διαβάστε περισσότεραFigure A.2: MPC and MPCP Age Profiles (estimating ρ, ρ = 2, φ = 0.03)..
Supplemental Material (not for publication) Persistent vs. Permanent Income Shocks in the Buffer-Stock Model Jeppe Druedahl Thomas H. Jørgensen May, A Additional Figures and Tables Figure A.: Wealth and
Διαβάστε περισσότερα5.4 The Poisson Distribution.
The worst thing you can do about a situation is nothing. Sr. O Shea Jackson 5.4 The Poisson Distribution. Description of the Poisson Distribution Discrete probability distribution. The random variable
Διαβάστε περισσότεραLecture 15 - Root System Axiomatics
Lecture 15 - Root System Axiomatics Nov 1, 01 In this lecture we examine root systems from an axiomatic point of view. 1 Reflections If v R n, then it determines a hyperplane, denoted P v, through the
Διαβάστε περισσότεραAbstract Storage Devices
Abstract Storage Devices Robert König Ueli Maurer Stefano Tessaro SOFSEM 2009 January 27, 2009 Outline 1. Motivation: Storage Devices 2. Abstract Storage Devices (ASD s) 3. Reducibility 4. Factoring ASD
Διαβάστε περισσότεραMain source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1
Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 A Brief History of Sampling Research 1915 - Edmund Taylor Whittaker (1873-1956) devised a
Διαβάστε περισσότεραFinite Field Problems: Solutions
Finite Field Problems: Solutions 1. Let f = x 2 +1 Z 11 [x] and let F = Z 11 [x]/(f), a field. Let Solution: F =11 2 = 121, so F = 121 1 = 120. The possible orders are the divisors of 120. Solution: The
Διαβάστε περισσότεραb. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!
MTH U341 urface Integrals, tokes theorem, the divergence theorem To be turned in Wed., Dec. 1. 1. Let be the sphere of radius a, x 2 + y 2 + z 2 a 2. a. Use spherical coordinates (with ρ a) to parametrize.
Διαβάστε περισσότεραΔιπλωματική Εργασία. του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία του φοιτητή του
Διαβάστε περισσότερα4.6 Autoregressive Moving Average Model ARMA(1,1)
84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this
Διαβάστε περισσότεραSecond Order RLC Filters
ECEN 60 Circuits/Electronics Spring 007-0-07 P. Mathys Second Order RLC Filters RLC Lowpass Filter A passive RLC lowpass filter (LPF) circuit is shown in the following schematic. R L C v O (t) Using phasor
Διαβάστε περισσότεραω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω
0 1 2 3 4 5 6 ω ω + 1 ω + 2 ω + 3 ω + 4 ω2 ω2 + 1 ω2 + 2 ω2 + 3 ω3 ω3 + 1 ω3 + 2 ω4 ω4 + 1 ω5 ω 2 ω 2 + 1 ω 2 + 2 ω 2 + ω ω 2 + ω + 1 ω 2 + ω2 ω 2 2 ω 2 2 + 1 ω 2 2 + ω ω 2 3 ω 3 ω 3 + 1 ω 3 + ω ω 3 +
Διαβάστε περισσότεραHomework 8 Model Solution Section
MATH 004 Homework Solution Homework 8 Model Solution Section 14.5 14.6. 14.5. Use the Chain Rule to find dz where z cosx + 4y), x 5t 4, y 1 t. dz dx + dy y sinx + 4y)0t + 4) sinx + 4y) 1t ) 0t + 4t ) sinx
Διαβάστε περισσότεραLecture 2. Soundness and completeness of propositional logic
Lecture 2 Soundness and completeness of propositional logic February 9, 2004 1 Overview Review of natural deduction. Soundness and completeness. Semantics of propositional formulas. Soundness proof. Completeness
Διαβάστε περισσότεραHISTOGRAMS AND PERCENTILES What is the 25 th percentile of a histogram? What is the 50 th percentile for the cigarette histogram?
HISTOGRAMS AND PERCENTILES What is the 25 th percentile of a histogram? The point on the horizontal axis such that of the area under the histogram lies to the left of that point (and to the right) What
Διαβάστε περισσότεραDERIVATION OF MILES EQUATION FOR AN APPLIED FORCE Revision C
DERIVATION OF MILES EQUATION FOR AN APPLIED FORCE Revision C By Tom Irvine Email: tomirvine@aol.com August 6, 8 Introduction The obective is to derive a Miles equation which gives the overall response
Διαβάστε περισσότεραPhysical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.
B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs
Διαβάστε περισσότεραLecture 13 - Root Space Decomposition II
Lecture 13 - Root Space Decomposition II October 18, 2012 1 Review First let us recall the situation. Let g be a simple algebra, with maximal toral subalgebra h (which we are calling a CSA, or Cartan Subalgebra).
Διαβάστε περισσότεραΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ
Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Ηλίας Κωνσταντίνου Λεμεσός,
Διαβάστε περισσότεραParametrized Surfaces
Parametrized Surfaces Recall from our unit on vector-valued functions at the beginning of the semester that an R 3 -valued function c(t) in one parameter is a mapping of the form c : I R 3 where I is some
Διαβάστε περισσότερα( ) 2 and compare to M.
Problems and Solutions for Section 4.2 4.9 through 4.33) 4.9 Calculate the square root of the matrix 3!0 M!0 8 Hint: Let M / 2 a!b ; calculate M / 2!b c ) 2 and compare to M. Solution: Given: 3!0 M!0 8
Διαβάστε περισσότεραw o = R 1 p. (1) R = p =. = 1
Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών ΗΥ-570: Στατιστική Επεξεργασία Σήµατος 205 ιδάσκων : Α. Μουχτάρης Τριτη Σειρά Ασκήσεων Λύσεις Ασκηση 3. 5.2 (a) From the Wiener-Hopf equation we have:
Διαβάστε περισσότεραCommutative Monoids in Intuitionistic Fuzzy Sets
Commutative Monoids in Intuitionistic Fuzzy Sets S K Mala #1, Dr. MM Shanmugapriya *2 1 PhD Scholar in Mathematics, Karpagam University, Coimbatore, Tamilnadu- 641021 Assistant Professor of Mathematics,
Διαβάστε περισσότεραCapacitors - Capacitance, Charge and Potential Difference
Capacitors - Capacitance, Charge and Potential Difference Capacitors store electric charge. This ability to store electric charge is known as capacitance. A simple capacitor consists of 2 parallel metal
Διαβάστε περισσότεραMath221: HW# 1 solutions
Math: HW# solutions Andy Royston October, 5 7.5.7, 3 rd Ed. We have a n = b n = a = fxdx = xdx =, x cos nxdx = x sin nx n sin nxdx n = cos nx n = n n, x sin nxdx = x cos nx n + cos nxdx n cos n = + sin
Διαβάστε περισσότεραDurbin-Levinson recursive method
Durbin-Levinson recursive method A recursive method for computing ϕ n is useful because it avoids inverting large matrices; when new data are acquired, one can update predictions, instead of starting again
Διαβάστε περισσότεραQueensland University of Technology Transport Data Analysis and Modeling Methodologies
Queensland University of Technology Transport Data Analysis and Modeling Methodologies Lab Session #7 Example 5.2 (with 3SLS Extensions) Seemingly Unrelated Regression Estimation and 3SLS A survey of 206
Διαβάστε περισσότεραPractice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1
Conceptual Questions. State a Basic identity and then verify it. a) Identity: Solution: One identity is cscθ) = sinθ) Practice Exam b) Verification: Solution: Given the point of intersection x, y) of the
Διαβάστε περισσότεραΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην
ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Πληροφορικής Εξεταστική Επιτροπή από την Χαρά Παπαγεωργίου
Διαβάστε περισσότεραFourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics
Fourier Series MATH 211, Calculus II J. Robert Buchanan Department of Mathematics Spring 2018 Introduction Not all functions can be represented by Taylor series. f (k) (c) A Taylor series f (x) = (x c)
Διαβάστε περισσότεραProbability and Random Processes (Part II)
Probability and Random Processes (Part II) 1. If the variance σ x of d(n) = x(n) x(n 1) is one-tenth the variance σ x of a stationary zero-mean discrete-time signal x(n), then the normalized autocorrelation
Διαβάστε περισσότερα