Αριθµητικές Μέθοδοι Collocation. Απεικόνιση σε Σύγχρονες Υπολογιστικές Αρχιτεκτονικές

Σχετικά έγγραφα
Πανεπιστήμιο Θεσσαλίας Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων

GPU DD Double-Double 3 4 BLAS Basic Linear Algebra Subprograms [3] 2

Discontinuous Hermite Collocation and Diagonally Implicit RK3 for a Brain Tumour Invasion Model

Τεχνική Έκθεση Παράλληλη επαναληπτική επίλυση των Collocation εξισώσεων σε γραφικά υποσυστήματα GPUs... 3

ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems

GPGPU. Grover. On Large Scale Simulation of Grover s Algorithm by Using GPGPU

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

EE512: Error Control Coding

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ. Άσκηση 5: Παράλληλος προγραμματισμός σε επεξεργαστές γραφικών

Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας

Τεχνική Έκθεση Αναγνώριση, Ψηφιοποίηση και Διακριτοποίηση Ετερογενών Περιοχών MRI Απεικόνισης Εγκεφάλου... 14

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΓΕΝΙΚΟ ΤΜΗΜΑ

Αρχιτεκτονική Υπολογιστών

Τεχνικές για διαμοιρασμό φορτίου και μακροεντολές Broadcast - Scatter για αποδοτικές πολύ-επεξεργαστικές εφαρμογές

Προσομοιώσεις Monte Carlo σε GPU

ΜΑΣ 473/673: Μέθοδοι Πεπερασμένων Στοιχείων

ΥΠΟΛΟΓΙΣΤΙΚΗ ΧΗΜΕΙΑ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΕ ΜΟΡΙΑ, ΥΛΙΚΑ, ΠΕΡΙΒΑΛΛΟΝ

FX10 SIMD SIMD. [3] Dekker [4] IEEE754. a.lo. (SpMV Sparse matrix and vector product) IEEE754 IEEE754 [5] Double-Double Knuth FMA FMA FX10 FMA SIMD

(, ) (SEM) [4] ,,,, , Legendre. [6] Gauss-Lobatto-Legendre (GLL) Legendre. Dubiner ,,,, (TSEM) Vol. 34 No. 4 Dec. 2017

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Επιστημονικοί Υπολογισμοί - Μέρος ΙΙΙ: Παράλληλοι Υπολογισμοί

ΣΗΜΑΤΑ ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Binary32 (a hi ) 8 bits 23 bits Binary32 (a lo ) 8 bits 23 bits Double-Float (a=a hi +a lo, a lo 0.5ulp(a hi ) ) 8 bits 46 bits Binary64 11 bits sign

GMRES(m) , GMRES, , GMRES(m), Look-Back GMRES(m). Ax = b, A C n n, x, b C n (1) Krylov.

ΥΠΟΛΟΓΙΣΤΙΚΗ ΧΗΜΕΙΑ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΕ ΜΟΡΙΑ, ΥΛΙΚΑ, ΠΕΡΙΒΑΛΛΟΝ. Ι ΑΣΚΟΝΤΕΣ: Μαρία Κανακίδου, Σταύρος Φαράντος, Γιώργος Φρουδάκης

Εφαρµογές µε ανάγκες για υψηλές επιδόσεις Αξιολόγηση επίδοσης Παραλληλοποίηση εφαρµογών

Έκθεση Προόδου Σκοπός Δραστηριότητες Έτους

Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας

Lifting Entry (continued)

Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχ. και Μηχανικών Υπολογιστών. Εισαγωγή. Συστήματα Παράλληλης Επεξεργασίας 9 ο Εξάμηνο

Αρχιτεκτονική Υπολογιστών

Συστήµατα Παράλληλης Επεξεργασίας

Εισαγωγή στους υπολογιστές υψηλών επιδόσεων και το σύστημα ARIS του ΕΔΕΤ

Παράδειγμα #5 EΠΙΛΥΣΗ ΜΗ ΓΡΑΜΜΙΚΩΝ ΑΛΓΕΒΡΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΜΕΘΟΔΟ NEWTON ΕΠΙΜΕΛΕΙΑ: Ν. Βασιλειάδης. ( k ) ( k)

Εφαρμογή της μεθόδου πεπερασμένων διαφορών στην εξίσωση θερμότητας

Τεχνική Έκθεση Μέθοδοι χαλάρωσης στη διεπαφή για ελλειπτικά και παραβολικά προβλήματα Παράλληλοι Αλγόριθμοι ΜΧΔ...

Concrete Mathematics Exercises from 30 September 2016

Matrices and vectors. Matrix and vector. a 11 a 12 a 1n a 21 a 22 a 2n A = b 1 b 2. b m. R m n, b = = ( a ij. a m1 a m2 a mn. def

ΑΠΟΤΕΛΕΣΜΑΤΑ ΔΙΑΒΟΥΛΕΥΣΗΣ. Προκήρυξη Διαγωνισμού για την «Προμήθεια Εξοπλισμού Κόμβου Μηχανικής Μάθησης» /

Παράλληλος προγραμματισμός: παράλληλες λ υπολογιστικές πλατφόρμες και ανάλυση προγραμμάτων

ΣΥΣΤΗΜΑΤΑ ΠΑΡΑΛΛΗΛΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ 9o εξάμηνο ΗΜΜΥ, ακαδημαϊκό έτος

High order interpolation function for surface contact problem

13.2 Παράλληλος Προγραµµατισµός Γλωσσάρι, Σελ. 1

FORTRAN & Αντικειμενοστραφής Προγραμματισμός ΣΝΜΜ 2017

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΑΡΑΛΛΗΛΟ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΜΕ OpenMP

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΓΕΝΙΚΟ ΤΜΗΜΑ

Επιστηµονικός Υπολογισµός Ι

Παράλληλος Προγραμματισμός με OpenCL

All Pairs Shortest Path

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Τεχνική Έκθεση Προσαρμογή της ddhc σε γενικευμένα γραμμικά προβλήματα

Τελική Τεχνική Έκθεση. 1.1 Τα βασικά μαθηματικά εργαλεία (Building Blocks) της Δράσης 2.1 4

A Fast Finite Element Electromagnetic Analysis on Multi-core Processer System

Παράλληλος Προγραμματισμός σε Επεξεργαστές Γραφικών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Ειδική διάλεξη 2: Εισαγωγή στον κώδικα της εργασίας

Κέντρο Υποδομών και Υπηρεσιών ΤΠΕ Πανεπιστήμιο Κρήτης

Παράλληλος προγραμματισμός: Σχεδίαση και υλοποίηση παράλληλων προγραμμάτων

Δθμιουργία, μελζτθ και βελτιςτοποίθςθ φωτορεαλιςτικϊν απεικονίςεων πραγματικοφ χρόνου με χριςθ προγραμματιηόμενων επεξεργαςτϊν γραφικϊν

The Jordan Form of Complex Tridiagonal Matrices

Tridiagonal matrices. Gérard MEURANT. October, 2008

Ιεραρχίες µνήµης. Μιχάλης ρακόπουλος. Υπολογιστική Επιστήµη & Τεχνολογία, #02

Numerical Analysis FMN011

Other Test Constructions: Likelihood Ratio & Bayes Tests

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Jordan Form of a Square Matrix

ΜΕΘΟΔΟΙ ΑΕΡΟΔΥΝΑΜΙΚΗΣ

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΙΡΑΙΑ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΔΟΜΙΚΩΝ ΕΡΓΩΝ

Eulerian Simulation of Large Deformations

Εισαγωγή στον GPGPU προγραμματισμό 50,000, ,000,000 (1 από 2) 19/5/2018

Lanczos and biorthogonalization methods for eigenvalues and eigenvectors of matrices

Παρουσίαση 2 ης Άσκησης:

CUDA FFT. High Performance 3-D FFT in CUDA Environment. Akira Nukada, 1, 2 Yasuhiko Ogata, 1, 2 Toshio Endo 1, 2 and Satoshi Matsuoka 1, 2, 3

Υπολογιστική Φυσική Υ0338 Σχολή Θετικών Επιστηµών Τµήµα Φυσικής Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών Κώστας Θεοφιλάτος

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Buried Markov Model Pairwise

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

ΣΤΑΤΙΚΗ ΜΗ ΓΡΑΜΜΙΚΗ ΑΝΑΛΥΣΗ ΚΑΛΩ ΙΩΤΩΝ ΚΑΤΑΣΚΕΥΩΝ

New bounds for spherical two-distance sets and equiangular lines

Παράδειγμα #9 ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΟΡΙΑΚΩΝ ΤΙΜΩΝ ΕΛΛΕΙΠΤΙΚΕΣ ΣΔΕ ΕΠΙΜΕΛΕΙΑ: Ν. Βασιλειάδης

Congruence Classes of Invertible Matrices of Order 3 over F 2

Τεχνική Έκθεση Μαθηματικό Μοντέλο προσομοίωσης καρκινικών όγκων στον Εγκέφαλο

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΓΕΝΙΚΟ ΤΜΗΜΑ ΕΡΓΑΣΤΗΡΙΟ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ Η/Υ Πολυτεχνειούπολη, Ακρωτήρι, Χανιά 73100

Discretization of Generalized Convection-Diffusion

Review: Molecules = + + = + + Start with the full Hamiltonian. Use the Born-Oppenheimer approximation

A Lambda Model Characterizing Computational Behaviours of Terms

ΤΕΧΝΙΚΕΣ ΑΠΟΔΟΤΙΚΗΣ ΧΡΗΣΗΣ ΤΟΥ ΕΘΝΙΚΟΥ ΥΠΕΡΥΠΟΛΟΓΙΣΤΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ARIS Αθήνα, 17 Δεκεµβρίου2015 Ιωάννης Λιαµπότης iliaboti at grnet.

Reminders: linear functions

Παράλληλη Επεξεργασία

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ Νοέμβριος 2009

Υλοποίηση Αναθεωρημένου Αλγορίθμου Simplex

Server Virtualization με εργαλεία ΕΛ/ΛΑΚ. ΛΑΚ Δήμος Ρεθύμνης.

MOTROL. COMMISSION OF MOTORIZATION AND ENERGETICS IN AGRICULTURE 2014, Vol. 16, No. 5,

ΕΙΣΑΓΩΓΗ. Παρέχει µια διεπαφή (interface) ανάµεσα στο υλισµικό και στα προγράµµατα εφαρµογών/χρηστών.

Ατομική Διπλωματική Εργασία ΕΚΤΕΛΕΣΗ ΤΟΥ QUERY 6 ΤΟΥ BENCHMARK TPC-H ΣΕ ΚΑΡΤΑ ΓΡΑΦΙΚΩΝ, ΜΕ CUDA. Μαρία Λοϊζίδη ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Transcript:

Αριθµητικές Μέθοδοι Collocation Απεικόνιση σε Σύγχρονες Υπολογιστικές Αρχιτεκτονικές

Hermite Collocation Method BVP L B uxy (, ) = f(, xy), (, xy) Ω uxy (, ) = gxy (, ), (, xy) Ω

Red Black Collocation Linear system

Red Black Collocation Linear system

Red Black Collocation Linear system

Red Black Collocation Linear system

Red Black Collocation Linear system

Model Problem 2 uxy (, ) λuxy (, ) = f(, xy), (, xy) Ω uxy (, ) = gxy (, ), ( xy, ) Ω λ with 0

Helmholtz Collocation Matrix

Red Black Collocation Linear system

Iterative + Parallel Ο collocation πίνακας είναι µεγάλης διάστασης, αραιός και δεν έχει κάποια ιδιαίτερα χρήσιµη ιδιότητα (π.χ. συµµετρικός, θετικά διευθετιµένος )

Iterative Solution όπου

Iterative Solution

Eigenvalues of Collocation matrix

Schur Complement Iterative Solution

Parallel Iterative Solution of Collocation Linear system on Shared Memory Architectures Οµοιόµορφη κατανοµή φόρτου εργασίας µεταξύ core threads Ελαχιστοποίηση κύκλων αδρανών core threads Ελαχιστοποίηση κόστους επικοινωνίας

case of ns = 2p x ( ) 1 R x ( ) 2 R x ( ) 3 R x( R ) 4

case of ns = 2p x ( B) p x ( B ) + 1 p x ( B ) x + 2 p ( B) + 3 p + 4

case of ns = 2p V1 V2 V3 V4 V5 V6 V7 V8 x ( ) 1 R x ( B) x ( ) 2 R x ( ) 3 R x( R ) p x ( B ) + 1 p x ( B ) x + 2 p ( ) + 3 p B + 4 4

V1 V2 V3 V4 V5

Mapping into a fixed size Architecture of N Cores V2... case of k = 2p/N even x x ( R) l ( B) l 2k virtual threads l=(j-1)k+1,,jk l=2p+(j-1)k+1,,2p+jk Pj j=1,,n

Parallel Schur Complement Iterative Solution

Parallel BiCGSTAB

Parallel BiCGSTAB

The Dirichlet Helmholtz Problem uxy (, ) = 10()() ϕ xϕ y, (, xy) [0,1][0,1] with 100( 0.1) 2 () ( 2 x ϕ x = x x) e

HP SL390s Tesla M2070 GPUs HP SL390s + 2 x 6 core Xeon@2.8GHz 24GB memory Oracle Linux 6.3 x64 PGI 13.5 Fortran PCI-e gen2 x16

Realization on HP SL390s Tesla GPU machine Iterations / Error measurements ns BiCGSTAB Iterations b Axn 2 256 294 6.06e-11 512 589 2.85e-11 1024 1161 1.39e-11 2048 3726 9.59e-12

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης

Realization on HP SL390s Tesla GPU machine Time measurements

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης

Συµπεράσµατα Σχεδίαση νέου παράλληλου αλγορίθµου της Schur complement µεθόδου µε την BiCGSTAB για την Hermite Collocation αριθµητική µέθοδο. Υλοποίηση σε αρχιτεκτονικές υπολογισµών Κοινής Μνήµης για multi-core µηχανήµατα µε επιταχυντές (GPUs). Επιτάχυνση µέχρι 30%.

Επόµενα βήµατα Κατασκευή αποδοτικού αλγορίθµου της µεθόδου Discontinuous Hermite Collocation για αρχιτεκτονικές µε Multiprocessor /Grid µηχανήµατα µε επιταχυντές υπολογισµών.

Semi-Implicit Discontinuous Hermite Collocation Method DHC system of ODEs

Semi-Implicit Discontinuous Hermite Collocation Method DHC method coupled with an optimal 2-step and 3 rd order DIRK

Semi-Implicit Discontinuous Hermite Collocation Method

Preconditioned BiCGSTAB Method A ~ M = ilu(a)

Eigenvalue Distribution Matrix A

Eigenvalue Distribution Matrix A0

Parallel BiCGSTAB ü All basic linear algebra operations are performed on the GPU ü The preconditioning procedure M z = t with M=LU is performed on the CPU Step 1 : Step 2 : Step 3 : Step 4 : GPU sends to CPU vector t CPU solution of L y = t CPU solution of U z = y CPU sends to GPU vector z

The test problem

HP SL390s Tesla M2070 GPUs HP SL390s + 6 core Xeon@2.8GHz 24GB memory Oracle Linux 6.3 x64 PGI 14.5 Cuda Fortran Cuda toolkit 6.0 PCI-e gen2 x16

Development tools MatLab R2012b PGI 14.5 Cuda Fortran Cuda toolkit 6.0 cublas - cusrarse for GPU operations SparseKit for CPU operations

Development tools

Development tools

Development tools

Development tools

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 400 Unknowns : 1.600 Dofs : 6.400

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 1.600 Unknowns : 6.400 Dofs : 25.600

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 6.400 Unknowns : 25.600 Dofs : 102.400

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 25.600 Unknowns : 102.400 Dofs : 409.600

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 25.600 Unknowns : 102.400 Dofs : 409.600

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 25.600 Unknowns : 102.400 10.9 Dofs : 409.600 14.7 matrix*vector - 5008 4.9 4.9 1 times nrm2-9544 times 63.5 axpy - 13450 times dot - 9072 times copy - 9466 times scal - 236 times other procs

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 25.600 Unknowns : 102.400 Dofs : 409.600 CPU-GPU time = 82.3 seconds

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις χρόνου εκτέλεσης Finite Elements : 25.600 Unknowns : 102.400 Dofs : 409.600 CPU-GPU time = 82.3 seconds

Συµπεράσµατα Σχεδίαση νέου παράλληλου αλγορίθµου της αριθµητικής µεθόδου Discontinuous Hermite Collocation. Υλοποίηση σε αρχιτεκτονικές υπολογισµών Κοινής Μνήµης για µηχανήµατα µε επιταχυντές (GPUs). Παρατηρήσαµε επιτάχυνση 2x για πυκνές διακριτοποιήσεις σε σχέση µε την MatLab multithread υλοποίηση.

Semi-Implicit Discontinuous Hermite Collocation Method στην περίπτωση θεραπείας

Eigenvalue Distribution Matrix A0

Eigenvalue Distribution Matrix Arc

Υλοποίηση σε HP SL390s Tesla GPU µηχάνηµα Μετρήσεις Speedup n s MatLab - CPU MatLab - GPU CPU - GPU 40 x 40 5.2 5.6 1.1 80 x 80 5.9 7.9 1.4 160 x 160 5.3 6.6 1.3

Δηµοσιεύσεις