Efficient Implementation of Sparse Linear Algebra Operations on InfiniBand Cluster. Akira Nishida,

Σχετικά έγγραφα
Εισαγωγή. Λογισµικό & Προγραµµατισµός Συστηµάτων Υψηλής Επίδοσης

Συστήµατα Παράλληλης Επεξεργασίας

Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχ. και Μηχανικών Υπολογιστών. Εισαγωγή. Συστήματα Παράλληλης Επεξεργασίας 9 ο Εξάμηνο

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

FX10 SIMD SIMD. [3] Dekker [4] IEEE754. a.lo. (SpMV Sparse matrix and vector product) IEEE754 IEEE754 [5] Double-Double Knuth FMA FMA FX10 FMA SIMD

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΙΔΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΚΡΗΤΗΣ

GPU DD Double-Double 3 4 BLAS Basic Linear Algebra Subprograms [3] 2

GPGPU. Grover. On Large Scale Simulation of Grover s Algorithm by Using GPGPU


Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

CUDA FFT. High Performance 3-D FFT in CUDA Environment. Akira Nukada, 1, 2 Yasuhiko Ogata, 1, 2 Toshio Endo 1, 2 and Satoshi Matsuoka 1, 2, 3

Liner Shipping Hub Network Design in a Competitive Environment

Orthogonalization Library with a Numerical Computation Policy Interface

Matrices and Determinants

ΤΕΧΝΙΚΕΣ ΠΡΟ ΙΑΓΡΑΦΕΣ ΕΞΟΠΛΙΣΜΟΥ


ΜΕΛΕΤΗ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΞΟΠΛΙΣΜΟΥ

ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems

BiCG CGS BiCGStab BiCG CGS 5),6) BiCGStab M Minimum esidual part CGS BiCGStab BiCGStab 2 PBiCG PCGS α β 3 BiCGStab PBiCGStab PBiCG 4 PBiCGStab 5 2. Bi

Αντιπρύτανη Ακαδηµαϊκών Θεµάτων Αντιπρύτανη ιεθνών Σχέσεων Οικονοµικών και ιοίκησης /ντή ιοίκησης και Οικονοµικών

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

Binary32 (a hi ) 8 bits 23 bits Binary32 (a lo ) 8 bits 23 bits Double-Float (a=a hi +a lo, a lo 0.5ulp(a hi ) ) 8 bits 46 bits Binary64 11 bits sign

FPGA. Fast and Efficient Tsunami Propagation Simulation with FPGA and GPGPU

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

ER-Tree (Extended R*-Tree)

Quick algorithm f or computing core attribute

ΕΙ ΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝ ΥΛΙΩΝ ΕΡΕΥΝΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΙΓΑΙΟΥ

[ΚΑΤΑΓΡΑΦΗ ΗΛΕΚΤΡΟΝΙΚΟΥ ΥΛΙΚΟΥ ΚΑΙ ΔΙΑΥΛΩΝ ΕΠΙΚΟΙΝΩΝΙΑΣ]

Αριθµητικές Μέθοδοι Collocation. Απεικόνιση σε Σύγχρονες Υπολογιστικές Αρχιτεκτονικές

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Παράλληλοι υπολογιστές

Τηλ.: , Φαξ: Η-ταχυδροµείο: Ιστοσελίδα: Καλλιπόλεως 75, Τ.Θ , 1678 Λευκωσία, Κύπρος

Έργο: ΥπΕΠΘ - Τεχνικός Σύµβουλος 2009

CMOS Technology for Computer Architects

[4] 1.2 [5] Bayesian Approach min-max min-max [6] UCB(Upper Confidence Bound ) UCT [7] [1] ( ) Amazons[8] Lines of Action(LOA)[4] Winands [4] 1

ΜΕΘΟΔΟΙ ΑΕΡΟΔΥΝΑΜΙΚΗΣ

ΣΥΜΦΩΝΗΤΙΚΟ ΠΡΟΜΗΘΕΙΑΣ ΚΑΙ ΕΓΚΑΤΑΣΤΑΣΗΣ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΞΟΠΛΙΣΜΟΥ «ΣΥΣΤΗΜΑΤΟΣ ΕΠΟΠΤΕΙΑΣ ΣΤΟΛΟΥ» ΣΥΝΟΛΙΚΟΥ ΚΟΣΤΟΥΣ ,00 (454.

Numerical Analysis FMN011

Λογικά σύμβολα των CPU, RAM, ROM και I/O module

Table 1: Performance of Camellia (updated on October 31, 2008) Software Performance

ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΚΑΤΑΓΡΑΦΗ ΗΛΕΚΤΡΟΝΙΚΟΥ ΥΛΙΚΟΥ ΚΑΙ ΔΙΑΥΛΩΝ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. «Προστασία ηλεκτροδίων γείωσης από τη διάβρωση»

New Adaptive Projection Technique for Krylov Subspace Method

EE512: Error Control Coding

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

ΔΙΑΛΕΞΗ 11: ΣΥΣΤΗΜΑΤΑ ΕΠΙΚΟΙΝΩΝΙΑΣ / ΔΙΑΣΥΝΔΕΣΗΣ

Modbus basic setup notes for IO-Link AL1xxx Master Block

Optimization, PSO) DE [1, 2, 3, 4] PSO [5, 6, 7, 8, 9, 10, 11] (P)

Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

ΤΕΥΧΟΣ ΤΕΧΝΙΚΩΝ ΠΡΟ ΙΑΓΡΑΦΩΝ

A Sequential Experimental Design based on Bayesian Statistics for Online Automatic Tuning. Reiji SUDA,

EΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΙΔΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝΔΥΛΙΩΝ ΕΡΕΥΝΑΣ ΓΡΑΜΜΑΤΕΙΑ ΕΠΙΤΡΟΠΗΣ ΕΡΕΥΝΩΝ ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΚΗΜΔΗΣ & ΣΤΗ ΔΙΑΥΓΕΙΑ

Αρχιτεκτονική Σχεδίαση Ασαφούς Ελεγκτή σε VHDL και Υλοποίηση σε FPGA ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΤΕΥΧΟΣ ΤΕΧΝΙΚΩΝ ΠΡΟ ΙΑΓΡΑΦΩΝ

ΕΙΣΑΓΩΓΗ στους Η/Υ. Δρ. Β Σγαρδώνη. Τμήμα Τεχνολογίας Αεροσκαφών ΤΕΙ ΣΤΕΡΕΑΣ ΕΛΛΑΔΑΣ. Χειμερινό Εξάμηνο

ΕΥΧΑΡΙΣΤΙΕΣ. Θεσσαλονίκη, Δεκέμβριος Κώστας Δόσιος

Indexing Methods for Encrypted Vector Databases

The Tersoff many-body potential: Sustainable performance through vectorization

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

ΕΛΕΓΧΟΣ ΚΑΙ ΤΡΟΦΟΔΟΤΗΣΗ ΜΕΛΙΣΣΟΚΟΜΕΙΟΥ ΑΠΟ ΑΠΟΣΤΑΣΗ

ΠΡΟΣΚΛΗΣΗ ΕΝΔΙΑΦΕΡΟΝΤΟΣ KAI ΚΑΤΑΘΕΣΗΣ ΠΡΟΣΦΟΡΩΝ ΓΙΑ ΤΗΝ ΠΡΟΜΗΘΕΙΑ ΕΡΓΑΣΤΗΡΙΑΚΩΝ ΑΝΑΛΩΣΙΜΩΝ:

Buried Markov Model Pairwise

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

DELL used Η/Υ 755 SFF, E6550, 2GB, 80GB

CorV CVAC. CorV TU317. 1

Maude 6. Maude [1] UIUC J. Meseguer. Maude. Maude SRI SRI. Maude. AC (Associative-Commutative) Maude. Maude Meseguer OBJ LTL SPIN

Αναλύοντας τα Χαρακτηριστικά της μητρικής πλακέτας

Σχεδίαση και Υλοποίηση Μηχανισμού Μεταφοράς Δεδομένων από Συσκευές Αποθήκευσης σε Δίκτυο Myrinet, Χωρίς τη Μεσολάβηση της Ιεραρχίας Μνήμης

Δυνατότητα Εργαστηρίου Εκπαιδευτικής Ρομποτικής στα Σχολεία (*)

ΠΡΟΜΗΘΕΙΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΩΝ ΣΥΣΚΕΥΩΝ

Υ- 01 Αρχιτεκτονική Υπολογιστών Πολυεπεξεργαστές

Bundle Adjustment for 3-D Reconstruction: Implementation and Evaluation

IPSJ SIG Technical Report Vol.2014-CE-127 No /12/6 CS Activity 1,a) CS Computer Science Activity Activity Actvity Activity Dining Eight-He

3: A convolution-pooling layer in PS-CNN 1: Partially Shared Deep Neural Network 2.2 Partially Shared Convolutional Neural Network 2: A hidden layer o

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

ΥΠΟΛΟΓΙΣΤΙΚΗ ΧΗΜΕΙΑ ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΕ ΜΟΡΙΑ, ΥΛΙΚΑ, ΠΕΡΙΒΑΛΛΟΝ

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

H/Y Ε-07: Κατανεµηµένα Συστήµατα Εαρινό Εξάµηνο Ακ. Έτους ιδάσκουσα: Παναγιώτα Φατούρου Προγραµµατιστικές Εργασίες

VBA Microsoft Excel. J. Comput. Chem. Jpn., Vol. 5, No. 1, pp (2006)

Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας

Partial Trace and Partial Transpose

GMRES(m) , GMRES, , GMRES(m), Look-Back GMRES(m). Ax = b, A C n n, x, b C n (1) Krylov.

Vol. 31,No JOURNAL OF CHINA UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Έργο: Υποστήριξη Υπουργείου Παιδείας, ια Βίου Μάθησης και Θρησκευµάτων σε Πληροφοριακά Συστήµατα 2011

Υ07. Διδάσκων: ΠΑΡΑΛΛΗΛΑ ΣΥΣΤΗΜΑΤΑ. Β. Δημακόπουλος.

Μειέηε, θαηαζθεπή θαη πξνζνκνίσζε ηεο ιεηηνπξγίαο κηθξήο αλεκνγελλήηξηαο αμνληθήο ξνήο ΓΗΠΛΩΜΑΣΗΚΖ ΔΡΓΑΗΑ

Το εσωτερικό ενός PC. Τεχνολογία Η/Υ & Πληροφοριών - 05 Κεντρική μονάδα Χουρδάκης Μανόλης

A Fast Finite Element Electromagnetic Analysis on Multi-core Processer System

Πανεπιστήμιο Θεσσαλίας Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Wavelet based matrix compression for boundary integral equations on complex geometries

Συστήµατα Παράλληλης Επεξεργασίας, 9ο εξάµηνο ΣΗΜΜΥ

ΑΔΑ: Β4ΛΥ0-Γ7Κ. Small Form Factor (SFF) Chipset Intel 2 USB 3.0. Display Ports 1 VGA και 1 DVI ΝΑΙ PCI slots. 1 PCI Express x16 slots DDR3

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ

16PROC

Ελαφρές κυψελωτές πλάκες - ένα νέο προϊόν για την επιπλοποιία και ξυλουργική. ΒΑΣΙΛΕΙΟΥ ΒΑΣΙΛΕΙΟΣ και ΜΠΑΡΜΠΟΥΤΗΣ ΙΩΑΝΝΗΣ

Transcript:

InfiniBand,,.,, PCI Express InfiniBand,,.,,. Efficient Implementation of Sparse Linear Algebra Operations on InfiniBand Cluster Akira Nishida, Construction of scalable and low cost parallel computing environment is indispensable for the efficient solution of linear systems with large sparse matrices. In this study, we build a PC cluster based on PCI Express and InfiniBand technology for the scalable implementation of parallel iterative linear solvers, and evaluate its performance. The potential ability and the problems to be solved for commodity interconnect technologies are also discussed. The results of our evaluation show that the communication bandwidth of the intranode interconnects is the most critical factor for the scalable implementation of parallel sparse matrix computations. 1., PC, 3),7).,, PC,,.,. 1., 2, -.,,,,., Department of Computer Science, the University of Tokyo CREST CREST, JST, PC,. 1. Choose x 2. p = r = b Ax k = 3. α k =(r k,p k )/(p k,ap k ) 4. x k+1 = x k + α k p k 5. r k+1 = r k α k Ap k 6. β k =(r k+1,r k+1 )/(r k,r k ) 7. p k+1 = r k+1 + β k p k Increment k and if not convergent goto 3 1 Fig. 1 Algorithm of Conjugate Gradient Method. 2.,. Myrinet Quadrics,,, Intel, InfiniBand., PCI 1

, 4Gbps. 2. Fig. 2 Vector operations for iterative solvers., PCI Express,.,,,.. PCI Express PCI Express PCI, Intel, NEC 24. PCI 1GB/s, PCI Express, 2.5Gb/s 32, 16GB/s ( 3 ). AGP (Accelerated Graphic Port),. Processor Controller PCI-X Bridge FSB I/O Device PCI-X Bus PCI Express Link Processor Controller I/O Device FSB 3 PCI-X, PCI Express Fig. 3 Comparing PCI-X with PCI Express. InfiniBand PCI Express, InfiniBand. Mellanox Technologies InfiniHost (HCA), 1 2.5Gbps InfiniBand 4 2 ( 4 ), 8 PCI Express 4 Mellanox Technologies PCI Express InfiniHost HCA MHEA28-XT. Fig. 4 InfiniHCA HCA MHEA28-XT for PCI Express bus from Mellanox Technologies, Inc., InfiniBand, Mellanox Technologies 1 2Gb/s. Opteron AMD 64bit,.,. Opteron cc-numa,, 6).,, 2.6.4 SuSE Linux 9.1. 2.6 Linux, Opteron., Mellanox Technologies PCI Express dual port InfiniHost HCA, 128MB DDR MHEL-CF128-T, MHEA28-XT 2 HCA. 24 InfiniBand MTS24.,, PCI Express Intel 64bit Xeon AMD Athlon64 InfiniBand 8B/1B, 8% 4GB/s. 2

. Dell PowerEdge SC 142, Intel E752, Asus A8N-SLI Deluxe, NVIDIA nforce4 SLI MHEL-CF128-T,, 1.8GHz, 2.2 GHz Athlon64 97MB/s, 2.8HGz Xeon (1 ) 8MB/s. MPI 4us, Mellanox 3.7us., Opteron, PCI Express NVIDIA nforce Professional 22. nforce Professional, 25 3 Rioworks 2-way HDAM Express, 2GHz, 1MB Opteron 246, 8 16,. 512MB PC32 DDR SDRAM (ECC Registered) 4. 5 InfiniBand MTS24 Opteron Fig. 5 Opteron Cluster connected with InfiniBand switch MTS24. 3. InfiniBand MPI, MVAPICH 4) LAM MPI 2), MPICH/SCore 8). MVAPICH, 5), PCI Express InfiniHost HCA 2 4x, MVAPICH.9.5., 1, chp4 MPICH 1.2.7 GbE. GbE 32bit, 66MHz PCI RTL8169 PCI-X.,, SGI Altix 37 MPI. Altix, NUMAflex Intel Itanium2. 1 2 6.4GB/s, 4 3.2GB/s., 32KB L1 (16KB data), 256KB L2, 3MB L3, 1GB 1.3GHz Itanium2 32 Altix 37, 16. 6-8 MHEL-CF128-T, MHEA28-XT MPI. GbE MPI 28.71us, 58MB/s, InfiniHost HCA MPI 3.99us, 297MB/s (MHEL- CF128-T).,., MPI,,., MHEA28-XT MHEL-CF128-T, 4MB, 8, MHEL-CF128-T,., -3 MHEL-CF128-T, 4-7 MHEA28-XT. PCI-X, 6us, 1877MB/s 5), PCI Express,., MVAPICH Ohio, 3.4GHz EM64T Xeon 274MB/s, 7%. Athlon64 Opteron,,,., Altix 37 9-1. InfiniBand, http://nowlab.cis.ohio-state.edu/projects/mpi-iba/ 3

,. Time (us) 1 1 1 Intranode, Singlerail Intranode, Multirail Internode, Singlerail Internode, Multirail.1 1 1 1 1e+6 1e+7 6 InfiniHost HCA (MHEL-CF128-T) MPI Fig. 6 MPI Latency of InfiniHost HCA (MHEL-CF128- T) with different number of communication ports. Bandwidth (MB/s) 3 25 2 15 5 Singlerail Multirail 1 1 1 1e+6 1e+7 8 InfiniHost HCA (MHEA28-XT). Fig. 8 MPI Bidirectional Bandwidth of InfiniHost HCA (MHEA28-XT) with different number of communication ports. Altix (intranode) Altix (internode) Bandwidth (MB/s) 3 25 2 15 5 Intranode, Singlerail Intranode, Multirail Internode, Singlerail Internode, Multirail 1 1 1 1e+6 1e+7 7 InfiniHost HCA (MHEL-CF128-T). Fig. 7 MPI Bidirectional Bandwidth of InfiniHost HCA (MHEL-CF128-T) with different number of communication ports. 3.1 STREAM benchmark,, STREAM benchmark 1), Opteron SGI Altix 37,.,,. MPI stream mpi.f,. 11 STREAM benchmark. 4,,, 91.6MB. 1 2.5GB/s, SGI Altix 37 OpenMP STREAM Benchmark ( Time (us) 1 1 1 1 1 1 1e+6 9 SGI Altix 37 MPI Fig. 9 MPI Latency on SGI Altix 37. 1 STREAM benchmark Table 1 STREAM benchmark types. Benchmark Operation Bytes per iteration Copy a[i] = b[i] 16 Scale a[i] = q * b[i] 16 Add a[i] = b[i] + c[i] 24 Triad a[i] = b[i] + q * c[i] 24 12),. 4. NAS Parallel Benchmark,, NAS Parallel Benchmark 3.2, MPI CG C. CG. NAS Parallel Benchmark 4

3 25 Altix (intranode) Altix (internode), 13 Altix, CG. Bandwidth (MB/s) 2 15 5 1 1 1 1e+6 1e+7 1 SGI Altix 37. Fig. 1 MPI Bidirectional Bandwidth on SGI Altix 37. memory bandwidth (MB/s) 45 4 35 3 25 2 15 5 Copy Scale Add Triad 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 11 2MPI STREAM benchmark Fig. 11 Speedup of STREAM benckmark results with two processes per node. memory bandwidth (MB/s) 6 5 4 3 2 Copy Scale Add Triad 5 1 15 2 25 3 number of threads 12 SGI Altix ( 8,,) STREAM benchmark (MB/s) Fig. 12 STREAM benchmark performance in MB/s with array size 8,, on SGI Altix with memory affinity performance (MFLOPS) 4 35 3 25 2 15 5 13 SGI Altix 37 NPB CG Fig. 13 Speedup of NPB CG on SGI Altix 37.,,. GbE, InfiniHost HCA 1, 2. GbE,,,, InfiniHost HCA,,,., CG ( ),,, (CG, ). performance (MFLOPS) 4 35 3 25 2 15 5 14 GbE 1 NPB CG Fig. 14 Speedup of NPB CG with one port of GbE. 5

performance (MFLOPS) 4 35 3 25 2 15 5 15 InfiniHost HCA 1 NPB CG Fig. 15 Speedup of NPB CG with one port of InfiniHost HCA. performance (MFLOPS) 4 35 3 25 2 15 5 16 InfiniHost HCA 2 NPB CG Fig. 16 Speedup of NPB CG with two ports of InfiniHost HCA. 5.,,,,.,,,. 6., SGI Altix 37,.,,,,.,,., InfiniBand, Mellanox Technologies, Inc.,.,, 1616225,. 1) STREAM: Sustainable Bandwidth in High Performance Computers, http://www.cs.virginia.edu/stream/. 2) G. Burns, R. Daoud, and J. Vaigl, LAM: An Open Cluster Environment for MPI, in Proceedings of Supercomputing Symposium, 1994, pp. 379 386. 3) J. I. Hennessy and D. A. Patterson, Computer Architecture: A Quantitative Approach, Third Edition, Morgan Kaufmann, 23. 4) J. Liu, B. Chandrasekaran, W. J. J. Wu, S. P. Kini, W. Yu, D. Buntinas, P. Wyckoff, and D. K. Panda, Performance Comparison of MPI implementations over Infiniband, Myrinet and Quadrics, in Proceedings of the International Conference on Supercomputing 3, 23. 5) J.Liu, A.Vishnu, and D.K. Panda, Building Multirail InfiniBand Clusters: MPI-Level Design and Performance Evaluation, in Proceedings of the International Conference on Supercomputing 4, 24. 6) A. Nishida and Y. Oyanagi, Performance Evaluation of Low Level Multithreaded BLAS Kernels on Intel Processor based cc-numa Systems, LNCS, 2858 (23), pp. 5 51. 7) G. F. Pfister, In Search of Clusters, Prentice-Hall, second ed., 1998. 8) S. Sumimoto, A. Naruse, K. Kumon, K. Hosoe, and T. Shimizu, PM/InfiniBand- FJ: a high performance communication facility using InfiniBand for large scale PC clusters., PCI Express InfiniBand 6