εφαρμογών Συμπεριφορά απόδοσης εφαρμογών Benchmarks, Profiling GRNET ntell [at] grnet.gr Χρονοεπίδοση και αξιολόγηση απόδοσης εφαρμογών

Χρονοεπίδοση Συμπεριφορά Benchmarks, GRNET ntell [at] grnet.gr Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 1/28

Χρονοεπίδοση κλιμάκωση Παράγοντες που επηρεάζουν την επίδοση Αναζήτηση σημείων κώδικα που αποτελούν bottleneck. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 2/28

Benchmark : μελέτη της ταχύτητας εκτέλεσης μιας εφαρμογής Scaling : Η δυνατότητα μιας εφαρμογής να μικραίνει ο χρόνος εκτέλεσης όσο μεγαλώνει ο αριθμός των cores που χρησιμοποιούνται, παράγοντες που την επηρεάζουν. Τι μετράμε πόσο αντιπροσωπευτικό είναι για εύρεση σημείων/διαδικασιών που επιβραδύνουν την εφαρμογή. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 3/28

Έστω κάποια εφαρμογή στην οποία έχουν εφαρμοστεί όλες οι πρακτικές βελτιτοποίησης για σειριακούς κώδικες. Μετράμε το χρόνο εκτέλεσης της σειριακής εφαρμογής. Ένα απλό παράδειγμα είναι η επίλυση γραμμικού συστήματος εξισώσεων. Πιθανότατα όλοι έχουν συνειδοποιήσει κάποια στιγμή ότι σειριακά ο χρόνος επίλυσης εξαρτάται από το μέγεθος του συστήματος που επιλύεται, όσο μεγαλύτερο το μέγεθος τόσο μεγαλύτερος ο χρόνος εκτέλεσης. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 4/28

Όταν μεταβαίνουμε σε παράλληλη εκτέλεση θεωρητικά αναμένουμε να ελατώνεται ο χρόνος εκτέλεσης με τον αριθμό των cores που χρησιμοποιούμε, (ιδανικό scaling). Η πραγματικότητα είναι διαφορετική. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 5/28

Όσο πιο πολλά process παίρουν μέρος σε μια παράλληλη διαδικασία, τόσο μικραίνει ο χρόνος υπολογισμού του καθενός process. Ασχέτως του πόσα processes χρησιμοποιούμε, χρειάζεται επικοινωνία μεταξύ των process. Όσο περισότερα procs συμπεριλαμβάνει μια παράλληλη εργασία, τόσο μεγαλύτερη είναι η επικοινωνία μεταξύ τους. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 6/28

Αρα, όσο μεγαλώνει ο αριθμός των processes έχουμε : το χρόνο υπολογισμού να μικραίνει το χρόνο επικοινωνίας να αυξάνει. Κάποια στιγμή, αυξάνοντας τον αριθμό των procs η επικοινωνία θα γίνει ο κύριος παράγοντας για την επίδοση. Έστω ότι έχουμε ένα vector ή array θέλουμε π.χ. να διπλασιάσουμε τις τιμές του κάθε στοιχείου, ότι δεν έχουμε πρόβλημα επικοινωνίας. Στην ιδανική περίπτωση, πρέπει ο αριθμός των στοιχείων του vector/array να διαιρείται ακριβώς με τον αριθμό των processes. Αλλιώς εισάγεται η έννοια του load imbalance : Δεν έχουν όλα τα processes τον ίδιο αριθμό πράξεων να κάνουν. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 7/28

Όσο πιο κοντά είναι μεταξύ των process ο αριθμός των πράξεων που έχουν να κάνουν, τόσο μικρότερη είναι η επιρροή στην ταχύτητα. Στον όρο πράξεων ανά process μετράμε όλες τις πιθανές πράξεις, OpenMP/Threads συμπεριλαμβανομένων. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 8/28

: Μετράμε σωστά? Είναι αυτό που μετράμε αντιπροσωπευτικό της? Συνήθως στα benchmarks, μετράμε κάποια λίγα βήματα στην έναρξη των υπολογισμών. Συνηθίζεται στα πρώτα βήματα να γίνονται πολύ περισσότερα από ότι αργότερα, initialization, load balancer, auto tuning, κλπ. Προφανώς αυτά τα βήματα πρέπει να μείνουν εκτός υπολογισμών, ή να τρέξουμε αρκετά τυπικά βήματα ώστε η επιρροή του/των πρώτων να είναι μικρή στο συνολικό χρόνο εκτέλεσης. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 9/28

: Μετράμε σωστά? Μερικά παραδείγματα Κώδικας : NAMD Machines HeCToR (Cray XE6), Juqueen (Bluegene/Q) 4096 cores Performance during first 1000 steps in averages of 100, average over 1000 steps. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 10/28

: NAMD, 4096 cores, HeCToR (Cray XE6) Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 11/28

: Κάτι θα γινόταν στο σύστημα εκείνη την ώρα η πρώτη σκέψη... Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 12/28

: NAMD, 4096 cores, Juqueen(Bluegene/Q) Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 13/28

: NAMD, 4096 cores, SuperMUC (IBM similar to ARIS but 8C) Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 14/28

: Και ένα παράδειγμα από το ARIS, CP2K, 64 Water, 40 cores, 200 MD Steps Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 15/28

: NAMD, 4096 cores on all Στα πρώτα 100-400 iterations δουλεύει ο load balancer, μετά από αυτά ότι load imbalance υπάρχει από τις αρχικές συνθήκες έχει ισοροπήσει, υπάρχει σταθερό perfonmance. Αυτό που θα δεί τελικά ο χρήστης σε ένα τυπικό run μερικών εκατομυρίων iterations, είναι το όριο στο οποίο συγκλίνει το performance. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 16/28

: CP2K, 40 cores, 64 Waters, TZVP, 200 MD Steps, on ARIS Στο πρώτο βήμα γίνονται : αρχικοποίηση, πολύ περισότερα εσωτερικά iterations, κλπ Αυτό που θα δεί τελικά ο χρήστης σε ένα τυπικό run μερικών χιλιάδων ή μυριάδων iterations, είναι το όριο στο οποίο συγκλίνει το performance. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 17/28

: Συμπέρασμα Πρέπει να είμαστε προσεκτικοί στο τι μετράμε στην προγραμμάτων, συστημάτων, μεθόδων κλπ. Όπως είδαμε χτές, υπάρχουν περιπτώσεις όπως το WRF, όπου συστηματικά εμφανίζονται ανά διαστήματα steps με (σημαντικά) αυξημένο χρόνο εκτέλεσης. Στην περίπτωση αυτή, σαφώς πρέπει να λαμβάνονται υπόψιν τα βήματα αυτά στην, επειδή επηρεάζουν το performance που θα δεί ο τελικός χρήστης στις μεγάλης διάρκειας προσομοιώσεις του. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 18/28

: : Lightweight, Scalable MPI http://mpip.sourceforge.net/ Είναι μια βιβλιοθήκη, η οποία χωρίς ΚΑΜΙΑ αλλαγή στον κώδικα της εφαρμογής, εφόσον γίνει link σωστά αντικαθιστά τις MPI κλήσεις, κάνει μετρήσεις κατά την εκτέλεση στο τέλος βγάζει report. Τρόπος Χρήσης : Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 19/28

: Φυσιολογικό Compilation : mpicc mpif90 -O source.[c f] -o exe Compilation για profiling με : module load mpicc mpif90 -g -O source.[c f] -L$MPIPROOT/lib -lunwind -lbfd -o exe Τρέχουμε την εφαρμογή ως συνήθως Αν όντως έχει γίνει σωστά το link, στην αρχή της εκτέλεσης εμφανίζεται ένα μήνυμα : : : V3.4.1 (Build Sep 7 2015/16:33:51) : Direct questions and errors to mpip-help@lists.sourceforge.net : Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 20/28

: Μετά την εκτέλεση, εμφανίζεται στην directory που τρέξαμε ένα text file με όνομα : EXE.MPITASKS.PID.NUMBER. Το file περιέχει το summary την ανάλυση του profile. Το καλό του είναι ότι πολύ γρήγορα μπορούμε να βρούμε ποια είναι τα σημεία του κώδικα που έχουμε τις top καθυστερήσεις, πιθανότατα το λόγο. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 21/28

:, σημαντικά σημεία του summary @ Report generation : Collective @ MPI Task Assignment : 0 node049 @ MPI Task Assignment : 1 node049... @ MPI Task Assignment : 19 node049... --------------------------------------------------------------------------- @--- MPI Time (seconds) --------------------------------------------------- --------------------------------------------------------------------------- Task AppTime MPITime MPI% 0 1.71e+03 13.3 0.78... 19 1.71e+03 163 9.55 * 3.42e+04 2.04e+03 5.97... --------------------------------------------------------------------------- @--- Callsites: 43 -------------------------------------------------------- --------------------------------------------------------------------------- ID Lev File/Address Line Parent_Funct MPI_Call 1 0 parallel.c 759 par_broadcast Bcast 2 0 parallel.c 295 par_imax Allreduce... Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 22/28

--------------------------------------------------------------------------- @--- Aggregate Time (top twenty, descending, milliseconds) ---------------- --------------------------------------------------------------------------- Call Site Time App% MPI% COV Allreduce 32 2.03e+06 5.94 99.44 0.75... --------------------------------------------------------------------------- @--- Aggregate Sent Message Size (top twenty, descending, bytes) ---------- --------------------------------------------------------------------------- Call Site Count Total Avrg Sent% Allreduce 10 4000 3.91e+09 9.77e+05 96.58 Bcast 27 20 1.28e+07 6.4e+05 0.32 Bcast 30 20 1.28e+07 6.4e+05 0.32 Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 23/28

Εξάσκηση με, δοκιμάστε είτε δικό σας κώδικα είτε το χτεσινό παράδειγμα για BLAS/Scalapack. Φτιάξτε το Makefile για, κάντε compile, τρέξτε την εφαρμογή, δείτε τα αποτελέσματα. Απορίες - συζήτηση Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 24/28

module load scalasca Compilation για scalasca : scalasca -instrument mpicc mpif90 -O source.[c f] -o exe Run : Στο SLURM, αλλάζει μόνο το run : scalasca -analyze srun EXE ARGS Παράγεται μιά directory με τα results, scorep_exename_mpitasks_sum Results : scalasca -examine το όνομα της directory ΧΡΕΙΑΖΕΤΑΙ Χ11. Πρακτική εξάσκηση με scalasca. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 25/28

Εξάσκηση με, δοκιμάστε είτε δικό σας κώδικα είτε το χτεσινό παράδειγμα για BLAS/Scalapack. Φτιάξτε το Makefile για, κάντε compile, τρέξτε την εφαρμογή, δείτε τα αποτελέσματα. Απορίες συζήτηση. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 26/28

Εργαλεία όπως Allinea DDT (, $) Με τα γνωστά εργαλεία, όχι ότι καλύτερο αλλά δουλεύει καλά για μικρό αριθμό MPI Tasks. mpirun -np 4 xterm -e gdb EXE. Ανοίγει ένα X-terminal που τρέχει GBD EXE για κάθε ένα MPI Task. Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 27/28

Ερωτήσεις? Εκπαιδευτικό Σεμινάριο ARIS Αθήνα, 14-16 Σεπ. 2015 28/28