ΠΡΟΟΜΟΙΩΗ ΑΡΧΙΣΕΚΣΟΝΙΚΗ

Σχετικά έγγραφα
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ

ΠΡΟΟΜΟΙΩΗ ΑΡΧΙΣΕΚΣΟΝΙΚΗ

ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ. Διαφάνειες από το MicroArch 35 Tutorial του Simics

ΠΡΟΟΜΟΙΩΗ ΑΡΧΙΣΕΚΣΟΝΙΚΗ

ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ

Σύγχρονες Προκλήσεις

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

Κάζε functional unit ρξεζηκνπνηείηαη κηα θνξά ζε θάζε θύθιν: αλάγθε γηα πνιιαπιό hardware = θόζηνο πινπνίεζεο!

Ενδεικτικά Θέματα Στατιστικής ΙΙ

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

KOIOS SUMMER INTERNSHIP NETWORKS ON CHIP (NoC)

T A E K W O N D O. Δ. ΠπθαξΨο. ΔπΫθνπξνο ΘαζεγεηΪο ΑζιεηηθΪο ΦπζηθνζεξαπεΫαο ΡΔΦΑΑ - ΑΞΘ

Κεφάλαιο 1 Αφαιρετικότητα και Τεχνολογία Υπολογιστών (Computer Abstractions and Technology)

ΗΛΕΚΤΡΟΝΙΚΗ ΜΝΗΜΗ ΚΑΙ ΜΙΚΡΟΕΛΕΓΚΤΕΣ

Η αξρή ζύλδεζεο Client-Server

Ενσωµατωµένα Υπολογιστικά Συστήµατα (Embedded Computer Systems)

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

ΛΙΜΝΗ ΤΣΑΝΤ. Σρήκα 1. Σρήκα 2

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

Λειτουργικά Συστήματα. Εισαγωγή

Σύγχρονες Προκλήσεις

ΑΝΤΗΛΙΑΚΑ. Η Μηκή ζθέθηεθε έλαλ ηξόπν, γηα λα ζπγθξίλεη κεξηθά δηαθνξεηηθά αληειηαθά πξντόληα. Απηή θαη ν Νηίλνο ζπλέιεμαλ ηα αθόινπζα πιηθά:

Γηαηάμεηο Αλίρλεπζεο Γηαξξνώλ (λεξνύ θαπζίκωλ ρεκηθώλ )

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Ειζαγωγή ζηη Φωηογραθία. Χριζηάκης Σαζεΐδης EFIAP

Γίθησα ποσ παρέτοληαη από τρήζηες: Κίλεηρα, ηετλοιογίες θαη αλοητηά δεηήκαηα Λεσηέρες Μακάηας

Hellas online Προεπιλεγμένες ρσθμίσεις για FritzBox Fon WLAN 7140 (Annex B) FritzBox Fon WLAN Annex B ( )

ΤΕΧΝΙΚΕΣ ΑΥΞΗΣΗΣ ΤΗΣ ΑΠΟΔΟΣΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ I

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο:

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ.

Δξγαιεία Καηαζθεπέο 1 Σάμε Δ Δ.Κ.Φ.Δ. ΥΑΝΗΩΝ ΠΡΩΣΟΒΑΘΜΗΑ ΔΚΠΑΗΓΔΤΖ. ΔΝΟΣΖΣΑ 2 ε : ΤΛΗΚΑ ΩΜΑΣΑ ΔΡΓΑΛΔΗΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Ογθνκεηξηθό δνρείν

ΣΕΙ Δυτικήσ Μακεδονίασ, Παράρτημα Καςτοριάσ Τμήμα Πληροφορικήσ και Τεχνολογίασ Υπολογιςτών

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

ηδάζθσλ: εµήηξεο Εετλαιηπνύξ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Intel Accelerate Your Code

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

Οργάνωση και Δομή Παρουσιάσεων

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

α) ηε κεηαηόπηζε x όηαλ ην ζώκα έρεη κέγηζην ξπζκό κεηαβνιήο ζέζεο δ) ην κέγηζην ξπζκό κεηαβνιήο ηεο ηαρύηεηαο

Άσκηση 1 - Μοπυοποίηση Κειμένου

β) (βαζκνί: 2) Έζησ όηη ε ρξνλνινγηθή ζεηξά έρεη κέζε ηηκή 0 θαη είλαη αληηζηξέςηκε. Δίλεηαη ην αθόινπζν απνηέιεζκα από ην EViews γηα ηε :

Αντισταθμιστική ανάλυση

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

1. Οδηγίερ εγκαηάζηαζηρ και σπήζηρ έξςπνυν καπηών και τηθιακών πιζηοποιηηικών με σπήζη ηος λογιζμικού Μοzilla Thunderbird

Υ- 01 Αρχιτεκτονική Υπολογιστών Πολυεπεξεργαστές

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ

ΠΑΝΕΛΛΑΔΙΚΕ ΕΞΕΣΑΕΙ Γ ΣΑΞΗ ΗΜΕΡΗΙΟΤ ΓΕΝΙΚΟΤ ΛΤΚΕΙΟΤ & ΠΑΝΕΛΛΗΝΙΕ ΕΞΕΣΑΕΙ Γ ΣΑΞΗ ΗΜΕΡΗΙΟΤ ΕΠΑΛ (ΟΜΑΔΑ Β )

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Εισαγωγή στη Φωτογραυία. Χριζηάκης Σαζεΐδης - EFIAP

Εηζαγσγή ζηελ επηζηήκε ησλ ππνινγηζηώλ. Λνγηζκηθό Υπνινγηζηώλ Κεθάιαην 7ν Λεηηνπξγηθά Σπζηήκαηα

Μορθές Κακόβοσλοσ Κώδικα (Malicious Code)

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

Τηλζφωνο: Ε-mail: Ώρες διδασκαλίας: 16:00 19:15 μμ

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou

ΑΙΟΛΙΚΑ ΠΑΡΚΑ. Δρώτηση 1

Case Study. Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report.

ΠΟΛΤΜΕΡΙΜΟ - ΠΕΣΡΟΥΗΜΙΚΑ

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

ΓΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ

ΙΣΤΟΡΙΑ ΤΟΥ ΑΡΧΑΙΟΥ ΚΟΣΜΟΥ

ΑΓΩΜΘΡΘΙΞΘ ΤΩΠΞΘ ΡΘΡ ΛΘΙΠΕΡ ΗΚΘΙΘΕΡ ΛΘΤΑΗΚΘΔΗΡ Τ.

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

Κεθάιαην 20. Ελαχιστοποίηση του κόστους

5 η Δργαζηηριακή Άζκηζη Κσκλώμαηα Γσαδικού Αθροιζηή/Αθαιρέηη

1 ορ ΣΚΟΠΟΣ (1 Ο μάθημα) Αλάπηπμε θηλεηηθώλ δεμηνηήησλ θαη ηθαλνπνηεηηθή εθηέιεζε νξηζκέλσλ από απηέο Σηόχορ :1 ορ και 4 ορ

ΠΕΡΙΓΡΑΦΗ ΥΛΙΚΟΥ AVR 1. ΕΙΣΑΓΩΓΗ 1.1 ΓΕΝΙΚΗ ΔΟΜΗ 1.2 ΟΙΚΟΓΕΝΕΙΕΣ 1.3 ΤΥΠΟΙ 1.4 ΕΡΓΑΛΕΙΑ

Τεχνικές για διαμοιρασμό φορτίου και μακροεντολές Broadcast - Scatter για αποδοτικές πολύ-επεξεργαστικές εφαρμογές

Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών

Να ζρεδηάζεηο ηξόπνπο ζύλδεζεο κηαο κπαηαξίαο θαη ελόο ιακπηήξα ώζηε ν ιακπηήξαο λα θσηνβνιεί.

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

γηα ηνλ Άξε Κσλζηαληηλίδε

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

Constructors and Destructors in C++

A. Αιιάδνληαο ηε θνξά ηνπ ξεύκαηνο πνπ δηαξξέεη ηνλ αγωγό.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ

Α Ο Κ Η Α Μ Α Ζ Η Η Ρ Η ( S E A R C H )

(γ) Να βξεζεί ε ρξνλνεμαξηώκελε πηζαλόηεηα κέηξεζεο ηεο ζεηηθήο ηδηνηηκήο ηνπ ηειεζηή W.

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

Η/Υ A ΤΑΞΕΩΣ ΑΕ Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

ΘΕΜΑ PROJECT COMPILER FLAGS ΤΡΑΧΑΝΗΣ ΔΗΜΗΤΡΗΣ 6108 ΤΡΑΧΑΝΗΣ ΓΕΩΡΓΙΟΣ 5789

ΣΕΙ ΙΟΝΙΩΝ ΝΗΩΝ ΣΜΗΜΑ: ΣΕΥΝΟΛΟΓΙΑ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΣΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΥΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ Ρέππα Μαξγαξίηα

Transcript:

ΠΡΟΟΜΟΙΩΗ ΑΡΧΙΣΕΚΣΟΝΙΚΗ 1

Δηζαγσγή Θέκαηα Δλδηαθέξνληνο Αξρηηεθηνληθήο Υπνινγηζηώλ Σρεδίαζε επεμεξγαζηή» 1 thread pipeline, branch prediction» n threads SMT resource allocation, threads scheduling Δηεξνγελείο αξρηηεθηνληθέο» Cell (PS 3), Intel Sandy Bridge, AMD Fusion, Intel Stellarton (Atom E600C), ARM Ιεξαξρία κλήκεο» cache sharing, coherence protocols, NUMA Παξάιιεια ζπζηήκαηα» Coherence, Γίθηπα δηαζύλδεζεο» Compilers, automatic parallelization» Programming Models, synchronization costs, locks, computation and communication oveheads 2

Τξόπνη Υινπνίεζεο Φξήζε ππαξρόλησλ κεραλεκάησλ Μεγάιν θόζηνο» Oracle SPARC Enterprise T5120 server (2*16*8=256 threads, 512GB mem) ~ 64K $ (2014)» Intel Sandy Bridge E5-4620 (4 * 8 cores, 64 threads) ~ 15K $ (2013) Αδπλακία παξέκβαζεο ζην πιηθό ηνπο» pipeline, caches, interconnection network Πεξηνξηζκέλε δπλαηόηεηα παξαθνινύζεζεο θαη κεηξήζεσλ» performance counters ιίγνη, κηθξό documentation Πεξηνξηζκόο ζην ζήκεξα» κειινληηθέο αξρηηεθηνληθέο (π.ρ. chip κε 100 ή 1000 threads) ; Λύζε : Simulation (πξνζνκνίσζε) 3

Τη είλαη ν simulator; Έλα εξγαιείν πνπ αλαπαξάγεη ηε «ζπκπεξηθνξά» ελόο ππνινγηζηηθνύ ζπζηήκαηνο. Γηαηί λα ρξεζηκνπνηήζνπκε έλα simulator; Πιεξνθνξίεο ζρεηηθά κε ηελ εζσηεξηθή ιεηηνπξγία» Performance Analysis Γπλαηόηεηα αλάπηπμεο ινγηζκηθνύ γηα κε δηαζέζηκεο (ή θαη κε ππαξθηέο) πιαηθόξκεο Πξνβιέςεηο απόδνζεο γηα δηαθνξεηηθέο αξρηηεθηνληθέο. 4

Simulator taxonomy Architecture simulators Functional Performance / Timing Trace-driven Execution-driven Trace-driven Execution-driven User code Full system 5

Functional vs. Timing Simulators Functional Simulators Visible architectural state Πξνζνκνίσζε ηεο ιεηηνπξγηθόηεηαο ησλ εληνιώλ (instructions semantics and functionality), κεηαβνιή ηνπ state (registers, memory) Σσζηό program output Κύξηνο ζθνπόο: Software development and/or emulation Timing Simulators Microarchitecture details Λεπηνκεξήο πινπνίεζε ησλ δηαθνξεηηθώλ δνκώλ (pipeline, branch predictors, interconnection networks, memory hierachy, etc) Φξνληζκόο γεγνλόησλ, πξνθεηκέλνπ λα ππνινγηζζεί ν ρξόλνο εθηέιεζεο ηνπ πξνγξάκκαηνο Functional simulation πνιύ πην γξήγνξν 6

Trace Simulators Trace vs. Execution-driven Simulators Δθηέιεζε ηεο εθαξκνγήο ζε πξαγκαηηθή πιαηθόξκα trace (instruction, address, ) Τα traces ρξεζηκνπνηνύληαη ζαλ inputs ηνπ simulator Execution-driven Simulators O simulator εθηειεί ηελ εθαξκνγή Γηαηήξεζε application state θαη architecture state Trace-driven simulation ζπλήζσο πην γξήγνξν Γηαηήξεζε κόλν ηνπ architecture state, δελ εθηεινύληαη όινη νη ππνινγηζκνί Τα traces επηηξέπνπλ ηελ πξνζνκνίσζε proprietary applications & input sets. Πξόβιεκα : Τα traces δελ κπνξνύλ λα ζπιιάβνπλ/θαλεξώζνπλ ηελ δπλακηθή ζπκπεξηθνξά ηεο εθαξκνγήο 7

User code vs. Full system simulators User code Simulators Πξνζνκνίσζε κόλν ηνπ θώδηθα ηεο εθαξκνγήο System calls θαη I/O εθηεινύληαη κε functional simulation Σπλήζσο ην functional emulation πξαγκαηνπνηείηαη από ην host OS» host OS = target OS Full system Simulators Πξνζνκνίσζε ηεο εθαξκνγήο Πξνζνκνίσζε ηνπ OS Πξνζνκνίσζε ησλ devices (disks, network, etc.) 8

The Zen of architecture simulators Accuracy Speed Flexibility Γελ ππάξρεη ν ηέιεηνο simulator FPGA prototypes Γξήγνξα, αθξηβή, αιιά έιιεηςε επειημίαο Λεπηνκεξή software κνληέια Αθξηβή, επέιηθηα, αιιά αξγά Αθεξεκέλα software κνληέια Γξήγνξα, επέιηθηα αιιά όρη αθξηβή 9

Speed vs. Accuracy 10

Παξάδεηγκα ρξόλσλ πξνζνκνίσζεο (1) spec2k with gcc and small inputs Time Ratio to Native Ratio to Functional Native 1,054s -- -- sim-fast 2m 47s 158x 1 sim-outorder 1h 11m 07s 4,029x 25x simics 7m 41s 437x 1 w/ruby 11h 27m 25s 39,131x 89x w/ruby + Opal 43h 13m 41s 147,648x 338x 11

Παξάδεηγκα ρξόλσλ πξνζνκνίσζεο (2) Οη πξαγκαηηθέο εθαξκνγέο παίξλνπλ ώξεο ζε πξαγκαηηθά κεραλήκαηα Φξεηαδόκαζηε αξθεηά κεγάιεο ηαρύηεηεο γηα λα ηξέμνπκε έλα ζεκαληηθό θνκκάηη απηώλ ησλ εθαξκνγώλ. 12

Απαηηήζεηο Πξνζνκνίσζε Αξρηηεθηνληθήο (1) Γεληθόηεηα (Generality)» Μπνξεί ην εξγαιείν λα αλαιύζεη ηα workloads?» Parallel Systems, Multithreading, Multiple address spaces, OS code, Network Systems, etc. Πξαθηηθόηεηα (Practicality)» Μπνξεί ην εξγαιείν λα ρξεζηκνπνηεζεί απνδνηηθά;» Host assumptions, compiler assumptions, OS modifications, workload language assumptions Δθαξκνζηκόηεηα (Applicability)» Μπνξεί ην εξγαιείν λα απαληήζεη ζηα εξσηήκαηα καο;» Restricted state that can be monitored, restrictions on parameter visibility, restricted length of observations. 13

Πξνζνκνίσζε Αξρηηεθηνληθήο (2) Πιενλεθηήκαηα Early availability Δπθνιία ρξήζεο» Πιήξεο δηαθάλεηα θαη επθνιία παξαθνινύζεζεο θαη κεηξήζεσλ» Γηαθνξεηηθά επίπεδα ιεπηνκέξεηαο θαη αθξίβεηαο Pipelines, caches, branch predictors, Hardware devices (timer, drives, cards, )» Έιεγρνο θαηλνηόκσλ πξνηάζεσλ/ηδεώλ Κόζηνο» Open source (Free)» Academic licenses (Free ή κηθξό θόζηνο γηα support) 14

Πξνθιήζεηο Πξνζνκνίσζε Αξρηηεθηνληθήο (3) Φξόλνο αλάπηπμεο ησλ κνληέισλ (modeling time) Έιεγρνο νξζόηεηαο κνληέισλ (validation) Ταρύηεηα πξνζνκνίσζεο Δλεξγό εξεπλεηηθό πεδίν Πιεζώξα επηινγώλ WindRiver Simics (x86, SPARC, MIPS, Leon, ARM ) AMD SimNow (x86) Simplescalar (Alpha, PISA, ARM, x86) SimFlex MARSSx86 SniperSim 15

Δπηινγή πεξηβάιινληνο πξνζνκνίσζεο Κξηηήξηα Δπηινγήο Modularity simulator Extensibility simulator Δπίπεδν αθξίβεηαο simulator Ταρύηεηα simulator Μέγεζνο ηνπ design space πνπ ζέινπκε λα κειεηήζνπκε Δπηινγή θαηάιιεισλ benchmarks 16

Σηαηηζηηθά Πξνζνκνίσζεο(1) Ο ζθνπόο ελόο timing simulation είλαη ε ζπγθέληξσζε πιεξνθνξηώλ θαη κέηξεζε δηαθόξσλ κεγεζώλ IPC Memory access cycles On-chip network contention Τα πξνγξάκκαηα παξνπζηάδνπλ δηαθνξεηηθέο θάζεηο Initialization phase Main phase Wrap-up phase Πόηε παίξλνπκε ηα ζηαηηζηηθά πνπ καο ελδηαθέξνπλ; 17

Σηαηηζηηθά Πξνζνκνίσζεο(2) Η πξνζνκνίσζε είλαη έλα single-thread process Αθόκα θαη αλ πξνζνκνηώλνπκε έλα παξάιιειν ζύζηεκα Η ηαρύηεηα πξνζνκνίσζεο δε βειηηώλεηαη πηα κε ηελ ηερλνινγία Παξάιιεια ζπζηήκαηα ηξέρνπλ πνιιαπιέο πξνζνκνηώζεηο ηαπηόρξνλα. Γελ κπνξνύκε λα θηηάμνπκε γξήγνξνπο simulators Γελ πξνζνκνηώλνπκε νιόθιεξν ην ζύζηεκα Γελ πξνζνκνηώλνπκε νιόθιεξε ηελ εθαξκνγή 18

Σηαηηζηηθά Πξνζνκνίσζεο(3) Πξνζνκνίσζε κηθξόηεξνπ ζπζηήκαηνο π.ρ. 16 cores αληί γηα 1024 Γελ εθζέηεη ζέκαηα θιηκαθσζηκόηεηαο (scalability)» Αληαγσληζκόο γηα shared resources» Conflicts» Race conditions Πξνζνκνίσζε κηθξόηεξεο εθαξκνγήο π.ρ. Matrix multiply 1K x 1K αληί γηα 1Μ x 1M Γελ εμεηάδεη ηα όξηα ηνπ hardware» To working set ρσξάεη ζηηο caches» Capacity/conflict issues» Ληγόηεξε επαλαρξεζηκνπνηίεζε data/code» Initialization vs. steady state 19

Σηαηηζηηθά Πξνζνκνίσζεο 20

Τερληθέο Πξνζνκνίσζεο Sampling Πξνζνκνίσζε ηπραίσλ ζεκείσλ ηεο εθαξκνγήο Fast-forwarding Μέρξη λα θηάζνπκε ζην sample point Warm-up Γξήγνξε πξνζνκνίσζε πξηλ ηε θάζε ησλ κεηξήζεσλ Checkpointing Απνζήθεπζε architectural state πξηλ ην sample Phase detection Δπηινγή ησλ samples κεηά από αλάιπζε ηεο εθαξκνγήο 21

Simulation sampling N instructions (total benchmark execution) Σηαηηζηηθή πξνζέγγηζε Δμεηάζνπκε αληηπξνζσπεπηηθά δείγκαηα U Actual simulator measurement Μαζεκαηηθή πξνζέγγηζε confidence margin (eg. 95%) confidence interval (eg. +/- 2.5) Γπν πξνζεγγίζεηο ζρεηηθά κε ηελ επηινγή δεηγκάησλ Systematic sampling» Sample every N instructions Random sampling 22

Simulation warm-up N instructions (total benchmark execution) Functional simulation Warm-up of large structures W Detailed simulator warm-up U Actual simulator measurement Γελ κπνξνύκε λα πξνζνκνηώζνπκε ζσζηά αλ έρνπκε empty architecture state Caches invalid state Branch predictor, TLB,... Operating system state» Files open / close, read / write pointers,... Φξεηάδεηαη θάπνηνο ρξόλνο γηα warm-up Όζν κεγαιύηεξε ε δνκή, ηόζν κεγαιύηεξνο ν ρξόλνο 23

Checkpointing and Sampling N instructions (total benchmark execution) Functional simulation Warm-up of large structures W Detailed simulator warm-up U Actual simulator measurement Restore checkpoint state Απνζήθεπζε warmed-up state πξηλ από θάζε sample functional simulation overhead time vs more detailed simulations Παξάιιειε πξνζνκνίσζε όισλ ησλ samples 24

Non-random sampling Η θάζε εθαξκνγή εκθαλίδεη θάζεηο νη νπνίεο πνιιέο θνξέο επαλαικβάλνληαη Δπηινγή ζσζηώλ samples Υπνζέηνπκε όηη ε ζπκπεξηθνξά ηεο εθαξκνγήο εμαξηάηαη άκεζα από ηελ εθηέιεζε ηνπ static code. Κάζε θάζε αληηζηνηρίδεηαη ζε έλα static section ηνπ θώδηθα 25

Simpoints - Basic Block Vectors Μεηξάκε ηηο εθηειέζεηο γηα θάζε basic block Γηα νιόθιεξε ηελ εθηέιεζε Γηα ηελ εθηέιεζε Ν εληνιώλ (π.ρ. Ν = 100 million) Σπγθξίλνπκε ην sample BBV κε ην global BBV Manhattan distance Euclidean distance H ζύγθξηζε ησλ BBV απνθαιύπηεη επίζεο ηηο πεξηνδηθόηεηεο ζηελ εθηέιεζε κηαο εθαξκνγήο Initialization phase Repetitive intervals 26

Simpoints Δπηινγή Simpoints To πην αληηπξνζσπεπηηθό ΒΒV κπνξεί λα είλαη καθξηά Μεγάινο ρξόλνο fast-forward Δπηινγή θάπνηνπ sample λσξίηεξα Μνλαδηθό sample; Έλα από θάζε phase Tα samples είλαη architecture dependent O ίδηνο θώδηθαο κε δηαθνξεηηθό compiler έρεη ην ίδην BBV. 27

Multithreaded simulation Τα ηπραία samples από πνιιαπιά threads κπνξεί λα κε ζπκπίπηνπλ ρξνληθά Τν «θάζεην» sample δελ εγγπάηαη ζσζηή «επζπγξάκκηζε» Η ηαρύηεηα ηνπ θάζε thread δηαθέξεη θαηά ηε δηάξθεηα:» Functional simulation» Warm-up» Simulation Τν Fast-forward κεηξηέηαη ζε instructions όρη χρόνοσ 28

Sniper Multi-core Simulator Σπλεξγαζία κεηαμύ Intel (Intel Exascience Lab), IMEC θαη 5 βειγηθώλ παλεπηζηεκίσλ Σθνπόο : Μειέηε ηνπ θαηξνύ ηνπ δηαζηήκαηνο σο HPC workload. 29

Sniper : A fast and accurate simulator Hybrid simulation Analytical interval core model Micro-architecture structure simulation (branch predictors, caches, NoC) Multi/Many-core systems running multithreaded & multiprogrammed workloads Παξάιιεινο simulator http://snipersim.org 30

Interval Model Sniper : Top Features Superscalar OOO, ILP, MLP CPI Stacks & Visualization Parallel simulation X86_64, SSE2 support Thread scheduling & migration DVFS support Modern branch predictors Pthreads, OpenMP, TBB, OpenCL, MPI 31

User-level Ιδαληθόο γηα HPC Sniper : Limitations Όρη ηόζν γηα workloads κε αξθεηό OS interaction High-abstraction core model Όρη θαηάιιεινο γηα ηε κνληεινπνίεζε όισλ ησλ ζπλεπεηώλ εμαηηίαο αιιαγώλ ζην επίπεδν ηνπ core Ιδαληθόο γηα memory subsystem ή NoC Μόλν x86 32

Sniper : Cycle stacks for parallel applications Δηεξνγελείο ζπκπεξηθνξέο ησλ threads κηαο νκνγελνύο εθαξκνγήο; 33

Sniper : Cycle stacks for scaling behavior DRAM bound 34

Sniper : Cycle stacks for scaling behavior DRAM bound sync increases by 20% 35

Snipersim Demo 36