ΕΠΛ 605 Προχωρηµένη Αρχιτεκτονική Υπολογιστών. Pedro Trancoso. CASPER group Department of Computer Science University of Cyprus, Cyprus.

Σχετικά έγγραφα
Προχωρηµένα Θέµατα Αρχιτεκτονικής

Κεφάλαιο 1 Αφαιρετικότητα και Τεχνολογία Υπολογιστών (Computer Abstractions and Technology)

ΜΥΕ- 05 Αρχιτεκτονική Υπολογιστών 2

ΕΠΛ372 Παράλληλη Επεξεργασία

ΤΕΧΝΙΚΕΣ ΑΥΞΗΣΗΣ ΤΗΣ ΑΠΟΔΟΣΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ I

ΠΛΕ- 027 Μικροεπεξεργαστές

Instruction Execution Times

Κεφάλαιο 4 Εκτίμηση και Κατανόηση Απόδοσης

Αρχιτεκτονική υπολογιστών

Chapter 4 (1) Αξιολόγηση και κατανόηση της απόδοσης

Προχωρηµένα Θέµατα Αρχιτεκτονικής Η/Υ. Storage Systems.. Λιούπης

ΕΠΛ221: Οργάνωση Υπολογιστών και Συμβολικός Προγραμματισμός

2R2. 2 (L W H) [mm] Wire Wound SMD Power Inductor. Nominal Inductance Packing Tape & Reel. Design Code M ±20%

Chapter 4 ( ή 1 στο βιβλίο σας)

the total number of electrons passing through the lamp.

The Simply Typed Lambda Calculus

CMOS Technology for Computer Architects

Οι τέσσερις αρχές για τον σχεδιασμό του συνόλου εντολών μιας μηχανής είναι:

Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές

ΔΙΑΛΕΞΗ 01: ΕΙΣΑΓΩΓΗ

Προχωρηµένα Θέµατα Αρχιτεκτονικής

ΕΝΣΩΜΑΤΩΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΤΕΙ ΗΠΕΙΡΟΥ- ΣΤΕΦ ΤΜΗΜΑ ΜΗΧ. ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε.

Metal Oxide Varistors (MOV) Data Sheet

Κεφάλαιο 4 Εκτίμηση και Κατανόηση Απόδοσης (Assessing and Understanding Performance)

[1] P Q. Fig. 3.1

HIS series. Signal Inductor Multilayer Ceramic Type FEATURE PART NUMBERING SYSTEM DIMENSIONS HIS R12 (1) (2) (3) (4)

Κεφ. 1: Μετρικά Σύγκρισης Επίδοσης και Χρονοπρογράμματα (Benchmarking), και Άλλα Μετρικά Κεφ. 1

Multilayer Chip Inductor

Breaking capacity: ~200kA Rated voltage: ~690V, 550V. Operating I 2 t-value (A 2 s) Power

TIME SWITCHES AND TWILIGHT SWITCHES

Polymer PTC Resettable Fuse: KMC Series

ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ ΜΟΝΑΔΑΣ ΘΡΑΥΣΤΗΡΑ ΜΕ ΧΡΗΣΗ P.L.C. AUTOMATION OF A CRUSHER MODULE USING P.L.C.

Συστήµατα Αποθήκευσης

Κεφάλαιο 1 Αφαιρετικότητα και Τεχνολογία Υπολογιστών (Computer Abstractions and Technology)

Type 947D Polypropylene, High Energy Density, DC Link Capacitors

Ενσωµατωµένα Υπολογιστικά Συστήµατα (Embedded Computer Systems)

Context-aware και mhealth

PRODUCT IDENTIFICATION SWPA 3012 S 1R0 N T

ΕΠΛ221: Οργάνωση Υπολογιστών και Συµβολικός Προγραµµατισµός

Γιπλυμαηική Δπγαζία. «Ανθπυποκενηπικόρ ζσεδιαζμόρ γέθςπαρ πλοίος» Φοςζιάνηρ Αθανάζιορ. Δπιβλέπυν Καθηγηηήρ: Νηθφιανο Π. Βεληίθνο

CSR series. Thick Film Chip Resistor Current Sensing Type FEATURE PART NUMBERING SYSTEM ELECTRICAL CHARACTERISTICS

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Εικονική Μνήμη (virtual memory)

Εισαγωγή. Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχ. και Μηχανικών Υπολογιστών Εργαστήριο Υπολογιστικών Συστημάτων

ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ.

ΕΠΛ221: Οργάνωση Υπολογιστών και Συμβολικός Προγραμματισμός

Thin Film Chip Resistors

Data sheet Thick Film Chip Resistor 5% - RS Series 0201/0402/0603/0805/1206

Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 8η: Producer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Statistical Inference I Locally most powerful tests


3. Προσωπικός Ηλεκτρονικός Υπολογιστής (Personal Computer - PC)

Λειτουργικά Συστήματα. Εισαγωγή

Microsoft Visual Studio Γιώργος Καµαρινός Developer Programs Marketing Manager Microsoft Hellas

B37631 K K 0 60

QUICKTRONIC PROFESSIONAL QTP5

Information Technology for Business

Transient Voltage Suppression Diodes: 1.5KE Series Axial Leaded Type 1500 W

Υ- 01 Αρχιτεκτονική Υπολογιστών Εισαγωγή

Test Data Management in Practice

ΕΠΛ221: Οργάνωση Υπολογιστών. Γιάννος Σαζεϊδης

Αρχιτεκτονική Υπολογιστών Ι (ένα)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΙΣΧΥΟΣ

Αρχιτεκτονικές Υπολογιστών

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Αρχιτεκτονική Υπολογιστών Απόδοση ΚΜΕ. (Μέτρηση και τεχνικές βελτίωσης απόδοσης)

NMBTC.COM /

Sunlord Specifications subject to change without notice. Please check our website for latest information. Revised 2018/04/15

Μειέηε, θαηαζθεπή θαη πξνζνκνίσζε ηεο ιεηηνπξγίαο κηθξήο αλεκνγελλήηξηαο αμνληθήο ξνήο ΓΗΠΛΩΜΑΣΗΚΖ ΔΡΓΑΗΑ

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Περιορισμοί των βαθμωτών αρχιτεκτονικών

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 11: Αρχιτεκτονική Cloud

Μηχανοτρονική. Τμήμα Μηχανικών Παραγωγής και Διοίκησης 7 ο Εξάμηνο,

NPN SILICON OSCILLATOR AND MIXER TRANSISTOR

University of Macedonia Master in Information Systems. Networking Technologies professors: A. Economides A. Pobortsis AGREEMENT AND ACCOUNTING

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

Αφηρημένες έννοιες και τεχνολογία υπολογιστών

i Throughput: Ο ρυθμός ολοκλήρωσης έργου σε συγκεκριμένο χρόνο

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

Applications. 100GΩ or 1000MΩ μf whichever is less. Rated Voltage Rated Voltage Rated Voltage

ΕΠΛ221: Οργάνωση Υπολογιστών και Συμβολικός Προγραμματισμός

4 th SE European CODE Workshop 10 th 11 th of March 2011, Thessaloniki, Greece

Sunlord. Wire Wound SMD Power Inductors SPH Series Operating Temp. : -40 ~+125 (Including self-heating) 2R2 SPH

Ιστορία των επεξεργαστών (CPUs)

Calculating the propagation delay of coaxial cable

ΜΕΛΕΤΗ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΞΟΠΛΙΣΜΟΥ

Surface Mount Multilayer Chip Capacitors for Commodity Solutions

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Assalamu `alaikum wr. wb.

Αρχιτεκτονική Υπολογιστών

ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2

ΠΕΡΙΓΡΑΦΗ ΥΛΙΚΟΥ AVR 1. ΕΙΣΑΓΩΓΗ 1.1 ΓΕΝΙΚΗ ΔΟΜΗ 1.2 ΟΙΚΟΓΕΝΕΙΕΣ 1.3 ΤΥΠΟΙ 1.4 ΕΡΓΑΛΕΙΑ

ΕΙΣΑΓΩΓΗ στους Η/Υ. Δρ. Β Σγαρδώνη. Τμήμα Τεχνολογίας Αεροσκαφών ΤΕΙ ΣΤΕΡΕΑΣ ΕΛΛΑΔΑΣ. Χειμερινό Εξάμηνο

CYTA Cloud Server Set Up Instructions

EE512: Error Control Coding

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ

Transcript:

ΕΠΛ 605 Προχωρηµένη Αρχιτεκτονική Υπολογιστών Pedro Trancoso CASPER group Department of Computer Science University of Cyprus, Cyprus Αρχιτεκτονική 2 1

Προχωρηµένη Αρχιτεκτονική 3 Αρχιτεκτονική Υπολογιστών! 4 2

Τι είναι η Αρχιτεκτονική Υπολογιστών;!!!! Computer architecture! From Wikipedia, the free encyclopedia!!!! A typical vision of a computer architecture as a series of abstraction layers: hardware, firmware, assembler, kernel, operating system and applications (see also Tanenbaum 79).! In computer engineering, computer architecture is the conceptual design and fundamental operational structure of a computer system. It is a blueprint and functional description of requirements (especially speeds and interconnections) and design implementations for the various parts of a computer focusing largely on the way by which the central processing unit (CPU) performs internally and accesses addresses in memory.! 5 5 Παιχνίδι 6 3

Να µάθουµε την µελλοντική τεχνολογία! Keyword: PARALLELISM 7 Βασικές Αρχές Σχεδιασµού Υπολογιστών Pedro Trancoso H&P Chapter 1 4

Κύρια σηµεία 1970s: integrated circuit (25-30% perf increase) Late 1970s: microprocessor (35% growth/year) Two major changes: Virtual elimination of assembly lang programming Vendor-independent OS (UNIX) Early 1980s: RISC Pipelining, ILP Caches 9 Ανάπτυξη των Επεξεργαστών The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again. Maximum Power Dissipation Little ILP left Unchanged Memory Latency Solution: Thread-Level Parallelism Data-Level Parallelism 10 5

Τα αποτελέσµατα... Enhanced the capability to computer users Highest performance microprocessor today outperforms supercomputer <10 years ago Cost-performance -> new classes of computers Smartphones, Tablet computers Dominance of microprocessor Supercomputers are made of many small microprocessors Software Development 25000x hardware improvement -> programmers trade performance for productivity 11 Αλλαγές στα Συστήµατα Ηλεκτρονικών Υπολογιστών 1960s: large mainframes 1970s: minicomputer & supercomputers 1980s: desktop computer: workstations & servers 1990s: Internet and WWW, PDAs, High-perf digital consumer electronics, embedded computers 12 6

Σύγχρονα Συστήµατα Desktop Computing Optimize price-performance Graphics Performance Servers Backbone of large-scale enterprise computing Characteristics: availability, reliability, scalability, efficient throughput Embedded Computers Fastest growing portion of computer market: everyday machines, handheld devices, video games Application-specific performance Real-time performance requirement Minimize memory and power Wearable Computers 13 Κατηγορίες Συστηµάτων Personal Mobile Device (PMD)/Wearable Cost, energy efficiency (power+heat), media performance, responsiveness (real time) Desktop Price-performance, energy, graphics performance Server Throughput, availability, scalability, energy Clusters/Warehouse-scale computer (WSC) Software as a Service (SaaS) Price-performance (80% of cost in power and cooling), throughput, energy, proportionality (design for peak?), built of modular components Embedded Price (8- or 16-bit cpu), energy, application-specific performance 14 7

Embedded Systems Application 15 Παραλληλισµού In applications: Data-Level Parallelism (DLP) Task-Level Parallelism (TLP) Hardware can exploit in these ways: Instruction-Level Parallelism (ILP) Vector Architectures and Graphic Processor Units (GPUs) Thread-Level Parallelism (TLP) Request-Level Parallelism (RLP) Flynn s Taxonomy: X Instruction Stream, X Data Stream (X = Single/Multiple) SISD (uniprocessor), SIMD (DLP), MISD (NA), MIMD (TLP) 16 8

Στόχος του σχεδιαστή υπολογιστών What attributes are important for a new machine Design machine to maximize performance within cost and power constraints Computer Architecture Instruction set architecture: programmable visible instructions Organization: memory system, bus structure, design of the internal CPU Hardware: detailed logic design, packaging 17 Instruction Set Architecture (ISA) Class of ISA: register-memory, load-store Memory addressing: byte addressing Addressing Modes: (MIPS) register, immediate, displacement Types and sizes of operands Operations Control flow instructions Encoding an ISA: fixed vs. variable length 18 9

Τάσεις της τεχνολογίας Implementation technologies that change at dramatic pace: Moore s Integrated circuit logic technology: transistor Law density 35% (quadruple every 4 years), die size 10-20%, transistor count 40-55% (doubles every 18-24 months) Semiconductor DRAM: capacity 25-40% (doubles every 2-3 years) Semiconductor Flash: capacity 50-60% (doubles every 2 years) Magnetic disk technology: density 30-60-100-40% (doubles every 3 years), 15-25x cheaper than Flash, 300-500x cheaper than DRAM Network technology: 10Mb-100Mb-1Gb Product cycle: 2 year design + 2-3 year production 19 Bandwidth over Latency Microprocessor & Network: Emphasis on performance Memory & Disk: Emphasis on capacity 20 10

Κλιµάκωση της απόδοσης, των καλωδίων, και της ισχύς Feature size: 10micron (1971) to 0.18micron (2001), 90nm (2005), 32nm (2011), 22nm Approx: performance increases linearly with decreasing feature size Wire delays become a problem Power is a problem: dominant energy consumption in switching transistors Hot spots on the chip 21 Power and Energy System Design Maximum power Sustained power consumption Thermal Design Power (TDP) Energy & Energy Efficiency Energy to execute a task Electricity bill (warehouse cloud) Battery lifetime (smartphone) 22 11

Power and Energy Energy consumption Dynamic Power = f(c, V 2, f) Dynamic Energy (Mobile devices) = f(c, V 2 ) Voltage drop 5V to 1V (20 years) 1 st microprocessor 0.1W, 3.3GHz i7 130W Static Power = f(i, V) (2006-25%) 23 Microprocessor Growth # Transistors Clock Frequency Power ILP 24 12

Improving Energy Efficiency Do nothing well: turn off inactive modules! Dynamic Voltage-Frequency Scaling (DVFS) Design for typical case Overclocking (e.g. Intel Turbo mode) 25 Κόστος, τιµή και τάσεις 26 13

Κόστος ενός ολοκληρωµένου κυκλώµατος 27 Κόστος ενός ολοκληρωµένου κυκλώµατος 28 14

Κόστος ενός ολοκληρωµένου κυκλώµατος Cost of integrated circuit Cost die + Cost of IC= Cost of die Dies per wafer Cost test die + Cost packaging Final test yield Cost wafer Cost die = Dies per wafer Die yield Wafer diameter Dies per wafer = π 2 Die area + final test 29 Κόστος ενός ολοκληρωµένου κυκλώµατος Example: In a 300mm wafer Yield 120 good 2.25cm 2 dies (44%) 435 good 1.00cm 2 dies (68%) Cost: $5500/wafer $46 for a good 2.25cm 2 die $13 for a good 1.00cm 2 die 30 15

Διανοµή του κόστους σε ένα σύστηµα Cabinet 6% Processor board 37% Processor 22% DRAM 5% I/O Devices 37% Monitor 19% Hard disk 9% Software 20% Cost of Manufacturing vs. Cost of Operation 31 Dependability Module reliability Mean Time To Failure (MTTF) Failures In Time (FIT): FIT = 1/MTTF Mean Time To Repair (MTTR) Mean Time Between Failures (MTBF): MTBF = MTTF + MTTR Module Availability Module Availability = MTTF / (MTTF + MTTR) 32 16

Dependability - Example 33 Μέτρηση και παρουσίαση της απόδοσης What is faster? User of desktop computer: program runs in less time response/execution time Administrator of large server: completes more jobs in an hour throughput X is n times faster than Y n = Exe(Y)/Exe(X) = Perf(X)/Perf(Y) Ambiguous: improve performance, improve execution time increase performance, decrease execution time 34 17

Μέτρηση της απόδοσης Time: Wall-clock time, response time, elapsed time = latency to complete a task CPU time compute time, not waiting IO user and system CPU time $ time ls real 0m0.115s user 0m0.040s sys 0m0.030s Wait time = 0.045s CPU time = 0.070s 35 Προγράµµατα για αξιολόγηση της απόδοσης Real applications (e.g. C compilers, text-processing, Photoshop ) Modified applications (e.g. CPU-oriented benchmark = application-io) Kernels: Isolate performance of individual features (e.g. Livermore loops, Linpack) Toy benchmarks: 10-100 lines code (e.g. sieve of Erastosthenes, puzzle, quicksort) Synthetic benchmarks: try to match average frequency of operations and operands (e.g. Whetstone, Dhrystone) 36 18

Δοκιµασία επιδόσεων -Benchmark Collection of benchmarks SPEC (www.spec.org) Desktop Benchmarks CPU-intensive & graphics-intensive SPEC CPU2000 (11 int + 14 fp) Business Winstone, CC Winstone, Winbench Server Benchmarks CPU throughput-oriented (SPEC CPU SPECrate) I/O activity (disk+net): SPECFS & SPECWeb Transaction-processing: TPC-C, TPC-H/R, TPC-W Embedded Benchmarks EEMBC ( embassy ): automotive/industrial, consumer, networking, office automation, and telecommunication 37 Παρουσίαση αποτελεσµάτων αποδόσεων Reproducibility Complete description: Machine, compiler flags, baseline and optimized results System s software configuration Single-user mode execution Compiler technology Optimizations allowed: No source code modifications (e.g. SPEC and most PC benchmarks) Source code modifications allowed but difficult or impossible (e.g. TPC-C) Source modifications allowed (e.g. NAS, EEMBC) Hand-coding allowed (e.g. EEMBC allows assembly language coding) 38 19

Σύγκριση και σύνοψη της απόδοσης Example A is 10x faster than B for program P1 B is 10x faster than A for program P2 A is 20x faster than C for program P1 C is 50x faster than A for program P2 B is 2x faster than C for program P1 C is 5x faster than B for program P2 Execution times: Comp A Comp B Comp C Program P1[s] 1 10 20 Program P2[s] 1000 100 20 Program P3[s] 1001 110 40 39 Χρόνος Εκτέλεσης Total Execution Time B is 9.1x faster than A for programs P1 and P2 n Arithmetic mean: 1 Time i Weighted Execution Time 20% of tasks are P1 and 80% are P2 Weighted arithmetic mean: n Weight i Time i n i= 1 Normalized Execution Time i= 1 Normalize to a reference machine 40 20

Νόµος του Amdahl Make the Common Case Fast Amdahl s Law: performance improvement to be gained from using some faster mode of execution is limited by the fraction of the time the faster mode can be used Performance _ with _ enhancement Speedup = Performance _ without _ enhancement Depends on: The fraction of computation that can take advantage The improvement gained by enhanced mode 41 Νόµος του Amdahl (2) Frac ExeTime new = ExeTime old (1 Fracenhanced ) + Speedup enhanced enhanced Speedup = ExeTime ExeTime old new = (1 Frac enhanced 1 Frac ) + Speedup enhanced enhanced 42 21

Νόµος του Amdahl (3) Example 1: Enhancing a server for Web. New CPU 10x faster on computation Web serving app. Original CPU busy with computation 40% and waiting for I/O 60%. Overall speedup gain? 43 Νόµος του Amdahl (4) Example 2: Suppose FP square root (FPSQRT) responsible for 20% execution time critical graphics benchmark. FP ops responsible for 50% of the execution time Option A: Enhance FPSQRT hw for 10x faster op Option B: All FP ops 1.6x faster 44 22

Επίδοση του Επεξεργαστή CPU time: CPUtime = clockcycles cycletime clockcycles CPUtime = clockrate Instruction path length, instruction count (IC) Clock cycles per instruction (CPI), Instructions per clock (IPC) CPI = clockcycles instructioncount CPUtime = InstructionCount ClockCycleTime CyclesPerInstruction 45 Επίδοση του Επεξεργαστή (2) Instructions ClockCycles Program Instructions Seconds ClockCycle Seconds Program = CPUtime CPU performance depends Clock cycle (or rate): Hardware technology and organization Clock cycles per instruction: Organization and instruction set architecture (ISA) Instruction count: Instruction set architecture and compiler technology = 46 23

Επίδοση του Επεξεργαστή (3) CPU clock cycles = n i= 1 IC i CPI i n CPU time = ICi CPI i Clock cycle time i= 1 n IC CPI IC = Instruction count Instruction count i i n i= 1 i CPI = i= 1 CPI i 47 Επίδοση του Επεξεργαστή (4) Example: Data Frequency FP ops (excl FPSQR) = 25% Average CPI of FP ops = 4.0 Frequency of FPSQR = 2% CPI of FPSQR = 20 Average CPI of other ops = 1.33 Option A: decrease CPI of FPSQR to 2 Option B: decrease avg CPI for all FP ops to 2.5 48 24

Μέτρηση και διαµόρφωση Monitoring CPU hardware counters Profiling tools Simulation Profile-based static modeling Trace-driven simulation Execution-driven simulation 49 Αρχή της τοπικότητας Programs tend to reuse data and instructions recently used Rule of thumb: A program spends 90% of its execution in only 10% of the code Hint: what should we look at for optimization? Types: Temporal and Spatial 50 25

Επίδοση και τιµή-επίδοση για επιτραπέζια συστήµατα SPEC CINT2000 AMD Athlon 1400MHz $2,091 Intel Pentium4 1700MHz $4,175 Intel PentiumIII 1000MHz $3,834 51 Επίδοση και τιµή-επίδοση για επιτραπέζια συστήµατα SPEC CFP2000 Intel Pentium4 1700MHz $4,175 AMD Athlon 1400MHz $2,091 PA 8600 552MHz $12,631 52 26

Επίδοση και τιµή-επίδοση για επιτραπέζια συστήµατα (4 th Ed) Intel Xeon, 3.8GHz $3346 Intel Itanium2, 1.6GHz $5201 AMD Opteron, 2.4GHz $2145 53 Επίδοση και τιµή-επίδοση για επεξεργασία συναλλαγών (Transaction-Processing) 6 best performance systems for TPC-C 280 PentiumIII 900MHz MS SQL Server $15,543,346 32 Alpha 21264 1000MHz Oracle 9i $10,286,029 48 SPARC64 GP 563MHz SymfoWARE $9,671,742 54 27

Επίδοση και τιµή-επίδοση για επεξεργασία συναλλαγών (Transaction-Processing) 6 best price-performance systems for TPC-C 3 PentiumIII 700MHz MS SQL Server $131,275 4 PentiumIII 700MHz MS SQL Server $297,277 4 PentiumIII 700MHz MS SQL Server $375,016 55 Επίδοση και τιµή-επίδοση για επεξεργασία συναλλαγών (Transaction-Processing) (4 th Ed) Best Performance TPC-C Best Price- Performance 56 28

Επίδοση για ενσωµατωµένους επεξεργαστές (Embedded Processors) IBM PowerPC 750CX 57 Τιµή-επίδοση για ενσωµατωµένους επεξεργαστές NEC VR5432 58 29

Κατανάλωση ισχύος και αποδοτικότητα NEC VR4122 1.6 9.6 6.0 2.1 0.7 W 59 Πλάνες και παγίδες Fallacies (misbeliefs or misconceptions) and Pitfalls (easily made mistakes) Fallacy: Multiprocessors are a silver bullet (programmer s burden) Pitfall: Falling prey to Amdahl s Law Pitfall: A single point of failure Fallacy: Hardware enhancements that increase performance improve energy efficiency Fallacy: Benchmarks remain valid indefinitely Fallacy: The rated mean time to failure of disks is 1.200.000 hours or almost 140 years, so disks practically never fail 60 30

Πλάνες και παγίδες Fallacy: Peak performance tracks observed performance Percentage of peak performance Pitfall: Fault detection can lower availability 61 Πλάνες και παγίδες Fallacy: Relative performance of two processors with same ISA can be judged by clock rate of performance of single benchmark suite Intel P4 vs. P III 62 31

Συµπεράσµατα Growth Changes Markets Trends Benchmarks Performance and Price-Performance Power and Efficiency 63 32