ΗΜΥ 312 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Χειμερινό Εξάμηνο 2007 ΙΑΛΕΞΗ 20: ΙΚΤΥΑ ΟΛΟΚΛΗΡΩΜΕΝΩΝ ΚΥΚΛΩΜΑΤΩΝ ΧΑΡΗΣ ΘΕΟΧΑΡΙ ΗΣ (ttheocharides@ucy.ac.cy) [Προσαρμογή από Computer Architecture, a Quantitive Approach Patterson & Hennessy, 2005, UCB]
Το πρόβλημα διασύνδεσης 300 250 Delay (psec) 200 150 100 50 Interconnect delay Transistor/Gate delay 0 0.8 0.5 0.35 0.25 0.25 0.18 0.15 Technology generation (μm) Source: Gordon Moore, Chairman Emeritus, Intel Corp. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.2 Θεοχαρίδης, ΗΜΥ, 2007
Εισαγωγή Σχεδίαση Ολοκληρωμένων Συστημάτων Technological Advances today s chip can contains 100M transistors. transistor gate lengths are now in term of nano meters. approximately every 18 months the number of transistors on a chip doubles Moore s law. The Consequences components connected on a Printed Circuit Board can now be integrated onto single chip. hence the development of System-On-Chip design. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.3 Θεοχαρίδης, ΗΜΥ, 2007
ίκτυα ιασύνδεσης: Περιληπτικά Τα μέσα μεταφοράς σημάτων που ενώνουν υπολογιστικές μονάδες Η τάση είναι για δικτύωση: Chip multi-processing (CMP) e.g. IBM Cell, MIT RAW, UT TRIPS MPSoCs: Philips Viper2 (TV SoC), ARM 4 32-bit processor core Off-chip: Clusters, multiprocessor servers e.g. InfiniBand Σχεδίαση με βάση ΑΠΟΔΟΣΗ Η κατανάλωση ενέργειας αποδεικνύεται δραματική όμως: Bandwidth and frequencies keep increasing RAW s network: 38% of total power Προβλήματα υπερβολικής κατανάλωσης: Heat generation, power supply cost, battery life, circuit reliability 3 3 mesh network router ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.4 Θεοχαρίδης, ΗΜΥ, 2007
Η εποχή του ενός δισεκατομμυρίου τρανζίστορ Feature sizes diminishing RAPIDLY into the nanometer regime Τα τρανζίστορ σχεδιάζονται με μέγεθος νανόμετρων! Αύξηση πυκνότητας τρανζίστορ σε chip Οι καθυστερήσεις πυλών μειώνονται δραστικά Όσον αφορά τα Global Wiring delays? As wire cross-sections decrease, resistance INCREASES! Photo by Intel Intel Itanium 2 (Codename Montecito) 1.7 BILLION transistors per die! Το σύστημα διασύνδεσης αφορά όλες τις πτυχές μέτρησης όπως Υλικό/AREA, Ισχύ/POWER, και αξιοπιστία/reliability Το σύστημα διασύνδεσης ΕΝ μπορεί πλέον να αγνοηθεί! ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.5 Θεοχαρίδης, ΗΜΥ, 2007
Οι καθυστερήσεις στην καλωδίωση δεν μπορούν να επιλυθούν εύκολα! Global w/o Repeaters Global with Repeaters Delay for Metal 1 and Global Wiring versus Feature Size (2005 ITRS) Gate Delay ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.6 Θεοχαρίδης, ΗΜΥ, 2007
Σχετικές Καθυστερήσεις Πυλών vs. Καλωδίων 250 nm Gate Delay Global Wiring 32 nm Global Interconnect Delays are NOT Scaling like Gate Delays! Photo by IBM ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.7 Θεοχαρίδης, ΗΜΥ, 2007
System-on-Chip (SoC) Επαναστατικός Σχεδιασμός ASIC design Μέχρι τώρα Physical Components Τώρα / Μέλλον System-on-Board Integration Αυξημένη πολυπλοκότητα των κυκλωμάτων IP Re-Use (Επαναχρήση) On-chip Interconnect Scalability Ικανότητα Προσθαφαίρεσης Μονάδων Design IP Blocks Logical Components System-on-Chip Integration ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.8 Θεοχαρίδης, ΗΜΥ, 2007
Χαρακτηριστικά των SoCs Επαναχρήση και του design και του test Hard cores: available as layouts or netlists Soft cores: Available as synthesizable HDL code SoC Design Selection and specialization of cores Example: In a processor core you may have an option of selecting number of registers Standard interfaces Plug n Play Εφαρμογή Plug the core into a predefined area and expect it to work. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.9 Θεοχαρίδης, ΗΜΥ, 2007
Σημερινά Ετερογενή (Heterogeneous) SoC CPU DSP MEM Interconnection network (BUS) Embedded FPGA Dedicated IP I/O ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.10 Θεοχαρίδης, ΗΜΥ, 2007
On-chip Interconnect Scalability Shared-Medium, Bus-Based Architectures Segmented Bus Hierarchical Bus Ring-Based Architectures IBM Cell Microprocessor (8 cores) Crossbar-Based Architectures Sun UltraSPARC T1 (Niagara) (8 cores) Microsoft Xbox 360 CPU (by IBM) (3 cores) Nonscalable Point-to-Point Architectures Global Wiring Complexity ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.11 Θεοχαρίδης, ΗΜΥ, 2007
Τα Buses μας θυμίζουν Spaghetti Accelerator Bus TDM Internal Data memory DMA IF DMA Data AHB Master Bridge DMA - DATA bus 2 CORE - DATA bus CORE - program bus DMA - DATA bus 1 IF CEVA-X1620 O I/O Data Controller Core DMA Prog. AHB Slave Bridge ARM DATA - bus IF Program Controller Internal Program memory L2 SRAM I/O APB bridge TAG L2 SRAM Peripheral APB CRU TIMERS ICU PMU GPIO APB system control User peripherals User peripherals User peripherals ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.12 Θεοχαρίδης, ΗΜΥ, 2007
ΟεπεξεργαστήςCell Processor ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.13 Θεοχαρίδης, ΗΜΥ, 2007
Ο Cell Processor ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.14 Θεοχαρίδης, ΗΜΥ, 2007
Cell Processor (συν.) Fclock > 4 GHz. Memory bandwidth: 25.6 GBytes per second. I/O bandwidth: 76.8 GBytes per second. Performance: 256 GFLOPS (Single precision at 4 GHz). 256 GOPS (Integer at 4 GHz). 25 GFLOPS (Double precision at 4 GHz). 235 square mm. 235 million transistors. Power consumption estimated at 60-80 W @ 4GHz ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.15 Θεοχαρίδης, ΗΜΥ, 2007
Cell s Element Interconnect Bus From the trenches: D. Krolak, IBM Well, in the beginning, early in the development process, several people were pushing for a crossbar switch, and the way the bus is architected, you could actually pull out the EIB and put in a crossbar switch if you were willing to devote more silicon space on the chip to wiring. We had to find a balance between connectivity and area, and there just wasn't enough room to put a full crossbar switch in. So we came up with this ring structure which we think is very interesting. It fits within the area constraints and still has very impressive bandwidth. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.16 Θεοχαρίδης, ΗΜΥ, 2007
Cell s Element Interconnect Bus 4 rings (2 ckwise + 2 counter-ckwise) No token rings, still request/grant arbitrations ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.17 Θεοχαρίδης, ΗΜΥ, 2007
ίαυλος (Bus) συν ( ) και κατά () Every unit attached adds parasitic capacitance, therefore electrical performance degrades with growth. Bus timing is difficult in a deep submicron process. Bus arbiter delay grows with the number of masters. The arbiter is also instancespecific. Bandwidth is limited and shared by all units attached. Bus latency is zero once arbiter has granted control. The silicon cost of a bus is near zero. Any bus is almost directly compatible with most available IPs, including software running on CPUs. The concepts are simple and well understood. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.18 Θεοχαρίδης, ΗΜΥ, 2007
Μαθαίνοντας από FPGAs Universal Logic Blocks Regular layout and Interconnection resources Programmability ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.19 Θεοχαρίδης, ΗΜΥ, 2007
Enter the Network-on-Chip (NoC)! Replace Global Wires with a Resource-Constrained Network Structured Interconnect Layout Electrical Properties OPTIMIZED and WELL CONTROLLED NoCs are like IP Blocks for Wiring! PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.20 Θεοχαρίδης, ΗΜΥ, 2007
Systems-on-Chip Systems-on-Chip Networks-on-Chip ALU CORE VGA CORE DSP ADC / DAC ANALOG ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.21 Θεοχαρίδης, ΗΜΥ, 2007
Homogeneous SoC (MP-SoC) CPU CPU CPU CPU MEM MEM MEM MEM Interconnection network (BUS, XBAR) CPU CPU CPU CPU MEM MEM MEM MEM ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.22 Θεοχαρίδης, ΗΜΥ, 2007
NoC exemplified Processor Master Processor Master Processor Master Routing Node Routing Node Routing Node Global Memory Slave Processor Master Processor Master Processor Master Global I/O Slave Routing Node Routing Node Routing Node Global I/O Slave Processor Master Processor Master Processor Master Routing Node Routing Node Routing Node ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.23 Θεοχαρίδης, ΗΜΥ, 2007
What are Networks-on-Chip (NoC)? Processing Elements (PEs) interconnected via a packet-based network NIC NIC NIC R R R NIC b b b-bit Links NIC NIC NIC R R R Router NIC NIC NIC R R R ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.24 Θεοχαρίδης, ΗΜΥ, 2007
Networks On Chip Messages packetized at PE-Network Interface, routed to destinations where they are de-packetized into data. MSG Packetized Message MSG Decoded Message ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.25 Θεοχαρίδης, ΗΜΥ, 2007
Τι υποκινεί την μεταβίβαση σε NoC; Αποτελεσματική χρήση (δίκαιη) των καλωδίων. Χαμηλότερο εμβαδό (area) / χαμηλότερη ισχύ (power) / γρηγορότερη λειτουργία (operation) Μικρότερος χρόνος σχεδίασης και λιγότερη προσπάθεια σχεδιασμού Επεκτασιμότητα ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.26 Θεοχαρίδης, ΗΜΥ, 2007
NoC Customization / Προσαρμογή Place Modules Trim routers / ports / links Adjust link capacities ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.27 Θεοχαρίδης, ΗΜΥ, 2007
Μονάδες ικτύου Network Interface Το υλικό μεταξύ του κάθε PE και του router Δημιουργεί τα πακέτα data/control για δεδομένα που αποστέλλονται Αποκωδικοποιεί λαμβανόμενα πακέτα data/control Network Router/Switch Λαμβάνει πακέτα και τα δρομολογεί με βάση τον αλγόριθμο δρομολόγησης Χρησιμοποιεί Crossbar switch για διακλάδωση / switching Περιέχει χώρο αποθήκευσης (buffering capacity for switching) Optional error control, QoS hardware, etc. Network Links Τα φυσικά κανάλια επικοινωνίας μεταξύ δρομολογητών και επεξεργαστικών μονάδων (Physical channels between each router-to-router and router-to-pe) Unidirectional links typically (ένα για input, ένα για output) Low-swing signals για σκοπούς low-power consumption ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.28 Θεοχαρίδης, ΗΜΥ, 2007
Regular Network on Chip - Αρχιτεκτονική PE PE PE PE PE PE Router PE PE PE PE ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.29 Θεοχαρίδης, ΗΜΥ, 2007
Γενική Αρχιτεκτονική του Router και I/O ROUTING DECISION MXN ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.30 Θεοχαρίδης, ΗΜΥ, 2007
Γενική Αρχιτεκτονική του NoC Router n th INPUT PORT n th OUTPUT PORT ERROR DETECTION/ ERROR CORRECTION ACK/NACK / CORRECTED DATA Retransmission Registers Retransmission? Crossbar INCOMING FLIT Routing Decision Unit Virtual Channel Arbitration Crossbar Arbitration FORWARD FLOW OUTGOING FLIT Switch NACK/ACK Virtual Channel Registers (N)ACK from next router ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.31 Θεοχαρίδης, ΗΜΥ, 2007
Ένα γενικό NoC Router VC Identifier Input Port with Buffers From East From West VC 0 VC 1 VC 2 VC 0 VC 1 Routing Unit (RC) VC Allocator (VA) Switch Allocator (SA) Control Logic VC 2 From North VC 0 VC 1 VC 2 To East To West To North From South VC 0 VC 1 To South To PE From PE VC 2 VC 0 VC 1 Crossbar (5 x 5) Crossbar VC 2 ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.32 Θεοχαρίδης, ΗΜΥ, 2007
ΗτυπικήμορφήδιασωλήνωσηςτουNoC Router (Pipeline) Routing VC 1 Flit In VC 2 : VC V VC Alloc. VC Arbiter Switch Alloc. SA Arbiter Crossbar Flit Out L.S. Peh et al. (HPCA 2001) 3-stage pipeline Look-Ahead Routing (ISCA 2006, DAC 2005) 2-stage pipeline R. Mullins et al. (ISCA 2004) 1-stage pipeline ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.33 Θεοχαρίδης, ΗΜΥ, 2007
Προβλήματα που πρέπει να επιλυθούν! Power Consumption Κατανάλωση Ενέργειας! Overhead power consumed in routers, network interfaces, and overhead data transmission/encoding Data such as addresses, control bits, etc. Reliability - Αξιοπιστία Reliable data transmission is a necessary concept for any on-chip Network Network guarantees data transmission from PE A to PE B. Performance - Απόδοση Network net throughput Defined as the rate of useful data that can be sent over the network Network utilization Σε γενικές γραμμές, προβλήματα που αντιμετωπίζουν τα παραδοσιακά δίκτυα υπολογιστών! ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.34 Θεοχαρίδης, ΗΜΥ, 2007
Τοπολογίες (Topologies) Λαμβάνονται από τα παραδοσιακά δίκτυα αλλά πάνε σε καινούριους περιορισμούς! Πρέπει να τοποθετούνται σε 2D layout Δεν μπορούμε να χρησιμοποιούμε μακριά καλώδια! (clock frequency bound) a) SPIN, b) CLICHE c) Torus d) Folded torus e) Octagon f) BFT. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.35 Θεοχαρίδης, ΗΜΥ, 2007
Topologies (Συνέχεια) Οι διαφορετικές τοπολογίες καταλήγουν σε διαφορετικού είδους κίνηση στο δίκτυο (different traffic patterns - the way in which nodes are connected in a network impacts latency) 2D mesh 2D Torus Bandwidth Traffic pattern Χαμηλού κόστους Κάποια nodes σε πιο πολλά παρά άλλα Τείνει να παράγει hot spots στο κέντρο της τοπολογίας Χαμηλότερη καθυστέρηση στην παράδοση μηνυμάτων Η χρήση Folded torus αποφεύγει την καθυστέρηση καλωδίων Όλα τα nodes στο torus είναι ενωμένα με τον ίδιο αριθμό. Ομοιόμορφο traffic density ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.36 Θεοχαρίδης, ΗΜΥ, 2007
Πακέτα και ιευθύνσεις Μέγεθος Πακέτου # ς πακέτων ανά μήνυμα. Και το header και το payload είναι πακέτα Μήκος πακέτου Explicit Implicit Σχήμα διεύθυνσης E.g. 6 bit encoding for at most an 8*8 array ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.37 Θεοχαρίδης, ΗΜΥ, 2007
Switching activity - ιακλάδωση Virtual Cut-Through Packet is forwarded as soon as destination can accept it in its entirety Buffering requirements pretty high Store-and-Forward Packet is received in its entirety and then it is forwarded Again, high buffering requirements Wormhole Routing Packets are broken down into flits (smallest bufferable chunk) Flits are being routed as soon as the destination can accept a single flit Much smaller buffering requirements Preferred method of switching in NoC s today ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.38 Θεοχαρίδης, ΗΜΥ, 2007
Αλγόριθμοι ιακλάδωσης S S S D D D X-Y routing Hierarchical routing Hot-potato routing ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.39 Θεοχαρίδης, ΗΜΥ, 2007
Καλωδίωση και Τοποθέτηση ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.40 Θεοχαρίδης, ΗΜΥ, 2007
Crossbar Switches INPUTS E IN W N S PE OUT Control E W N S PE OUTPUTS Η καθυστέρησηενόςcrossbar αυξάνεται λογαριθμικά όσο μεγαλώνει ο αριθμός εισόδων/εξόδων Επιβάλει όριο στο πόσο μπορεί να συνδεθεί ένα δίκτυο Τρομερή κατανάλωση ενέργειας ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.41 Θεοχαρίδης, ΗΜΥ, 2007
Εικονικά Κανάλια N VC # 1 S E W CROSSBAR PRIORITY DETERMINATION UNIT VC # 2 OUTPUT LINK PE VC # n Virtual Channel Selection Signal Τα εικονικά κανάλια χρησημοποιούνται για απόδοση προτερεότητας και αποφοιγή αδιεξόδων (QoS and deadlock avoidance) Η χωρητικότητα του buffer είναι συνελταστικός παράγοντας Το hardware για εικονικά κανάλια μπορεί να είναι πολύπλοκο ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.42 Θεοχαρίδης, ΗΜΥ, 2007
Παράμετροι ικτύου Channel width Μέγεθος σε ψηφία Flit size Μέγεθος flit πόσα χρειάζονται ανά πακέτο; Number of channels two nodes can have more than one channel between them Αριθμός Καναλιών. Buffer memory parameters - Critical since we cannot drop packets Χωρητικότητα Χώρων. Flit buffer depth Μέγεθος σε flits/buffer. Flit buffer organization Shared between channels Individual buffers for each channels ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.43 Θεοχαρίδης, ΗΜΥ, 2007
Hot Spots in NoC Θερμά Σημεία Hot Spot: A module that occasionally cannot digest all the traffic addressed to it Results in temporary massive delay build-up Results in blocking the net! This is NOT congestion on the net Higher network capacity won t help Examples Port to off-chip DRAM Shared resource on chip ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.44 Θεοχαρίδης, ΗΜΥ, 2007
HotSpots in NoC (cont d) When HotSpot (HS) cogs, worms get stuck in the network, and block other worms IP (HS) Interface Two problems: Performance Απόδοση Fairness Δίκαιη κατανομή πηγών ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.45 Θεοχαρίδης, ΗΜΥ, 2007
HS Affects the System IP1 (HS) Interface IP2 Interface Interface IP3 HS is not a local problem. Traffic destined elsewhere suffers too! The Green packet experiences long delay even though it does NOT share any link with HS traffic ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.46 Θεοχαρίδης, ΗΜΥ, 2007
Network Performance As HS module utilization grows, a large part of the system becomes clogged ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.47 Θεοχαρίδης, ΗΜΥ, 2007
Source (un)fairness Module location greatly affects QoS Example: At 90% utilization, a distant module experiences x10 the latency of a close one R R R R 1 HS 3 4 R R R R 5 6 7 8 R R R R Simulation results for a 4x4 NoC with 10Gbit/Sec links, 6Gbit/Sec HS Module 9 10 11 12 R R R R 13 14 15 16 ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.48 Θεοχαρίδης, ΗΜΥ, 2007
Blocked Output Ports ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.49 Θεοχαρίδης, ΗΜΥ, 2007
Cooling down the Hot Spot When the spot gets hot, block new packets to it This is prevention How? With credit-based allocation ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.50 Θεοχαρίδης, ΗΜΥ, 2007
HotSpot Credit-Based Allocation IP3 Interface IP2 (HS) Scheduler Enhanced Interface NoC Flow Control IP1 Interface IP4 ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.51 Θεοχαρίδης, ΗΜΥ, 2007
HotSpot Credit-Based Allocation IP3 Interface IP2 (HS) Scheduler Enhanced Interface NoC Flow Control IP1 Interface IP4 ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.52 Θεοχαρίδης, ΗΜΥ, 2007
HotSpot Credit-Based Allocation IP3 Interface IP2 (HS) Scheduler Enhanced Interface NoC Flow Control IP1 Interface IP4 ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.53 Θεοχαρίδης, ΗΜΥ, 2007
Κατανάλωση Ενέργειας Network power identified as a limitation - ~40% of total power! Energy(flit) = [E(write buffer) + E(read buffer) + E(arbitration) + E(crossbar) + E(link) ] * # of Hops = E(Buffers)+ E(Arbitration) + E(crossbar) + E(link) * Hops Energy (Packet) = E(Flit) X # flits/packet Energy per packet depends on the amount of flits per packet, and the number of hops the packet travels through the network The larger the network, the more hops Need better routing algorithms, topologies, etc. ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.54 Θεοχαρίδης, ΗΜΥ, 2007
New Challenges = New Opportunities 3D Chip Design How about the third dimension?
3D Stacking = Increased Locality! Many more neighbors within a few minutes of reach! ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.56 Θεοχαρίδης, ΗΜΥ, 2007
3D Benefit: Increased Locality CPU Nodes within 2 hops Nodes within 1 hop Nodes within 3 hops 2D vicinity 3D vicinity Bus-based Inter-Layer Communication (dtdma Bus Pillar) ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.57 Θεοχαρίδης, ΗΜΥ, 2007
3-D Networks on Chip ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.58 Θεοχαρίδης, ΗΜΥ, 2007
Περίληψη Συστήματα διασύνδεσης εξίσου σημαντικά με τις μονάδες που συνδέουν Τα πιο σημαντικά χαρακτηριστικά των συστημάτων διασύνδεσης πάντα έχουν να κάνουν με μετρικά όπως παραγωγή, εύρος, ενέργεια, αξιοπιστία και χρησιμοποίηση. Επόμενη διάλεξη Επεξεργαστές Ειδικών Εφαρμογών ΗΜΥ312 20 ίκτυα Ολοκληρωμένων Κυκλωμάτων.59 Θεοχαρίδης, ΗΜΥ, 2007