MPSoCs για εφαρμογές Video

Αρχιτεκτονικές επεξεργασίας video SIMD (single instruction multiple data). Βασίζονται στον παραλληλισμό των δεδομένων. Χαρακτηρίζονται από πολλαπλά datapaths τα οποία εκτελούν την ίδια λειτουργία παράλληλα σε διαφορετικά set δεδομένων Spilt-ALU. Κάνει χρήση του παραλληλισμού των subwords όπου ένας αριθμός (π.χ. 4) μικρότερης ακρίβειας (π.χ. 8-bit) κομματιών δεδομένων επεξεργάζονται παράλληλα σε μια μεγαλύτερης ακρίβειας (π.χ. 32-bit) ALU. Η ALU αυτή χρειάζεται hardware επεκτάσεις για να αποτρέπει, για παράδειγμα, την διάδοση των σημάτων κρατουμένου σε μια πρόσθεση πέρα από τα όρια των δεδομένων.

VLIW (very long instruction word). Μια VLIW μηχανή παρέχει τα μέσα για να εκμεταλλευθεί τον instructionlevel παραλληλισμό των multimedia αλγορίθμων ορίζοντας, σε μια μεγάλη λέξη εντολής, την ταυτόχρονη εκτέλεση πολλαπλών λειτουργιών σε πολλαπλά functional units. MIMD (multiple instruction multiple data). Προσπαθεί να εκμεταλλευτεί τον παραλληλισμό και σε επίπεδο δεδομένων αλλά και σε επίπεδο λειτουργιών. Έχουν πολλαπλά datapaths το καθένα με την δικιά του μονάδα ελέγχου με αποτέλεσμα διαφορετικά datapath να μπορούν να προγραμματιστούν την ίδια στιγμή να εκτελούν διαφορετικές λειτουργίες σε διαφορετικά set δεδομένων. Διαχωρίζονται σε tightly coupled, όπου υπάρχει μια κοινόχρηστη μνήμη, και σε loosely coupled όπου η μνήμη είναι κατανεμημένη.

Ειδικές εντολές. Η ιδέα είναι η μελέτη συγκεκριμένων αλγορίθμων, η αναγνώριση συνήθων λειτουργιών, και η εισαγωγή ειδικού hardware για να αντικατασταθούν μια μεγάλη ακολουθία standard συχνών εντολών από ειδικές εντολές, που θα εκτελούνται στο νέο hardware, με αποτέλεσμα να μειώνεται ο αριθμός των εντολών και ο χρόνος που απαιτείται για την εκτέλεση ενός έργου. Co-processors. Επιτρέπουν την εκτέλεση συχνών και υπολογιστικά απαιτητικών λειτουργιών σε ξεχωριστό hardware ειδικού σκοπού ενώ ο όχι τόσο απαιτητικός έλεγχος και η μη συχνές λειτουργίες εκτελούνται στον έναν ή περισσότερους programmable processor cores

Βέλτιστες διαμορφώσεις CPU και διασυνδέσεων Η βελτίωση της απόδοσης της εκτέλεσης μεμονωμένων εντολών δεν αυξάνει πολύ την συνολική απόδοση του συστήματος. Αυτό μπορεί να συμβεί μόνο με την παρουσία πολλών επεξεργαστών που θα μοιράζονται το βάρος του ελέγχου των διαφόρων εργασιών Μονολιθικές CPU. Πέρα την ολοκλήρωση διαφόρων περιφερειακών χρειαζόμαστε πρόσθετη υπολογιστική ισχύ χρησιμοποιώντας πολλαπλούς πυρήνες CPU. Για παράδειγμα ο PNX-8500 της Phillips χρησιμοποιεί 2 πυρήνες CPU των TM32 TriMedia πυρήνα (VLIW) με πολύ μεγάλη απόδοση και με multimedia-enhanced instruction set κατάλληλο για audio και video επεξεργασία. έναν standard MIPS32 reduced instruction set computing (RISC) πυρήνα ο οποίος έχει το λειτουργικό και πάνω από αυτό τρέχει το software της εφαρμογής

Reconfigurable CPUs. Μπορούν οι μονολιθικοί επεξεργαστές (RISC,VLIW,DSP ) να αντικατασταθούν από compile-time-configurable CPUs. Αυτοί οι επεξεργαστές μπορούν να προσαρμοστούν όχι μονό ως προς το μέγεθος της μνήμης που υποστηρίζουν αλλά και ως προς των αριθμό των περιφερειακών ενώ έχουν την δυνατότητα να προσθέτουν custom λειτουργίες σχετικές με hardware επεκτάσεις όπως lookup tables, x-y memories, add-compare select μονάδες και multiplyaccumulate (MAC) μονάδες. Αυτοί οι επεξεργαστές προσφέρουν πολύ αυξημένη ευλυγισία καθώς μια διαμορφώσιμη αρχιτεκτονική μπορεί να χρησιμοποιηθεί σε πολλές εφαρμογές. Επίσης έχουν την δυνατότητα του postfabrication modification του να προσαρμόζονται, δηλαδή, στην εκάστοτε εφαρμογή ή να διορθώνουν bugs.

Networked CPUs. Μερικές μεγάλες μονολιθικές CPUs μπορούν να είναι πολύ κατάλληλες για τις παραδοσιακές, υψηλής απόδοσης εργασίες αλλά δεν προσφέρουν ικανοποιητική απόδοση όταν επεξεργάζονται πολλές μικρές (και ειδικές) εργασίες, όπως απαιτείται π.χ., στο χώρο των Multimedia. Το taskswitching overhead και οι ειδικές λειτουργίες που απαιτούνε αυτές έχουν μεγάλο αντίκτυπο στην απόδοση αυτών των CPUs. Σε αυτές τις περιπτώσεις είναι καλύτερο να διασπαστεί ο αλγόριθμος στα βασικά του κομμάτια και να εκτελούνται αυτά σε ειδικό hardware,ένα δίκτυο, δηλαδή, από μικρές DSP μονάδες. Το πρόβλημα σε αυτή την περίπτωση είναι το sharing τον μονάδων αποθήκευσης καθώς και η αυτοματοποιήσει του ελέγχου του datapath

Smart Interconnects. Data streaming συνήθως υποθέτει use-case-dependent ευέλικτες διασυνδέσεις μεταξύ του hardware και του software. Η άποψη του software για αυτές τις διασυνδέσείς πρέπει να είναι αφαιρετική στην ιδέα του pipeline.οι tree διασυνδέσεις μεταξύ clusters CPUs είναι ένας αποδοτικός τρόπος. Εντούτοις, για να απαλλαγούν οι CPUs από το έργο της επικοινωνίας, χρειαζόμαστε τα smart intreconnects. Αυτές οι διασυνδέσεις μπορούν αυτόματα να διαχειριστούν τους buffers και την ροή πληροφοριών που συνδέεται με δύο συνεργάτες στο δίκτυο χωρίς οποιαδήποτε επέμβαση από την CPU. Data-triggered software εργασίες, μέσω μηχανισμών interrupt, έχουν σαν αποτέλεσμα αποτελεσματική data driven επικοινωνία και επεξεργασία σε τέτοια συστήματα

Βασικές και νέες απαιτήσεις για την σχεδίαση ενός SoC Μια σαφώς ορισμένη on-chip αρχιτεκτονική διασύνδεσης και επικοινωνίας των υποσυστημάτων Επαρκής εφοδιασμός από υψηλής ποιότητας, επαναχρησιμοποιήσιμα ( standard διεπαφές, που μπορούν να χρησιμοποιηθούν σε πλήθος αρχιτεκτονικών) και διαμορφώσιμα (μπορούν να αλλάξουν ορισμένες παραμέτρους ανάλογα την εφαρμογή) IP (intellectual property) cores (πυρήνες) IP cores συμμόρφωση σε ορισμένους κανόνες (για την αρχιτεκτονική, σχεδιασμό, επαλήθευση, συσκευασία, και δοκιμή) που επιτρέπει την ολοκλήρωση με την ελάχιστη προσπάθεια διαθεσιμότητα των πλαισίων IP για την αξιολόγηση ενός IP πριν την χρησιμοποίηση του αποδοτική χρήση των design plan synthesis methods για την πρόωρη εξερεύνηση εναλλακτικών λύσεων προκειμένου να καθοριστεί ένα βέλτιστο deign flow Hardware-software partitioning Σύνθεση σε λογικό επίπεδο που να συνδέεται όμως και με το φυσικό σχεδιασμό Performance-driven place and route συνδυασμένη με timing/power ανάλυση ένα σε βάθος system-level σχεδιασμός και ανάλυση

Platform-based σχεδιασμός Προκειμένου να υπογραμμιστεί η συστηματική επαναχρησιμοποίηση, το χαμηλότερο κόστος ανάπτυξης, η ελαχιστοποίηση των κινδύνων, και να μειωθεί ο χρόνος ανάπτυξης χρησιμοποιείται Platform-based σχεδιασμός. Η ιδέα είναι να μην ξεκινάει ο σχεδιασμός ενός SoC κάθε φορά από την αρχή αλλά να χρησιμοποιεί μερικά προκαθορισμένα κομμάτια της αρχιτεκτονικής ορισμένα για συγκεκριμένες εφαρμογές Μια SoC πλατφόρμα είναι μια βιβλιοθήκη εικονικών συστατικών και ένα αρχιτεκτονικό πλαίσιο, αποτελούμενη από ένα σύνολο ενσωματωμένου και προεπιλεγμένου λογισμικού και υλικού, εικονικά συστατικά (VCs), πρότυπα, EDA και εργαλεία λογισμικού, βιβλιοθήκες και μεθοδολογία, για να υποστηρίξει τη γρήγορη ανάπτυξη προϊόντων μέσω της αρχιτεκτονικής εξερεύνησης, ολοκλήρωσης και επαλήθευσης

Τοπολογίες διαύλων η απόδοση ενός πολυεπεξεργαστικού συστήματος στηρίζεται σε μεγάλο ποσοστό σε μια αποδοτική επικοινωνία μεταξύ των επεξεργαστών στην ισορροπημένη διανομή φορτίων μεταξύ τους. Με πολλαπλές CPU και με ένα πλήθος περιφερειακών συστημάτων το μεγάλο πρόβλημα της επικοινωνίας λύνεται χρησιμοποιώντας ένα πολυεπίπεδο και ιεραρχικό σύστημα από buses, τα οποία συνδέονται μεταξύ τους με bridges, οι οποίες δρουν είτε σαν μετατροπείς πρωτοκόλλων είτε για να συνδέουν buses διαφορετικών ταχυτήτων Παράδειγμα το CoreConnect έχει 3 επίπεδα Processor local bus (PLB) : high perfomance/low latency processor bus με ξεχωριστά read/write channels On-chip peripheral bus (OPB) : low speed, ξεχωριστά read/write channels για αποφυγή των bottlenecks από αργές I/O devices Device control register (DCR) : daisy chained low-speed datapath για διακίνηση πληροφοριών κατάστασης και διαμόρφωσης

PNX-8500 2 επεξεργαστές, 1 για Multimedia processing και 1 για control processing Κάθε CPU είναι υπεύθυνη για συγκεκριμένα περιφερειακά και επικοινωνεί με αυτά με ξεχωριστό local bus Για περιφερειακά που ανήκουν και στις 2 γίνεται οι CPU διαπραγματεύονται για την χρήση τους με την βοήθεια σεμαφόρων Οι απαιτήσεις για το σύστημα επικοινωνίας είναι Η cache κίνηση των CPU πρέπει να διαχωρίζεται από την κίνηση των δεδομένων των register H προσπέλαση των 2 CPU στους registers πρέπει να διαχωρίζεται Η σύνδεση των CPU με την μνήμη πρέπει να είναι high perfomance/low latency Κάθε CPU πρέπει να έχει low latency πρόσβαση στα περιφερειακά της μέσω του local bus της Όλοι οι register στα διάφορα περιφερειακά πρέπει να είναι προσβάσιμη και από τις 2 CPU

Tristate vs Point-to-Point Bus Χρησιμοποιήθηκε high-performance point-topoint bus (MMI) για την πρόσβαση στην μνήμη Tristate bus (PI) για πρόσβαση των control registers

Για τα περιφερειακά που δεν χρειάζονται high DMA bandwidth υπάρχουν 3 επιλογές από τις οποίες επιλέχθηκε η πρώτη

Τελική τοπολογία 2 διακριτά Bus systems 64-bit high performance point-to-point MMI bus Παρέχει high bandwidth/low latency πρόσβαση στην μνήμη Χρησιμοποιεί έναν round-robin αλγόριθμο για διαιτησία 32-bit tristate PI bus Παρέχει πρόσβαση στους control registers των περιφερειακών Παρέχει ένα medium bandwidth DMA path μέσω μιας gateway σύνδεσης στο ΜΜΙ bus

PI bus To PI bus χωρίζεται σε 3 υπο-τμήματα F-PI (fast PI) bus : low latency πρόσβαση στην μνήμη και σε ορισμένα περιφερειακά για τον επεξεργαστή MIPS M-PI (MIPS-PI) bus : παρέχει πρόσβαση στα περιφερειακά που ελέγχονται από τον MIPS επεξεργαστή T-PI (TriMedia-PI) bus : παρέχει πρόσβαση στα περιφερειακά που ελέγχονται από τον TriMedia επεξεργαστή

Design for Testability Η σχεδίαση ενός SoC εγείρει πολλά προβλήματα ως προς το testability Μη ομογενής κυκλώματα και πυρήνες έχουν διαφορετικά χαρακτηριστικά και απαιτούν διαφορετικούς τρόπους αντιμετώπισης ως προς το testability Εμφανίζουν διαφορετικά επίπεδα test friendliness Η λύση είναι η προσθήκη, εκτός των παραδοσιακών κυκλωμάτων (BIST), ειδικού hardware

ΙEEE P1500 Ένα νέο test standard Χρησιμοποιεί module-level boundary-scan υποδομές (wrappers), οι οποίες επιτρέπουν intercore και intracore test λειτουργίες να εκτελεστούν μέσω ενός TAM (test access mechanism) Τα wrappers απομονώνουν έναν IP πυρήνα από το περιβάλλον του και διασφαλίζουν ότι Ο IP πυρήνας μπορεί να ελεγχθεί αφού έχει ολοκληρωθεί σε ένα SoC Οι διασυνδέσεις μεταξύ των πυρήνων μπορούν να ελεγχθούν