Parallel Architectures
|
|
- Θήρα Μαυρογένης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Parallel Architectures Coherence & Consistency
2 Παράλληλες Αρχιτεκτονικές (1) Οι πολυεπεξεργαστές γνώρισαν ιδιαίτερη ανάπτυξη από τη δεκαετία των 90s : Servers Supercomputers για την επίτευξη μεγαλύτερης επίδοσης σε σύγκριση ένα επεξεργαστή Στις μέρες μας : Περιορισμένα περιθώρια περαιτέρω εκμετάλλευσης ILP Περιορισμοί ως προς την κατανάλωση ενέργειας (power consumption) Μείωση κόστους σχεδιασμού μέσω επαναχρησιμοποίησης (replication) σχεδίων Αποδοτική χρησιμοποίηση πολυεπεξεργαστών (ιδιαίτερα σε servers) όπου υπάρχει thread level parallelism Αύξηση η ενδιαφέροντος για σχεδίαση τη servers και την απόδοση τους 2 cslab@ntua
3 Παράλληλες Αρχιτεκτονικές (2) Όλα αυτά οδηγούν σε μια νέα εποχή όπου τον κύριο ρόλο διαδραματίζουν οι πολυεπεξεργαστές Desktop μηχανήματα για κάθε χρήστη με 2, 4, 6, 8, πυρήνες We are dedicating all of our future product development to multicore designs. We believe this is a key inflection point for the industry Intel President Paul Otellini, cslab@ntua
4 Παράλληλες Αρχιτεκτονικές (3) Single Instruction stream, Single Data stream (SISD) Single Instruction stream, Multiple Data streams (SIMD) Πολλαπλοί επεξεργαστές, ίδιες εντολές, διαφορετικά δεδομένα (data level parallelism). Multiple Instruction streams, Single Data stream (MISD) Μέχρι σήμερα δεν έχει εμφανιστεί στην αγορά κάποιο τέτοιο σύστημα. Multiple Instruction streams, Multiple Data streams (MIMD) O κάθε επεξεργαστής εκτελεί τις δικές του εντολές και επεξεργάζεται τα δικά του δεδομένα. Πολλαπλά παράλληλα νήματα (thread level parallelism). Θα ασχοληθούμε κυρίως με MIMD συστήματα. Thread level parallelism Ευελιξία: λξί Λειτουργία είτε ως single user multiprocessors εστιάζοντας στην απόδοση μιας εφαρμογής, είτε ως multiprogrammed multiprocessors εκτελώντας πολλαπλές λειτουργίες ταυτόχρονα. Πλεονεκτήματα κόστους απόδοσης χρησιμοποιώντας off the self επεξεργαστές. 4 cslab@ntua
5 MIMD Συστήματα (1) Παραδείγματα MIMD συστημάτων Clusters (commodity/custom clusters) Multicore systems Κάθε επεξεργαστής εκτελεί διαφορετικό process (διεργασία). process : A segment of code that can be executed independently. Σε ένα πολυπρογραμματιστικό περιβάλλον, οι επεξεργαστές εκτελούν διαφορετικά tasks κι επομένως κάθε process είναι ανεξάρτητη από τις υπόλοιπες. Όταν πολλαπλά processes μοιράζονται κώδικα και χώρο διευθύνσεων (address space) τότε ονομάζονται threads (νήματα). Σήμερα ο όρος thread χρησιμοποιείται για να περιγράψει γενικά πολλαπλές εκτελέσεις, οι οποίες μπορεί να πραγματοποιηθούν σε διαφορετικούς επεξεργαστές ανεξάρτητα από το αν μοιράζονται ή όχι το address space. Οι multithreaded (πολυνηματικές) αρχιτεκτονικές επιτρέπουν την ταυτόχρονη εκτέλεση πολλαπλών processes με διαφορετικό address space, καθώς και πολλαπλών threads που μοιράζονται το ίδιο address space. 5 cslab@ntua
6 MIMD Συστήματα (2) Για την αποδοτική χρήση ενός MIMD συστήματος με n επεξεργαστές, απαιτούνται τουλάχιστον n threads/processes. Δημιουργία από τον προγραμματιστή ρα α ή τον compiler Grain Size :To μέγεθος (amount of computation) του κάθε thread Fine grain : Μερικές δεκάδες εντολές (π.χ. κάποιες επαναλήψεις ενός loop, instruction level parallelism) Coarse grain : Εκατομμύρια εντολές (thread level parallelism) Τα MIMD συστήματα χωρίζονται σε 2 κατηγορίες με βάση την οργάνωση της ιεραρχίας της μνήμης τους. Centralized shared memory architectures (Αρχιτεκτονικές συγκεντρωμένης κοινής μνήμης) Distributed memory architectures (Αρχιτεκτονικές φυσικά κατανεμημένης μνήμης) 6 cslab@ntua
7 Centralized Shared Memory Architectures Μικρός αριθμός επεξεργαστών (λιγότεροι από 100 το 2006). Όλοι οι επεξεργαστές μοιράζονται μια κεντρική μνήμη Πολλαπλά λάbanks point to point connections, switches Περιορισμένο scalability Symmetric multiprocessors (SMPs) Η μνήμη έχει συμμετρική σχέση με τους επεξεργαστές Ομοιόμορφος χρόνος προσπέλασης (Uniform Memory Access UMA) 7 cslab@ntua
8 Distributed Memory Architectures (1) Η μνήμη μοιράζεται τοπικά σε κάθε επεξεργαστή. Πλεονεκτήματα Μεγαλύτερο εύρος ζώνης μνήμης αν η πλειοψηφία των προσπελάσεων γίνονται τοπικά σε κάθε κόμβο. Μείωση χρόνου πρόσβασης σε δεδομένα αποθηκευμένα στην μνήμη του κάθε κόμβου. Μειονεκτήματα Πολύπλοκη ανταλλαγή δεδομένων μεταξύ επεξεργαστών. Πιο δύσκολη παραγωγή software για την εκμετάλλευση του αυξημένου εύρους ζώνης της μνήμης. Δύο μοντέλα επικοινωνίας για ανταλλαγή δεδομένων Shared Address space Message Passing 8 cslab@ntua
9 Shared address space Distributed Memory Architectures (2) Οι φυσικά κατανεμημένες μνήμες χρησιμοποιούνται σαν ένας μοναδικός, διαμοιραζόμενος χώρος δεδομένων. Η ίδια φυσική διεύθυνση σε 2 επεξεργαστές αναφέρεται στην ίδια τοποθεσία στο ίδιο κομμάτι της φυσικής μνήμης. Επικοινωνία μέσω του κοινού χώρου (implicitly, με χρήση απλών Loads και Stores σε shared variables). Οι πολυεπεξεργαστές αυτοί ονομάζονται Distributed Shared Memory (DSM). Ο χρόνος πρόσβασης εξαρτάται από την τοποθεσία στην οποία βρίσκονται τα δεδομένα NUMA (Non Uniform Memory Access). 9 cslab@ntua
10 Distributed Memory Architectures (3) Private address space Ο κάθε επεξεργαστής έχει το δικό του address space, το οποίο δεν μπορεί να προσπελαστεί από κάποιον άλλο. Ηίδ ίδια φυσική ήδιεύθυνση σε 2 επεξεργαστές αναφέρεται σε διαφορετικές τοποθεσίες σε διαφορετικά κομμάτια μνημών. Επικοινωνία (explicitly) μέσω μηνυμάτων Message Passing Multiprocessors. Κάθε συνδυασμός send receive πραγματοποιεί ένα συγχρονισμό ζεύγους (pairwise synchronization) καθώς και μια μεταφορά δεδομένων από μνήμη σε μνήμη (memory to memory copy) π.χ.clustersl t 10 cslab@ntua
11 Shared Memory Architectures (1)
12 Shared Memory Architectures (2) Βασική ιδιότητα των συστημάτων μνήμης Κάθε ανάγνωση μιας τοποθεσίας, θα πρέπει να επιστρέφει την τελευταία τιμή που γράφτηκε σε αυτή. Βασική ιδιότητα τόσο για τα σειριακά προγράμματα, όσο και για τα παράλληλα. Η ιδιότητα αυτή διατηρείται όταν πολλαπλά threads εκτελούνται σε ένα επεξεργαστή, καθώς βλέπουν την ίδια ιεραρχίαμνήμης. Στα πολυεπεξεργαστικά συστήματα, όμως, κάθε επεξεργαστής έχει τη δική του μονάδα κρυφής μνήμης (cache). Πιθανά προβλήματα : Αντίγραφα μίας μεταβλητής είναι πιθανόν να υπάρχουν σε παραπάνω από μία caches. Αν μια εγγραφή δε είναι ορατή από όλους τους επεξεργαστές, τότε υπάρχει περίπτωση κάποιοι να προσπελαύνουν την παλιά τιμή της μεταβλητής που είναι αποθηκευμένη στην cache τους. Πρόβλημα : Συνάφειας Κρυφής Μνήμης (Cache Coherence) 12 cslab@ntua
13 Παράδειγμα Προβλήματος Cache Coherence Write through caches Λάθος στη λειτουργία 4 Write back caches Λάθος και στη λειτουργία 5. H τιμή που θα γραφτεί στη κύρια μνήμη εξαρτάται από τη σειρά με την οποία οι caches διώχνουν τα dirty blocks. 13 cslab@ntua
14 Διατήρηση της βασικής ιδιότητας Cache Coherence (1) Κάθε ανάγνωση μιας τοποθεσίας, θα πρέπει να επιστρέφει την ΤΕΛΕΥΤΑΙΑ τιμή που γράφτηκε σε αυτή. Πώς ορίζεται το ΤΕΛΕΥΤΑΙΑ ; Σειριακά προγράμματα Ορίζεται σύμφωνα με τη σειρά που επιβάλλεται από τον κώδικα. Παράλληλα προγράμματα Δύο threads μπορεί να γράψουν στην ίδια διεύθυνση την ίδια χρονική στιγμή. Ένα thread μπορεί να διαβάσει μια μεταβλητή ακριβώς μετά την εγγραφή της από κάποιο άλλο, αλλά λόγω της ταχύτητας μετάδοσης η εγγραφή αυτή δεν έχει γίνει ακόμα ορατή. Η σειρά που επιβάλλει ο κώδικας ορίζεται εντός τουthread. d Απαιτείται όμως και ο ορισμός μιας σειράς που να αφορά όλα τα threads (global ordering). 14 cslab@ntua
15 Cache Coherence (2) Έστω ότι υπάρχει μια κεντρική μνήμη και καμία cache. Κάθε λειτουργία σε μια θέση μνήμης προσπελάζει την ίδια φυσική θέση. Η μνήμη επιβάλλει μια καθολική σειρά στις λειτουργίες όλων των threads σε αυτή τη θέση. Οι λειτουργίες κάθε thread διατηρούν τη σειρά του προγράμματος του. Κάθε δά διάταξη που διατηρεί τη σειρά των λειτουργιών τωνεπιμέρους προγραμμάτων είναι αποδεκτή / έγκυρη. Ως τελευταία ορίζεται η πιο πρόσφατη λειτουργία σε μια υποθετική ακολουθία που διατηρεί τις παραπάνω ιδιότητες. Σε ένα πραγματικό σύστημα δεν μπορεί να κατασκευαστεί αυτή η καθολική σειρά. Χρήση caches. Αποφυγή serialization. Το σύστημα πρέπει να είναι κατασκευασμένο ώστε τα προγράμματα να συμπεριφέρονται σαν να υπήρχε αυτή η καθολική σειρά. 15 cslab@ntua
16 Cache Coherence (3) Ένα σύστημα είναι coherent (συναφές) αν για κάθε εκτέλεση τα αποτελέσματα (οι τιμές που επιστρέφονται από τις λειτουργίες ανάγνωσης) είναι τέτοια, ώστε σε κάθε θέση να μπορούμε να κατασκευάσουμε μια υποθετική ακολουθιακή σειρά όλων των λειτουργιών στη θέση αυτή, που να είναι συνεπής με τα αποτελέσματα της εκτέλεσης και στην οποία: Οι λειτουργίες κάθε thread πραγματοποιούνται με την σειρά κατά την οποία κλήθηκαν από αυτό το thread. Η τιμή που επιστρέφεται από μια λειτουργία ανάγνωσης είναι η τιμή της τελευταίας εγγραφής στη συγκεκριμένη θέση σύμφωνα με την υποθετική ακολουθιακή σειρά. 3 συνθήκες για να είναι ένα σύστημα coherent. 16 cslab@ntua
17 Cache Coherence (4) 1. A read by processor P to a location X that follows a write by P to X, with no writes of X by another processor occurring between the write and the read by P, always returns the value written by P. Διατήρηση της σειράς του προγράμματος. Ισχύει και για uniprocessors. 2. A read by a processor to location X that follows a write by another processor to X returns the written value if the read and write are sufficiently separated in time and no other writes to X occur between the two accesses. write propagation Μια λειτουργία ανάγνωσης δεν μπορεί να επιστρέφει παλιότερες λό τιμές. έ 3. Writes to the same location are serialized; that is, two writes to the same location by any two processors are seen in the same order by all processors. (e.g. if values 1 and then 2 are written toalocation, ti processors can never the value of the location as 2 and then later read it as 1) write serialization. Χρειαζόμαστε read serialization; 17 cslab@ntua
18 Bus Snooping Cache Coherence (1) Χρήση διαδρόμου Προσφέρει μια απλή και κομψή υλοποίηση για cache coherence. Προβλήματα scalability. Όλες οι συσκευές που είναι συνδεδεμένες πάνω στο διάδρομο μπορούν να παρακολουθούν όλαταbusb transactions. ti Τρεις ςφάσεις σε κάθε transaction Διαιτησία : Ο bus arbiter αποφασίζει ποια συσκευή έχει το δικαίωμα να χρησιμοποιήσει το bus Αποστολή εντολής/διεύθυνσης : Η επιλεγμένη συσκευή μεταδίδει το είδος της εντολής (read / write) καθώς και τη διεύθυνση της αντίστοιχης θέσης. Όλοι παρακολουθούν και αποφασίζουν αν τους ενδιαφέρει ήόχι. Μεταφορά δεδομένων 18 cslab@ntua
19 Bus Snooping Cache Coherence (2) Εκμετάλλευση του cache block state tt Κάθε cache μαζί με τα tag και data αποθηκεύει και την κατάσταση στην οποία βρίσκεται το block (π.χ. invalid, valid, dirty). Ουσιαστικά κάθε block είναι μια μηχανή πεπερασμένων καταστάσεων (FSM) Κάθε πρόσβαση σε ένα block ή σε κάποια διεύθυνση που αντιστοιχεί στο ίδιο cache line με αυτό το block, προκαλεί μια μεταβολή του state ή αλλιώς μια αλλαγή κατάστασης στο FSM. Σε uniprocessor συστήματα write through, write no allocate caches : 2 states (valid, invalid) write back caches : 3 states (valid, invalid, dirty/modified) Σε multiprocessor συστήματα το state ενός block είναι ένας πίνακας μήκους p, όπου p οαριθμόςτωνcaches. To ίδιο FSM καθορίζει τις αλλαγές καταστάσεων για όλα τα blocks σε όλες τις caches. To state ενός block μπορεί να διαφέρει από cache σε cache. 19 cslab@ntua
20 Bus Snooping Cache Coherence (3) Υλοποίηση Πρωτοκόλλου Ο ελεγκτής της cache δέχεται είσοδο από 2 μεριές Αιτήσεις πρόσβασης στη μνήμη από τον επεξεργαστή. Ο κατάσκοπος (bus snooper) ενημερώνει για bus transactions που πραγματοποιούν οι υπόλοιπες caches. Σε κάθε περίπτωση ανταποκρίνεται Ενημερώνει την κατάσταση του block με βάση το FSM. Αποστολή δεδομένων. Παραγωγή νέων bus transactions. ti Κάθε πρωτόκολλο αποτελείται από τα παρακάτω δομικά στοιχεία Το σύνολο των επιτρεπτών states για κάθε block στις caches. To state transition diagram που με είσοδο το state του block καιτηαίτησητου επεξεργαστή ή το παρατηρούμενο bus transaction υποδεικνύει ως έξοδο το επόμενο επιτρεπτό state για το block αυτό. Τις ενέργειες που επιβάλλεται να πραγματοποιηθούν κατά την αλλαγή κατάστασης του block. 20 cslab@ntua
21 Simple Invalidation based protocol (1) write through, write no allocate caches 2 states για κάθε block Valid Invalid Σε περίπτωση εγγραφής ενός block Ενημερώνεται η κύρια μνήμη μέσω ενός bus transaction. Κάθε bus snooper ενημερώνει τον cache controller του, ο οποίος ακυρώνει το τοπικό αντίγραφο αν υπάρχει. Επιτρέπονται πολλαπλές ταυτόχρονες αναγνώσεις (multiple readers). Μια εγγραφή όμως τους ακυρώνει. Είναι coherent ; 21 cslab@ntua
22 Simple Invalidation based protocol (2) Μπορούμε να κατασκευάσουμε μια καθολική σειρά που να ικανοποιεί τη σειρά του προγράμματος και τη σειριοποίηση των εγγραφών; Υποθέτουμεatomic bus transactions και memory operations. Ένα transaction κάθε φορά στο bus. Κάθε επεξεργαστής περιμένει να ολοκληρωθεί μια πρόσβαση του στη μνήμη πριν αιτηθεί καινούρια. Οι εγγραφές (και οι ακυρώσεις) ολοκληρώνονται κατά τη διάρκεια του bus transactions. Όλες οι εγγραφές εμφανίζονται στο bus (write through h protocol). Οι εγγραφές σε μια θέση σειριοποιούνται σύμφωνα με τη σειρά με την οποία εμφανίζονται στο bus. (bus order) Οιακυρώσεις πραγματοποιούνται επίσης σύμφωνα με το bus order. Πως παρεμβάλλουμε τις αναγνώσεις στη σειρά αυτή; Οι αναγνώσεις δεν είναι υποχρεωτικό να προκαλέσουν bus transaction και μπορούν ναεκτελούνται ανεξάρτητα και ταυτόχρονα στις caches. 22 cslab@ntua
23 Simple Invalidation based protocol (3) Σειριοποίηση αναγνώσεων Read hit ή read miss? Read Miss Ικανοποιείται μέσω bus transaction. Επομένως σειριοποιείται μαζί με τις εγγραφές. Θα δει την τιμή της τελευταίας εγγραφής σύμφωνα με το bus order. Read Hit Ικανοποιείται από την τιμή που βρίσκεται μέσα στην cache. Βλέπει την τιμή της πιο πρόσφατης εγγραφής από τον ίδιο επεξεργαστή ή της πιο πρόσφατης ανάγνωσης (read miss). Και τα 2(writeκαι read miss) ικανοποιούνται μέσω bus transactions. Επομένως και τα read hits βλέπουν τις τιμές σύμφωνα με το bus order
24 Καθορισμός Σειράς (1) Μπορούμε να κατασκευάσουμε μια υποθετική global order χρησιμοποιώντας τις partial orders όπως αυτές ορίζονται από το πρωτόκολλο. Μια λειτουργία μνήμης Μ 2 ακολουθεί μια λειτουργία Μ 1 αν οι λειτουργίες καλούνται από το ίδιο thread και η Μ 2 έπεται της Μ 1 σύμφωνα με τη σειρά του προγράμματος. Μια ανάγνωση έπεται μιας εγγραφής W αν η ανάγνωση δημιουργεί bus transaction που έπεται του bus transaction της W. Μια εγγραφή έπεται μιας λειτουργίας μνήμης M αν η Μ δημιουργεί bus transactionti και το transactionti της εγγραφής ακολουθεί αυτό της M. Μια εγγραφή έπεται μιας ανάγνωσης αν η ανάγνωση δε δημιουργεί bus transaction (read hit) και δεν υπάρχει μεταξύ τους άλλο bus transaction. 24 cslab@ntua
25 Καθορισμός Σειράς (2) Οι εγγραφές καθορίζουν μια μερική σειριοποίηση. Δεν υπάρχει κάποιος περιορισμός για τα read bus transactions από διαφορετικά threads μεταξύ 2 εγγραφών. Κάθε διάταξη των αναγνώσεων μεταξύ 2 εγγραφών είναι ικανοποιητική, αρκεί να μην παραβιάζεται η σειρά του προγράμματος. Κάθε σειρά που διατηρεί αυτή τη μερική σειριοποίηση είναι coherent. 25 cslab@ntua
26 Memory Consistency (1) Ησυνάφειαμνήμης(coherence) διασφαλίζει ότι η τιμή της τελευταίας εγγραφής σε μια τοποθεσία θα γνωστοποιηθεί σε όλους τους τυχόν αα αναγνώστες. Πότε όμως ςγίνεται ορατή αυτή η εγγραφή; Σε ένα παράλληλο πρόγραμμα είναι πιθανό να θέλουμε να διασφαλίσουμε ότι μια ανάγνωση επιστρέφει την τιμή κάποιας συγκεκριμένης εγγραφής. Θέλουμε να διασφαλίσουμε μια σειρά μεταξύ ενός write και ενός read. Χρησιμοποιούμε κάποια μορφή συγχρονισμού
27 Memory Consistency (2) Ο προγραμματιστής θέλει ο Ρ 2 να τυπώσει Α =1. Η συνάφεια διασφαλίζει ότι η καινούρια τιμή του Α κάποια στιγμή θα γίνει ορατή από τον Ρ 2. Όχι όμως απαραίτητα πριν τη νέα τιμή του flag! Λύση με barrier 27 cslab@ntua
28 Memory Consistency (3) Λύση με barrier Υποθέτουμε ότι τα threads περιμένουν όχι απλά να φτάσουν όλα στο barrier αλλά και όλες οι εγγραφές πριντο barrier να γίνουν ορατές από όλους. Το barrier υλοποιείται με reads και writes σε shared variables. Επομένως η συνάφεια και πάλι δεν καθορίζει τίποτα για τη σχετική σειρά μεταξύ αυτών των προσβάσεων
29 Memory Consistency (4) Μερικές φορές πρέπει να διασφαλίσουμε τη σειρά προσπελάσεων σε διαφορετικές θέσεις μνήμης. Η συνάφεια δεν αναφέρεται στη σειρά με την οποία γίνονται ορατές εγγραφές σε διαφορετικές θέσεις μνήμης. Τί θα τυπώσει τελικά αυτός ο κώδικας; Χρειαζόμαστε ένα μοντέλο σειριοποίησης για λειτουργίες μνήμης : Σε ίδιες ή διαφορετικές θέσεις μνήμης Από ένα ή πολλαπλά threads/processes Μοντέλο συνέπειας μνήμης 29 cslab@ntua
30 Μοντέλο Συνέπειας Μνήμης Περιορίζει τις πιθανές διατάξεις με τις οποίες οι λειτουργίες μνήμης μπορούν να εμφανιστούν η μια σε σχέση με την άλλη. Χωρίς αυτή δεν μπορούμε να πούμε τίποτα για το αποτέλεσμα της εκτέλεσης ενός προγράμματος. Συνέπειες : Ο προγραμματιστής αποφασίζει για την ορθότητα και τα πιθανά αποτελέσματα Ο σχεδιαστής του συστήματος περιορίζει πόσο μπορούν να αναδιατάσσονται οι λειτουργίες μνήμης από τον compiler ήτοhardware. 30 cslab@ntua
31 Sequential Consistency (1) A multiprocessor is sequentially consistent if the result of any execution is the same as if the operations of all the processors were executed in some sequential order, and the operations of each individual processor occur in this sequence in the order specified by its program. [Lamport, 1979] 31 cslab@ntua
32 Sequential Consistency (2) Σαν να μην υπήρχαν κρυφές μνήμες, παρά μόνο μια μνήμη. Κάθε thread δρομολογεί και ολοκληρώνει μια λειτουργία μνήμης σύμφωνα με τη σειρά του προγράμματος της. Η μνήμη ικανοποιεί τις προσπελάσεις σύμφωνα με κάποια σειρά. Κάθε λειτουργία σε αυτή τη σειρά φαίνεται σα να εκτελείται και να ολοκληρώνεται ατομικά (πριν ξεκινήσουν οι επόμενες)
33 Sequential Consistency (3) Ορισμός program order Διαισθητικά η σειρά με την οποία εμφανίζονται οι εντολές στον πηγαίο κώδικα. Η σειρά με την οποία εμφανίζονται οι λειτουργίες μνήμης στην assembly που προκύπτει από απευθείας μετατροπή του πηγαίου κώδικα. Δεν είναι υποχρεωτικά η ίδια σειρά με αυτή που παράγει ο compiler και εκτελείται στο hardware Ένας optimizing compiler μπορεί να αναδιατάξει τις εντολές του πηγαίου κώδικα. Άρα η σειρά του προγράμματος εξαρτάται από το επίπεδο που κοιτάζουμε. Εμείς υποθέτουμε τη σειρά έτσι όπως τη βλέπει ο προγραμματιστής
34 Sequential Consistency (4) Παράδειγμα Πιθανά αποτελέσματα για (Α,Β): (0,0), (1,0), (1,2) Επιτρέπει η SC το (0,2); Σύμφωνα με SC πρέπει 1a 1b και 2a 2b (program order). Αν Α = 0, τότε 2b 1a. Άρα και 2a 1a. Όμως Β =2,μόνο αν 1b 2a! Επομένως μη επιτρεπτό αποτέλεσμα. 34 cslab@ntua
35 Sequential Consistency (5) Ανακεφαλαιώνοντας, για την SC έχουμε 2 απαιτήσεις. Program Order Οι λειτουργίες μνήμης ενός thread πρέπει να γίνονται ορατές (στους άλλους και στον εαυτό του) με τη σειρά που υπαγορεύει το πρόγραμμα. Atomicity Μια λειτουργία μνήμης ολοκληρώνεται λ προτού κληθεί η επόμενη σύμφωνα με την καθολική σειρά (ανεξάρτητα από το σε ποιο thead ανήκει η επόμενη λειτουργία). Δυσκολία υλοποίησης της ατομικότητας για λειτουργίες εγγραφής. 35 cslab@ntua
36 Write atomicity (1) Write atomicity Η θέση όπου εμφανίζεται να εκτελείται ένα write σύμφωνα με την καθολική σειρά, πρέπει να είναι ίδια για όλα τα threads. Τίποτα από αυτά που κάνει ένα thread αφού δει την καινούρια τιμή που παράγει μια εγγραφή W δεν πρέπει να γίνει ορατό από στα υπόλοιπα threads πριν δουν και αυτά τη W. Ουσιαστικά, επεκτείνουμε την σειριοποίηση ηεγγραφών που απαιτεί η συνάφεια. Write serialization : Όλες οι εγγραφές σε μια τοποθεσία θα πρέπει να εμφανίζονται σε όλα τα threads με την ίδια σειρά Write atomicity : Όλες οι εγγραφές σε κάθε τοποθεσία θα πρέπει να εμφανίζονται σε όλα τα threads με την ίδια σειρά 36 cslab@ntua
37 Write atomicity (2) Έστω ότι επιτρέπουμε στον P2 να προχωρήσει στο B=1 πριν η εγγραφή του Α γίνει ορατή από τον P3. Μπορεί ο P3 να διαβάσει την παλιά τιμή του Α και την καινούρια του Β. Παραβίαση της SC!
38 Sequential Consistency (6) Ισχύουν τα εξής : Η σειρά του προγράμματος κάθε thread επιβάλλει μια μερική διάταξη στο σύνολο των λειτουργιών. Κάθε παρεμβολή αυτών των μερικών διατάξεων δημιουργεί μια καθολική σειρά για όλες τις λειτουργίες. Η SC δεν ορίζει τον ακριβή τρόπο παρεμβολής κι επομένως παραπάνω από μια σειρές μπορούν να είναι ακολουθιακά συνεπείς. Sequential Consistent Execution H εκτέλεση ενός προγράμματος είναι ακολουθιακά συνεπής αν τα αποτελέσματα που παράγονται είναι ίδια για κάθε πιθανή καθολική σειρά. Sequential Consistent System Ένα σύστημα είναι ακολουθιακά συνεπές αν κάθε πιθανή εκτέλεση σε αυτό είναι ακολουθιακά συνεπής. 38 cslab@ntua
39 Sequential Consistency (7) Ικανές συνθήκες 1. Κάθε thread καλεί τις λειτουργίες μνήμης με τη σειρά του προγράμματος του. 2. Αφού κληθεί μια λειτουργία εγγραφής του, το thread περιμένει να ολοκληρωθεί η εγγραφή πριν καλέσει την επόμενη λειτουργία. 3. Αφού κληθεί μια λειτουργία ανάγνωσης του, το thread περιμένει να ολοκληρωθεί τόσο η ανάγνωση όσο και τυχόν εγγραφή της οποίας την τιμής θα επιστρέψει η ανάγνωση. Η 3 η συνθήκηπαρέχειτηνατομικότητατωνεγγραφώνκαιείναιηπιο πολύπλοκη. Οι συνθήκες αυτές είναι ικανές και όχι αναγκαίες. Υπάρχουν περιπτώσεις όπου διατηρείται η SC με λιγότερη σειριοποίηση. 39 cslab@ntua
40 Sequential Consistency (8) Program Order Οι compilers δεν πρέπει να αναδιατάσσουν τις εντολές του προγράμματος προκειμένου να διασφαλιστεί η SC από τη μεριά του προγραμματιστή. Το κάνουν όμως! Αναδιάταξη (ακόμα και εξάλειψη) προσβάσεων σε διαφορετικές θέσεις στη μνήμη : subexpression elimination, constant propagation, register allocation, loop transformations κτλ. Χρήση του volatile: Απαγορεύει το register allocation της μεταβλητής καθώς και την αναδιάταξη των λειτουργιών μνήμης σε αυτή. Ακόμα και αν ο compiler δεν αλλάξει τη σειρά του προγράμματος, είναι πιθανό να την αλλάξει το hardware. write buffers, interleaved memory, pipelining, out of order execution Οι ικανές συνθήκες για SC είναι πολύ αυστηρές και περιορίζουν την απόδοση. Weaker consistency models 40 cslab@ntua
41 Sequential Consistency (9) Υποθέτουμε ότι ο compiler δεν αναδιατάσσει τις εντολές. Το hardware χρειάζεται μηχανισμούς : Για την ανίχνευση της ολοκλήρωσης των εγγραφών. Για την εξασφάλιση της ατομικότητας των εγγραφών. Για τα πρωτόκολλα που θα μελετήσουμε, θα εστιάσουμε στο : Πώς ικανοποιούν τη συνάφεια και υλοποιούν τη σειριοποίηση των εγγραφών. Πώς ικανοποιούν τις ικανές συνθήκες για ακολουθιακή συνέπεια. Πώς μπορούν να εξασφαλίσουν την ακολουθιακή συνέπεια με άλλες πιο χαλαρές συνθήκες. 41 cslab@ntua
42 Sequential Consistency (10) Η ύπαρξη κεντρικού διαδρόμου κάνει ευκολότερη την υλοποίηση μέσω της σειριοποίησης των transactions που εμφανίζονται στο διάδρομο. Παράδειγμα : Για write through caches Οι λειτουργίες μνήμης για όλες τις θέσεις σειριοποιούνται πάνω στον διάδρομο. Αν μια ανάγνωση επιστρέφει την τιμή μιας εγγραφής W, τότε η W έχει σίγουρα ολοκληρωθεί (αφού προκάλεσε bus transaction). Όταν η W πραγματοποιείται όσον αφορά τα άλλα threads, όλες οι προηγούμενες εγγραφές έχουν ήδη ολοκληρωθεί σύμφωνα με τη διάταξη που επιβάλλει ο διάδρομος. 42 cslab@ntua
43 Snooping Protocols Διατηρούμε τον επεξεργαστή, τη κύρια μνήμη και τις caches. Επέκταση του cache controller εκμετάλλευση του bus. Write back caches Αποδοτική αξιοποίηση του περιορισμένου bus bandwidth. Δεν προκαλούν bus transactions όλες οι λειτουργίες μνήμης. Πιο δύσκολη υλοποίηση ητης συνάφειας. Χρήση του modified state (τροποποιημένη κατάσταση) Αποκλειστική ιδιοκτησία δεν υπάρχει άλλο έγκυρο αντίγραφο. Η κύρια μνήμη μπορεί να έχει ή να μην έχει αντίγραφο. Η cache είναι υπεύθυνη να παρέχει το block σε όποιον το ζητήσει. Exclusivity (αποκλειστικότητα) η Η cache μπορεί να τροποποιήσει το block χωρίς να ειδοποιήσει κανένα χωρίς bus transaction Πριν την εγγραφή πρέπει να αποκτήσει αποκλειστικότητα. Ακόμα και αν τοblock είναι valid write miss
44 Invalidation Protocols Write miss Προκαλεί ένα ειδικό transaction : read exclusive (RdX) Ειδοποιεί τους υπόλοιπους ότι ακολουθεί εγγραφή και αποκτά αποκλειστική ιδιοκτησία. Όλοι όσοι διαθέτουν αντίγραφο του block το διαγράφουν. Μόνο μια RdX επιτυγχάνει κάθε φορά. Πολλαπλές αιτήσεις σειριποιούνται από το διάδρομο. Τελικά τα νέα δεδομένα γράφονται στην κύρια μνήμη όταν το block εκδιωχθεί από την cache. Αν ένα block δεν έχει τροποποιηθεί (modified state), τότε δεν χρειάζεται να γραφτεί στην κύρια μνήμη όταν εκδιωχθεί από την cache. 44 cslab@ntua
45 Update Protocols Μια λειτουργία εγγραφής ενημερώνει και τυχόν αντίγραφα του block στις υπόλοιπες caches. Πλεονεκτήματα Μικρότερη ρηκαθυστέρηση η πρόσβασης στο block από τις άλλες caches. Όλοι ενημερώνονται με ένα μόνο transaction. Μειονεκτήματα Πολλαπλές εγγραφές στο block από τον ίδιο επεξεργαστή προκαλούν πολλαπλά transactions για τις ενημερώσεις
46 Invalidation vs. Update Protocols Σε κάποια cache γίνεται εγγραφή σε ένα block. Πριν την επόμενη εγγραφή στο ίδιο block, θέλει κάποιος άλλος να το διαβάσει; Ναι : Όχι : Invalidation Read miss πιθανώς πολλαπλά transactions Update Read hit αν είχαν από πριν αντίγραφα ενημέρωση με ένα μόνο transaction Invalidation Πολλαπλές εγγραφές χωρίς επιπλέον κίνηση στο bus Εκκαθάριση αντιγράφων που δε χρησιμοποιούνται Update Πολλαπλές αχρείαστες ενημερώσεις (και σε πιθανώς νεκρά αντίγραφα) 46 cslab@ntua
47 MSI Write Back Invalidation Protocol (1) 3 καταστάσεις (states) 1. Τροποποιημένη [Modified(M)] 2. Μοιραζόμενη [Shared(S)] 3. Άκυρη [Invalid(I)] 2 τύποι αιτήσεων από τον επεξεργαστή PrRd : ανάγνωση PrWr : εγγραφή 3 bustransactions BusRd : Ζητά αντίγραφο χωρίς σκοπό να το τροποποιήσει BusRdX : Ζητά αντίγραφο για να το τροποποιήσει BusWB : Ενημερώνει τη μνήμη 47 cslab@ntua
48 MSI Write Back Invalidation Protocol (2) Διάγραμμα Μετάβασης Καταστάσεων Μεταβάσεις εξαιτίας λειτουργιών του τοπικού επεξεργαστή. Μεταβάσεις εξαιτίας των παρατηρούμενων bus transactions. Α/Β Αν ο cache controller παρατηρήσει το Α, τότε εκτός από τη μετάβαση στη νέα κατάσταση προκαλεί και το Β. Καμία ενέργεια. Δεν περιλαμβάνονται οι μεταβάσεις και οι ενέργειες κατά την αντικατάσταση ενός block στην cache. Όσο πιο ψηλά στο διάγραμμα βρίσκεται ένα block, τόσο πιο στενά συνδεδεμένο (bound) είναι με τον επεξεργαστή
49 MSI Παράδειγμα Ενέργεια στον επεξεργαστή Κατάσταση Ρ1 Κατάσταση Ρ2 Κατάσταση Ρ3 Ενέργεια στο διάδρομο Τα δεδομένα παρέχονται από Ρ1 διαβάζει u S BusRd Mem Ρ3 διαβάζει u S S BusRd Mem Ρ3 γράφει u I M BusRdX Mem Ρ1 διαβάζει u S S BusRd Ρ3 Cache Ρ2 διαβάζει u S S S BusRd Mem 49 cslab@ntua
50 MSI Coherence Η διάδοση των εγγραφών είναι προφανής. Σειροποίηση εγγραφών : Όλες οι εγγραφές που εμφανίζονται στο διάδρομο (BusRdX) διατάσσονται από αυτόν. Οι αναγνώσεις που εμφανίζονται στο διάδρομο διατάσσονται ως προς τις εγγραφές. Για τις εγγραφές που δεν εμφανίζονται στο διάδρομο: Μια ακολουθία τέτοιων εγγραφών μεταξύ 2 bus transactions γιατοίδιοblock πρέπει να προέρχονται από τον ίδιο επεξεργαστή P. Στη σειριοποίηση η ακολουθία εμφανίζεται μεταξύ αυτών των 2transactions. Οι αναγνώσεις από τον Ρ θα βλέπουν τις εγγραφές με αυτή τη σειρά ως προς τις υπόλοιπες εγγραφές. Οι αναγνώσεις από άλλους επεξεργαστές διαχωρίζονται από την ακολουθία με ένα bus transaction, η οποία τις τοποθετεί έτσι σε σειρά ως προς τις εγγραφές. Οι αναγνώσεις από όλους τους επεξεργαστές βλέπουν τις εγγραφές με την ίδια σειρά. 50 cslab@ntua
51 MSI Sequential Consistency Ο διάδρομος επιβάλει καθολική σειρά για όλα τα bus transactions για όλες τις θέσεις. Όλοι οι cache controllers παρατηρούν Rd και RdX transactions με την ίδια σειρά και πραγματοποιούν ακυρώσεις με βάση αυτή. Μεταξύ διαδοχικών transactions, κάθε επεξεργαστής διαβάζει/γράφει τοπικά σύμφωνα με τη σειρά του προγράμματος του. Άρα κάθε εκτέλεση ορίζει μια φυσική μερική διάταξη : ΗλειτουργίαΜ j έπεται της Μ i αν (1) έπεται στη σειρά του προγράμματος στον ίδιο επεξεργαστή ήή ή (2) η Μ j προκαλεί transaction που έπεται της Μ i. Μεταξύ transactions, κάθε παρεμβολή των λειτουργιών διαφορετικών επεξεργαστών δίνει συνεπή καθολική σειρά. Μεταξύ 2transactions,ένας επεξεργαστής P παρακολουθεί : τις εγγραφές των άλλων σειριοποιημένες ως προς το προηγούμενο bus transaction. τις δικές του εγγραφές σειριοποιημένες με τη σειρά του προγράμματος. 51 cslab@ntua
52 Πρόβλημα MSI MΕSI Write Back Invalidation Protocol (1) 2transactionsγια ανάγνωση και τροποποίηση ενός block, ακόμα και αν δεν τα μοιράζεται κανείς. 4 καταστάσεις (states) 1. Τροποποιημένη [Modified(M)] 2. Αποκλειστική [Exclusive(E)] Μόνο αυτή η cache έχει αντίγραφο (μη τροποποιημένο). 3. Μοιραζόμενη [Shared(S)] Δύο ή περισσότερες caches έχουν αντίγραφο. 4. Άκυρη [Invalid(I)] Αν κανείς δεν έχει αντίγραφο του block, τότε ένα PrRd έχει σαν αποτέλεσμα την μετάβαση Ι Ε. Στο διάδρομο χρειάζεται ένα σήμα shared ως απάντηση σε ένα BusRd. 52 cslab@ntua
53 MESI Write Back Invalidation Protocol (2) Διάγραμμα Μετάβασης Καταστάσεων Μεταβάσεις εξαιτίας λειτουργιών του τοπικού επεξεργαστή. Μεταβάσεις εξαιτίας των παρατηρούμενων bus transactions. Α/Β Αν ο cache controller παρατηρήσει το Α, τότε εκτός από τη μετάβαση στη νέα κατάσταση προκαλεί και το Β. Καμία ενέργεια. Ένα block μπορεί να βρίσκεται σε κατάσταση S ενώ δεν υπάρχουν άλλα αντίγραφα. Πώς; 53 cslab@ntua
54 MΕSI Παράδειγμα Ενέργεια στον επεξεργαστή Κατάσταση Ρ1 Κατάσταση Ρ2 Κατάσταση Ρ3 Ενέργεια στο διάδρομο Τα δεδομένα παρέχονται από Ρ1 διαβάζει u Ε BusRd Mem Ρ1 γράφει u Μ Ρ3 διαβάζει u S S BusRd Ρ1 Cache Ρ3 γράφει u I M BusRdX Ρ1 διαβάζει u S S BusRd Ρ3 Cache Ρ2 διαβάζει u S S S BusRd Mem 54 cslab@ntua
55 Dragon Write Back Update Protocol (1) 4 καταστάσεις (states) tt 1. Αποκλειστική [Exclusive (E)] Μόνο αυτή η cache έχει αντίγραφο (μη τροποποιημένο). Η κύρια μνήμη είναι ενημερωμένη (up to date). 2. Μοιραζόμενη καθαρή [Shared clean (Sc)] Δύο ή περισσότερες caches έχουν αντίγραφο. Η κύρια μνήμη δεν είναι υποχρεωτικά up to date. 3. Μοιραζόμενη τροποποιημένη [Shared modified (Sm)] Δύο ή περισσότερες caches έχουν αντίγραφο, ηκύριαμνήμηδεν είναι up to date και η cache αυτή έχει την ευθύνη να ενημερώσει την κύρια μνήμη όταν εκδιώξει το block. 4. Τροποποιημένη [Modified (M)] Μόνο η cache αυτή διαθέτει το τροποποιημένο block ενώ η κύρια μνήμη δεν είναι up to date. Δεν υπάρχει Invalid state. To πρωτόκολλο διατηρεί πάντα τα blocks που βρίσκονται στις caches up todate. Δύο νέες αιτήσεις από τον επεξεργαστή : PrRdMiss, PrWrMiss Ένα νέο bus transaction : BusUpd 55 cslab@ntua
56 Dragon Write Back Update Protocol (2)
57 Dragon Παράδειγμα Ενέργεια στον επεξεργαστή Κατάσταση Ρ1 Κατάσταση Ρ2 Κατάσταση Ρ3 Ενέργεια στο διάδρομο Τα δεδομένα παρέχονται από Ρ1 διαβάζει u Ε BusRd Mem Ρ3 διαβάζει u Sc Sc BusRd Mem Ρ3 γράφει u Sc Sm BusUpd Ρ3 Cache Ρ1 διαβάζει u Sc Sm Ρ2 διαβάζει u Sc Sc Sm BusRd Ρ3 Cache 57 cslab@ntua
58 Protocol Design Tradeoffs (1) Η σχεδίαση πολυεπεξεργαστικών συστημάτων είναι πολύπλοκη Αριθμός επεξεργαστών Ιεραρχία μνήμης (levels, size, associativity, bs, ) Διάδρομος Memory System (interleaved banks, width of banks, ) I/O subsystem + Cache Coherence Protocol (Protocol class, states, actions, ) Το πρωτόκολλο επηρεάζει χαρακτηριστικά του συστήματος, όπως latency και bandwitdh. Η επιλογή του πρωτοκόλλου επηρεάζεται από τη ζητούμενη απόδοση και συμπεριφορά του συστήματος καθώς και από την οργάνωση της ιεραρχίας μνήμης και της επικοινωνίας. 58 cslab@ntua
59 Protocol Design Tradeoffs (2) Write Update vs. Write Invalidate Wit Write run: Μια σειρά εγγραφών από ένα επεξεργαστή σε ένα block μνήμης, η αρχή και το τέλος της οποίας ορίζονται από λειτουργίες σε αυτό το block από άλλους επεξεργαστές. W2, R1, W1, W1, R1, W1, R3 Write run length = 3 Write Invalidate: Ένα write run οποιουδήποτε μήκους θα δημιουργήσει ένα μοναδικό coherence miss. Write Update: Έναwrite runrun μήκους L θα προκαλέσειl updates. 59 cslab@ntua
60 Compulsory misses (cold) Πρώτη πρόσβαση σε ένα block. Αύξηση του block size. Capacity misses 4C Cache Misses Model To block δε χωρά στην cache (ακόμα και σε full associative cache). Αύξηση η cache size. Conflict misses To block δε χωρά στο set που γίνεται mapped. Αύξηση associativity. i i Coherence misses (communication) True sharing : Όταν ένα data word χρησιμοποιείται από 2 ή παραπάνω επεξεργαστές. False sharing : Όταν ανεξάρτητα data words που χρησιμοποιούνται από διαφορετικούς επεξεργαστές ανήκουν στο ίδιο cache block. 60 cslab@ntua
61
62 Protocol Design Tradeoffs (3) Cache Block Size Αύξηση του block size μπορεί να οδηγήσει : Μείωση του miss rate (goodspatial locality). Х Αύξηση του miss penalty και ίσως του hit cost. Х Αύξηση του miss rate εξαιτίας false sharing (poor spatial locality). Х Αύξηση του traffic στο bus, λόγω μεταφοράς «αχρείαστων» δεδομένων (mismatch fetch/access size, false sharing). Υπάρχειητάσηγιαχρησιμοποίησημεγαλύτερωνcache blocks. Απόσβεση κόστους του bus transaction και της πρόσβασης στη μνήμη μεταφέροντας περισσότερα δεδομένα. Hardware και software μηχανισμοί για αντιμετώπιση του false sharing. 62 cslab@ntua
63 False sharing reduction 1. Βελτιωμένο data layout προκειμένου να αποφευχθεί η τοποθέτηση ανεξάρτητων δεδομένων στο ίδιο block. Data Padding eg. Dummy variables μεταξύ lock variables που είναι τοποθετημένες κοντά η μια στην άλλη. Tradeoff : locality vs. false sharing Χρήση array of arrays ώστε να βεβαιωθούμε ότι κάθε submatrix είναι τοποθετημένο συνεχόμενα στη μνήμη. Tradeoff : false sharing vs. instruction overhead 2. Partial Block Invalidation To block σπάει σε sub blocks, για κάθε ένα από τα οποία διατηρείται το state. Σε κάθε miss φέρνουμε όλα τα invalid sub blocks. Κάνουμε invalidate μόνο το sub block που περιέχει τα δεδομένα που θα τροποποιηθούν. Tradeoff : less false sharing miss vs. more invalidation messages 63 cslab@ntua
64 Scalable Multiprocessor Systems Τα συστήματα που στηρίζονται στη χρήση διαδρόμου δεν είναι scalable. Όλα τα modules (cores, memories, etc) συνδέονται με ένα set καλωδίων. Περιορισμένο bandwidth Δεν αυξάνεται με την πρόσθεση παραπάνω επεξεργαστών Saturation (κορεσμός). Μεγαλύτερο bus Μεγαλύτερο latency. Ένα scalable σύστημα πρέπει να αντιμετωπίζει αυτά τα προβλήματα. Το συνολικό bandwidth θα πρέπει να αυξάνει με τον αριθμό των επεξεργαστών. Ο χρόνος που απαιτείται για κάποια ενέργεια δε θα πρέπει να αυξάνει πολύ (πχ. Εκθετικά) με το μέγεθος του συστήματος. Πρέπει να είναι cost effective. Χάνουμε βασικές ιδιότητες του διαδρόμου. Άγνωστος αριθμός ταυτόχρονων transactions. Δεν υπάρχει global arbitration. Τα αποτελέσματα (πχ. αλλαγές στο state) γίνονται απευθείας ορατά μόνο από τους κόμβους που συμμετέχουν στο transaction
65 Directory Based Cache Coherence (1) To cache block state δεν μπορεί να καθοριστεί πλέον παρακολουθώντας τα requests στο shared db bus. (implicit itdt determination) ti Καθορίζεται και διατηρείται σε ένα μέρος (directory) όπου τα requests μπορούν να απευθυνθούν και να το ανακαλύψουν. (explicit determination) Κάθε memory block έχει ένα directory entry Book keeping keeping (ποιοι nodes έχουν αντίγραφα, το state του memorycopy, ) Όλα τα requests για το block πηγαίνουν στο directory. 65 cslab@ntua
66 Directory Based Cache Coherence (2)
67 Directory Based Cache Coherence (3)
68 Directory Protocol Taxonomy
69 Βελτίωση Παραλληλισμού Η απόδοση των συστημάτων περιορίζεται από διάφορους παράγοντες. Αναμονή σε κάθε λειτουργία μνήμης. Κάθε επεξεργαστής περιμένει να ολοκληρωθεί μια λειτουργία μνήμης προτού δρομολογήσει την επόμενη (SC). Περιορισμένη δυνατότητα δημιουργίας αντιγράφων. Τα δεδομέναδ δημιουργούν αντίγραφα μόνο στις caches και όχι στις local main memories. Δημιουργούνται έτσι capacity misses όταν τα working sets είναι μεγάλα και περιλαμβάνουν nonlocal data ή όταν υπάρχουν αρκετά conflict misses. Υψηλό κόστος σχεδιασμού και υλοποίησης. Πολύπλοκα πρωτόκολλα και μηχανισμοί επικοινωνίας απαιτούν μεγάλο χρόνο σχεδιασμού και υλοποίησης. Ταυτόχρονα είναι πιθανό να αυξάνουν και τη δυσκολία προγραμματισμού
70 Relaxed Consistency Models (1) Η ακολουθιακή συνέπεια (SC) είναι πολύ αυστηρή. Απαγορεύει Architectural enhancements (ooo, write buffering, ) Compiler optimizations (reordering, register allocation, ) Δημιουργία relaxed models. Απαιτούν αλλαγές σε όλα τα επίπεδα : System specification : Ποια program orders μεταξύ λειτουργιών μνήμης διατηρούνται; ; Και αν δε διατηρούνται όλα ποιοι μηχανισμοί μ προσφέρονται ρ στο προγραμματιστή για να επιβάλει κάποιο συγκεκριμένο order; Programming Model : Ordering semantics Translation mechanism 70 cslab@ntua
71 Relaxed Consistency Models (2) Μπορούμε να οργανώσουμε τα μοντέλα σε 3 διαφορετικές κατηγορίες. 1. Επιτρέπεται σε ένα Read να ολοκληρωθεί λ προτού ολοκληρωθεί λ κάποιο προηγούμενο (σύμφωνα με το program order) Write. Total Store Order (TSO), Processor Consistency (PC) 2. Επιτρέπεται και σε ένα Write να προσπεράσει κάποιο προηγούμενο (σύμφωνα με το program order) Write. ProcessorStoreOrder(PSO) 3. Επιτρέπεται σε ένα Read ή ένα Write να προσπεράσει κάποια προηγούμενη (σύμφωνα με το program order) λειτουργία μνήμης, είτε Read είτε Write. Weak Ordering (WO), Release Consistency (RC), RMO, Alpha, PowerPC. 71 cslab@ntua
72 Relaxing Write to Read Order Αντιμετώπιση της καθυστέρησης για writes που κάνουν miss στην L1 cache. Όσο το write είναι στο write buffer, οεπεξεργαστήςολοκληρώνειreads που κάνουν hit στην cache. Οσυγχρονισμόςμέσω spinning on a flag δουλεύει κανονικά. Χρήση memory barrier ή fence instructions (SUN Sparc V9) για υλοποίηση SC semantics. 72 cslab@ntua
73 Relaxing Write to Read & Write to Write Order Κίνητρο : Περαιτέρω μείωση της καθυστέρησης εξαιτίας ενός write miss και βελτίωση της επικοινωνίας μεταξύ των επεξεργαστών κάνοντας ορατές τις καινούριες τιμές νωρίτερα. Επιτρέπεται το merging πολλαπλών writes που βρίσκονται στο write buffer. Τα writes μπορεί να γίνουν ορατά εκτός σειράς! Δεν υπάρχει εγγύηση ότι δουλεύει ο συγχρονισμός με τη χρήση flags. 73 cslab@ntua
74 Relaxing All Memory Orders Κίνητρο : Όταν η σειρά μεταξύ λειτουργιών είναι κρίσιμη, τα παράλληλα προγράμματα χρησιμοποιούν συγχρονισμό. Επομένως, μπορούμε χαλαρώσουμε όλους τους περιορισμούς ούς για τις λειτουργίες μεταξύ των λειτουργιών συγχρονισμού. Weak Ordering (WO) : Ξεχωρίζει μεταξύ απλών λειτουργιών και λειτουργιών συγχρονισμού. Release Consistency (RC) : Επεκτείνει το WO, διακρίνοντας τις λειτουργίες συγχρονισμού σε acquire και release (επιτρέποντας καλύτερη επικάλυψη των λειτουργιών) 74 cslab@ntua
75 Relaxed Consistency Models (3) Hardware optimizations H χρήση buffers επιτρέπει στον επεξεργαστή να μη κάνει stall εφόσον οι τοπικές εξαρτήσεις δεδομένων διατηρούνται. Το hardware πρέπει να μπορεί να ξεχωρίσει ποιες προσβάσεις στη μνήμη γίνονται για συγχρονισμό και ποιες όχι. Software optimizations Αναδιάταξη τωνεντολών μεταξύ των σημείων συγχρονισμού. Επιτρέπονται compiler optimizations όπως register allocation. Το πρόγραμμα πρέπει να περιέχει τα κατάλληλα annotations και τυχόν memory races να επιλύονται με χρήση συγχρονισμού. 75 cslab@ntua
76 Tradeoffs between Relaxed Consistency Models Sequential Consistency Οιλειτουργίεςμνήμηςπρέπειναολοκληρώνονταιμεβάσητησειράτου προγράμματος. Η καθυστέρηση μπορεί να μειωθεί ίσως με χρήση speculation. Δεν επιτρέπονται τα περισσότερα compiler optimizations TSO & PC Επιτρέπεται η χρήση write buffers. Δεν επιτρέπονται και πάλι τα περισσότερα compiler optimizations. WO & RC Επιτρέπεται η χρήσηread και write buffers. Επιτρέπονται compiler optimizations μεταξύ των σημείων συγχρονισμού. Το πρόγραμμα πρέπει να περιέχει τα κατάλληλα annotations για να εκτελεστεί σωστά
Caches for Parallel Architectures
Caches for Parallel Architectures (Coherence) Figures, examples από 1. Parallel Computer Architecture: A Hardware/Software Approach, D. E. Culler, J. P. Singh, Morgan Kaufmann Publishers, INC. 1999. 2.
Υ- 07 Παράλληλα Συστήματα Συνέπεια και συνοχή μνήμης
Υ- 07 Παράλληλα Συστήματα Συνέπεια και συνοχή μνήμης Αρης Ευθυμίου Λειτουργία μνήμης Η μνήμη είναι ένας πίνακας αποθήκευσης Οταν διαβάζουμε μια θέση, περιμένουμε να πάρουμε την τελευταία τιμή που έχει
Caches for Parallel Architectures. (Coherence)
Caches for Parallel Architectures (Coherence) 1 Πηγές/Βιβλιογραφία Parallel Computer Architecture: A Hardware/Software Approach, D. E. Culler, J. P. Singh, Morgan Kaufmann Publishers, INC. 1999 Transactional
Parallel Architectures
Parallel Architectures Memory Consistency + Synchronization Figures, examples από 1. Transactional Memory, D. Wood, Lecture Notes in ACACES 2009 2. Krste Asanović s s Lecture Notes, University of California,
Shared Memory Multiprocessors. Πολυεπεξεργαστές Μοιραζόµενης
Shared Memory Multiprocessors Πολυεπεξεργαστές Μοιραζόµενης Μνήµης 1 Shared Memory Multiprocessors Ηκύρια µνήµη προσπελαύνεται µε τον ίδιο τρόπο και ταχύτητα από όλους τους επεξεργαστές Κάθε επεξεργαστής
Συνάφεια Κρυφής (Λανθάνουσας) Μνήµης- -Συνέπεια Μνήµης (Cache Coherence-Memory Consistency)
Συνάφεια Κρυφής (Λανθάνουσας) Μνήµης- -Συνέπεια Μνήµης (Cache Coherence-Memory Consistency) για Πολυεπεξεργαστές Μοιραζόµενης Μνήµης (Shared Memory Multiprocessors) 1 Shared Memory Multiprocessors Η κύρια
Πολυπύρηνοι επεξεργαστές Multicore processors
Πολυπύρηνοι επεξεργαστές Multicore processors 1 Μετάβαση στους πολυπύρηνους(1) Απόδοση των µονοεπεξεργαστών 25% ετήσια βελτίωση της απόδοσης από το 1978 έως το 1986 Κυρίως από την εξέλιξη της τεχνολογίας
Υ- 01 Αρχιτεκτονική Υπολογιστών Πολυεπεξεργαστές
Υ- 01 Αρχιτεκτονική Υπολογιστών Πολυεπεξεργαστές Αρης Ευθυμίου Το σημερινό μάθημα! Εισαγωγή σε παράλληλα συστήματα Ταξινόμιση κατά Flynn Μέθοδοι επικοινωνίας: shared memory, message passing Δίκτυα διασύνδεσης!
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2 Πολυπύρηνοι επεξεργαστές, μέρος 2 Αρης Ευθυμίου Πηγές διαφανειών: συνοδευτικές διαφάνειες αγγλικης εκδοσης του βιβλιου Cache coherence & scalability! Τα πρωτόκολλα
Υ- 01 Αρχιτεκτονική Υπολογιστών Πολυεπεξεργαστές, 2ο μέρος
Υ- 01 Αρχιτεκτονική Υπολογιστών Πολυεπεξεργαστές, 2ο μέρος Αρης Ευθυμίου Το σημερινό μάθημα! Cache coherence directory protocols! Memory consistency! MulG- threading 2 Cache coherence & scalability! Τα
Parallel Architectures
Parallel Architectures Memory Consistency + Synchronization Figures, examples από 1. Transactional Memory, D. Wood, Lecture Notes in ACACES 2009 2. Krste Asanović s Lecture Notes, University of California,
Parallel Architectures
Parallel Architectures Memory Consistency + Synchronization Figures, examples από 1. Transactional Memory, D. Wood, Lecture Notes in ACACES 2009 2. Krste Asanović s Lecture Notes, University of California,
8/3/2016 Οργάνωση κοινόχρηστης μνήμης (ΙΙ) Η λειτουργία της μνήμης
Υ07 Παράλληλα Συστήματα 2015-16 8/3/2016 Οργάνωση κοινόχρηστης μνήμης (ΙΙ) Η λειτουργία της μνήμης Ιεραρχία μνήμης & cache Επεξεργαστής: ταχύτατος Μνήμη: αργή (και μάλιστα η διαφορά ταχύτητας αυξάνεται)
Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας Ενότητα 10: Υποκλέπτοντα πρωτόκολλα. 2-state,3-state,4-state (MESI, dragon) cache coherent protocols. Συμφωνία
Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας Ενότητα 10: Υποκλέπτοντα πρωτόκολλα. 2-state,3-state,4-state (MESI, dragon) cache coherent protocols. Συμφωνία
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2 11ο μάθημα: πολυπύρηνοι επεξεργαστές, μέρος 1 Αρης Ευθυμίου Πηγές διαφανειών: συνοδευτικές διαφάνειες αγγλικης εκδοσης του βιβλιου Παράλληλη επεξεργασία Στο προηγούμενο
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2 7ο μάθημα: Κρυφές μνήμες (cache) - εισαγωγή Αρης Ευθυμίου Πηγές διαφανειών: συνοδευτικές διαφάνειες αγγλικης εκδοσης του βιβλιου Σύστημα μνήμης! Η μνήμη είναι σημαντικό
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Αρχιτεκτονική Υπολογιστών Κρυφές Μνήμες. (οργάνωση, λειτουργία και απόδοση)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Αρχιτεκτονική Υπολογιστών 2016-17 Κρυφές Μνήμες (οργάνωση, λειτουργία και απόδοση) http://mixstef.github.io/courses/comparch/ Μ.Στεφανιδάκης Ιεραρχία συχνά και το
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Οργάνωση Υπολογιστών Εργαστήριο 14: Συνοχή (Coherence) Κρυφών Μνημών, Προχωρημένοι Επεξεργαστές (Out-of-Order, Superscalar, Multithreading, Multicores) Μανόλης Γ.Η.
Συνάφεια Κρυφής Μνήµης σε Επεκτάσιµα Μηχανήµατα
Συνάφεια Κρυφής Μνήµης σε Επεκτάσιµα Μηχανήµατα Συστήµατα µε Κοινή ή Κατανεµηµένη Μνήµη Σύστηµα µοιραζόµενης µνήµης 1 n $ $ Bus Mem I/O devices 1 n Σύστηµα κατανεµηµένης µνήµης Mem $ Mem $ Interconnection
Συνοχή κρυφής μνήμης σε πολυπύρηνα/πολυεπεξεργαστικά συστήματα
Συνοχή κρυφής μνήμης σε πολυπύρηνα/πολυεπεξεργαστικά συστήματα ΙΙΙ 1 lalis@inf.uth.gr Απλοποιημένο μοντέλο συστήματος CPU/cores πάνω σε δίαυλο/δίκτυο (bus/interconnect) για απλότητα, εδώ CPU = core Η κυρίως
SMPcache. Ένα εργαλείο για προσομοίωση-οπτικοποίηση κρυφής μνήμης (Cache)
SMPcache Ένα εργαλείο για προσομοίωση-οπτικοποίηση κρυφής μνήμης (Cache) 1. Βασικές ρυθμίσεις του συστήματος: δημιουργία μια δικής μας σύνθεσης συστήματος. Το SMPcache είναι ένα εργαλείο με το οποίο μπορούμε
Ιεραρχία Μνήμης. Ιεραρχία μνήμης και τοπικότητα. Σκοπός της Ιεραρχίας Μνήμης. Κρυφές Μνήμες
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Αρχιτεκτονική Υπολογιστών 2016-17 Κρυφές Μνήμες (οργάνωση, λειτουργία και απόδοση) http://mixstef.github.io/courses/comparch/ Μ.Στεφανιδάκης Για βελτίωση της απόδοσης
Αρχιτεκτονική υπολογιστών
1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Αρχιτεκτονική υπολογιστών Ενότητα 4 : Κρυφή Μνήμη Καρβούνης Ευάγγελος Δευτέρα, 30/11/2015 Χαρακτηριστικά Θέση Χωρητικότητα Μονάδα Μεταφοράς
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ, ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΚΤΥΩΝ. ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Δρασίδης Γεώργιος
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ, ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΚΤΥΩΝ Μελέτη επεξεργαστών διπλού πυρήνα, πρωτοκόλλων συνοχής μνήμης και μελέτη υλοποίησης σε FPGA ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Δρασίδης Γεώργιος
Άσκηση 1η. Θεωρήστε ένα σύστημα μνήμης με μία cache: 4 way set associative μεγέθους 256ΚΒ,
Ασκήσεις Caches Άσκηση 1η Θεωρήστε ένα σύστημα μνήμης με μία cache: 4 way set associative μεγέθους 256ΚΒ, με cache line 8 λέξεων. Χαρακτηριστικά συστήματος μνήμης: μέγεθος της λέξης είναι 32 bits. 1 byte
Υ- 07 Παράλληλα Συστήματα Συνοχή κρυφής μνήμης με σύστημα καταλόγων
Υ- 07 Παράλληλα Συστήματα Συνοχή κρυφής μνήμης με σύστημα καταλόγων Αρης Ευθυμίου Γιατί όχι snooping Το snooping στηρίζεται σε εκπομπή σε όλους (broadcast) πρέπει όλοι οι ελεγκτές κρυφής μνήμης να μπορούν
Ασκήσεις Caches
Ασκήσεις Caches 1 Άσκηση 1η Θεωρήστε ένα σύστημα μνήμης με μία cache: 4-way set associative μεγέθους 256ΚΒ, με cache line 8 λέξεων. Χαρακτηριστικά συστήματος μνήμης: μέγεθος της λέξης είναι 32 bits. 1
Σειρά Ασκήσεων 13: Συνοχή (Coherence) Κρυφών Μνημών, Προχωρημένοι Επεξεργαστές (Out-of-Order, Superscalar, Multithreading, Multicores)
ΗΥ-225: Οργάνωση Υπολογιστών 1νοιξη 2013 Τμ. Επ. Υπολογιστών Πανεπιστήμιο Κρήτης Σειρά Ασκήσεων 13: Συνοχή (Coherence) Κρυφών Μνημών, Προχωρημένοι Επεξεργαστές (Out-of-Order, Superscalar, Multithreading,
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ Η/Υ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ Η/Υ ΤΕΛΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΤΗΝ ΟΡΓΑΝΩΣΗ ΣΤΟΥΣ Η/Y (ΗΥ232) Τετάρτη, 21 Δεκεμβρίου 2016 ΔΙΑΡΚΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ 3 ΩΡΕΣ Για πλήρη
Αρχιτεκτονική Υπολογιστών
Γιώργος Δημητρίου Ενότητα 11 η : Εισαγωγή σε Παράλληλες Αρχιτεκτονικές Παράλληλη Επεξεργασία Επίπεδο Παραλληλισμού Από εντολές έως ανεξάρτητες διεργασίες Οργανώσεις Παράλληλων Αρχιτεκτονικών Συμμετρικοί,
Είδη των Cache Misses: 3C s
Είδη των Cache Misses: 3C s 1 Compulsory: Συμβαίνουν κατά την πρώτη πρόσβαση σε ένα block. Το block πρέπει να κληθεί από χαμηλότερα επίπεδα μνήμης και να τοποθετηθεί στην cache (αποκαλούνται και cold start
Κεφάλαιο 7 Ιεραρχία Μνήμης (Memory Hierarchy)
Κεφάλαιο 7 Ιεραρχία Μνήμης (Memory Hierarchy) 1 Συστήματα Μνήμης Η οργάνωση του συστήματος μνήμης επηρεάζει τη λειτουργία και απόδοση ενός μικροεπεξεργαστή: Διαχείριση μνήμης και περιφερειακών (Ι/Ο) απότολειτουργικόσύστημα
Επιπλέον διδακτικό υλικό κρυφών μνημών: set-associative caches, πολιτικές αντικατάστασης, χειρισμός εγγραφών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Οργάνωση Υπολογιστών Επιπλέον διδακτικό υλικό κρυφών μνημών: set-associative caches, πολιτικές αντικατάστασης, χειρισμός εγγραφών Μανόλης Γ.Η. Κατεβαίνης Τμήμα Επιστήμης
ΠΛΕ- 027 Μικροεπεξεργαστές 9ο μάθημα: Αρχιτεκτονική συστήματος μνήμης: Κρυφές μνήμες εισαγωγή
ΠΛΕ- 027 Μικροεπεξεργαστές 9ο μάθημα: Αρχιτεκτονική συστήματος μνήμης: Κρυφές μνήμες εισαγωγή Αρης Ευθυμίου Σύστημα μνήμης Η μνήμη είναι σημαντικό κομμάτι ενός υπολογιστή Επηρεάζει κόστος, ταχύτητα, κατανάλωση
Πολυεπεξεργαστές Κοινής Μνήμης & Multi-cores. Κεφάλαιο ΙΙ
Πολυεπεξεργαστές Κοινής Μνήμης & Multi-cores Κεφάλαιο ΙΙ Πολυεπεξεργαστές κοινής μνήμης Ανεξάρτητοι επεξεργαστές & Κοινές μνήμες Σα πολυπύρηνα συστήματα είναι πολλοί πυρήνες που μοιράζονται την ίδια κύρια
Πολυεπεξεργαστές Κοινόχρηστης Μνήμης & Multi-cores. Κεφάλαιο ΙΙ
Πολυεπεξεργαστές Κοινόχρηστης Μνήμης & Multi-cores Κεφάλαιο ΙΙ Βιβλίο Β. Δημακόπουλος Παράλληλα Συστήματα και Προγραμματισμός 2016 Αποθετήριο Κάλλιπος (ελεύθερη πρόσβαση, PDF): http://repository.kallipos.gr/handle/11419/3209
Ασκήσεις Caches. Αρχιτεκτονική Υπολογιστών. 5ο εξάμηνο ΣΗΜΜΥ ακ. έτος: Νεκ. Κοζύρης
Αρχιτεκτονική Υπολογιστών 5ο εξάμηνο ΣΗΜΜΥ ακ. έτος: 2014-2015 Νεκ. Κοζύρης nkoziris@cslab.ece.ntua.gr Ασκήσεις Caches http://www.cslab.ece.ntua.gr/courses/comparch/ Άδεια Χρήσης Το παρόν εκπαιδευτικό
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών - Μηχανικών Υπολογιστών. Αρχιτεκτονική Υπολογιστών Νεκτάριος Κοζύρης. Cache Optimizations
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών - Μηχανικών Υπολογιστών Αρχιτεκτονική Υπολογιστών Νεκτάριος Κοζύρης Cache Optimizations Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
Συστήματα μνήμης και υποστήριξη μεταφραστή για MPSoC
Συστήματα μνήμης και υποστήριξη μεταφραστή για MPSoC Πλεονεκτήματα MPSoC Είναι ευκολότερο να σχεδιαστούν πολλαπλοί πυρήνες επεξεργαστών από τον σχεδιασμό ενός ισχυρότερου και πολύ πιο σύνθετου μονού επεξεργαστή.
Cach O p i timisati tions
Cache Optimisations i 1 Διαφορά Επίδοσης Processor-Memory Performance Gap: (grows 50% / year) 2 SRAM vs DRAM 1-transistor DRAM cell 6-transistor SRAM cell 3 Intel 45nm 6T SRAM cell 4 Ιεραρχία Μνήμης Πρέπει
Ασκήσεις Caches
Ασκήσεις Caches 1 Άσκηση 1η Θεωρήστε ένα σύστημα μνήμης με μία cache: 4-way set associative μεγέθους 256ΚΒ, με cache line 8 λέξεων. Χαρακτηριστικά συστήματος μνήμης: μέγεθος της λέξης είναι 32 bits. 1
Εικονική Μνήμη (Virtual Μemory)
ΗΥ 431 Αρχιτεκτονική Παραλλήλων Συστημάτων Διάλεξη 16 Εικονική Μνήμη (Virtual Μemory) Νίκος Μπέλλας Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ Απλό πείραμα int *data = malloc((1
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr ΑΡΧΙΤΕΚΤΟΝΙΚΗ
Αρχιτεκτονική Υπολογιστών
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Αρχιτεκτονική Υπολογιστών Ενότητα 13: (Μέρος Γ ) Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας Δρ. Μηνάς Δασυγένης mdasyg@ieee.org Εργαστήριο Ψηφιακών
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών H/Y Department of Electrical and Computer Engineering. Εργαστήριο 8. Χειμερινό Εξάμηνο
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών H/Y Department of Electrical and Computer Engineering Οργάνωση και Σχεδίαση Η/Y (HY232) Εργαστήριο 8 Χειμερινό Εξάμηνο 2016-2017 1. Προσομοίωση λειτουργίας ιεραρχίας
Οργάνωση επεξεργαστή (2 ο μέρος) ΜΥΥ-106 Εισαγωγή στους Η/Υ και στην Πληροφορική
Οργάνωση επεξεργαστή (2 ο μέρος) ΜΥΥ-106 Εισαγωγή στους Η/Υ και στην Πληροφορική Ταχύτητα εκτέλεσης Χρόνος εκτέλεσης = (αριθμός εντολών που εκτελούνται) Τί έχει σημασία: Χ (χρόνος εκτέλεσης εντολής) Αριθμός
Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας Ενότητα 9: Συμφωνία μνημών CACHE. Μοντέλα Συνέπειας Μνήμης. Δρ. Μηνάς Δασυγένης mdasyg@ieee.org Εργαστήριο
Εισαγωγή Θέματα H/W. Χάρης Μανιφάβας Τμήμα Εφ. Πληροφορικής & Πολυμέσων ΤΕΙ Κρήτης. Κατανεμημένα Συστήματα (Ε) Εισαγωγή: Θέματα H/W 1
Εισαγωγή Θέματα H/W Χάρης Μανιφάβας Τμήμα Εφ. Πληροφορικής & Πολυμέσων ΤΕΙ Κρήτης Εισαγωγή: Θέματα H/W 1 Θέματα Hardware Τα ΚΣ αποτελούνται από πολλαπλά CPUs ιαφορετικοί τρόποι σύνδεσης και επικοινωνίας
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ε Ρ Γ ΑΣ Τ ΗΡ ΙΟ Υ ΠΟΛΟΓΙΣ Τ ΙΚΩΝ Σ Υ Σ Τ ΗΜΑΤΩΝ w w w. c s l ab.ece.ntua.gr
Διάλεξη 15 Απόδοση της Ιεραρχίας Μνήμης Βελτιστοποίηση της απόδοσης
ΗΥ 232 Οργάνωση και Σχεδίαση Υπολογιστών Διάλεξη 5 Απόδοση της Ιεραρχίας Μνήμης Βελτιστοποίηση της απόδοσης Νίκος Μπέλλας Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων Πόσο μεγάλη είναι μια μνήμη cache;
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr ΠΡΟΗΓΜΕΝΑ ΘΕΜΑΤΑ
ΤΕΧΝΙΚΕΣ ΑΥΞΗΣΗΣ ΤΗΣ ΑΠΟΔΟΣΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ I
ΤΕΧΝΙΚΕΣ ΑΥΞΗΣΗΣ ΤΗΣ ΑΠΟΔΟΣΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ I MIPS Η MIPS (Microprocessor without Interlocked Pipeline Stages) είναι μία αρχιτεκτονική συνόλου εντολών (ISA) γλώσσας μηχανής που αναπτύχθηκε από την εταιρεία
Θέµατα Φεβρουαρίου
Θέµατα Φεβρουαρίου 2-2 cslab@ntua 2- Θέµα ο (3%): Έστω η παρακάτω ακολουθία εντολών που χρησιµοποιείται για την αντιγραφ από µια θέση µνµης σε µια άλλη (memory-to-memory copy): lw $2, ($) sw $2, 2($) i)
(advanced_ca, ακ. έτος Cache Optimisations
Cache Optimisations Διαφορά Επίδοσης Processor-Memory Performance Gap: (grows 50% / year) Ιεραρχία Μνήμης Πρέπει να μειώσουμε το processor-memory performance gap Η προσπέλαση δεδομένων (code & data) δεν
Υ- 01 Αρχιτεκτονική Υπολογιστών Υπόβαθρο: Κρυφές μνήμες
Υ- 01 Αρχιτεκτονική Υπολογιστών Υπόβαθρο: Κρυφές μνήμες Αρης Ευθυμίου Το σημερινό μάθημα Κρυφές μνήμες (cache memory) Βασική οργάνωση, παράμετροι: γραμμές, συσχετιστικότητα, συνολική χωρητικότητα Επίδοση:
Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας Ενότητα 9: Συμφωνία μνημών CACHE. Μοντέλα Συνέπειας Μνήμης. Δρ. Μηνάς Δασυγένης mdasyg@ieee.org Εργαστήριο
Αρχιτεκτονική Υπολογιστών
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αρχιτεκτονική Υπολογιστών Υποσύστημα μνήμης Διδάσκων: Επίκουρος Καθηγητής Αριστείδης Ευθυμίου Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
Προχωρηµένα Θέµατα Αρχιτεκτονικής
Προχωρηµένα Θέµατα Αρχιτεκτονικής Memory Hierarchy Design. Λιούπης Ιεραρχία Μνήµης Τα προγράµµατα απαιτούν όλο και περισσότερη και πιο γρήγορη µνήµη Γρήγορη και µεγάλη µνήµη -> ακριβή Αυτό οδηγεί σε ιεραρχία
Συνέπεια μνήμης σε πολυπύρηνα/πολυεπεξεργαστικά συστήματα
Συνέπεια μνήμης σε πολυπύρηνα/πολυεπεξεργαστικά συστήματα ΙΙΙ 1 lalis@inf.uth.gr Απλοποιημένο μοντέλο συστήματος CPU/cores πάνω σε δίαυλο/δίκτυο (bus/interconnect) για απλότητα, εδώ CPU = core Η κυρίως
Processor-Memory (DRAM) ιαφορά επίδοσης
Processor-Memory (DRAM) ιαφορά επίδοσης µproc 6%/yr 98 98 982 983 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 Performance Processor-Memory Performance Gap: (grows 5% /
Processor-Memory (DRAM) Διαφορά επίδοσης
Performance Processor-Memory (DRAM) Διαφορά επίδοσης 98 98 982 983 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 µproc 6%/yr Processor-Memory Performance Gap: (grows 5%
Ασκήσεις στα Προηγμένα Θέματα Αρχιτεκτονικής Υπολογιστών
Ασκήσεις στα Προηγμένα Θέματα Αρχιτεκτονικής Υπολογιστών ακ. έτος 2006-2007 Νεκτάριος Κοζύρης Νίκος Αναστόπουλος {nkoziris,anastop}@cslab.ece.ntua.gr Άσκηση 1: pipelining Εξετάζουμε την εκτέλεση του παρακάτω
Εικονική Μνήμη (virtual memory)
Εικονική Μνήμη (virtual memory) Πολλά προγράμματα εκτελούνται ταυτόχρονα σε ένα υπολογιστή Η συνολική μνήμη που απαιτείται είναι μεγαλύτερη από το μέγεθος της RAM Αρχή τοπικότητας (η μνήμη χρησιμοποιείται
Προβλήματα ταυτόχρονης εκτέλεσης (για νήματα με κοινή μνήμη)
Προβλήματα ταυτόχρονης εκτέλεσης (για νήματα με κοινή μνήμη) ΙΙΙ 1 lalis@inf.uth.gr Ταυτόχρονη εκτέλεση Ο προγραμματιστής δεν ελέγχει (άμεσα) την εκτέλεση/εναλλαγή των νημάτων Δεν γνωρίζει πότε θα αρχίσει
Οργάνωση Ιεραρχίας Μνήμης - Caches
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών - Μηχανικών Υπολογιστών Αρχιτεκτονική Υπολογιστών Νεκτάριος Κοζύρης Οργάνωση Ιεραρχίας Μνήμης - Caches Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό
Α. Δίνονται οι. (i) στη. πρέπει να. πιο. (ii) $a0. $s0 θα πρέπει να. αποθήκευση. αυξάνει τον. f: sub sll add sub jr. h: addi sw sw.
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΡ ΙΟ ΥΠΟΛΟΟ ΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua. gr ΑΡΧΙΤΕΚΤΟΝΙΚΗ
Μηχανοτρονική. Τμήμα Μηχανικών Παραγωγής και Διοίκησης 7 ο Εξάμηνο,
Τμήμα Μηχανικών Παραγωγής και Διοίκησης 7 ο Εξάμηνο, 2016-2017 ΜΙΚΡΟΕΠΕΞΕΡΓΑΣΤΕΣ Μικροϋπολογιστής Υπολογιστής που χρησιμοποιείται για την είσοδο, επεξεργασία και έξοδο πληροφοριών. Είδη μικροϋπολογιστών:
Υ- 07 Παράλληλα Συστήματα Transac9onal memory
Υ- 07 Παράλληλα Συστήματα Transac9onal memory Αρης Ευθυμίου Παρ. προγρ/μός με κλειδιά Χαμηλού επιπέδου πολύ κοντά στα μέσα και τις δομές του υλικού πολλές λεπτομέρειες, εύκολα γίνεται λάθος χαμηλή παραγωγικότητα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr ΠΡΟΗΓΜΕΝΑ ΘΕΜΑΤΑ
Παράλληλα Συστήματα. Γιώργος Δημητρίου. Ενότητα 3 η : Παράλληλη Επεξεργασία. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής
Γιώργος Δημητρίου Ενότητα 3 η : Παράλληλη Επεξεργασία Παράλληλες Αρχιτεκτονικές Παράλληλο σύστημα είναι ένα σύνολο από επεξεργαστικά στοιχεία (processing elements) τα οποία: συνεργάζονται για γρήγορη επίλυση
Παράλληλη Επεξεργασία Κεφάλαιο 1 Γιατί Παράλληλος Προγραμματισμός;
Παράλληλη Επεξεργασία Κεφάλαιο 1 Γιατί Παράλληλος Προγραμματισμός; Κωνσταντίνος Μαργαρίτης Καθηγητής Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας kmarg@uom.gr http://eos.uom.gr/~kmarg Αρετή
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2
ΠΛΕ- 074 Αρχιτεκτονική Υπολογιστών 2 10ο μάθημα: Ορια παραλληλίας επιπέδου εντολής και πολυνηματικοί επεξεργαστές Αρης Ευθυμίου Πηγές διαφανειών: συνοδευτικές διαφάνειες αγγλικης εκδοσης του βιβλιου Ορια
Αρχιτεκτονική Υπολογιστών
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Αρχιτεκτονική Υπολογιστών Ενότητα 13: (Μέρος Γ ) Συστήματα Παράλληλης & Κατανεμημένης Επεξεργασίας Δρ. Μηνάς Δασυγένης mdasyg@ieee.org Εργαστήριο Ψηφιακών
Max Planck Institute for Software Systems (MPI-SWS)
Μια ταπεινή προσπάθεια κατανόησης του χαλαρού μοντέλου μνήμης της C/C++ Βίκτωρ Βαφειάδης Max Planck Institute for Software Systems (MPI-SWS) Σημασιολογία των παράλληλων προγραμμάτων Μοντέλα μνήμης (memory
Processor-Memory (DRAM) ιαφορά επίδοσης
Processor-Memory (DRAM) ιαφορά επίδοσης µproc 6%/yr 98 98 982 983 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 Performance Processor-Memory Performance Gap: (grows 5% /
add $t0,$zero, $zero I_LOOP: beq $t0,$s3, END add $t1, $zero,$zero J_LOOP: sub $t2, $s3, $t0 add $t2, $t2, $s1 int i, j, tmp; int *arr, n;
Άσκηση 1 η Μέρος Α Ζητούμενο: Δίνεται το παρακάτω πρόγραμμα σε C καθώς και μια μετάφραση του σε assembly MIPS. Συμπληρώστε τα κενά. Σας υπενθυμίζουμε ότι ο καταχωρητής $0 (ή $zero) είναι πάντα μηδέν. int
EM 361: Παράλληλοι Υπολογισμοί
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ EM 361: Παράλληλοι Υπολογισμοί Ενότητα #2: Αρχιτεκτονική Διδάσκων: Χαρμανδάρης Ευάγγελος ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
Πανεπιστήμιο Θεσσαλίας Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων
Πανεπιστήμιο Θεσσαλίας Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων Οργάνωση Η/Υ Ενότητα 1η: Εισαγωγή στην Οργάνωση Η/Υ Άσκηση 1: Αναλύστε τη διαδοχική εκτέλεση των παρακάτω εντολών MIPS με βάση τις
Θέματα Μεταγλωττιστών
Γιώργος Δημητρίου Ενότητα 9 η : Θέματα Δρομολόγησης Εντολών ILP Παραλληλισμός επιπέδου εντολής Εξαρτήσεις δεδομένων Εξαρτήσεις ελέγχου (διαδικασιακές) Με διαθέσιμους πόρους, οι εντολές μπορούν να εκτελεστούν
Εικονική Μνήμη (Virtual Μemory)
ΗΥ 232 Οργάνωση και Σχεδίαση Υπολογιστών Διάλεξη 16 Εικονική Μνήμη (Virtual Μemory) Νίκος Μπέλλας Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ Απλό πείραμα int *data = malloc((1
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr ΠΡΟΗΓΜΕΝΑ ΘΕΜΑΤΑ
Τελική Εξέταση, Απαντήσεις/Λύσεις
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (ΗΜΜΥ) HMΜY 212 Οργάνωση Η/Υ και Μικροεπεξεργαστές Εαρινό Εξάμηνο, 2007 Τελική Εξέταση, Απαντήσεις/Λύσεις Άσκηση 1: Assembly για
Πανεπιστήμιο Πατρών. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών
Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Εργαστήριο Σχεδίασης Ολοκληρωμένων Κυκλωμάτων Σχεδιασμός Ολοκληρωμένων Συστημάτων με τεχνικές VLSI Χειμερινό Εξάμηνο 2015 FSM
Κεντρική Μονάδα Επεξεργασίας. Επανάληψη: Απόδοση ΚΜΕ. ΚΜΕ ενός κύκλου (single-cycle) Παραλληλισμός σε επίπεδο εντολών. Υπολογιστικό σύστημα
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Αρχιτεκτονική Υπολογιστών 2016-17 Παραλληλισμός σε επίπεδο εντολών (Pipelining και άλλες τεχνικές αύξησης απόδοσης) http://mixstef.github.io/courses/comparch/ Μ.Στεφανιδάκης
Προβλήματα ταυτόχρονης εκτέλεσης (για νήματα με κοινή μνήμη)
Προβλήματα ταυτόχρονης εκτέλεσης (για νήματα με κοινή μνήμη) ΙΙΙ 1 lalis@inf.uth.gr Υποθέσεις εργασίας Νήματα/διεργασίες με κοινή μνήμη Αυτόματη διακοπή/εναλλαγή νημάτων/διεργασιών (π.χ. πάνω από 1 CPU
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΚΕΦΑΛΑΙΑ 3 και 9 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΕΣ Δεδομένα αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της δηλαδή.
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr ΠΡΟΗΓΜΕΝΑ ΘΕΜΑΤΑ
ΕΘΝΙKΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Ονοματεπώνυμο: ΑΜ:
ΕΘΝΙKΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Ονοματεπώνυμο: ΑΜ: ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ (τμήμα Μ - Ω) Κανονική εξεταστική Φεβρουαρίου
Διαφορές single-processor αρχιτεκτονικών και SoCs
13.1 Τα συστήματα και η επικοινωνία μεταξύ τους γίνονται όλο και περισσότερο πολύπλοκα. Δεν μπορούν να περιγραφούνε επαρκώς στο επίπεδο RTL καθώς αυτή η διαδικασία γίνεται πλέον αρκετά χρονοβόρα. Για αυτό
Αρχιτεκτονική Υπολογιστών
Αρχιτεκτονική Υπολογιστών Παραλληλισμός Βασικές Πηγές: Αρχιτεκτονική Υπολογιστών: μια Δομημένη Προσέγγιση, Α. Tanenbaum, Vrije Universiteit, Amsterdam. Computer Architecture and Engineering, K. Asanovic,
Παράλληλος προγραμματισμός: παράλληλες λ υπολογιστικές πλατφόρμες και ανάλυση προγραμμάτων
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχ. και Μηχανικών Υπολογιστών Εργαστήριο Υπολογιστικών Συστημάτων Παράλληλος προγραμματισμός: παράλληλες λ υπολογιστικές πλατφόρμες και ανάλυση προγραμμάτων
Έλεγχος Ταυτοχρονισμού
Έλεγχος Ταυτοχρονισμού Κεφάλαιο 17 Database Management Systems 3ed, R. Ramakrishnan and J. Gehrke Ελληνική Μετάφραση: Γεώργιος Ευαγγελίδης 1 Συγκρουσιακώς Σειριοποιήσιμα Χρονοπρογράμματα Δυο χρονοπρογράμματα
Προβλήματα ταυτόχρονης εκτέλεσης (για νήματα με κοινή μνήμη)
Προβλήματα ταυτόχρονης εκτέλεσης (για νήματα με κοινή μνήμη) ΙΙΙ 1 lalis@inf.uth.gr Υποθέσεις εργασίας Νήματα/διεργασίες με κοινή μνήμη Αυτόματη διακοπή/εναλλαγή νημάτων/διεργασιών (π.χ. πάνω από 1 CPU
Παραλληλισμός σε επίπεδο εντολών
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Αρχιτεκτονική Υπολογιστών 2015-16 Παραλληλισμός σε επίπεδο εντολών (Pipelining και άλλες τεχνικές αύξησης απόδοσης) http://di.ionio.gr/~mistral/tp/comparch/ Μ.Στεφανιδάκης
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr ΠΡΟΗΓΜΕΝΑ ΘΕΜΑΤΑ
Αρχιτεκτονική Υπολογιστών
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Αρχιτεκτονική Υπολογιστών Ενότητα 11: Κρυφή Μνήμη Δρ. Μηνάς Δασυγένης mdasyg@ieee.org Εργαστήριο Ψηφιακών Συστημάτων και Αρχιτεκτονικής Υπολογιστών http://arch.icte.uowm.gr/mdasyg
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών - Μηχανικών Υπολογιστών. Αρχιτεκτονική Υπολογιστών Νεκτάριος Κοζύρης.
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών - Μηχανικών Υπολογιστών Αρχιτεκτονική Υπολογιστών Νεκτάριος Κοζύρης Εικονική Μνήμη Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
Διάλεξη 14 Εισαγωγή στην Ιεραρχία Μνήμης
ΗΥ 232 Οργάνωση και Σχεδίαση Υπολογιστών Διάλεξη 14 Εισαγωγή στην Ιεραρχία Μνήμης Νίκος Μπέλλας Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων 1 H Μικρο-αρχιτεκτονική μας 4 1 0 PCSrc IF/ID Control ID/EX
Αρχιτεκτονική Υπολογιστών
Αρχιτεκτονική Υπολογιστών Παραλληλισμός Βασικές Πηγές: Αρχιτεκτονική Υπολογιστών: μια Δομημένη Προσέγγιση, Α. Tanenbaum, Vrije Universiteit, Amsterdam. Computer Architecture and Engineering, K. Asanovic,