Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Σχετικά έγγραφα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΜΕΛΕΤΗ ΣΧΕΔΙΑΣΗ ΕΦΑΡΜΟΓΗΣ ΣΕ ΥΠΟΛΟΓΙΣΤΙΚΟ ΝΕΦΟΣ (CLOUD COMPUTING) ΜΕ ΕΜΦΑΣΗ ΣΤΗΝ ΚΑΤΑΣΚΕΥΗ ΔΕΝΤΡΩΝ.

Υλοποίηση κατασκευής δέντρου επιθεμάτων σε Hadoop MapReduce

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τυπικά θέματα εξετάσεων. ΠΡΟΣΟΧΗ: Οι ερωτήσεις που παρατίθενται ΔΕΝ καλύπτουν την πλήρη ύλη του μαθήματος και παρέχονται απλά ενδεικτικά

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΒΙΒΛΙΑ ΒΙΒΛΙΑ

EPL 660: Lab 4 Introduction to Hadoop

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Στοιχεία παρουσίασης. Εισαγωγή Θεωρητικό υπόβαθρο Υλοποίηση λογισμικού μέρους συστήματος Συμπεράσματα Μελλοντικές Επεκτάσεις

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19

Επερωτήσεις σύζευξης με κατάταξη

ΚΕΦΑΛΑΙΟ 6 ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ. 03/01/09 Χαράλαμπος Τζόκας 1

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΑΝΕΜΗΜΕΝΑ ΣΥΣΤΗΜΑΤΑ Εαρινό Εξάμηνο

Τομές Γραφήματος. Γράφημα (μη κατευθυνόμενο) Συνάρτηση βάρους ακμών. Τομή : Διαμέριση του συνόλου των κόμβων σε δύο μη κενά σύνολα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΣΧΕΔΙΑΣΜΟΣ ΚΙΝΗΣΗΣ ΚΑΙ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΙΩΝ ΣΕ ΒΙΟΜΗΧΑΝΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Α. Ερωτήσεις Ανάπτυξης

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

LALING/PLALING :

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Μαλούτα Θεανώ Σελίδα 1

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΚΡΥΠΤΟΓΡΑΦIΑ Α ΚΑΙ ΑΣΦΑΛΕΙΑ ΥΠΟΛΟΓΙΣΤΩΝ Δ Εξάμηνο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

PROJECT ΣΤΟ ΜΑΘΗΜΑ "ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ"

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

οµηµένος Εξελικτικός Αλγόριθµος

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

επιφάνεια πυριτίου Αναφορά στο Εκπαιδευτικό Υλικό : 5. Αναφορά στο Εργαστήριο :

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Τμήμα Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0175 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 9

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Μαζικός Παραλληλισμός λ με Map - Reduce. Μοντέλο Θέματα υλοποίησης Παραδείγματα διαχείρισης δεδομένων

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Κεφάλαιο 2.3: Προγραμματισμός. Επιστήμη ΗΥ Κεφ. 2.3 Καραμαούνας Πολύκαρπος

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

ΥΠΟΛΟΓΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

10. Με πόσους και ποιους τρόπους μπορεί να αναπαρασταθεί ένα πρόβλημα; 11. Περιγράψτε τα τρία στάδια αντιμετώπισης ενός προβλήματος.

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Πληροφοριακά Συστήματα Διοίκησης

Σχεδιασμός και Υλοποίηση ενός πληροφοριακού συστήματος για τους τεχνικούς του φυσικού αερίου

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

Αναγνώριση Προτύπων Ι

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΣΧΟΛΗ ΠΟΛΥΤΕΧΝΙΚΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0102 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 2

Εισαγωγή στα Συστήματα Ψηφιακής Επεξεργασίας Σήματος

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΕΠΙΜΟΡΦΩΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΑ ΝΕΑ ΑΝΑΛΥΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΝΕΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ Γ ΓΥΜΝΑΣΙΟΥ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

MapReduce Εισαγωγή. MapReduce. ηµήτρης Λεβεντέας

Φ. Δογάνης I. Bafumba Χ. Σαρίμβεης. Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Χημικών Μηχανικών Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

Επεξεργασία Ερωτήσεων

c All rights reserved

Ανάκτηση Πληροφορίας

- Επιστημονικός Υπεύθυνος Ενεργείας: Θεόδωρος Γ. Εξαρχάκος Καθηγητής του Πανεπιστημίου Αθηνών Πρόεδρος του Παιδαγωγικού Ινστιτούτου «Αναμόρφωση / εκ

Επεξεργασία Ερωτήσεων

Σχεδιασμός επέκτασης του συστήματος ηλεκτροπαραγωγής με τη χρήση Πολυκριτηριακού Γραμμικού Προγραμματισμού

Πληροφοριακά Συστήματα Διοίκησης

Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον

Το µαθηµατικό µοντέλο του Υδρονοµέα

Συστήματα Παράλληλης και Κατανεμημένης Επεξεργασίας

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Υπολογιστικά Νέφη. Ενότητα 12: MapReduce. Άγγελος Μιχάλας Τμήμα Μηχανικών Πληροφορικής ΤΕ

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Διαχείριση Υδατικών Πόρων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Κεφάλαιο 1. Πέντε Αντιπροσωπευτικά Προβλήματα. Έκδοση 1.4, 30/10/2014. Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

2. Στοιχεία Αρχιτεκτονικής Παράλληλων Υπολογιστών... 45

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

ΑΕΠΠ Ερωτήσεις θεωρίας

Θεμελιώδη Θέματα Επιστήμης Υπολογιστών

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

ο ρόλος των αλγορίθμων στις υπολογιστικές διαδικασίες Παύλος Εφραιμίδης Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι

Transcript:

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce - Hadoop Σχετικές Εργασίες Υλοποιήσεις Πειράματα Βελτιώσεις 2

Σκοπός της διπλωματικής Μελέτη του προβλήματος προσεγγιστικού ταιριάσματος ακολουθιών και επίλυση με τεχνικές MapReduce 3

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce - Hadoop Σχετικές Εργασίες Υλοποιήσεις Πειράματα Βελτιώσεις 4

Μελέτη του DNA Γιατί είναι σημαντική η μελέτη του DNA; φορέας της γενετικής πληροφορίας Λειτουργίες των οργανισμών Φαινότυπος του ατόμου Προδιάθεση για ασθένειες σύγκριση ακολουθιών Γνώσεις για δομή και λειτουργίες άγνωστης ακολουθίας Εύρεση κοινών απογόνων Με ποιο τρόπο γίνεται στην πληροφορική? 5

Γιατί δεν αρκεί το GREP; Πειραματικά λάθη: Ανακρίβεια ακολουθιοποίησης DNA (διαδικασία μετατροπής των βιολογικών δεδομένων σε ψηφιακά στο εργαστήριο) Μεταλλάξεις στο γενετικό υλικό Προσεγγιστικό ταίριασμα ακολουθιών 6

Προσεγγιστικό ταίριασμα ακολουθιών αλφάβητο Σ, Σ =σ Σ={A, C, G, T} ακολουθία αναφοράς (reference sequence ή text) T = t t...t 12 n ακολουθία-πρότυπο (pattern ή query) P = p p...p 1 2 m συντακτική Ημι-τοπικό n >> m απόσταση ταίριασμα (semi-local k: ο μέγιστο επιτρεπτό όριο λαθών alignment) συνάρτηση απόστασης d(): Σ* x Σ* πρότυπο R ακολουθία αναφοράς 7

Νέες τάσεις Ακολουθιοποιητές νέας γενιάς 2008: ακολουθιοποίηση του DNA του Watson σε 4 μήνες Projects Personal Genome Project: στόχος η ακολουθιοποίηση του DNA κάθε ατόμου με κόστος < $1,000 Απαιτούνται νέες μέθοδοι - αποθήκευσης, - διαχείρισης & - επεξεργασίας βιολογικών δεδομένων κατανομή σε πολλούς επεξεργαστές 8

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce - Hadoop Σχετικές Εργασίες Υλοποιήσεις Πειράματα Βελτιώσεις 9

MapReduce Προγραμματιστικό μοντέλο για κατανεμημένη εκτέλεση προγραμμάτων Εκτέλεση προγραμμάτων σε cluster με μηχανήματα που είναι προσβάσιμα από τον περισσότερο κόσμο (commodity hardware) Χειρισμός τεράστιου όγκου δεδομένων (πολλά GBs ή TΒs) Βασίζεται σε ιδέες του συναρτησιακού προγραμματισμού H πιο διαδεδομένη open-source υλοποίηση είναι το Hadoop 10

Προγραμματισμός στο MapReduce Σε όλα τα στάδια λειτουργεί με ζεύγη κλειδιού/τιμής 2 βασικές συναρτήσεις: map και reduce Κάποιες φορές και combine μεταξύ των map και reduce Είσοδος: Σύνολο κλειδιών με τις τιμές τους (ον. αρχείου, περιεχόμενα) Συνάρτηση χρήστη MAP (kr, vr) (λέξη, 134) Κάθε (k,v) αντιστοιχίζεται σε 1 σύνολο ενδιάμεσων ζευγών (λέξη, 1) Ταξινόμηση των ζευγών με βάση το κλειδί Συνάρτηση χρήστη REDUCE Λίστα με ενδιάμεσες τιμές για κάθε κλειδί (k, [v1,..., vn]) (λέξη, [1,1,...,1]) 11

master Hadoop - HDFS σύστημα αρχείων του Hadoop αρχιτεκτονική master/slave Distributed Cache Παλμός: τρόπος αναγνώρισης της αποτυχίας του slave slave 12

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce - Hadoop Σχετικές Εργασίες Υλοποιήσεις Πειράματα Βελτιώσεις 13

Σχετικές εργασίες Έχουν παραλληλοποιηθεί στο MapReduce προσεγγιστικοί αλγόριθμοι της οικογένειας BLAST BLAST Γρήγορος Εντοπίζει τα σημαντικότερα ταιριάσματα Δεν εγγυάται την εύρεση των βέλτιστων ταιριασμάτων Βρίσκει τοπικά ταιριάσματα ΑΛΛΑ υπάρχουν βιολογικές εφαρμογές που χρειάζονται όλα τα ημι-τοπικά ταιριάσματα 14

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce - Hadoop Σχετικές Εργασίες Υλοποιήσεις Πειράματα Βελτιώσεις 15

Το πρόβλημα που επιλύουμε Πολλά πρότυπα Στο HDFS Στη Distributed Cache 16

Αλγόριθμος δυναμικού προγραμματισμού Τύποι: Ευριστική cutoff Ακολουθία αναφοράς Ακολουθίαπρότυπο θέσεις ταιριασμάτων για k=2 17

Υλοποίηση MapReduce του δυναμικού προγραμματισμού 18

Αλγόριθμος του Fredriksson Πολλαπλό ταίριασμα ακολουθιών ομοιότητα προτύπων απόρριψη παραθύρων που αποκλείεται να περιέχουν ταιριάσματα και εύρεση ταιριασμάτων, πχ. με δυναμικό προγραμματισμό, στα παράθυρα που δεν απορρίφθηκαν Μειονέκτημα: εξάρτηση της επίδοσης από έναν παράγοντα, το μήκος των l-grams που χρησιμοποιεί στην προεπεξεργασία του l=? l+1=? 19

Υλοποίηση MapReduce του αλγορίθμου του Fredriksson 20

Αλγόριθμος Φιλτραρίσματος στο MapReduce 1ος κύκλος: φιλτράρισμα Ακριβές ταίριασμα: γρήγορο 2ος κύκλος: Fredriksson Παρατήρηση για να υπάρχει ταίριασμα: - πρότυπο P - κείμενο Τ - όριο λαθών k Αν χωρίσουμε το πρότυπο σε k+1 τμήματα, θα πρέπει ένα τουλάχιστον τμήμα να υπάρχει ακριβώς στο κείμενο. 21

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce Hadoop Υλοποιήσεις Πειράματα Σχετικές Εργασίες Σύνοψη 22

Πειράματα Δημιουργία και χρήση ιδιωτικού Hadoop cluster στο πανεπιστήμιο Πελοποννήσου Δεδομένα εισόδου GenBank Ακολουθίες αναφοράς: χρωμοσώματα του Homo Sapiens Πρότυπα: τμήματα των ακολουθιών αναφοράς Αλγόριθμος δυναμικού προγραμματισμού: 7-8 φορές πιο αργός από τον αλγόριθμο φιλτραρίσματος Χρήση του βέλτιστου l για τον αλγόριθμο Fredriksson 23

Μεταβλητό μέγεθος εισόδου -100 πρότυπα με μήκος 100 χαρ. - k=5 24

Μεταβλητός αριθμός προτύπων - 2GB είσοδος - πρότυπα με μήκος 100 χαρ. - k=5 25

Μεταβλητό μήκος προτύπων - 2GB είσοδος - 100 πρότυπα μήκους m - k=5%*m 26

Μεταβλητός λόγος λαθών α=k/m - 1GB είσοδος - 100 πρότυπα με μήκος 100 χαρ. - k=α*100 27

Μεταβλητός αριθμός κόμβων - 1GB είσοδος - 100 πρότυπα με μήκος 100 χαρ. - k=5 28

Σύνοψη συμπερασμάτων Ο αλγόριθμος Φιλτραρίσματος είναι καλύτερος για: Μεγάλο πλήθος προτύπων Μπορεί να Μεγάλο μήκος προτύπων ανταπεξέλθει Μικρό λόγο λαθών α<10% στις νέες απαιτήσεις Πρακτικές τιμές Ο αλγόριθμος του Fredriksson είναι καλύτερος για: μικρό πλήθος προτύπων Μεγαλύτερο λόγο λαθών α<50% Και οι δύο αλγόριθμοι Επεκτείνονται καλά με την αύξηση του αριθμού των κόμβων 29

Θέματα Σκοπός της διπλωματικής Θεωρητικό υπόβαθρο Στοιχεία Βιολογίας MapReduce - Hadoop Σχετικές Εργασίες Υλοποιήσεις Πειράματα Βελτιώσεις 30

Προτεινόμενες βελτιώσεις στον αλγόριθμο φιλτραρίσματος Επιτάχυνση του 1ου κύκλου MR με χρήση αλγορίθμου πολλαπλών ακριβών ταιριασμάτων (MESM) Χρήση του MapReduce Online, παραλλαγή του Hadoop που επιτρέπει την ταυτόχρονη εκτέλεση κύκλων MapReduce Χρήση της κλάσης ChainMapper που επιτρέπει το σχήμα [Μap+ / Reduce] πολλές συναρτήσεις map στην ίδια εργασία αποδοτικότερος χειρισμός των I/O 31

Wiki 32

Ευχαριστίες Καθηγητή κ. Τίμο Σελλή Υποψήφιο διδάκτορα Θανάση Βεργούλη Ερευνητή του κέντρου Αθηνά Θοδωρή Δαλαμάγκα Τμήμα Eπιστήμης και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πελοποννήσου και ιδιαίτερα τον Επίκουρο Καθηγητή κ. Σπύρο Σκιαδόπουλο 33

Ερωτήσεις?? 34