Εισαγωγή στη Βιοπληροφορική

Σχετικά έγγραφα
2 Composition. Invertible Mappings

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Εισαγωγή στη Βιοπληροφορική

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Homework 3 Solutions

EE512: Error Control Coding

Instruction Execution Times

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

C.S. 430 Assignment 6, Sample Solutions

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Section 8.3 Trigonometric Equations

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Matrices and Determinants

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

Example Sheet 3 Solutions

Other Test Constructions: Likelihood Ratio & Bayes Tests

Reminders: linear functions

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

Solutions to the Schrodinger equation atomic orbitals. Ψ 1 s Ψ 2 s Ψ 2 px Ψ 2 py Ψ 2 pz

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Μηχανική Μάθηση Hypothesis Testing

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

Math 6 SL Probability Distributions Practice Test Mark Scheme

the total number of electrons passing through the lamp.

The Simply Typed Lambda Calculus

PARTIAL NOTES for 6.1 Trigonometric Identities

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

On a four-dimensional hyperbolic manifold with finite volume

Galatia SIL Keyboard Information

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

Notes on the Open Economy

Every set of first-order formulas is equivalent to an independent set

Capacitors - Capacitance, Charge and Potential Difference

Fractional Colorings and Zykov Products of graphs

Στο εργαστήριο θα μελετηθούν: Διδάσκων: Γιώργος Χατζηπολλάς. Εργαστήριο 2: Εργαλεία Συστήματος UNIX. Ομάδες για παρουσίαση

Στο εστιατόριο «ToDokimasesPrinToBgaleisStonKosmo?» έξω από τους δακτυλίους του Κρόνου, οι παραγγελίες γίνονται ηλεκτρονικά.

Trigonometry 1.TRIGONOMETRIC RATIOS

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Partial Trace and Partial Transpose

TMA4115 Matematikk 3

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Statistical Inference I Locally most powerful tests

Η ΠΡΟΣΩΠΙΚΗ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΧΩΡΟΥ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ CHAT ROOMS

Επίδραση της Συμβολαιακής Γεωργίας στην Χρηματοοικονομική Διοίκηση των Επιχειρήσεων Τροφίμων. Ιωάννης Γκανάς

Προσομοίωση BP με το Bizagi Modeler

Web Data Mining ΕΡΓΑΣΤΗΡΙΟ 2 & 3. Prepared by Costantinos Costa Edited by George Nikolaides. EPL Data Mining on the Web

ΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ

Elements of Information Theory

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Hancock. Ζωγραφάκης Ιωάννης Εξαρχάκος Νικόλαος. ΕΠΛ 428 Προγραμματισμός Συστημάτων

Calculating the propagation delay of coaxial cable

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

14 Lesson 2: The Omega Verb - Present Tense

Approximation of distance between locations on earth given by latitude and longitude

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Splice site recognition between different organisms

Section 8.2 Graphs of Polar Equations

derivation of the Laplacian from rectangular to spherical coordinates

Πτυχιακή Εργασία. Παραδοσιακά Προϊόντα Διατροφική Αξία και η Πιστοποίηση τους

Parametrized Surfaces

VBA ΣΤΟ WORD. 1. Συχνά, όταν ήθελα να δώσω ένα φυλλάδιο εργασίας με ασκήσεις στους μαθητές έκανα το εξής: Version ΗΜΙΤΕΛΗΣ!!!!

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Ο ΡΟΛΟΣ ΤΟΥ ΜΗΤΡΙΚΟΥ ΚΑΠΝΙΣΜΑΤΟΣ ΣΤΗΝ ΑΝΑΠΤΥΞΗ ΠΑΙΔΙΚΟΥ ΑΣΘΜΑΤΟΣ

Homework 8 Model Solution Section

Assalamu `alaikum wr. wb.

Bizagi Modeler: Συνοπτικός Οδηγός

CRASH COURSE IN PRECALCULUS

Γιπλυμαηική Δπγαζία. «Ανθπυποκενηπικόρ ζσεδιαζμόρ γέθςπαρ πλοίος» Φοςζιάνηρ Αθανάζιορ. Δπιβλέπυν Καθηγηηήρ: Νηθφιανο Π. Βεληίθνο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

Η ΣΥΝΘΕΣΗ ΚΑΙ ΤΑ ΣΥΝΘΕΤΑ ΝΟΗΜΑΤΑ ΣΤΗΝ ΕΛΛΗΝΙΚΗ ΝΟΗΜΑΤΙΚΗ ΓΛΩΣΣΑ

Saint Thomas the Apostle Catholic Academy September 20, 2017

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Εγχειρίδια Μαθηµατικών και Χταποδάκι στα Κάρβουνα

Areas and Lengths in Polar Coordinates

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

Advanced Subsidiary Unit 1: Understanding and Written Response

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Inverse trigonometric functions & General Solution of Trigonometric Equations

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

ST5224: Advanced Statistical Theory II

Transcript:

Εισαγωγή στη Βιοπληροφορική Αλέξανδρος Κ. Δημόπουλος Πρόγραμμα Μεταπτυχιακών Σπουδών Τεχνολογίες Πληροφορικής στην Ιατρική και τη Βιολογία (ΤΠΙΒ) Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Ακαδημαϊκό έτος 2017-18 Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 1 / 50

NGS Overview Biological Sample NGS Instrument Data Library Preparation Sequencing Data Analysis Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 2 / 50

NGS Hardware Roche GS-FLX Life Technologies SOLID Life Technologies Ion Proton Illumina HiSeq Life Technologies Ion Torrent Illumina MiSeq Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 3 / 50

Τεχνολογίες NGS I fluorescence-based (Illumina) hydrogen ion /ph-mediated based (Life) Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 4 / 50

Τεχνολογίες NGS II http://www.hindawi.com/journals/bmri/2012/251364 Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 5 / 50

Εισαγωγή Αυξανόμενη ζήτηση http://omicsmaps.com/ Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 6 / 50

Εισαγωγή Επιλογές sequencing Single-end Πιο οικονομικό Κατάλληλο για πιο γενικού σκοπού αναλύσεις, π.χ. DE Paired-end Περισσότερες πληροφορίες για το μήκος και τη θέση του read Χρήσιμο για splice junctions, indels κτλ Zhernakova, Daria V., et al. DeepSAGE reveals genetic variants associated with alternative polyadenylation and expression of coding and non-coding transcripts. (2013): e1003594. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 7 / 50

Εισαγωγή Αναγκαία η βιο-πληροφορική I {0,1} Binary data representation Genomic data representation {A,C,G,T} Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 8 / 50

Αναγκαία η βιο-πληροφορική II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 9 / 50

FASTQ file format fastq fasta sam/bam BED VCF indexes FASTQ Text-based format για αποθήκευση βιολογικών ακολουθιών Raw unaligned reads (νουκλεοτίδια) Αντίστοιχα quality scores Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 10 / 50

FASTA file format I fastq fasta sam/bam BED VCF indexes FASTA Text-based format για αναπαράσταση είτε ακολουθιών νουκλεοτιδίων είτε πεπτιδίων, κωδικοποιημένα σαν ένα χαρακτήρα. Ξεκινά με τον χαρακτήρα > και ακολουθείται από ένα αλφαριθμητικό αναγνώρισης (identification code) Μια ή περισσότερες γραμμές που περιέχουν την ακολουθία Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 11 / 50

FASTA file format II fastq fasta sam/bam BED VCF indexes Κατά το alignment τα read που υπάρχουν σε ένα fastq αρχείο γίνονται map σε ένα γονιδίωμα αναφοράς που είναι αποθηκευμένο σε fasta μορφή Υπάρχουν διάφορα διαθέσιμα γονιδιώματα, π.χ.: Ανθρώπινο: hg16 (2003), hg17 (2004), hg18 (2006), hg19 (NCBI)/GRCh37 (Ensembl) (2009), hg38/grch38 (2013) Ποντίκι: mm7 (2005), mm8 (2006), mm9 (2007), mm10 (2011) D. melanogaster: dm1 (2003), dm2 (2004), dm3 (2006), dm6 (2014)... Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 12 / 50

SAM/BAM format I fastq fasta sam/bam BED VCF indexes SAM - Sequence Alignment Map Το SAM format αποθηκεύει aligned reads και είναι ανεξάρτητο της τεχνολογίας που χρησιμοποιήθηκε για το sequencing SAM: textbased BAM: binary Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 13 / 50

SAM/BAM format II fastq fasta sam/bam BED VCF indexes Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 14 / 50

SAM/BAM format III fastq fasta sam/bam BED VCF indexes Bit wise flag Read Name Reference name 1-based leftmost position MAPping Quality CIGAR String sequence Base Quality Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 15 / 50

BED format fastq fasta sam/bam BED VCF indexes BED - Browser Extensible Data Ανά γραμμή έχουν 3 υποχρεωτικά πεδία chrom - Το όνομα του χρωμοσώματος, π.χ. chr3, chry, chr2_random chromstart - Την αρχική θέση του feature στο χρωμόσωμα - η αρίθμηση είναι 0-based. chromend - Η τελική θέση του feature στο χρωμόσωμα. Η τελική θέση δεν εμπεριέχεται στο feature. Π.χ. Οι πρώτες 100 βάσεις ενός χρωμοσώματος ορίζονται ως chromstart=0, chromend=100, και είναι οι βάσεις 0-99. και άλλα εννιά προαιρετικά name, score, strand, thickstart, thickend, itemrgb, blockcount, blocksizes, blockstarts Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 16 / 50

VCF format I fastq fasta sam/bam BED VCF indexes VCF files - Variant Call Format Για αποθήκευση πολυμορφισμών Χρησιμοποιείται ευρέως από το 1000 Genomes Project Μόνο οι πολυμορφισμοί αποθηκεύονται μαζί με το reference genome Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 17 / 50

VCF format II fastq fasta sam/bam BED VCF indexes Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 18 / 50

VCF format III fastq fasta sam/bam BED VCF indexes AF: allele frequency for each ALT allele DP: combined depth across samples DB: dbsnp membership H2: membership in hapmap2 NS: Number of samples with data Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 19 / 50

fastq fasta sam/bam BED VCF indexes index files Με τη δημιουργία index, είναι πιο γρήγορη η πρόσβαση στα δεδομένα καθώς επιτρέπεται η μη-σειριακή αναζήτηση. fasta fai bam bai vcf idx vcf.gz tbi Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 20 / 50

I Samtools is a suite of programs for interacting with high-throughput sequencing data. It consists of three separate repositories: Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format BCFtools Reading/writing BCF2/VCF/gVCF files and calling/filtering/summarising SNP and short indel sequence variants HTSlib A C library for reading/writing high-throughput sequencing data Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 21 / 50

II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 22 / 50

III Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 23 / 50

IV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 24 / 50

V Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 25 / 50

VI sort: κατά τη διαδικασία του alignment το τελικό sam αρχείο περιέχει σε τυχαία σειρά τα reads. Για ταχύτερη επεξεργασία αλλά και μετατροπή σε bam χρειάζεται ταξινόμηση index: για την ταχύτερη πρόσβαση στα δεδομένα του bam αρχείου view: για μετατροπή από sam σε bam και αντίστροφα. Για φιλτράρισμα bam/sam αρχείου βάσει συνθηκών Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 26 / 50

Bedtools I : a powerful toolset for genome arithmetic Collectively, the utilities are a swiss-army knife of tools for a wide-range of genomics analysis tasks. The most widely-used tools enable genome arithmetic: that is, set theory on the genome. For example, allows one to intersect, merge, count, complement, and shuffle genomic intervals from multiple files in widely-used genomic file formats such as BAM, BED, GFF/GTF, VCF. While each individual tool is designed to do a relatively simple task (e.g., intersect two interval files), quite sophisticated analyses can be conducted by combining multiple operations on the UNIX command line Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 27 / 50

Bedtools II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 28 / 50

Bedtools III intersect By far, the most common question asked of two sets of genomic features is whether or not any of the features in the two sets overlap with one another. This is known as feature intersection. intersect allows one to screen for overlaps between two sets of genomic features. Moreover, it allows one to have fine control as to how the intersections are reported. intersect works with both BED/GFF/VCF and BAM files as input. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 29 / 50

Bedtools IV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 30 / 50

Bedtools V Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 31 / 50

Bedtools VI Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 32 / 50

Bedtools VII merge merge combines overlapping or book-ended features in an interval file into a single feature which spans all of the combined features. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 33 / 50

Bedtools VIII Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 34 / 50

Bedtools IX Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 35 / 50

Bedtools X Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 36 / 50

Bedtools XI genomecov genomecov computes histograms (default), per-base reports (-d) and BEDGRAPH (-bg) summaries of feature coverage (e.g., aligned sequences) for a given genome. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 37 / 50

Bedtools XII Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 38 / 50

Bedtools XIII Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 39 / 50

Bedtools XIV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 40 / 50

Bedtools XV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 41 / 50

VCFtools I Welcome to VCFtools VCFtools is a program package designed for working with VCF files, such as those generated by the 1000 Genomes Project. The aim of VCFtools is to provide easily accessible methods for working with complex genetic variation data in the form of VCF files. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 42 / 50

VCFtools II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 43 / 50

VCFtools III vcf-isec Creates intersections and complements of two or more VCF files. Given multiple VCF files, it can output the list of positions which are shared by at least N files, at most N files, exactly N files, etc. The first example below outputs positions shared by at least two files and the second outputs positions present in the files A but absent from files B and C. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 44 / 50

VCFtools IV vcf-merge Merges two or more VCF files into one so that, for example, if two source files had one column each, on output will be printed a file with two columns. See also vcf-concat for concatenating VCFs split by chromosome. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 45 / 50

VCFtools V vcf-concat Concatenates VCF files (for example split by chromosome). Note that the input and output VCFs will have the same number of columns, the script does not merge VCFs by position (see also vcf-merge). Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 46 / 50

VCFtools VI vcf-compare Compares positions in two or more VCF files and outputs the numbers of positions contained in one but not the other files; two but not the other files, etc, which comes handy when generating Venn diagrams. The script also computes numbers such as nonreference discordance rates (including multiallelic sites), compares actual sequence (useful when comparing indels), etc. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 47 / 50

BCFtools is a set of utilities that manipulate variant calls in the Variant Call Format (VCF) and its binary counterpart BCF. All commands work transparently with both VCFs and BCFs, both uncompressed and BGZF-compressed. Most commands accept VCF, bgzipped VCF and BCF with filetype detected automatically even when streaming from a pipe. Indexed VCF and BCF will work in all situations. Un-indexed VCF and BCF and streams will work in most, but not all situations. In general, whenever multiple VCFs are read simultaneously, they must be indexed and therefore also compressed. BCFtools is designed to work on a stream. It regards an input file - as the standard input (stdin) and outputs to the standard output (stdout). Several commands can thus be combined with Unix pipes. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 48 / 50

Άσκηση 7 η Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 49 / 50

Ερωτήσεις;? Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 50 / 50