Εισαγωγή στη Βιοπληροφορική Αλέξανδρος Κ. Δημόπουλος Πρόγραμμα Μεταπτυχιακών Σπουδών Τεχνολογίες Πληροφορικής στην Ιατρική και τη Βιολογία (ΤΠΙΒ) Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Ακαδημαϊκό έτος 2017-18 Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 1 / 50
NGS Overview Biological Sample NGS Instrument Data Library Preparation Sequencing Data Analysis Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 2 / 50
NGS Hardware Roche GS-FLX Life Technologies SOLID Life Technologies Ion Proton Illumina HiSeq Life Technologies Ion Torrent Illumina MiSeq Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 3 / 50
Τεχνολογίες NGS I fluorescence-based (Illumina) hydrogen ion /ph-mediated based (Life) Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 4 / 50
Τεχνολογίες NGS II http://www.hindawi.com/journals/bmri/2012/251364 Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 5 / 50
Εισαγωγή Αυξανόμενη ζήτηση http://omicsmaps.com/ Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 6 / 50
Εισαγωγή Επιλογές sequencing Single-end Πιο οικονομικό Κατάλληλο για πιο γενικού σκοπού αναλύσεις, π.χ. DE Paired-end Περισσότερες πληροφορίες για το μήκος και τη θέση του read Χρήσιμο για splice junctions, indels κτλ Zhernakova, Daria V., et al. DeepSAGE reveals genetic variants associated with alternative polyadenylation and expression of coding and non-coding transcripts. (2013): e1003594. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 7 / 50
Εισαγωγή Αναγκαία η βιο-πληροφορική I {0,1} Binary data representation Genomic data representation {A,C,G,T} Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 8 / 50
Αναγκαία η βιο-πληροφορική II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 9 / 50
FASTQ file format fastq fasta sam/bam BED VCF indexes FASTQ Text-based format για αποθήκευση βιολογικών ακολουθιών Raw unaligned reads (νουκλεοτίδια) Αντίστοιχα quality scores Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 10 / 50
FASTA file format I fastq fasta sam/bam BED VCF indexes FASTA Text-based format για αναπαράσταση είτε ακολουθιών νουκλεοτιδίων είτε πεπτιδίων, κωδικοποιημένα σαν ένα χαρακτήρα. Ξεκινά με τον χαρακτήρα > και ακολουθείται από ένα αλφαριθμητικό αναγνώρισης (identification code) Μια ή περισσότερες γραμμές που περιέχουν την ακολουθία Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 11 / 50
FASTA file format II fastq fasta sam/bam BED VCF indexes Κατά το alignment τα read που υπάρχουν σε ένα fastq αρχείο γίνονται map σε ένα γονιδίωμα αναφοράς που είναι αποθηκευμένο σε fasta μορφή Υπάρχουν διάφορα διαθέσιμα γονιδιώματα, π.χ.: Ανθρώπινο: hg16 (2003), hg17 (2004), hg18 (2006), hg19 (NCBI)/GRCh37 (Ensembl) (2009), hg38/grch38 (2013) Ποντίκι: mm7 (2005), mm8 (2006), mm9 (2007), mm10 (2011) D. melanogaster: dm1 (2003), dm2 (2004), dm3 (2006), dm6 (2014)... Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 12 / 50
SAM/BAM format I fastq fasta sam/bam BED VCF indexes SAM - Sequence Alignment Map Το SAM format αποθηκεύει aligned reads και είναι ανεξάρτητο της τεχνολογίας που χρησιμοποιήθηκε για το sequencing SAM: textbased BAM: binary Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 13 / 50
SAM/BAM format II fastq fasta sam/bam BED VCF indexes Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 14 / 50
SAM/BAM format III fastq fasta sam/bam BED VCF indexes Bit wise flag Read Name Reference name 1-based leftmost position MAPping Quality CIGAR String sequence Base Quality Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 15 / 50
BED format fastq fasta sam/bam BED VCF indexes BED - Browser Extensible Data Ανά γραμμή έχουν 3 υποχρεωτικά πεδία chrom - Το όνομα του χρωμοσώματος, π.χ. chr3, chry, chr2_random chromstart - Την αρχική θέση του feature στο χρωμόσωμα - η αρίθμηση είναι 0-based. chromend - Η τελική θέση του feature στο χρωμόσωμα. Η τελική θέση δεν εμπεριέχεται στο feature. Π.χ. Οι πρώτες 100 βάσεις ενός χρωμοσώματος ορίζονται ως chromstart=0, chromend=100, και είναι οι βάσεις 0-99. και άλλα εννιά προαιρετικά name, score, strand, thickstart, thickend, itemrgb, blockcount, blocksizes, blockstarts Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 16 / 50
VCF format I fastq fasta sam/bam BED VCF indexes VCF files - Variant Call Format Για αποθήκευση πολυμορφισμών Χρησιμοποιείται ευρέως από το 1000 Genomes Project Μόνο οι πολυμορφισμοί αποθηκεύονται μαζί με το reference genome Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 17 / 50
VCF format II fastq fasta sam/bam BED VCF indexes Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 18 / 50
VCF format III fastq fasta sam/bam BED VCF indexes AF: allele frequency for each ALT allele DP: combined depth across samples DB: dbsnp membership H2: membership in hapmap2 NS: Number of samples with data Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 19 / 50
fastq fasta sam/bam BED VCF indexes index files Με τη δημιουργία index, είναι πιο γρήγορη η πρόσβαση στα δεδομένα καθώς επιτρέπεται η μη-σειριακή αναζήτηση. fasta fai bam bai vcf idx vcf.gz tbi Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 20 / 50
I Samtools is a suite of programs for interacting with high-throughput sequencing data. It consists of three separate repositories: Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format BCFtools Reading/writing BCF2/VCF/gVCF files and calling/filtering/summarising SNP and short indel sequence variants HTSlib A C library for reading/writing high-throughput sequencing data Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 21 / 50
II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 22 / 50
III Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 23 / 50
IV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 24 / 50
V Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 25 / 50
VI sort: κατά τη διαδικασία του alignment το τελικό sam αρχείο περιέχει σε τυχαία σειρά τα reads. Για ταχύτερη επεξεργασία αλλά και μετατροπή σε bam χρειάζεται ταξινόμηση index: για την ταχύτερη πρόσβαση στα δεδομένα του bam αρχείου view: για μετατροπή από sam σε bam και αντίστροφα. Για φιλτράρισμα bam/sam αρχείου βάσει συνθηκών Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 26 / 50
Bedtools I : a powerful toolset for genome arithmetic Collectively, the utilities are a swiss-army knife of tools for a wide-range of genomics analysis tasks. The most widely-used tools enable genome arithmetic: that is, set theory on the genome. For example, allows one to intersect, merge, count, complement, and shuffle genomic intervals from multiple files in widely-used genomic file formats such as BAM, BED, GFF/GTF, VCF. While each individual tool is designed to do a relatively simple task (e.g., intersect two interval files), quite sophisticated analyses can be conducted by combining multiple operations on the UNIX command line Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 27 / 50
Bedtools II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 28 / 50
Bedtools III intersect By far, the most common question asked of two sets of genomic features is whether or not any of the features in the two sets overlap with one another. This is known as feature intersection. intersect allows one to screen for overlaps between two sets of genomic features. Moreover, it allows one to have fine control as to how the intersections are reported. intersect works with both BED/GFF/VCF and BAM files as input. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 29 / 50
Bedtools IV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 30 / 50
Bedtools V Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 31 / 50
Bedtools VI Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 32 / 50
Bedtools VII merge merge combines overlapping or book-ended features in an interval file into a single feature which spans all of the combined features. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 33 / 50
Bedtools VIII Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 34 / 50
Bedtools IX Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 35 / 50
Bedtools X Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 36 / 50
Bedtools XI genomecov genomecov computes histograms (default), per-base reports (-d) and BEDGRAPH (-bg) summaries of feature coverage (e.g., aligned sequences) for a given genome. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 37 / 50
Bedtools XII Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 38 / 50
Bedtools XIII Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 39 / 50
Bedtools XIV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 40 / 50
Bedtools XV Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 41 / 50
VCFtools I Welcome to VCFtools VCFtools is a program package designed for working with VCF files, such as those generated by the 1000 Genomes Project. The aim of VCFtools is to provide easily accessible methods for working with complex genetic variation data in the form of VCF files. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 42 / 50
VCFtools II Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 43 / 50
VCFtools III vcf-isec Creates intersections and complements of two or more VCF files. Given multiple VCF files, it can output the list of positions which are shared by at least N files, at most N files, exactly N files, etc. The first example below outputs positions shared by at least two files and the second outputs positions present in the files A but absent from files B and C. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 44 / 50
VCFtools IV vcf-merge Merges two or more VCF files into one so that, for example, if two source files had one column each, on output will be printed a file with two columns. See also vcf-concat for concatenating VCFs split by chromosome. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 45 / 50
VCFtools V vcf-concat Concatenates VCF files (for example split by chromosome). Note that the input and output VCFs will have the same number of columns, the script does not merge VCFs by position (see also vcf-merge). Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 46 / 50
VCFtools VI vcf-compare Compares positions in two or more VCF files and outputs the numbers of positions contained in one but not the other files; two but not the other files, etc, which comes handy when generating Venn diagrams. The script also computes numbers such as nonreference discordance rates (including multiallelic sites), compares actual sequence (useful when comparing indels), etc. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 47 / 50
BCFtools is a set of utilities that manipulate variant calls in the Variant Call Format (VCF) and its binary counterpart BCF. All commands work transparently with both VCFs and BCFs, both uncompressed and BGZF-compressed. Most commands accept VCF, bgzipped VCF and BCF with filetype detected automatically even when streaming from a pipe. Indexed VCF and BCF will work in all situations. Un-indexed VCF and BCF and streams will work in most, but not all situations. In general, whenever multiple VCFs are read simultaneously, they must be indexed and therefore also compressed. BCFtools is designed to work on a stream. It regards an input file - as the standard input (stdin) and outputs to the standard output (stdout). Several commands can thus be combined with Unix pipes. Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 48 / 50
Άσκηση 7 η Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 49 / 50
Ερωτήσεις;? Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 50 / 50