Alinhamento de Seqüências Genéticas

Slides:



Advertisements
Apresentações semelhantes
Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica.
Advertisements

Programação em Java Prof. Maurício Braga
Aprendizado de Máquina
Operadores e Funções do LINGO
BD em.NET: Passo a passo conexão com SQL Server 1º Semestre 2010 > PUCPR > BSI Bruno C. de Paula.
Software Básico Silvio Fernandes
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
Universidade Federal de Viçosa
Montagem e análise de genomas
Série de Exercícios.
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
BCC101 – Matemática Discreta
Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011.
April 05 Prof. Ismael H. F. Santos - 1 Modulo II Findbugs Professor Ismael H F Santos –
ORGANIZAÇÃO FUNCIONAL do GENOMA
7 Abstração Genérica Unidades genéricas e instanciação.
Aula 5 Tipos de Dados Universidade do Vale do Rio dos Sinos
Next – Generation Sequencing Era Illumina Genome Analyzer
Arquivos Invertidos André Ferreira da Silva Jimy Marques Madeiro
Experiments with Strassen’s Algorithm: from sequential to parallel
Classes e objetos Arrays e Sobrecarga
Capítulo 10 Strings & File I/O. Strings Strings são um conjunto de Caracteres ASCII. No Controle de Instrumentação pode-se converter valores numéricos.
Fundamentos de Eletrônica Digital
Campus de Caraguatatuba
Python Persistência de Dados
1 Jovens Urbanos 3ª edição Resultados da Avaliação Econômica Jovens Urbanos 3ª edição São Paulo março/2010.
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Arquitectura de Computadores II
Alinhamento de Sequências de Transcritos Gênicos
Disciplina: Bioinformática Aplicada ao Estudo de Doenças Parasitárias
Fundamentos de Engenharia de SW
Resolução de problemas por meio de busca
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Hibernate: Consultas Francisco do Nascimento
SISTEMAS OPERACIONAIS
Modelagem Estatística
Bancos de dados para análise de sequências de DNA
Banco de Dados Avançado
Bioinformática (Alinhamento de Seqüências)
ENGA78 – Síntese de Circuitos Digitais
III – O Modelo OR Estudo de Caso, modelo Oracle 10g.
Monitoria GDI Aula Prática
Listas Simplesmente Encadeadas
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Planilha Eletrônica - Excel
CAP3 (Contig Assembly Program)
Análises de sequências
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Criptografia Problema 5. Equipe  Hallan Cosmo - hcs  Phillip César - pcas.
Clusterização de sequências biológicas : PHRAP e CAP3
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001.
Melhorando Alinhamentos Locais Katia Guimarães
22/4/20151 / Query By Humming. Ana Alves (apba) Bruno Ribeiro (brcr) Francisco Neto (ffsn) Garsielle Valença (gval) Query by Humming (QBH)
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Algoritmos e Heurísticas para Seqüenciamento de DNA
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Bioinformática Felipe G. Torres.
Summary title Arial 72pt Bold body can be reduced to body 60 Introduction O pôster deverá conter no máximo 7000 caracteres (com espaço), os quais deverão.
Alinhamento Global de Seqüências Katia Guimarães.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
Transcrição da apresentação:

Alinhamento de Seqüências Genéticas Fevereiro-2011 Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

Introdução Seqüências Genéticas

Seqüenciamento de DNA Leroy Hood Roche/454 FLX ABI SOLiD ION Torrent Seqüenciador semi-automático 1986 2002 2005 2007 2010 2006 2008 2010 Gilbert & Sanger 1977 1986 Applied Biosystems Seqüenciador automático comercial Illumina/Solexa Genome Analyzer Helicos HeliScope Pacific Biosciences Métodos para o seqüenciamento de DNA

Nova Geração de Seqüenciadores de DNA ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD Método Sanger Piroseqüenciamento Seqüenciamento por Síntese Seqüenciamento por Ligação Dados/run 290 Kb ~300 Mb ~7 Gb > 15 Gb Tempo/run 1 hora 5 horas 3-7 dias 10 dias Tamanho ~500 - 800 pb ~200 - 500 pb ~35-100 pb ~25 - 35 pb Custo/run $48 $6.800 $9.300 $11.000 Runs Genoma 3Gb 312.500 ($15.000.000) 360 ($2.448.000) 59 ($548.700) 30 ($330.000) Adapted from Richard Wilson, School of Medicine, Washington University, “Sequencing the Cancer Genome”

2008 Pares de base Seqüências 99.116.431.942 98.868.465

Sequence Read Archive “We’re growing by about 1 Tb/month.” “(…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)” “We’re growing by about 1 Tb/month.” NCBI’s staff scientist Martin Shumway (Leinonen R et. al., 2011)

Formato Fasta sequence.fa sequence.qual Extensões: .fa, .fasta, .fna cagtcagcatactcagtcagtcatgcatgctga gtcacttgcatgacgtcatgactgcatgactgc >SEQUENCE_1 1 9 7 15 20 21 16 26 31 37 38 ... 31 13 23 29 31 33 35 30 29 34 ... Extensões: .fa, .fasta, .fna

Qualidade O que queremos dizer com qualidade ? >SEQUENCE_1 1 9 7 15 20 21 16 26 31 37 38 ... 31 13 23 29 31 33 35 30 29 34 ... Score Perro 10 0.1 20 0.01 30 0.001

Formato fastq sequence.fastq Formato fastq Extensões: .fastq Qualidade codificada como um único caracter da tabela ASCII. sequence.fastq SOLEXA01 the unique instrument name 1 flowcell lane tile number within the flowcell lane 27 'x'-coordinate of the cluster within the tile 1992 'y'-coordinate of the cluster within the tile #0 index number for a multiplexed sample (0 for no indexing) /1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only) @SOLEXA01:1:1:27:1992#0/1 AGTACAAGAGACAGACATTCTTTTTTTTGACACAAG +SOLEXA01:1:1:27:1992#0/1 \FFFMXPYDDHJSUMVUJLPSNFRXZEDLNLHKHIT Originalmente desenvolvido no Wellcome Trust Sanger Institute Extensões: .fastq

ATRIBUINDO Significado às seqüências Introdução ATRIBUINDO Significado às seqüências

Há uma referência? Reseqüenciamento Seqüenciamento de novo Existem seqüências produzidas a partir de um genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência. Seqüenciamento de novo Não há seqüências que podem ser usadas como referências. Este tipo de seqüenciamento exigirá uma montagem (assembly) das seqüências, utilizando apenas os dados obtidos desse seqüenciamento. Alinhamento entre as seqüencias geradas, que permitirá a obtenção de um consenso.

Seqüenciamento em pares mate-pair paired-ends (Korbel et al. , 2007) >SOLEXA02:1:1:11:1992#0/1 >SOLEXA02:1:1:11:1992#0/2 Referência: ~ 1928 bp a 4928 bp mate-pair 36 bp >SOLEXA01:1:1:27:1992#0/1 >SOLEXA01:1:1:27:1992#0/2 Referência: ~ 128 bp a ~428 bp paired-ends 36 bp

Alinhamento de Seqüências Em Bioinformática, alinhamento de seqüências é uma forma de dispor as seqüências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser conseqüência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.

Significado Biológico do Alinhamento de Seqüências Definição de 3 termos importantes: identidade: refere-se à fração de aminoácidos ou nucleotídeos idênticos entre pares de seqüências após um alinhamento dessas seqüências; similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de seqüências após um alinhamento dessas seqüências; homologia: representa uma relação evolutiva entre as seqüências;

Identificação das seqüências Reseqüenciamento Alinhamento: Conjunto de Seqüências X Seqüências Referências (Ex.: Genoma) >seq1 gcagtcagtcacacatgtca... >seq2 cgcgcatgcgcgtactctat... >seq3 tcgagcatcatcagtcgtca... >seq4 tatgctttatagcgagtcat... ..... >chrX atcacacatgtcacatggtcag ggcatcagtcagtcagtcatgc gcgcgcatgcgcgtactctatc tcatgcgtcagtcatgcatgcg agcagtcatgcatgcatcgcac tgcatcatacgtcatgcatgaa ..... Objetivos: - Eliminar as sequência sem hit - Eliminar as sequência com hits múltiplos (ambiguous) - Guardar as sequência com hit único (unambiguous)

Montagem de seqüências Seqüenciamento de novo Alinhamento: Conjunto de Seqüências X Conjunto de Seqüências Consensus : Seq A Seq B Seq C Seq D Seq E Seq F Seq G ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGG ACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

algoritmos para alinhamento de seqüências Introdução algoritmos para alinhamento de seqüências

Alinhamentos de Seqüências Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch) As seqüências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as seqüências possuem aproximadamente o mesmo tamanho. Seq X : C A T T A G C A G C C T | . | | | | | Seq Y : - A G T A – - A G C - - Alinhamento Local (e.g. Algoritmo de Smith–Waterman) Procura-se alinhar apenas as regiões mais similares, independente da localização relativa de cada região. Seq X [4,10]: T A G C A G C | | | | | Seq Y [3,7]: T A - - A G C Alinhamentos (Global/Local) (DNA/Protein) FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml) EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)

Problema Transformar uma seqüência de caracteres em outra: Operações: inserção deleção substituição Custo de operação: Score de substituição Penalidade para Gaps (inserção/deleção) Qual é a quantidade de operações mínima ? Como achar a séries de operações que vai garantir que usamos a quantidade de operações mínima ? Exemplo: Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 ACGT || G-GT Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

Soluções Método força bruta (busca exaustiva) Praticamente inviável Algoritmos de Programação Dinâmica Smith-Waterman; Needleman-Wunsch; SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa; Por razões de tempo e espaço, não pode ser usado para alinhamento de sequências de larga escala; Utilizações de aproximações (heurísticas); Geralmente, quanto mais rápida for a aproximação, mais distante estará a resposta da solução “correta”;

Matriz de Programação Dinâmica GG A > Score (-2-1): -3 1 gap: -2 1 mismatch: -1 > Score(-1-2): -3 > Score(-4-2): -6 2 gaps: -4 GG A GG A traceback resolve partes do problema D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch) D(i -1, j) + g (acima -> gap acima) D(i, j -1) + g (esquerda -> gap esquerda) D(i-1,j-1) D(i-1,j) D(i,j-1) D(i,j) D(i, j) = max Exemplo: Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 ACGT || G-GT Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

BLAST Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/ Heurística: dicionário de palavras E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases; QUANTO MENOR... MELHOR!!! NÃO CONFUNDIR COM P-value (probabilidade)

BLAT BLAT—The BLAST-Like Alignment Tool http://genome.ucsc.edu/ Estruturalmente diferente (BLAST) Além de outros pontos, o Blat constrói um índice do banco de dado de seqüências (database) (k-mers) e faz as buscas na seqüência a qual se deseja consultar (query); Possui código especialmente para lidar com intros em alinhamentos RNA/DNA; - permite identificar corretamente sítios de splice, com BLAST costuma haver uma extensão dessa posição. Blat é mais rápido, porém menos sensível; Possui código especialmente para lidar com intros em alinhamentos RNA/DNA; Comumente utilizado para localizar uma determinada seqüência no genoma ou determinar a estrutura de exons de um RNA; Pode ser utilizado para alinhar seqüências de Roche/454;

Alinhamento de seqüências curtas BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: ) Premissas: Não precisamos de um alinhamento sofisticado como SW; Não precisamos de estatísticas com e-value; Normalmente, sabemos a quantidade de mismatches máximas que queremos;

Alinhamentos baseados em Hashing table Idéia dos algoritmos de alinhamentos baseados em hashing tables: read: agtcgtat | ||| || genoma: acggcacgaggaactcgaatctgacgcatgcagtacta Se admitirmos 2 mismatches entre a minha sequência e o genoma. Se separados em 4 fragmentos, vão existir pelo menos 2 fragmentos sem mismatches !

seeds 6 possibilidades de seeds, com no mínimo 2 fragmentos de match perfeito read: agtcgtat agtc---- 1 2 --tcgt-- ----gtat 3 ag--gt-- 4 --tc--at 5 ag----at 6

Busca nas tabelas hash São construídas 6 listas das palavras achadas nas leituras; Para cada 6 possibilidades de palavra no genoma, procurar na lista determinada para ver se existe uma possibilidade de matching; Como buscar sequências das palavras nas listas de palavras? Algoritmo de hashing Possui uma função capaz de transformar uma cadeia de caracteres (string) em valores (índices);

Alinhamento de Seqüências com hashing Softwares ELAND (Anthony. J. Cox, 2006, unpublished data), MAQ (Li H et al., 2008) SOAP (Li R et al., 2008) Características: Para detectar mais mismatch, precisamos de mais seeds: Mais mismatch => mais tempo Algoritmo mais sofisticado para o alinhamento vai requerer mais tempo: Indels/gaps => mais tempo Problemas com hashing: Memória e tempo Precisa de CPUs múltiplos com muita memória. Necessidade de métodos menos “glutões”

Burrows–Wheeler Inverse Transformation BWT(T) => T Input BNN^AA@A Add 1 Sort 1 Add 2 Sort 2 B N ^ A @ BA NA ^B AN @^ A@ Add 3 Sort 3 Add 4 Sort 4 BAN NAN NA@ ^BA ANA @^B A@^ BANA NANA NA@^ ^BAN ANAN ANA@ @^BA A@^B Add 5 Sort 5 Add 6 Sort 6 BANAN NANA@ NA@^B ^BANA ANANA ANA@^ @^BAN A@^BA BANANA NANA@^ NA@^BA ^BANAN ANANA@ ANA@^B @^BANA A@^BAN Add 7 Sort 7 Add 8 Sort 8 BANANA@ NANA@^B NA@^BAN ^BANANA ANANA@^ ANA@^BA @^BANAN A@^BANA BANANA@^ NANA@^BA NA@^BANA ^BANANA@ ANANA@^B ANA@^BAN @^BANANA A@^BANAN ANANA@^B ANA@^BAN A@^BANAN BANANA@^ NANA@^BA NA@^BANA ^BANANA@ @^BANANA Output ^BANANA@ Algoritmo usado normalmente em softwares de compressão (.bzip2) Em alinhadores de seqüências: Bowtie (Langmead B et al., 2009) BWA BWA-SHORT (Li H. and Durbin R., 2009) BWA-SW (Li H. and Durbin R., 2010) Transformation T => BWT(T) Input All Rotations Sort the Rows Output ^BANANA@ @^BANANA A@^BANAN NA@^BANA ANA@^BAN NANA@^BA ANANA@^B BANANA@^ BNN^AA@A

Bowtie http://bowtie-bio.sourceforge.net Burrows-Wheeler; Reduz a quantidade de memória e de tempo para alinhar sequências curtas; Podem ser usadas seqüências Illumina e SOLiD Deficiências: Não tem garantia de retornar todos os hits com mismatches (exceto com opção --best) Limite de 3 mismatches (demora mais) Reads longos reduz a velocidade Não tem indels

LF mapping

Inexact Matching

Introdução Bowtie

Bowtie Index Builder: bowtie-build Usage: bowtie-build [options]* <reference_in> <ebwt_outfile_base> reference_in comma-separated list of files with ref sequences ebwt_outfile_base write Ebwt data to files with this dir/basename Options: -f reference files are Fasta (default) -c reference sequences given on cmd line (as <seq_in>) -C/--color build a colorspace index -a/--noauto disable automatic -p/--bmax/--dcv memory-fitting -p/--packed use packed strings internally; slower, uses less mem -B build both letter- and colorspace indexes --bmax <int> max bucket sz for blockwise suffix-array builder --bmaxdivn <int> max bucket sz as divisor of ref len (default: 4) --dcv <int> diff-cover period for blockwise (default: 1024) --nodc disable diff-cover (algorithm becomes quadratic) -r/--noref don't build .3/.4.ebwt (packed reference) portion -3/--justref just build .3/.4.ebwt (packed reference) portion -o/--offrate <int> SA is sampled every 2^offRate BWT chars (default: 5) -t/--ftabchars <int> # of chars consumed in initial lookup (default: 10) --ntoa convert Ns in reference to As --seed <int> seed for random number generator -q/--quiet verbose output (for debugging) -h/--help print detailed description of tool and its options --usage print this usage message --version print version information and quit hg18.1.ebwt hg18.2.ebwt hg18.3.ebwt hg18.4.ebwt hg18.rev.1.ebwt hg18.rev.2.ebwt [/data/indexes]$ bowtie-build /data/hg18.fa hg18 $BOWTIE_INDEXES=“/data/indexes”

Bowtie Index Inspector: bowtie-inspect Usage: bowtie-inspect [options]* <ebwt_base> <ebwt_base> ebwt filename minus trailing .1.ebwt/.2.ebwt By default, prints FASTA records of the indexed nucleotide sequences to standard out. With -n, just prints names. With -s, just prints a summary of the index parameters and sequences. With -e, preserves colors if applicable. Options: -a/--across <int> Number of characters across in FASTA output (default: 60) -n/--names Print reference sequence names only -s/--summary Print summary incl. ref names, lengths, index properties -e/--ebwt-ref Reconstruct reference from ebwt (slow, preserves colors) -v/--verbose Verbose output (for debugging) -h/--help print detailed description of tool and its options --help print this usage message [/data/indexes]$ bowtie-inspect -s hg18

Bowtie Aligner: bowtie Usage: bowtie [options]* <ebwt> {-1 <m1> -2 <m2> | --12 <r> | <s>} [<hit>] <m1> Comma-separated list of files containing upstream mates (or the sequences themselves, if -c is set) paired with mates in <m2> <m2> Comma-separated list of files containing downstream mates (or the sequences themselves if -c is set) paired with mates in <m1> <r> Comma-separated list of files containing Crossbow-style reads. Can be a mixture of paired and unpaired. Specify "-" for stdin. <s> Comma-separated list of files containing unpaired reads, or the sequences themselves, if -c is set. Specify "-" for stdin. <hit> File to write hits to (default: stdout) Input: -q query input files are FASTQ .fq/.fastq (default) -f query input files are (multi-)FASTA .fa/.mfa -r query input files are raw one-sequence-per-line -c query sequences given on cmd line (as <mates>, <singles>) -C reads and index are in colorspace -Q/--quals <file> QV file(s) corresponding to CSFASTA inputs; use with -f -C --Q1/--Q2 <file> same as -Q, but for mate files 1 and 2 respectively -s/--skip <int> skip the first <int> reads/pairs in the input -u/--qupto <int> stop after first <int> reads/pairs (excl. skipped reads) -5/--trim5 <int> trim <int> bases from 5' (left) end of reads -3/--trim3 <int> trim <int> bases from 3' (right) end of reads --phred33-quals input quals are Phred+33 (default) --phred64-quals input quals are Phred+64 (same as --solexa1.3-quals) --solexa-quals input quals are from GA Pipeline ver. < 1.3 --solexa1.3-quals input quals are from GA Pipeline ver. >= 1.3 --integer-quals qualities are given as space-separated integers (not ASCII) Alignment: -v <int> report end-to-end hits w/ <=v mismatches; ignore qualities or -n/--seedmms <int> max mismatches in seed (can be 0-3, default: -n 2) -e/--maqerr <int> max sum of mismatch quals across alignment for -n (def: 70) -l/--seedlen <int> seed length for -n (default: 28) --nomaqround disable Maq-like quality rounding for -n (nearest 10 <= 30) -I/--minins <int> minimum insert size for paired-end alignment (default: 0) -X/--maxins <int> maximum insert size for paired-end alignment (default: 250) --fr/--rf/--ff -1, -2 mates align fw/rev, rev/fw, fw/fw (default: --fr) --nofw/--norc do not align to forward/reverse-complement reference strand --maxbts <int> max # backtracks for -n 2/3 (default: 125, 800 for --best) --pairtries <int> max # attempts to find mate for anchor hit (default: 100) -y/--tryhard try hard to find valid alignments, at the expense of speed --chunkmbs <int> max megabytes of RAM for best-first search frames (def: 64) Reporting: -k <int> report up to <int> good alignments per read (default: 1) -a/--all report all alignments per read (much slower than low -k) -m <int> suppress all alignments if > <int> exist (def: no limit) -M <int> like -m, but reports 1 random hit (MAPQ=0); requires --best --best hits guaranteed best stratum; ties broken by quality --strata hits in sub-optimal strata aren't reported (requires --best) Output: -t/--time print wall-clock time taken by search phases -B/--offbase <int> leftmost ref offset = <int> in bowtie output (default: 0) --quiet print nothing but the alignments --refout write alignments to files refXXXXX.map, 1 map per reference --refidx refer to ref. seqs by 0-based index rather than name --al <fname> write aligned reads/pairs to file(s) <fname> --un <fname> write unaligned reads/pairs to file(s) <fname> --max <fname> write reads/pairs over -m limit to file(s) <fname> --suppress <cols> suppresses given columns (comma-delim'ed) in default output --fullref write entire ref name (default: only up to 1st space) Colorspace: --snpphred <int> Phred penalty for SNP when decoding colorspace (def: 30) or --snpfrac <dec> approx. fraction of SNP bases (e.g. 0.001); sets --snpphred --col-cseq print aligned colorspace seqs as colors, not decoded bases --col-cqual print original colorspace quals, not decoded quals --col-keepends keep nucleotides at extreme ends of decoded alignment SAM: -S/--sam write hits in SAM format --mapq <int> default mapping quality (MAPQ) to print for SAM alignments --sam-nohead supppress header lines (starting with @) for SAM output --sam-nosq supppress @SQ header lines for SAM output --sam-RG <text> add <text> (usually "lab=value") to @RG line of SAM header Performance: -o/--offrate <int> override offrate of index; must be >= index's offrate -p/--threads <int> number of alignment threads to launch (default: 1) --mm use memory-mapped I/O for index; many 'bowtie's can share --shmem use shared mem for index; many 'bowtie's can share Other: --seed <int> seed for random number generator --verbose verbose output (for debugging) --version print version information and quit -h/--help print this usage message [/data]$ bowtie hg18 > -c "AGGAATTGCGGGAGGAAAATGGGTAGTTAGCTATTT,AGGGCCCATAGCAACAGATTTCTAGCCCCCTGAAGA" > --best --strata --tryhard -m 1

Conclusão considerações finais

Conclusão Alinhamento global: Alinhamento de 2 sequências com mesmo tamanho: Algoritmo de Needleman-Wunsch Alinhamento local: Alinhamento de 2 seqüências, uma curta e a outra muito mas longa: Algoritmo de Smith-Waterman Encontram o alinhamento mais provável; Lentos para alinhamentos contra o genoma inteiro; Baseados em um modelo matemático, os outros, são baseados em heurísticas, sem prova formal de obtenção da solução ótima;

Conclusão BLAST: Utiliza heurísticas (k-tuples); Maior sensibilidade; Possui estatísticas, o E-value além do Score; Pode ser usado para Sanger (megablast), mas é muito lento com seqüências Roche/454; BLAT: Utiliza heurísticas (semelhante ao BLAST - índice do banco de dados na memória) Blat é mais rápido, porém menos sensível; Lida melhor com intros em alinhamentos RNA/DNA, bom para determinar estrutura de exons de RNAs; Pode ser utilizado para alinhar seqüências de Roche/454;

Conclusão Next-Generation Sequence Alignments Primeiros programas: Hashing Illumina e SOLiD; ELAND (Anthony. J. Cox, 2006, unpublished data), MAQ (Li H et al., 2008) SOAP (Li R et al., 2008) Requerem muita memória; O nível de sensibilidade depende do programa e das opções; A partir de 2009: Burrows-Wheeler Bowtie (Langmead B et al., 2009) BWA (Li H. and Durbin R., 2009) Requerem menos memória e são mais rápidos;

Conclusão rapidez (tempo/memória) sensibilidade Novas plataformas de seqüenciamento irão surgir exigindo novos programas de alinhamento; Não há um programa perfeito para todas as situações; É importante entender como os programas funcionam e como a configuração pode influenciar os resultados; Heurística utilizada; Argumentos;

Visualização IGV (Genome Browser) http://www.broadinstitute.org/software/igv/home Formatos de arquivos: BAM, BED, Birdsuite Files, CBS, CN, Cytoband, FASTA, GCT, genePred, GFF, GISTIC, HDF5, IGV, LOH, MAF, PSL, MUT, RES, SAM, Sample Information, SEG, SNP, TAB, TDF, Track Line, Type Line, WIG

Daniel Guariz Pinheiro dgpinheiro@gmail.com

Fim Exercício

Bowtie http://lgmb.fmrp.usp.br/~daniel/downloads/cvbioinfo2011/ cvbioinfo2011_p1.fa cvbioinfo2011_p2.fa