A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CAP3 (Contig Assembly Program)

Apresentações semelhantes


Apresentação em tema: "CAP3 (Contig Assembly Program)"— Transcrição da apresentação:

1 CAP3 (Contig Assembly Program)
George Darmiton da Cunha Cavalcanti UFPE – CIn Junho de 2001

2 Introdução É um programa utilizado para montar cadeias de DNA
Desenvolvido por Xiaoqiu Huang, Department of Computer Science, Michigan Technological University Versão 3 foi desenvolvida em 1999 Atualmente encontra-se na versão 4, sendo esta comercial

3 Pontos Fortes do CAP3 Uso de forward-reverse constraints para corrigir erros de montagem Objetivo: localizar e corrigir erros no layout da seqüência e ligar contigs separados por gap Dois fragmentos devem estar em direções opostas na molécula de DNA e a uma determinada distância. O algoritmo usado no CAP3 é tolerante à restrições erradas Forward-reverse constraint estabelece que dois fragmentos devem estar em direções opostas na molécula de DNA, separados por um determinada distância. Essas restrições são utilizadas no CAP3 para localizar e corrigir erros na montagem. Essa capacidade permite CAP3 encontrar erros provenientes de repetições. CAP3 usa base quality values na geração do alinhamento das seqüências e na geração do consenso a partir dos contigs. Isto permite que o programa use quality values e cobertura para melhorar a precisão na geração do consenso. Remoção de regiões pobres são usadas para garantir que apenas as regiões boas dos fragmentos serão montadas.

4 Pontos Fortes do CAP3 (cont.)
Uso de base quality values Usados no alinhamento de fragmentos e na construção do consenso. Melhora a qualidade na geração do consenso Remoção de regiões pobres, 5’ e 3’ Objetivo Utilizar apenas regiões ‘boas’ do fragmento na montagem.

5 Pontos Fortes do CAP3 (cont.)
Geração do resultado da montagem no formato ace para Consed Consed – ferramenta gráfica para editar seqüências CAP3 pode ser usado no GAP4 do pacote Staden. GAP4(Genome Assembly Program) é uma ferramenta gráfica do pacote de ferramentas Staden

6 Programa O pacote é formado por dois programas CAP3 FORMCON
realiza a montagem dos fragmentos partindo de um arquivo FORMCON gera um arquivo de restrições a partir do arquivo dos fragmentos

7 CAP3 – Parâmetros de Entrada
CAP3 recebe um arquivo com as seqüências de fragmentos no formato FASTA Uso: cap3 arquivo_de_fragmentos [opções] Arquivos opcionais arquivo contendo os quality values no formato FASTA, usando extensão .qual arquivo contendo restrições forward-reverse, usando extensão .con. Pode ser gerado usando o programa FORMCON Formato: ReadA ReadB MinDistance MaxDistance Cada linha do arquivo de restrições especifica uma forward-reverse constraint da seguinte forma: ReadA ReadB MinDistance MaxDistance Sendo ReadA e ReadB o nome dos fragmentos, e MinDistance e MaxDistance são distâncias em número de pares de base. A restrição é satisfeita se ReadA, que está na orientação forward, ocorre em um contig antes de ReadB que está na orientação reversa, ou ReadB em orientação forward ocorre em um contig antes que ReadA em orientação reversa, e suas distâncias estão entre MinDistance e MasDistance. CAP3 funciona melhor se muitas restrições são usadas.

8 Opções Valor das penalidades Parâmetro descrição -g N gap N>0 (6)
-m N match N>0 (2) -n N mismatch N<0 (-5)

9 Maioria dos valores de qualidade são maiores que qualcut (-c)
Opções (cont.) Corte de Regiões Pobres Se os valores de qualidade de base foram informados Maioria dos valores de qualidade são maiores que qualcut (-c) qualpos5 qualpos3 Fragmento f crange (-y) crange Caso os valores de qualidade da base não sejam informados qualpos5 = 1 e qualpos3 = tamanho de f A cobertura mínima é determinada por gdepth (-z)

10 Remoção de regiões pobres
Opções (cont.) Remoção de regiões pobres Parâmetro descrição -c N N>5 (12) -y N N>5 (250) -z N N>0 (2) A remoção de regiões pobres é controlada por três parâmetros: quality value cutoff (qualcut), área de remoção (crange) e cobertura (gdepth). Se existem valores de qualidade, CAP3 calcula duas posições qualpos5 e qualpos3 dentro do fragmento f. O valor da qualidade da região entre as posições qualpos5 e qualpos3 deve ser em grande parte maior que qualcut. Se não existem valores de qualidade, então qualpos5 recebe 1 e qualpos3 recebe o comprimento do fragmento O corte a esquerda pode estar localizado em qualquer ponto entre 1 e qualpos5 + crange. Já o corte a direita pode estar localizado em qualquer ponto entre qualpos3 - crange e o comprimento do fragmento. A mínima cobertura esperada, tanto nas posições a esquerda quanto a direita, é gdepth. Além disso, o usuário pode especificar os parâmetros crange e gdepth para cada fragmento individualmente em um arquivo utilizando o seguinte formato: ReadName crange5 gdepth5 crange3 gdepth3 Opção –w.

11 Opções (cont.) Faixa Diagonal Parâmetro descrição -a N N>10 (20)
O parâmetro a determina uma faixa diagonal que deve ser utilizada na construção do alinhamento entre dois fragmentos.

12 Opções (cont.) Medidas de avaliação das sobreposições 1ª Medida
Informa o comprimento mínimo para a sobreposição (-o) 2ª Medida Determina que o percentual de identidade não deve ser menor que o valor estabelecido pela opção –p 3ª Medida Determina o valor de similaridade da sobreposição (-s) m * min(q1, q2) n * min(q1, q2) -g * min(q1, q2)

13 Opções (cont.) 4ª Medida 5ª Medida
Se a sobreposição contiver um número grande de diferenças entre bases de altos valores de qualidade, essa sobreposição é provavelmente falsa. (-b e -d) 5ª Medida Se o número de diferenças em uma sobreposição é maior que o esperado, então é provável que essa sobreposição seja falsa. (-e)

14 Medidas de avaliação das sobreposições
Opções (cont.) Medidas de avaliação das sobreposições Parâmetro Descrição -o N N>20 (30) -p N N>65 (75) -s N N>100 (500) -b N N>15 (20) -d N N>100 (250) -e N N>10 (20) Sobreposições entre fragmentos são avaliados por 5 medidas. A primeira é baseada na qualidade da base. Se a sobreposição contém muitas diferenças em bases com alta qualidade, então a sobreposição é removida. A segunda medida observa o número de diferenças em um sobreposição. Se o número de diferenças é maior que o esperado a sobreposição é removida. A terceira medida é baseada no número de similaridades da sobreposição. Se o número de similaridades de uma sobreposição é menor que o valor de s, a sobreposição é removida. A quarta medida requer que o tamanho da sobreposição não seja menor que o valor o valor mínimo de sobreposição, opção o. A quinta medida requer que o percent identity de uma sobreposição não seja menor que o definido pelo parâmetro p.

15 Resposta do Programa Consenso no formato ace Consenso
arquivo com extensão .ace Consenso arquivo com extensão .contigs Quality values do consenso arquivo com extensão .contigs.qual Fragmentos não são usados na montagem arquivo com extensão .singlets

16 Resposta do Programa (cont.)
Informações adicionais sobre a montagem arquivo com extensão .info Satisfação das restrições arquivo com extensão .results

17 CAP3 – Conjunto de dados BAC
GenBank Nº Nº de frag Tam médio frag Tam seq 203 AC004669 1812 598 89.779 216 AC004638 2353 614 322F16 AF111103 4297 1011 526N18 AF123462 3221 965 Dados Tempo (min) Nº de contigs Tam seq CAP Nº de <> 203 37 1 90.292 216 154 17 322F16 127 11 526N18 73 2 10

18 CAP3 versus PHRAP Conjunto de dados BAC
PHRAP, normalmente, produz cadeias mais longas de contigs CAP3 produz menos erros no consenso

19 Bibliografia Xiaoqiu Huang, Anup Madan. CAP3: A DNA Sequence Assembly Program. Genome Research 9: , 1999. Xiaoqiu Huang. Na Improved Sequence Assembly Program. Genomics 33, 21-31, 1996. Site oficial na Internet. Staden Package WWW site.


Carregar ppt "CAP3 (Contig Assembly Program)"

Apresentações semelhantes


Anúncios Google