A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006.

Apresentações semelhantes


Apresentação em tema: "Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006."— Transcrição da apresentação:

1 Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

2 Roteiro Conceitos Básicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão

3 Processo básico de tradução genética A informação genética dos seres vivos é armazenada em cadeias de nucleotídeos Bases A, C, G e T Proteínas são geradas a partir da leitura da cadeia de nucleotídeos Processo de tradução Proteína = cadeia de aminoácidos 1 aminoácido = 3 nucleotídeos = 1 códon

4 Tradução

5 Polimorfismos e SNP Polimorfismo: dois ou mais alelos diferentes em indivíduos da mesma espécie Deve aparecer em pelo menos 1% da população SNP: polimorfismo que ocorre em apenas uma base da seqüência SNP sinônimo: não modifica o amino á cido SNP não sinônimo: modifica o amino á cido

6 Porque estudar SNPs? Correspondem a mais de 90% dos polimorfismos nos seres humanos Causa de grande parte das doenças com base genética Grande interesse das industrias farmacêuticas Criação de terapias específicas Marcadores para mapeamento fino do genoma

7 Objetivos do trabalho Estudar 3 etapas distintas no processo de detecção e análise de SNPs: Alinhamento de ESTs com DNA genômico Detecção de SNPs por análise de cromatograma Correlação de SNPs

8 Alinhamento de DNA com ESTs

9 Alinhamento de sequências Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G ACCTTCGTTTTG Pontuação permite avaliar o alinhamento Problema de otimização: obter o alinhamento de melhor pontua ç ão

10 Algoritmos clássicos de alinhamento Estratégias de alinhamento Global Semi-global Local Sistemas de pontuação Simples: match, mismatch, gap Linear: match, mismatch e gap(k) = g + hk

11 Porque estudar alinhamento de mRNA com DNA?

12 Objetivos desta etapa Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

13 Metodologia Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers Criação de uma base de testes Definição de um conjunto de parâmetros de alinhamento Execução de alinhamentos de mRNAs com genes de origem Nosso alinhador, sim4, est_genome e Spidey Definição de métricas para avaliação dos alinhamentos obtidos

14 Conjunto de dados 1.64 genes do cromossomo Y humano com menos de bases 2.40 genes completos do cromossomo Y humano com menos de bases genes completos do genoma humano com menos de bases ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

15 Resultados obtidos - Conjunto 3 Extra GapDelta ExonSimilaridadeMismatch (1,-2,-1,0) %0.00% (1,-2,-10,0) %0.00% Sim %0.21% Est_genome %1.31% Spidey %0.17%

16 Resultados obtidos - Conjunto 4

17

18 Resultados obtidos O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores Sim4, est_genome e Spidey são mais regulares com ESTs com erros

19 Detecção de SNPs

20 Base-calling e sequenciamento

21 Porque estudar base-calling? Pacote phred ignora sinais secundários no cromatograma Apenas uma base por posição SNPs podem gerar sinais secund á rios PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

22 Objetivos desta etapa Detecção de SNPs em cromatogramas de seqüências de HIV Estudo de m é todos para determina ç ão de confiabilidade dos resultados

23 Metodologia Definir algoritmos para análise e correção de cromatograma Executar os algoritmos com diversos parâmetros, para an á lise preliminar Determinação de dois algoritmos para tunning Determinação do melhor algoritmo e do melhor conjunto de parâmetros

24 Conjunto de dados Sequências genéticas de HIV 1302 bp Região bem conservada 35 lotes de amostras de indivíduos soropositivos 6 leituras 1 seqüência validada, com SNPs anotados manualmente Sequência de referência de HIV

25 Algoritmos de correção Relação das Áreas Relação das Médias das Alturas Limite Variável Pico Único por Janela Eliminação de Picos Ruins Pico Mais Baixo

26 Relação das Áreas

27 Relação das Médias das Alturas

28 Resultados obtidos Verdadeiro Positivo Falso Negativo Falso Positivo Á rea 75%23%394% Média das alturas 53%42%317% PolyPhred 0%100%0% PolyBayes 0%100%0%

29 Confiabilidade Estatística Comparação de dois métodos de confiablidade estatística para SNPs: PolyBayes: estatística bayesiana MSASNP: qualidades das bases Conjunto de teste: SNPs anotados do SUCEST MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

30 Correlação de SNPs

31 Linkage Disequilibrium Associação não aleatória entre alelos Informações sobre um alelo fornece informações sobre o outro Medidas para quantificar LDs D = 1, chamado de LD completo r 2 1/3, chamado de LD útil LD múltiplo: conjunto de SNPs em LD dois a dois

32 Porque estudar LDs? Doenças genéticas podem ser influenciadas por vários SNPs correlacionados LD permite efetuar mapeamento fino do genoma humano Técnica tradicional: definição de 1 a 2cM LD: definição de 0.1cM

33 Objetivos desta etapa Estudar LDs múltiplos Analisar o efeito do uso das medidas D e r 2

34 Metodologia Pré-processamento do conjunto de dados Definição de uma heurística para busca de cliques em grafos Problema NP-Difícil Executar a busca por LDs múltiplos nos dados utilizando medidas D e r 2

35 LDs m ú ltiplos

36 (j, f, i, e, g, m, n) (k, l, h)

37 Conjunto de dados ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados Genes do genoma humano obtidos do NCBI: HLA-A, HLA-B e HLA-DOB Genes do complexo MHC Região com alta densidade de SNPs anotados

38 Resultados Bons resultados obtidos com tempo de busca de 5 segundos por clique D apresenta resultados melhores Maior capacidade de agrupamento Menor tendência de isolamento de SNPs r 2 gera grafos com menos arestas

39 Considerações finais Foram estudadas 3 etapas distintas relacionadas a SNPs Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado Seria interessante implementar um fluxo de trabalho único unindo estas etapas

40 Trabalhos publicados Alinhamento M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods. Lecture Notes on Bioinformatics, Springer-Verlag Berlin Heildelberg. Apresentado no BSB 2005, Porto Alegre - RS. Detec ç ão de SNPs M. Galves, J. A. A. Quitzau e Z. Dias, "New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, Apresentado no X-Meeting 2005, Caxambu - MG.

41 Relat ó rios t é cnicos LDs m ú ltiplos A. A. M. Almeida, M. Galves e Z. Dias, Um algoritmo para identificação de correlações múltiplas de polimorfismos (IC-06-14), Setembro Confiabilidade Estat í stica C. Baudet, M. Galves e Z. Dias,Comparação de métodos para determinação de SNPs com medidas de confiabilidade (IC-06-15), Setembro 2006.


Carregar ppt "Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006."

Apresentações semelhantes


Anúncios Google