Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Unidade VII Algoritmos Genéticos
Instituto de Computação
Aprendizado de Máquina
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Organização Gênica de Eucariotos
PROJETOS GENOMA E PROTEOMA HUMANOS
SNPs e suas aplicações Karine Begnini Doutoranda em Biotecnologia
ENGENHARIA DE MÉTODOS Prof. Adolfo Sérgio Furtado da Silva
Universidade Federal de Viçosa
Classificadores em Dados não Balanceados
Análise de regressão linear simples: abordagem matricial
BIOTECNOLOGIA E ENGENHARIA GENÉTICA
Christian Baudet Zanoni Dias (Orientador)
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Introduction of RefSeq and LocusLink: resources at the NCBI
Sequenciamento inicial e análises do genoma humano
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Estatística Básica Utilizando o Excel
Otimização de Funções Contínuas via Algoritmos Genéticos Adaptado do trabalho realizado por: Frederico Heitor Mônica do Amaral.
Otimização de Funções Contínuas via Algoritmos Genéticos
MB751 – Modelos de previsão
Algoritmos Genéticos Jorge H. C. Fernandes Setembro de 1998.
Avaliação de Desempenho Planejamento de Experimentos 2 Aula 2 Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de.
Introdução à Lógica de Programação (cont.)
Algoritmos Genéticos - Capítulo 10 Representação Numérica
Anotação de SAGE Tags Rodrigo Martins Brandão.
Ernesto F. F. Ramírez e Saide J. Calil
Problemas Numéricos com Representação por Números Reais
Avaliação de Testes Diagnósticos
Aprendizado de Máquina Aula 8
Polimorfismos de nucleotídeos únicos em espécies poliplóides
ME623A Planejamento e Pesquisa
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Fundamentos de Engenharia de SW
ÁCIDOS NUCLEICOS.
ANÁLISE INSTRUMENTAL.
A ORGANIZAÇÃO DO MATERIAL GENÉTICO
Desempenho de Algoritmos Genéticos
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
Universidade Federal de São Carlos Universidade de São Paulo
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Uso de informação parentes
Erros e variáveis aleatórias
Modelagem Estatística
Avaliação de Clusteres Parte II
Bioinformática (Alinhamento de Seqüências)
MBA em Gestão de Empreendimentos Turísticos
Fundamentos de Programação
Algoritmos Evolutivos Algoritmos Genéticos Introdução
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Estrutura de decisão Neste tipo de estrutura o fluxo de instruções a ser seguido é escolhido em função do resultado da avaliação de uma ou mais condições.
A genética e os genes.
Wendt, S. N. ; Mazza, M. C. ; Quoirin, M. G. ; Sousa, V. A
Inferência Estatística
Pesquisa Mensal de Emprego
2ª Reunião do Grupo Técnico de Métodos Analíticos e Amostragem do Codex Alimentarius no Brasil (Fiocruz- RJ)
Aula 11 - Teste de hipóteses, teste de uma proporção
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo
Sequenciamento de Genomas
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
FERRAMENTAS DE ANÁLISE MOLECULAR
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Escalonamento de Operações de Reconfiguração Dinâmica Mestrado Integrado em Engenharia Eletrotécnica e de Computadores Aluno: Ricardo Ferreira Orientador:
Transcrição da apresentação:

Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006 Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Roteiro Conceitos Básicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão

Processo básico de tradução genética A informação genética dos seres vivos é armazenada em cadeias de nucleotídeos Bases A, C, G e T Proteínas são geradas a partir da leitura da cadeia de nucleotídeos Processo de tradução Proteína = cadeia de aminoácidos 1 aminoácido = 3 nucleotídeos = 1 códon

Tradução Interessante: 64 codons, apenas 20 aminoacidos. 1 aminoacido pode ser codificado por varios codons.

Polimorfismos e SNP Polimorfismo: dois ou mais alelos diferentes em indivíduos da mesma espécie Deve aparecer em pelo menos 1% da população SNP: polimorfismo que ocorre em apenas uma base da seqüência SNP sinônimo: não modifica o aminoácido SNP não sinônimo: modifica o aminoácido

Porque estudar SNPs? Criação de terapias específicas Correspondem a mais de 90% dos polimorfismos nos seres humanos Causa de grande parte das doenças com base genética Grande interesse das industrias farmacêuticas Criação de terapias específicas Marcadores para mapeamento fino do genoma

Objetivos do trabalho Estudar 3 etapas distintas no processo de detecção e análise de SNPs: Alinhamento de ESTs com DNA genômico Detecção de SNPs por análise de cromatograma Correlação de SNPs Etapas distintas: problemas, conjuntos de dados e conclusoes

Alinhamento de DNA com ESTs

Alinhamento de sequências Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G ACCTTCGTTTTG Pontuação permite avaliar o alinhamento Problema de otimização: obter o alinhamento de melhor pontuação

Algoritmos clássicos de alinhamento Estratégias de alinhamento Global Semi-global Local Sistemas de pontuação Simples: match, mismatch, gap Linear: match, mismatch e gap(k) = g + hk

Porque estudar alinhamento de mRNA com DNA? Começar falando de exons e introns no DNA Falar do processo de de transcriçao nos eucariotos Caracterizacao de mRNA Falar dos pacotes computacionais que utilizam varias euristicas

Objetivos desta etapa Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

Metodologia Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers Criação de uma base de testes Definição de um conjunto de parâmetros de alinhamento Execução de alinhamentos de mRNAs com genes de origem Nosso alinhador, sim4, est_genome e Spidey Definição de métricas para avaliação dos alinhamentos obtidos

Conjunto de dados 64 genes do cromossomo Y humano com menos de 100.000 bases 40 genes completos do cromossomo Y humano com menos de 100.000 bases 7376 genes completos do genoma humano com menos de 10.000 bases 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

Resultados obtidos - Conjunto 3 Extra Gap Delta Exon Similaridade Mismatch (1,-2,-1,0) 0.00 99.89% 0.00% (1,-2,-10,0) 0.01 Sim4 1.03 -0.03 99.18% 0.21% Est_genome 15.56 -0.17 58.00% 1.31% Spidey 0.12 -3.82 81.02% 0.17%

Resultados obtidos - Conjunto 4

Resultados obtidos - Conjunto 4

Resultados obtidos O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores Sim4, est_genome e Spidey são mais regulares com ESTs com erros

Detecção de SNPs

Base-calling e sequenciamento Eletroforese: quanto mais pra baixo, mais pro inicio da sequencia Pacotes como phred e AB1 leem o cromatograma e determinam as bases

Porque estudar base-calling? Pacote phred ignora sinais secundários no cromatograma Apenas uma base por posição SNPs podem gerar sinais secundários PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

Objetivos desta etapa Detecção de SNPs em cromatogramas de seqüências de HIV Estudo de métodos para determinação de confiabilidade dos resultados

Metodologia Definir algoritmos para análise e correção de cromatograma Executar os algoritmos com diversos parâmetros, para análise preliminar Determinação de dois algoritmos para tunning Determinação do melhor algoritmo e do melhor conjunto de parâmetros

Conjunto de dados Sequências genéticas de HIV 1302 bp Região bem conservada 35 lotes de amostras de indivíduos soropositivos 6 leituras 1 seqüência validada, com SNPs anotados manualmente Sequência de referência de HIV 6 leituras = resultado de protocolo experimental para identificacao de HIV Leituras de baixa qualidade

Algoritmos de correção Relação das Áreas Relação das Médias das Alturas Limite Variável Pico Único por Janela Eliminação de Picos Ruins Pico Mais Baixo

Relação das Áreas

Relação das Médias das Alturas

Resultados obtidos Verdadeiro Positivo Falso Negativo Falso Positivo Área 75% 23% 394% Média das alturas 53% 42% 317% PolyPhred 0% 100% PolyBayes

Confiabilidade Estatística Comparação de dois métodos de confiablidade estatística para SNPs: PolyBayes: estatística bayesiana MSASNP: qualidades das bases Conjunto de teste: SNPs anotados do SUCEST MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

Correlação de SNPs

Linkage Disequilibrium Associação não aleatória entre alelos Informações sobre um alelo fornece informações sobre o outro Medidas para quantificar LDs D’ = 1, chamado de LD completo r2  1/3, chamado de LD útil LD múltiplo: conjunto de SNPs em LD dois a dois

Porque estudar LDs? Doenças genéticas podem ser influenciadas por vários SNPs correlacionados LD permite efetuar mapeamento fino do genoma humano Técnica tradicional: definição de 1 a 2cM LD: definição de 0.1cM 1 cM = 1Mbp 0.1 cM = 100kbps

Objetivos desta etapa Estudar LDs múltiplos Analisar o efeito do uso das medidas D’ e r2

Metodologia Pré-processamento do conjunto de dados Definição de uma heurística para busca de cliques em grafos Problema NP-Difícil Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2

LDs múltiplos

LDs múltiplos (j, f, i, e, g, m, n) (k, l, h)

Conjunto de dados ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados Genes do genoma humano obtidos do NCBI: HLA-A, HLA-B e HLA-DOB Genes do complexo MHC Região com alta densidade de SNPs anotados MHC : Major Histocompatibility Complex Funções imunologicas

Resultados Bons resultados obtidos com tempo de busca de 5 segundos por clique D’ apresenta resultados melhores Maior capacidade de agrupamento Menor tendência de isolamento de SNPs r2 gera grafos com menos arestas

Considerações finais Foram estudadas 3 etapas distintas relacionadas a SNPs Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado Seria interessante implementar um fluxo de trabalho único unindo estas etapas

Trabalhos publicados Alinhamento Detecção de SNPs M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg. Apresentado no BSB 2005, Porto Alegre - RS. Detecção de SNPs M. Galves, J. A. A. Quitzau e Z. Dias, "New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.

Relatórios técnicos LDs múltiplos Confiabilidade Estatística A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006. Confiabilidade Estatística C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.