MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

A = ( 3 ) , logo | A | = 3 Determinantes
CAPÍTULO 7 TESTE DE HIPÓTESE
Amintas engenharia.
2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS, COMPARAÇÕES EMPARELHADAS
ANÁLISE DISCRIMINANTE
CAPÍTULO 7 TESTE DE HIPÓTESE
Técnicas de orçamento de capital
Determinantes Determinante é um número real associado a uma matriz quadrada. Notação: det A ou |A|. Determinante de uma Matriz Quadrada de 1ª Ordem. Seja.
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
DELINEAMENTO COMPLETAMENTE CASUALIZADO
Prof. Marllus Gustavo Ferreira Passos das Neves
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Árvores.
Dárlinton B. Feres Carvalho
MB751 – Modelos de previsão
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Rejane Sobrino Pinheiro Tania Guillén de Torres
MEDIDAS DE DISPERSÃO Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados. A necessidade de uma medida de variação.
Polinômios Prof. Marlon.
Determinantes.
Preparação para o teste intermédio de Matemática 8º ano
Estatística Descritiva
Coleta e Modelagem dos Dados de Entrada
TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL 
Objetivo Definições Cálculo do teste Exemplo Comentários Bibliografia
Análise da Regressão múltipla: Inferência Revisão da graduação
Estatística Descritiva (I)
ME623A Planejamento e Pesquisa
Informática Teórica Engenharia da Computação
Otimização por Colônia de Formigas (ACO)
Laís Araújo Lopes de Souza
C OMPARAÇÃO DO COMPORTAMENTO DO BIC EM ALGUNS MODELOS PROBABILÍSTICOS Diogo Taurinho Prado Orientadora: Denise Duarte.
3 - MATRIZ COMPLEMENTAR E CO-FATOR
Sistemas Operacionais
Exponential Random Graph Models
Estatística e Probabilidade
Apêndice.
Análise Fatorial Factor analysis.
Área de Pesquisa: Redes de Computadores
Modelagem Estatística
Etapa Estatística Planejamento Análise Estatística Efeito de sequência
Introdução e Busca Cega
Quadrados Mínimos.
Técnicas de Modelagem para Aplicações em Computação Gráfica
Projeto de Banco de Dados
Conceitos básicos em grafos
Aula 6 - Método não-experimental ou de seleção não-aleatória
Resolução de sistemas de equações lineares
Inferência Estatística
Introdução à Estatística
Campus de Caraguatatuba
Diogo Silva Nº  1988 NCBI- Banco de dados público contendo sequências de DNA dos mais diversos organismos  1995 Técnica do microarranjo -perfil.
Modelagem de Sistemas Dinâmicos
Aula 11 - Teste de hipóteses, teste de uma proporção
Campus de Caraguatatuba Aula 9: Noções Básicas sobre Erros (3)
COMPARAÇÃO DE DUAS POPULAÇÕES
Estatística e Probabilidade
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Professor Antonio Carlos Coelho
Regressão e Previsão Numérica.
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
Regressão Linear Simples
Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
Professor: Gerson Leiria Nunes.  Análise dos sistemas discretos  Sistemas recursivos.
AULA 07 CORRELAÇÃO Igor Menezes.
INTERVALO DE CONFIANÇA PARA A MEDIA POPULACIONAL (σ 2 desconhecido ) Sabemos que se o tamanho da amostra for superior a 30 a distribuição amostral das.
Transcrição da apresentação:

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

O banco de dados O banco de dados foi obtido no instituto NCBI, (National Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em ftp://ftp.genome.jp/pub/kegg que conduz pesquisas na área de biologia computacional. O banco consistia de arquivos com as bases nitrogenadas que formam a seqüência de DNA do genoma humano, para cada um dos 22 pares de cromossomos existentes. Dentro de cada arquivo (ou cromossomo), existia a subdivisão em genes. Foi usada a amostragem de 100.000 bases nitrogenadas (em alguns casos chega a milhões de bases).

Alfabeto O filamento de DNA de cada um dos genes é formado por duas seqüências de bases nitrogenadas ligadas umas as outras. São essas bases: Adenina =A Citosina = C Guanina = G Timina = T O arquivo continha dados de apenas um lado da seqüência, já que o outro pode ser obtido observando como as bases se ligam. A se liga exclusivamente a T, C se liga exclusivamente a G, e vice versa para os dois casos

Cadeias de Markov Seja {X_(t em T)} um processo estocástico que descreve a evolução de algum fenômeno ao longo do tempo (t), assumindo valores em S= {0, 1, 2...} (discreto). Sendo Xt o estado da cadeia no instante t, se o processo tem a propriedade de: P(Xt = j / X0 = x0, X1= x1, ... , Xt-1= i) = P(Xt = J / Xt-1= i) para quaisquer estados então o processo é denominado uma Cadeia de Markov de ordem 1. A distribuição condicional de qualquer estado futuro dado os vários estados passados e o estado presente é independente dos estados passados e depende unicamente desse estado presente.

Matriz de probabilidades de transição As probabilidades de transição em uma cadeia de Markov de ordem 1, homogênea no tempo, podem ser descritas através de uma matriz estocástica da forma: onde Pij é a probabilidade de transição do estado i para o estado j em uma etapa.

EMV para probabilidades de Transição em Cadeias de Markov A função de verossimilhança para uma cadeia de Markov de ordem 1 é dada por: Então, o EMV para cada uma das probabilidades de transição é dado por

Cadeias de Markov de ordem K Se a ordem da cadeia é K devemos olhar k passos no passado para definir a probabilidade de ir para um estado no presente. P(Xt = Xt / X0 = x0, X1= x1, ... , Xt-1= xt-1) = P(Xt = xt / Xt-1= xt-1, Xt-2= xt-2,... , Xt-k= xt-k)

Seleção de modelos via BIC A idéia do BIC para selecionar modelos é penalizar a Verossimilhança pelo número K, onde K é número de parâmetros independentes a serem estimados. onde é o espaço paramétrico correspondente ao modelo com K parâmetros.

Resultados via Cadeias de Markov Observa-se que apenas para o cromossomo 6, houve coincidência da ordem estimada pelo BIC para os genes. A melhor ordem ajustada foi a ordem 2. Para o cromossomo 10 observou-se ordem diferentes para os genes, sendo que um deles foi melhor ajustado pelo modelo de ordem 3. No caso do cromossomo 11, em um dos genes não foi possível calcular o EMV e não foi possível estimar o BIC. Isso porque algumas probabilidades de transição da matriz apresentaram o valor zero, o que comprometeu uma análise da verossimilhança.

Ordem estimada para enzimas responsáveis pelo paladar

Ordem estimada para enzimas responsáveis pelo Olfato

Ordem estimada para enzimas do metabolismo da cafeína

Modelo selecionado pelo BIC Observou-se que para todos os grupos de proteínas a melhor ordem apontada pelo BIC é a ordem 1. Observou-se também que as matrizes de probabilidade de transição estimadas eram muito semelhantes.

Teste da Razão de Verossimilhança para comparação das matrizes de transição

TRV para comparação de matrizes de transição do grupo 1: paladar (24-12)=12 graus de liberdade, o que nos dá um valor crítico de 23,33 a 5%.

TRV para comparação de matrizes de transição do grupo 2: olfato

TRV para comparação de matrizes de transição do grupo 4: metabolismo da cafeína

Conclusões Adotando-se o TRV como método de comparação conclui-se que as proteínas dentro de um mesmo grupo podem possuir a mesma lei de formação, já que para nenhum dos grupos, em nenhuma das comparações foi rejeitada a hipótese nula de que as probabilidades de transições são iguais para todas as entradas das matrizes.

Crescimento exponencial do número de parâmetros com a ordem da cadeia Seja  o número fixo de parâmetros (estados) da cadeia de Markov, observe na tabela abaixo, considerando como exemplo  = 4, como o número de parâmetros livres cresce quando aumentamos sua ordem.

Cadeias com Memória de Alcance Variável Dizemos que o processo é uma Cadeia com Memória de Alcance Variável ( VLMC ou PCT) se as probabilidades de transição satisfazem à seguinte propriedade: Se l = 0 para todo t, o processo é ndependente.

Contexto Para estimar o estado da cadeia não consideramos todo o seu passado, e sim apenas parte do passado que é relevante na estimação do estado presente, que chamamos contexto. Representamos o contexto observado por

Árvore de contextos O conjunto de todos os contextos pode ser representado como uma árvore. O presente é representado pela raiz. Os galhos são os passados, quanto mais longe da raiz é o nó mais distante é o passado. Cada nó tem no máximo  arestas, que é o tamanho do espaço de estados da cadeia.

Representação gráfica de uma Arvore de Contextos (PCT)

Exemplo de uma árvore de contextos para uma Cadeia de Markov de ordem 2:

Estimação das Árvores Alguns algoritmos tem sido apresentadas na literatura para estimar uma árvore probabilística de contexto(PCT ou VLMC) e também as probabilidades de transição. Uma lista incompleta inclui Ron et al. (1996), Buhlmann e Wyner (1999)(VLMC) e Galves et al. (2009). Uma abordagem diferente é proposta Csiszar e Talata (2006). Eles mostraram que uma árvore probabilística de contexto pode ser consistentemente estimada em um tempo linear usando o Critério de Informação Bayesiana (BIC)(1995).

Algoritmo G3L Em Galves, Galves, Garcia e Leonardi (2009) é introduzido o critério do menor maximizador (smallest maximizer criterion) para estimar uma VLMC ou PCT, como vem sido chamado. Este critério seleciona a árvore na classe das campeãs estimadas pelo BIC, para cada valor da constante de penalização. Este algoritmo é chamado de G3L. Onde é a verossimilhança da árvore dada a amostra e denota o número de graus de liberdade do modelo correspondente da árvore de contexto .

A ordem do modelo VLMC para o primeiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 28

Gene Cr10g3 : A ordem para o modelo VLMC para o terceiro gene do cromossomo 10 encontrado é 2, com um número de contextos igual a 16.

Gene Cr11g1 : A ordem máxima do modelo para o primeiro gene do cromossomo 11 não pôde ser encontrada, por limitações computacionais, pois esse gene possui uma cadeia com praticamente todos os contextos em suas ordens. Com uma ordem 4 (máxima ordem visível) obteve-se um número de contextos igual a 240, sendo inviável a reprodução de sua árvore de contextos aqui.

Gene Cr11g2 : A ordem do modelo encontrado é 3, com um número de contextos igual a 25.

Gene Cr11g3 : A ordem do modelo encontrado é 3, com um número de contextos igual a 22.

Gene CR6g1

Gene Cr6g2 : A ordem do modelo VLMC para o segundo gene do cromossomo 6 encontrado é 4, com um número de contextos igual a 36.

Gene Cr6g3: A ordem do modelo VLMC para o terceiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 48.

Comparação: CM x VLMC Estimação via Cadeia de Markov Estimação via Cadeia com Memória de Alcance Variável

Muito obrigada!