MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010

O banco de dados O banco de dados foi obtido no instituto NCBI, (National Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em ftp://ftp.genome.jp/pub/kegg que conduz pesquisas na área de biologia computacional. O banco consistia de arquivos com as bases nitrogenadas que formam a seqüência de DNA do genoma humano, para cada um dos 22 pares de cromossomos existentes. Dentro de cada arquivo (ou cromossomo), existia a subdivisão em genes. Foi usada a amostragem de bases nitrogenadas (em alguns casos chega a milhões de bases).

Alfabeto O filamento de DNA de cada um dos genes é formado por duas seqüências de bases nitrogenadas ligadas umas as outras. São essas bases: Adenina =A Citosina = C Guanina = G Timina = T O arquivo continha dados de apenas um lado da seqüência, já que o outro pode ser obtido observando como as bases se ligam. A se liga exclusivamente a T, C se liga exclusivamente a G, e vice versa para os dois casos

Cadeias de Markov Seja {X_(t em T)} um processo estocástico que descreve a evolução de algum fenômeno ao longo do tempo (t), assumindo valores em S= {0, 1, 2...} (discreto). Sendo Xt o estado da cadeia no instante t, se o processo tem a propriedade de: P(Xt = j / X0 = x0, X1= x1, ... , Xt-1= i) = P(Xt = J / Xt-1= i) para quaisquer estados então o processo é denominado uma Cadeia de Markov de ordem 1. A distribuição condicional de qualquer estado futuro dado os vários estados passados e o estado presente é independente dos estados passados e depende unicamente desse estado presente.

Matriz de probabilidades de transição
As probabilidades de transição em uma cadeia de Markov de ordem 1, homogênea no tempo, podem ser descritas através de uma matriz estocástica da forma: onde Pij é a probabilidade de transição do estado i para o estado j em uma etapa.

EMV para probabilidades de Transição em Cadeias de Markov
A função de verossimilhança para uma cadeia de Markov de ordem 1 é dada por: Então, o EMV para cada uma das probabilidades de transição é dado por

Cadeias de Markov de ordem K
Se a ordem da cadeia é K devemos olhar k passos no passado para definir a probabilidade de ir para um estado no presente. P(Xt = Xt / X0 = x0, X1= x1, ... , Xt-1= xt-1) = P(Xt = xt / Xt-1= xt-1, Xt-2= xt-2,... , Xt-k= xt-k)

Seleção de modelos via BIC
A idéia do BIC para selecionar modelos é penalizar a Verossimilhança pelo número K, onde K é número de parâmetros independentes a serem estimados. onde é o espaço paramétrico correspondente ao modelo com K parâmetros.

Resultados via Cadeias de Markov
Observa-se que apenas para o cromossomo 6, houve coincidência da ordem estimada pelo BIC para os genes. A melhor ordem ajustada foi a ordem 2. Para o cromossomo 10 observou-se ordem diferentes para os genes, sendo que um deles foi melhor ajustado pelo modelo de ordem 3. No caso do cromossomo 11, em um dos genes não foi possível calcular o EMV e não foi possível estimar o BIC. Isso porque algumas probabilidades de transição da matriz apresentaram o valor zero, o que comprometeu uma análise da verossimilhança.

Ordem estimada para enzimas responsáveis pelo paladar

Ordem estimada para enzimas responsáveis pelo Olfato

Ordem estimada para enzimas do metabolismo da cafeína

Modelo selecionado pelo BIC
Observou-se que para todos os grupos de proteínas a melhor ordem apontada pelo BIC é a ordem 1. Observou-se também que as matrizes de probabilidade de transição estimadas eram muito semelhantes.

Teste da Razão de Verossimilhança para comparação das matrizes de transição

TRV para comparação de matrizes de transição do grupo 1: paladar
(24-12)=12 graus de liberdade, o que nos dá um valor crítico de 23,33 a 5%.

TRV para comparação de matrizes de transição do grupo 2: olfato

TRV para comparação de matrizes de transição do grupo 4: metabolismo da cafeína

Conclusões Adotando-se o TRV como método de comparação conclui-se que as proteínas dentro de um mesmo grupo podem possuir a mesma lei de formação, já que para nenhum dos grupos, em nenhuma das comparações foi rejeitada a hipótese nula de que as probabilidades de transições são iguais para todas as entradas das matrizes.

Crescimento exponencial do número de parâmetros com a ordem da cadeia
Seja  o número fixo de parâmetros (estados) da cadeia de Markov, observe na tabela abaixo, considerando como exemplo  = 4, como o número de parâmetros livres cresce quando aumentamos sua ordem.

Cadeias com Memória de Alcance Variável
Dizemos que o processo é uma Cadeia com Memória de Alcance Variável ( VLMC ou PCT) se as probabilidades de transição satisfazem à seguinte propriedade: Se l = 0 para todo t, o processo é ndependente.

Contexto Para estimar o estado da cadeia não consideramos todo o seu passado, e sim apenas parte do passado que é relevante na estimação do estado presente, que chamamos contexto. Representamos o contexto observado por

Árvore de contextos O conjunto de todos os contextos pode ser representado como uma árvore. O presente é representado pela raiz. Os galhos são os passados, quanto mais longe da raiz é o nó mais distante é o passado. Cada nó tem no máximo  arestas, que é o tamanho do espaço de estados da cadeia.

Representação gráfica de uma Arvore de Contextos (PCT)

Exemplo de uma árvore de contextos para uma Cadeia de Markov de ordem 2:

Estimação das Árvores Alguns algoritmos tem sido apresentadas na literatura para estimar uma árvore probabilística de contexto(PCT ou VLMC) e também as probabilidades de transição. Uma lista incompleta inclui Ron et al. (1996), Buhlmann e Wyner (1999)(VLMC) e Galves et al. (2009). Uma abordagem diferente é proposta Csiszar e Talata (2006). Eles mostraram que uma árvore probabilística de contexto pode ser consistentemente estimada em um tempo linear usando o Critério de Informação Bayesiana (BIC)(1995).

Algoritmo G3L Em Galves, Galves, Garcia e Leonardi (2009) é introduzido o critério do menor maximizador (smallest maximizer criterion) para estimar uma VLMC ou PCT, como vem sido chamado. Este critério seleciona a árvore na classe das campeãs estimadas pelo BIC, para cada valor da constante de penalização. Este algoritmo é chamado de G3L. Onde é a verossimilhança da árvore dada a amostra e denota o número de graus de liberdade do modelo correspondente da árvore de contexto

A ordem do modelo VLMC para o primeiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 28

Gene Cr10g3 : A ordem para o modelo VLMC para o terceiro gene do cromossomo 10 encontrado é 2, com um número de contextos igual a 16.

Gene Cr11g1 : A ordem máxima do modelo para o primeiro gene do cromossomo 11 não pôde ser encontrada, por limitações computacionais, pois esse gene possui uma cadeia com praticamente todos os contextos em suas ordens. Com uma ordem 4 (máxima ordem visível) obteve-se um número de contextos igual a 240, sendo inviável a reprodução de sua árvore de contextos aqui.

Gene Cr11g2 : A ordem do modelo encontrado é 3, com um número de contextos igual a 25.

Gene Cr11g3 : A ordem do modelo encontrado é 3, com um número de contextos igual a 22.

Gene CR6g1

Gene Cr6g2 : A ordem do modelo VLMC para o segundo gene do cromossomo 6 encontrado é 4, com um número de contextos igual a 36.

Gene Cr6g3: A ordem do modelo VLMC para o terceiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 48.

Comparação: CM x VLMC Estimação via Cadeia de Markov
Estimação via Cadeia com Memória de Alcance Variável

Muito obrigada!

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.

Apresentações semelhantes

Apresentação em tema: "MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.

Apresentações semelhantes

Apresentação em tema: "MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback