A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011.

Apresentações semelhantes


Apresentação em tema: "Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011."— Transcrição da apresentação:

1 Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011

2 Eukaryotic and prokaryotic promoter prediction using hybrid approach Introdução Bases de dados Abordagem proposta Técnicas Experimentos Resultados

3 Introdução Conservação Oligonucleotídeo K-mer Transcrição (Exons e Introns) PWM (Position Weight Matrix)

4 Introdução Transcrição

5 Introdução PWM (Position Weight Matrix)

6 Base de Dados Eucariotos 300 pb -249 a +50 (TSS = 0) Procariotos 81 pb -60 a +20 bp (TSS = 0) Bases (5 espécies) C. elegans 598 promoters, 600 coding sequences and 600 introns B. subtilis 270 promoters, 300 coding sequences and 300 convergent intergenic sequences H. sapiens 1787 promoters, 1800 coding sequences and 1800 introns D. melanogaster 1886 promoters, 2859 coding sequences and 1799 introns E. coli 741 promoters, 700 coding sequences and 700 convergent intergenic sequences

7 Abordagem proposta Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos Utiliza 2 técnicas para descrever características de sinal e de composição Position Correlation Score Function (PCSF) (Li and Lin 2006; Gordon et al. 2006; Kielbasa et al. 2005) Increment of Diversity (ID) (Laxton 1978)

8 Abordagem proposta PCSF (baseado em PWM) Usado para estimar a ocorrência de sequências k- mer numa posição específica ID Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino MD modificado Usando como entrada os resultados de PCSF e ID, é aplicado para predizer promotores

9 Conservação de oligonucleotídeos Quanto maior o valor de maior a conservação da região

10

11 Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação: Position Correlation Score Function (PCSF)

12 Baseado na matriz de probabilidade construída, a Equação 3 Average background probability pode ser utilizada para calcular o valor de peso das sequências (assim como e ) shows the degree of sequence closed to matrix resource

13 Increment of Diversity (ID) De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor d- dimensional, então a diversidade da sequência será Frequência absoluta do ith k-mer oligonucleotídeo Para duas sequências, o incremento de diversidade pode ser descrito como

14 Increment of Diversity (ID) Quanto menor o ID, maior a similaridade entre 2 sequências

15 Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões 3 do PCSF e 9 do ID

16 Mahalanobis Discriminant (MD) Group mean Covariance matrix of training dataset Inverse matrix Determinant

17 Função de predição

18 Hipótese Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance Diferença entre sequências codificantes e não codificantes

19 Sub-regiões sequências de promotores eucarióticas As bases de dados de promotores eucarióticos foram divididas em 3 regiões Transcrita Não transcrita Core promoter

20 Sub-regiões em sequências de promotores eucarióticos cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaa tttt Core PromoterRegião transcrita Região não transcrita TSS

21 Experimentos

22 Base de teste e de treino dividida em 10 partes Varia-se a taxa entre elas 5 taxas diferentes 10-fold cross validation Comparações com outras abordagens para D. melanogaster 400 seq 200 promotores, 100 coding, 100 introns Comparações com outras abordagens para H. sapiens 400 seq 200 promotores, 100 coding, 100 introns

23 Avaliação de performance

24

25 Resultados

26

27

28 Trabalhos futuros Utilizar informações estruturais do DNA e predição completa do genoma


Carregar ppt "Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011."

Apresentações semelhantes


Anúncios Google