Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouJuan Monte Alterado mais de 10 anos atrás
1
Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011
2
Eukaryotic and prokaryotic promoter prediction using hybrid approach Introdução Bases de dados Abordagem proposta Técnicas Experimentos Resultados
3
Introdução Conservação Oligonucleotídeo K-mer Transcrição (Exons e Introns) PWM (Position Weight Matrix)
4
Introdução Transcrição
5
Introdução PWM (Position Weight Matrix)
6
Base de Dados Eucariotos 300 pb -249 a +50 (TSS = 0) Procariotos 81 pb -60 a +20 bp (TSS = 0) Bases (5 espécies) C. elegans 598 promoters, 600 coding sequences and 600 introns B. subtilis 270 promoters, 300 coding sequences and 300 convergent intergenic sequences H. sapiens 1787 promoters, 1800 coding sequences and 1800 introns D. melanogaster 1886 promoters, 2859 coding sequences and 1799 introns E. coli 741 promoters, 700 coding sequences and 700 convergent intergenic sequences
7
Abordagem proposta Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos Utiliza 2 técnicas para descrever características de sinal e de composição Position Correlation Score Function (PCSF) (Li and Lin 2006; Gordon et al. 2006; Kielbasa et al. 2005) Increment of Diversity (ID) (Laxton 1978)
8
Abordagem proposta PCSF (baseado em PWM) Usado para estimar a ocorrência de sequências k- mer numa posição específica ID Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino MD modificado Usando como entrada os resultados de PCSF e ID, é aplicado para predizer promotores
9
Conservação de oligonucleotídeos Quanto maior o valor de maior a conservação da região
11
Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação: Position Correlation Score Function (PCSF)
12
Baseado na matriz de probabilidade construída, a Equação 3 Average background probability pode ser utilizada para calcular o valor de peso das sequências (assim como e ) shows the degree of sequence closed to matrix resource
13
Increment of Diversity (ID) De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor d- dimensional, então a diversidade da sequência será Frequência absoluta do ith k-mer oligonucleotídeo Para duas sequências, o incremento de diversidade pode ser descrito como
14
Increment of Diversity (ID) Quanto menor o ID, maior a similaridade entre 2 sequências
15
Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões 3 do PCSF e 9 do ID
16
Mahalanobis Discriminant (MD) Group mean Covariance matrix of training dataset Inverse matrix Determinant
17
Função de predição
18
Hipótese Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance Diferença entre sequências codificantes e não codificantes
19
Sub-regiões sequências de promotores eucarióticas As bases de dados de promotores eucarióticos foram divididas em 3 regiões Transcrita Não transcrita Core promoter
20
Sub-regiões em sequências de promotores eucarióticos cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaa tttt Core PromoterRegião transcrita Região não transcrita TSS
21
Experimentos
22
Base de teste e de treino dividida em 10 partes Varia-se a taxa entre elas 5 taxas diferentes 10-fold cross validation Comparações com outras abordagens para D. melanogaster 400 seq 200 promotores, 100 coding, 100 introns Comparações com outras abordagens para H. sapiens 400 seq 200 promotores, 100 coding, 100 introns
23
Avaliação de performance
25
Resultados
28
Trabalhos futuros Utilizar informações estruturais do DNA e predição completa do genoma
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.