A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

GenScan Katia Guimarães.

Apresentações semelhantes


Apresentação em tema: "GenScan Katia Guimarães."— Transcrição da apresentação:

1 GenScan Katia Guimarães

2 Topologia de um Gene

3 O que é GenScan? GenScan é um programa de computador capaz
de identificar de maneira estatística os genes de uma cadeia de DNA. Este programa foi construído em 1997, e é baseado num modelo probabilístico para a estrutura do gene descrito por Chris Burge e Samuel Karlin, do Dept. de Matemática da Universidade de Stanford.

4 Características do GenScan
 · Identificação da estrutura completa de intron/exon de um Gene numa cadeia de DNA.  · Capacidade de identificar múltiplos genes, genes parciais e genes completos.  ·  Capacidade de identificar um conjunto de Genes ocorrendo em ambas as fitas do DNA. ·  Capacidade de identificar tanto exons optimais quanto exons sub-optimais (em relação ao modelo)  · É mais adequado para DNA de organismos vertebrados (esta versão também funciona bem com DNA de Drosophila), milhos e Arabidopsis.) ·  Capacidade de associar probabilidades significativas as suas predições. · Não aborda corte alternativo (alternative splicing).  · Não modela genes nas duas fitas que se sobrepõem.

5 Regiões Características dos Genes
Próximo aos genes é possível notar a existência de regiões que obedecem a um certo padrão e que caracterizam a estrutura dos genes: - Onde começam - Onde terminam - Onde alternam intron/exon ou exon/intron etc. - Região poli-A, rica no nucleotídeo tipo A (Adenina), após o gene.

6 Diferentes regiões em um Gene
Região Promotora região que antecede o gene. Região de Corte 5’ Fronteira entre um exon (esquerda) e um intron (direita). Também chamada de região de corte doadora (donor splice site). Região de Corte 3’ Fronteira entre um intron (esquerda) e um exon (direita). Também chamada de região de corte aceitadora (acceptor splice site). Região PolyA Sucede o gene; rica no nucleotídeo do tipo A.

7 Diferentes Regiões em um Gene

8 O Modelo do GenScan O GENSCAN é baseado num modelo denominado
Generalized Hidden Markov Model (GHMM), que é definido por cinco parâmetros: ·  Um conjunto Q de estados. ·  Uma distribuição de probabilidade inicial para cada estado q ,qQ. ·  Probabilidade de transição de estados Ti,j para i,j  Q. ·  Distribuição de probabilidades fq de tamanho, onde q  Q. · Modelos Probabilísticos para a geração de símbolos Pq para q  Q.

9 Modelo HMM Linear

10 Exemplo de HMM

11 O Modelo do GenScan Um parse  de uma seqüência S de tamanho L é uma seqüência de estados (q1,q2,..., qt) cada um associado a um tamanho di, i  {1,2,...t} onde L = d1+d2+...+dt. Seja  um parse de um GHMM, com estados (q1,q2,..., qt), tamanhos (d1,d2,...,dt). E sejam (S1,S2,...,St) seqüências de símbolos gerados em cada estado correspondente com o tamanho S = S1S2S3...St. A probabilidade de que o parse  gere a seqüência S é dada por:  P(,S) = q1 fq1(d1) P q1(S1|d1) × Tq1,q2 q2 fq2(d2) P q2(S2|d2) × ... × Tq(t-1),qt qt fqt(dt) P qt(St|dt)

12 Achando o melhor parse de uma seqüência
Dada uma seqüência S de comprimento L, se quisermos saber qual probabilidade de que um determinado parse  dentre todos os possíveis parses L de comprimento L tenha gerado aquela seqüência temos (utilizando a regra de Bayes): P(|S) = P(,S) / (P(1,S) + P(2,S) … P(n,S)), L={1}  {2} ...  {2}. Dados um GHMM e uma seqüência S, podemos saber qual o melhor parse opt do GHMM que gera aquela seqüência S, utilizando um algoritmo de programação dinâmica chamado algoritmo de Viterbi.

13 HMM Gene Model

14 Como Utilizar GenScan

15 Resultado do GeneScan GENSCAN 1.0 Date run: 15-Jun-101 Time: 07:51:52Sequence X66401 : bp : 43.63% C+G : Isochore 2 ( C+G%)Parameter matrix: HumanIso.smat  Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..   1.07 PlyA 1.06 Term 1.05 Intr 1.04 Intr 1.03 Intr 1.02 Intr 1.01 Init 1.00 Prom 2.00 Prom 2.01 Init 2.02 Intr 2.03 Intr 2.04 Intr

16 Saída do GenScan Gn.Ex : número do gene, número do exon (para referencia) Type : Init = Exon Inicial(ATG até 5' splice site) Intr = Exon Interno (3' splice site até 5' splice site) Term = Exon Terminal (3' splice site até codon de parada) Sngl = Gene com um único exon (ATG até códon de parada) Prom = Região de Promoção (TATA box / initation site) PlyA = Região poly-A (consenso: AATAAA) S : Fita de DNA (+ = fita entrada; - = fita complementar) Begin : posição inicial do exon ou do signal (referente a fita entrada) End : posição final do exon ou do signal (referente a fita entrada) Len : tamanho do exon ou do sinal(bp)

17 Saída do GenScan (continuação)
Fr : reading frame do exon Ph : net phase do exon (tamanho do exon módulo 3) I/Ac : score do sinal inicial ou do 3' splice site Do/T : score do sinal terminal ou do 5' splice site CodRg : score da região codificante P : probabilidade do exon (soma sobre todos os parses contendo exon) Tscr : score do exon (depende do tamanho, I/Ac, Do/T e CodRg)  

18 Exemplo 1: J05451 A referência J05451 é de um trecho do DNA com pb. em que está contido o gene gástrico (H+ +K+)-ATPase, que já foi estudado e identificado. Este gene é formado por 22 exons. Utilizando o GENSCAN, foi possível recuperar exatamente a estrutura deste GENE como vemos na figura abaixo: Em vermelho está o gene real Em azul está o gene previsto pelo GENSCAN.

19 Exemplo 1: J05451 GENSCAN 1.0 Date run: 22-Jun-101 Time: 14:39:18Sequence 14:39:04 : bp : 57.68% C+G : Isochore 4 ( C+G%)Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..   1.01 Init 1.02 Intr 1.03 Intr 1.04 Intr 1.05 Intr 1.06 Intr 1.07 Intr 1.08 Intr 1.21 Intr 1.22 Term 1.23 PlyA

20 Exemplo 2: X66401 A referência X66401 é de um trecho com pares de base do DNA do sexto cromossomo humano. Nele já se sabe que existem cinco genes (em ordem): LMP2, TAP1, LMP7, TAP2, DOB. O GENSCAN, neste caso, não foi capaz de prever corretamente todos os genes.

21 Exemplo 2: X66401 Em vermelho = genes reais; em azul = genes previstos. No. genes previstos = quatro; no. genes reais é cinco. O primeiro gene previsto, que se encontra na fita de DNA complementar (note a orientação da seta), casou exatamente com o gene LMP2 documentado.

22 Dados da Tabela GENSCAN 1.0 Date run: 15-Jun-101 Time: 07:51:52Sequence X66401 : bp : 43.63% C+G : Isochore 2 ( C+G%)Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..   1.07 PlyA 1.06 Term 1.05 Intr 1.04 Intr 1.03 Intr 1.02 Intr 1.01 Init 1.00 Prom  

23 Exemplo 2: X66401 O segundo gene previsto que está na fita de DNA entrada está englobando os genes reais TAP1 e LMP7. Apesar de ter errado o GENSCAN dá uma indicação de que o décimo primeiro exon previsto no segundo gene não é um exon interno muito provável pois tem probabilidade 0.043 (ver tabela - coluna P).

24 Dados da Tabela ……. 2.00 Prom + 24834 24873 40 -14.22
2.01 Init 2.02 Intr 2.03 Intr 2.04 Intr 2.05 Intr 2.06 Intr 2.07 Intr 2.08 Intr 2.09 Intr 2.10 Intr 2.11 Intr 2.12 Intr 2.13 Intr

25 Exemplo 2: X66401 O quarto gene TAP2 foi identificado corretamente a menos do sétimo exon que não existe no gene real (Na tabela, o gene de mais baixa probabilidade 0.622).

26 Dados da Tabela – Gene 3 3.00 Prom + 38257 38296 40 -7.86
3.01 Init 3.02 Intr 3.03 Intr 3.04 Intr 3.05 Intr 3.06 Intr 3.07 Intr 3.08 Intr 3.09 Intr 3.10 Intr 3.11 Intr 3.12 Term 3.13 PlyA

27 Exemplo 2: X66401 O quinto gene, DOB, apesar de estar correto no início, não termina corretamente e novamente a coluna P dá uma certa indicação do erro cometido pelo GENSCAN.

28 Dados da Tabela – Gene 4 4.00 Prom + 60709 60748 40 -5.76
4.01 Init 4.02 Intr 4.03 Term 4.04 PlyA  

29 GeneScan vs. Outros preditores
Medidas de Desempenho por Nucleotídeo Cada nucleotídeo predito pode ser classificado como: - PP (Predicted Positive) ( pela perdição faz parte de um gene) - PN (Predicted Negative) ( pela predição não faz parte de um gene. Cada nucleotídeo é, de acordo com os genes reais: - AP (Actual Positive) (pertence a um gene real) - AN (Actual Negative) (não pertence a um gene real) Cada nucleotídeo é, de acordo com genes reais + a predição:  TP, True Positives = nucleotídeos PP e AP. FP, False Positives = nucleotídeos PP e AN. TP, True Negatives = nucleotídeos PN e AN. FN, False Negatives = nucleotídeos PN e AP.

30 Medidas de Desempenho por Nucleotídeo
• Sensibilidade (capacidade de capturar os verdadeiros +) SN = #TP / #AP • Especificidade (fração dos preditos + que são de fato +) SP = #TP / #PP • Correlação Aproximada: ( positivos certos sem chute e negativos certos e sem chutes)  AC = (( (#TP / (#TP+#FN)) + (#TP / (#TP+#FP)) + (#TN / (#TN+#FP)) + (#TN / (#TN+#FN)) ) / 2) -1

31 Medidas de Desempenho por Exon
 AE(annotated exon) é um exon anotado ou real. PE(predicted exon) é um exon resultante de uma predição. TE é o AE igual a um PE, ou seja, TRUE POSITIVE. Sensibilidade: No. de identificados c/ relação aos anotados SN = #TE / #AE Especificidade: SP = #TE / #PE    ME (missed exons): No. de AE não sobreposto por nenhum PE. WE (wrong exons):No.de PE não sobreposto por nenhum AE.

32 Resultados AE(annotated exon) é um exon anotado ou real.
PE(predicted exon) é um exon resultante de uma predição. TE é o AE igual a um PE, ou seja, TRUE POSITIVE. Sensibilidade: No. de identificados c/ relação aos anotados SN = #TE / #AE Especificidade: SP = #TE / #PE    ME (missed exons): No. de AE não sobreposto por nenhum PE. WE (wrong exons):No.de PE não sobreposto por nenhum AE.

33 Resultados de Precisão (Burset & Guigó ´96)
Nucleotídeo Exon Method SN SP AC (SN+SP) /2 ME WE GENSCAN 0.93 0.91 0.78 0.81 0.80 0.09 0.05 FGENEH 0.77 0.85 0.61 0.15 0.11 GeneID 0.63 0.67 0.44 0.45 0.28 0.24 GeneParser2 0.66 0.79 0.35 0.39 0.37 0.29 0.17 GenLang 0.72 0.75 0.69 0.50 0.49 0.21 GRAILII 0.84 0.36 0.41 0.38 0.25 0.10 SORFIND 0.71 0.73 0.42 0.47 0.14 GeneID+ 0.88 0.70 0.07 0.13 GeneParser3 0.86 0.56 0.58 0.57

34 Resultados de Precisão
Nucleotídeo Exon Method Sn Sp AC Sn Sp (Sn+Sp)/2 ME WE GENSCAN 0.93 0.93 0.91 0.78 0.81 0.80 0.09 0.05 FGENEH 0.77 0.85 0.78 0.61 0.61 0.61 0.15 0.11 GeneID 0.63 0.81 0.67 0.44 0.45 0.45 0.28 0.24 GeneParser2 0.66 0.79 0.66 0.35 0.39 0.37 0.29 0.17


Carregar ppt "GenScan Katia Guimarães."

Apresentações semelhantes


Anúncios Google