A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Predição computacional de genes

Apresentações semelhantes


Apresentação em tema: "Predição computacional de genes"— Transcrição da apresentação:

1 Predição computacional de genes
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

2 Resumo Estrutura de genes Procariotos Eucariotos
- Motivação Estrutura de genes Procariotos Eucariotos Predição de genes em procariotos Predição de genes em eucariotos

3 Motivação - Encontrar genes novos ?

4 ~ 4.000 novas famílias de proteínas
Genoma de fungo possuem 30% - 40% dos genes sem nenhuma função conhecida Expedição de Craig Venter coletou micro organismos ao redor do mundo e sequenciou : 6.12 milhões de proteínas (~2x o número de proteínas depositadas no NCBI) ~ novas famílias de proteínas ~ proteínas que estavam depositadas nos bancos públicos e estavam sem similaridade passaram a ter similaridade Foram coletados 41 amostras nos mares do mundo (~ 8000 km) PLOS Biology 5 (2007), 0432

5 Informações biológicas usadas pelos programas
Sinais na sequência : Códons de start e stop (3 nt) Intron splice sites (2 nt em cada ponta) Promotor : elementos Cis (~10 nt com degenerescência), TATA box (5 nt) Sítio de poliadenização (~10 nt) Códon usage Conteúdo GC Similaridade com outras proteínas Alinhamento ESTs - DNA

6 Estrutura dos genes - Procariotos
Alta densidade gênica (~ 85 % de regiões codantes em E.coli) Genes sem íntrons

7 Promoter Cistron1 Cistron2 CistronN Terminator
Transcription RNA Polymerase mRNA 5’ 3’ 1 2 N Translation Ribosome, tRNAs, Protein Factors N N N C C C 1 2 3

8 - Eucariotos

9

10

11 Predição de genes em procariotos
Sinais na sequência de DNA de um procarioto que podem ser utilizados na predição de genes Regiões da sequência de DNA de um procarioto que apresentam diferenças nas análises de conteúdo GC e codon usage

12 Conteúdo GC - Regiões condantes (que codificam um gene) tem alto conteúdo GC (rica em nucleotídeos G e C) Região do DNA que contêm um gene Conteúdo GC elevado nessa região - Regiões rica em GC são mais difíceis de sofrerem mutações (ligação química forte)

13 ORF – open read frame CGT AAC TGA CTA GGT GAA
A C G T A A C T G A C T A G G T G A A T GTA ACT GAC TAG GTG AAT TAA CTG ACT AGG TGA Cada grupo de nucleotídeos em trincas consecutivas constituem um read frame Existem 3 diferentes read frames na direção 5’ -> 3’ e mais 3 na direção contrária (outra fita) Uma sequência de trincas que não contêm um stop dentro é chamanda de open read frame (ORF)

14 A probabilidade de uma sequência aleatória de “n” nucleotídeos não conter um códon de stop é (61/64)n Quando n=50 a probabilidade de ter um códon de stop no meio da sequência é de 92% Normalmente usa-se, para procariotos, ORFs de tamanho n>=60 para definir possíveis candidatos a genes

15 Códon usage Baseado no fato que o uso do códon é diferente para cada organismo Regiões codantes seguem o codon usage do organismo diferentemente das regiões intergênicas L, S, R => 6 combinações V, P, A, G => 4 combinações I,* => 3 combinações F, Y, H, Q, N, K, D, E, C => 2 combinações M, W => 1 combinações

16 All organisms have a preferred set of codons.
Malaria Trypanosoma GTT GTT 0.28 GTC GTC 0.19 GTA GTA 0.14 GTG GTG 0.39

17 Códon usage homo sapiens

18 Frame +1 +2 +3 Gene1 Gene2

19 Cálculo do códon usage

20 A tabela de uso do códon do organismo é facilmente obtida usando programas como codonw ou cusp e usando como entrada sequências em nucleotídeo que codificam proteínas e no frame correto (tipicamente obtidas via similaridade entre a sequência e a proteína)

21 Sinais no promotor One type of RNA polymerase.
- Com o alinhamento de sequências de promotores ortólogos é possível reconhecer regiões que se mantêm conversadas durante a evolução, observem que as distâncias também são conservadas

22 Positional Weight Matrix
For TATA box:

23 Juntando tudo Promotor e início de transcrição são sinais obtidos através de alinhamentos entre promotores ortólogos (treinamento feito usando sequências de organismos próximos) Regiões codantes (exons) são obtidos por codon usage (treinamento feito usando regiões do DNA que possuam com similaridade forte com proteínas conhecidas) e conteúdo GC Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal de início de transcrição no meio do exon

24 Predição de genes em eucariotos
Gene length: 30kb, coding region: 1-2kb Binding site: ~6bp; ~30bp upstream of TSS Long Introns Average of 6 exons, 150bp long

25 Identificando splice sites (junção íntron-exon)
- Com o alinhamento entre sequências de cDNA e DNA é possível identificar as regiões dos íntrons

26 - Com o alinhamento global entre os íntrons constroem-se a matriz de posição com os padrões de splice sites, branch site e tamanho médio dos íntrons

27

28 Juntando tudo Promotor e início de transcrição são sinais obtidos através de alinhamentos entre promotores ortólogos (treinamento feito usando sequências de organismos próximos) Regiões codantes (exons) são obtidos por codon usage (treinamento feito usando regiões do DNA que possuam com similaridade forte com proteínas conhecidas) e conteúdo GC Informações sobre os íntrons são obtidas através de alinhamento do DNA com ESTs Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal de início de transcrição no meio do exon

29 Sp=TP/(TP+FP) - Usando genes conhecidos e de preferência não usados no conjunto de treinamento podem ser usados para medir a performance do preditor

30 - Usando genes conhecidos e de preferência não usados no conjunto de treinamento podem ser usados para medir a performance do preditor

31 Sn=TP/(TP+FN) Sp=TP/(TP+FP) Performance
KORF, I. Gene finding in novel genomes. BMC Bioinformatics 5:

32 END

33 CodonPreference: 3rd position GC bias


Carregar ppt "Predição computacional de genes"

Apresentações semelhantes


Anúncios Google