A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Genómica Licenciatura em Ciências Biomédicas

Apresentações semelhantes


Apresentação em tema: "Genómica Licenciatura em Ciências Biomédicas"— Transcrição da apresentação:

1 Genómica Licenciatura em Ciências Biomédicas
Departamento de Ciências da Saúde, UCP Fevereiro 2013

2 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas bacterianos Genómica MJC

3 Genomas Bacterianos Bastante mais abundantes que os eucariotas:
Preço Tamanho Desconhecimento Num único dia podem ser sequenciados vários genomas microbianos. MAS….. A anotação demora bastante mais. Genómica MJC

4 Anotação de genomas Microbianos
Sequenciação NGS Produz os contigs e scaffolds Pipeline automática Anota os genes possíveis Revisão manual dos resultados Verifica a anotação automática adicionando mais informação geralmente com base em genomas conhecidos Genómica MJC

5 Informação adicional Ribosomal binding sites (RBSs) Zonas de término
Motivos e Domínios conservados São informações que refinam e retificam a anotação automática de previsão de genes. Assim a informação dos organismos próximos é muito enriquecida. Genómica MJC

6 Mais concretamente… Declive?
Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? Assim em média metade dos genes estão contidos num único scafold. UTRs Splicing Alternativo Declive? Genómica MJC

7 Processo genético de anotação de genomas bacterianos
A generic process for bacterial genome annotation. Que outras características? Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press.

8 Que outras características?
RBSs? Sequência Shine-Dalgarno Zonas de termino independentes de Rho. Domínios conservados de proteínas. HGT (assimetrias em composição dos codões e no conteúdo GC); transposases, integrases e elementos IS (elementos de insersão). Repetições Clustered Regularly Inter-spaced Short Palindromic Repeats e outras repetições sequenciais. Há software e bases de dados específicas para todas estas informações adicionais. Genómica MJC

9 Num mundo perfeito…. A anotação estaria completa e correta. MAS….
Muita da anotação é baseada em homologia de sequências: Muitas das anotações existentes estão erradas e esses erros são perpetuados. Inconsistências Erros “ortográficos” O mesmo nome do gene mas produtos genéticos diferentes Proteínas hipotéticas Distinção entre ortólogos e parólogos Genómica MJC

10 Anotações inconsistentes
Genómica MJC

11 Espécies e estirpes anotadas por grupos diferentes
Principalmente a nível de genes fusionados/separados Identificação de genes funcionais ou pseudogenes. Nomenclatura dos genes muitas vezes é diferente entre grupos. Genómica MJC

12 Genes ou pseudogenes? 1 ou 2? Dados de expressão
Seis anotações diferentes do locus eutM/eutN de Salmonella. Genes ou pseudogenes? 1 ou 2? Evolutivamente os genes foram fundidos ou separados? The six different models present across 17 RefSeq entries for Salmonella species for the eutM/eutN locus. Green indicates normal gene/CDS features, gray indicates gene features annotated as pseudogenes. (A) A single intact gene of 690 bp; (B) a single pseudogene of 690 bp; (C) two short intact genes ∼300 bp in length; (D) one pseudogene and one intact gene, each ∼300 bp in length; (E) two pseudogenes, each 300 bp in length; and (F) two intact genes with the order reversed. Que informação usar na anotação de um 7º? Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 Dados de expressão © The Author(s) Published by Oxford University Press.

13 97% homologia de sequência
Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli 0157:H7 Sakai. 97% homologia de sequência A syntenic block of genes showing inconsistent gene name annotations in E.coli K12 MG1655 and E. coli 0157:H7 Sakai. Soluções? Escolher os genomas de referência. Usar “média” quando possível e apropriado. Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press.

14 Erros ortográficos? 128 proteínas syntase em vez de synthase.
Trivial? Não, se a procura for com o termo correto há 128 que não aprecem nos resultados. Software que use a estratégia “did you mean..” Genómica MJC

15 Mesmo nome (abreviatura) do gene e diferente proteína
Gene name Product name Accession int bacteriophage integrase NC_003198, NC_004631, NC_015761 Gifsy-1 prophage Int NC_006905 hypothetical protein Integrase NC_003198, NC_004631, NC_006511, NC_012125 integrase (fragment) NC_003198 phage integrase family site specific recombinase putative cytoplasmic protein Int Putative integrase NC_003384 putative integrase protein putative P4-type integrase putative phage integrase protein site-specific recombinase, phage integrase family NC_012125 2696 genomas de microrganismos e plasmídeos têm 23843 genes com pelo menos 2 produtos diferentes: O gene tnp tem 151 produtos e o tnpA +97. Em salmonella o gene int tem 12 produtos diferentes, alguns “não produtos”. Genómica MJC

16 Proteínas hipotéticas ou previstas
“hypothetical protein” = gene previsto pelo software mas para o qual não há homólogos e não tem domínios funcionais “uncharacterized protein” = Erros de anotação ou proteínas cuja função se desconhece? Ygenes genes cujo nome provem hipoteticamente da distancia a que está dos genes conhecidos na vizinhança. Nível de conhecimento que permite a anotação de hipotética deveria ter um peso estatístico. Genómica MJC

17 Proteínas e domínios desconhecidos
Devem ser eliminados da anotação? O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? Genómica MJC

18 Distinção entre ortólogos e parólogos
Ortólogos=função Parólogos≠função A diagram displaying the processes that can lead to, and define, orthologs and paralogs. Gene duplication and speciation events create complex evolutionary relationships between genes. Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press.

19 Distinção entre ortólogos e parólogos
Devem ser eliminados da anotação? O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? Genómica MJC

20 Regras das bases de dados de sequências
Genómica MJC

21 Nomenclatura dos CDs Termos proibidos na nomenclatura das sequências:
Binding, like, domain, motif, gene, homolog As bases a que se submete a anotação muitas vezes têm programas de validação que detetam estes erros e fazem sugestões de correção. Outras situações que são previstas como erros são: CDSs com o nome idêntico a um gene imediatamente ao lado. Nomes de genes que aparecem mais que uma vez com produtos genéticos diferentes. Zonas codificantes dentro de outras. Genómica MJC

22 Futuro da Anotação de Genomas bacterianos
Genómica MJC

23 Melhorias para o futuro
Genomas Gold standard Melhoramento das regras de submissão para evitar alguns erros e sua propagação: Qualidade da evidência de previsão Previsão automática ou manual Tipo de dados de origem Versão da anotação Ha genomas com mais dados e portanto podem ser usados com mais confiança: E.coli, Pseudomonas aeruginosa e Bacillus subtilis Proteínas multifuncionais são um problema pois a função muitas vezes não pode ser traduzida num nome. GO são uma boa opção a juntar à anotação. Genómica MJC

24 Melhorias para o futuro
Melhorias na anotação automática Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática: Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO Novos tipos de dados Dados de expressão de micro-arrays e RNA-Seq. Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais. Genómica MJC

25 Conclusões Genómica MJC

26 Avanços em técnicas de sequenciação mas não de anotação
Anotação automática é essencial mas ainda está muito aquém da manual e há muita propagação de erros. Uso da informação adicional tb não é pacífica: o que deve estar anotado e o que deve permanecer em bases separadas? O uso de anotações GO melhora a descrição das proteínas e reduz erros de sintaxe. Genómica MJC

27 Referências “The automatic annotation of bacterial genomes” artigo na pasta do molar. Genómica MJC


Carregar ppt "Genómica Licenciatura em Ciências Biomédicas"

Apresentações semelhantes


Anúncios Google