A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Apresentações semelhantes


Apresentação em tema: "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."— Transcrição da apresentação:

1 Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

2 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas bacterianos Genómica MJC2

3 Genomas Bacterianos Bastante mais abundantes que os eucariotas: – Preço – Tamanho – Desconhecimento Num único dia podem ser sequenciados vários genomas microbianos. MAS….. A anotação demora bastante mais Genómica MJC3

4 Anotação de genomas Microbianos Sequenciação NGS Produz os contigs e scaffolds Pipeline automática Anota os genes possíveis Revisão manual dos resultados Verifica a anotação automática adicionando mais informação geralmente com base em genomas conhecidos Genómica MJC4

5 Informação adicional Ribosomal binding sites (RBSs) Zonas de término Motivos e Domínios conservados São informações que refinam e retificam a anotação automática de previsão de genes. Assim a informação dos organismos próximos é muito enriquecida Genómica MJC5

6 Mais concretamente… Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? – Assim em média metade dos genes estão contidos num único scafold Genómica MJC6 UTRs Splicing Alternativo

7 Processo genético de anotação de genomas bacterianos Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press. Que outras características?

8 RBSs? Sequência Shine-Dalgarno Zonas de termino independentes de Rho. Domínios conservados de proteínas. HGT (assimetrias em composição dos codões e no conteúdo GC); transposases, integrases e elementos IS (elementos de insersão). Repetições Clustered Regularly Inter-spaced Short Palindromic Repeats e outras repetições sequenciais Genómica MJC8

9 Num mundo perfeito…. A anotação estaria completa e correta. MAS…. – Muita da anotação é baseada em homologia de sequências: Muitas das anotações existentes estão erradas e esses erros são perpetuados. – Inconsistências – Erros ortográficos – O mesmo nome do gene mas produtos genéticos diferentes – Proteínas hipotéticas – Distinção entre ortólogos e parólogos Genómica MJC9

10 ANOTAÇÕES INCONSISTENTES Genómica MJC10

11 Espécies e estirpes anotadas por grupos diferentes Principalmente a nível de genes fusionados/separados Identificação de genes funcionais ou pseudogenes. Nomenclatura dos genes muitas vezes é diferente entre grupos Genómica MJC11

12 Seis anotações diferentes do locus eutM/eutN de Salmonella. Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press.

13 Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli 0157:H7 Sakai. Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press. Escolher os genomas de referência. Usar média quando possível e apropriado.

14 Erros ortográficos? 128 proteínas syntase em vez de synthase. – Trivial? Não, se a procura for com o termo correto há 128 que não aprecem nos resultados. – Software que use a estratégia did you mean Genómica MJC14

15 Mesmo nome (abreviatura) do gene e diferente proteína 2696 genomas de microrganismos e plasmídeos têm – genes com pelo menos 2 produtos diferentes: O gene tnp tem 151 produtos e o tnpA +97. Em salmonella o gene int tem 12 produtos diferentes, alguns não produtos Genómica MJC15 Gene nameProduct nameAccession int bacteriophage integrase NC_003198, NC_004631, NC_ int Gifsy-1 prophage IntNC_ int hypothetical proteinNC_ int Integrase NC_003198, NC_004631, NC_006511, NC_ int integrase (fragment)NC_ int phage integrase family site specific recombinase NC_ int putative cytoplasmic protein NC_ Int Putative integraseNC_ int putative integrase protein NC_ int putative P4-type integrase NC_ int putative phage integrase protein NC_ int site-specific recombinase, phage integrase family NC_012125

16 Proteínas hipotéticas ou previstas hypothetical protein = gene previsto pelo software mas para o qual não há homólogos e não tem domínios funcionais uncharacterized protein = Erros de anotação ou proteínas cuja função se desconhece? Ygenes genes cujo nome provem hipoteticamente da distancia a que está dos genes conhecidos na vizinhança. Nível de conhecimento que permite a anotação de hipotética deveria ter um peso estatístico Genómica MJC16

17 Proteínas e domínios desconhecidos Devem ser eliminados da anotação? O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? Genómica MJC17

18 Distinção entre ortólogos e parólogos Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) Published by Oxford University Press.

19 Distinção entre ortólogos e parólogos Devem ser eliminados da anotação? O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? Genómica MJC19

20 REGRAS DAS BASES DE DADOS DE SEQUÊNCIAS Genómica MJC20

21 Nomenclatura dos CDs Termos proibidos na nomenclatura das sequências: – Binding, like, domain, motif, gene, homolog As bases a que se submete a anotação muitas vezes têm programas de validação que detetam estes erros e fazem sugestões de correção. Outras situações que são previstas como erros são: – CDSs com o nome idêntico a um gene imediatamente ao lado. – Nomes de genes que aparecem mais que uma vez com produtos genéticos diferentes. – Zonas codificantes dentro de outras Genómica MJC21

22 FUTURO DA ANOTAÇÃO DE GENOMAS BACTERIANOS Genómica MJC22

23 Melhorias para o futuro Genomas Gold standard – Melhoramento das regras de submissão para evitar alguns erros e sua propagação: Qualidade da evidência de previsão Previsão automática ou manual Tipo de dados de origem Versão da anotação – Ha genomas com mais dados e portanto podem ser usados com mais confiança: E.coli, Pseudomonas aeruginosa e Bacillus subtilis – Proteínas multifuncionais são um problema pois a função muitas vezes não pode ser traduzida num nome. GO são uma boa opção a juntar à anotação. Genómica MJC

24 Melhorias para o futuro Melhorias na anotação automática – Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática: Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO Novos tipos de dados – Dados de expressão de micro-arrays e RNA-Seq. – Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais. Genómica MJC

25 CONCLUSÕES Genómica MJC25

26 Avanços em técnicas de sequenciação mas não de anotação Anotação automática é essencial mas ainda está muito aquém da manual e há muita propagação de erros. Uso da informação adicional tb não é pacífica: o que deve estar anotado e o que deve permanecer em bases separadas? O uso de anotações GO melhora a descrição das proteínas e reduz erros de sintaxe Genómica MJC26

27 Referências The automatic annotation of bacterial genomes artigo na pasta do molar Genómica MJC27


Carregar ppt "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."

Apresentações semelhantes


Anúncios Google