A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Apresentações semelhantes


Apresentação em tema: "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."— Transcrição da apresentação:

1 Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

2 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas bacterianos 8-04-2013Genómica 12-13 MJC2

3 Genomas Bacterianos Bastante mais abundantes que os eucariotas: – Preço – Tamanho – Desconhecimento Num único dia podem ser sequenciados vários genomas microbianos. MAS….. A anotação demora bastante mais. 8-04-2013Genómica 12-13 MJC3

4 Anotação de genomas Microbianos Sequenciação NGS Produz os contigs e scaffolds Pipeline automática Anota os genes possíveis Revisão manual dos resultados Verifica a anotação automática adicionando mais informação geralmente com base em genomas conhecidos 8-04-2013Genómica 12-13 MJC4

5 Informação adicional Ribosomal binding sites (RBSs) Zonas de término Motivos e Domínios conservados São informações que refinam e retificam a anotação automática de previsão de genes. Assim a informação dos organismos próximos é muito enriquecida. 8-04-2013Genómica 12-13 MJC5

6 Mais concretamente… Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? – Assim em média metade dos genes estão contidos num único scafold. 8-04-2013Genómica 12-13 MJC6 UTRs Splicing Alternativo

7 Processo genético de anotação de genomas bacterianos Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press. Que outras características?

8 RBSs? Sequência Shine-Dalgarno Zonas de termino independentes de Rho. Domínios conservados de proteínas. HGT (assimetrias em composição dos codões e no conteúdo GC); transposases, integrases e elementos IS (elementos de insersão). Repetições Clustered Regularly Inter-spaced Short Palindromic Repeats e outras repetições sequenciais. 8-04-2013Genómica 12-13 MJC8

9 Num mundo perfeito…. A anotação estaria completa e correta. MAS…. – Muita da anotação é baseada em homologia de sequências: Muitas das anotações existentes estão erradas e esses erros são perpetuados. – Inconsistências – Erros ortográficos – O mesmo nome do gene mas produtos genéticos diferentes – Proteínas hipotéticas – Distinção entre ortólogos e parólogos 8-04-2013Genómica 12-13 MJC9

10 ANOTAÇÕES INCONSISTENTES 8-04-2013Genómica 12-13 MJC10

11 Espécies e estirpes anotadas por grupos diferentes Principalmente a nível de genes fusionados/separados Identificação de genes funcionais ou pseudogenes. Nomenclatura dos genes muitas vezes é diferente entre grupos. 8-04-2013Genómica 12-13 MJC11

12 Seis anotações diferentes do locus eutM/eutN de Salmonella. Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press.

13 Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli 0157:H7 Sakai. Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press. Escolher os genomas de referência. Usar média quando possível e apropriado.

14 Erros ortográficos? 128 proteínas syntase em vez de synthase. – Trivial? Não, se a procura for com o termo correto há 128 que não aprecem nos resultados. – Software que use a estratégia did you mean.. 8-04-2013Genómica 12-13 MJC14

15 Mesmo nome (abreviatura) do gene e diferente proteína 2696 genomas de microrganismos e plasmídeos têm – 23843 genes com pelo menos 2 produtos diferentes: O gene tnp tem 151 produtos e o tnpA +97. Em salmonella o gene int tem 12 produtos diferentes, alguns não produtos. 8-04-2013Genómica 12-13 MJC15 Gene nameProduct nameAccession int bacteriophage integrase NC_003198, NC_004631, NC_015761 int Gifsy-1 prophage IntNC_006905 int hypothetical proteinNC_006905 int Integrase NC_003198, NC_004631, NC_006511, NC_012125 int integrase (fragment)NC_003198 int phage integrase family site specific recombinase NC_006905 int putative cytoplasmic protein NC_006905 Int Putative integraseNC_003384 int putative integrase protein NC_006905 int putative P4-type integrase NC_006905 int putative phage integrase protein NC_006905 int site-specific recombinase, phage integrase family NC_012125

16 Proteínas hipotéticas ou previstas hypothetical protein = gene previsto pelo software mas para o qual não há homólogos e não tem domínios funcionais. 53035 uncharacterized protein = 5178212 Erros de anotação ou proteínas cuja função se desconhece? Ygenes genes cujo nome provem hipoteticamente da distancia a que está dos genes conhecidos na vizinhança. Nível de conhecimento que permite a anotação de hipotética deveria ter um peso estatístico. 8-04-2013Genómica 12-13 MJC16

17 Proteínas e domínios desconhecidos Devem ser eliminados da anotação? O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? 8-04-2013Genómica 12-13 MJC17

18 Distinção entre ortólogos e parólogos Richardson E J, and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press.

19 Distinção entre ortólogos e parólogos Devem ser eliminados da anotação? O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não? 8-04-2013Genómica 12-13 MJC19

20 REGRAS DAS BASES DE DADOS DE SEQUÊNCIAS 8-04-2013Genómica 12-13 MJC20

21 Nomenclatura dos CDs Termos proibidos na nomenclatura das sequências: – Binding, like, domain, motif, gene, homolog As bases a que se submete a anotação muitas vezes têm programas de validação que detetam estes erros e fazem sugestões de correção. Outras situações que são previstas como erros são: – CDSs com o nome idêntico a um gene imediatamente ao lado. – Nomes de genes que aparecem mais que uma vez com produtos genéticos diferentes. – Zonas codificantes dentro de outras. 8-04-2013Genómica 12-13 MJC21

22 FUTURO DA ANOTAÇÃO DE GENOMAS BACTERIANOS 8-04-2013Genómica 12-13 MJC22

23 Melhorias para o futuro Genomas Gold standard – Melhoramento das regras de submissão para evitar alguns erros e sua propagação: Qualidade da evidência de previsão Previsão automática ou manual Tipo de dados de origem Versão da anotação – Ha genomas com mais dados e portanto podem ser usados com mais confiança: E.coli, Pseudomonas aeruginosa e Bacillus subtilis – Proteínas multifuncionais são um problema pois a função muitas vezes não pode ser traduzida num nome. GO são uma boa opção a juntar à anotação. Genómica 12-13 MJC 8-04-201323

24 Melhorias para o futuro Melhorias na anotação automática – Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática: Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO Novos tipos de dados – Dados de expressão de micro-arrays e RNA-Seq. – Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais. Genómica 12-13 MJC 8-04-201324

25 CONCLUSÕES 8-04-2013Genómica 12-13 MJC25

26 Avanços em técnicas de sequenciação mas não de anotação Anotação automática é essencial mas ainda está muito aquém da manual e há muita propagação de erros. Uso da informação adicional tb não é pacífica: o que deve estar anotado e o que deve permanecer em bases separadas? O uso de anotações GO melhora a descrição das proteínas e reduz erros de sintaxe. 8-04-2013Genómica 12-13 MJC26

27 Referências The automatic annotation of bacterial genomes artigo na pasta do molar. 8-04-2013Genómica 12-13 MJC27


Carregar ppt "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."

Apresentações semelhantes


Anúncios Google