A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Apresentações semelhantes


Apresentação em tema: "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."— Transcrição da apresentação:

1 Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

2 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes ab initio e baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização Genómica MJC2

3 Anotação de genomas Estrutural – Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões Funcional – Ligação das estruturas (sequências) a ontologias genéticas Genómica MJC3

4 Realidade atual Sequenciação Fácil e barata Montagem e anotação ainda não acompanharam: – As sequências tornaram-se menores; – Muitos dos genomas atualmente sequenciados são de espécies exóticas – Começa a haver muitos dados: Quantidade Qualidade (RNA-seq) Genómica MJC4

5 Da montagem à Anotação Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. – N50 – Tamanho das gaps no scafold – Número de gaps por scafold – Cobertura do genoma. Devem escolher-se high quality drafts ( 90% do genoma completo) – Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. – Cobertura de genes >> cobertura do genoma. Porquê? Genómica MJC5

6 Que N50? Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? – Assim em média metade dos genes estão contidos num único scafold Genómica MJC6 UTRs Splicing Alternativo

7 As informações anteriores permitem Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável. Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis. – Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. – Os dados podem ser usadas como modelos para a determinação de exões/intrões Genómica MJC7

8 Se A montagem estiver muito incompleta N50 for demasiado pequeno…. – A melhor aposta é fazer mais sequenciação Genómica MJC8

9 FASE DE COMPUTAÇÃO Genómica MJC9

10 Identificação de zonas repetitivas Baixa complexidade – Trinucleótidos Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. Consituem cerca de 47% do genoma humano Nem sempre estão completos e as extremidades não estão bem definidas. As repetições nem sempre são conservadas Genómica MJC10

11 Identificação de zonas repetitivas Começa por criar-se uma biblioteca de repetições para cada anotação: – Baseada em homologias – De novo (nestas ferramentas geralmente são incluidas outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? Genómica MJC11

12 ALINHAMENTO Genómica MJC12

13 Alinhamento das evidências já conhecidas ESTs RNA-seq Proteínas Do mesmo ou de organimos parecidos. O alinhamento é avaliado por % identidade ou % de semelhança. Depois faz-se o agrupamento: – Seleção dos alinhamentos repetidos – Identificação de alinhamentos muito expressos por exemplo (estes são suportados por várias ESTs) A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo. Genómica MJC

14 Previsão de genes ab initio Genómica MJC 14 Usam modelos matemáticos e não evidência extra. Podem ser uteis quando não há evidências experimetais sobre o genoma Mas são menos poderosos. : – Referem apenas as CDs e não UTRs ou sequências de splicing alternativo. – Precisam de dados específicos para o organismo como frequências dos codões, tamanho dos exões/intrões e % GC. – Precisam de ser treinados com dados o mais perto possível da espécie em análise. – Existem dados para os genomas clássicos mas faltam para espécies mais exóticas. – Aqui os dados do GEGMA podem ajudar. Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões.

15 PREVISÕES BASEADAS EM EVIDÊNCIA Genómica MJC15

16 Baseada noutro tipo de dados Usa EST e RNA-seq e até dados de proteómica. Cada vez mais as soluções usadas passam pelos dois tipos de aproximações Genómica MJC16

17 FASE DA ANOTAÇÃO Genómica MJC17

18 Anotação Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: – Fase da computação São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação Feita por pipelines Anotam o início e fim de cada gene, exões/intrões e UTRs Genómica MJC18

19 Fase da anotação Genómica MJC19 Previsão CDCs Anotação

20 Manual vs automática Era feito à mão Hoje é feito automáticamente dado o volume de dados existentes. Os anotadores automáticos: – Usam a informação fornecida para encontrar genes. – Alinham essas previsões para obter o melhor consenso. – Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) – Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos) Genómica MJC20

21 VISUALIZAÇÃO DA ANOTAÇÃO Genómica MJC21

22 Os resultados da anotação devem ter: Estrutura intrão/exão Codões de inicio e de termino UTRs Splicing alternativo Apresentar os alinhamentos que suportam as previsões Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: – Que os resultados sejam usados por outras ferramentas – Uso de vocabulários controlados em termos de ontologias – Permitem análises genómicas comparativas Genómica MJC22

23 Genetic Model Organism Database (GMOD) Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas Genómica MJC23

24 CONTROLO DE QUALIDADE Genómica MJC24

25 Identificação de anotações incorretas Essencial pois: – Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras Genómica MJC25

26 Como fazer o controlo de qualidade? Genómica MJC26 SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= Annotation Edit Distance AED= 1-AC

27 PUBLICAÇÃO DOS DADOS Genómica MJC27

28 Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase Genómica MJC28

29 Depois da publicação…. Deve ser feita periodicamente a atualização Genómica MJC29

30 CONCLUSÕES Genómica MJC30

31 Em suma Sequenciação mais barata Mais dados para tratar Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. O controlo de qualidade é tb um obstáculo Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente Genómica MJC31

32 Bibliografia Artigo: A beginners guide to eukariotic genome annotation. Na pasta do molar Genómica MJC32


Carregar ppt "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."

Apresentações semelhantes


Anúncios Google