A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Apresentações semelhantes


Apresentação em tema: "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."— Transcrição da apresentação:

1 Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

2 Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes ab initio e baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização 8-04-2013Genómica 12-13 MJC2

3 Anotação de genomas Estrutural – Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões Funcional – Ligação das estruturas (sequências) a ontologias genéticas 8-04-2013Genómica 12-13 MJC3

4 Realidade atual Sequenciação Fácil e barata Montagem e anotação ainda não acompanharam: – As sequências tornaram-se menores; – Muitos dos genomas atualmente sequenciados são de espécies exóticas – Começa a haver muitos dados: Quantidade Qualidade (RNA-seq) 8-04-2013Genómica 12-13 MJC4

5 Da montagem à Anotação Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. – N50 – Tamanho das gaps no scafold – Número de gaps por scafold – Cobertura do genoma. Devem escolher-se high quality drafts ( 90% do genoma completo) – Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. – Cobertura de genes >> cobertura do genoma. Porquê? 8-04-2013Genómica 12-13 MJC5

6 Que N50? Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? – Assim em média metade dos genes estão contidos num único scafold. 8-04-2013Genómica 12-13 MJC6 UTRs Splicing Alternativo

7 As informações anteriores permitem Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável. Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis. – Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. – Os dados podem ser usadas como modelos para a determinação de exões/intrões. 8-04-2013Genómica 12-13 MJC7

8 Se A montagem estiver muito incompleta N50 for demasiado pequeno…. – A melhor aposta é fazer mais sequenciação. 8-04-2013Genómica 12-13 MJC8

9 FASE DE COMPUTAÇÃO 8-04-2013Genómica 12-13 MJC9

10 Identificação de zonas repetitivas Baixa complexidade – Trinucleótidos Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. Consituem cerca de 47% do genoma humano Nem sempre estão completos e as extremidades não estão bem definidas. As repetições nem sempre são conservadas. 8-04-2013Genómica 12-13 MJC10

11 Identificação de zonas repetitivas Começa por criar-se uma biblioteca de repetições para cada anotação: – Baseada em homologias – De novo (nestas ferramentas geralmente são incluidas outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? 8-04-2013Genómica 12-13 MJC11

12 ALINHAMENTO 8-04-2013Genómica 12-13 MJC12

13 Alinhamento das evidências já conhecidas ESTs RNA-seq Proteínas Do mesmo ou de organimos parecidos. O alinhamento é avaliado por % identidade ou % de semelhança. Depois faz-se o agrupamento: – Seleção dos alinhamentos repetidos – Identificação de alinhamentos muito expressos por exemplo (estes são suportados por várias ESTs) A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo. Genómica 12-13 MJC 8-04-201313

14 Previsão de genes ab initio 8-04-2013 Genómica 12-13 MJC 14 Usam modelos matemáticos e não evidência extra. Podem ser uteis quando não há evidências experimetais sobre o genoma Mas são menos poderosos. : – Referem apenas as CDs e não UTRs ou sequências de splicing alternativo. – Precisam de dados específicos para o organismo como frequências dos codões, tamanho dos exões/intrões e % GC. – Precisam de ser treinados com dados o mais perto possível da espécie em análise. – Existem dados para os genomas clássicos mas faltam para espécies mais exóticas. – Aqui os dados do GEGMA podem ajudar. Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões.

15 PREVISÕES BASEADAS EM EVIDÊNCIA 8-04-2013Genómica 12-13 MJC15

16 Baseada noutro tipo de dados Usa EST e RNA-seq e até dados de proteómica. Cada vez mais as soluções usadas passam pelos dois tipos de aproximações. 8-04-2013Genómica 12-13 MJC16

17 FASE DA ANOTAÇÃO 8-04-2013Genómica 12-13 MJC17

18 Anotação Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: – Fase da computação São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação Feita por pipelines Anotam o início e fim de cada gene, exões/intrões e UTRs 8-04-2013Genómica 12-13 MJC18

19 Fase da anotação 8-04-2013Genómica 12-13 MJC19 Previsão CDCs Anotação

20 Manual vs automática Era feito à mão Hoje é feito automáticamente dado o volume de dados existentes. Os anotadores automáticos: – Usam a informação fornecida para encontrar genes. – Alinham essas previsões para obter o melhor consenso. – Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) – Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos). 8-04-2013Genómica 12-13 MJC20

21 VISUALIZAÇÃO DA ANOTAÇÃO 8-04-2013Genómica 12-13 MJC21

22 Os resultados da anotação devem ter: Estrutura intrão/exão Codões de inicio e de termino UTRs Splicing alternativo Apresentar os alinhamentos que suportam as previsões Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: – Que os resultados sejam usados por outras ferramentas – Uso de vocabulários controlados em termos de ontologias – Permitem análises genómicas comparativas 8-04-2013Genómica 12-13 MJC22

23 Genetic Model Organism Database (GMOD) Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas. 8-04-2013Genómica 12-13 MJC23

24 CONTROLO DE QUALIDADE 8-04-2013Genómica 12-13 MJC24

25 Identificação de anotações incorretas Essencial pois: – Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras. 8-04-2013Genómica 12-13 MJC25

26 Como fazer o controlo de qualidade? 8-04-2013Genómica 12-13 MJC26 SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= Annotation Edit Distance AED= 1-AC

27 PUBLICAÇÃO DOS DADOS 8-04-2013Genómica 12-13 MJC27

28 Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase 8-04-2013Genómica 12-13 MJC28

29 Depois da publicação…. Deve ser feita periodicamente a atualização 8-04-2013Genómica 12-13 MJC29

30 CONCLUSÕES 8-04-2013Genómica 12-13 MJC30

31 Em suma Sequenciação mais barata Mais dados para tratar Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. O controlo de qualidade é tb um obstáculo Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente. 8-04-2013Genómica 12-13 MJC31

32 Bibliografia Artigo: A beginners guide to eukariotic genome annotation. Na pasta do molar. 8-04-2013Genómica 12-13 MJC32


Carregar ppt "Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013."

Apresentações semelhantes


Anúncios Google