Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013
Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes ab initio e baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização Genómica MJC2
Anotação de genomas Estrutural – Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões Funcional – Ligação das estruturas (sequências) a ontologias genéticas Genómica MJC3
Realidade atual Sequenciação Fácil e barata Montagem e anotação ainda não acompanharam: – As sequências tornaram-se menores; – Muitos dos genomas atualmente sequenciados são de espécies exóticas – Começa a haver muitos dados: Quantidade Qualidade (RNA-seq) Genómica MJC4
Da montagem à Anotação Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. – N50 – Tamanho das gaps no scafold – Número de gaps por scafold – Cobertura do genoma. Devem escolher-se high quality drafts ( 90% do genoma completo) – Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. – Cobertura de genes >> cobertura do genoma. Porquê? Genómica MJC5
Que N50? Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? – Assim em média metade dos genes estão contidos num único scafold Genómica MJC6 UTRs Splicing Alternativo
As informações anteriores permitem Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável. Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis. – Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. – Os dados podem ser usadas como modelos para a determinação de exões/intrões Genómica MJC7
Se A montagem estiver muito incompleta N50 for demasiado pequeno…. – A melhor aposta é fazer mais sequenciação Genómica MJC8
FASE DE COMPUTAÇÃO Genómica MJC9
Identificação de zonas repetitivas Baixa complexidade – Trinucleótidos Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. Consituem cerca de 47% do genoma humano Nem sempre estão completos e as extremidades não estão bem definidas. As repetições nem sempre são conservadas Genómica MJC10
Identificação de zonas repetitivas Começa por criar-se uma biblioteca de repetições para cada anotação: – Baseada em homologias – De novo (nestas ferramentas geralmente são incluidas outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? Genómica MJC11
ALINHAMENTO Genómica MJC12
Alinhamento das evidências já conhecidas ESTs RNA-seq Proteínas Do mesmo ou de organimos parecidos. O alinhamento é avaliado por % identidade ou % de semelhança. Depois faz-se o agrupamento: – Seleção dos alinhamentos repetidos – Identificação de alinhamentos muito expressos por exemplo (estes são suportados por várias ESTs) A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo. Genómica MJC
Previsão de genes ab initio Genómica MJC 14 Usam modelos matemáticos e não evidência extra. Podem ser uteis quando não há evidências experimetais sobre o genoma Mas são menos poderosos. : – Referem apenas as CDs e não UTRs ou sequências de splicing alternativo. – Precisam de dados específicos para o organismo como frequências dos codões, tamanho dos exões/intrões e % GC. – Precisam de ser treinados com dados o mais perto possível da espécie em análise. – Existem dados para os genomas clássicos mas faltam para espécies mais exóticas. – Aqui os dados do GEGMA podem ajudar. Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões.
PREVISÕES BASEADAS EM EVIDÊNCIA Genómica MJC15
Baseada noutro tipo de dados Usa EST e RNA-seq e até dados de proteómica. Cada vez mais as soluções usadas passam pelos dois tipos de aproximações Genómica MJC16
FASE DA ANOTAÇÃO Genómica MJC17
Anotação Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: – Fase da computação São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação Feita por pipelines Anotam o início e fim de cada gene, exões/intrões e UTRs Genómica MJC18
Fase da anotação Genómica MJC19 Previsão CDCs Anotação
Manual vs automática Era feito à mão Hoje é feito automáticamente dado o volume de dados existentes. Os anotadores automáticos: – Usam a informação fornecida para encontrar genes. – Alinham essas previsões para obter o melhor consenso. – Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) – Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos) Genómica MJC20
VISUALIZAÇÃO DA ANOTAÇÃO Genómica MJC21
Os resultados da anotação devem ter: Estrutura intrão/exão Codões de inicio e de termino UTRs Splicing alternativo Apresentar os alinhamentos que suportam as previsões Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: – Que os resultados sejam usados por outras ferramentas – Uso de vocabulários controlados em termos de ontologias – Permitem análises genómicas comparativas Genómica MJC22
Genetic Model Organism Database (GMOD) Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas Genómica MJC23
CONTROLO DE QUALIDADE Genómica MJC24
Identificação de anotações incorretas Essencial pois: – Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras Genómica MJC25
Como fazer o controlo de qualidade? Genómica MJC26 SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= Annotation Edit Distance AED= 1-AC
PUBLICAÇÃO DOS DADOS Genómica MJC27
Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase Genómica MJC28
Depois da publicação…. Deve ser feita periodicamente a atualização Genómica MJC29
CONCLUSÕES Genómica MJC30
Em suma Sequenciação mais barata Mais dados para tratar Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. O controlo de qualidade é tb um obstáculo Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente Genómica MJC31
Bibliografia Artigo: A beginners guide to eukariotic genome annotation. Na pasta do molar Genómica MJC32