Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Slides:



Advertisements
Apresentações semelhantes
Gerenciamento do Tempo do Projeto
Advertisements

Organização Gênica de Eucariotos
Amintas engenharia.
PROJETOS GENOMA E PROTEOMA HUMANOS
Engenharia de Software
Gerência de Projetos Wesley Peron Seno Introdução
Mineração de Dados Avaliação de Classificadores
Genética Molecular e Humana
UBAIII Biologia Molecular
UPCII Microbiologia Teórica 2-3
INVESTIGAÇÃO OPERACIONAL
Profª Marília Andrighetti
BIOTECNOLOGIA E ENGENHARIA GENÉTICA
Seleção Genética – Um pouco de história
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Sequenciamento inicial e análises do genoma humano
FACENS – Engenharia da Computação Lógica Computacional II
IMA - Instituto Mineiro de Agropecuária
Linguagens de Programação
MICROSOFT PROJECT Elaboração do Gráfico de Gantt
QBQ 0102 – Educação Física Carlos Hotta Transcrição 04/06/13.
Genômica funcional e metagenômica
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
ENGENHARIA GENÉTICA.
Treinamento do Microsoft® Word 2010
Na barra de mensagens, clique em Habilitar Edição,
Organização Gênica de Eucariotos
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Genómica Licenciatura em Ciências Biomédicas
Genómica Licenciatura em Ciências Biomédicas
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Licenciatura em Ciências Biomédicas
UPCII M Microbiologia Teórica 5 2º Ano 2012/2013.
UBA VII – Genética Molecular Genética Molecular e Humana
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
UPCII M Microbiologia Teórica 5 2º Ano 2013/2014.
UPCII M Microbiologia Teórica 7
UBAIII Biologia Molecular (MIMD) Biologia Molecular (LCB)
UPCII M Microbiologia Teórica 18
UBA III Biologia Molecular 1º Ano 2012/2013. Sumário 15 Nov 2012MJC - TP032 Apresentação das questões a preparar por cada grupo. Preparação das respostas.
Arquitetura de computadores
Genómica Licenciatura em Ciências Biomédicas
Genómica Licenciatura em Ciências Biomédicas
ENGENHARIA GENÉTICA.
Site: Estatística Prof. Edson Nemer Site:
Na barra de mensagens, clique em Habilitar Edição,
UBAIII Biologia Molecular 1º Ano 2014/ /out/2014UBAIII MJC Sumário:  Capítulo II. A relação entre genes e proteínas  O fluxo de informação genética.
ARQUITETURA DE COMPUTADORES II
Docente: Paulo Fazendeiro. OrthoMam: Uma base de dados de marcadores genómicos ortólogos para mamíferos.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
UBAIII Biologia Molecular
UPCII M Microbiologia Teórica 33 2º Ano 2013/2014.
CAP3 (Contig Assembly Program)
A database of Orthologous Mammalian Markers Rita Monteiro Nº25486.
Seqüenciamento e genômica
UBAIII Biologia Molecular 1º Ano 2014/ /out/2013MJC Sumário:  Capítulo IV. Síntese e processamento do RNA ribossomal e de transferência a. Síntese.
Gerenciamento de Custos
Sequenciamento de Genomas
CAP3 (Contig Assembly Program)
BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Alinhamentos Múltiplos
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Bioinformática e O Projeto GENOMA EST da CANA
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
UBAIII Biologia Molecular Bioogia Molecular 1º Ano 2015/2016.
UBAIII Biologia Molecular 1º Ano 2013/ /jan/2014MJC1.
Organização do Genoma Ana Luísa Carvalho Bibliografia: The Cell – A Molecular Approach (Fourth Edition) Geoffrey M. Cooper & Robert E. Hausman. ASM Press.
Transcrição da apresentação:

Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes ab initio e baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização Genómica MJC2

Anotação de genomas Estrutural – Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões Funcional – Ligação das estruturas (sequências) a ontologias genéticas Genómica MJC3

Realidade atual Sequenciação Fácil e barata Montagem e anotação ainda não acompanharam: – As sequências tornaram-se menores; – Muitos dos genomas atualmente sequenciados são de espécies exóticas – Começa a haver muitos dados: Quantidade Qualidade (RNA-seq) Genómica MJC4

Da montagem à Anotação Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. – N50 – Tamanho das gaps no scafold – Número de gaps por scafold – Cobertura do genoma. Devem escolher-se high quality drafts ( 90% do genoma completo) – Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. – Cobertura de genes >> cobertura do genoma. Porquê? Genómica MJC5

Que N50? Deve ser próximo do tamanho médio do gene para essa espécie. Porquê? – Assim em média metade dos genes estão contidos num único scafold Genómica MJC6 UTRs Splicing Alternativo

As informações anteriores permitem Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável. Ferramentas como as do Core Eukaryotic Genes Mapping Approach (CEGMA) são úteis. – Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. – Os dados podem ser usadas como modelos para a determinação de exões/intrões Genómica MJC7

Se A montagem estiver muito incompleta N50 for demasiado pequeno…. – A melhor aposta é fazer mais sequenciação Genómica MJC8

FASE DE COMPUTAÇÃO Genómica MJC9

Identificação de zonas repetitivas Baixa complexidade – Trinucleótidos Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. Consituem cerca de 47% do genoma humano Nem sempre estão completos e as extremidades não estão bem definidas. As repetições nem sempre são conservadas Genómica MJC10

Identificação de zonas repetitivas Começa por criar-se uma biblioteca de repetições para cada anotação: – Baseada em homologias – De novo (nestas ferramentas geralmente são incluidas outras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? Genómica MJC11

ALINHAMENTO Genómica MJC12

Alinhamento das evidências já conhecidas ESTs RNA-seq Proteínas Do mesmo ou de organimos parecidos. O alinhamento é avaliado por % identidade ou % de semelhança. Depois faz-se o agrupamento: – Seleção dos alinhamentos repetidos – Identificação de alinhamentos muito expressos por exemplo (estes são suportados por várias ESTs) A informação das RNA-seq é essencial mas computacionalmente ainda não está muito explorada. Os dados gerados são muitos e complexos e nem sempre é fácil integrá-los no algoritmo. Genómica MJC

Previsão de genes ab initio Genómica MJC 14 Usam modelos matemáticos e não evidência extra. Podem ser uteis quando não há evidências experimetais sobre o genoma Mas são menos poderosos. : – Referem apenas as CDs e não UTRs ou sequências de splicing alternativo. – Precisam de dados específicos para o organismo como frequências dos codões, tamanho dos exões/intrões e % GC. – Precisam de ser treinados com dados o mais perto possível da espécie em análise. – Existem dados para os genomas clássicos mas faltam para espécies mais exóticas. – Aqui os dados do GEGMA podem ajudar. Poedm atingir os 100% de precisão mas normalmente andam pelos 60-70% no que se refere à previsão de exões/intrões.

PREVISÕES BASEADAS EM EVIDÊNCIA Genómica MJC15

Baseada noutro tipo de dados Usa EST e RNA-seq e até dados de proteómica. Cada vez mais as soluções usadas passam pelos dois tipos de aproximações Genómica MJC16

FASE DA ANOTAÇÃO Genómica MJC17

Anotação Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: – Fase da computação São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. São geradas previsões ab initio ou baseadas em evidências. – Fase da anotação Feita por pipelines Anotam o início e fim de cada gene, exões/intrões e UTRs Genómica MJC18

Fase da anotação Genómica MJC19 Previsão CDCs Anotação

Manual vs automática Era feito à mão Hoje é feito automáticamente dado o volume de dados existentes. Os anotadores automáticos: – Usam a informação fornecida para encontrar genes. – Alinham essas previsões para obter o melhor consenso. – Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) – Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos) Genómica MJC20

VISUALIZAÇÃO DA ANOTAÇÃO Genómica MJC21

Os resultados da anotação devem ter: Estrutura intrão/exão Codões de inicio e de termino UTRs Splicing alternativo Apresentar os alinhamentos que suportam as previsões Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: – Que os resultados sejam usados por outras ferramentas – Uso de vocabulários controlados em termos de ontologias – Permitem análises genómicas comparativas Genómica MJC22

Genetic Model Organism Database (GMOD) Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas Genómica MJC23

CONTROLO DE QUALIDADE Genómica MJC24

Identificação de anotações incorretas Essencial pois: – Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras Genómica MJC25

Como fazer o controlo de qualidade? Genómica MJC26 SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= Annotation Edit Distance AED= 1-AC

PUBLICAÇÃO DOS DADOS Genómica MJC27

Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase Genómica MJC28

Depois da publicação…. Deve ser feita periodicamente a atualização Genómica MJC29

CONCLUSÕES Genómica MJC30

Em suma Sequenciação mais barata Mais dados para tratar Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. O controlo de qualidade é tb um obstáculo Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente Genómica MJC31

Bibliografia Artigo: A beginners guide to eukariotic genome annotation. Na pasta do molar Genómica MJC32