Frederico Schmitt Kremer

Slides:



Advertisements
Apresentações semelhantes
CLASSIFICAÇÃO EM IMAGENS MULTIESPECTRAIS. Classificação em imagens multiespectrais Imagens multiespectrais Espaço de atributos Classificação Seleção de.
Advertisements

Considerações Finais sobre Medidas de Tendência Central Na maioria das situações, não necessitamos de calcular as três medidas, normalmente precisamos.
Mecanismo de busca semântica de áudio Anderson Dorow Orientador: Aurélio Faustino Hoppe.
Gerador de grade de horários com Algoritmos Genéticos Prof. Roberto Heinzle, Doutor - Orientador Rodrigo Correia.
UFPel | CDTec | PPGB Pelotas | 2016 Plataformas de NGS Frederico Kremer.
Sistema Web para Gerenciamento Eletrônico de Documentos em Projetos de Implantação de ERP Eder Gonçalves Orientador: Prof. Marcos Rogério Cardoso FURB.
Reconhecimento de Padrões Métodos Sintático e Estrutural Disciplina: Tópicos em Inteligência Artificial Prof. Josué Castro.
COMPONENTE DE GERAÇÃO DE BOLETOS BANCÁRIOS EM DELPHI Aluno: Jonas Ricardo Viel Prof. Adilson Vahldick - Orientador.
EA976 – Engenharia de Software AULA 11 Planejamento e Estimativas.
CONTAGEM Princípios Básicos Permutações Arranjos Combinações.
BIOLOGIA A (Profª Lara) Livro Texto Capítulo 7(Itens 8 ao 19 ) Caderno 2 Aulas 21 a 24.
1 A decisão de Concessão de Crédito Custo de obter as informações necessárias para o fornecimento do crédito  Custo de erros nesta decisão.
Thamilis J. Menezes.  GENÔMICA NOVOS CONCEITOS MARCADOR MOLECULAR CHIP DE SNP SELEÇÃO GENÔMICA VIÁVEL EFICAZ PRODUÇÃO Melhoramento Genético.
Prof.ª Juliane Fernandes. A gametogênese  Processo de formação dos gametas. ÓvuloEspermatozoides.
Classificação não supervisionada de imagens. Classificação de imagens Consiste na identificação de tipos de cobertura de solos, de acordo com os padrões.
Aula 3 - Estruturas de Repetição
Gladius Acesso Treinamento.
INTRODUÇÃO A ALGORITMOS NUMÉRICOS
Análise de Estruturas.
Análise de Estruturas.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó
Algoritmos Genéticos Alex F. V. Machado 1.
ELD - Eletrônica Digital
Bioinformática BLAST.
Formação de preços de venda
Ferramentas de Diagnóstico de Máquinas IMFDM
3.1 Classes e Objetos Em um programa orientado a objetos normalmente existem vários objetos de um mesmo tipo. Por exemplo, um programa de controle de.
Gerência de Projetos 4º Semestre Aula 3 Prof
Prof. Wellington Franco
FUNDAMENTO DE PROGRAMAÇÃO
Regressão Logística Modelos de regressão não linear são usados, em geral, em duas situações: casos em que as variáveis respostas são qualitativas e os.
AVALIAÇÃO DA CAPACIDADE DO PROCESSO
Introdução à programação orientada por objetos
Caso 1.
Busca e BLAST Dilvan Moreira.
NÚCLEO E DIVISÃO CELULAR Desenvolvimento dos seres vivos
INTRODUÇÃO A COMPUTAÇÃO
Organização de um Relatório
GENÉTICA Genética.
Instruções para o uso do Excel:
Prof. Eduardo Bezerra (CEFET/RJ)
Estrutura e Nomenclatura dos Cromossomos
Planning and Economic Data
Resultados e Discussão
Desenvolvimento em Camadas
Técnicas de Transmissão
Programação Estruturada Aula 1 Prof. Jorge Barreto Julho 2018.
1 Modelagem Matemática de Sistemas Dinâmicos 3.9. Gráfico de Fluxo de Sinais Linearização de Modelos Prof. André Marcato Livro Texto: Engenharia.
AVALIAÇÃO DE IMPACTOS AMBIENTAIS
INTRODUÇÃO Os afinadores são ferramentas utilizadas até por músicos profissionais, já que facilitam e aceleram muito o trabalho de afinar um instrumento.
Introdução à Biologia Molecular
Algoritmos Genéticos Alex F. V. Machado.
LIGAÇÃO FATORIAL “LINKAGE” PERMUTA GENÉTICA E MAPA CROMOSSÔMICO
Estatística amintas paiva afonso.
Modelagem Matemática de Sistemas Dinâmicos. 3. 9
Polimorfismos de genes do sistema imunológico
EPIGENÉTICA.
Universidade Federal Fluminense Curso de Engenharia de Produção Arranjo Físico Industrial Prof. Artur Pessoa.
Microarranjos de DNA Karine Begnini.
MODELO DE REFERÊNCIA OSI
RESULTADOS E DISCUSSÃO AGRADECIMENTO (Opcional) REFERÊNCIAS (Opcional)
O que são cadeias carbônicas? Como o próprio nome já diz, cadeias carbônicas são ligações realizadas por carbonos que podem formar encadeamentos com outros.
O QUE É TRANSCRIÇÃO ? É o processo de formação do RNA a partir da cadeia-molde de DNA. E não é todo o DNA que vai ser sintetizado, apenas alguns fragmentos.RNADNA.
SNPs: conceitos e aplicações
A prática da busca bibliográfica
GERÊNCIA DE PROJETOS DE SOFTWARE
O PROJETO GENOMA HUMANO. O que foi o projeto genoma Humano.
TÍTULO DO TRABALHO EM CAIXA ALTA LETRA CALIBRI TAMANHO 44 ou 46
Seminário de Biologia  Núcleo Celular  Cromossomos  Genoma e genes.
Sistemas de Informação
Transcrição da apresentação:

Frederico Schmitt Kremer UFPel | CDTec | PPGB Montagem de genomas Frederico Schmitt Kremer Pelotas | 2015

Sequenciadores de Nova Geração

Sequenciadores de DNA

paired-end / Mate-pair Bibliotecas de sequenciamento Single-end (“Fragmento”) paired-end / Mate-pair (“Pareadas”)

Dados de NGS : FASTQ O formato mais comum para a representação da saída dos sequenciadores de NGS é o FASTQ. Baseado no formato FASTA, o FASTQ possui além da sequência, o valor de qualidade de cada base. >NCYC361-11a03.q1k bases 1 to 1576 GCGTGCCCGAAAAAATGCTTTTGGAGCCGCGCGTGAAAT... FASTA @NCYC361-11a03.q1k bases 1 to 1576 GCGTGCCCGAAAAAATGCTTTTGGAGCCGCGCGTGAAAT... +NCYC361-11a03.q1k bases 1 to 1576 !)))))****(((***%%((((*(((+,**(((+**+,-... FASTQ + ↔ >NCYC361-11a03.q1k bases 1 to 1576 20 20 20 22 10 15 20 20 12 ... QUAL

Dados de NGS : FASTQ

Dados de NGS : FASTQ O ajuste de qualidade das leituras pode ser feito através da “trimagem” (trimming) das bases com baixa qualidade nas extremidades, assim como de regiões de adaptadores. Da mesma forma, reads inteiras podem ser removidas caso a média da qualidade de cada base seja menor que uma dado valor de phred (Ex: Q20, Q30, Q50).

Montagem Duas principais abordagens podem ser utilizadas para a montagem de um genoma: por referência (ressequenciamento) e montagem de novo. Montagem por referência Normalmente usada para organismos com genoma bem caracterizado e com pouco variabilidade estrutural, sendo útil na identificação de pequenas variantes genéticas (ex: SNPs, INDELs e CNVs). Montagem de novo Útil para espécies ainda pouco estudadas, ou quando a estrutura genômica está sujeita a alterações (translocações, inversões, transposições), como em microoorganismos.

Montagem A milhões de leituras dos sequenciadores NGS precisam ser montadas em sequencias maiores, denominadas contigs, de forma similar aos métodos de Sanger. Entretanto, os algoritmos Greedy (ex: ContigExpress) seriam inviáveis computacionalmente.

Montagem Para trabalhar com um volume grande de leituras pequenas (short reads) surgiram os montadores baseados em grafos de Brujin. Cada read é dividida em sub-reads de tamanho k denomiadas “k-mers”. Considerando uma sequencia de 5 nucleotídeos, seus k-mers seriam, se k = 4: ATCGC → ATCG + TCGC Se k fosse igual a 3, os k-mers seriam: ATCGC → ATC + TCG + CGC

Montagem

Montagem

Montagem Após conectar todos os k-mers que apresentam sobreposições é feita a construção de um “caminho”, que servirá de base para a construção das contigs. Dependendo do programa utilizado e do tamanho das leituras, o valor de k pode influenciar fortemente a qualidade da montagem.

Montagem Dificilmente será conseguido uma única contig, sobretudo quando a qualidade do sequenciamento não é muito boa, ou a cobertura não é alta. Estatísticas como N50 e NG50 podem auxiliar na avaliação da qualidade de uma montagem.

Montadores Maioria de uso livre (gratuito), de código aberto e exclusivos para sistemas Linux. Normalmente são usados através de linhas de comando. Ray SGA SPAdes Velvet A5 Newbler Alguns são pagos e apresentam interface grática, sendo mais amigáveis. Geneious CLC Genomics DNAstar

Pós-Montagem A montagem de novo normalmente resulta em um genoma consideravelmente fragmentado. Diferentes técnicas podem ser utilizadas para otimizar esta montagem, incluindo: Geração de scaffolds. Fechamento de gaps. Correção de erros de montagem.

NNNNNNNNNNNNNNNNNNNNNN... Scaffolding Scaffold Contig 1 Gap Contig 2 NNNNNNNNNNNNNNNNNNNNNN...

Scaffolding com leituras pareadas

Scaffolding com um genoma de referência

Scaffolding com leituras longas (long-reads)

Integrando resultados de diferentes montadores

Fechamento de gaps Scaffolds são contigs conectadas por regiões desconhecidas, denominadas gaps de montagem. Uma etapa importante para aprimorar uma montagem é “fechar” estes gaps, visto que estes podem estar localizados sobre regiões codificantes, regulatórias ou com outras funções relevantes. Diferentes abordagens podem ser utilizadas para o fechamento de gaps, incluindo PCR + Sanger, uso de dados de leituras pareadas ou longas e montagens alternativas.

Fechamento de gaps com leituras pareadas

Fechamento de gaps com leituras longas

Correção de erros de montagem

Fatores que afetam a montagem Quanto menor o tamanho das leituras, mais complexo será o processo de montagem do genoma. Dentre os fatores que mais afetam a montagem de genomas inclui-se: Sequências repetitivas (ex: SSR, VNTR). Elementos repetidos ao longo do genoma (ex: fagos, rRNAs, transposases). Rearranjos estruturais no genoma.

Fatores que afetam a montagem

Tipos de montagens Genoma rascunho (draft): Disponibilizado na forma de contigs / scaffolds. Não reflete completamente a estrutura cromossômica do organismo de interesse, mas pode ser utlizado para muitas das aplicações. Pode conter gaps e regiões apresentar regiões faltantes. Genoma finalizado ou completo: Apresenta a sequência e estrutura completa dos cromossomos, o que permite análises estruturais mais acuradas.

Tipos de montagens

Pronto?

Aonde estão os genes?

Dúvidas?