Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013
Sumário 3. Montagem de genomas Montagem hierárquica Montagem de genomas completos Montagem de genomas com base em modelos Problemas associados à montagem dos genomas – Controlo de qualidade Genómica MJC2
Aumenta o número de peças para 2-3 triliões. Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças Montagem de genomas Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original Genómica MJC3
Algumas das peças… Faltam – Problemas na construção das bibliotecas – Problemas com a amplificação por PCR Têm erros – Zonas repetitivas – Erros no PCR Genómica MJC4 Aumentamos o nº de vezes que cada peça é sequenciada! Entre 8 e 100 vezes
A sequência (read) ideal É longa Não tem erros Genómica MJC5
Podemos considerar 2 tipos Única (single read) – Resulta da sequenciação do fragmento em si. Emparelhada (paired read) – Nestas leituras eu sei a sequência das pontas e a que distância estão uma da outra Genómica MJC6
MONTAGEM HIERÁRQUICA OU DE CLONES Genómica MJC7
Abordagem usada para alinhar grandes inserções clonadas – Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas Genómica MJC8
Desse mapeamento… Genómica MJC9 Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição. É feita a sequenciação desses fragmentos: – Cada sequenciação (read) é avaliada quanto à sua qualidade. – É reconstruida a sequencia inicial usando as sobreposições.
MONTAGEM DE GENOMAS COMPLETOS Genómica MJC10
Método mais aplicado atualmente Uma vez que a maioria da sequenciação já não implica clonagem. Dispensa o passo do mapeamento. São sequenciadas as extremidades dos vários fragmentos que são depois alinhadas. Genómica MJC
Desse alinhamento surge o contig Genómica MJC 12 Inclui 3 fases: – Sobreposição – Alinhamento – Consenso
Desse alinhamento surge o contig Genómica MJC 13 A localização vai ser determinada pela homologia
Vários contigs dão um scaffold Genómica MJC 14
Genómica MJC15
ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS Genómica MJC16
Greedy Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias Genómica MJC17
Overlap-Layout-Consensus Todas as sobreposições são mapeadas (Overlap) É eliminada a informação redundante (Layout) Usando a teoria de grafos é desenhado o mapa mais simples e que corresponderá à organização inicial Genómica MJC18
Overlap-Layout-Consensus Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados Genómica MJC19
CONTROLO DE QUALIDADE Genómica MJC20
Em genomas de novo Não se sabe quase nada – Nº de scaffolds e contigs que representam o genoma. – A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds relativamente ao comprimento do genoma Genómica MJC21
N50 Tamanho do contig mais curto acima do qual se inclui 50% do genoma Genómica MJC22
Os vários algoritmos devem ser comparados Foi feita uma comparação no artigo GAGE: Genómica MJC23
O algoritmo deve ter em conta Dependendo do organismo – Tamanho diferente dos genomas – Heterozigotia diferente Humanos (1 par de bases pair/1000) Lesmas do mar 1/50– Genómica MJC24
Independentemente do algoritmo… Entra lixo Sai lixo – Muitos sequenciadores têm controlos de qualidade para contaminações, quimeras e erros de leitura Genómica MJC25
MONTAGEM COMPARATIVA Genómica MJC26
Genomas de referência Genomas de mesma espécie ou espécies semelhantes que servem de modelo. Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado Genómica MJC27
PROBLEMAS NA MONTAGEM DE GENOMAS Genómica MJC28
Dificuldades Contaminação – Sequências que não pertencem ao genoma que se quer sequenciar. Erros de montagem – As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final. Homologia em grande escala. – Nos genomas dos mamíferos há zonas com uma grande percentagem de homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas. Polimorfismo genómico – Dado que muitos genomas são poliploides a montagem de genomas muitas vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus Genómica MJC29
Efeito das zonas repetidas Genómica MJC30
Genómica MJC31
Bibliografia e/assembly/assembly.shtml e/assembly/assembly.shtml _primer.shtml _primer.shtml Artigo: de novo genome assembly; GAGE ambos na pasta Genómica MJC32