A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento.

Apresentações semelhantes


Apresentação em tema: "New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento."— Transcrição da apresentação:

1 New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

2 BIG DATA ERA Introdução D. ALLISON Em 2010, o universo digital somou 1,2 ZettaBytes. Em 2011 o número subiu para 1,8 ZettaBytes Estudo da IDC sobre o Universo Digital patrocinado pela EMC, maio de ZettaByte (ZB) = 1 Trilhão 1,000,000,000,000 GigaBytes (GB) 1,2 ZB = 2 pilhas de DVDs da terra à lua ( Km)

3 Big Data Era …information in our world is exploding. There are expected to be 1 trillion new devices connected to the Internet in the near future, which will help drive 44X digital data growth by the year 2020, 80 percent of which will be unstructured content and will require great effort to analyze. By Steve Mills IBMs Senior Vice President & Group Executive, Software & Systems CISCO estimates that the monthly global internet traffic in the spring of 2010 was 21 exabytes. 1 ExaByte (EB) = 1,000,000,000 GigaBytes (GB)

4 Big Data Era na Ciência 1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB) Researchers need to adapt their institutions and practices in response to torrents of new data and need to complement smart science with smart searching. Setembro 2008 Editorial

5 Ciclo do Conhecimento hypothesis-driven science data-driven science …computational methods of data analysis, which may be automated, provide the means of generating novel hypotheses, especially in the post-genomic era. (Kell DB et al., 2004) Gene Knock-outs Protein Assays Point mutations … Microarrays Genomics Meta-genomics HT proteomics …

6 Inundação de Dados na Área de Ciências Biológicas genomas completos sequenciados; dados de variações genômicas; projetos de Meta-Genômica; dados de transcritomas; dados de proteínas; dados de interações entre proteínas; …

7 Explosão de Sequências

8 Preparação

9 Desafios Pontos urgentes que devem ser enfrentados: – Transferência de dados, controle de acesso e gerenciamento; – Padronização dos formatos de dados; – Integração dos dados oriundos de múltiplas fontes. Dados com características Multi-dimensionais e em um volume imenso; – Exemplo: Análise funcional de variações no DNA em múltiplas amostras em diferentes tipos de tumores utilizando dados de sequenciamento de nova geração; – Modelos preditivos para fenótipos complexos demandam computação intensa (Problemas NP- difíceis – ex. Reconstrução de uma rede Bayesiana para representar um modelo de regulação gênica)

10 Integração dos Bancos de Dados Biológicos Características – Grande volume de dados; Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); – Não há padrão para os nomes dos objetos; Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) – Não há padrão para acesso aos dados, cuja natureza é distribuída; Utilização de formatação padrão para troca de informações (e.g. GFF) e web services; – Definição variável para alguns conceitos; e.g. gene – Dados altamente heterogêneos mas inter-relacionados; – Informação dinâmica e em constante atualização;

11 Soluções computacionais Cloud-based computing; Ambientes computacionais heterogêneos; – Integração de aceleradores especializados (GPUs); Aumento do número de computadores; Otimização de algoritmos;

12 Primeiros passos... Compreensão da natureza dos dados, ou seja, da sua magnitude e complexidade, e dos recursos disponíveis (memória, espaço,...); Compreensão dos algoritmos; Compreensão das vantagens e desvantagens das arquiteturas disponíveis; – A decisão não é sempre óbvia e muitas vezes consiste em uma combinação delas;

13 Soluções no Brasil O EMU (Equipamento MultiUsuário) é uma plataforma de alta-performance para análises computacionais aplicadas à genômica e à transcriptômica. Financiamento: Programa Multiusuário da FAPESP de 2010, com uma contra-partida do Instituto Ludwig de Pesquisa sobre o Câncer.

14 Sequenciamento Por quê sequenciar ? Motivação – Aplicações diversas: identificar sequências funcionais e caracterizar genomas ou transcriptomas; Da Genômica Comparativa à Medicina Genômica; – Propósitos gerais; Análogo às aplicações de um Computador Pessoal (PC)

15 REVISÃO HISTÓRICA Introdução

16 Marcos históricos Darryl Leja, NHGRI Experiments in Plant Hybridization Leis da hereditariedade 1865 Gregor Johann Mendel Termo Gene = unidade mendeliana da hereditariedade 1909 Wilhelm Johannsen DNA = caracter hereditário 1944 Oswald T. Avery Colin M. MacLeod, Maclyn McCarty Estrutura do DNA 1953 James Watson Francis Crick Maurice Wilkins Rosalind Franklin Métodos para o sequenciamento de DNA 1977 Walter Gilbert Frederick Sanger Banco de Dados de Sequências Biológicas 1982 NCBI GENBANK Polymerase Chain Reaction 1985 Kary Mullis Sequenciador Semi-Automático e surgimento do primeiro sequenciador comercial (ABI) 1986 Leroy Hood

17 Início do PGH PGH - início em 1990 Mapeamento detalhado do genoma humano – 5000 cientistas, de 250 diferentes laboratórios; – 15 anos. – 5 a 10 Bilhões de dólares (US$); – Otimismo exacerbado; – Para muitos pesquisadores um projeto irrealizável; – Para outros a oportunidade de transformar a Genética em Big Science;

18 Projeto Genoma Humano The International Human Genome Sequencing Consortium 13 anos ( ) U$ ,00 (3 BILHÕES de DÓLARES!!!) Avanços imediatos proporcionados Identificação de ~ genes (~20% material genético total); Possibilitou a descoberta de ~1.800 genes relacionados a doenças, facilitando a identificação de outros genes; Permitiu o desenvolvimento de mais de testes genéticos; Ao menos 350 produtos biotecnológicos resultantes deste conhecimento já estão em testes clínicos; Desenvolvimentos de ferramentas para análise genômica, inclusive de outras espécies de interesse biomédico e econômico; Promoveu discussões éticas, legais e implicações sociais em torno do assunto; Consituição de uma base de conhecimento;

19 ...no Brasil Iniciativa pública Projeto Genoma Humano Publicação do rascunho do Genoma Humano Sequenciamento do Genoma da bactéria Xylella fastidiosa 1997 Organization for Nucleotide Sequencing and Analysis Conclusão do Projeto Genoma Humano 1ª experiência brasileira: 2002

20 Desenvolvimento dos Computadores 1946 ENIAC, o 1° computador eletrônico John Presper Eckert e John W. Mauchly Z1, o 1° computador eletro-mecânico 1936 Konrad Zuze 1965 Gordon E. Moore Lei de Moore IBM PC (Personal Computer) 1981

21 Lei de Moore

22 ...e dos Sistemas Computacionais 1991 GNU/Linux 1987 Linguagem de Programação Perl UNIX – 1ª Versão UNICS, Ken Thompson, Dennis Ritchie e outros na Bell Labs. Linguagem de Programação C Dennis Ritchie 1993 Linguagem Estatística R Ross Ihaka e Robert Gentleman

23 Bioinformática Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados. Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. Biomedical Information Science and Technology Initiative Consortium (BISTI - NIH)

24 Repositórios de Dados Biológicos 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan

25 International Nucleotide Sequence Database Colaboration seqüências bases seqüências bases

26 Era Pós-Genoma "O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos (José Roberto Goldim, UFRGS) Genômica Estrutural – Construção de mapas genéticos, físicos e de transcrição de um organismo. Genômica Funcional – Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica.

27 Projetos -omas x Pesquisa Clássica em Genética e Bioquímica Science 291: Genômica Transcritômica Proteômica Epigenômica Metabolômica …

28 Genômica Funcional: Análise de Expressão Gênica Genômica Funcional = Métodos de obtenção de dados em larga escala + Métodos de Bioinformática (Genome-wide expression profiling) Revolução dos projetos -omas Mayo Clin Proc May;79(5):651-8

29 Biologia Sistêmica Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms Leroy Hood

30 Últimos anos Next-Generation Sequencing Revollution 2003 Conclusão do Projeto Genoma Humano Genomes Project Sequenciamento do Genoma Diplóide de um único indivíduo (Craig Venter) The diploid genome sequence of an individual human. (Levy, S. et al. 2007) Legião de Sequenciadores ABI 3730 no JCVI Genoma James D. Watson Sequenciamento com 454

31 NEW GENERATION SEQUENCING AND APPLICATIONS Introdução

32 Nova Geração de Sequenciadores de DNA Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl Roche/454 FLXIllumina/Solexa GAABI SOLiD MétodoSangerPirosequenciamentoSequenciamento por Síntese Sequenciamento por Ligação Aumento na quantidade de Dados IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp) Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucos dias); Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); Redução do custo por base sequenciada; PLATÔ TECNOLOGIA

33 Resumo das plataformas

34 Trade-offs in Next Generation Sequencing technologies NHGRI Current Topics in Genome Analysis 2010 Elliott Margulies, Ph.D

35 Revisão: Métodos de sequenciamento de nova geração

36 NGS no mundo

37 James Watsons Genome

38 Genoma Neandertal 99,7% identidade humano moderno De 1% a 4% do genoma humano (2% de seus genes) provêm do homem de Neandertal

39 Detecção de Variantes Genômicas Detecção de Variações (Padrão normal de variações) – Single Nucleotide Variants (SNVs) – Small Insertions/Deletions – Structural variants (Large Insertions/Deletions/Inversions) – Copy-Number Variants (CNVs)

40 Catálogo de Mutações Somáticas Sequenciamento de diferentes tipos de câncer – Cancer Driver mutations – mutações responsáveis pelo desenvolvimento do câncer (Cancer Genes);

41 COSMIC Catálogo de Mutações Somáticas em Câncer, resultado também de sequenciamentos completos de diversos cânceres;

42 Novas promessas HeliScope – Helicos BioSciences ION Torrent – Applied Biosystems PacBio RS – Pacific Biosciences

43 $1000 genome Re-sequenciamento genoma humano completo (3000 Mb) – 454 sequencing (average read length= bases): 10-fold coverage – Illumina and SOLiD sequencing (average read length= bases): 30-fold coverage Valores nos últimos anos – Julho 2010 (~U$31.125,00) – Julho 2011 (~U$10.500,00) National Human Genome Research Institute (NHGRI)

44 Produtividade [Stratton MR, et al. 2009]

45 Gordon Moore´s Genome

46 Sequence Read Archive (…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…) [Leinonen R et. al., 2011] Were currently at 8.5 Terabases (Tb) of biological sequence under management. Were growing by about 1 Tb/month. NCBIs staff scientist Martin Shumway in 2007 I nternational N ucleotide S equence D atabase C ollaboration SRA (NCBI Sequence Read Archive): ENA (EBI European Nucleotide Archive): DRA (DDBJ Sequence Read Archive):

47 1000 Genomes Consórcio Internacional (2008) – Catálogo completo e detalhado de Variantes Genômicas Humanas (SNPs e variações estruturais) Projeto Genoma Humano HapMap – Catálogo das variações genéticas mais comuns (SNPs c/ freq. > 5%) em diferentes populações humanas; 2500 genomas de 25 populações – Mínimo de cobertura: 3x - Genoma completo; 20x – exome capture; Suporte financeiro – Wellcome Trust Sanger Institute (Inglaterra); – Beijing Genomics Institute (China); – National Human Genome Research Institute (EUA);

48 Publicação Fase piloto

49 UK10K Genomes Objetivo: identificação de variantes raras (freq. alélica abaixo de 0.1%) Associação com fenótipos extremos em condições específicas (ex.: doenças relacionadas ao desenvolvimento neurológico e obesidade) Sequenciamento – 4000 genomas (6x) – 6000 exomas

50 …e outros i5K – 5000 genomas de insetos importância especialmente para a agricultura; Genome10K – genomas de vertebrados diversidade genética entre vertebrados; 1001 Genomes – 1001 cepas de Arabdopsis thaliana planta modelo, base de estudos; 1KP – 1000 genomas de plantas desenvolvimentos de produtos biotecnológicos;

51 Genome-Wide Association Studies Estudos que procuram identificar a associação entre genótipos e fenótipos (e.g. doenças, resposta a medicamentos, etc.); Identificar a fatores genéticos de risco para o desenvolvimento ou progressão de determinadas doenças; Catálogo de associações dbGaP (http://www.ncbi.nlm.nih.gov/sites/entrez?db=gap)http://www.ncbi.nlm.nih.gov/sites/entrez?db=gap

52 Counting Experiments

53 Análise RNA-Seq RNA-Seq Whole Transcriptome Shotgun Sequencing High-Throughput sequencing of cDNA RNA-Seq – Quantificação da expresão dos genes no transcriptoma de camundongos Myf6 - myogenic factor 6 Expressão específica em células musculares

54 Análise ChIP-Seq ChIP-Seq ChIP – Chromatin ImunoPreciptation High-Throughput sequencing ChIP-Seq – Estudo da estrutura da cromatina Padrão de metilação de histonas no genoma humano Uma das primeiras publicações utilizando Illumina 1G Genome Analyzer Reproducibilidade r = (p-value < 2.2e-16). ChIP-Seq X GMAT (Genome-wide Mapping Technique)

55 Análise Methyl-Seq Methyl-Seq DNA treatment with methyl-sensitive restriction enzymes (HpaII - não metilada, MspI - indiferente) High-Throughput sequencing Methyl-Seq – Estudo de padrões de metilação do DNA em hESCs, células derivadas de hESCs e fígado fetal humano methylation status: presence or absence of HpaII tags: average tag count > 1 unmethylated AUC = 0.94 Methyl-Seq x Illumina Infinium

56 Análise microRNA-Seq microRNA-Seq small RNA library (mirVana miRNA Isolation Kit) High-Throughput sequencing microRNA-Seq – Caracterização dos miRNAs expressos em tecido gástrico humano (cardia - estômago) Plataforma SOLiD qRT-PCR 2 -Ct Pearson correlation (SOLiDxqRTPCR) r 2 = 83.9 (p-value < 0.05)

57 Resumo de Aplicações CategoryExamples of applications Complete genome resequencing Comprehensive polymorphism and mutation discovery in individual human genomes Reduced representation sequencingLarge-scale polymorphism discovery Targeted genomic resequencing Targeted polymorphism and mutation discovery Paired end sequencingDiscovery of inherited and acquired structural variation Metagenomic sequencingDiscovery of infectious and commensal flora Transcriptome sequencing Quantification of gene expression and alternative splicing; transcript annotation; discovery of transcribed SNPs or somatic mutations Small RNA sequencingmicroRNA profiling Sequencing of bisulfite-treated DNA Determining patterns of cytosine methylation in genomic DNA Chromatin immunoprecipitation– sequencing (ChIP-Seq) Genome-wide mapping of protein-DNA interactions Nuclease fragmentation and sequencingNucleosome positioning Molecular barcodingMultiplex sequencing of samples from multiple individuals [Shendure, J & Ji, H, 2008]

58 EXEMPLO DE ABORDAGEM Introdução

59 Breast Cancer Sequencing Project Objetivo: Catálogo completo de mutações somáticas na linhagem celular de tumor de mama (HCC1954) utilizando como base de comparação uma linhagem celular linfoblastóide obtidas de um mesmo paciente (HCC1954BL).

60 Sequenciamento gDNA – Whole Genome Sequencing Shotgun and paired-end sequencing – Exome Capture cDNA – Whole Transcriptome Sequencing Shotgun and paired-end sequencing ~ 350GB dados

61 Publicações Zhao Q et al., Transcriptome-guided characterization of genomic rearrangements in a breast cancer cell line. Proc Natl Acad Sci U S A Feb 10;106(6): Epub 2009 Jan 30. PubMed PMID: ; Zhao Q et al., Systematic detection of putative tumor suppressor genes through the combined use of exome and transcriptome sequencing. Genome Biol. 2010;11(11):R114. Epub 2010 Nov 25. PubMed PMID: ; Galante PA et al., Distinct patterns of somatic alterations in a lymphoblastoid and a tumor genome derived from the same individual. Nucleic Acids Res Aug;39(14): Epub 2011 Apr 14. PubMed PMID: ;

62 HCC1954 Representative SKY Karyotype pseudotetraploid cell line Linhagem celular derivada de carcinoma ductal de mama (estágio IIA, grau 3 invasivo, sem metástase nos linfonodos) extraído de uma paciente (Mulher, 61 anos, indiana) [Gazdar AF, et al., 1998]

63 HCC1954BL HCC1954BL is an Epstein-Barr virus (EBV)- transformed lymphoblastoid cell line derived from the same patient. – Both cell lines received similar treatments in terms of the timing of establishment and in vitro propagation (36 passages);

64 Objetivo Catalogar as mutações somáticas encontradas nas linhagens HCC1954 e HCC1954BL em busca de padrões que possam caracterizar as alterações genéticas que ocorrem em um determinado tumor e que direcionam a tumorigênese (driver mutations) em relação às mutações passageiras (passenger mutations); – Motivação: Primeiro trabalho a caracterizar as mutações somáticas presentes na linhagem não tumoral e tumoral de um mesmo paciente (outros estudos focados apenas nas mutações somáticas do tumor);

65 Dados gDNA paired-end sequencing – Illumina GAII gDNA exome capture (Nimblegen Sequence Capture 2.1M Human Exome array) – Roche 454 GS FLX HCC1954HCC1954BL Capture sequencing Paired-end sequencing Capture sequencing Paired-end sequencing Total number of reads5,996,389381,274,8886,265,250347,891,568

66 Dados de Referências Genoma referência – NCBI build 36.1/hg18; Regiões com haplótipos alternativos e o loci de imunoglobulinas foram excluídos; – UCSC Genome Browser dbSNP version 130; RefSeq (mRNAs e ncRNAs);

67 Alinhamento gDNA paired-end sequencing – Illumina GAII (Bowtie [Langmead B et al., 2009]) gDNA exome capture – Roche 454 GS FLX Titanium (BLAT [Kent WJ, 2002]) HCC1954HCC1954BL Capture sequencing Paired-end sequencing Capture sequencing Paired-end sequencing Total number of reads 5,996,389381,274,8886,265,250347,891,568 Mapped reads5,212,428254,326,8595,106,763237,886,727 Percentage of mapped reads Total number of nucleotides 3,143,589,26319,392,752,1283,252,428,88715,693,171,704 Mapped nucleotides 2,257,027,36313,432,965,0122,175,120,80311,166,288,816 Percentage of mapped nucleotides

68 Pré-processamento Leituras duplicadas mapeadas em coordenadas idênticas foram fundidas; Leituras com mapeamento ambíguo foram desconsideradas;

69 Estratégia para Detecção de Mutações A zigosidade e as regiões com perda de heterozigozidade (LOH) foram estimadas por HMM usando dados públicos de microarranjos de SNPs (Affymetrix SNP array) e confirmadas com os dados de Exoma

70 Análise de SNVs Independentemente para cada linhagem em relação ao genoma referência; – 3 leituras com qualidade >= 20 suportando a variação; – Análise de mutações somáticas Profundidade na cobertura de ao menos 5 leituras em ambas as linhagens; Leituras suportando a variação devem constituir ao menos 20% do número total de leituras; Variações comuns ao dbSNP foram desconsideradas para a; Variações comuns às duas linhagens foram excluídas; Falsas chamadas de mutação residindo em regiões onde há perda de heterozigose (LOH);

71 SNVs HCC1954HCC1954BL N (%) in dbSNP Substitutions (92.68) (93.60) Coding11717 (90.92)12373 (93.84) Intronic60314 (92.53)61428 (93.77) UTR3419 (92.57)3570 (94.04) ncRNA256 (96.87)260 (96.92) Intergenic6649 (91.84)5843 (90.86) Indels689 (52.10)587 (52.81) Coding38 (50.00)31 (51.61) Intronic595 (52.43)506 (54.15) UTR30 (46.66)26 (42.30) ncRNA1 (100.00)1 (0.00) Intergenic25 (52.00)23 (39.13) Single nucleotide variations identified in the HCC1954 and HCC1954BL genomes three reads with base quality 20 Maioria delas comuns a ambas as linhagens 92% descritas no dbSNP 8% novos SNVs [Bentley, DR et al., 2008] [Wheeler, DA et al., 2008]

72 Comparação com SNP Array Affymetrix Mapping 250K Sty2 SNP Array – GEO: GSE12019 and GSE13373 Correspondência com as regiões de detecção (sequenciada ao menos 1 vez) – 93.7% HCC1954 – 97.8% HCC1954BL Detecções corretamente identificadas – 80.8% HCC1954 – 83.3% HCC1954BL » Diferença de performance entre as linhagens não significante (p-value=0.69, χ2=0.16, df=1)

73 Análise de Variações Estruturais Dados desconsiderados – Leituras que mapearam em regiões altamente repetitivas (1Mb); – Leituras onde os pares maperam dentro da distância esperada porém, uma das leituras em orientação incorreta; Requisitos – 5 pares de leituras suportando a variação em HCC1954 e nenhuma em HCC1954BL; Rearranjos intercromossomos: leituras em pares mapeadas unicamente em cromossomos distintos; Rearranjos intracromossomos: – Deleções: distância maior do que a esperada (average+4*SD); – Duplicação in tandem: orientação e distância não esperada;

74 Sequenciamento em pares – mate-pair – paired-ends (Korbel et al., 2007) > SOLEXA01:1:1:27:1992#0/1 > SOLEXA01:1:1:27:1992#0/2 Referência: ~ 128 bp a ~428 bp paired-ends 36 bp Referência: 36 bp

75 Mutações somáticas Somatic variations HCC1954HCC1954BL N (%) Point mutations274 (100)173 (100) Coding 64 (23.36) 30 (17.3) Nonsense Nonsense 2 (0.73) 3 (1.7) Missense Missense 45 (16.42) 15 (8.7) Synonymous Synonymous 17 (6.20) 12 (6.9) Non-coding14 (5.11)15 (8.7) UTR13 (4.74)13 (7.5) ncRNA1 (0.36)2 (1.2) miRNA0 (0) Intronic179 (65.33)114 (65.9) Splice site0 (0) Other intronic179 (65.33)114 (65.9) Intergenic17 (6.20)14 (8.1) Structural variations94 (100)4 (100) Interchromosomal49 (52.1)0 (0) Intrachromosomal45 (47.9)4 (100) Deletions30 (31.9)2 (50.0) Inversions11 (11.7)2 (50.0) Duplications4 (4.3)0 (0) Somatic point mutations and structural variations in the HCC1954 and HCC1954BL genomes HCC1954 dNs/dS = 2.8 HCC1954BL dNs/dS = 1.5 Diferença significativa entre as taxas (p=0.031; χ2=4.68; df=1) 38 regiões gênicas 22 já descritas [Stephens, PJ et al., 2009] [Zhao, Q et al., 2009]

76 Mutações pontuais e variações estruturais Circos plot representing somatic point mutations and structural variations in the (A) HCC1954 and (B) HCC1954BL genomes. mutações somáticas pontuais: pontos (preto: NS; vermelho S); cobertura do genoma: região em verde; rearranjos cromossômicos: linhas conectando dois cromossomos; deleções: linhas azuis; inversões: linhas pretas; duplicações: linhas cinzas;

77 Frequência de substituições Espectro similar de substituições Predominância de transições

78 Validação Mutações pontuais – PCR e Sequenciamento com o método de Sanger (ABI3130) HCC1954 (47 mutações Ns) – 33 (70.2%) já descritas na literatura; – 12/14 (85.7% ) foram validadas (Sanger); – 45 mutações Ns válidas » 42 (93.3%) em resíduos de aminoácidos conservados evolutivamente (10 espécies distintas); HCC1954BL (18 mutações Ns) – 12 (66.6%) foram validadas (Sanger); – 12 mutações Ns válidas » 11 (91.6%) em resíduos de aminoácidos conservados evolutivamente (10 espécies distintas);

79 Análise de Vias Biológicas KEGG IDKEGG annotation Number of genes in the pathway Gene NameP-value HCC1954 hsa05222Small cell lung cancer3ITGA6 TP53 TRAF hsa05410 Hypertrophic cardiomyopathy 2ITGA6 MYH hsa04210Apoptosis2TP53 TRAF hsa05414Dilated cardiomyopathy2ITGA6 MYH hsa04010MAPK signaling pathway3ARRB1 TP53 TRAF hsa00770 Pantothenate and CoA biosynthesis 1DPYD hsa04360Axon guidance2CFL2 SEMA3A hsa04614Renin-angiotensin system1LNPEP hsa05200Pathways in cancer3ITGA6 TP53 TRAF HCC1954BL hsa03440 Homologous recombination 1EME hsa00310Lysine degradation1SETD hsa04740Olfactory transduction2OR51E2 OR2D Vias metabólicas/regulatórias relacionadas com a tumorigênese Simulação de Monte Carlo (1000 conjuntos aleatórios 45 e 12 genes) Todos os genes conhecidos e 200 vias metabólicas/regulatórias do KEGG

80 Interações entre Proteínas PPI DBs – MINT, BIOGRID, INTACT, HPRD, BIND, DIP HCC1954 – 25 /45 (55.5%) HCC1954BL – 8 /12 (66.7%) Não há diferença significativa em termos de representação – (p=0.729; χ2=0.12; df=1)

81 Análise de Interações entre Proteínas proteínas com mutações NS validadas proteínas com interação com 3 proteínas mutadas porteínas com interação com 2 proteínas mutadas Protein–protein interactions networks for mutated genes in HCC1954 (A) and HCC1954BL (B). Alto grau de interações em HCC1954 (33.2) (P=0.0017, Monte Carlo simulation) Baixo grau de interações em HCC1954BL (5.1) (P=0.875, Monte Carlo Simulation) Tumorigenesis pathways: apoptosis (TP53, TRAF2, SLC25A5) MAPK signaling (TP53, ARRB1, TRAF2) cell adhesion (ITGA6) cytoskeleton organization (PCNT, CLIP1) cell cycle (RFC4, PCNT) Key Cancer Genes: BRCA1, CDC42, CHECK1, MDM2, MAP3K1/3 SMAD2/3

82 Atuação Sinergística na Tumorigênese Proteínas mutadas com parceiros de interações em comum => atuação sinergística no desenvolvimento do tumor [Bredel M. et al., 2009]; HCC1954 – (17/25 – 68%) ao menos 1 parceiro em comum (64 parceiros) Diferente do esperado ser ao acaso (p < , Monte Carlo simulation) HCC1954BL – (0/5 – 0%) nenhum Diferença do esperado ser ao acaso pouco significativa (p = 0.855, Monte Carlo simulation) Diferença na média de parceiros de interações em comum? – 1000 conjuntos aleatórios (5) em ambas as linhagens x PPI (3.3 versus 0) (P=0.0245, Monte Carlo simulation)

83 Redes funcionais em outros tipos de tumor References Tumor type Number of genes with non- synonymous mutations Number of mutated genes with PPI information (%) Average number of interactions for mutated genes (P- value) Number of mutated genes with common partner (%) (P-value) Number of common partners (P- value) Pleasance et al.Lung9050 (56)11.6 (0.2692)33 (66) (0.0001) 42 (0.0870) Pleasanceet al.Melanoma (53)8.3 (0.8344)69 (69) (0.0001) 103 (0.3130) Ding et al.Breast basal 2917 (59)8.1 (0.2210)7 (41) (0.0001) 7 (0.0132) Shah et al.Breast lobular 3216 (50)32.5 (0.0034)7 (44) (0.0001) 28 (0.0011) Clark et al.GBM11040 (36)12.9 (0.7269)18 (45) (0.0001) 13 (0.1896) Galante et al.Breast HCC (56)33.2 (0.0017)17 (68) (0.0001) 64 (0.0001)

84 Discussão (1) Caracterização das mutações somáticas – linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; – [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; – Ding L et al., 2010 – tumor de mama metastático fenótipo basal – Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação – Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo causador de mutação em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; – Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); – 36 passagens; – Critérios estringentes; – Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas – linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; – [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; – Ding L et al., 2010 – tumor de mama metastático fenótipo basal – Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação – Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo causador de mutação em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; – Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); – 36 passagens; – Critérios estringentes; – Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas – linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; – [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; – Ding L et al., 2010 – tumor de mama metastático fenótipo basal – Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação – Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo causador de mutação em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; – Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); – 36 passagens; – Critérios estringentes; – Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas – linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; – [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; – Ding L et al., 2010 – tumor de mama metastático fenótipo basal – Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação – Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo causador de mutação em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; – Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); – 36 passagens; – Critérios estringentes; – Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas – linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; – [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; – Ding L et al., 2010 – tumor de mama metastático fenótipo basal – Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação – Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo causador de mutação em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; – Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); – 36 passagens; – Critérios estringentes; – Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

85 Discussão (2) Diferenças entre o conjunto de genes mutados em ambas as linhagens: – Mutações não-sinônimas mais frequentes HCC1954; – Mutações no genoma do tumor não estão distribuídas aleatóriamente; Afetam preferencialmente genes HUB nas interações com outros genes; Afetam vias biológicas relacionadas com a tumorigênese; Mutações no genoma do tumor são co-selecionadas; – Ação sinergística de mutações na tumorigênese; » Observação em outros tumores; Observação: Se a célula tumoral requer somente um número pequeno de alterações genéticas fortes para a tumorigênese; Não seria esperado uma associação funcional dos genes mutados no tumor, pois a maioria das mutações seriam passageiras;

86 Discussão (3) Modelo sugerido: o genoma do tumor tem poucas mutações fortes e muitas mutações fracas que atuam em sinergia para desestabilizar as vias relacionadas à tumorigênese; – Associação funcional marcante entre os genes mutados no tumor; – Modelo já proposto na literatura (e.g. [Bredel M et al., 2009])

87 CONCLUSÃO Conclusão

88 New-Generation Sequencing (NGS) – Avanços sem precedentes Obter informações genômicas em curto tempo a um custo razoável; – Flexibilidade para ser aplicada em uma série de estudos genômicos; » Genômica de organismos não-modelos; » Regulação gênica em determinadas situações e condições biológicas; » Caracterização da relação evolutiva entre genomas ancestrais (Comparative and Evolutionary Genomics); » Elucidação dos eventos moleculares que direcionam a tumorigênese (Cancer Genomics); – Redução da distância em direção a uma medicina personalizada; – Desafios Infraestrutura de sistemas de informação tecnológica (TI) – BIG Data » transferência de dados, armazenamento, controle de qualidade, sistemas computacionais eficientes (algoritmos e hardware);

89 Daniel Guariz Pinheiro OBRIGADO !!! Perguntas...


Carregar ppt "New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento."

Apresentações semelhantes


Anúncios Google