New Generation Sequencing and Bioinformatics in the Big Data Era

New Generation Sequencing and Bioinformatics in the Big Data Era
Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Apresentação… Nome, Laboratório, Instituições… Agradecimento… “Nova geração de Sequenciamento e a Bioinformática na Era “Big Data” (“Quantidade Imensa de Dados”)

BiG DATA ERA Introdução
Em 2010, o universo digital somou 1,2 ZettaBytes. Em 2011 o número subiu para 1,8 ZettaBytes Estudo da IDC sobre o Universo Digital patrocinado pela EMC, maio de 2010 1 ZettaByte (ZB) = 1 Trilhão 1,000,000,000,000 GigaBytes (GB) 1,2 ZB = 2 pilhas de DVDs da terra à lua ( Km) Introdução International Data Corporation (IDC) – empresa de consultoria e inteligência de mercado; Era dos Grandes Volumes de Dados. Ouvimos muitas previsões. Em 2020, a quantidade de dados armazenados eletronicamente chegará a 35 trilhões de gigabytes, um aumento de 44 vezes a partir de Já teríamos atingido a casa de 1,2 milhões petabytes, ou 1,2 zettabytes no fim de 2010, segundo a IDC. O equivalente para formar duas pilha de DVDs do tamanho da distância da Terra à Lua - cerca de 240 mil milhas. BiG DATA ERA D. ALLISON

“Big Data” Era “…information in our world is exploding. There are expected to be 1 trillion new devices connected to the Internet in the near future, which will help drive 44X digital data growth by the year 2020, 80 percent of which will be unstructured content and will require great effort to analyze. By Steve Mills IBM’s Senior Vice President & Group Executive, Software & Systems CISCO – empresa mundial de sistemas de rede CISCO estimates that the monthly global internet traffic in the spring of 2010 was 21 exabytes. 1 ExaByte (EB) = 1,000,000,000 GigaBytes (GB)

“Big Data Era” na Ciência
Researchers need to adapt their institutions and practices in response to torrents of new data — and need to complement smart science with smart searching. Editorial E toda essa revolução que acontece no mundo, na ciência acontece o mesmo. Essa preocupação em como lidar com a quantidade de dados que são gerados é compartilhada. Em setembro de 2008 na revista Nature, o assunto é abordado, numa edição especial com o título “Ciência na Era do PetaByte”. Esse é um trecho do Editorial, com uma mensagem de alerta aos pesquisadores, que devem adaptar as práticas em resposta a torrente de dados crescente. Setembro 2008 1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)

Ciclo do Conhecimento hypothesis-driven science data-driven science
Gene Knock-outs Protein Assays Point mutations … Microarrays Genomics Meta-genomics HT proteomics (Kell DB et al., 2004) hypothesis-driven science data-driven science A forma de fazer ciência tem acompanhado essa nova realidade o fluxo do conhecimento não necessariamente precisa ser estritamente único e unidirecional partindo da hipótese, passando pela análise dos dados até a conclusão. Os métodos que partem da análise dos dados e são direcionados por ela são também válidos e podem podem prover os meios de gerar novas hipóteses e estas podem ser testadas até uma conclusão. Na verdade não são dois métodos válidos, mas complementares que funcionam de forma iterativa; “…computational methods of data analysis, which may be automated, provide the means of generating novel hypotheses, especially in the post-genomic era.” (Kell DB et al., 2004)

Inundação de Dados na Área de Ciências Biológicas
genomas completos sequenciados; dados de variações genômicas; projetos de Meta-Genômica; dados de transcritomas; dados de proteínas; dados de interações entre proteínas; … O que provoca esse acúmulo de dados na área de ciências biológicas?

Explosão de Sequências
Esse aumento do número de dados é produto da explosão na quantidade de sequencias geradas ao longo dos últimos anos, e no número de bases geradas e de sequências genômicas e de genes, acompanhada da queda no custo do sequenciamento. Esse gráfico publicado na revista nature, se fosse completo teria o tamanho de duas girafas completas. Proporcionalmente vocês podem ter essa noção com a imagem da girafa ao lado. Algo marcante no gráfico é a quantidade de sequências biológicas humanas, antes do SRA e depois. O SRA é um repositório de sequências de nova geração.

Preparação Alguns centros como o EBI já começaram a se preparar para essa nova Era, esse é um artigo de 2009 que descreve a experiência de adaptação da infra-estrutura do EBI (centro europeu de Biotecnologia) para lidar com a quantidade de dados crescente. Além de se preocupar em como armazenar os dados a preocupação também está em como disponibilizar, analisar, interpretar e visualizar os dados.

Desafios Pontos urgentes que devem ser enfrentados:
Transferência de dados, controle de acesso e gerenciamento; Padronização dos formatos de dados; Integração dos dados oriundos de múltiplas fontes. Dados com características Multi-dimensionais e em um volume imenso; Exemplo: Análise funcional de variações no DNA em múltiplas amostras em diferentes tipos de tumores utilizando dados de sequenciamento de nova geração; Modelos preditivos para fenótipos complexos demandam computação intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede Bayesiana para representar um modelo de regulação gênica) E quais são os Desafios, ou seja, os pontos críticos… transferência de dados, maneira mais eficiente é a gravação em discos e envio através do correio; cada plataforma gera um tipo diferente de formato que deve ser convertido para que possam ser integrados; Integração dos dados é -NP difíceis, que não têm uma solução exata, são utilizadas heurísticas para uma aproximação da solução ótima e exige computação intensa; Although processing individual data dimensions is complex (for example, uncovering functional DNA variation in multiple cancer samples using whole-genome sequencing)

Integração dos Bancos de Dados Biológicos
Características Grande volume de dados; Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); Não há padrão para os nomes dos objetos; Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) Não há padrão para acesso aos dados, cuja natureza é distribuída; Utilização de formatação padrão para troca de informações (e.g. GFF) e web services; Definição variável para alguns conceitos; e.g. gene Dados altamente heterogêneos mas inter-relacionados; Informação dinâmica e em constante atualização; BigTable – banco de dados orientado a colunas criado pelo Google para gerenciar petabytes de informações

Soluções computacionais
Cloud-based computing; Ambientes computacionais heterogêneos; Integração de aceleradores especializados (GPUs); Aumento do número de computadores; Otimização de algoritmos; Heterogeneous computational environments = Computers that integrate specialized accelerators, for example, graphics processing units (GPUs)

Primeiros passos... Compreensão da natureza dos dados, ou seja, da sua magnitude e complexidade, e dos recursos disponíveis (memória, espaço,...); Compreensão dos algoritmos; Compreensão das vantagens e desvantagens das arquiteturas disponíveis; A decisão não é sempre óbvia e muitas vezes consiste em uma combinação delas; Primeiros passos para lidar com esses desafios e poder tomar as decisões corretas, o que utilizar cloud-computing. sistemas computacionais heterogêneos?

Soluções no Brasil O EMU (Equipamento MultiUsuário) é uma plataforma de alta-performance para análises computacionais aplicadas à genômica e à transcriptômica. Financiamento: Programa Multiusuário da FAPESP de 2010, com uma contra-partida do Instituto Ludwig de Pesquisa sobre o Câncer.

Por quê sequenciar ? Sequenciamento Motivação
Aplicações diversas: identificar sequências funcionais e caracterizar genomas ou transcriptomas; Da Genômica Comparativa à Medicina Genômica; Propósitos gerais; Análogo às aplicações de um Computador Pessoal (PC) Esse fenômeno aconteceu devido à evolução das técnicas de sequenciamento. Do entendimento das relações evolutivas entre as espécies e quais caracteres estão conservados entre elas. À utilização do conhecimento para ser utilizado em uma medicina personalizada, a relação entre variações no genoma e doenças, a relação com determinado medicamento, etc.

Introdução revisão histórica

Marcos históricos Experiments in Plant Hybridization
Leis da hereditariedade 1865 Gregor Johann Mendel Termo Gene = unidade mendeliana da hereditariedade 1909 Wilhelm Johannsen DNA = caracter hereditário 1944 Oswald T. Avery Colin M. MacLeod, Maclyn McCarty Estrutura do DNA 1953 James Watson Francis Crick Maurice Wilkins Rosalind Franklin Métodos para o sequenciamento de DNA 1977 Walter Gilbert Frederick Sanger Banco de Dados de Sequências Biológicas 1982 NCBI GENBANK Sequenciador Semi-Automático e surgimento do primeiro sequenciador comercial (ABI) 1986 Leroy Hood Polymerase Chain Reaction 1985 Kary Mullis Darryl Leja , NHGRI Marcos históricos para a Genômica. Vamos voltar ao século 19, em 1859, ano em que Charles Darwin publica o livro a Origem das Espécies, que explica a origem das espécies através da Seleção Natural e a sobrevivência do mais adaptado... A história toda começa por aí... Em 1866, Mendell publica seus estudos sobre as leis da hereditariedade, que propões que as características hereditárias são transmitidas em unidades. O trabalho permanece quase ignorado até 1900. Em 1909 é introduzido o termo "gene" para descrever a unidade mendeliana da hereditariedade. Nesse momento surgem os termos "genótipo" e "fenótipo" referindo respectivamente às características genéticas de um indivíduo de sua aparência externa. Depois de Mendel, diversos cientistas produziram importantes contribuições ao estudo dos genes, durante a primeira metade do século XX. E assim foram surgindo diversas evidências que forneceram as bases para um outro marco histórico, a descrição da estrutura molecular do DNA. Avery provou que era o Ácido Desoxirribonucleico (ADN) o responsável pela transferência de material genético entre células num processo chamado "transformação". A descoberta sugeria que o ADN seria o material genético básico da célula (princípio transformante), facto que veio a ser confirmado por cientistas posteriores. O trabalho de Avery inspirou várias pesquisas sobre a estrutura do ADN, agora conhecida como código genético. Em relação à evolução dos computadores, em 1946, cientistas da Universidade da Pensylvânia, construíram o primeiro computador eletrônico, conhecido como ENIAC. É interessante observar que existe um paralelo entre o uso da informática para decifrar a informação genética e uma das primeiras grandes aplicações dos computadores (ou mesmo motivador da sua criação), que foi decifrar o código secreto usado pelos alemães na 2a. guerra mundial. Método Químico Método Enzimático

Início do PGH PGH - início em 1990
Mapeamento detalhado do genoma humano 5000 cientistas, de 250 diferentes laboratórios; 15 anos. 5 a 10 Bilhões de dólares (US$); Otimismo exacerbado; Para muitos pesquisadores um projeto irrealizável; Para outros a oportunidade de transformar a Genética em Big Science; Para muitos pesquisadores tratava-se na época de um projeto irrealizável. Para outros não havia sentido em mapear o genoma pois as infomações obtidas seriam desencontradas e não valeriam o esforço. Por outro lado, alguns pesquisadores viram naquela oportunidade a chance de transformar a biologia (e mais especificamente a genética) em big science, com direito a financiamentos gigantescos e divulgação ampla.

Projeto Genoma Humano The International Human Genome Sequencing Consortium 13 anos ( ) U$ ,00 (3 BILHÕES de DÓLARES!!!) Avanços imediatos proporcionados Identificação de ~ genes (~20% material genético total); Possibilitou a descoberta de ~1.800 genes relacionados a doenças, facilitando a identificação de outros genes; Permitiu o desenvolvimento de mais de testes genéticos; Ao menos 350 produtos biotecnológicos resultantes deste conhecimento já estão em testes clínicos; Desenvolvimentos de ferramentas para análise genômica, inclusive de outras espécies de interesse biomédico e econômico; Promoveu discussões éticas, legais e implicações sociais em torno do assunto; Consituição de uma base de conhecimento;

...no Brasil Publicação do rascunho do Genoma Humano Iniciativa pública Projeto Genoma Humano 1990 1999 2001 ... 1997 2000 2002 2003 2011 – = 34 anos O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Conhecimento e compreensão Se por um lado os resultados da pesquisas na área da genômica - ciência que estuda o genoma - são absorvidos cada vez mais rapidamente pela sociedade, resultando em benefícios para os indivíduos, por outro a velocidade com que isso acontece pode deixar muitas pessoas perdidas. "A velocidade com que o conhecimento está sendo produzido é muito grande, e há novos conhecimentos se sobrepondo o tempo todo. Não podemos banalizar essas constantes mudanças de paradigmas. Então é imprescindível que na atividade de ensino se enfatize a necessidade de 'se abrir para o novo' e a capacidade de aprender constantemente", alerta Goldim. "Para se ter uma ideia, na minha época de faculdade havia quatro tipos de RNA: o mensageiro, o transportador, o ribossômico e o chamado small nuclear enlace. Atualmente já existem 10 tipos de RNA, por exemplo. Até o que chamávamos de 'DNA lixo' hoje sabemos que não é tão lixo assim. Há indícios de que esses pseudogenes - que eram definidos como genes em decaimento, em final de carreira - têm funções regulatórias muito importantes, e que alterações nas suas funções estão relacionadas com doenças como o câncer", lembra Anamaria. Outro fator importante de se observar é a multidisciplinaridade cada vez mais presente na área da genética. "A genômica não é mais uma especialidade apenas do biólogo. Áreas como biomedicina, bioestatística, matemática, computação, farmacêutica estão se fundindo, e esse processo é extremamente criativo e importante", observa Moraes. Os pesquisadores apontam ainda que os próximos passos da genômica incluem o entendimento da complexidade da interação entre todo esse material - DNA, RNA e proteína. "Com certeza mais dogmas cairão por terra nos próximos anos", sentencia a Anamaria Camargo. Em 1990 é lançado o PGH. Com o objetivo de construir uma mapa do genoma humano. Para muitos pesquisadores tratava-se na época de um projeto irrealizável. Para outros não havia sentido em mapear o genoma pois as infomações obtidas seriam desencontradas e não valeriam o esforço. Por outro lado, alguns pesquisadores viram naquela oportunidade a chance de transformar a biologia (e mais especificamente a genética) em big science, com direito a financiamentos gigantescos e divulgação ampla. Em 1995 surgem as técnicas de análise de expressão gênica em larga escala, com essas técnicas é possível obter um perfil global da expressão de milhares de genes simultâneamente, a partir de uma determinada amostra de células. Ambas as técnicas quantificam a expressão de genes considerando a quantidade de moléculas de RNA mensageiro transcrita dos genes. Em 1996, foi estabelecido pelo NCI o CGAP, um projeto com o objetivo fornecer dados, ferramentas e informações para a determinação de perfis de expressão gênica de células normais e cancerosas, que podem ser úteis às pesquisas que conseqüentemente poderão auxiliar no diagnóstico, prognóstico e no tratamento de pacientes com câncer. Em 2000, pesquisadores do consórcio público Projeto Genoma Humano e da empresa privada norte-americana Celera anunciam o rascunho do genoma humano, que seria publicado em fevereiro de 2001. Em 2000 também é lançado pelo NCBI, o GEO, um importante repositório de dados de expressão gênica. O GEO, vou apresentar ele em mais detalhes nós próximos slides. No Brasil a genômica e a Bioinformática se desenvolve a partir da formação da rede ONSA em 1997, uma rede de laboratórios espalhados pelo Estado de São Paulo, que inicialmente surgiu com o objetivo de seqüenciar o genoma da bactéria Xylella fastidiosa, um patógeno que ataca os laranjais e causa uma doença conhecida como amarelinho. Em 2000 há a publicação do seqüenciamento completo do genoma da bactéria Xylella fastidiosa na revista Nature (Nature - Vol July 2000 ). Sendo o primeiro país a obter a seqüência completa de uma patógeno de plantas. O lançamento do projeto Genoma Humano do Câncer aconteceu em 1999. Organization for Nucleotide Sequencing and Analysis Conclusão do Projeto Genoma Humano 1ª experiência brasileira: Sequenciamento do Genoma da bactéria Xylella fastidiosa

Desenvolvimento dos Computadores
ENIAC, o 1° computador eletrônico Gordon E. Moore John Presper Eckert e John W. Mauchly Lei de Moore 1946 1965 Mas o Projeto Genoma Humano só foi possível com o desenvolvimento dos computadores e dos sistemas computacionais… Em 1965, o então presidente da Intel, Gordon E. Moore fez sua profecia, na qual o número de transistores dos chips teria um aumento de 100%, pelo mesmo custo, a cada período de 18 meses. Previsão = tornou-se uma Meta a ser batida 1981 1936 IBM PC (Personal Computer) Konrad Zuze Z1, o 1° computador eletro-mecânico

Lei de Moore

...e dos Sistemas Computacionais
Linguagem Estatística R Ross Ihaka e Robert Gentleman UNICS , Ken Thompson, Dennis Ritchie e outros na Bell Labs. Linguagem de Programação C Dennis Ritchie 1969 1972 1993 1971 UNIX – 1ª Versão 1987 1991 Linguagem de Programação Perl GNU/Linux

Bioinformática Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados. Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. O desenvolvimento dos computadores e dos sistemas computacionais, e também das técnicas de biologia molecular e sequenciamento foram essenciais para o desenvolvimento da Genômica, e a necessidade de análise dos dados gerados fez emergir uma nova ciência a bioinformática que combinava os conhecimentos em Computação, Biologia e Biomedical Information Science and Technology Initiative Consortium (BISTI - NIH)

Repositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan Pra organizar todos esses dados que foram sendo gerados, surgiram os primeiros repositórios de dados... A primeira base de dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de proteínas conhecidas até a data. Essas seqüências foram publicadas num livro chamado “Atlas of Protein Sequences and Structure”, de O conteúdo dessa base de dados não deveria conter mais de 1Mb de informação, se transferida para computadores modernos. Com o acúmulo desses dados provenientes de seqüenciamentos e informações relacionadas... Surgiram repositórios mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores. O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Hoje, o NCBI além de ser um enorme repositório de dados e informação biológica, proporciona um grande número de ferramentas de bioinformática e recursos para auxiliar o cientista na pesquisa genética. Além do NCBI, temos também o EMBL (Laboratório Europeu de Biologia Molecular) e o DDBJ (Banco de Dados de DNA, do Japão). Todos os 3 grandes centros possuem colaboração e compartilham dados entre si.

International Nucleotide Sequence Database Colaboration
2008 seqüências bases 1982 606 seqüências 2.427 bases Os 3 centros em colaboração alcançaram a marca de 100 Bilhões de pares de bases em Agosto de Sendo o GenBank do NCBI o que mais cresceu... Eles trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas. O Gráfico mostra os dados desde 1982 do GenBank, a curva expressa a grande quantidade de dados e seu crescimento exponencial.

Era “Pós-Genoma” "O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS) Genômica Estrutural Construção de mapas genéticos, físicos e de transcrição de um organismo. Genômica Funcional Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica.

Projetos “-omas” x Pesquisa Clássica em Genética e Bioquímica
Science 291: Genômica Transcritômica Proteômica Epigenômica Metabolômica … Comparação entre a genômica e a proteômica versus a pesquisa clássica em Genética e Bioquímica...

Genômica Funcional: Análise de Expressão Gênica
Métodos de obtenção de dados em larga escala + Métodos de Bioinformática (Genome-wide expression “profiling”) Revolução dos projetos “-omas” Mayo Clin Proc May;79(5):651-8 O termo que tem sido utilizado na comunidade científica para referenciar esse tipo de estudo é Genômica Funcional, que representa o desenvolvimento e a aplicação de abordagens experimentais para determinar a função e atuação dos genes. Ela utiliza as informações da genômica estrutural, que é a etapa inicial de análise de um genoma, que inclui o sequenciamento e mapeamento gênico, da transcriptômica, e da proteômica, o que inclui a avaliação e a quantificação respectivamente dos níveis de transcrição e tradução. Atualmente, após essa revolução dos “-omas”, emerge um novo conceito, o de Biologia Sistêmica, que é o estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema. Que procura integrar todas essas informações geradas nos estudos “-omas”. Reafirmando a falácia da composição, a que alega que a soma das partes é igual ao todo. Ignorando as propriedades emergentes. De acordo com a definição de Leroy Hood (co-fundador de um dos institutos de pesquisa mais importantes na área de biologia sistêmica) “Biologia Sistêmica é a ciência de descobrir, modelar entender e finalmente projetar no nível molecular as relações dinâmicas entre as moléculas biológicas que definem os organismos vivos.” A genômica funcional é caracterizada por metodologias para obtenção de dados em larga escala combinadas com análises estatísticas e computacionais. Como a atividade ou inatividade do gene (sua expressão) observada em condições biológicas específicas pode fornecer indícios sobre a função desse gene, uma das estratégias mais eficientes dentro da genômica funcional, que podem fornecer indícios da atidade desse gene, é a de quantificar a expressão gênica em larga escala e de determinar os diferentes perfis de acordo com determinadas condições ou situações.

Biologia Sistêmica Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “ Leroy Hood "Biologia Sistêmica é a Ciência de descobrir, modelar, entender e, em última instância, projetar as relações dinâmicas entre as moléculas biológicas que definem os organismos vivos".

Últimos anos Legião de Sequenciadores ABI 3730 no JCVI 2005 2007 ...
Sequenciamento do Genoma Diplóide de um único indivíduo (Craig Venter) The diploid genome sequence of an individual human. (Levy, S. et al. 2007) Legião de Sequenciadores ABI 3730 no JCVI 2005 2007 ... 2003 2006 2008 Genoma James D. Watson Sequenciamento com 454 Conclusão do Projeto Genoma Humano 1000 Genomes Project Next-Generation Sequencing Revollution

NEW GENERATION SEQUENCING AND APPLICATIONS
Introdução NEW GENERATION SEQUENCING AND APPLICATIONS

Nova Geração de Sequenciadores de DNA
PLATÔ TECNOLOGIA ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD Método Sanger Pirosequenciamento Sequenciamento por Síntese Sequenciamento por Ligação ABI 3730 plateau na tecnologia de sequenciamento utilizando dideoxinucleotídeos. Aumento na quantidade de Dados IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp) Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucos dias); Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); Redução do custo por base sequenciada;

Resumo das plataformas

Trade-offs in Next Generation Sequencing technologies
NHGRI Current Topics in Genome Analysis 2010 Elliott Margulies, Ph.D

Revisão: Métodos de sequenciamento de nova geração

NGS no mundo

James Watson’s Genome The recent publication and release to public databases of Dr James Watson's sequenced genome,1 with the exception of all gene information about apolipoprotein E (ApoE), provides a pertinent example of the challenges concerning privacy and the complexities of informed consent in the era of personalized genomics.2 Dr Watson requested that his ApoE gene (APOE) information be redacted, citing concerns about the association that has been shown with late onset Alzheimer's disease (LOAD), which is currently incurable and claimed one of his grandmothers.3

Genoma Neandertal 99,7% identidade humano moderno
Segundo Richard Green, "a decodificação do genoma de Neandertal é uma mina de informação sobre a evolução recente da humanidade e será aproveitada nos próximos anos". O fato de os genes do Neandertal aparecerem no genoma de indivíduos de origem europeia e asiática, mas não entre os africanos, sustenta essa hipótese. 99,7% identidade humano moderno De 1% a 4% do genoma humano (2% de seus genes) provêm do homem de Neandertal

Detecção de Variantes Genômicas
Detecção de Variações (Padrão normal de variações) Single Nucleotide Variants (SNVs) Small Insertions/Deletions Structural variants (Large Insertions/Deletions/Inversions) Copy-Number Variants (CNVs)

Catálogo de Mutações Somáticas
Sequenciamento de diferentes tipos de câncer Cancer Driver mutations – mutações responsáveis pelo desenvolvimento do câncer (Cancer Genes);

COSMIC Catálogo de Mutações Somáticas em Câncer, resultado também de sequenciamentos completos de diversos cânceres;

Novas promessas HeliScope ION Torrent PacBio RS Helicos BioSciences
Applied Biosystems PacBio RS Pacific Biosciences 2008 2010 2010

$1000 genome Re-sequenciamento genoma humano completo (3000 Mb)
454 sequencing (average read length= bases): 10-fold coverage Illumina and SOLiD sequencing (average read length= bases): 30-fold coverage Valores nos últimos anos Julho 2010 (~U$31.125,00) Julho 2011 (~U$10.500,00) Normalmente a Lei de Moore’s é uma referência para todo avanço tecnológico. Neste caso a redução de custo. The following 'sequence coverage' values were used in calculating the cost per genome: Sanger-based sequencing (average read length= bases): 6-fold coverage 454 sequencing (average read length= bases): 10-fold coverage Illumina and SOLiD sequencing (average read length= bases): 30-fold coverage For data since January 2008 (representing data generated using 'second-generation' sequencing platforms), the "Cost per Genome" graph reflects projects involving the 're-sequencing' of the human genome, where an available reference human genome sequence is available to serve as a backbone for downstream data analyses. The required 'sequence coverage' would be greater for sequencing genomes for which no reference genome sequence is available. National Human Genome Research Institute (NHGRI)

Produtividade http://genome.wellcome.ac.uk/doc_WTX059576.html
Improvements in the rate of DNA sequencing over the past 30 years and into the future. [Stratton MR, et al. 2009]

Gordon Moore´s Genome

Sequence Read Archive I nternational N ucleotide S equence D atabase C ollaboration SRA (NCBI Sequence Read Archive): ENA (EBI European Nucleotide Archive): DRA (DDBJ Sequence Read Archive): “(…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)” “We’re currently at 8.5 Terabases (Tb) of biological sequence under management. We’re growing by about 1 Tb/month.” NCBI’s staff scientist Martin Shumway in 2007 [Leinonen R et. al., 2011]

1000 Genomes Consórcio Internacional (2008)
Catálogo completo e detalhado de Variantes Genômicas Humanas (SNPs e variações estruturais) Projeto Genoma Humano HapMap Catálogo das variações genéticas mais comuns (SNPs c/ freq. > 5%) em diferentes populações humanas; 2500 genomas de 25 populações Mínimo de cobertura: 3x - Genoma completo; 20x – exome capture; Suporte financeiro Wellcome Trust Sanger Institute (Inglaterra); Beijing Genomics Institute (China); National Human Genome Research Institute (EUA); variantes genômicas que aparecem em ao menos 1% da população e que caracterizam um polimorfismo, sequenciando em torno de 1000 genomas de indivíduos de diferentes grupos étnicos

Publicação Fase piloto

UK10K Genomes Objetivo: identificação de variantes raras (freq. alélica abaixo de 0.1%) Associação com fenótipos extremos em condições específicas (ex.: doenças relacionadas ao desenvolvimento neurológico e obesidade) Sequenciamento 4000 genomas (6x) 6000 exomas

…e outros i5K Genome10K 1001 Genomes 1KP 5000 genomas de insetos
importância especialmente para a agricultura; Genome10K 10000 genomas de vertebrados diversidade genética entre vertebrados; 1001 Genomes 1001 cepas de Arabdopsis thaliana planta modelo, base de estudos; 1KP 1000 genomas de plantas desenvolvimentos de produtos biotecnológicos;

Genome-Wide Association Studies
Estudos que procuram identificar a associação entre genótipos e fenótipos (e.g. doenças, resposta a medicamentos, etc.); Identificar a fatores genéticos de risco para o desenvolvimento ou progressão de determinadas doenças; Catálogo de associações dbGaP ( Ferramentas úteis para o diagnóstico, prognóstico ou mesmo o tratamento de determinadas doenças.

“Counting Experiments”
Ótimo Review sobre tais métodos… methyl-sensitive restriction enzymes Methyl-seq as a technique for identifying methylation patterns in the genome bisulfite treatment – converte citosina não metilada para uracila ChiP (Chromosome Immunoprecipitation) is a technique where DNA binding proteins, like transcription factors, can be localized to regions of a DNA molecule.

Análise RNA-Seq RNA-Seq “Whole Transcriptome Shotgun Sequencing”
High-Throughput sequencing of cDNA RNA-Seq – Quantificação da expresão dos genes no transcriptoma de camundongos Myf6 - myogenic factor 6 Expressão específica em células musculares A – Correlacao entre replicatas tecnicas B – Porcentagem de sequencias mapeadas em exons, introns e regioes intergenicas C- Correlacao entre o valor de RPKM e as diferentes concentracoes de 6 transcritos sinteticos D – Fracao dos genes dentro do valor final de RPKM apos 41 milhoes de sequencias mapeadas em relacao a profundidade do sequenciamento, para diferentes classes de transcritos dos mais expressos aos menos expressos A fração de genes nas classes de expressão (das mais expressas as menos expressas de acordo com o valor RPKM apos 41 milhoes de seqs mapeadas.

Análise ChIP-Seq ChIP-Seq ChIP – Chromatin ImunoPreciptation
High-Throughput sequencing ChIP-Seq – Estudo da estrutura da cromatina Padrão de metilação de histonas no genoma humano Uma das primeiras publicações utilizando Illumina 1G Genome Analyzer Reproducibilidade r = (p-value < 2.2e-16). Anticorpos para capturar os nucleossomos com histonas modificadas por metilação Metilação É a substituição de um hidrogênio (H) por um grupo metil (CH3). Em sistemas biológicos essa reação é catalisada por enzimas e está envolvida na modificação de metais pesados, na regulação da expressão gênica e no metabolismo de RNA. A metilação de DNA é um tema vasto, muito importante e estudado atualmente. Em proteínas a metilação ocorre em resíduos de arginina ou lisina. A metilação protéica é hoje mais bem conhecida em histonas, as proteínas responsáveis pelo enovelamento das fitas de DNA. A transferência de grupos metil de S-adenosil metionina (SAM, um cofator enzimático presente em todas as células eucarióticas) para histonas é catalisada por enzimas conhecidas como histona metil transferases. A metilação das histonas pode influenciar na expressão gênica, sendo portanto um fator epigenético. A condensação pode ser conduzida por processos incluindo deacetilação e metilação; a ação de metilação é indireta e não tem efeito sobre a carga. montante – upstream (gene - antecede 5’) jusante – downstream genome-wide mapping technique (GMAT) CHiP+SAGE ( ChIP-Seq X GMAT (Genome-wide Mapping Technique)

Análise Methyl-Seq Methyl-Seq
DNA treatment with methyl-sensitive restriction enzymes (HpaII - não metilada, MspI - indiferente) High-Throughput sequencing Methyl-Seq – Estudo de padrões de metilação do DNA em hESCs, células derivadas de hESCs e fígado fetal humano MspI – metilada ou não metilada HpaII – somente não metilada (5’-CCGG-3’) In each Methyl-seq experiment, we infer the methylation status from the presence or absence of HpaII tags at each digestion site. We called regions with an average tag count of greater than one tag per digestion site as unmethylated and called the remaining regions as methylated. Tags presentes em MspI e não em HapII estão metiladas ROC – taxa de verdadeiros positivos por taxa de falsos positivos AUC = 0.94 Methyl-Seq x Illumina Infinium methylation status: presence or absence of HpaII tags: average tag count > 1 unmethylated

Análise microRNA-Seq microRNA-Seq
small RNA library (mirVana miRNA Isolation Kit) High-Throughput sequencing microRNA-Seq – Caracterização dos miRNAs expressos em tecido gástrico humano (cardia - estômago) Plataforma SOLiD qRT-PCR 2 -∆Ct The cardia is the anatomical term for the part of the stomach attached to the esophagus. Pearson correlation (SOLiDxqRTPCR) r2 = 83.9 (p-value < 0.05)

Resumo de Aplicações Category Examples of applications
Complete genome resequencing Comprehensive polymorphism and mutation discovery in individual human genomes Reduced representation sequencing Large-scale polymorphism discovery Targeted genomic resequencing Targeted polymorphism and mutation discovery Paired end sequencing Discovery of inherited and acquired structural variation Metagenomic sequencing Discovery of infectious and commensal flora Transcriptome sequencing Quantification of gene expression and alternative splicing; transcript annotation; discovery of transcribed SNPs or somatic mutations Small RNA sequencing microRNA profiling Sequencing of bisulfite-treated DNA Determining patterns of cytosine methylation in genomic DNA Chromatin immunoprecipitation– sequencing (ChIP-Seq) Genome-wide mapping of protein-DNA interactions Nuclease fragmentation and sequencing Nucleosome positioning Molecular barcoding Multiplex sequencing of samples from multiple individuals nucleossomo – fita de DNA enrolada ao complexo de histonas Mnase – enzima que preferencialmente corta regiões ent <molecular biology> A nonrandom arrangement of nucleosomes on DNA, in which, at certain segments of the genome, nucleosomes are positioned in the same way relative to the nucleotide sequence in all cells. most nucleosomes are arranged randomly, but phasing has been detected in some genes. Reduced representation – uso de enzimas de restrição [Shendure, J & Ji, H, 2008]

Introdução exemplo de abordageM

Breast Cancer Sequencing Project
Objetivo: Catálogo completo de mutações somáticas na linhagem celular de tumor de mama (HCC1954) utilizando como base de comparação uma linhagem celular linfoblastóide obtidas de um mesmo paciente (HCC1954BL).

Sequenciamento gDNA cDNA Whole Genome Sequencing Exome Capture
Shotgun and paired-end sequencing Exome Capture cDNA Whole Transcriptome Sequencing ~ 350GB dados

Publicações Zhao Q et al., Transcriptome-guided characterization of genomic rearrangements in a breast cancer cell line. Proc Natl Acad Sci U S A Feb 10;106(6): Epub 2009 Jan 30. PubMed PMID: ; Zhao Q et al., Systematic detection of putative tumor suppressor genes through the combined use of exome and transcriptome sequencing. Genome Biol. 2010;11(11):R114. Epub 2010 Nov 25. PubMed PMID: ; Galante PA et al., Distinct patterns of somatic alterations in a lymphoblastoid and a tumor genome derived from the same individual. Nucleic Acids Res Aug;39(14): Epub 2011 Apr 14. PubMed PMID: ;

HCC1954 Representative SKY Karyotype pseudotetraploid cell line
Linhagem celular derivada de carcinoma ductal de mama (estágio IIA, grau 3 invasivo, sem metástase nos linfonodos) extraído de uma paciente (Mulher, 61 anos, indiana) [Gazdar AF , et al., 1998]

HCC1954BL HCC1954BL is an Epstein-Barr virus (EBV)-transformed lymphoblastoid cell line derived from the same patient. Both cell lines received similar treatments in terms of the timing of establishment and in vitro propagation (36 passages);

Objetivo Catalogar as mutações somáticas encontradas nas linhagens HCC1954 e HCC1954BL em busca de padrões que possam caracterizar as alterações genéticas que ocorrem em um determinado tumor e que direcionam a tumorigênese (driver mutations) em relação às mutações passageiras (passenger mutations); Motivação: Primeiro trabalho a caracterizar as mutações somáticas presentes na linhagem não tumoral e tumoral de um mesmo paciente (outros estudos focados apenas nas mutações somáticas do tumor);

Dados gDNA paired-end sequencing
Illumina GAII gDNA exome capture (Nimblegen Sequence Capture 2.1M Human Exome array) Roche 454 GS FLX HCC1954 HCC1954BL Capture sequencing Paired-end sequencing Total number of reads 5,996,389 381,274,888 6,265,250 347,891,568 Fragments ~200bp 36 pb / 80 pb

Dados de Referências Genoma referência NCBI build 36.1/hg18;
Regiões com haplótipos alternativos e o loci de imunoglobulinas foram excluídos; UCSC Genome Browser dbSNP version 130; RefSeq (mRNAs e ncRNAs); Regiões com haplótipos alternativos o loci da imunoglobulina foram excluídos devido a alta taxa polimorfica e estruturas rearranjadas. Haplótipo é um grupo de polimorfismos de único nucleotídeo (SNPs) em uma única cromátide que estão estatisticamente associados.

Alinhamento gDNA paired-end sequencing gDNA exome capture
Illumina GAII (Bowtie [Langmead B et al., 2009]) gDNA exome capture Roche 454 GS FLX Titanium (BLAT [Kent WJ, 2002]) HCC1954 HCC1954BL Capture sequencing Paired-end sequencing Total number of reads 5,996,389 381,274,888 6,265,250 347,891,568 Mapped reads 5,212,428 254,326,859 5,106,763 237,886,727 Percentage of mapped reads 86.9 66.7 81.5 68.4 Total number of nucleotides 3,143,589,263 19,392,752,128 3,252,428,887 15,693,171,704 Mapped nucleotides 2,257,027,363 13,432,965,012 2,175,120,803 11,166,288,816 Percentage of mapped nucleotides 71.8 69.3 71.1 Fragments ~200bp 36 pb / 80 pb

Pré-processamento Leituras duplicadas mapeadas em coordenadas idênticas foram fundidas; Leituras com mapeamento ambíguo foram desconsideradas;

Estratégia para Detecção de Mutações
desconsiderando LOH para evitar uma complexidade extra. A zigosidade e as regiões com perda de heterozigozidade (LOH) foram estimadas por HMM usando dados públicos de microarranjos de SNPs (Affymetrix SNP array) e confirmadas com os dados de Exoma

Análise de SNVs Independentemente para cada linhagem em relação ao genoma referência; 3 leituras com qualidade >= 20 suportando a variação; Análise de mutações somáticas Profundidade na cobertura de ao menos 5 leituras em ambas as linhagens; Leituras suportando a variação devem constituir ao menos 20% do número total de leituras; Variações comuns ao dbSNP foram desconsideradas para a; Variações comuns às duas linhagens foram excluídas; Falsas chamadas de mutação residindo em regiões onde há perda de heterozigose (LOH); NVs common to both genomes and/or already described in dbSNP were excluded from the somatic point mutation analysis since they likely correspond to inherited sequence variants

Single nucleotide variations identified in the HCC1954 and HCC1954BL genomes
SNVs three reads with base quality ≥20 HCC1954 HCC1954BL N (%) in dbSNP Substitutions 82355 (92.68) 83474 (93.60) Coding 11717 (90.92) 12373 (93.84) Intronic 60314 (92.53) 61428 (93.77) UTR 3419 (92.57) 3570 (94.04) ncRNA 256 (96.87) 260 (96.92) Intergenic 6649 (91.84) 5843 (90.86) Indels 689 (52.10) 587 (52.81) 38 (50.00) 31 (51.61) 595 (52.43) 506 (54.15) 30 (46.66) 26 (42.30) 1 (100.00) 1 (0.00) 25 (52.00) 23 (39.13) Maioria delas comuns a ambas as linhagens 92% descritas no dbSNP 8% novos SNVs [Bentley, DR et al., 2008] [Wheeler, DA et al., 2008]

Comparação com SNP Array
Affymetrix Mapping 250K Sty2 SNP Array GEO: GSE12019 and GSE13373 Correspondência com as regiões de detecção (sequenciada ao menos 1 vez) 93.7% HCC1954 97.8% HCC1954BL Detecções corretamente identificadas 80.8% HCC1954 83.3% HCC1954BL Diferença de performance entre as linhagens não significante (p-value=0.69, χ2=0.16, df=1) Diferença de eficiência não significante

Análise de Variações Estruturais
Dados desconsiderados Leituras que mapearam em regiões altamente repetitivas (1Mb); Leituras onde os pares maperam dentro da distância esperada porém, uma das leituras em orientação incorreta; Requisitos 5 pares de leituras suportando a variação em HCC1954 e nenhuma em HCC1954BL; Rearranjos intercromossomos: leituras em pares mapeadas unicamente em cromossomos distintos; Rearranjos intracromossomos: Deleções: distância maior do que a esperada (average+4*SD); Duplicação in tandem: orientação e distância não esperada; regiões altamente repetitivas : centrômero ou telômeros orientação correta -> <-

Sequenciamento em pares
mate-pair paired-ends (Korbel et al. , 2007) Referência: 36 bp >SOLEXA01:1:1:27:1992#0/1 >SOLEXA01:1:1:27:1992#0/2 Referência: ~ 128 bp a ~428 bp paired-ends 36 bp

Somatic point mutations and structural variations in the HCC1954 and HCC1954BL genomes
Mutações somáticas Somatic variations HCC1954 HCC1954BL N (%) Point mutations 274 (100) 173 (100) Coding 64 (23.36) 30 (17.3) Nonsense 2 (0.73) 3 (1.7) Missense 45 (16.42) 15 (8.7) Synonymous 17 (6.20) 12 (6.9) Non-coding 14 (5.11) UTR 13 (4.74) 13 (7.5) ncRNA 1 (0.36) 2 (1.2) miRNA 0 (0) Intronic 179 (65.33) 114 (65.9) Splice site Other intronic Intergenic 14 (8.1) Structural variations 94 (100) 4 (100) Interchromosomal 49 (52.1) Intrachromosomal 45 (47.9) Deletions 30 (31.9) 2 (50.0) Inversions 11 (11.7) Duplications 4 (4.3) HCC1954 dNs/dS = 2.8 HCC1954BL dNs/dS = 1.5 Diferença significativa entre as taxas (p=0.031; χ2=4.68; df=1) dNs/dS - taxa usada como estimativa do grau de seleção - assumindo que mutações sinônimas são biologicamente neutras mutações não sinônimas são mais frequentes na linhagem tumoral Simulação de Monte Carlo => dS como esperado 38 regiões gênicas 22 já descritas [Stephens, PJ et al., 2009] [Zhao, Q et al., 2009]

Mutações pontuais e variações estruturais
Circos plot representing somatic point mutations and structural variations in the (A) HCC1954 and (B) HCC1954BL genomes. Chromosome representations are shown around the outer ring and are oriented in a clockwise direction. Other tracks contain (from outside to inside) point mutations as dots (non-synonymous labeled in back and synonymous labeled in red), physical coverage of the genome by paired-end reads in green, interchromosomal rearrangements represented by colored lines linking two chromosomes (different colors representing interchromosomal rearrangements are determined by the first chromosome in the circos in the clockwise direction starting with chromosome 1), intrachromosomal deletions as blue lines, inversions as black lines and duplications as gray lines. Circos plot representing somatic point mutations and structural variations in the (A) HCC1954 and (B) HCC1954BL genomes. mutações somáticas pontuais: pontos (preto: NS; vermelho S); cobertura do genoma: região em verde; rearranjos cromossômicos: linhas conectando dois cromossomos; deleções: linhas azuis; inversões: linhas pretas; duplicações: linhas cinzas;

Frequência de substituições
Espectro similar de substituições Transições purina<->purina (AG) pirimidina<->pirimidina (CT) Predominância de transições

Validação Mutações pontuais 45 mutações Ns válidas
PCR e Sequenciamento com o método de Sanger (ABI3130) HCC1954 (47 mutações Ns) 33 (70.2%) já descritas na literatura; 12/14 (85.7% ) foram validadas (Sanger); 45 mutações Ns válidas 42 (93.3%) em resíduos de aminoácidos conservados evolutivamente (10 espécies distintas); HCC1954BL (18 mutações Ns) 12 (66.6%) foram validadas (Sanger); 12 mutações Ns válidas 11 (91.6%) em resíduos de aminoácidos conservados evolutivamente (10 espécies distintas); manualmente verificado UCSC em 10 espécies distintas

Análise de Vias Biológicas
Vias metabólicas/regulatórias relacionadas com a tumorigênese KEGG ID KEGG annotation Number of genes in the pathway Gene Name P-value HCC1954 hsa05222 Small cell lung cancer 3 ITGA6 TP53 TRAF2 0.0003 hsa05410 Hypertrophic cardiomyopathy 2 ITGA6 MYH7 0.0167 hsa04210 Apoptosis TP53 TRAF2 0.0169 hsa05414 Dilated cardiomyopathy 0.0191 hsa04010 MAPK signaling pathway ARRB1 TP53 TRAF2 0.0237 hsa00770 Pantothenate and CoA biosynthesis 1 DPYD 0.0325 hsa04360 Axon guidance CFL2 SEMA3A 0.0335 hsa04614 Renin-angiotensin system LNPEP 0.0372 hsa05200 Pathways in cancer 0.0375 HCC1954BL hsa03440 Homologous recombination EME1 0.0234 hsa00310 Lysine degradation SETD2 0.0382 hsa04740 Olfactory transduction OR51E2 OR2D2 0.0421 Simulação de Monte Carlo (1000 conjuntos aleatórios 45 e 12 genes) Todos os genes conhecidos e 200 vias metabólicas/regulatórias do KEGG

Interações entre Proteínas
PPI DBs MINT, BIOGRID, INTACT, HPRD, BIND, DIP HCC1954 25/45 (55.5%) HCC1954BL 8/12 (66.7%) Não há diferença significativa em termos de representação (p=0.729; χ2=0.12; df=1)

Análise de Interações entre Proteínas
Tumorigenesis pathways: apoptosis (TP53, TRAF2, SLC25A5) MAPK signaling (TP53, ARRB1, TRAF2) cell adhesion (ITGA6) cytoskeleton organization (PCNT, CLIP1) cell cycle (RFC4, PCNT) PPI DBs MINT BIOGRID INTACT HPRD BIND DIP Porcentagem de genes com mutações NS validadas que tinham ao menos uma PPI. Porcentagnes similares foram encontradas HCC1954 (55.5%, 25/45) and HCC1954BL (66.7%, 8/12) (P=0.729, χ2=0.12, df=1), indicando que não há diferença em termos de representação. Proteínas com um grande número de interações podem ser consideradas HUBs em vias moleculares. - Interação maior com outras proteínas; Simulação de Monte Carlo com o mesmo número de proteínas 5 p/ HCC1954 e 5 p/ HCC1954BL Organização em redes de interação funcional A presença de maior conectividade em HCC1954 não é devido ao maior grau de conectividade dos patwhays contendo os genes mutados. Pois : Todos os genes do KEGG dos pathways onde havia ao menos uma proteína mutada em HCC1954 e HCC1954BL e verificou-se a média de conectividade 2311 (18.4) e 395 (22.1) sem diferença significativa (p=0.0921) Protein–protein interactions networks for mutated genes in HCC1954 (A) and HCC1954BL (B). Key Cancer Genes: BRCA1, CDC42, CHECK1, MDM2, MAP3K1/3 SMAD2/3 Alto grau de interações em HCC1954 (33.2) (P=0.0017, Monte Carlo simulation) Baixo grau de interações em HCC1954BL (5.1) (P=0.875, Monte Carlo Simulation) proteínas com mutações NS validadas proteínas com interação com 3 proteínas mutadas porteínas com interação com 2 proteínas mutadas

Atuação Sinergística na Tumorigênese
Proteínas mutadas com parceiros de interações em comum => atuação sinergística no desenvolvimento do tumor [Bredel M. et al., 2009]; HCC1954 (17/25 – 68%) ao menos 1 parceiro em comum (64 parceiros) Diferente do esperado ser ao acaso (p < , Monte Carlo simulation) HCC1954BL (0/5 – 0%) nenhum Diferença do esperado ser ao acaso pouco significativa (p = 0.855, Monte Carlo simulation) Diferença na média de parceiros de interações em comum? 1000 conjuntos aleatórios (5) em ambas as linhagens x PPI (3.3 versus 0) (P=0.0245, Monte Carlo simulation) 5 – para desconsiderar a questão da diferença entre as qtds 25 e 5.

Redes funcionais em outros tipos de tumor
References Tumor type Number of genes with non-synonymous mutations Number of mutated genes with PPI information (%) Average number of interactions for mutated genes (P-value) Number of mutated genes with common partner (%) (P-value) Number of common partners (P-value) Pleasance et al. Lung 90 50 (56) 11.6 (0.2692) 33 (66) (0.0001) 42 (0.0870) Pleasanceet al. Melanoma 188 100 (53) 8.3 (0.8344) 69 (69) (0.0001) 103 (0.3130) Ding et al. Breast basal 29 17 (59) 8.1 (0.2210) 7 (41) (0.0001) 7 (0.0132) Shah et al. Breast lobular 32 16 (50) 32.5 (0.0034) 7 (44) (0.0001) 28 (0.0011) Clark et al. GBM 110 40 (36) 12.9 (0.7269) 18 (45) (0.0001) 13 (0.1896) Galante et al. Breast HCC1954 45 25 (56) 33.2 (0.0017) 17 (68) (0.0001) 64 (0.0001) carcinoma metastatico lobular de mama

Discussão (1) Caracterização das mutações somáticas
linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; Ding L et al., 2010 – tumor de mama metastático fenótipo basal Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); 36 passagens; Critérios estringentes; Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; Ding L et al., 2010 – tumor de mama metastático fenótipo basal Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); 36 passagens; Critérios estringentes; Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; Ding L et al., 2010 – tumor de mama metastático fenótipo basal Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); 36 passagens; Critérios estringentes; Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; Ding L et al., 2010 – tumor de mama metastático fenótipo basal Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); 36 passagens; Critérios estringentes; Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] Caracterização das mutações somáticas linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; Ding L et al., 2010 – tumor de mama metastático fenótipo basal Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); 36 passagens; Critérios estringentes; Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008] - desenvolvidas independentemente antes e após o aparecimento do tumor; instabilidade cromossômica a chave para o desenvolvimento de cancer humano; - 1.4x10**-10 /bp/cell/division Número de mutações espontâmeas em ambos os genomas é compatível com a taxa de mutação para células humanas normais [Bielas JH, 2006] suportando a hipótese de que não há neste caso um fenótipo causador de mutação, que fizesse aumentar a taxa de mutação no tumor; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL) que não devem afetar as conclusões, não foram mantidas em longo período Caracterização das mutações somáticas linhagens celulares (mesmo indivíduo) tumor e de células linfoblastóides Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas; [Michor F et al., 2005] O mesmo espectro de mutações encontrado nas duas linhagens; Ding L et al., 2010 – tumor de mama metastático fenótipo basal Shah SP et al., 2009 – tumor lobular de mama Ação de agentes mutagênicos endógenos e erros na replicação Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954; (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral; Evidências de tumores sem evidência de agentes mutagênicos externos; Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL); 36 passagens; Critérios estringentes; Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

Discussão (2) Diferenças entre o conjunto de genes mutados em ambas as linhagens: Mutações não-sinônimas mais frequentes HCC1954; Mutações no genoma do tumor não estão distribuídas aleatóriamente; Afetam preferencialmente genes “HUB” nas interações com outros genes; Afetam vias biológicas relacionadas com a tumorigênese; Mutações no genoma do tumor são co-selecionadas; Ação sinergística de mutações na tumorigênese; Observação em outros tumores; mutações secundárias não seriam suficientes para formar o tumor na ausência das mutações principais; Observação: Se a célula tumoral requer somente um número pequeno de alterações genéticas “fortes” para a tumorigênese; Não seria esperado uma associação funcional dos genes mutados no tumor, pois a maioria das mutações seriam passageiras;

Discussão (3) Modelo sugerido: o genoma do tumor tem poucas mutações “fortes” e muitas mutações “fracas” que atuam em sinergia para desestabilizar as vias relacionadas à tumorigênese; Associação funcional marcante entre os genes mutados no tumor; Modelo já proposto na literatura (e.g. [Bredel M et al., 2009])

Conclusão conclusão

Conclusão New-Generation Sequencing (NGS) Avanços sem precedentes
Obter informações genômicas em curto tempo a um custo razoável; Flexibilidade para ser aplicada em uma série de estudos genômicos; Genômica de organismos não-modelos; Regulação gênica em determinadas situações e condições biológicas; Caracterização da relação evolutiva entre genomas ancestrais (Comparative and Evolutionary Genomics); Elucidação dos eventos moleculares que direcionam a tumorigênese (Cancer Genomics); Redução da distância em direção a uma medicina personalizada; Desafios Infraestrutura de sistemas de informação tecnológica (TI) BIG Data transferência de dados, armazenamento, controle de qualidade, sistemas computacionais eficientes (algoritmos e hardware);

Daniel Guariz Pinheiro
Perguntas... Daniel Guariz Pinheiro OBRIGADO !!! Perguntas ? Este é o meu (“lgmb” Laboratório de Genética Molecular e Bioinformática, “fmrp” Faculdade de Medicina de Ribeirão Preto, “usp” , “br”) Podem mandar s se quiserem discutir algo... A minha página, que está bastante desatualizada... E esta é a página do Laboratório...

New Generation Sequencing and Bioinformatics in the Big Data Era

Apresentações semelhantes

Apresentação em tema: "New Generation Sequencing and Bioinformatics in the Big Data Era"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

New Generation Sequencing and Bioinformatics in the Big Data Era

Apresentações semelhantes

Apresentação em tema: "New Generation Sequencing and Bioinformatics in the Big Data Era"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback