Introdução à Bioinformática

Introdução à Bioinformática
Daniel Guariz Pinheiro, PhD. Apresentação Boa noite, o meu nome é Daniel Guariz Pinheiro, sou formado em Ciência da Computação pela UNIP de Ribeirão Preto, trabalho a 5 anos no Laboratório de Genética Molecular e Bioinformática e atualmente estou no programa de Doutorado Direto no Departamento de Genética da Faculdade de Medicina de Ribeirão Preto, na USP. Agradecimento Antes de iniciar, gostaria de agradecer o convite para estar aqui hoje, pra mim é um prazer vir aqui e falar um pouco sobre essa área (Bioinformática) que eu conheci por acaso e que tanto me fascinou ! ... espero que de alguma forma esta apresentação possa ser interessante aos presentes... Bom... Como eu disse, eu conheci a Bioinformática por acaso, Em 2001, último ano de faculdade eu estava à procura de estágio curricular... Na metade do ano, um colega de sala sabendo disso, me convidou pra ir ao Lab. De Bioinformática, que lá poderia encontrar um estágio... A única coisa que ele disse de cara é que eu deveria ter uma noção de linux... A única experiência que eu tinha com linux era apenas a de uma instalação usando a interface gráfica... Ou seja, quase nada! Mas mesmo assim, fui até lá e consegui o estágio... A adaptação ao ambiente linux e à linguagem de programação Perl, foi árdua mas proveitosa, fiquei dedicado 1 mês somente a isso. Os conceitos básicos de biologia, que desde o colegial estavam esquecidos, tiveram que ser todos ressuscitados, para poder discutir algo com os colegas, pois era um outro mundo com uma linguagem própria... Por isso, caso tenham alguma dúvida, não deixem de perguntar, e eu vou tentar responder... Essa será a primeira palestra que eu ofereço sobre o assunto então ... Não sei ao certo quais serão as dúvidas... Nisso eu creio que vocês poderão me ajudar... Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular

Sumário Bancos de Dados Biológicos Centros de Pesquisa Introdução
Revisão Histórica Sequenciamento Projetos Definição de Bioinformática Áreas de Aplicação Estudos “-omas” Problemas clássicos em Bioinformática Desenvolvimento de Sofwares Principais programas Análises comuns Bancos de Dados Biológicos Principais repositórios Extração de Conhecimento de Bases de Dados Centros de Pesquisa Nacionais e Internacionais / Públicos e Privados Formação na Área Cursos (Graduação / Pós-Graduação) Eventos (Congressos, Simpósios, Cursos de Verão, ...) Perspectivas profissionais Referências Roteiro Nesta apresentação pretendo seguir este roteiro... = Introdução Inicialmente vou fazer uma breve revisão de alguns fatos históricos extremamente relevantes para o mundo científico na área de Genética assim como alguns personagens e também os fatos que levaram à necessidade de uma nova linha de pesquisa. Juntamente a isso vou passar alguns conceitos importantes em Genética Molecular pra que entendam qual é o chão em que o bioinformata pisa. Somente assim poderemos chegar à definição de Bioinformática. = Área de Aplicação Vou apresentar as principais áreas onde a bioinformática é aplicada (em especial a genômica e a proteômica) e também onde o profissional bioinformáta pode atuar, destacando alguns dos princpais Centros de Pesquisa que estão trabalhando na área aqui no Brasil e em outros países. = Desenvolvimento de Softwares Vamos ver aqui as características dos principais softwares em uso, e o desenvolvimento de software (inclusive software-livre) e e as principais plataformas sobre os quais eles os programas são desenvolvidos, desde o Sistema Operacional às Linguagens de Programação... Os tipos de análises comuns, e algumas das principais ferramentas desenvolvidos que auxiliam a elas... As ferramentas desenvolvidas no Laboratório de Genética Molecular e Bioinformática, do qual eu faço parte. = Formação na Área Nesse ponto, eu vou apresentar os possíveis caminhos para ingressar na área (sobre alguns cursos de graduação e pós-graduação oferecidos atualmente pelas faculdades) além disso como deve ser o perfil do profissional e também o que está sendo feito para promover a Bioinformática no Brasil os Eventos enfim... = Perspectivas As perspectivas futuras para a área, para seus profissionais e para aqueles que se interessam em ingressar na carreira. = Referências Por fim, as referências utilizadas na apresentação e também para quem se interessar e quiser ir além... Ai então abrimos espaço para as perguntas...

introdução

Revisão Histórica ENIAC, o 1° computador eletrônico Experiments in
Plant Hybridization Gene Leis da hereditariedade 1859 1866 1953 1946 1900 1944 Vamos voltar ao século 19, em 1859, ano em que Charles Darwin publica o livro a Origem das Espécies, que explica a origem das espécies através da Seleção Natural e a sobrevivência do mais adaptado... A história toda começa por aí... Em 1866, Mendell publica seus estudos sobre as leis da hereditariedade, que propões que as características hereditárias são transmitidas em unidades. O trabalho permanece quase ignorado até 1900. Em 1909 é introduzido o termo "gene" para descrever a unidade mendeliana da hereditariedade. Nesse momento surgem os termos "genótipo" e "fenótipo" referindo respectivamente às características genéticas de um indivíduo de sua aparência externa. Depois de Mendel, diversos cientistas produziram importantes contribuições ao estudo dos genes, durante a primeira metade do século XX. E assim foram surgindo diversas evidências que forneceram as bases para um outro marco histórico, a descrição da estrutura molecular do DNA. Avery provou que era o Ácido Desoxirribonucleico (ADN) o responsável pela transferência de material genético entre células num processo chamado "transformação". A descoberta sugeria que o ADN seria o material genético básico da célula (princípio transformante), facto que veio a ser confirmado por cientistas posteriores. O trabalho de Avery inspirou várias pesquisas sobre a estrutura do ADN, agora conhecida como código genético. Em relação à evolução dos computadores, em 1946, cientistas da Universidade da Pensylvânia, construíram o primeiro computador eletrônico, conhecido como ENIAC. É interessante observar que existe um paralelo entre o uso da informática para decifrar a informação genética e uma das primeiras grandes aplicações dos computadores (ou mesmo motivador da sua criação), que foi decifrar o código secreto usado pelos alemães na 2a. guerra mundial. Caráter Hereditário (DNA) Oswald Avery The Origin of Species Molecular Structure of Nucleic Acids

Revisão Histórica Leroy Hood Sequenciador semi-automático 1986
Gilbert & Sanger 1977 1986 Applied Biosystems 2011 – = 34 anos A C G T Sequenciador automático comercial Métodos para o sequenciamento de DNA

Revisão Histórica Publicação do rascunho do Genoma Humano 1000 Genomes Project Iniciativa pública Projeto Genoma Humano Cancer Genome Anatomy Project 1990 1996 1999 2001 2008 ... 1988 1995 1997 2000 2003 2005, 2006, 2007 2011 – = 34 anos O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Em 1990 é lançado o PGH. Com o objetivo de construir uma mapa do genoma humano. Para muitos pesquisadores tratava-se na época de um projeto irrealizável. Para outros não havia sentido em mapear o genoma pois as infomações obtidas seriam desencontradas e não valeriam o esforço. Por outro lado, alguns pesquisadores viram naquela oportunidade a chance de transformar a biologia (e mais especificamente a genética) em big science, com direito a financiamentos gigantescos e divulgação ampla. Em 1995 surgem as técnicas de análise de expressão gênica em larga escala, com essas técnicas é possível obter um perfil global da expressão de milhares de genes simultâneamente, a partir de uma determinada amostra de células. Ambas as técnicas quantificam a expressão de genes considerando a quantidade de moléculas de RNA mensageiro transcrita dos genes. Em 1996, foi estabelecido pelo NCI o CGAP, um projeto com o objetivo fornecer dados, ferramentas e informações para a determinação de perfis de expressão gênica de células normais e cancerosas, que podem ser úteis às pesquisas que conseqüentemente poderão auxiliar no diagnóstico, prognóstico e no tratamento de pacientes com câncer. Em 2000, pesquisadores do consórcio público Projeto Genoma Humano e da empresa privada norte-americana Celera anunciam o rascunho do genoma humano, que seria publicado em fevereiro de 2001. Em 2000 também é lançado pelo NCBI, o GEO, um importante repositório de dados de expressão gênica. O GEO, vou apresentar ele em mais detalhes nós próximos slides. No Brasil a genômica e a Bioinformática se desenvolve a partir da formação da rede ONSA em 1997, uma rede de laboratórios espalhados pelo Estado de São Paulo, que inicialmente surgiu com o objetivo de seqüenciar o genoma da bactéria Xylella fastidiosa, um patógeno que ataca os laranjais e causa uma doença conhecida como amarelinho. Em 2000 há a publicação do seqüenciamento completo do genoma da bactéria Xylella fastidiosa na revista Nature (Nature - Vol July 2000 ). Sendo o primeiro país a obter a seqüência completa de uma patógeno de plantas. O lançamento do projeto Genoma Humano do Câncer aconteceu em 1999. National Center for Biotechnology Information Next-Generation Sequencing SAGE microarray Conclusão do Projeto Genoma Humano Organization for Nucleotide Sequencing and Analysis Genoma bactéria Xylella fastidiosa

Projeto Genoma Humano The International Human Genome Sequencing Consortium 13 anos ( ) U$ ,00 (3 BILHÕES de DÓLARES!!!) Avanços imediatos proporcionados Identificação de ~ genes (~20% material genético total); Possibilitou a descoberta de ~1.800 genes relacionados a doenças, facilitando a identificação de outros genes; Permitiu o desenvolvimento de mais de testes genéticos; Ao menos 350 produtos biotecnológicos resultantes deste conhecimento já estão em testes clínicos; Desenvolvimentos de ferramentas para análise genômica, inclusive de outras espécies de interesse biomédico e econômico; Promoveu discussões éticas, legais e implicações sociais em torno do assunto; Base de conhecimento; O Projeto Genoma, é um exemplo... O PGH foi o que colocou a Bioinformática em evidência... O Projeto Genoma Humano foi um programa de pesquisa em colaboração internacional, na qual o objetivo foi o mapeamento completo e o entendimento de todos os genes dos seres humanos. O PGH revelou que provavelmente o número total de genes humanos está em torno de 30 a 40 mil genes. Com o seqüênciamento completo, é possível identificar a localização. O seqüênciamento completo resultou em 3 Bilhões de pares de bases, o seqüenciamento completo terminou em Abril de 2003. Entender como o genoma humano funciona e o seu papel na criação de produtos gênicos, e principalmente nas proteínas que eles codificam. Isso é apenas o princípio, há muito outros detalhes, que não foram mencionados mas muito mais ainda que ainda não se conhece... Os estudos de genomas, são importantes para produzir um grande volume de informações sobre a anatomia molecular de uma espécie. Tais informações podem ser usadas como pontos de partida para a produção de novos conhecimentos científicos através de diferentes modelos experimentais, seja in vitro, in vivo ou in silico. Com o genoma sequenciado, entramos na era da Genômica Funcional, em que estamos tentando determinar a função de toda essa informação que foi gerada... Estamos engatinhando em busca do conhecimento... E a bioinformática surgiu como um andador pra que possamos aprender um pouquinho mais rápido...

International Nucleotide Sequence Database Colaboration
2008 seqüências bases 1982 606 seqüências 2.427 bases Os 3 centros em colaboração alcançaram a marca de 100 Bilhões de pares de bases em Agosto de Sendo o GenBank do NCBI o que mais cresceu... Eles trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas. O Gráfico mostra os dados desde 1982 do GenBank, a curva expressa a grande quantidade de dados e seu crescimento exponencial.

Nova Geração de Sequenciadores de DNA
ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD Método Sanger Pirosequenciamento Sequenciamento por Síntese Sequenciamento por Ligação Aumento na quantidade de Dados (até ~1/2 Tb por corrida); Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucas semanas); Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); Redução do custo por base sequenciada;

Sequence Read Archive “We’re growing by about 1 Tb/month.”
SRA (NCBI Sequence Read Archive): ENA (EBI European Nucleotide Archive): DRA (DDBJ Sequence Read Archive): “(…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)” International Nucleotide Sequence Database Collaboration “We’re growing by about 1 Tb/month.” NCBI’s staff scientist Martin Shumway [Leinonen R et. al., 2011]

Novas promessas HeliScope ION Torrent PacBio RS Helicos BioSciences
Applied Biosystems PacBio RS Pacific Biosciences 2008 2010 2010

$100 genome Seqüenciamento genoma completo
2010 (~U$50.000,00) 2011 (~U$10.000,00) Testes genéticos (marcadores) deCODEme (~U$2.000,00 ~50 doenças/traços) 23andme (~U$500,00 ~174 relatórios saúde)

1000 Genomes Catálogo completo e detalhado de Variantes Genômicas Humanas 2.000 genomas, 4x cobertura 1.270 genomas seqüenciados Mais de 6 trilhões de bases Suporte financeiro Wellcome Trust Sanger Institute (Inglaterra); Beijing Genomics Institute (China); National Human Genome Research Institute (EUA); variantes genômicas que aparecem em ao menos 1% da população e que caracterizam um polimorfismo, sequenciando em torno de 1000 genomas de indivíduos de diferentes grupos étnicos Craig Venter

Início dos anos 90... Início do Projeto Genoma Humano

Por onde começar?

Bancos de Dados A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe) A database is a repository for a collection of computerized data files. (C.J.Date) Conceito de Banco de Dados. Esses são dois conceitos extraídos de livros bastante e autores bastante conceituados na área de Banco de Dados. O 1. é de Elmasri e Navathe: Um banco de dados é uma coleção de dados relacionados. Por dados, entende-se fatos conhecidos que podem ser armazenados e que possuem significado implícito. A freqüência que indica a expressão do gene HBB (da beta-globina humana) na biblioteca de SAGE obtida de uma amostra de sangue periférico humano. São fatos, relacionados, que possuem significado implícito e que podem ser armazenados. Agora eu posso armazenar isso, em papel ou esculpido em pedra, por exemplo, isso é um banco de dados? É … porém o uso comum da palavra Banco de Dados hoje é um pouco mais restrito e o 2. conceito, de C.J. Date completa esse conceito: Um banco de dados é um repositório para uma coleção de arquivos de dados computadorizados. Além disso, a utilização do termo Banco de Dados também implica em certas propriedades: Deve representar um aspecto do mundo real; Deve conter dados coerentes e com algum significado; -Deve possuir um propósito. Propriedades: Representar um aspecto do mundo real; Conter dados coerentes e com um significado inerente; Deve ter um propósito;

Abordagem utilizando Sistema de Arquivos
Cada usuário define e implementa os arquivos necessários para uma aplicação específica. Gera redundância na definição e no armazenamento dos dados; Possui estrutura específica e dependente de determinada aplicação; Não permite compartilhamento e acesso concorrente; … Redundância na definição e no armazenamento dos dados; Ficando portanto suscetível a inconsistências, além é claro do consumo de espaço em disco

Abordagem utilizando Sistema de Banco de Dados
Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; Evita redundância; Contém em si a definição de sua estrutura (metadados); Possui restrições implementadas que evitam inconsistências nos dados; Solução genérica para qualquer aplicação; Permite o acesso concorrente de múltiplos usuários; Permite diferentes visões dos dados; Independência da aplicação; Permite representar relacionamentos complexos entre os dados; ... *Metadados, ou Metainformação, são dados capazes de descrever outros dados, ou seja, dizer do que se tratam, dar um significado real e plausível a um arquivo de dados, são a representação de um objeto digital. Mais sinteticamente, podemos dizer que um metadado é um dado utilizado para descrever um dado primário. No SGBD Oracle, por exemplo, a tabela USER_TABLES é uma meta-tabela que possui informações a respeito das tabelas criadas pelos usuários. Entre estas informações podem ser encontradas: proprietário da tabela, nome da tabela, nome da tablespace (unidade de armazenamento lógico) para qual foi definida, entre outras.

Em que situações a abordagem com arquivos é indicada?
O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; Não há necessidade de múltiplos acessos.

Ambiente Simplificado de um Sistema de Banco de Dados
Elmasri, R. A. and Navathe O Sistema de Gerenciamento de Banco de Dados, que é composto basicamente por um módulo de processamento de consultas (SQL) que através do módulo de acesso aos dados, pode interagir com os dados armazenados (os dados primários e também os metadados), esse software de gerenciamento recebe instruções de aplicações compondo assim um Sistema de Banco de Dados, que por fim é manipulado ou por um programador ou usário do sistema através de uma interface.

Banco de Dados Flat file
Abordagem utilizando arquivos Arquivos que contêm registros de dados que não estão estruturalmente relacionados. Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt) Possui um padrão específico de formatação GenBank, Fasta, ASN.1 ... É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. Ex.: Módulos da BioPerl Flat files are data files that contain records with no structured relationships. Additional knowledge is required to interpret these files such as the file format properties Parser - programa que percorre arquivos texto reconhecendo padrões específicos de formatação e extrai as informações desejadas.

Repositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan Pra organizar todos esses dados que foram sendo gerados, surgiram os primeiros repositórios de dados... A primeira base de dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de proteínas conhecidas até a data. Essas seqüências foram publicadas num livro chamado “Atlas of Protein Sequences and Structure”, de O conteúdo dessa base de dados não deveria conter mais de 1Mb de informação, se transferida para computadores modernos. Com o acúmulo desses dados provenientes de seqüenciamentos e informações relacionadas... Surgiram repositórios mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores. O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Hoje, o NCBI além de ser um enorme repositório de dados e informação biológica, proporciona um grande número de ferramentas de bioinformática e recursos para auxiliar o cientista na pesquisa genética. Além do NCBI, temos também o EMBL (Laboratório Europeu de Biologia Molecular) e o DDBJ (Banco de Dados de DNA, do Japão). Todos os 3 grandes centros possuem colaboração e compartilham dados entre si.

E agora ? Bom... E agora ? Com esse conhecimento adquirido a partir da identificação das seqüências do genoma de determinado organismo, o que fazer com a grande quantidade de dados gerados ? E como podemos extrair conhecimento dessa grande massa de dados ?

Análise dos Dados Necessidade de sistemas computacionais para análise dos dados e interpretação dos resultados. Desafios : Armazenar e organizar Estabelecer relações Procurar padrões Analisar Filtrar Desenvolver mecanismo de visualização Integrar Etc. Equipe Multidisciplinar Paralelamente ao surgimento dos sequenciadores automáticos, e dos bancos de dados biológicos, surge também a necessidade de uma análise dessa grande massa de dados para extrair informação relevante, o que tornou indispensável a utilização de sistemas computacionais eficientes não somente pra armazenar e consultar os dados mas também a interpretação dos resultados obtidos. Ou seja, a bioinformática é necessária para transformar os dados de seqüências em conhecimento científico. Estabelecer relações, procurar padrões, analisar, armazenar, filtrar, tornar possível a visualização, integrar, e etc. Todos são desafios que, diretamente ou indiretamente envolvem a Bioinformática.

Bioinformática Etimologia Bio = “bios” (vida) + Informática = “informatik” (informação + automática) grego antigo alemão informatik ciência de automatizar informação

Termo “Bioinformática”
Paulien Hogeweg, 1978 Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema) Origem disputada, meados 1980 Análise de seqüências biológicas Desde 1960 há algoritmos, bancos de daos e descobertas biolõgicas pela análise de seqüências, sem que existisse o termo Bioinformática. O primeiro banco de dados biológico (catálogo de proteínas) foi desenvolvido na década de 60, 1965.

Bioinformática “The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information.” Fredj Tekaia ( Institut Pasteur ) Esta é uma definição para bioinformática, de Fredj Tekaia, pesquisador do Instituto Pasteur... O uso de métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos, usando seqüências de DNA e de aminoácidos e informações relacionadas. É possível propor uma definição razoavelmente clara: a bioinformática consiste em ‘todo tipo de estudo ou de ferramenta computacional que se pode realizar e/ou produzir de forma a organizar ou obter informação biológica a partir de seqüências de biomoléculas’. Se o estudo envolve seqüências de biomoléculas (DNA, RNA ou proteínas), direta ou indiretamente, trata-se de bioinformática. “Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas”

Biologia Computacional
“Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself.” Paul J Schulte ( University of Washington ) A Biologia Computacional é um outro termo relacionado à bioinformática... E que normalmente as pessoas costumam confundir-se... Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si. Ou seja, é simplesmente o fato de usar os sistemas computacionais para estudos em biologia. “Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.”

Definições atuais Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados. Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data. Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. Biomedical Information Science and Technology Initiative Consortium (NIH)

As Bases da Bioinformática
A Bioinformática está intimamente relacionada com a aplicação do conhecimento encontrado em áreas como a estatística, a matemática ou a computação com a intenção de se buscar soluções para as questões biológicas relevantes. Toda pesquisa em Bioinformática, é fundamentada em cima de uma questão da Biologia, e a Estatística nos ajuda a estudar os dados e a Computação a lidar com a grande quantidade de dados. O que a estatística pode fazer, e o faz bem, é a avaliação qualitativa, ou seja, direções, possibilidades, tendências. A estatística é hoje a melhor aproximação que podemos ter de alguns fenômenos biológicos, justamente pelo fato de os fenômenos biológicos terem muitas variáveis ainda desconhecidas ou incontroláveis . Sem a computação, não seria possível aplicar os métodos estatísticos e computacionais que existiam a muito tempo, agora tais métodos estão sendo revisados e aplicados ao tipo de cenário da bioinformática.

Áreas de aplicação

Projetos “-omas” x Pesquisa Clássica em Genética e Bioquímica
Science 291: Genômica Transcritômica Proteômica Epigenômica Metabolômica … Comparação entre a genômica e a proteômica versus a pesquisa clássica em Genética e Bioquímica...

Genômica Genômica Estrutural Genômica Funcional Genômica Comparativa
Construção de mapas genéticos, físicos e de transcrição de um organismo. Genômica Funcional Caracterização das propriedades funcionais do conjunto gênico e padrão de Expressão Gênica. Genômica Comparativa Genômica Clínica Envolve os Projetos Genomas. O objetivo dos Projetos Genomas são o mapeamento, o seqüenciamento e a análise dos genomas. Isso é a Genômica. A análise do genoma pode ser dividida em genômica estrutural e funcional : A genômica estrutural é a fase inicial que tem o objetivo da construção de mapas genéticos, físicos e de transcrição de um organismo. A genômica funcional, que se baseia na expressão gênica, usando as informações geradas pela genômica estrutural, leva à completa caracterização do padrão de expressão do conjunto completo dos genes, assim como à investigação sistemática das propriedades funcionais desse conjunto de genes. Além disso, há a : A genômica comparativa – a comparação entre diversos genomas para análise de similaridades, tais estudos podem fornecer conclusões sobre uma espécie em particular ou então sobre a evolução das espécies. A Genômica Clínica – cujo interesse é em relacionar os dados clínicos de pacientes com os resultados obtidos através de estudos do genoma, ou seja, estudos como esse podem auxiliar por exemplo no diagnóstico precoce de um câncer, através da análise do perfil de expressão dos genes, característico na trasformação celular que dá origem ao tumor.

Proteômica Como regra geral, as proteínas são estudadas isoladamente.
A Proteômica engloba o estudo amplo de todas as propriedades das proteínas, isoladamente e em interação com o organismo. Proteômica é a contrapartida da genômica que utiliza como objeto de estudo de proteomas, que representam os conjuntos de proteínas expressos por seres vivos. e permiti relacionar diretamente a uma proteína determinada função, esta abordagem constitui um instrumento particularmente poderoso para elucidar os mecanismos celulares relacionadas ao desenvolvimento de doenças, ao mecanismo de funcionamento de compostos químicos (por exemplo, fármacos) e identificação de alvos terapêuticos. As bases experimentais da proteômica não são novas e pertencem ao arsenal .clássico. da bioquímica, mas houve, nos últimos anos, um salto qualitativo e quantitativo sem precedentes. Esse salto foi resultado de grandes investimentos privados na busca de abordagens mais agressivas e rápidas no isolamento, identificação e caracterização de proteínas, no mesmo estilo .industrial. que caracterizou a era genômica.

Bioinformática “Clássica”
Organização da Informação Biológica Definição de Bases de Dados Genômica Estrutural Análise de seqüências de DNA ou RNA Processamento automatizado dos Dados de Seqüências (pipelines); Montagem de seqüências genômicas; Predição Gênica; Definição das estruturas gênicas; Mapeamento genômico de estruturas gênicas; Identificação e de Polimorfismos de DNA; ... Os interesses para a Bioinformática Clássica são baseados na análise de seqüências. Armazenamento E Recuperação dos dados e informações relacionadas (A constituição de repositórios e ferramentas de busca e para gerar relatórios) Analisar (Principalmente as análises preliminares, que constituem a base par a maioria das análises subsequentes) e Predição da composição ou estruturas de biomoléculas (DNA, RNA ou proteína) Simulação Computacional de algum processo biológico ... A Bioinformática “Clássica” ainda hoje é muito requisitada ... Já que são atividades que constituem a base para as análises mais detalhadas ...

Montagem do quebra-cabeças
Estratégias (Pública x Privada) HUMAN GENOME CONSORTIUM CELERA GENOMICS Craig Venter Francis Collins As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases. Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras? A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si. Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos. Aí, obviamente, é necessário um programa de computador para montar esse quebra cabeça. Esta é uma visão bem simplificada, das duas estratégias de sequenciamento (pública e privada), nas duas o DNA é quebrado em muitos pedaços e depois de sequenciados são reagrupados ... Nesse momento, a bioinformática tem um papel fundamental, que é a de montar o quebra cabeças com esses pedaços que foram sequenciados, de acordo com a similaridade entre as regiões onde houve sobreposição. fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria)

Base-Calling Phred : http://www.phrap.com/phred/
Lê o arquivo do cromatograma da seqüência de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita. Os fragmentos marcados por fluorescência passam através de uma janela de leitura onde os fragmentos são detectados por um raio laser. Os fluorocromos são então excitados pela emissão de laser, sendo detectados por um foto-multiplicador. Os sinais florescentes são transferidos para um computador Macintosh que analisa a posição e a força do sinal, produzindo um cromatograma consistindo de picos coloridos. A área sob o pico representa a força do sinal e a cor do pico é especificada de acordo com a base nucleotídica em questão. Sendo assim, o programa nomeia a base A, C, T ou G para cada posição, ou então N, quando a posição não é clara.

Como montar as peças desse quebra-cabeças?
Problema clássico Como obter as sequências de nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA? Como montar as peças desse quebra-cabeças?

Alinhamento de seqüências
Problema clássico Sejam duas seqüências de caracteres distintas: É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si? ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG Alinhamento de seqüências o problema é subdividido em problemas menores os quais são computados e solucionados para compor a solução ótima global. Matriz elementos das duas seqüências, calculando uma pontuação que penaliza as diferenças e privilegia as identidades entre os elementos. ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG |||||||||||||||||||||||| GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Alinhamento de Sequências
Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas. Conceito de Alinhamento.

Significado Biológico do Alinhamento de Sequências
Definição de 3 termos importantes: identidade: refere-se à fração de aminoácidos ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências; similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de sequências após um alinhamento dessas sequências; homologia: representa uma relação evolutiva entre as sequências; Homólogos Parálogos; Ortólogos; Significado biológico que se pode extrair de um alinhamento.

Há uma referência? Resequenciamento Sequenciamento de novo
Existem sequências produzidas a partir de um genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência. Sequenciamento de novo Não há sequências que podem ser usadas como referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.

Identificação das sequências
Resequenciamento Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.: Genoma) >seq1 gcagtcagtcacacatgtca... >seq2 cgcgcatgcGcgtactctat... >seq3 tcgagcatcatcagtcgtca... >seq4 tatgctttatagcgagtcat... ..... >chrX atcacacatgtcacatggtcag ggcatcagtcagtcagtcatgc gcgcgcatgcCcgtactctatc tcatgcgtcagtcatgcatgcg agcagtcatgcatgcatcgcac tgcatcatacgtcatgcatgaa ..... Objetivos: - Eliminar as sequência sem hit - Eliminar as sequência com hits múltiplos (ambiguous) - Identificar as sequência com hit único (unambiguous)

Montagem de sequências
Sequenciamento de novo Alinhamentos: Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado) Alinhamento Múltiplo de Sequências (MSA) Consensus : Seq A Seq B Seq C Seq D Seq E Seq F Seq G ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGG ACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

Abordagens para alinhar sequências
ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS

Problema básico Transformar uma sequência de caracteres em outra:
Operações: inserção deleção substituição Custo de operação: Score de substituição Penalidade para Gaps (inserção/deleção) Qual é a quantidade de operações mínima ? Como achar a séries de operações que vai garantir que usamos a quantidade de operações mínima ? Exemplo: Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 ACGT || G-GT Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

Soluções Matrix de pontos (dot matrix) Informação qualitativa;
[Goldstein e Gunawardenaa, 2000] Drosophila Dystrobrevin and Mouse ortholog

Soluções Matrix de pontos (dot matrix)
Informação qualitativa; Algoritmos de Programação Dinâmica Smith-Waterman; Needleman-Wunsch; SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

Alinhamentos de Sequências
Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch) As sequências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho. Seq X : C A T T A G C A G C C T | | | | | | Seq Y : - A G T A – - A G C - - Alinhamento Local (e.g. Algoritmo de Smith–Waterman) Procura-se alinhar apenas as regiões mais similares, independente da localização relativa de cada região. Seq X [4,10]: T A G C A G C | | | | | Seq Y [3,7]: T A - - A G C Alinhamentos (Global/Local) (DNA/Protein) FASTA ( EMBOSS Align (

Matriz de Programação Dinâmica
GG A > Score (-2-1): -3 1 gap: -2 1 mismatch: -1 > Score(-1-2): -3 > Score(-4-2): -6 2 gaps: -4 GG A GG A traceback D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch) D(i -1, j) + g (acima -> gap acima) D(i, j -1) + g (esquerda -> gap esquerda) D(i-1,j-1) D(i-1,j) D(i,j-1) D(i,j) D(i, j) = max resolve partes do problema 1- inicializa matriz (match/mismatch/gap) – valores em vermelho; 2-inicializa primeira coluna e primeira linha da matriz, representa acúmulo de gaps consecutivos; 3-preenche a matriz calculando o valor D(i,j) com o valor máximo de score e seleciona o caminho (verde) 4 – NW – inicia a percorrer o caminho selecionado a partir do canto inferior direito; SW – inicia a percorrer o caminho selecionado a partir do maior score; Exemplo: Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 ACGT || G-GT Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

Solução Matrix de pontos (dot matrix)
Informação qualitativa; Algoritmos de Programação Dinâmica Smith-Waterman; Needleman-Wunsch; SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa; Por razões de tempo e espaço, não pode ser usado para alinhamento de sequências de larga escala; Utilizações de aproximações (heurísticas); Geralmente, quanto mais rápida for a aproximação, mais distante estará a resposta da solução “correta”;

Desafios Eficiência; Ambiguidade causada por sequências repetitivas;
velocidade; sensibilidade; especificidade; Ambiguidade causada por sequências repetitivas; Erros inerentes às técnicas de sequenciamento. sensibilidade - capacidade de identificar corretamente a localização das sequências; VP/VP+FN) especificidade - capacidade de excluir corretamente aqueles alinhamentos espúrios; VN/(VN+FP) acurácia (VP+VN)/(VP+VN+FP+FN) revocação VP/(VP+FN) precisão VP/(VP+FP)

Identificação de sequências
Utilização de sequências referência Ex.: Genoma Localização precisa quantidade de matches suficientes não tenha ambiguidade Exemplo: Sequenciamento de transcritos humanos para determinar expressão gênica

BLAST Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/
Heurística: dicionário de palavras E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases; QUANTO MENOR... MELHOR!!! NÃO CONFUNDIR COM P-value (probabilidade)

BLAT BLAT—The BLAST-Like Alignment Tool http://genome.ucsc.edu/
Estruturalmente diferente (BLAST) Além de outros pontos, o Blat constrói um índice do banco de dado de sequências (database) (k-mers) e faz as buscas na sequência a qual se deseja consultar (query); Possui código especialmente para lidar com intros em alinhamentos RNA/DNA; - permite identificar corretamente sítios de splice, com BLAST costuma haver uma extensão dessa posição. Blat é mais rápido, porém menos sensível; Possui código especialmente para lidar com intros em alinhamentos RNA/DNA; Comumente utilizado para localizar uma determinada sequência no genoma ou determinar a estrutura de exons de um RNA; Pode ser utilizado para alinhar sequências de Roche/454;

Alinhamento de sequências curtas
BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: ) Novos algoritmos Novas implementações BWA Bowtie Bfast Mosaik ...

Mascaramento de Vetores
Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante o experimento. Cross_match ( >CloneX TGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACA GACGATTCACGTGTGGGTCTATGTTCAGGTCCT Durante o processo de clonagem e posterior sequenciamento, há regiões que não fazem parte do fragmento de seqüência de interesse e devem ser mascaradas, substituindo a por bases neutras, por exemplo X, para não atrapalhar as análises subseqüentes. >CloneXmasked TGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACA XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Mascaramento de Elementos Repetitivos
Mascaramento das regiões que representam, normalmente elementos repetitivos do genoma (transposons, retrotransposons, ...) ou sequências de baixa complexidade; RepeatMasker ( ) >CloneX TGAGTTAGTTAATTGTGCCAGCCTGGCCGATAATCACATGTGGGGCTAATTGAAAGGCGG AGGGATAAATGGGTGGTGAGCCTCGCCTTTCTAGTTCTCGGGTCTCTTGCTTTGTGATGG ATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAA AGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTT GAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATG GAGTTGGGCTTAGAGGCTATTTTTGATCA Durante o processo de clonagem e posterior sequenciamento, há regiões que não fazem parte do fragmento de seqüência de interesse e devem ser mascaradas, substituindo a por bases neutras, por exemplo X, para não atrapalhar as análises subseqüentes. >CloneXmasked NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN ATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAA AGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTT GAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATG GAGTTGGGCTTAGAGGCTATTTTTGATCA

Análise Filogenética Alinhamento Global Inferência de Filogenias
Reconstruir o parentesco entre as espécies associando essas informações a uma escala temporal; PHYLIP ( Uma das aplicações mais antigas da bioinformática é a de desenvolvimento de programas que, a partir das seqüências de DNA ou de proteínas de diferentes organismos, sejam capazes de reconstruir a relação de parentesco entre as espécies, o que chamamos de sistemática molecular, ou de reconstruir o parentesco entre as espécies associando essas informações a uma escala temporal, o que chamamos de filogenia molecular. A representação gráfica desses resultados é feita na forma de árvores filogenéticas. Para realizar inferências a respeito das relações de parentesco entre organismos, tomando como base seqüências de DNA ou proteínas, o primeiro passo é identificar seqüências de interesse que apresentem ancestralidade comum, ou seja, que sejam homólogas. Para isto, muitas vezes estas seqüências são escolhidas por similaridade nos grandes bancos de dados disponíveis na rede, sem que tenhamos, sobre elas, dados das funções bioquímicas e biológicas que possam confirmar sua homologia. Por isso, é importante ressaltar que, ao fazermos uma reconstrução filogenética, a escolha de seqüências homólogas é fundamental para gerar uma árvore confiável, pois só assim teremos certeza de que estaremos comparando um mesmo marcador que apresenta similaridades entre vários organismos a partir de uma origem comum, garantindo que eles compartilham um mesmo ancestral. Quando não se comparam caracteres homólogos, pode-se incidir no erro de considerar similaridades sem origem comum e, portanto, com histórias evolutivas diferentes. Uma das formas de avaliar esta escolha é incluir nas análises, seqüências de grupos externos (organismos com historia evolutiva conhecida em relação ao grupo em estudo), que funcionam como controles no processo de reconstrução de parentescos. Uma vez selecionadas as seqüências homólogas dos organismos de interesse e de grupos externos, será necessário realizar o alinhamento múltiplo entre elas e então gerar árvores filogenéticas a partir de métodos de distância ou de caracteres discretos (máxima parcimônia ou máxima verossimilhança) para podermos realizar a inferência filogenética desejada. Uma das formas de se construir a árvore filogenética é através de Métodos de distância, por ex. Observar o número de substituições de nucleotídeos ou de aminoácidos em um alinhamento múltiplo global.

Detecção de Formas Alternativas do Gene
Encadeamento Alternativo de Exons (Alternative Splicing): Alinhamento de sequências de transcritos em relação a um genoma referência; exon skipping (CD44) alternative acceptor (MDM2) Intron retention (WDR39)

Análise de SNP SNP - Single Nucleotide Polymorphism
polybayes ( Anemia Falciforme - deficiência no transporte de oxigênio Gene HBB Glutamato (GAG) / Valina (GTG) ATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA TGACTCCTGTGGAGAAGTCTGCCGTTACTGCC ATGGTGCATCTGACTCCTGAGGAGAAGTCTG ATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGT GCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGG ATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA CATCTGACTCCTGAGGAGAAGTCTGCCGTTAC Seq 1 : Seq 2 : Seq 3 : Seq 4 : Seq 5 : Seq 6 : Seq 7 : Com esse tipo de alinhamento é possível fazer análises de um tipo de polimorfismo de base única, que é uma variação em uma das bases que possui uma freqüencia de mais de 1% em determinada população. Um software para essa finalidade é o polybayes, que utiliza um algoritmo baseado em inferência bayesiana para calcular a probabilidade de um dado alelo ser polimórfico. A inferência bayesiana, é um método que auxilia a definir os melhores parâmetros do modelo a partir dos dados disponíveis. O caso da Anemia Falciforme é um exemplo, há uma única mutação (A/T) em um do códons do gene beta-globina, uma substituição de A por T. Essa troca, faz com seja gerada uma proteína mutante com um aminoácido diferente uma Valina no lugar de uma Glutamina. Essa substituição em homozigoze, ou seja, em ambos as cópias do gene, é responsável pelo desenvolvimento da doença.

Abordagem para montar sequências
Alinhamentos para montagem de sequências; Algoritmos de montagem (Overlap-Layout-Consensus) Requerem o alinhamentos pareados entre as sequências;

Abordagem para montagem de seqüências
Montagem dos pequenos fragmentos seqüenciados em seqüências maiores. Considera-se um mosaico de partes da seqüências que são agrupadas, como regiões de alta qualidade e onde a sobreposição. Montagem: Phrap ( Consensus : Seq A Seq B Seq C Seq D ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGG ACAGTACGACAGTACGAAAC Após a geração de arquivos sem contaminantes, contendo a identificação das bases e a qualidade, todas essas informações são repassadas a um software de montagem como o PHRAP ou CAP3. Esses programas agrupam as seqüências de acordo com uma análise de similaridade, através de alinhamento de seqüência, e constroem seqüências consenso através de um mosaico de partes das seqüências com alta qualidade e também através de uma análise de sobreposição dessas regiões. Um software utilizado para a visualização é o Consed, que faz parte de um pacote que inclui os programas phred e o phrap.

Montagem Definição É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original; leituras (reads) => contigs => scaffolds A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs); A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado; scaffolds definem a ordem dos contigs e orientação e o tamanho do gap entre contigs. Restrições para uma montagem correta sequências com sobreposição devem ter concordância (exceções: polimorfismo, poliploidia, mix de amostras [ex.:organismos non-clonal e out-bred]); distância entre as leituras pareadas devem ser consistentes com o tamanho dos fragmentos gerados; leituras pareadas dever estar na correta orientação (exceções: fragmentos quiméricos de DNA, métodos de pareamento alternativos (bibliotecas de transposons)) a distribuição das leituras ao longo da montagem deve ser consistente com o processo aleatório de obtenção das leituras, representado como um processo de Poison (exceções: viés na clonagem ou sequenciamento). Todas as leituras devem ser consistentes com a montagem resultante, cada leitura deve perfeitamente alinhar com ao menos uma localização no genoma reconstruído (exceções: erros no sequenciamento, presença de vetor e presença de contaminates).

Conceitos Básicos (1) contig – alinhamento múltiplo de leituras de onde é extraída uma sequência consenso; unitig – contig formado pela sobreposição de sequências únicas das leituras, ou seja, sem ambiguidades; scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs; singlets – leituras não agrupadas em um contig; gap – espaço entre dois contigs, onde não se conhece a sequência; Gap

Conceitos Básicos (2) Cobertura (coverage)
Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da região de interesse (genoma) [G] ((N*L)/G) Ex: Genoma de 1Mbp (G) 5 milhões de reads (N) de 50bp (L) Cobertura = ( * 50) / = 25X Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada; Profundidade (depth of coverage) Requisitos para o sequenciamento de genomas: Sanger: C. Venter (3Gb ~7.5x) [Levy et al., 2007] Roche 454: J. Watson (3Gb ~7.4x) [Wheeler et al., 2008] Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) [Li et al., 2010] Redundância no sequenciamento.

Montagem “de novo” Reconstrução da sequência (transcrito) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas. A montagem é possível quando o alvo é excessivamente amostrado com leituras “shotgun” que se sobrepõem. Montagem de novo de dados de Next-Generation Sequencing (NGS) tamanho das leituras (menos informação por leitura) necessidade de maior cobertura – aumento da complexidade; grande volume de dados necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);

Desafios (1) Contaminates nas amostras (e.g. Bacteria)
Ribosomal RNA (pequenas e grandes sub-unidades) Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações) Erros de sequenciamento e.g. Roche erros de homopolímeros (3 ou mais bases consecutivas); Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA); Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil); Necessidade de “spanners” – leituras que atravessam uma região de repetição e que possuem suficientes regiões únicas em ambos os lados; Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação, estando um dos pares ancorado em uma região única;

Desafios (2) Passos extras na preparação das amostras e síntese de cDNA pode levar a um maior risco de erros na clonagem ou contaminação; Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura); Processamento alternativo do RNA e.g. Alternative splicing Genes parálogos A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

Problemas recorrentes causados por repetições

Visualização É importante a visualização dos alinhamentos, que permite extrair conclusões ainda não consideradas. Visualização : Consed (

Mapeamento e Apresentação dos Dados
UCSC Genome Browser ( ) Um dos trabalhos na bioinformática é apresentar essa informação de forma amigável e que fácilite a observação das diversas informações... Como nesta imagem, gerada por esse sistema da Universidade da California que permite navegar pelo genoma humano e apresenta uma série de informações importantes, o posicionamento exato do gene no cromossomo, a sua estrutura, o quanto a região é semelhante à de outros organismos, enfim, as diversas seqüências de diversas fontes, enfim... A seqüência seqüência do gene da hemoglobina beta, (o mesmo visto anteriormente), pode ser apresentada no contexto do genoma.

Predição Estruturas Gênicas
Identificação de estruturas de genes em DNA genômico O programa determina a estrutura gênica mais provável baseado em um modelo probabilístico de um gene estrutural e de propriedades composicionais no DNA genômico de determinado organismo que caracterizam um gene. GenScan ( Uma outra ferramenta comum é para a predição da estrutura de um gene no genoma. Um programa muito utilizado é o GenScan, que utiliza um modelo probabilístico para determinar a estrutura mais provável de um gene, pode identificar componentes que caracterizam a seqüência gênica no genoma... Além de um relatório completo do processo, ele também oferece uma representação gráfica... Como esta, representando um gene com 3 exons, os exons são as regiões que fazem parte do transcrito maduro, depois de sofrer processamento. O Glimmer é específico para genomas de bactérias...

O processo de anotação gênica
Onde está localizado ? O quê ele faz ? Como ele faz ? Na primeira etapa trabalham apenas as ferramentas de bioinformática, funcionando em larga escala, como uma fábrica. Assim, as seqüências obtidas passam por uma grande diversidade de programas, que devem ajudar os anotadores a identificá-las e agrupá-las para a próxima fase. A segunda etapa necessita de especialistas que observem os dados obtidos na primeira etapa pelas ferramentas automáticas e que, como curadores de um museu, identifiquem as seqüências de acordo com critérios pré-definidos. Após a identificação dos genes, é feita a anotação dos processos. Nesse momento deve-se promover a interação entre vários anotadores, bioinformatas e biólogos especialistas em diferentes áreas e no organismo estudado. Nessa festa deve-se discutir como as informações obtidas nas etapas anteriores podem estar relacionadas com a biologia do organismo em questão. As peguntas feitas durante o processo de anotação normalmente são estas ... Onde esta localizada a seqüência gênica no genoma e qual é a sua estrutura ? Qual é a sua natureza ? É RNA mensageiro, transportador ou ribossomal ou pertence a uma outra classe de RNA ? O que faz esse RNA ? Se é mensageiro ele irá codificar uma proteína ... O que faz essa proteína, qual é a sua função na célula ? E finalmente como essa proteína exerce a sua função ? Como esses produtos gênicos interagem entre si para controlar os processos metabólicos da célula.

Quais são os genes e de que forma eles podem influenciar em
Era pós-genômica A importância dos estudos de Expressão Gênica é evidente, afinal nós seres vivos, sob o ponto de vista biológico, somos resultado da expressão de nossos genes. De um modo geral esses estudos objetivam responder perguntas desse tipo “Quais são os genes e de que forma a atividade desses genes têm influência na determinação de um certo fenótipo”. Quais são os genes e de que forma eles podem influenciar em determinado fenótipo ?

Expressão Gênica Diferencial
Rede de Interações Gênicas Regulação Gênica Ambiente Célula do Músculo Célula da Pele Célula neural Célula do Músculo Célula da Pele Célula neural O fato é que órgãos, tecidos e células que compõe um organismos possuem uma atividade gênica característica que os definem. As células do músculo, pele e neurônio expressam seus genes diferencialmente (apontar), ou seja, os produtos gênicos (que podem ser proteínas) são produzidas em quantidades distintas, de acordo com a função ou processos biológicos inerentes a cada tipo de tecido em particular. Os genes não estão isolados, eles interagem uns com os outros e também ambiente

Expressão Gênica e Câncer
Cell Jan 7;100(1):57-70 Célula Normal Célula Cancerosa Célula Normal Célula Cancerosa Desenvolvimento de novos fármacos e terapias individualizadas para o tratamento do paciente com câncer Auxílio diagnóstico e prognóstico Perfil de expressão de 70 genes Além disso, um evento capaz de alterar a expressão de genes, que estão conectados em uma complexa rede de interações moleculares e podem conduzir a outros eventos em cascata, alterando a expressão de outros genes e afetando um ou mais processos biológicos. Isso pode ter conseqüências prejudiciais, como por exemplo, a transformação de células normais em células aberrantes, que conseqüentemente poderão promover a formação e desenvolvimento de um tumor. Neste diagrama representada por uma mutação nesse gene C, que dentro da rede de interações que está regulando os dois outros genes, promove a ativação do gene B, o qual pode ser um oncogene, e a repressão do gene A, o qual pode ser um supressor tumoral, como o p53 no exemplo anterior da via metabólica. Essa nova situação pode conferir à célula novas propriedades, como evasão da apoptose, e garantir auto-suficiencia de sinais para crescimento e dar origem ao cancer, um cenário propício ao aparecimento de novas mutações. Importância de se identificar biomarcadores, que são genes cuja expressão é alterada no tumor, e identificar um perfil de expressão gênica característico para o fenótipo, que além de fornecer evidências de como os genes chaves interagem uns com os outros e com o ambiente, pode ser uma informação útil para a comunidade científica e a sociedade de um modo geral. Portanto a compreensão de como eles se comportam e interagem uns com os outros e com o ambiente em diversas situações ou condições é de muito interesse para comunidade científica e para a sociedade que se beneficiará das aplicações práticas, especialmente na área médica, que esse conhecimento pode desenvolver, como o auxílio no diagnóstico, prognóstico ou tratamento de doenças. Como este teste clínico aprovado pelo FDA (a agência americana responsável pela regulação e controle de remédios e medicamentos) que avalia o perfil de expressão gênica de 70 genes e é capaz de auxiliar no diagnóstico e prognóstico da doença. Gene A Gene B Gene C Células Normais Células do Tumor oncogene supressor tumoral

Genômica Funcional: Análise de Expressão Gênica
Métodos de obtenção de dados em larga escala + Métodos de Bioinformática (Genome-wide expression “profiling”) Revolução dos projetos “-omas” Mayo Clin Proc May;79(5):651-8 O termo que tem sido utilizado na comunidade científica para referenciar esse tipo de estudo é Genômica Funcional, que representa o desenvolvimento e a aplicação de abordagens experimentais para determinar a função e atuação dos genes. Ela utiliza as informações da genômica estrutural, que é a etapa inicial de análise de um genoma, que inclui o sequenciamento e mapeamento gênico, da transcriptômica, e da proteômica, o que inclui a avaliação e a quantificação respectivamente dos níveis de transcrição e tradução. Atualmente, após essa revolução dos “-omas”, emerge um novo conceito, o de Biologia Sistêmica, que é o estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema. Que procura integrar todas essas informações geradas nos estudos “-omas”. Reafirmando a falácia da composição, a que alega que a soma das partes é igual ao todo. Ignorando as propriedades emergentes. De acordo com a definição de Leroy Hood (co-fundador de um dos institutos de pesquisa mais importantes na área de biologia sistêmica) “Biologia Sistêmica é a ciência de descobrir, modelar entender e finalmente projetar no nível molecular as relações dinâmicas entre as moléculas biológicas que definem os organismos vivos.” A genômica funcional é caracterizada por metodologias para obtenção de dados em larga escala combinadas com análises estatísticas e computacionais. Como a atividade ou inatividade do gene (sua expressão) observada em condições biológicas específicas pode fornecer indícios sobre a função desse gene, uma das estratégias mais eficientes dentro da genômica funcional, que podem fornecer indícios da atidade desse gene, é a de quantificar a expressão gênica em larga escala e de determinar os diferentes perfis de acordo com determinadas condições ou situações.

Análises de Expressão Gênica
Nature Genetics 34, (2003) Hierarchical Cluster Experimento de microarray Outro tipo de análises comuns são as Análises de Expressão Gênica. Qquase que todas as células possuem o mesmo material genético, o mesmo genoma, com os mesmo genes... ( Neste mini-genoma os genes A, B e C )... E que a expressão dos genes, ou seja, a quantidade do produto final do gene, é diferencial para cada tipo celular ( Neste caso, célula muscular, epitelial e nervosa, com níveis diferentes de proteínas do gene A, B e C em cada tipo celular ). Quanto mais produto há, mais ativo está o gene, isso é lógico, quanto maior a quantidade produzida, maior a probabilidade de ele exercer a sua função. As características de cada tipo celular são resultados da expressão de seus genes... Portanto uma análise desse tipo de padrão de expressão gênica pode ser útil para caracterizar um fenótipo e determinar os efeitos nas alterações da expressão dos genes. O principal controle na regulação da expressão gênica é aquele que controla o que é transcrito, um controle transcricional da expressão gênica. Portanto, normalmente se obtém uma ótima estimativa da atividade gênica através da análise dos transcritos gênicos, ou seja, a partir do RNA. É claro que se fossemos levar em conta os níveis de proteína, além dos níveis de RNA, teríamos um resultado mais preciso, mas é complicado lidar com proteínas, a uma série de limitações, além do altíssimo custo... Um dos experimentos para se obter os níveis de expressão gênica, são os experimentos de microarray. Esta é uma imagem que vem de um experimento de microarray. Neste experimento são usadas duas amostras, a amostra de interesse e uma amostra controle... Não vou entrar em detalhes sobre a técnica utilizada no experimento, se quiserem saber mais detalhes me procurem ou enviem ... A imagem apresenta esses pontos coloridos, cada ponto representa o RNA de um gene e a intensidade a quantidade de RNA desse gene. Verde representa mais expresso no controle e vermelho mais expresso na amostra de interesse, o amarelo é a intersecção do verde com o vermelho portanto o gene expressou equivalentemente nas duas amostras. Essa intensidade é convertida em um valor numérico referente à expressão do gene. Há experimentos que tem a capacidade de observar a expressão de até RNAs. Esses experimentos são gerados com amostras com diferentes tratamentos, como por exemplo os utilizados no estudo publicado na revista Nature, Foram coletadas amostras de células de diferentes pacientes com leucemia que receberam diferentes tratamentos com certas drogas específicas... Este é um cluster hierárquico de um trabalho publicado na revista Nature, cujo interesse era demonstrar as diferenças na expressão gênica entre diferentes pacientes submetidos a tratamentos com específicas. Cada coluna representa um indivíduo, as cores amarela, azul verde e vermelha indicam os grupos de tratamento e cada linha representa um gene. A cor vermelha significa muito expresso e a cor verde pouco expresso... É claro que nem todos os genes estão representados, apenas os mais significativos. O cluster hierárquico permite agrupar os genes e os indivíduos com expressão gênica semelhante... E de acordo com o nível de expressão foi possível identificar corretamente os grupos de pacientes submetidos a um mesmo tratamento. Analisar um pouco a figura... ~100,000 – ~150,000 spots

Bioinformática Atual Análise dos resultados obtidos através da Genômica e Proteômica. Análise dos dados obtidos através de novas técnicas de laboratório. Desenvolvimento de modelos de simulação de redes de interações gênicas. Desenvolvimento de metodologias para o reconhecimento de padrões de expressão gênica que determinam um fenótipo. Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica e proteômica. Integração dessas Informações. A Bioinformática Atual, não trabalha mais apenas com informações de seqüências, é caracterizada : - Análise dos resultados que foram e que ainda estão sendo geradas pelos estudos genômicos. Por ex. No caso da comparação entre genomas, não só entre seqüências mas também toda a informação relacionada. - A análise dos dados obtidos através de novas técnicas de laboratório. Por exemplo, os que permitem quantificar o nível de expressão de milhares de genes... - Desenvolvimento de modelos de simulação de processos biológicos. Por ex. O desenvolvimento de redes de interações gênicas baseadas em um modelo probabilístico. - Desenvolvimento de novas metodologias para relacionar determinados padrões a um determinado fenótipo. - Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica. Ou seja, como alterações no genoma de um indivíduo podem afetar a saúde humana. - Integração de todas essas informações

Biologia Sistêmica Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “ Leroy Hood "Biologia Sistêmica é a Ciência de descobrir, modelar, entender e, em última instância, projetar as relações dinâmicas entre as moléculas biológicas que definem os organismos vivos".

Integração dos Bancos de Dados Biológicos
Características Grande volume de dados; Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); Não há padrão para os nomes dos objetos; Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) Não há padrão para acesso aos dados, cuja natureza é distribuída; Utilização de formatação padrão para troca de informações (e.g. GFF) e web services; Definição variável para alguns conceitos; e.g. gene Dados altamente heterogêneos mas inter-relacionados; Informação dinâmica e em constante atualização; BigTable – banco de dados orientado a colunas criado pelo Google para gerenciar petabytes de informações

Bancos de Dados para Extração de Conhecimento
Interpretação e Avaliação Data mining Transformação Conhecimento Seleção e pré-processamento Integração dos Dados/ Consolidação dos Dados Padrões e Modelos Bancos de Dados Dados Os dados biológicos estão atualmente distribuídos, cada um com sua formatação e forma de armazenamento. Como então é o processo de extração de conhecimento a partir desses bancos de dados? Esse esquema representa esse processo de uma forma geral. Esse processo é freqüentemente parte das tarefas da bioinformática. Dados são obtidos de um ou mais bancos de dados biológicos, sejam eles extraídos de flat files ou de SGBDs. Nessa etapa é realizada uma checagem na consistência dos dados, nessa etapa pode ser realizado um pré-processamento desses dados (como eliminação de dados inconsistentes e redundantes, preenchimento de dados incompletos, etc.) e então são integrados apropriadamente em um Banco de Dados, de preferência em um bancos de dados Data warehouse (bancos de dados desenvolvidos utilizando técnica de modelagem que permite definir uma estrutura otimizada para buscas). A próxima etapa é a de seleção dos dados relevantes para um estudo mais específico, por exemplo a seleção de atributos. Estes dados então são transformados no formato próprio para a aplicação das técnicas de data-mining que podem auxiliar na determinação de padrões nesses dados. Esses padrões devem ser avaliados e então a é possível atribuir significado biológico nesse caso e daí então gerar conhecimento, que pode ser utilizado como feedback para o processo. Data warehouse

Desenvolvimento de Softwares

Plataforma de Desenvolvimento
Sistemas Operacionais : Linux, UNIX, MacOS, Windows Linguagens de Programação : Perl (Practical Extract and Report Language), C/C++, Java, Python Sistemas de Gerenciamento de Bancos de Dados : MySQL, PostgreSQL Os SOs mais conhecidos e utilizados são aqueles baseados no Linux, UNIX, MacOS e Windows, em ordem de preferência... Esta preferência por sistemas baseados em Linux e UNIX, deve-se ao fato de que tais sistemas são normalmente mais confiáveis, gerenciam melhor o trabalho com grandes quantidades de dados e o Linux, por exemplo, possui código aberto e distribuições gratuitas. Além disso, muitos dos softwares de bioinformática vêm codificados para serem utilizados nestes sistemas operacionais. A Perl indiscutivelmente, é a linguagem de programação mais utilizada por programadores em bioinformática. Foi criada por Larry Wall, originalmente para lidar com extração de dados e geração de relatórios, ao longo dos anos esta linguagem conquistou milhares de adeptos, a Perl é hoje uma linguagem sofisticada, que possui como ponto forte a manipulação de texto (motivo da sua popularização na bioinformática) , mas que, além disso, possui todas as características de uma linguagem de alto-nível genérica. Existem módulos que podem ser incorporados e fornecem métodos para uma gama de aplicações, desde métodos estatísticos clássicos, aplicações gráficas em 3D, até acesso a internet via programação CGI e interconectividade com banco de dados através de uma interface consistente para soluções de integração com bancos de dados. Também há módulos especialmente dirigidos para aplicações em Bioinformática, destacando-se os módulos do pacote BioPerl, que apresentam métodos já implementados bastante úteis para as mais diversas aplicações nesta área. Dentre os SGBDs, destaca-se o MySQL, que é um sistema muito utilizado pela comunidade acadêmica por ser livre para uso acadêmico, e possuir acesso veloz aos dados, mas apresenta certas limitações em relação aos grandes bancos de dados, por não possuir ferramentas que facilitam a manipulação dos dados. O postgreSQL também é utilizado, com muitas funcionalidades, entretanto não é muito utilizado.

Open Bioinformatics Foundation
BioPerl Introdução BioPerl ? Projeto de colaboração open-source internacional (1996- …) Biblioteca de módulos Perl Soluções para a Pesquisa em Bioinformática, Genômica e Ciências Biológicas; Tarefas complexas e rotineiras utilizando algumas poucas linhas de código; Análise e anotação de seqüências e outras áreas; Licenciado sob a Perl Artistic License; Open Bioinformatics Foundation ( ) BioPerl é um projeto de colaboração open-source internacional, que reúne biólogos, bioinformatas e cientistas da computação que trabalham em um conjunto de módulos (ou componentes) da linguagem de programação Perl para o desenvolvimento de soluções em Bioinformática; O projeto BioPerl é coordenado pela Open Bioinformatics Foundation, uma organização sem fins lucrativos e composta por voluntários interessados em colaborar com o desenvolvimento open-source da Bioinformática. O pacote BioPerl é licenciado sob a Perl Artistic License A Artistic License é uma licença livre na medida em que concede aos utilizadores a possibilidade de usarem, modificarem e redistribuírem a obra como quiserem desde que indiquem o nome do criador, incluam o código original e expliquem de que forma é que o código foi modificado. Inicialmente com análise e anotação de sequencias, mas foi expandido para outras áreas: como genética de populações, ontologias, ... Open Bioinformatics Foundation 86

Habilidades essenciais (Bioinformática)
Conhecimentos e alguma experiência na área de Biologia Molecular, Computação e Estatística; Conhecimentos e experiência em utilizar as principais ferramentas e pacotes de análises em Bioinformática; Se sentir à vontade no ambiente de linha de comando; Conhecimentos e experiência em linguagens de programação C/C++, Perl ou Python;

Considerações A Bioinformática “estima”, você é que afirma.
G.I.G.O. - “Garbage in, garbage out”; Entra lixo, sai lixo. Quanto mais informações corretas você puder dar, melhor será o resultado. Sempre há um resultado, pode ser bom ou ruim, mas como julgar? Não há fuga da bancada. Se você torturar os dados o suficiente, eles irão confessar qualquer coisa. Listei aqui uma série de considerações e conselhos úteis ... 1 – A Bioinformática não traz a solução pronta na palma da mão do usuário... Ela gera estimativas, que apontam para as conclusões... As conclusões devem ficar a encargo do usuário... 2 – GIGO, quanto mais informação errada entrar no processo, mais lixo sairá como resultado... Portanto é necessário, tomar certos cuidados e tentar minimizar os possíveis erros, principalmente no processo inicial de análise. 3 – Em contrapartida, quanto mais informações corretas forem inclusas no processo, melhor serão as estimativas. 4 – Sempre há um resultado, e este pode ser bom ou pode ser ruim... Como julgar ? Primeiramente, como dito anteriormente, o usuário é quem irá julgar... Pode ser comparando com outros resultados, verificando se o resultado condiz com o que foi esperado, se o outros resultados provenientes do mesmo processo já tiverem sido validados, se os valores dos testes estatísticos são favoráveis e então se tudo estiver favorável, ainda há que se recorrer à bancada pra testar o resultado experimentalmente através de técnicas especializadas. 5 – Não menosprezar os dados, se você os torturar o suficiente eles irão confessar qualquer coisa, ou seja, se forem explorados ao máximo, eles poderão revelar aspectos ainda não observados.

Centros de Pesquisa Há diversos Centros de Pesquisa que trabalham nessa área, hoje em dia em praticamente todo laboratório de genética molecular há um laboratório de bioinformática associado... Isso em diversas Universidades do mundo todo... Vou tentar listar alguns deles que estão espalhados pelo mundo e depois no Brasil...

Next Generation Sequencers

No mundo... Center for Information Biology http://www.cib.nig.ac.jp
Como dito anteriormente, o NCBI ou Centro Nacional de Informação Biotecnológica, estabelecido em 1988 como um dos principais repositórios de dados e informações biológicas, faz parte do acervo da biblioteca nacional de medicina dos EUA, uma ramificação do Instituto Nacional de Saúde dos EUA. Fica localizado em Bethesda, e conduz pesquisas em biologia computacional e desenvolve aplicações para análise dos dados genômicos. Possui hoje uma série de bancos de dados biológicos, de nucleotídeos, de proteínas, de seqüências expressas, de expressão gênica, de informações sobre doenças genéticas ... Também possui ferramentas para a mineração desses dados, possui um sistema de indexação de artigos científicos, vários livros online da área de biologia celular, de genética e também de bioinformática ... Todo material que é seqüênciado antes da publicação de um trabalho científico utilizando os dados, eles são previamente submetidos ao GenBank que hoje é o maior banco de dados genômico do mundo e com crescimento exponencial. O EBI, faz parte do EMBL ou Laboratório Europeu de Biologia Molecular que possui outras unidades espalhadas pela Europa, o EBI é o centro de pesquisa e de serviços em Bioinformática, localizado no vilarejo de Hinxton, próximo à Universidade Cambridge, na Inglaterra. Também é outro Centro de Pesquisa e Serviços em Bioinformática, que além de fornecer acesso à uma série de bancos de dados biológicos, também disponibiliza ferramentas para a mineração dos dados. Também possui cursos e treinamentos para pesquisadores. O CIB, Centro de Informação Biológica do Japão, no qual está localizado DDBJ, mencionado anteriormente, é outro Centro de Pesquisa em Bioinformática que surgiu para suprir as necessidades dos pesquisadores japoneses. Iniciou suas atividades em 1995 como uma divisão do Instituto Nacional de Genética (NIG) em Mishima no Japão. Também contribui na formação de pesquisadores na área. Outro Centro de Pesquisas em Bioinformática, é o SANBI, na África do Sul, está localizado na Universidade de Western Cape, possui Treinamento, Pesquisa e oferece serviços disponíveis através da Internet. Por fim, vou incluir aqui a Companhia Privada Norte Americana Celera, como representante dos Centros de Pesquisa privados ... A Celera foi fundada inicialmente com o intuito de sequenciar e montar o genoma humano. Após a conclusão do feito, ela iniciou sua expansão, empenhada em estudos para o desenvolvimento de drogas e alvos terapêuticos, e nesse sentido, a bioinformática é também fundamental. Center for Information Biology Mishima - JP TIGR/J. Craig Venter Institute San Diego - CA - US South African National Bioinformatics Institute Tygerberg - ZA European Bioinformatics Institute Hinxton - UK National Center for Biotechnology Information Bethesda – MD - US Wellcome trust SANGER Institute Hinxton - UK

Companhias de Bioinformática
Estas são as grandes Companhias Privadas que trabalham com Bioinformática no mundo... Dentre todas elas, podemos encontrar a Bayer, MERCK, Roche, Pfizer que são grandes grupo na área farmacêuitca... A Celera também está aí no meio, Outas são especializadas em pesquisa agropecuárias. E outras que prestam especificamente serviços de bioinfromática...

e no Brasil... Vários centros de pesquisa e desenvolvimento em bioinformática foram, desde o lançamento da Rede Onsa, se constituindo e se consolidando em São Paulo, acompanhando a espiral de crescimento da cultura genômica no país. A Rede Onsa envolveu a participação de 35 laborátórios espalhados pelo Estado de São Paulo, inclusive os Laboratórios da UNESP daqui de Jaboticabal, da USP e UNAERP de Ribeirão Preto... A rede Onsa esteve presente no seqüenciamento do genoma da Xylella e depois no Projeto Genoma Humano do Câncer. Foi o caso do Instituto Ludwig de Pesquisa do Câncer, que é uma fundação internacional sem fins lucrativos que desenvolve pesquisa sobre o câncer. O Instituto Ludwig teve participação especial no Projeto Genoma Humano do Câncer, e hoje desenvolve e financia pesquisa na área de bioinformática... O consórcio ONSA, que inicialmente seqüenciou o genoma da Xylella, teve o suporte de bioinformática centralizado no Instituto de Computação da Universidade Estadual de Campinas (Unicamp). Após o Projeto Genoma Hunano do Câncer, foi lançado o projeto CAGE, "Cooperação para a Análise dos Genes e sua Expressão no Câncer", em desenvolvimento no Instituto de Química da USP, tem como objetivo observar as alterações na expressão de genes em tecidos humanos normais e tumorais. Também foi lançado o Projeto Genoma Clínico, Neste projeto, a expressão gênica das células neoplásicas está sendo relacionada com características clínicas de pacientes para a identificação de genes relevantes no diagnóstico e prognóstico, para definição de subtipos da neoplasia e predição de respostas terapêuticas a diferentes tratamentos. E teve a participação do Centro de Terapia Celular do Hemocentro de Ribeirão Preto. Com a participação do laboratório de bioinformática onde atualmente eu trabalho. O LNCC, uma unidade de pesquisa cuja finalidade é constituir-se em um centro de referência e difusão da Computação Científica no País. O LNCC coordenou a bioinformática da Rede Nacional do Projeto Genoma Brasileiro, formada por 25 laboratórios espalhados pelo Brasil, responsável pelo sequenciamento da bactéria Chromobacterium violaceum . A Empresa Brasileira de Pesquisa Agropecuária (Embrapa) situada em Campinas, tem como principais objetivos : funcionar como um centro de pesquisa e oferta de serviços, como banco de dados e softwares na área de bioinformática, por meio da internet. Seu principal produto é o software Sting Millenium Suite (SMS), que permite o estudo da relação entre a estrutura das proteínas e a interação entre elas. A Universidade Católica, como representante da Rede BioFoco, a rede de bioinformática do Centro-Oeste, cujo objetivo é o desenvolvimento da área na região centro-oeste do país. A Alellyx Applied Genomics é uma empresa de pesquisa e desenvolvimento em Genômica Aplicada. Ela foi fundada em março de 2002 por um grupo de Biólogos Moleculares e Bioinformatas, que trabalharam, desde o início, no projeto do Genoma da Xylella, cujo nome acabou, por anagrama, batizando a empresa. O programa de desenvolvimento tecnológico da Alellyx é financiado pela Votorantim Novos Negócios e por contratos com empresas nacionais e internacionais do setor agroindustrial. A Scylla, é a primeira empresa voltada especificamente à bioinformática. Ela surgiu juntamente com a Alellyx, por alguns dos bioinformatas que trabalharam no projeto genoma da Xylella, da Cana-de-Açucar e outros. A empresa procura oferecer serviços e soluções computacionais para empresas e centros de pesquisa que utilizam biotecnologia para alavancar suas atividades. Bioinformatics Laboratory - Universidade Católica de Brasília (BioFoco) Brasília - BR Alellyx Applied Genomics Campinas - BR Departamento de Bioquímica - Instituto de Química - USP São Paulo - BR Laboratório Nacional de Computação Científica Petrópolis - BR Laboratório de Genética Molecular e Bioinformática (INCTC) Ribeirão Preto - BR Embrapa Campinas - BR Ludwig Institute for Cancer Research – São Paulo Branch São Paulo - BR Laboratory for Bioinformatics – UNICAMP Campinas - BR Scylla Bioinformática Campinas - BR

Formação na Área Os primeiros projetos na área eram compostos por profissionais de diferentes áreas da biologia e informática e percebia-se uma certa dificuldade de comunicação: enquanto o biólogo procurava uma solução que levasse em consideração as incertezas e erros que ocorrem na prática, o cientista da computação procurava uma solução eficiente para um problema bem definido, o que praticamente não existe. Assim, surgiu a necessidade de um novo profissional, que entendesse bem ambas as áreas e fizesse a ponte entre elas: o Bioinformata. Esse profissional deveria ter o conhecimento suficiente para saber quais eram os problemas biológicos reais e quais seriam as opções viáveis de desenvolvimento e abordagem computacional dos problemas em questão. Dado o sucesso e a importância que alcançaram os projetos Genoma e seus desmembramentos, o bioinformata tem sido um profissional requisitado e raro. No exterior, podem ser encontrados pelo menos 122 cursos de formação em bioinformática. No Brasil, ainda são poucos, porém políticas governamentais têm procurado incentivar a formação de grupos de pesquisa e de pessoal nessa área.

Graduação Informática Biomédica – USP 3 principais áreas
Bioinformática Processamento de Imagens e sinais Sistemas de Informação em Saúde Esse curso foi pioneiro, surgiu para atender as muitas atividades que dependem de um profissional com formação multidisciplinar em Ciências de Computação e em Biociências. O curso de bacharelado em Informática Biomédica requer do aluno aptidão para Ciências Exatas e interesse por Biologia Geral e Humana. O curso fornece uma formação conceitual em Ciências Exatas e Biológicas nos dois primeiros anos e uma formação específica em uma das três grandes áreas apresentadas. - Bioinformática : Atuar como bioinformata, esse profissional do qual estamos tratando. - Processamento de Imagens e sinais : Atuar no desenvolvimento de sistemas para diagnóstico por imagem e sinais - Informática na Gestão da Saúde : Atuar no gerenciamento de registros clínicos e de saúde pública

Pós-Graduação Bioinformática – Interunidades/USP Genética – FMRP/USP
Genética – FMRP/USP Bioinformática – UFMG Genética – UFPA Bioinformática – UFPR Há diversas universidades empenhadas na formação de pesquisadores na área, listei aqui algumas delas... Atualmente, existem dois programas de pós-graduação no país, um sendo oferecido pela Universidade de São Paulo (USP) e outro pela Universidade Federal de Minas Gerais (UFMG). Além deles, há o Programa de Pós-Graduação em Genética também na USP, que possui uma área de concentração em Bioinformática, ou então também há o Programa de Pós-graduação em Biotecnologia na ufSCar, que possui uma linha de pesquisa em Bioinformática. Além de outros cursos de especialização espalhados por todo país ... A característica de todos estes programas é a abordagem multidisciplinar.

Curso de Inverno em Bioinformática
Objetivo principal : curso introdutório sobre as principais técnicas utilizadas em projetos de Bioinformática, permitindo a integração entre os interssados na área. Público alvo : O curso é aberto a toda comunidade, direcionado principalmente aos alunos de graduação, sem restrição de área.

Curso de Verão em Bioinformática
Objetivo principal : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática. Público alvo : alunos de graduação, pós-graduação ou profissionais, das áreas de ciências exatas ou biológicas . Todo ano no verão é oferecido no nosso laboratório, um Curso de Verão em Bioinformática de aproximadamenet 1 semana, para alunos de graduação ou pós graduação de diferentes áreas sejam elas biológicas ou exatas, e onde o objetivo principal é este : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática, ou seja, é apresentado um problema biológico qualquer e as ferramentas possíveis para estudá-lo, os alunos devem interagir uns com os outros para determinar as tarefas e participar da construção de um sistema que permitá estudá-lo.

AB3C http://www.ab3c.org/
Servir a comunidade científica brasileira e internacional influenciando as políticas governamentais e científicas; Representar a comunidade brasileira de Bioinformática e Biologia Computacional junto aos poderes públicos, influenciando as políticas de governo em ciência e tecnologia; Congregar a comunidade brasileira de Bioinformática e Biologia Computacional, possibilitando um maior relacionamento social e profissional entre seus membros; Organizar encontros e publicações de alta qualidade na área de Bioinformática e Biologia Computacional; Distribuir informação sobre treinamento, educação, emprego e notícias relevantes de áreas correlatas. A Associação Brasileira de Bioinformática e Biologia Computacional (AB3C) é uma sociedade acadêmica, que surgiu recentemente, como necessidade devido ao crescimento e importância da área, a associação tem como objetivos primordiais : Servir à comunidade científica em geral Representar seus membros perante o governo e o público em geral Promover o relacionamento entre os seus membros Organizar os eventos na área e disseminar informação

X-Meeting

Perspectivas Nesse tópico, o objetivo é mostrar alguns pontos no cenário atual da Bioinformática em si e do profissional que trabalha na área.

... para a Bioinformática Consolidar-se definitivamente como ciência.
Disciplina obrigatória na área de Genética Molecular; Disciplina opcional para área de Ciência da Computação; No Brasil, novos cursos de graduação, extensão e pós-graduação. Em universidades públicas e privadas. No Brasil, deve desenvolver-se também em outros estados. Desenvolvimento da Bioinformática aplicada à Proteômica. Desafio do futuro: integrar todo o conhecimento adquirido (Biologia Sistêmica). Exigir e promover ainda mais a multidisciplinaridade e a integração entre os profissionais das diferentes áreas envolvidas. Conquistar o mercado. No Brasil, a área ainda tem muito espaço pra crescer. Mais investimentos na área. A Bioinformática tende a consolidar-se definitivamente como ciência pura e também aplicada. Já houve muita discussão, entre os que consideram a bioinformática uma nova ciência e aqueles que a consideram apenas técnica... "A questão é que existe uma grande integração entre diversas áreas, fazendo com que a linha que divide o que é uma nova área ou não se torne um tanto difusa" . A disciplina tende a ser obrigatória na área de Genética Molecular, já que estudar Genética Molecular sem a Bioinformática é uma tarefa árdua. No Brasil, novos cursos de graduação, extensão e pós graduação. Em Universidades públicas e privadas. Como vimos no mapa, a Bioinformática no Brasil está quase que exclusivamente concentrada nos estados da região sudeste, porém tem espaço para desenvolver-se em outras regiões, a região sul que já está a frente, a região centro-oeste e também o nordeste e o norte. Redes de pesquisa têm sido formadas por todo o país, especialmente no sul e centro-oeste. Desenvolvimento da Bioinformática Proteômica, que ainda não é tão explorada quanto a genômica. A Bioinformática tende a promover ainda mais a multidisciplinariedade, já que a tendência é se aprofundar nos detalhes, torturar bastante a enorme quantidade de dados que foram gerados sob uma visão mais detalhista e isso pode exigir que se tenha um certo domínio sob as diferentes áreas envolvidas, a genética, a biologia, a bioquímica, biofísica... Com o aumento dos investimentos do governo e também de indústrias da informática no desenvolvimento de softwares para a biologia molecular, há uma tendência da bioinformática se tornar mais comercial do que é hoje. A forma que essa atividade comercial deve assumir, creio eu que será a de consultoria, pois há necessidades muito específicas, que um programa genérico não seria capaz de lidar, além disso, para que as perguntas possam ser respondidas, há a necessidade do domínio da aplicação e também das questões biológicas envolvidas . Aguardamos no futuro mais investimentos na área, de indústrias farmacêuticas, de agro-indústrias, enfim... Já que avanços nas pesquisas têm condições de oferecer retorno a esses investimentos.

e para o bioinformata No Brasil América do Norte e Europa e Ásia
Ainda muito restrito à área acadêmica e institutos públicos de pesquisa; Bolsas de Estudo de Instituições de fomento à Pesquisa. Poucos cursos e treinamento para capacitação. Excelente formação na área; América do Norte e Europa e Ásia Grandes centros de Bioinformática financiados por instituições governamentais e privadas [empresas farmacêuticas]; Cursos e treinamentos especializados para a capacitação. Carreira de Bioinformática - salário médio anual - Pesquisador: US$77.710,00 – (~R$ ,00) No Brasil, a Bioinformática é quase que essencialmente acadêmica, porém já surgiram as primeiras empresas, a Alellyx e a Scylla e eu acredito que a tendência seja surgirem outras empresas enquanto na América do Norte e na Europa, há grandes centro de Bioinformática como vimos, tanto os financiados por instituições governamentais, como os financiados com capital privado. A remuneração dos bioinformatas no Brasil é quase que exclusivamente proveniente de bolsas de estudo através de instituições de fomento à pesquisa, como FAPESP, CNPQ, CAPES... O que não é tão atrativo financeiramente e não oferece nenhuma estabilidade. Segundo um Prof. da UNICAMP, o aluno na Universidade normalmente quer fazer a sua dissertação de mestrado e sua tese de doutorado, ele não quer desenvolver software para bioinformática. Além disso, a área comercial oferece vantagens financeiramente maiores. A realidade para o bioinformata é melhor na América do Norte e Europa, Em estudo realizado pela revista The Scientist e pela empresa de consultoria Abbott, Langer & Assoc. divulgado em Set/2001 A carreira de Bioinformática foi a de maior salário médio, com US$95,000. O que quer dizer que aqui no Brasil, a realidade tende a melhorar... Isso também deve acontecer com relação aos cursos e treinamentos para capacitação de profissionais, as novas empresas que devem surgir, exigirão profissionais capacitados e novos cursos tendem a surgir para a formação de profissionais e pesquisadores na área.

Referências Bom... Eu vou finalizar, com as referências e alguns links interessantes pra quem se interessou e quer ir além...

Referências STRACHAN, T ; READ, A P. Genética Molecular Humana. Artmed Alberts, B; Johnson, A; Lewis J; Raff, M; Roberts, K; Walter, A. Biologia Molecular da Célula. Ed. Artmed Prosdocimi F et. al. Bioinformática: manual do usuário . Biotec. Ci. Des. 29: 18-31, 2002. O DNA Vai à Escola, Wikipedia, Revista ComCiência, Genome News Network, Folha Online, Bioinformatics.Org Catálogo de Centros de Bioinformática Salários Genome (NHGRI) Essas foram as referências...

Links Úteis e Interessantes
Bioinformatics Organization ( NCBI ( EBI ( CPAN - Comprehensive Perl Archive Network ( BioPerl ( Os livros editados pela O’REILLY ( Perl ( Bioinformatics ( Periódicos Científicos Bioinformatics ( BMC Bioinformatics ( Os amigos do bioinformata na minha opinião ... O Google – que afinal é o sistema de busca mais eficiente que eu conheço, que possibilita você encontrar muita coisa interessante em questão de segundos. O NCBI – que apesar de estar repetindo novamente, eu creio que não há bioinformata que não o tenha visitado. Softwares Livres – afinal nem todo mundo tem dinheiro pra gastar com licenças. O CPAN, um amplo conjunto de bibliotecas em Perl especializadas em uma diversidade de tarefas úteis, que podem ser aproveitadas e que economizam um bom tempo de programação... Afinal não queremos reinventar a roda! A BioPerl, que reune a nata dos desenvolvedores em bioinformática do mundo na construção de bibliotecas para a Linguagem de Programação Perl, que traz facilidades incríveis no desenvolvimento de aplicações . Os livros editados pela O´REILLY, que são muito bons, em especial destaco o livro Programação Perl, escrito pelo criador da Perl – Larry Wall. A w3c, que mantêm certa normas e recomendações para a codificação de conteúdo para a Internet. E já que muitas das ferramentas de bioinformática hoje são desenvolvidas nesse ambiente... Este é o local para consultar e manter as páginas conforme essas especificações. O Latex, que é uma ferramenta poderosa para a elaboração de documentação e textos científicos.

Perguntas... Daniel Guariz Pinheiro dgpinheiro@usp.br
Laboratório de Genética Molecular e Bioinformática OBRIGADO PELA PACIÊNCIA !!! Perguntas ? Este é o meu (“lgmb” Laboratório de Genética Molecular e Bioinformática, “fmrp” Faculdade de Medicina de Ribeirão Preto, “usp” , “br”) Podem mandar s se quiserem discutir algo... A minha página, que está bastante desatualizada... E esta é a página do Laboratório...

Introdução à Bioinformática

Apresentações semelhantes

Apresentação em tema: "Introdução à Bioinformática"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Introdução à Bioinformática

Apresentações semelhantes

Apresentação em tema: "Introdução à Bioinformática"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback