Bioinformática Felipe G. Torres
FELIPE G TORRES Graduado em Sistemas de Informação. Mestrando em Computação Aplicada – linha de pesquisa em bioinformática. fgtorres18@gmail.com http://www.4shared.com/folder/iMzBTBBF/Bioinformtica.html
INTRODUÇÃO A necessidade de processar e analisar dados biológicos motivou o surgimento de uma ciência interdisciplinar. Alguns biólogos começaram a utilizar o computador para executar processos nos dados. O conjunto desses processos é chamado de Bioinformática.
INTRODUÇÃO Existem dois tipos de experimentos biológicos: In vivo – Experimentos executados com seres vivos. In vitro – Experimentos executados com dados desenvolvimento artificial.
INTRODUÇÃO Existem basicamente três tipos de análises de dados genéticos: Proteínas DNA RNA
INTRODUÇÃO
INTRODUÇÃO Década de 60…
INTRODUÇÃO Tempo 13 anos (1990 - 2003) Custo U$3.8 bilhões
INTRODUÇÃO BANCO DE D. B. ESTRUT. COMP. DADOS BIO. BANCO DE DADOS ATUAIS FERRAMENTAS 10
11
ILLUMINA HISEQ2000 SANGER TOTAL DE BASES: 35 ~ 200 Gb TEMPO DA CORRIDA: 1.5 a 8 dias CUSTO: MENOS DE U$1/Mb TOTAL DE BASES: 30~ 350 kb TEMPO DA CORRIDA: 15 HORAS CUSTO: U$1000/Mb 12
INTRODUÇÃO O que são nucleotídeos ? Os nucleotídeos são compostos por uma base nitrogenada, um grupo fosfato e uma ribose ou desoxiribose.
INTRODUÇÃO
INTRODUÇÃO
INTRODUÇÃO Onde posso encontrar nucleotídeos ?
INTRODUÇÃO Direção da sequência 3’ 5’ e 5’ 3’
INTRODUÇÃO
INTRODUÇÃO Aminoácidos são moléculas orgânicas complexas formadas por: um grupo amina e um grupo carboxilo.
INTRODUÇÃO Atualmente a bioquímica categoriza basicamente 20 nomes de aminoácidos basicamente. Os aminoácidos são cientificamente representados por 1 ou 3 letras.
INTRODUÇÃO AMINOÁCIDOS
INTRODUÇÃO As proteínas são macromoléculas formadas por aminoácidos. Uma proteína como exemplo é a insulina humana. Insulina = (30 glycines, 44 alanines, 5 tyrosines + 14 glutamines + ... ) Insulina = MALWMRLLPLLALLALWGPDPAAAF VNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
INTRODUÇÃO
INTRODUÇÃO A análise de proteínas à 50 anos atrás era realizada apenas em laboratórios. Nesta disciplina posteriormente iremos nos aprofundar em análises modernas de proteínas com bioinformática.
INTRODUÇÃO Alfred Sanger é tipo como pai da era moderna da biologia molecular e estrutural. Ele recebeu o prêmio nobel pelo sequenciamento da insulina.
INTRODUÇÃO Porém nos anos 1960 o poder computacional era pequeno, nessa época o computador tinha no máximo 8mb de memória. Processava cálculos simples e demoravam um tempo alto para realizar cálculos. Essa limitação durante muito tempo foi um fator limitante para as análises computacionais de dados biológicas.
INTRODUÇÃO A sequência lógica de obtenção das informações de uma proteína é: ESTRUTURA SEQUÊNCIA FUNÇÃO
INTRODUÇÃO A primeira estrutura 3D de proteína obtida foi em 1958 pelos Dr. Kendrew e Perultz utilizando cristalografia de raio X. A função da proteína está diretamente ligada a sua estrutura 3D. Com a bioinformática ficou muito mais fácil obter a estrutura 3D de uma proteína e navegar por ela.
INTRODUÇÃO Existe uma área conhecida como bioinformática estrutural. Esta responsável por estudar e desenvolver processos de análise das estruturas moleculares. Posteriormente iremos aprender técnicas e nos aprofundar mais na análise de bioinformática de proteínas.
INTRODUÇÃO
INTRODUÇÃO As proteínas são formadas de aminoácidos, e os aminoácidos são formados de quê ?
Isso mesmo, nucleotídeos. INTRODUÇÃO As proteínas são formadas de aminoácidos, e os aminoácidos são formados de quê ? Isso mesmo, nucleotídeos.
BANCO DE DADOS BIO 1965 1970 1982
BANCO DE DADOS BIO GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO GENBANK ENTRE 1995 A 2011.
BANCO DE DADOS BIO GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO GOLD ENTRE 1997 A 2011.
BANCO DE DADOS BIO Banco de dados biológicos são locais computacionais para o armazenamento de dados biológicos. Dados Biológicos Sequências de DNA; Sequências de Proteínas; Anotações;
BANCO DE DADOS BIO Tipos de Bancos de dados biológicos, (XIONG, 2007): Primários Secundários Especializados
BANCO DE DADOS BIO Bancos de dados Primários: Armazenam informações biológicas originais. Armazenam normalmente em arquivos de texto. Ex.: Fasta.
BANCO DE DADOS BIO Bancos de dados Secundários: Armazenam resultados de análises feitas a partir de dados primários. Utilizam SGBD`s e estruturas computacionais mais complexas.
ESTRUTURA DE BD Modelo Relacional Orientação a objeto
MODELO RELACIONAL Planilhas que se relacionam Utilizando o conceito de keys Largamente utilizado e estável
MODELO RELACIONAL
MODELO OO Conceito abstrato de objeto Conceito melhorado de keys Maior facilidade na abstração
MODELO OO
TIPO DE ARQUIVOS - FASTA
TIPO DE ARQUIVOS - GENBANK
TIPO DE ARQUIVOS - GENBANK
UNIPROT Banco de dados de proteínas e informações funcionais. O UNIPROT é um consórcio entre: European Bioinformatics Institute (EBI). Swiss Institute of Bioinformatics (SIB). Protein Information Resource (PIR). Acesso disponível pelo link: http://www.uniprot.org/
HIV DATABASE No HIV Databases estam armazenados dados de sequências de HIV, epitopos e testes para vacinas. Este projeto foi fundado pela Division of AIDS of the National Institute of Allergy and Infectious Diseases (NIAID) Acesso disponível pelo link: http://www.hiv.lanl.gov/content/index
PROTEIN DATA BANK É um repositório de estruturas tri-dimensionais de proteínas e ácidos nucléicos. A maioria das estruturas foram obtidas por cristalograma ou por espectroscopia por ressonância magnética. A estrutura pode ser visualizada em 3D. Acesso disponível pelo link: http://www.rcsb.org/pdb
ENTREZ O NCBI armazena dados provenientes da sequenciação de genomas no seu GenBank e mantém um índice de artigos de investigação biomédica que disponibiliza nas bases de dados PubMed Central e PubMed. Todas as bases de dados estão disponíveis na Internet através do motor de busca Entrez. É um grande integrador de dados no NCBI. Acesso disponível pelo link: http://www.ncbi.nlm.nih.gov/sites/gquery
ENTREZ - DEFINIÇÃO É o sistema de indexação, busca e recuperação de informação baseado em texto usado pelo Portal NCBI. Integra recursos de diversas fontes de informação em Ciências Biológicas e da Saúde.
ENTREZ - RECURSOS Bases de Dados referenciais e textuais Literatura em Ciências Biológicas e da Saúde Bancos de Dados Genéticos Bases de Dados Moleculares Ferramentas e Recursos em Biologia Genômica Ferramentas de Mineração de Dados (Data Mining)
ENTREZ - ACESSO Clique aqui para obter descrição e link de todas as bases de dados disponíveis no Portal NCBI
Descrição e link de todas as bases de dados disponíveis no Portal NCBI ENTREZ - ACESSO Descrição e link de todas as bases de dados disponíveis no Portal NCBI
ENTREZ - RECURSOS Bases de Dados referenciais e textuais Literatura em Ciências Biológicas e da Saúde Bancos de Dados Genéticos Bases de Dados Moleculares Ferramentas e Recursos em Biologia Genômica Ferramentas de Mineração de Dados (Data Mining)
ENTREZ - LITERATURA PUBMED: biomedical literature citations and abstracts PUBMED CENTRAL: free, full text journal articles SITE SEARCH: NCBI web and FTP sites BOOKS: online books JOURNALS: detailed information about the journals indexed in PubMed and other NLM CATALOG: catalog of books, journals, and audiovisuals in the NLM collections
ENTREZ - LITERATURA Clique aqui para acessar as bases de dados em literatura em Ciências Biológicas e da Saúde
ENTREZ - LITERATURA Lista de todas as bases de dados em literatura em Ciências Biológicas e da Saúde
ENTREZ - PUBMED Serviço da NLM que integra diversas bases de dados em Ciências Biológicas e da Saúde. Permite o acesso a mais de 17 milhões de itens indexados pela MEDLINE e de artigos de periódicos, livros, multimeios, entre outros recursos de informação. A base PubMed inclui links para muitos sites que fornecem resumos e/ou textos completos de artigos e outros recursos de informação.
ENTREZ - PUBMED A interface da base PubMed é a mesma do Portal NCBI, com filtro de pesquisa apenas para a PubMed
Links específicos da base PubMed ENTREZ - PUBMED Links específicos da base PubMed
ENTREZ – PUBMED CENTRAL PubMed Central é um acervo digital de artigos de periódicos de livre acesso em Ciências Biológicas e da Saúde, desenvolvido e gerenciado pelo NCBI. Também faz parte da base PubMed, com o diferencial de que seus recursos de informação estão disponíveis quase sempre em texto completo
ENTREZ – PUBMED CENTRAL A interface da base PubMed Central é a mesma do Portal NCBI, com filtro de pesquisa apenas para a PubMed Central
MÃOS NA MASSA 1- Busque no NCBI as sequências de Transversotrema. 2- Baixe todas as sequências em um único arquivo .FASTA 3- Descubra a localização geográfica da coleta do organismo de acession id: JF412530
Bioinformática Felipe G. Torres