Prof. Dr. Francisco Prosdocimi

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

Organização Gênica de Eucariotos
Propriedades físicas representativas de
BIBLIOTECAS DE DNA ou BANCOS DE DNA FABIANA SEIXAS
Bancos de dados aplicados ao estudo de proteínas
KEGG: Enciclopédia de Genes e Genomas de Kyoto
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Universidade Federal de Viçosa
Curso de ADMINISTRAÇÃO
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Uso da bioinformática na análise genômica
Introduction of RefSeq and LocusLink: resources at the NCBI
O Surgimento dos Sistemas de Bioinformática
Felipe Dias Maria Fernanda
Anotação de SAGE Tags Rodrigo Martins Brandão.
Bancos de Dados Biológicos
Formato de Arquivos e Bancos de Dados Biológicos
Introdução à expressão gênica
Formato de Arquivos e Banco de Dados Biológicos II
Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas.
Seqüência e qualidade. Seqüência e qualidade Uso da bioinformática na análise genômica.
Miguel www. cromatina. icb. ufmg. br. Miguel www. cromatina. icb. ufmg. br.
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
Teste da fala É bastante simples, embora algo subjectivo, mas muito prático para saber se o seu esforço é excessivo. Durante o exercício a respiração.
TÉRREO 51a Biblioteca B C D E F A Rua Cardoso de Almeida Av. Dr. Arnaldo Rua Ministro Godoy.
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Emanuel Teixeira Nº24924 Bioengenharia
Genômica funcional e metagenômica
Transcription and Translation
Universidade Federal de Santa Catarina Programa de Pós-graduação em Bioquímica Apoios aos alunos de graduação Florianópolis, 09 de novembro de 2010.
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.
Transcrição e processamento de RNA em eucariotos
Organização Gênica de Eucariotos
Indicadores do Mercado
FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO III – Nº 05.
Bioinformática Prof. Paulo Fazendeiro Trabalho realizado por: • Ana Margarida Barata, nº • Ana Isabel Monteiro, nº • Henrique Matos Cardoso,
Núcleo de Estatística e Gestão Estratégica- NEGEST.
Bancos de dados para análise de sequências de DNA
NOVOS CONCEITOS DE DEPRECIAÇÃO PARA MÁQUINA E EQUIPAMENTOS
SÉRIES ESTATÍSTICAS.
Estatística Aula 9 – 28/02/2011.
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
CONCEITOS FUNDAMENTAIS
Olhe fixamente para a Bruxa Nariguda
Bancos de Dados.
Baseado no material do Professor Raul Paradeda
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Diogo Silva Nº  1988 NCBI- Banco de dados público contendo sequências de DNA dos mais diversos organismos  1995 Técnica do microarranjo -perfil.
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Bioinformática Nuno Santos a25303 Bioengenharia 2011/2012.
Seqüenciamento e genômica
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode.
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Principais algoritmos de alinhamento de sequências genéticas
Bioinformática Felipe G. Torres.
Universidade Federal de Pernambuco
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Bioinformática Felipe G. Torres.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
KEGG – Kyoto Encyclopedia of genes and genomes Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Seminários.
Biologia de Sistemas Lucas Pedersen Parizzi 26 de junho de 2007.
Transcrição da apresentação:

Prof. Dr. Francisco Prosdocimi Bancos de dados Prof. Dr. Francisco Prosdocimi

Conceitos importantes Relational database Conceitos importantes Banco de dados Tabela Campos Relações Chave-primária

A linguagem SQL Outra linguagem?

Criando uma tabela e definindo campos

A magia do comando SELECT

A cláusula WHERE

mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40; +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score | | RE087RA01.esd | Chr18 | 100 | 308 | 0 | 0 | 384 | 691 | 43689822 | 43689515 | 3e-172 | 611 | | RE087RA01.esd | Chr18 | 100 | 75 | 0 | 0 | 241 | 315 | 43691823 | 43691749 | 3e-33 | 149 | | RE087RA01.esd | Chr18 | 100 | 69 | 0 | 0 | 85 | 153 | 43694415 | 43694347 | 1e-29 | 137 | | RE087RB10.esd | Chr5 | 100 | 179 | 0 | 0 | 105 | 283 | 56439425 | 56439247 | 3e-95 | 355 | | RE087RB10.esd | Chr5 | 100 | 133 | 0 | 0 | 283 | 415 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RC01.esd | Chr3 | 100 | 179 | 0 | 0 | 106 | 284 | 42018973 | 42018795 | 9e-96 | 355 | | RE087RC02.esd | Chr10 | 100 | 125 | 0 | 0 | 313 | 437 | 99740206 | 99740330 | 2e-63 | 248 | | RE087RC02.esd | Chr10 | 100 | 104 | 0 | 0 | 212 | 315 | 99739617 | 99739720 | 8e-51 | 206 | | RE087RC02.esd | Chr10 | 100 | 92 | 0 | 0 | 117 | 208 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC03.esd | Chr10 | 100 | 110 | 0 | 0 | 325 | 434 | 99740206 | 99740315 | 2e-54 | 218 | | RE087RC03.esd | Chr10 | 100 | 104 | 0 | 0 | 224 | 327 | 99739617 | 99739720 | 7e-51 | 206 | | RE087RC03.esd | Chr10 | 100 | 92 | 0 | 0 | 129 | 220 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC05.esd | Chr5 | 100 | 158 | 0 | 0 | 172 | 329 | 24199827 | 24199984 | 9e-83 | 313 | | RE087RC05.esd | Chr5 | 100 | 136 | 0 | 0 | 436 | 571 | 24201779 | 24201914 | 1e-69 | 270 | | RE087RC05.esd | Chr5 | 100 | 67 | 0 | 0 | 107 | 173 | 24199155 | 24199221 | 2e-28 | 133 | | RE087RC06.esd | Chr5 | 100 | 170 | 0 | 0 | 323 | 492 | 108223843 | 108223674 | 6e-90 | 337 | | RE087RC06.esd | Chr5 | 100 | 137 | 0 | 0 | 491 | 627 | 108223120 | 108222984 | 3e-70 | 272 | | RE087RC08.esd | Chr19 | 100 | 356 | 0 | 0 | 130 | 485 | 36886303 | 36886658 | 0 | 664 | | RE087RC10.esd | Chr14 | 100 | 103 | 0 | 0 | 146 | 248 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RC10.esd | Chr11 | 100 | 103 | 0 | 0 | 146 | 248 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RC11.esd | Chr7 | 100 | 91 | 0 | 0 | 103 | 193 | 33783452 | 33783362 | 6e-43 | 180 | | RE087RD01.esd | Chr14 | 100 | 103 | 0 | 0 | 155 | 257 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RD01.esd | Chr11 | 100 | 103 | 0 | 0 | 155 | 257 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RD04.esd | Chr8 | 100 | 198 | 0 | 0 | 252 | 449 | 100369996 | 100369799 | 1e-106 | 392 | | RE087RD05.esd | Chr7 | 100 | 91 | 0 | 0 | 368 | 458 | 39281415 | 39281505 | 8e-43 | 180 | | RE087RD07.esd | Chr14 | 100 | 219 | 0 | 0 | 151 | 369 | 23348458 | 23348676 | 3e-119 | 434 | | RE087RD07.esd | Chr14 | 100 | 101 | 0 | 0 | 541 | 641 | 23349620 | 23349720 | 9e-49 | 200 | | RE087RD07.esd | Chr14 | 100 | 75 | 0 | 0 | 368 | 442 | 23349004 | 23349078 | 3e-33 | 149 | | RE087RE01.esd | Chr13 | 100 | 332 | 0 | 0 | 112 | 443 | 51325163 | 51324832 | 3e-172 | 611 | | RE087RE02.esd | Chr19 | 100 | 125 | 0 | 0 | 204 | 328 | 56707552 | 56707428 | 4e-63 | 248 | | RE087RE02.esd | Chr19 | 100 | 62 | 0 | 0 | 142 | 203 | 56710310 | 56710249 | 2e-25 | 123 | | RE087RE05.esd | Chr2 | 100 | 241 | 0 | 0 | 275 | 515 | 131052933 | 131052693 | 3e-132 | 478 | | RE087RE05.esd | Chr2 | 100 | 79 | 0 | 0 | 145 | 223 | 131053063 | 131052985 | 1e-35 | 157 | | RE087RE09.esd | Chr19 | 100 | 106 | 0 | 0 | 100 | 205 | 13495533 | 13495428 | 1e-51 | 210 | | RE087RF01.esd | Chr3 | 100 | 195 | 0 | 0 | 86 | 280 | 14725822 | 14726016 | 7e-105 | 387 | | RE087RF01.esd | Chr3 | 100 | 180 | 0 | 0 | 279 | 458 | 14729898 | 14730077 | 6e-96 | 357 | | RE087RF01.esd | Chr3 | 100 | 119 | 0 | 0 | 457 | 575 | 14730286 | 14730404 | 2e-59 | 236 | | RE087RF01.esd | Chr3 | 100 | 74 | 0 | 0 | 575 | 648 | 14730866 | 14730939 | 1e-32 | 147 | | RE087RF02.esd | Chr5 | 100 | 133 | 0 | 0 | 282 | 414 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RF02.esd | Chr5 | 100 | 107 | 0 | 0 | 413 | 519 | 56437590 | 56437484 | 2e-52 | 212 | 40 rows in set (14.36 sec)

Bancos de dados Biológicos Prof. Dr. Francisco Prosdocimi

Bancos de dados Servem para organizar a informação biológica e disponibilizá-la de maneira simples aos pesquisadores Bancos mais comuns Sequência, estrutura, protein-protein interaction, domínios, assinaturas, famílias gênicas, evolutivos, paper-específicos

Conceitos básicos O conceito de curadoria de sequências Bancos de dados primários Genbank, PDB, EMBL Bancos de dados secundários Swissprot, RefSeq, COG, KEGG

National Center for Biotechnology Information O NCBI fornece acesso a genomas completos de mais de 5.700 organismos. Genomas significam tanto sequências completas de organismos quanto os que estão em processo de sequenciamento. http://www.ncbi.nlm.nih.gov

Os bancos de dados do NCBI PubMed GenBank GenPept Genome dbGSS dbEST dbSNP

GenBank Genbank, ddBJ, EMBL Identificadores Formatos gI, accession number Formatos FASTA, GenBank http://www.ncbi.nlm.nih.gov/nuccore/187830767?report=genbank&log$=seqview >gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)

Taxonomy Permite verificar o número de sequências de nucleotídeos, proteínas e genomas de espécies Contém a classificação taxonômica completa das espécies Incluindo categorias não-lineanas

BLAST databases Peptide Sequence Databases Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). Pat: Proteins from the Patent division of GenPept. Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days. env_nr: Protein sequences from environmental samples. Nucleotide Sequence Databases Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant". refseq_rna, refseq_genomic Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions est_human, est_mouse, est_others gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. Pat: Nucleotides from the Patent division of GenBank. Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project.. Wgs: A database for whole genome shotgun sequence entries. env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.

Trace Archive Contém os dados brutos de sequenciamento para diversas espécies O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir Arquivos pesados (dados brutos) Obsoleto... short read archive

RefSeq Banco de dados de sequências de referência para genomas Apresenta uma única cópia para cada gene no genoma É o verdadeiro NR Dividido em genoma, cDNA e proteína (NC, NM e NP) Contém sequências de splicing alternativo

Níveis de curadoria RefSeq Predita: automática cDNA com ORF sem função descrita Provisória: manual proteína com função conhecida ou inferida o melhor representante do GenBank, mais anotado Revisada: manual compilação sobre o gene e seus transcritos sequência, propriedades, nomenclatura, referências, retirada de vetor, adição de UTRs, domínios conservados, descrição da função do gene, links

dbEST Contém sequências de ESTs (e ORestes) de diversos organismos

dbGSS Contém sequências genômicas single-passed para diversos organismos

UniGene Contém clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST Reúne variantes de splicing no mesmo identificador Cataloga variantes de splicing por tecido

UniGene Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado

MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar

GEO database Contém dados de experimentos de microarray

COG Cluster of Orthologous Groups 66 genomas bacterianos Best Hits cruzados entre 3 organismos Genes bacterianos agrupados por função biológica KOG, eucariotos

CDD, conserved domains Banco de dados de domínios NCBI-curated domains Baseado nas bases de dados: Pfam, SMART, COG, PRK, TIGRFAM Permite mostrar a arquitetura de domínios de uma sequência quando o usuário faz um BLAST Utiliza o RPS-blast

Go to => NCBI

Outros serviços NCBI Serviços educacionais NCBI Handbook ORF finder http://www.ncbi.nlm.nih.gov/Education/ NCBI Handbook http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=handbook.TOC&depth=2 ORF finder Muito mais... Coffe break http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=coffeebrk

SwissPROT Banco de dados de sequências de proteínas mais curado e mais utilizado no mundo Europeus não usam NCBI

TrEMBL Complemento não anotado ao SwissPROT Não houve curadoria manual Anotação automática

Famílias protéicas A maioria das proteínas pode ser agrupada em famílias com base na similaridade entre suas sequências Similaridade intra-espécies Evidência de ancestralidade comum Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica Inferência de função Similaridade de sequência Análise filogenética

Famílias e alinhamento Dickkopf N-terminal domain Colipase Colipase C-terminal domain Pfam : dkk1 dkk2 dkk3 Prokinecitin/ Intestinal toxin Lipase protein cofactor

Assinaturas ou domínios protéicos Obtidos através da análise de regiões que se mantém constantes em grupos de sequências similares alinhadas Distingue membros de famílias dos não-membros Auxilia a atribuição de funcionalidades moleculares e biológicas

Identificação de famílias por expressões regulares

Montando uma expressão regular

Expressão regular

Expressão regular para a família

Uso de expressões regulares Identificação de padrões de famílias Identificação de promotores, sítios para a ligação do ribossomo (consenso de kosak) Problemas Pequenas diferenças em um membro da família pode retirá-lo do grupo Lembrete: a vida não apresenta regras rígidas Programas com base estatística ou baseados em inteligência artificial

Prosite

Prosite INFO

Prosite INFO

pFAM Cadeias de Markov: não se acessa o estado, porém um observação probabilística do estado

Bancos de dados de domínios

InterPRO

KEGG Kyoto Encyclopedia of Genes and Genomes Permite anotar a presença de enzimas e completar vias bioquímicas Visão integrada do metabolismo

KEGG pathways Enzimas/proteínas encontradas são marcadas em verde

Gene Ontology Primeira ontologia criada em biologia molecular, 2000 Consórcio para a padronização da anotação gênica Vocabulário padrão para a descrição de genes em três categorias Processo biológico Função molecular Localização celular Human, mouse, worm, fly, etc...

Processo biológico

Função molecular

Localização Celular

Além do Gene Ontology OBO foundry: The open biomedical ontologies Anatomy ontologies

BaliBASE Banco de dados de alinhamentos múltiplos Curado manualmente Visão integrada do metabolismo

Proteômica Swiss-2D-page Banco de dados de géis bidimensionais

Codon Usage DB Preferência em códons sinônimos Utilização preferencial de certos códons por aminoácidos Diferença por organismo/organela

Lembrete Muitos bancos de dados estão disponíveis para FTP Faça o download e instale na sua máquina Bancos de dados locais e pesquisa-específicos ajudam no desenvolvimento e análise de dados Instale no MySQL mais próximo Monte suas tabelas e faça seus selects! PERL + SQL (a biblioteca DBI)

Conclusões Há bancos de dados em bioinformática para praticamente qualquer tipo de abordagem em biologia molecular Stein, 2009 O papel central da bioinformática na pesquisa genômica moderna NAR, duas edições por ano É preciso conhecer os serviços, mais cedo ou mais tarde, você pode precisar