A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Prof. Dr. Francisco Prosdocimi

Apresentações semelhantes


Apresentação em tema: "Prof. Dr. Francisco Prosdocimi"— Transcrição da apresentação:

1 Prof. Dr. Francisco Prosdocimi
Bancos de dados Prof. Dr. Francisco Prosdocimi

2 Conceitos importantes
Relational database Conceitos importantes Banco de dados Tabela Campos Relações Chave-primária

3 A linguagem SQL Outra linguagem?

4 Criando uma tabela e definindo campos

5 A magia do comando SELECT

6 A cláusula WHERE

7 mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40; | q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score | | RE087RA01.esd | Chr18 | | | | | | | | | 3e-172 | | | RE087RA01.esd | Chr18 | | | | | | | | | 3e-33 | | | RE087RA01.esd | Chr18 | | | | | | | | | 1e-29 | | | RE087RB10.esd | Chr5 | | | | | | | | | 3e-95 | | | RE087RB10.esd | Chr5 | | | | | | | | | 7e-68 | | | RE087RC01.esd | Chr3 | | | | | | | | | 9e-96 | | | RE087RC02.esd | Chr10 | | | | | | | | | 2e-63 | | | RE087RC02.esd | Chr10 | | | | | | | | | 8e-51 | | | RE087RC02.esd | Chr10 | | | | | | | | | 1e-43 | | | RE087RC03.esd | Chr10 | | | | | | | | | 2e-54 | | | RE087RC03.esd | Chr10 | | | | | | | | | 7e-51 | | | RE087RC03.esd | Chr10 | | | | | | | | | 1e-43 | | | RE087RC05.esd | Chr5 | | | | | | | | | 9e-83 | | | RE087RC05.esd | Chr5 | | | | | | | | | 1e-69 | | | RE087RC05.esd | Chr5 | | | | | | | | | 2e-28 | | | RE087RC06.esd | Chr5 | | | | | | | | | 6e-90 | | | RE087RC06.esd | Chr5 | | | | | | | | | 3e-70 | | | RE087RC08.esd | Chr19 | | | | | | | | | | | | RE087RC10.esd | Chr14 | | | | | | | | | 6e-50 | | | RE087RC10.esd | Chr11 | | | | | | | | | 6e-50 | | | RE087RC11.esd | Chr7 | | | | | | | | | 6e-43 | | | RE087RD01.esd | Chr14 | | | | | | | | | 6e-50 | | | RE087RD01.esd | Chr11 | | | | | | | | | 6e-50 | | | RE087RD04.esd | Chr8 | | | | | | | | | 1e-106 | | | RE087RD05.esd | Chr7 | | | | | | | | | 8e-43 | | | RE087RD07.esd | Chr14 | | | | | | | | | 3e-119 | | | RE087RD07.esd | Chr14 | | | | | | | | | 9e-49 | | | RE087RD07.esd | Chr14 | | | | | | | | | 3e-33 | | | RE087RE01.esd | Chr13 | | | | | | | | | 3e-172 | | | RE087RE02.esd | Chr19 | | | | | | | | | 4e-63 | | | RE087RE02.esd | Chr19 | | | | | | | | | 2e-25 | | | RE087RE05.esd | Chr2 | | | | | | | | | 3e-132 | | | RE087RE05.esd | Chr2 | | | | | | | | | 1e-35 | | | RE087RE09.esd | Chr19 | | | | | | | | | 1e-51 | | | RE087RF01.esd | Chr3 | | | | | | | | | 7e-105 | | | RE087RF01.esd | Chr3 | | | | | | | | | 6e-96 | | | RE087RF01.esd | Chr3 | | | | | | | | | 2e-59 | | | RE087RF01.esd | Chr3 | | | | | | | | | 1e-32 | | | RE087RF02.esd | Chr5 | | | | | | | | | 7e-68 | | | RE087RF02.esd | Chr5 | | | | | | | | | 2e-52 | | 40 rows in set (14.36 sec)

8 Bancos de dados Biológicos
Prof. Dr. Francisco Prosdocimi

9 Bancos de dados Servem para organizar a informação biológica e disponibilizá-la de maneira simples aos pesquisadores Bancos mais comuns Sequência, estrutura, protein-protein interaction, domínios, assinaturas, famílias gênicas, evolutivos, paper-específicos

10 Conceitos básicos O conceito de curadoria de sequências
Bancos de dados primários Genbank, PDB, EMBL Bancos de dados secundários Swissprot, RefSeq, COG, KEGG

11 National Center for Biotechnology Information
O NCBI fornece acesso a genomas completos de mais de organismos. Genomas significam tanto sequências completas de organismos quanto os que estão em processo de sequenciamento.

12 Os bancos de dados do NCBI
PubMed GenBank GenPept Genome dbGSS dbEST dbSNP

13 GenBank Genbank, ddBJ, EMBL Identificadores Formatos
gI, accession number Formatos FASTA, GenBank >gi| |ref|NM_ | Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)

14 Taxonomy Permite verificar o número de sequências de nucleotídeos, proteínas e genomas de espécies Contém a classificação taxonômica completa das espécies Incluindo categorias não-lineanas

15 BLAST databases Peptide Sequence Databases
Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). Pat: Proteins from the Patent division of GenPept. Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days. env_nr: Protein sequences from environmental samples. Nucleotide Sequence Databases Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant". refseq_rna, refseq_genomic Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions est_human, est_mouse, est_others gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. Pat: Nucleotides from the Patent division of GenBank. Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project.. Wgs: A database for whole genome shotgun sequence entries. env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.

16 Trace Archive Contém os dados brutos de sequenciamento para diversas espécies O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir Arquivos pesados (dados brutos) Obsoleto... short read archive

17 RefSeq Banco de dados de sequências de referência para genomas
Apresenta uma única cópia para cada gene no genoma É o verdadeiro NR Dividido em genoma, cDNA e proteína (NC, NM e NP) Contém sequências de splicing alternativo

18 Níveis de curadoria RefSeq
Predita: automática cDNA com ORF sem função descrita Provisória: manual proteína com função conhecida ou inferida o melhor representante do GenBank, mais anotado Revisada: manual compilação sobre o gene e seus transcritos sequência, propriedades, nomenclatura, referências, retirada de vetor, adição de UTRs, domínios conservados, descrição da função do gene, links

19 dbEST Contém sequências de ESTs (e ORestes) de diversos organismos

20 dbGSS Contém sequências genômicas single-passed para diversos organismos

21 UniGene Contém clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST Reúne variantes de splicing no mesmo identificador Cataloga variantes de splicing por tecido

22 UniGene Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado

23 MegaBLAST gera o UniGene
Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar

24 GEO database Contém dados de experimentos de microarray

25 COG Cluster of Orthologous Groups
66 genomas bacterianos Best Hits cruzados entre 3 organismos Genes bacterianos agrupados por função biológica KOG, eucariotos

26 CDD, conserved domains Banco de dados de domínios NCBI-curated domains
Baseado nas bases de dados: Pfam, SMART, COG, PRK, TIGRFAM Permite mostrar a arquitetura de domínios de uma sequência quando o usuário faz um BLAST Utiliza o RPS-blast

27 Go to => NCBI

28 Outros serviços NCBI Serviços educacionais NCBI Handbook ORF finder
NCBI Handbook ORF finder Muito mais... Coffe break

29 SwissPROT Banco de dados de sequências de proteínas mais curado e mais utilizado no mundo Europeus não usam NCBI

30 TrEMBL Complemento não anotado ao SwissPROT Não houve curadoria manual
Anotação automática

31 Famílias protéicas A maioria das proteínas pode ser agrupada em famílias com base na similaridade entre suas sequências Similaridade intra-espécies Evidência de ancestralidade comum Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica Inferência de função Similaridade de sequência Análise filogenética

32 Famílias e alinhamento
Dickkopf N-terminal domain Colipase Colipase C-terminal domain Pfam : dkk1 dkk2 dkk3 Prokinecitin/ Intestinal toxin Lipase protein cofactor

33 Assinaturas ou domínios protéicos
Obtidos através da análise de regiões que se mantém constantes em grupos de sequências similares alinhadas Distingue membros de famílias dos não-membros Auxilia a atribuição de funcionalidades moleculares e biológicas

34 Identificação de famílias por expressões regulares

35 Montando uma expressão regular

36 Expressão regular

37 Expressão regular para a família

38 Uso de expressões regulares
Identificação de padrões de famílias Identificação de promotores, sítios para a ligação do ribossomo (consenso de kosak) Problemas Pequenas diferenças em um membro da família pode retirá-lo do grupo Lembrete: a vida não apresenta regras rígidas Programas com base estatística ou baseados em inteligência artificial

39 Prosite

40 Prosite INFO

41 Prosite INFO

42 pFAM Cadeias de Markov: não se acessa o estado, porém um observação probabilística do estado

43 Bancos de dados de domínios

44 InterPRO

45 KEGG Kyoto Encyclopedia of Genes and Genomes
Permite anotar a presença de enzimas e completar vias bioquímicas Visão integrada do metabolismo

46 KEGG pathways Enzimas/proteínas encontradas são marcadas em verde

47 Gene Ontology Primeira ontologia criada em biologia molecular, 2000
Consórcio para a padronização da anotação gênica Vocabulário padrão para a descrição de genes em três categorias Processo biológico Função molecular Localização celular Human, mouse, worm, fly, etc...

48 Processo biológico

49 Função molecular

50 Localização Celular

51

52 Além do Gene Ontology OBO foundry: The open biomedical ontologies
Anatomy ontologies

53 BaliBASE Banco de dados de alinhamentos múltiplos Curado manualmente
Visão integrada do metabolismo

54 Proteômica Swiss-2D-page Banco de dados de géis bidimensionais

55 Codon Usage DB Preferência em códons sinônimos
Utilização preferencial de certos códons por aminoácidos Diferença por organismo/organela

56 Lembrete Muitos bancos de dados estão disponíveis para FTP
Faça o download e instale na sua máquina Bancos de dados locais e pesquisa-específicos ajudam no desenvolvimento e análise de dados Instale no MySQL mais próximo Monte suas tabelas e faça seus selects! PERL + SQL (a biblioteca DBI)

57 Conclusões Há bancos de dados em bioinformática para praticamente qualquer tipo de abordagem em biologia molecular Stein, 2009 O papel central da bioinformática na pesquisa genômica moderna NAR, duas edições por ano É preciso conhecer os serviços, mais cedo ou mais tarde, você pode precisar


Carregar ppt "Prof. Dr. Francisco Prosdocimi"

Apresentações semelhantes


Anúncios Google