Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Bioinformática BLAST
2
INTRODUÇÃO As tecnologias de sequenciamento do DNA criaram uma grande quantidade de informação que só é possível ser analisada por computadores
3
SEQUENCIAMENTO Após auto-radiografia a ordem dos nucleotídeos, na cadeia de DNA recém sintetizada, pode ser visualizada e obtida diretamente
4
SEQUENCIAMENTO
5
SEQUENCIAMENTO No sequenciamento automatizado cada um dos dNTPs está acoplado a um cromóforo fluorescente distinto
6
SEQUENCIAMENTO
7
SEQUENCIAMENTO A medida que essas informações aumentam em número e em complexidade, mais ferramentas computacionais são necessárias para organizar os dados
8
SEQUENCIAMENTO Dado bruto dos sequenciadores vem em forma de cromatogramas (arquivos gráficos – trace files)
9
SEQUENCIAMENTO PHRED Lê trace files compatíveis com os formatos mais utilizados: SCF (standard chromatogram format), ABI (373/377/3700),ESD (MegaBACE) e LI-COR Call bases - atribui uma base para cada pico identificado com uma taxa de erro menor que aquela dos programas de base calling padrão Atribui valores de qualidade às bases. O Phred value está baseado na estimativa da taxa de erro que é calculada para cada base individualmente Cria output files: base calls e valores de qualidade são escritos em outupt files
10
SEQUENCIAMENTO PHRED Região de alta qualidade
11
SEQUENCIAMENTO PHRED Região de qualidade média
12
SEQUENCIAMENTO PHRED Região de baixa qualidade – pouca confiabilidade
13
SEQUENCIAMENTO CONSED
Consed é um programa para visualização e edição dos arquivos gerados pelo Phred Assembly viewer - permite a visualização dos contigs (aligned reads), dos valores de qualidade e da seqüência final. Trace file viewer - uma ou várias regiões de cromatogramas podem ser visualizadas permitindo a comparação de uma dada região em diferentes cromatogramas.
14
SEQUENCIAMENTO Os arquivos gráficos são visualizados e convertidos em arquivos em formato texto contendo as sequências
15
SEQUENCIAMENTO CONSED
Navigation - identifica e lista regiões que estão abaixo de um padrão de qualidade determinado Autofinish - conjunto de funções para fechamento de gaps e melhoramento da qualidade de uma região. Faz automaticamente seleção de iniciadores e escolhe os moldes
16
TRIMAGEM Retirada de sequências contaminantes rRNA Vetor Poli A
Adaptadores
17
MONTAGEM Cap3, CrossMatch
18
MONTAGEM Os fragmentos são alinhados e são criadas as remontagens do genoma (assemblies) Leituras (reads) Contig
19
MONTAGEM
20
MONTAGEM
21
Montagem finalizada: sopa de 4 letras
>gi| |ref|NT_ |Hs21_29649 Homo sapiens chromosome 21 working draft sequence AAGCTTGTCAAGTAAGCTACCTATTTAGTGCTCGGAATGAAAGGGAGTGTGTGTTGGGAGTTGGGGGACTGCTTGCGTGAAACATTTCTCTCTTCTGGATTTAAAACTTAGTCTTGGTTGCCAATCTTTAACAGACAGTTTGTAAATGAAGGGGAAGAAAAATATATAAATTAGCTTTCTAATAAATCTGAAATTACAAATGTGAACCAAAGCAGGGAATAAATACTTGACCAAAAATATGTAAGTAAGTGGGTGTTGGGGATCACAATTTTTGAATATCTCAAGTTTTTGCTTTGAAAGTTCTATTTCAAAGTTCTTCAAAATGATGCCTGATGTTCCTGCATACTGTGTTCCAAATTTAGGTAAATACAAGATGGAAACTGTGAAGTATGTACTTCAAAAAAGAAGAAAGACACTGACATTTTATCTATATATATGTAATAGATTTATGAAGAACATATATAAACATATATAAACATAAATAAATACTTCAAGGAACATTTAGGATAGATTTAGGATATATGAACATTGGCAGGGTTGGAAAGAACATAATTCTTTCCCAGAAGGGGAAGGGGGAGCTATACTTAATCGGATCCAGCTACAACATCACTGGAAGTCATTTTCTCGCCAAAAAGTATCTCCACGGCAAAATCTGATGGATAATTCTCCGTGCTTTTTGTTTATGTAGATTATCCAATTCATTTTTTGGTAGATAAAGCCTAAGAATAGAAAAAAATTATTACATTTTATATTGGGGCTCACTGAAAAGCCACACAGTTGGGTACCCACGTTAGAGCGGAAGAAACAAAAAAAGAACCTCACCATGAATAGAACCTCAGCCCTTTTTTTGTGTCTCAGTTGGCTCCTTCCACCTTTTTACTGAGACATAAAAATACTTTAATCTTCAGCAACACATCAGTAACACATGCTGCTCTCTTAGCATTGCTTTATATGGAATTAATGACATCCAAGTTTAATAAAATATCTAAATTTCTCTCTGTGACAGAAATCAGTCAGGATAGACATGAATGAAAGCCCAGTAATAAAATACTATATCTCTTTTAATTATGTGTGAGGTTGCAATTTTTTGAATTTTTACAATCAGACCTTGGAAATGACCTTGAGCAGTAGGATATAACTCCCACATGCTGAGTGTTCCAATAATGGAACACTAGGCATAAATTGGTTAACCATTTATCCTCGTGTTCTCAATGATAGAAGTTAGCATTTTTAGCTAAACAACAATCTCATAACAAAAACAGCTTTACCAAGTAGGATGTAAATTTAAATGTTACAGAAATCTTTAGAAATTTATATAAAATAAGAATAAAATGACCTAGCTTATCACTTCTCCAAAATGAACATAGTGTTTTAAAGGAAAAAAAAAATGGTATCCTTTAGCAAGAACCACTTTTGAGGAGCAGCATCAAATGAAGCTCCACCCAGGTCTCACTTTTTGAGGGTCTTGCTCATGTTAGAATAAAAAGCTTATTGTTTGTATGCATCCAAAAAAAAAAACTTGTAAAAAATTTCCATCAAATACAAAGTTGACTCTATCAAAATCCATTAAATGTTTTGCATTGCAAGTGTGCAGACCAGAGTTTAATTTCCTGTTGCCTTGCTGGACTTAAGGAATCATTCGATCCAGTTCACATTTGAAGAAAAGATTAGGACTGGATGTAACAATAACTATCAATTCATGCCACATATAATCATAGCCACTTCTTCAACTCTACCTAAATCATTTAAAAAATATTTTGTCCTTTTGTATTGAAGAGTATGGTTGACACAAAAAAAGTCTCAATTTTTCACCATCACAAAACAAATGCTACTTACAGTGGAGAACTTCTAGACTGAGAAATGAGTTTCAAATATGGCAGAAGGTTTTTTTGGAACAATAATCTCCAAATCCAATTAATAATTTTTCAGAAAGGTTTCCCAATTCAGTTATTAGAAAGCCATATTTGAATGGCTATTTAAATAGACTATTACTTAATGATATTCTTAGCTGTATTCCTTAATACTGTGTCTTGTGACTTCTCCTAGATATAAGTGTGTCAGTCAGCTTTTCAGCTAGCTGAAGCCTCCCTAGGTCCTGCCTTCCTTTAGCACAAAAGTTGATGGTGGTTCATCATTGTAAATCAACACCTACTGACAGGGACCTGACATATTGAAGGTGCTGAGCAGCCTCATATTGAACTTCTCTGGGAGGAATTTACTACCACACTTAAGATCTGATGATAATACTTTTGAACTCGTACACAGTCCTTGGCATGGACCCTGAGGATACTGCAACAGTGGGTCTCAAGAACAAATGGATTTTTAAAATAACCAAAGTAAGAAGAGTAAGGCAAGGAACAATGGTGGTTCAAGGATTTTTTGCTTTCTATAAATTAAGTTTATACAACCAGCAAAAGACTTGCCATTACACCTTATACATAGACATTGAAGATTAGGCTGTTTCTATGGGTTTCTATTATATTCATACCTGTTATTTTCAATAAAAGATGTGTGCAACCAGAAGTAAAATGAGCAATGTCATAGTATGTAGGAAGATTCTAAAAAGAAAAAAAAATTTCAAAGTAAAACTGATACCAAGAACTAATCATTCCAAAGAAATTGAAGTTCCTTTCTTTATTCTTTTTTATATTTATCAAACAATTATAACCATAAATATGTGGCACTCTGCAATCTATAACAATACACTCAAGACACAAAGGAGGAGGCTTTAAGAAAATGCTACTGCATTCTCTTGCTGTTTCTATCAAAATTTTCAAGGAATAGTATTTTTCCCATGATAGGTATTAATTTAAATGCTGCTATTTGAATCTGGTTTAGATAGTGCCAAACAGACTCTACTAAGGACCTATGTCTATATATACCCAACTACATTGTAGTGAATTCTTGTAATTTTTTTGTTGCCTCAGCATCCCTTTTAATATAAATTGGATTTTCTGATATCAGAAGCGGGGTTCAGTCACCCGCAGCAGTTTCCCGTTCACCTCCTCCCAGTTTCTCCATGTGACTGATCCTGATATCTGCCTTACACAACCTTCTCATGATGACCACTTCATATGGGACAGCTAAATATAACCTACTTGACTCACCCCACAGACCCCCATACTCTGCAGGGACCATGTGGATATATCAGTGACCACCTCTCAGTCACAGCAGAGACTCATAGCTGCTTGCATTAAACCAAATTAGCCTCCCC E agora ??? Identificar produtos dos genes
22
Designar uma provável função para os genes
ANOTAÇÃO Designar uma provável função para os genes Comparação das seqüências obtidas com seqüências depositadas em Bancos de Dados Identificação de fases abertas de leitura (ORFs) na seqüência de bases no caso de seqüências codificadoras Análise de domínios protéicos na seqüência de aminoácidos deduzida a partir da seqüência de nucleotídeos
23
ANOTAÇÃO Identificação de regiões regulatórias (promotores, etc)
Estabelecimento de relações filogenéticas entre a sequência de interesse e sequências similares de outros organismos Identificar e analisar as vias metabólicas com as quais a sequência de interesse está relacionada Etc...
24
ANOTAÇÃO Bancos de Dados
Armazenamento organizado de informações que possibilita um acesso rápido, preciso e fácil às mesmas
25
GOLD - Estatísticas Evolução do número de genomas completos nos últimos 11 anos. Hoje: 433 publicados Evolução do número de projetos de seqüênciamento nos últimos 9 anos Hoje: 2179 em andamento
26
GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt
27
GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt
28
GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt
29
GenBank - Estatísticas
30
ANOTAÇÃO Exemplos de bancos de dados Mais de 348 BD
BD de seqüências de nucleotídeos EMBL ( GenBank ( DDBJ ( UniGene ( BD de seqüências de proteínas SWISS-PROT, TrEMBL ( PIR ( BD de domínios Pfam ( PROSITE ( BD de estruturas macromoleculares 3D PDB (
31
ANOTAÇÃO O que se pode descobrir sobre um gene por meio de uma busca em um BD? Informação evolutiva: genes homólogos, freqüências dos alelos, ... Informação genômica: localização no cromossomo, intros, regiões reguladoras, ... Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...
32
NCBI TOUR
33
NCBI TOUR nome, símbolo, número de acesso, palavra-chave, etc...
34
NCBI TOUR
35
NCBI TOUR
36
NCBI TOUR
37
ANOTAÇÃO Ferramentas de Bioinformática
Análise/Comparação de seqüências BLAST: Programa que busca similaridade local entre seqüências ( CLUSTALW: Programa de alinhamento múltimplo de seqüências ( FASTA: Busca por similaridade de seqüências ( DeCypher: Interface para análises de genoma ( MAVID/AMAP: Programa que busca similaridade global entre seqüências ( Vários outros...
38
Alinhamento Local X Alinhamento Global
Importante: Alinhamento Local X Alinhamento Global Alinhamento GLOBAL: Compara as sequências em sua extensão total Apropriado para comparação de sequências que se esperam conter similaridade em toda a sua extensão O alinhamento maximiza as regiões de similaridade e minimiza os gaps Alinhamento LOCAL: -Procura por regiões de similaridade local, e não é preciso incluir toda a seqüência para a comparação -Muito útil para “sondar” um bando de dados, ou quando não sabemos se as seqüências são similares em toda a sua extensão
39
Alinhamento Local X Alinhamento Global
Importante: Alinhamento Local X Alinhamento Global
40
Acesse http://www.ncbi.nlm.nih.gov/BLAST/
O Basic Local Alignment Search Tool (BLAST) encontra regiões de similaridade local entre sequências. O programa compara sequências de nucleotídeos ou proteínas com sequências do bancos de dados e calcula a significância estatística das similaridades. O BLAST pode ser usado para inferir relações funcionais e evolutivas entre as sequências, bem como para ajudar a identificar membros de famílias de genes. Acesse
41
Interface do BLAST
42
Exemplo >contig4859 TACTTTACTTTGCAGCTATTTTGCTTCTGCTTCTTCTTGTTCTTGTTGCTGGTTGGTAATACTGCGAGAG AAATTAATCAGTAGAGTGTTCATCTACTATCAATTTTTGATCGAGGAGAGATGGCGGGAACGGCGAACTG CATCGACATCCTCATCGCCATCATCCTCCCGCCCCTCGGCGTCTTCCTCAAGTTCGGATGCGGGCATGAG TTCTGGATCTGCCTGTTGCTCACCTTCCTCGGCTACATCCCCGGCATCATCTACGCCATCTACGCCATCA CCAAGTAATTCATCATTAGTTACTACATCATCAACCAAATCCTCAAGGGATGGGCTCCAAACCGCTTCAT CTATCTTCTCGATTGCCGTGTGCTTGTTGGAATTTGGAAATGATATATGCATCCAAAATTCAGTCCTGAG TGCTCCAATTCTTGTCATCTAGTCATTTTCAATGTCCCCCCAGTCTCTTCCTCTAATGTTTGATGATATG TAGAATCTCTTGCTGTTAATCTGTTGCTTTCGTGTGAATAAAAAAAAAAAAAAAAAA
43
Exemplo Formato FASTA !
44
Exemplo
45
Exemplo
46
Exemplo
47
Score, Identidade e Similaridade
C L K I A N V F G G P Q W M A C T K R M S C L R I F N V F S G M Q W M A H T K R M S | | : | | | | : | | | | | | | | | | Score = 83 IDENTIDADE 16/21 = 76,19% SIMILARIDADE 18/21 = 85,71% IDENTIDADE : Resíduos iguais SIMILARIDADE : Resíduos iguais + resíduos parecidos
48
Grupos de similaridade
C Cisteína
49
A S P T G Grupos de similaridade - laranja Serina Prolina Alanina
Treonina Glicina
50
E N Q D Grupos de similaridade Glutamina Asparagina Aspartato
Glutamato
51
Grupos de similaridade
Histidina H Lisina Arginina K R
52
L I V M Grupos de similaridade - VERDE Leucina Isoleucina Valina
Metionina V M
53
Grupos de similaridade
Fenilalanina F Triptofano W Tirosina Y
54
Como Interpretar o resultado do BLAST ?
Qual o grau de identidade entre com os melhores hits? – Quanto maior a identidade maior a probabilidade de compartilhar estrutura-função Quanto maior o score, melhor é o alinhamento, mas a significância do alinhamento não pode ser deduzida somente pelo score; deve-se considerar também outros fatores como o e-value Entre os melhores hits, tem algum caracterizado experimentalmente? – Inferir sobre inferência pode ser arriscado
56
Valor E (E-value) m = Tamanho do banco de dados
n = Tamanho da query (sua pesquisa) s = Score
57
Como Interpretar o resultado do BLAST ?
As posições nas quais uma letra é pareada com um nulo é chamada de gap. Os gaps possuem scores negativos. Uma vez que eventos de mutação podem causar a inserção ou a deleção de mais de um resíduo, a presença de um gap é frequentemente considerada mais significante do que o tamanho do gap. Portanto, um gap é penalizado com um grande peso, enquanto que cada resíduo subsequente no gap possui uma penalidade de peso menor.
58
ClustalW O ClustalW é um programa de alinhamento de seqüências de propósito geral para DNA ou proteínas. Ele produz alinhamentos significativos com várias seqüências divergentes.
59
O programa calcula o melhor pareamento para as sequências selecionadas e as alinha de forma que as identidades, similaridades e diferenças podem ser vistas Relações evolutivas podem ser vistas por cladogramas e filogramas
60
Análise de genes e regiões codificadoras
LocusLink GeneMark ORF Finder Vários outros... Análise de proteínas e domínios Pfam BLOCKUS eMOTIF PROSITE PATScan Vários outros... Análise de vias metabólicas KEGG Outros...
61
Vale a pena visitar Com Ciência – BIOINFORMATICA ( BioMol.net ( 2Can Support Portal (
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.