Bioinformática BLAST.

Bioinformática BLAST

INTRODUÇÃO As tecnologias de sequenciamento do DNA criaram uma grande quantidade de informação que só é possível ser analisada por computadores

SEQUENCIAMENTO Após auto-radiografia a ordem dos nucleotídeos, na cadeia de DNA recém sintetizada, pode ser visualizada e obtida diretamente

SEQUENCIAMENTO

SEQUENCIAMENTO No sequenciamento automatizado cada um dos dNTPs está acoplado a um cromóforo fluorescente distinto

SEQUENCIAMENTO

SEQUENCIAMENTO A medida que essas informações aumentam em número e em complexidade, mais ferramentas computacionais são necessárias para organizar os dados

SEQUENCIAMENTO Dado bruto dos sequenciadores vem em forma de cromatogramas (arquivos gráficos – trace files)

SEQUENCIAMENTO PHRED Lê trace files compatíveis com os formatos mais utilizados: SCF (standard chromatogram format), ABI (373/377/3700),ESD (MegaBACE) e LI-COR Call bases - atribui uma base para cada pico identificado com uma taxa de erro menor que aquela dos programas de base calling padrão Atribui valores de qualidade às bases. O Phred value está baseado na estimativa da taxa de erro que é calculada para cada base individualmente Cria output files: base calls e valores de qualidade são escritos em outupt files

SEQUENCIAMENTO PHRED Região de alta qualidade

SEQUENCIAMENTO PHRED Região de qualidade média

SEQUENCIAMENTO PHRED Região de baixa qualidade – pouca confiabilidade

SEQUENCIAMENTO CONSED
Consed é um programa para visualização e edição dos arquivos gerados pelo Phred Assembly viewer - permite a visualização dos contigs (aligned reads), dos valores de qualidade e da seqüência final. Trace file viewer - uma ou várias regiões de cromatogramas podem ser visualizadas permitindo a comparação de uma dada região em diferentes cromatogramas.

SEQUENCIAMENTO Os arquivos gráficos são visualizados e convertidos em arquivos em formato texto contendo as sequências

SEQUENCIAMENTO CONSED
Navigation - identifica e lista regiões que estão abaixo de um padrão de qualidade determinado Autofinish - conjunto de funções para fechamento de gaps e melhoramento da qualidade de uma região. Faz automaticamente seleção de iniciadores e escolhe os moldes

TRIMAGEM Retirada de sequências contaminantes rRNA Vetor Poli A
Adaptadores

MONTAGEM Cap3, CrossMatch

MONTAGEM Os fragmentos são alinhados e são criadas as remontagens do genoma (assemblies) Leituras (reads) Contig

MONTAGEM

Montagem finalizada: sopa de 4 letras
>gi| |ref|NT_ |Hs21_29649 Homo sapiens chromosome 21 working draft sequence AAGCTTGTCAAGTAAGCTACCTATTTAGTGCTCGGAATGAAAGGGAGTGTGTGTTGGGAGTTGGGGGACTGCTTGCGTGAAACATTTCTCTCTTCTGGATTTAAAACTTAGTCTTGGTTGCCAATCTTTAACAGACAGTTTGTAAATGAAGGGGAAGAAAAATATATAAATTAGCTTTCTAATAAATCTGAAATTACAAATGTGAACCAAAGCAGGGAATAAATACTTGACCAAAAATATGTAAGTAAGTGGGTGTTGGGGATCACAATTTTTGAATATCTCAAGTTTTTGCTTTGAAAGTTCTATTTCAAAGTTCTTCAAAATGATGCCTGATGTTCCTGCATACTGTGTTCCAAATTTAGGTAAATACAAGATGGAAACTGTGAAGTATGTACTTCAAAAAAGAAGAAAGACACTGACATTTTATCTATATATATGTAATAGATTTATGAAGAACATATATAAACATATATAAACATAAATAAATACTTCAAGGAACATTTAGGATAGATTTAGGATATATGAACATTGGCAGGGTTGGAAAGAACATAATTCTTTCCCAGAAGGGGAAGGGGGAGCTATACTTAATCGGATCCAGCTACAACATCACTGGAAGTCATTTTCTCGCCAAAAAGTATCTCCACGGCAAAATCTGATGGATAATTCTCCGTGCTTTTTGTTTATGTAGATTATCCAATTCATTTTTTGGTAGATAAAGCCTAAGAATAGAAAAAAATTATTACATTTTATATTGGGGCTCACTGAAAAGCCACACAGTTGGGTACCCACGTTAGAGCGGAAGAAACAAAAAAAGAACCTCACCATGAATAGAACCTCAGCCCTTTTTTTGTGTCTCAGTTGGCTCCTTCCACCTTTTTACTGAGACATAAAAATACTTTAATCTTCAGCAACACATCAGTAACACATGCTGCTCTCTTAGCATTGCTTTATATGGAATTAATGACATCCAAGTTTAATAAAATATCTAAATTTCTCTCTGTGACAGAAATCAGTCAGGATAGACATGAATGAAAGCCCAGTAATAAAATACTATATCTCTTTTAATTATGTGTGAGGTTGCAATTTTTTGAATTTTTACAATCAGACCTTGGAAATGACCTTGAGCAGTAGGATATAACTCCCACATGCTGAGTGTTCCAATAATGGAACACTAGGCATAAATTGGTTAACCATTTATCCTCGTGTTCTCAATGATAGAAGTTAGCATTTTTAGCTAAACAACAATCTCATAACAAAAACAGCTTTACCAAGTAGGATGTAAATTTAAATGTTACAGAAATCTTTAGAAATTTATATAAAATAAGAATAAAATGACCTAGCTTATCACTTCTCCAAAATGAACATAGTGTTTTAAAGGAAAAAAAAAATGGTATCCTTTAGCAAGAACCACTTTTGAGGAGCAGCATCAAATGAAGCTCCACCCAGGTCTCACTTTTTGAGGGTCTTGCTCATGTTAGAATAAAAAGCTTATTGTTTGTATGCATCCAAAAAAAAAAACTTGTAAAAAATTTCCATCAAATACAAAGTTGACTCTATCAAAATCCATTAAATGTTTTGCATTGCAAGTGTGCAGACCAGAGTTTAATTTCCTGTTGCCTTGCTGGACTTAAGGAATCATTCGATCCAGTTCACATTTGAAGAAAAGATTAGGACTGGATGTAACAATAACTATCAATTCATGCCACATATAATCATAGCCACTTCTTCAACTCTACCTAAATCATTTAAAAAATATTTTGTCCTTTTGTATTGAAGAGTATGGTTGACACAAAAAAAGTCTCAATTTTTCACCATCACAAAACAAATGCTACTTACAGTGGAGAACTTCTAGACTGAGAAATGAGTTTCAAATATGGCAGAAGGTTTTTTTGGAACAATAATCTCCAAATCCAATTAATAATTTTTCAGAAAGGTTTCCCAATTCAGTTATTAGAAAGCCATATTTGAATGGCTATTTAAATAGACTATTACTTAATGATATTCTTAGCTGTATTCCTTAATACTGTGTCTTGTGACTTCTCCTAGATATAAGTGTGTCAGTCAGCTTTTCAGCTAGCTGAAGCCTCCCTAGGTCCTGCCTTCCTTTAGCACAAAAGTTGATGGTGGTTCATCATTGTAAATCAACACCTACTGACAGGGACCTGACATATTGAAGGTGCTGAGCAGCCTCATATTGAACTTCTCTGGGAGGAATTTACTACCACACTTAAGATCTGATGATAATACTTTTGAACTCGTACACAGTCCTTGGCATGGACCCTGAGGATACTGCAACAGTGGGTCTCAAGAACAAATGGATTTTTAAAATAACCAAAGTAAGAAGAGTAAGGCAAGGAACAATGGTGGTTCAAGGATTTTTTGCTTTCTATAAATTAAGTTTATACAACCAGCAAAAGACTTGCCATTACACCTTATACATAGACATTGAAGATTAGGCTGTTTCTATGGGTTTCTATTATATTCATACCTGTTATTTTCAATAAAAGATGTGTGCAACCAGAAGTAAAATGAGCAATGTCATAGTATGTAGGAAGATTCTAAAAAGAAAAAAAAATTTCAAAGTAAAACTGATACCAAGAACTAATCATTCCAAAGAAATTGAAGTTCCTTTCTTTATTCTTTTTTATATTTATCAAACAATTATAACCATAAATATGTGGCACTCTGCAATCTATAACAATACACTCAAGACACAAAGGAGGAGGCTTTAAGAAAATGCTACTGCATTCTCTTGCTGTTTCTATCAAAATTTTCAAGGAATAGTATTTTTCCCATGATAGGTATTAATTTAAATGCTGCTATTTGAATCTGGTTTAGATAGTGCCAAACAGACTCTACTAAGGACCTATGTCTATATATACCCAACTACATTGTAGTGAATTCTTGTAATTTTTTTGTTGCCTCAGCATCCCTTTTAATATAAATTGGATTTTCTGATATCAGAAGCGGGGTTCAGTCACCCGCAGCAGTTTCCCGTTCACCTCCTCCCAGTTTCTCCATGTGACTGATCCTGATATCTGCCTTACACAACCTTCTCATGATGACCACTTCATATGGGACAGCTAAATATAACCTACTTGACTCACCCCACAGACCCCCATACTCTGCAGGGACCATGTGGATATATCAGTGACCACCTCTCAGTCACAGCAGAGACTCATAGCTGCTTGCATTAAACCAAATTAGCCTCCCC E agora ??? Identificar produtos dos genes

Designar uma provável função para os genes
ANOTAÇÃO Designar uma provável função para os genes Comparação das seqüências obtidas com seqüências depositadas em Bancos de Dados Identificação de fases abertas de leitura (ORFs) na seqüência de bases no caso de seqüências codificadoras Análise de domínios protéicos na seqüência de aminoácidos deduzida a partir da seqüência de nucleotídeos

ANOTAÇÃO Identificação de regiões regulatórias (promotores, etc)
Estabelecimento de relações filogenéticas entre a sequência de interesse e sequências similares de outros organismos Identificar e analisar as vias metabólicas com as quais a sequência de interesse está relacionada Etc...

ANOTAÇÃO Bancos de Dados
Armazenamento organizado de informações que possibilita um acesso rápido, preciso e fácil às mesmas

GOLD - Estatísticas Evolução do número de genomas completos nos últimos 11 anos. Hoje: 433 publicados Evolução do número de projetos de seqüênciamento nos últimos 9 anos Hoje: 2179 em andamento

GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt

GenBank - Estatísticas

ANOTAÇÃO Exemplos de bancos de dados Mais de 348 BD
BD de seqüências de nucleotídeos EMBL ( GenBank ( DDBJ ( UniGene ( BD de seqüências de proteínas SWISS-PROT, TrEMBL ( PIR ( BD de domínios Pfam ( PROSITE ( BD de estruturas macromoleculares 3D PDB (

ANOTAÇÃO O que se pode descobrir sobre um gene por meio de uma busca em um BD? Informação evolutiva: genes homólogos, freqüências dos alelos, ... Informação genômica: localização no cromossomo, intros, regiões reguladoras, ... Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...

NCBI TOUR

NCBI TOUR nome, símbolo, número de acesso, palavra-chave, etc...

NCBI TOUR

ANOTAÇÃO Ferramentas de Bioinformática
Análise/Comparação de seqüências BLAST: Programa que busca similaridade local entre seqüências ( CLUSTALW: Programa de alinhamento múltimplo de seqüências ( FASTA: Busca por similaridade de seqüências ( DeCypher: Interface para análises de genoma ( MAVID/AMAP: Programa que busca similaridade global entre seqüências ( Vários outros...

Alinhamento Local X Alinhamento Global
Importante: Alinhamento Local X Alinhamento Global Alinhamento GLOBAL: Compara as sequências em sua extensão total Apropriado para comparação de sequências que se esperam conter similaridade em toda a sua extensão O alinhamento maximiza as regiões de similaridade e minimiza os gaps Alinhamento LOCAL: -Procura por regiões de similaridade local, e não é preciso incluir toda a seqüência para a comparação -Muito útil para “sondar” um bando de dados, ou quando não sabemos se as seqüências são similares em toda a sua extensão

Alinhamento Local X Alinhamento Global
Importante: Alinhamento Local X Alinhamento Global

Acesse http://www.ncbi.nlm.nih.gov/BLAST/
O Basic Local Alignment Search Tool (BLAST) encontra regiões de similaridade local entre sequências. O programa compara sequências de nucleotídeos ou proteínas com sequências do bancos de dados e calcula a significância estatística das similaridades. O BLAST pode ser usado para inferir relações funcionais e evolutivas entre as sequências, bem como para ajudar a identificar membros de famílias de genes. Acesse

Interface do BLAST

Exemplo >contig4859 TACTTTACTTTGCAGCTATTTTGCTTCTGCTTCTTCTTGTTCTTGTTGCTGGTTGGTAATACTGCGAGAG AAATTAATCAGTAGAGTGTTCATCTACTATCAATTTTTGATCGAGGAGAGATGGCGGGAACGGCGAACTG CATCGACATCCTCATCGCCATCATCCTCCCGCCCCTCGGCGTCTTCCTCAAGTTCGGATGCGGGCATGAG TTCTGGATCTGCCTGTTGCTCACCTTCCTCGGCTACATCCCCGGCATCATCTACGCCATCTACGCCATCA CCAAGTAATTCATCATTAGTTACTACATCATCAACCAAATCCTCAAGGGATGGGCTCCAAACCGCTTCAT CTATCTTCTCGATTGCCGTGTGCTTGTTGGAATTTGGAAATGATATATGCATCCAAAATTCAGTCCTGAG TGCTCCAATTCTTGTCATCTAGTCATTTTCAATGTCCCCCCAGTCTCTTCCTCTAATGTTTGATGATATG TAGAATCTCTTGCTGTTAATCTGTTGCTTTCGTGTGAATAAAAAAAAAAAAAAAAAA

Exemplo Formato FASTA !

Exemplo

Score, Identidade e Similaridade
C L K I A N V F G G P Q W M A C T K R M S C L R I F N V F S G M Q W M A H T K R M S | | : | | | | : | | | | | | | | | | Score = 83 IDENTIDADE 16/21 = 76,19% SIMILARIDADE 18/21 = 85,71% IDENTIDADE : Resíduos iguais SIMILARIDADE : Resíduos iguais + resíduos parecidos

Grupos de similaridade
C Cisteína

A S P T G Grupos de similaridade - laranja Serina Prolina Alanina
Treonina Glicina

E N Q D Grupos de similaridade Glutamina Asparagina Aspartato
Glutamato

Histidina H Lisina Arginina K R

L I V M Grupos de similaridade - VERDE Leucina Isoleucina Valina
Metionina V M

Fenilalanina F Triptofano W Tirosina Y

Como Interpretar o resultado do BLAST ?
Qual o grau de identidade entre com os melhores hits? – Quanto maior a identidade maior a probabilidade de compartilhar estrutura-função Quanto maior o score, melhor é o alinhamento, mas a significância do alinhamento não pode ser deduzida somente pelo score; deve-se considerar também outros fatores como o e-value Entre os melhores hits, tem algum caracterizado experimentalmente? – Inferir sobre inferência pode ser arriscado

Valor E (E-value) m = Tamanho do banco de dados
n = Tamanho da query (sua pesquisa) s = Score

Como Interpretar o resultado do BLAST ?
As posições nas quais uma letra é pareada com um nulo é chamada de gap. Os gaps possuem scores negativos. Uma vez que eventos de mutação podem causar a inserção ou a deleção de mais de um resíduo, a presença de um gap é frequentemente considerada mais significante do que o tamanho do gap. Portanto, um gap é penalizado com um grande peso, enquanto que cada resíduo subsequente no gap possui uma penalidade de peso menor.

ClustalW O ClustalW é um programa de alinhamento de seqüências de propósito geral para DNA ou proteínas. Ele produz alinhamentos significativos com várias seqüências divergentes.

O programa calcula o melhor pareamento para as sequências selecionadas e as alinha de forma que as identidades, similaridades e diferenças podem ser vistas Relações evolutivas podem ser vistas por cladogramas e filogramas

Análise de genes e regiões codificadoras
LocusLink GeneMark ORF Finder Vários outros... Análise de proteínas e domínios Pfam BLOCKUS eMOTIF PROSITE PATScan Vários outros... Análise de vias metabólicas KEGG Outros...

Vale a pena visitar Com Ciência – BIOINFORMATICA ( BioMol.net ( 2Can Support Portal (

Bioinformática BLAST.

Apresentações semelhantes

Apresentação em tema: "Bioinformática BLAST."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Bioinformática BLAST.

Apresentações semelhantes

Apresentação em tema: "Bioinformática BLAST."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback