A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Bioinformática BLAST.

Apresentações semelhantes


Apresentação em tema: "Bioinformática BLAST."— Transcrição da apresentação:

1 Bioinformática BLAST

2 INTRODUÇÃO As tecnologias de sequenciamento do DNA criaram uma grande quantidade de informação que só é possível ser analisada por computadores

3 SEQUENCIAMENTO Após auto-radiografia a ordem dos nucleotídeos, na cadeia de DNA recém sintetizada, pode ser visualizada e obtida diretamente

4 SEQUENCIAMENTO

5 SEQUENCIAMENTO No sequenciamento automatizado cada um dos dNTPs está acoplado a um cromóforo fluorescente distinto

6 SEQUENCIAMENTO

7 SEQUENCIAMENTO A medida que essas informações aumentam em número e em complexidade, mais ferramentas computacionais são necessárias para organizar os dados

8 SEQUENCIAMENTO Dado bruto dos sequenciadores vem em forma de cromatogramas (arquivos gráficos – trace files)

9 SEQUENCIAMENTO PHRED Lê trace files compatíveis com os formatos mais utilizados: SCF (standard chromatogram format), ABI (373/377/3700),ESD (MegaBACE) e LI-COR Call bases - atribui uma base para cada pico identificado com uma taxa de erro menor que aquela dos programas de base calling padrão Atribui valores de qualidade às bases. O Phred value está baseado na estimativa da taxa de erro que é calculada para cada base individualmente Cria output files: base calls e valores de qualidade são escritos em outupt files

10 SEQUENCIAMENTO PHRED Região de alta qualidade

11 SEQUENCIAMENTO PHRED Região de qualidade média

12 SEQUENCIAMENTO PHRED Região de baixa qualidade – pouca confiabilidade

13 SEQUENCIAMENTO CONSED
Consed é um programa para visualização e edição dos arquivos gerados pelo Phred Assembly viewer - permite a visualização dos contigs (aligned reads), dos valores de qualidade e da seqüência final. Trace file viewer - uma ou várias regiões de cromatogramas podem ser visualizadas permitindo a comparação de uma dada região em diferentes cromatogramas.

14 SEQUENCIAMENTO Os arquivos gráficos são visualizados e convertidos em arquivos em formato texto contendo as sequências

15 SEQUENCIAMENTO CONSED
Navigation - identifica e lista regiões que estão abaixo de um padrão de qualidade determinado Autofinish - conjunto de funções para fechamento de gaps e melhoramento da qualidade de uma região. Faz automaticamente seleção de iniciadores e escolhe os moldes

16 TRIMAGEM Retirada de sequências contaminantes rRNA Vetor Poli A
Adaptadores

17 MONTAGEM Cap3, CrossMatch

18 MONTAGEM Os fragmentos são alinhados e são criadas as remontagens do genoma (assemblies) Leituras (reads) Contig

19 MONTAGEM

20 MONTAGEM

21 Montagem finalizada: sopa de 4 letras
>gi| |ref|NT_ |Hs21_29649 Homo sapiens chromosome 21 working draft sequence AAGCTTGTCAAGTAAGCTACCTATTTAGTGCTCGGAATGAAAGGGAGTGTGTGTTGGGAGTTGGGGGACTGCTTGCGTGAAACATTTCTCTCTTCTGGATTTAAAACTTAGTCTTGGTTGCCAATCTTTAACAGACAGTTTGTAAATGAAGGGGAAGAAAAATATATAAATTAGCTTTCTAATAAATCTGAAATTACAAATGTGAACCAAAGCAGGGAATAAATACTTGACCAAAAATATGTAAGTAAGTGGGTGTTGGGGATCACAATTTTTGAATATCTCAAGTTTTTGCTTTGAAAGTTCTATTTCAAAGTTCTTCAAAATGATGCCTGATGTTCCTGCATACTGTGTTCCAAATTTAGGTAAATACAAGATGGAAACTGTGAAGTATGTACTTCAAAAAAGAAGAAAGACACTGACATTTTATCTATATATATGTAATAGATTTATGAAGAACATATATAAACATATATAAACATAAATAAATACTTCAAGGAACATTTAGGATAGATTTAGGATATATGAACATTGGCAGGGTTGGAAAGAACATAATTCTTTCCCAGAAGGGGAAGGGGGAGCTATACTTAATCGGATCCAGCTACAACATCACTGGAAGTCATTTTCTCGCCAAAAAGTATCTCCACGGCAAAATCTGATGGATAATTCTCCGTGCTTTTTGTTTATGTAGATTATCCAATTCATTTTTTGGTAGATAAAGCCTAAGAATAGAAAAAAATTATTACATTTTATATTGGGGCTCACTGAAAAGCCACACAGTTGGGTACCCACGTTAGAGCGGAAGAAACAAAAAAAGAACCTCACCATGAATAGAACCTCAGCCCTTTTTTTGTGTCTCAGTTGGCTCCTTCCACCTTTTTACTGAGACATAAAAATACTTTAATCTTCAGCAACACATCAGTAACACATGCTGCTCTCTTAGCATTGCTTTATATGGAATTAATGACATCCAAGTTTAATAAAATATCTAAATTTCTCTCTGTGACAGAAATCAGTCAGGATAGACATGAATGAAAGCCCAGTAATAAAATACTATATCTCTTTTAATTATGTGTGAGGTTGCAATTTTTTGAATTTTTACAATCAGACCTTGGAAATGACCTTGAGCAGTAGGATATAACTCCCACATGCTGAGTGTTCCAATAATGGAACACTAGGCATAAATTGGTTAACCATTTATCCTCGTGTTCTCAATGATAGAAGTTAGCATTTTTAGCTAAACAACAATCTCATAACAAAAACAGCTTTACCAAGTAGGATGTAAATTTAAATGTTACAGAAATCTTTAGAAATTTATATAAAATAAGAATAAAATGACCTAGCTTATCACTTCTCCAAAATGAACATAGTGTTTTAAAGGAAAAAAAAAATGGTATCCTTTAGCAAGAACCACTTTTGAGGAGCAGCATCAAATGAAGCTCCACCCAGGTCTCACTTTTTGAGGGTCTTGCTCATGTTAGAATAAAAAGCTTATTGTTTGTATGCATCCAAAAAAAAAAACTTGTAAAAAATTTCCATCAAATACAAAGTTGACTCTATCAAAATCCATTAAATGTTTTGCATTGCAAGTGTGCAGACCAGAGTTTAATTTCCTGTTGCCTTGCTGGACTTAAGGAATCATTCGATCCAGTTCACATTTGAAGAAAAGATTAGGACTGGATGTAACAATAACTATCAATTCATGCCACATATAATCATAGCCACTTCTTCAACTCTACCTAAATCATTTAAAAAATATTTTGTCCTTTTGTATTGAAGAGTATGGTTGACACAAAAAAAGTCTCAATTTTTCACCATCACAAAACAAATGCTACTTACAGTGGAGAACTTCTAGACTGAGAAATGAGTTTCAAATATGGCAGAAGGTTTTTTTGGAACAATAATCTCCAAATCCAATTAATAATTTTTCAGAAAGGTTTCCCAATTCAGTTATTAGAAAGCCATATTTGAATGGCTATTTAAATAGACTATTACTTAATGATATTCTTAGCTGTATTCCTTAATACTGTGTCTTGTGACTTCTCCTAGATATAAGTGTGTCAGTCAGCTTTTCAGCTAGCTGAAGCCTCCCTAGGTCCTGCCTTCCTTTAGCACAAAAGTTGATGGTGGTTCATCATTGTAAATCAACACCTACTGACAGGGACCTGACATATTGAAGGTGCTGAGCAGCCTCATATTGAACTTCTCTGGGAGGAATTTACTACCACACTTAAGATCTGATGATAATACTTTTGAACTCGTACACAGTCCTTGGCATGGACCCTGAGGATACTGCAACAGTGGGTCTCAAGAACAAATGGATTTTTAAAATAACCAAAGTAAGAAGAGTAAGGCAAGGAACAATGGTGGTTCAAGGATTTTTTGCTTTCTATAAATTAAGTTTATACAACCAGCAAAAGACTTGCCATTACACCTTATACATAGACATTGAAGATTAGGCTGTTTCTATGGGTTTCTATTATATTCATACCTGTTATTTTCAATAAAAGATGTGTGCAACCAGAAGTAAAATGAGCAATGTCATAGTATGTAGGAAGATTCTAAAAAGAAAAAAAAATTTCAAAGTAAAACTGATACCAAGAACTAATCATTCCAAAGAAATTGAAGTTCCTTTCTTTATTCTTTTTTATATTTATCAAACAATTATAACCATAAATATGTGGCACTCTGCAATCTATAACAATACACTCAAGACACAAAGGAGGAGGCTTTAAGAAAATGCTACTGCATTCTCTTGCTGTTTCTATCAAAATTTTCAAGGAATAGTATTTTTCCCATGATAGGTATTAATTTAAATGCTGCTATTTGAATCTGGTTTAGATAGTGCCAAACAGACTCTACTAAGGACCTATGTCTATATATACCCAACTACATTGTAGTGAATTCTTGTAATTTTTTTGTTGCCTCAGCATCCCTTTTAATATAAATTGGATTTTCTGATATCAGAAGCGGGGTTCAGTCACCCGCAGCAGTTTCCCGTTCACCTCCTCCCAGTTTCTCCATGTGACTGATCCTGATATCTGCCTTACACAACCTTCTCATGATGACCACTTCATATGGGACAGCTAAATATAACCTACTTGACTCACCCCACAGACCCCCATACTCTGCAGGGACCATGTGGATATATCAGTGACCACCTCTCAGTCACAGCAGAGACTCATAGCTGCTTGCATTAAACCAAATTAGCCTCCCC E agora ??? Identificar produtos dos genes

22 Designar uma provável função para os genes
ANOTAÇÃO Designar uma provável função para os genes Comparação das seqüências obtidas com seqüências depositadas em Bancos de Dados Identificação de fases abertas de leitura (ORFs) na seqüência de bases no caso de seqüências codificadoras Análise de domínios protéicos na seqüência de aminoácidos deduzida a partir da seqüência de nucleotídeos

23 ANOTAÇÃO Identificação de regiões regulatórias (promotores, etc)
Estabelecimento de relações filogenéticas entre a sequência de interesse e sequências similares de outros organismos Identificar e analisar as vias metabólicas com as quais a sequência de interesse está relacionada Etc...

24 ANOTAÇÃO Bancos de Dados
Armazenamento organizado de informações que possibilita um acesso rápido, preciso e fácil às mesmas

25 GOLD - Estatísticas Evolução do número de genomas completos nos últimos 11 anos. Hoje: 433 publicados Evolução do número de projetos de seqüênciamento nos últimos 9 anos Hoje: 2179 em andamento

26 GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt

27 GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt

28 GenBank - Estatísticas
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt

29 GenBank - Estatísticas

30 ANOTAÇÃO Exemplos de bancos de dados Mais de 348 BD
BD de seqüências de nucleotídeos EMBL ( GenBank ( DDBJ ( UniGene ( BD de seqüências de proteínas SWISS-PROT, TrEMBL ( PIR ( BD de domínios Pfam ( PROSITE ( BD de estruturas macromoleculares 3D PDB (

31 ANOTAÇÃO O que se pode descobrir sobre um gene por meio de uma busca em um BD? Informação evolutiva: genes homólogos, freqüências dos alelos, ... Informação genômica: localização no cromossomo, intros, regiões reguladoras, ... Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...

32 NCBI TOUR

33 NCBI TOUR nome, símbolo, número de acesso, palavra-chave, etc...

34 NCBI TOUR

35 NCBI TOUR

36 NCBI TOUR

37 ANOTAÇÃO Ferramentas de Bioinformática
Análise/Comparação de seqüências BLAST: Programa que busca similaridade local entre seqüências ( CLUSTALW: Programa de alinhamento múltimplo de seqüências ( FASTA: Busca por similaridade de seqüências ( DeCypher: Interface para análises de genoma ( MAVID/AMAP: Programa que busca similaridade global entre seqüências ( Vários outros...

38 Alinhamento Local X Alinhamento Global
Importante: Alinhamento Local X Alinhamento Global Alinhamento GLOBAL: Compara as sequências em sua extensão total Apropriado para comparação de sequências que se esperam conter similaridade em toda a sua extensão O alinhamento maximiza as regiões de similaridade e minimiza os gaps Alinhamento LOCAL: -Procura por regiões de similaridade local, e não é preciso incluir toda a seqüência para a comparação -Muito útil para “sondar” um bando de dados, ou quando não sabemos se as seqüências são similares em toda a sua extensão

39 Alinhamento Local X Alinhamento Global
Importante: Alinhamento Local X Alinhamento Global

40 Acesse http://www.ncbi.nlm.nih.gov/BLAST/
O Basic Local Alignment Search Tool (BLAST) encontra regiões de similaridade local entre sequências. O programa compara sequências de nucleotídeos ou proteínas com sequências do bancos de dados e calcula a significância estatística das similaridades. O BLAST pode ser usado para inferir relações funcionais e evolutivas entre as sequências, bem como para ajudar a identificar membros de famílias de genes. Acesse

41 Interface do BLAST

42 Exemplo >contig4859 TACTTTACTTTGCAGCTATTTTGCTTCTGCTTCTTCTTGTTCTTGTTGCTGGTTGGTAATACTGCGAGAG AAATTAATCAGTAGAGTGTTCATCTACTATCAATTTTTGATCGAGGAGAGATGGCGGGAACGGCGAACTG CATCGACATCCTCATCGCCATCATCCTCCCGCCCCTCGGCGTCTTCCTCAAGTTCGGATGCGGGCATGAG TTCTGGATCTGCCTGTTGCTCACCTTCCTCGGCTACATCCCCGGCATCATCTACGCCATCTACGCCATCA CCAAGTAATTCATCATTAGTTACTACATCATCAACCAAATCCTCAAGGGATGGGCTCCAAACCGCTTCAT CTATCTTCTCGATTGCCGTGTGCTTGTTGGAATTTGGAAATGATATATGCATCCAAAATTCAGTCCTGAG TGCTCCAATTCTTGTCATCTAGTCATTTTCAATGTCCCCCCAGTCTCTTCCTCTAATGTTTGATGATATG TAGAATCTCTTGCTGTTAATCTGTTGCTTTCGTGTGAATAAAAAAAAAAAAAAAAAA

43 Exemplo Formato FASTA !

44 Exemplo

45 Exemplo

46 Exemplo

47 Score, Identidade e Similaridade
C L K I A N V F G G P Q W M A C T K R M S C L R I F N V F S G M Q W M A H T K R M S | | : | | | | : | | | | | | | | | | Score = 83 IDENTIDADE 16/21 = 76,19% SIMILARIDADE 18/21 = 85,71% IDENTIDADE : Resíduos iguais SIMILARIDADE : Resíduos iguais + resíduos parecidos

48 Grupos de similaridade
C Cisteína

49 A S P T G Grupos de similaridade - laranja Serina Prolina Alanina
Treonina Glicina

50 E N Q D Grupos de similaridade Glutamina Asparagina Aspartato
Glutamato

51 Grupos de similaridade
Histidina H Lisina Arginina K R

52 L I V M Grupos de similaridade - VERDE Leucina Isoleucina Valina
Metionina V M

53 Grupos de similaridade
Fenilalanina F Triptofano W Tirosina Y

54 Como Interpretar o resultado do BLAST ?
Qual o grau de identidade entre com os melhores hits? – Quanto maior a identidade maior a probabilidade de compartilhar estrutura-função Quanto maior o score, melhor é o alinhamento, mas a significância do alinhamento não pode ser deduzida somente pelo score; deve-se considerar também outros fatores como o e-value Entre os melhores hits, tem algum caracterizado experimentalmente? – Inferir sobre inferência pode ser arriscado

55

56 Valor E (E-value) m = Tamanho do banco de dados
n = Tamanho da query (sua pesquisa) s = Score

57 Como Interpretar o resultado do BLAST ?
As posições nas quais uma letra é pareada com um nulo é chamada de gap. Os gaps possuem scores negativos. Uma vez que eventos de mutação podem causar a inserção ou a deleção de mais de um resíduo, a presença de um gap é frequentemente considerada mais significante do que o tamanho do gap. Portanto, um gap é penalizado com um grande peso, enquanto que cada resíduo subsequente no gap possui uma penalidade de peso menor.

58 ClustalW O ClustalW é um programa de alinhamento de seqüências de propósito geral para DNA ou proteínas. Ele produz alinhamentos significativos com várias seqüências divergentes.

59 O programa calcula o melhor pareamento para as sequências selecionadas e as alinha de forma que as identidades, similaridades e diferenças podem ser vistas Relações evolutivas podem ser vistas por cladogramas e filogramas

60 Análise de genes e regiões codificadoras
LocusLink GeneMark ORF Finder Vários outros... Análise de proteínas e domínios Pfam BLOCKUS eMOTIF PROSITE PATScan Vários outros... Análise de vias metabólicas KEGG Outros...

61 Vale a pena visitar Com Ciência – BIOINFORMATICA ( BioMol.net ( 2Can Support Portal (


Carregar ppt "Bioinformática BLAST."

Apresentações semelhantes


Anúncios Google