Uso da bioinformática na análise genômica

Slides:



Advertisements
Apresentações semelhantes
Instituto de Computação
Advertisements

Aula 4 Operações de Swap.
Organização Gênica de Eucariotos
Amplificação (clonagem) dos genes e seu armazenamento
BIBLIOTECAS DE DNA ou BANCOS DE DNA FABIANA SEIXAS
Introdução à Bioinformática
TRANSCRIÇÃO Biologia Molecular Profª Marília Scopel Andrighetti.
Genoma funcional: identificar genes diferencialmente expressos
Universidade Federal de Viçosa
Montagem e análise de genomas
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Introduction of RefSeq and LocusLink: resources at the NCBI
Sequenciamento inicial e análises do genoma humano
ORGANIZAÇÃO FUNCIONAL do GENOMA
Prof. Odir A. Dellagostin
Identificar e caracterizar todos os genes Genscan, FGENES and MZEF
Anotação de SAGE Tags Rodrigo Martins Brandão.
Introdução à expressão gênica
Serial Analysis of Gene Expression (SAGE)
Next – Generation Sequencing Era Illumina Genome Analyzer
Seqüenciamento parcial de transcritos
Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas.
TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT.
Seqüência e qualidade. Seqüência e qualidade Uso da bioinformática na análise genômica.
Miguel www. cromatina. icb. ufmg. br. Miguel www. cromatina. icb. ufmg. br.
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
Michelle A. Graham, Kevin A. T. Silverstein, Steven B
Análise Computacional de Seqüências Nucleotídicas e Protéicas
QBQ 0102 – Educação Física Carlos Hotta Transcrição 04/06/13.
Emanuel Teixeira Nº24924 Bioengenharia
Genômica funcional e metagenômica
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Análise de genomas e transcriptomas
Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.
ÁCIDO DESOXIRRIBONUCLEICO
Genômica e Proteômica 1) Genômica Estrutural O que é Genômica ?
Replicação, transcrição e tradução
Organização Gênica de Eucariotos
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Licenciatura em Ciências Biomédicas
UBA VII – Genética Molecular Genética Molecular e Humana
NOÇÕES DE PROBABILIDADE
1 2 Observa ilustração. Cria um texto. Observa ilustração.
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Predição computacional de genes
Nome alunos 1 Título UC. Título – slide 2 Conteúdo Conteúdo 2.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Estrutura e função de ácidos nucleicos, Replicação de DNA, transcrição e processamento de RNA, expressão gênica.
Estratégias de sequenciamento : genoma e transcriptoma
Análises de sequências
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Marcílio C. P. de Souto DIMAp/UFRN
Seqüenciamento e genômica
Definições e tipos de alinhamento. O uso do BLAST
Serial Analysis of Gene Expression - SAGE
Sequenciamento de Genomas
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode.
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Bioinformática Felipe G. Torres.
Avaliação da diversidade microbiana
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
EXPRESSÃO GÊNICA.
Transcrição da apresentação:

Uso da bioinformática na análise genômica

ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT ATCTCGTAGCTAGCTAC ATCTCGTAGCTAGCTACG ATCTCGTAGCTAGCTACGA ATCTCGTAGCTAGCTACGAC ATCTCGTAGCTAGCTACGACG ATCTCGTAGCTAGCTACGACGT ATCTCGTAGCTAGCTACGACGTC ATCTCGTAGCTAGCTACGACGTCT ATCTCGTAGCT A G C T A C G A C G T C T A TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG

Start End

Processamento de seqüências 20 30 10 cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc O programa Phred lê o cromatograma e nomeia as bases Cada base tem uma chance de erro de sua nomeação (10% = 0,1) A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30 A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)

In the Pursuit of Optimal Sequence Trimming Parameters for EST Projects Fabiano C. Peixoto & J. Miguel Ortega LCC-CENAPAD A T G C BIOINFORMÁTICA UFMG

Noticed: BLAST results Phred 15 Too much trimming 10 20 30 40 50

.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga gcggagctaaagtgacgggggcgcca Phred 15 Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979 Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| |||||||||||||||||||| Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919 Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| ||||||||||||||||| Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859 Query: 649 ccaggcttgatgataccagtttcaacgc 676 |||||||||||||||||||||||||||| Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831

Experimental approach Sequences: pUC18 plasmidial vector (published sequence) Sequence reaction: Single pool - 3 plates (96 samples) MegaBACE sequencer 3 reads for each plate, esd processing - 846 reads Processing: BLAST (MegaBLAST, as in UniGene) Phred trim: a chromatogram analyzer trim_alt: trim_cutoff parameter 1% up to 25%

Phred

16% 17% Trim_alt sequence Additional bases BLAST gaps/missmatches (% of bases) 3%

Crescimento do GenBank Seqüências 16.000.000 15 milhões 14.000.000 24h 12.000.000 10.000.000 Europeu Japonês 8.000.000 6.000.000 4.000.000 2.000.000 606 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Ano

(seqüenciador grande) Eucariotos Seqüencias do DNA (genoma) Seqüências do mRNA (genes expressos) Repetição calculada draft = 5x finished = 10x Amostragem tecidos momentos Genoma pequeno (seqüenciador grande) Eucariotos mRNA TR cDNA

Seqüenciamento parcial de transcritos

EST (Etiqueta de Seqüência Expressa) Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...] EST (Etiqueta de Seqüência Expressa) seqüenciamento único de cada cDNA extremidades 5’ ou 3’ ORESTES (ESTs ricas em ORFs) seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico prevalece o centro do cDNA (cds)

Um mRNA & suas ESTs 5’EST 3’EST 5’EST 3’EST mRNA AUG ATG cDNA (fita +) ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (T)18 5’EST cDNA (fita -) 3’EST mRNA AUG cDNA (fita +) (A)200 (A)18 GGCGCGCGATATCC AAATTTATTATCCATCTACG (T)18 5’EST cDNA (fita -) 3’EST

PCR inespecífico & seu ORESTES amplicon (fita -) amplicon (fita +) PCR (60ºC) +ORESTES (outros iniciadores) mRNA amplicon (fita +) AUG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG (A)200 CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG ORESTES cDNA (fita -) Iniciador (60ºC 37ºC)

250 200 150 100

O formato FASTA, o mais simples, é anotado >Gene5 EST com homologia... ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

O mundo

Alinhador local Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua. Fragmenta sua seqüência e procura homologia no banco de dados. Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor. É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

Alinhamento local O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína Se não fosse assim, não teria sentido usar...

Programas BLAST & Bancos Há vários Programas BLAST úteis Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx) Outros são usados quando a sua seqüência é de aminoácidos (BLASTp) E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...) Ou usa-se limites [organism]

BLASTn e BLASTx A EST identifica o gene homólogo: BLASTn A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx BLASTx: a EST traduzida em seis proteínas 1 existe, 5 não... O mundo Blast é assim

tBLASTx tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6 possibilidades, exatamente como BLASTx Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não! Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

Aglomerados ou Clusters Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! E quantos dos genes foram detectados Usa-se também para validar bibliotecas

Programas para aglomerar Icatools Phrap Cap3, Cap4 Swat BLAST MegaBLAST Um aglomerado = Um gene

Qualidade das bibliotecas (100 primeiras ESTs) Número de seqüências Boa biblioteca ? 1 2 3 4 5 7 9 11 Freqüência em que uma EST foi amostrada

UniGene Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado

MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar