Seqüência e qualidade. Seqüência e qualidade Uso da bioinformática na análise genômica.

Slides:

Advertisements

Apresentações semelhantes

Instituto de Computação

Advertisements

Organização Gênica de Eucariotos

Amplificação (clonagem) dos genes e seu armazenamento

BIBLIOTECAS DE DNA ou BANCOS DE DNA FABIANA SEIXAS

Introdução à Bioinformática

PROFª. Marília Scopel Andrighetti

TRANSCRIÇÃO Biologia Molecular Profª Marília Scopel Andrighetti.

Universidade Federal de Viçosa

Montagem e análise de genomas

Seqüenciamento parcial de transcritos

Uso da bioinformática na análise genômica

Uso da bioinformática na análise genômica

Introduction of RefSeq and LocusLink: resources at the NCBI

Sequenciamento inicial e análises do genoma humano

Genética bacteriana.

Prof. Odir A. Dellagostin

Anotação de SAGE Tags Rodrigo Martins Brandão.

Introdução à expressão gênica

Serial Analysis of Gene Expression (SAGE)

Seqüenciamento parcial de transcritos

Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas.

TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT.

Miguel www. cromatina. icb. ufmg. br. Miguel www. cromatina. icb. ufmg. br.

Seqüenciamento e montagem do genoma humano e análise de transcriptoma

Tecnologia do DNA recombinante

Michelle A. Graham, Kevin A. T. Silverstein, Steven B

Métodos de Análise de Expressão Gênica

Análise Computacional de Seqüências Nucleotídicas e Protéicas

QBQ 0102 – Educação Física Carlos Hotta Transcrição 04/06/13.

Emanuel Teixeira Nº24924 Bioengenharia

Genômica funcional e metagenômica

[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]

Análise de genomas e transcriptomas

Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.

ÁCIDO DESOXIRRIBONUCLEICO

Genômica e Proteômica 1) Genômica Estrutural O que é Genômica ?

Replicação, transcrição e tradução

Organização Gênica de Eucariotos

UBA VII – Genética Molecular Genética Molecular e Humana

Construção de bibliotecas de cDNA

Softwares de Análises Estatísticas em Biologia Sistêmica

Profa. Ana Paula Miranda Guimarães

Projeto de Banco de Dados

IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.

Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Diogo Silva Nº  1988 NCBI- Banco de dados público contendo sequências de DNA dos mais diversos organismos  1995 Técnica do microarranjo -perfil.

Estrutura dos Ácidos Nucléicos, Replicação e Transcrição

GENÉTICA Aula 7: Fundamentos das Tecnologias do DNA Recombinante

Estrutura e função de ácidos nucleicos, Replicação de DNA, transcrição e processamento de RNA, expressão gênica.

Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro

Marcílio C. P. de Souto DIMAp/UFRN

RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.

Seqüenciamento e genômica

Sequenciamento de Genomas

Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.

Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica

BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode.

Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.

IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.

BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode.

Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.

Biologia Código Genético e Síntese Protéica Código Genético

Ação Gênica.

Bioinformática Felipe G. Torres.

FERRAMENTAS DE ANÁLISE MOLECULAR

SÍNTESE DE PROTEÍNAS SÍNTESE PROTEÍCA.

* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.

Avaliação da diversidade microbiana

ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS

EXPRESSÃO GÊNICA.

Transcrição da apresentação:

Seqüência e qualidade

Uso da bioinformática na análise genômica

iniciadores crescem até que uma unidade interruptora entre ATCTCGTAGCT ATCTCGTAGCTA A ATCTCGTAGCTAG G ATCTCGTAGCTAGC C ATCTCGTAGCTAGCT T ATCTCGTAGCTAGCTA A ATCTCGTAGCTAGCTAC C ATCTCGTAGCTAGCTACG G ATCTCGTAGCTAGCTACGA A ATCTCGTAGCTAGCTACGAC C ATCTCGTAGCTAGCTACGACG G ATCTCGTAGCTAGCTACGACGT T ATCTCGTAGCTAGCTACGACGTC C ATCTCGTAGCTAGCTACGACGTCT T ATCTCGTAGCTAGCTACGACGTCTA A TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG iniciadores crescem até que uma unidade interruptora entre uma fita molde é sequenciada de cada vez eletroforese capilar e leitura da fluorescência da unidade interruptora

Receber Processar Anotar Depositar Início Bioinformática Receber Processar Anotar Depositar Fim

Processamento de seqüências 20 30 10 cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc 10 20 30 40 50 O programa Phred lê o cromatograma e nomeia as bases Cada base tem uma chance de erro de sua nomeação (10% = 0,1) A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30 A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)

I Brazilian Workshop on Bioinformatics October 18th, 2002, Gramado, RS, Brazil

Estratégias Genômicas

Crescimento do GenBank 45 milhões Seqüências 16.000.000 14.000.000 24h 12.000.000 10.000.000 Europeu Japonês 8.000.000 6.000.000 4.000.000 2.000.000 606 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Ano

(seqüenciador grande) Seqüencias do DNA (genoma) Seqüências do mRNA (genes expressos) Amostragem tecidos momentos Eucariotos mRNA Repetição calculada draft = 5x finished = 10x Genoma pequeno (seqüenciador grande) TR cDNA

Seqüenciamento parcial de transcritos

EST (Etiqueta de Seqüência Expressa) Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...] EST (Etiqueta de Seqüência Expressa) seqüenciamento único de cada cDNA extremidades 5’ ou 3’ ORESTES (ESTs ricas em ORFs) seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico prevalece o centro do cDNA (cds)

Um mRNA & suas ESTs 5’EST 3’EST 5’EST 3’EST mRNA ATG AUG cDNA (fita +) ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (T)18 5’EST cDNA (fita -) 3’EST mRNA AUG cDNA (fita +) (A)200 (A)18 GGCGCGCGATATCC AAATTTATTATCCATCTACG (T)18 5’EST cDNA (fita -) 3’EST

PCR inespecífico & seu ORESTES amplicon (fita -) amplicon (fita +) PCR (60ºC) +ORESTES (outros iniciadores) mRNA amplicon (fita +) AUG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG (A)200 CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG ORESTES cDNA (fita -) Iniciador (60ºC 37ºC)

26,630,649 250 200 150 100

Bases de dados

O formato FASTA, o mais simples, é anotado >Gene5 EST com homologia... ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

Transcriptoma de S. mansoni Rede Genoma de Minas Gerais dbEST: ESTs 5’ e 3’ Trace Arquive: dados originais Entrez Nucleotide: > 50 nt, em fase, com anotação Entrez Protein: proteínas deduzidas selecionadas mineração automática (KOG, BioCarta e KEGG) mineração manual (interesse de grupos) UniGene: dados de expressão diferencial (microarray e DGED) I MISS YOU

Anotação

O mundo

Alinhador local Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua. Fragmenta sua seqüência e procura homologia no banco de dados. Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor. É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

Alinhamento local O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína Se não fosse assim, não teria sentido usar...

Programas BLAST & Bancos Há vários Programas BLAST úteis Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx) Outros são usados quando a sua seqüência é de aminoácidos (BLASTp) E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...) Ou usa-se limites [organism]

BLASTn e BLASTx A EST identifica o gene homólogo: BLASTn A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx BLASTx: a EST traduzida em seis proteínas 1 existe, 5 não... O mundo Blast é assim

tBLASTx tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6 possibilidades, exatamente como BLASTx Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não! Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

bioinformática Receber Processar Anotar Depositar

um aglomerado = um gene

Aglomerados ou Clusters Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! E quantos dos genes foram detectados Usa-se também para validar bibliotecas

Programas para aglomerar Icatools Phrap Cap3, Cap4 Swat BLAST MegaBLAST Um aglomerado = Um gene

Qualidade das bibliotecas (100 primeiras ESTs) Número de seqüências Boa biblioteca ? 1 2 3 4 5 7 9 11 Freqüência em que uma EST foi amostrada

UniGene Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado

MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar

Construção de UniGene para AW1 (5.145 ESTs correspondem a 2.026 clusters) Etapa Número de seqüências no aglomerado Número de algomerados identidade > 96 % alinhamento > 70 % do potencial

Outros serviços online

Interface gráfica Alternativa para encontrar só o gene

Online Mendelian Inheritance in Man Um catálogo de genes humanos e anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e desenvolvido para a Web pelo NCBI Funciona como uma revisão já feita

SNP catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg SNP

No NCBI é acessado um banco de dados: MMDB Molecular Modelling DataBase (PDB sem teóricos) O banco de dados PDB tem um mirror no Brasil www.pdb.ufmg.br Arquivos do tipo “1MEY.pdb” são descarregados As coordenadas 3D de totos os átomos As proteínas podem ser vistas com programas (RasMol) ou direto no navegador (Plug-in Chime)

Modelagem Molecular por Homologia A proteína precisa ter uma ortóloga no PDB Pode ser automaticamente modelada pelo Swiss Model (Modeller na UFMG) Já modelaram todas proteínas confira 3DCrunch:

Rede Genoma de Minas Gerais