Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouOsvaldo Taveira Alcaide Alterado mais de 7 anos atrás
1
RECONHECIMENTO DE GENES Dilvan Moreira (Baseado em material do prof. André Carvalho)
2
Leitura Introduction to Computational Genomics: A Case Studies Approach Capítulo 2
3
27/6/2016André de Carvalho - ICMC/USP 3 Conteúdo Proteínas Expressão gênica Transcrição Código genético Tradução Descoberta de genes
4
27/6/2016André de Carvalho - ICMC/USP 4 Introdução Gene Sweepstake Bolsa de apostas gerada em 2000 pelo debate sobre número de genes do genoma humano Dr. Ewan Birney teve idéia no bar do Cold Spring Harbor Laboratory (CSHL) Cada cientista de genoma participante do CSHL Genome Meeting pode apostar um número Número vencedor a ser anunciado em maio de 2003 no CSHL Genome Meeting Apostas variaram de 26.000 até mais que 150.000
5
27/6/2016André de Carvalho - ICMC/USP 5 Introdução Valor das apostas: 2000: US$ 1 2001: US$ 5 2002: US$ 20 Até abril de 2003 165 apostas de mais de 50 países Média: 61.170 genes
6
27/6/2016André de Carvalho - ICMC/USP 6 Introdução Prêmio foi ganho por Lee Rowen Instituto para Biologia de Sistemas, Seattle Palpite em 2001: 25.949 genes Ganhou metade de US$ 1.200 mais livro autografado de James Watson ¼ para aposta de 27.462, feita em 2000 ¼ para aposta de 26.500, feita em 2002
7
27/6/2016André de Carvalho - ICMC/USP 7 Introdução Estimativas do número de genes: 1990: ~300,000 1995: ~100,000 2000: ~30,000 2004: ~25,000 2007: Número conhecido ~19,000
8
27/6/2016André de Carvalho - ICMC/USP 8 Proteínas Moléculas grandes Compostas de uma ou mais cadeias aminoácidos (AAs) Cadeia polipeptídica Tamanhos variam: 30-40 AAs 200-300 AAs (mais comuns) Dezenas de milhares de AAs Define estrutura e funcionamento de um organismo
9
27/6/2016André de Carvalho - ICMC/USP 9 Funções de Proteínas Humanas Função estrutural Participam da estrutura dos tecidos Ex. 1: Colágeno Proteína de alta resistência, encontrada na pele, nas cartilagens, nos ossos e tendões Ex. 2: Actina e Miosina Proteínas contráteis, abundantes nos músculos, onde participam do mecanismo da contração muscular Função de transporte Ex.: Hemoglobina Transporta oxigênio no sangue
10
27/6/2016André de Carvalho - ICMC/USP 10 Funções de Proteínas Humanas Função enzimática Regulam as reações biológicas Ex.: Lipases Transformam os lipídios em ácidos graxos e glicerol Função hormonal Estimulam ou inibem a atividade de certos órgãos Ex.: Insulina Controla o transporte de açúcar do sangue para o interior das células
11
27/6/2016André de Carvalho - ICMC/USP 11 Expressão gênica Processo pelo qual genes são usados como formas para produção de proteínas Alguns genes não codificam proteínas RNA é o produto final Mecanismos de expressão gênica são diferentes para organismos: Procariotos Material genético difuso nas células (Ex.: bactérias) Eucariotos Material genético em um núcleo (Ex.: seres humanos)
12
27/6/2016André de Carvalho - ICMC/USP 12 Procatiotos x Eucariotos ProcariotosEucariotos Única célulaUma ou múltiplas células Não têm núcleoTêm núcleo Não têm organelasTêm organelas DNA circularDNA linear Nenhuma modificação do mRNA após transcrição Exons/Introns
13
27/6/2016André de Carvalho - ICMC/USP 13 Biologia Molecular Dogma central da Biologia Molecular Transferência de Informação Transcrição Tradução DNA RNA Proteínas Replicação
14
27/6/2016André de Carvalho - ICMC/USP 14 Expressão gênica Dogma central da Biologia Molecular Compostos de nucleotídeos: A, C, T (ou U), G Composta de aminoácidos (20 AAs diferentes)
15
27/6/2016André de Carvalho - ICMC/USP 15 Expressão gênica Algumas descobertas posteriores contradizem este dogma: RNA pode sofrer replicação em alguns vírus e plantas RNA viral, por meio de uma enzima denominada transcriptase reversa, pode ser transcrito em DNA DNA pode traduzir diretamente proteínas específicas - sem transcrição Algumas proteínas podem se auto-replicar (Prions) Causa doença da vaca louca
16
27/6/2016André de Carvalho - ICMC/USP 16 Transcrição Filme: Transcrição de DNATranscrição de DNA Realizada pela enzima RNA polimerase RNA polimerase começa a transcrição após se ligar a um sinal regulatório no DNA Promotor ou região promotora Produz molécula de RNA mensageiro (mRNA) Trecho do DNA transcrito em RNA = unidade de transcrição
17
27/6/2016André de Carvalho - ICMC/USP 17 Transcrição Processo de transcrição depende do organismo Organismos eucariotos Genes são transcritos independentemente Existe um promotor antes de cada gene Organismos procariotos Vários genes consecutivos podem ser transcritos em uma única molécula de RNA Não existe necessariamente um promotor antes de cada gene
18
27/6/2016André de Carvalho - ICMC/USP 18 Transcrição T G C A G C T C C G G A C T C C A T... RNA Polimerase promotor Transcrição DNA mRNA A 5’5’3’3’
19
27/6/2016André de Carvalho - ICMC/USP 19 Transcrição T G C A G C T C C G G A C T C C A T... RNA Polimerase promotor Transcrição A C G U C G A G G C C U G A G G U A... DNA mRNA
20
27/6/2016André de Carvalho - ICMC/USP 20 Tradução Filme: Tradução RNATradução RNA Leitura do mRNA é feita por uma molécula de ribossomo Mensagem lida é utilizada para montar uma cadeia de proteína Código genético: conjunto de regras para mapear DNA (RNA) em proteínas
21
27/6/2016André de Carvalho - ICMC/USP 21 Tradução Para codificar 20 AAs são necessários 3 nucleotídeos: códon 4 1 = 4 AAs 4 2 = 16 AAs 4 3 = 64 AAs Código genético define o mapeamento de códons em aminoácidos Quase todos os seres vivos usam o mesmo código (código padrão) Poucos organismos usam código ligeiramente diferente
22
27/6/2016André de Carvalho - ICMC/USP 22 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina
23
27/6/2016André de Carvalho - ICMC/USP 23 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina Exemplo: UCG codifica serina
24
27/6/2016André de Carvalho - ICMC/USP 24 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina Vários códons codificam o mesmo aminoácido Exemplo: UUA, UUG, CUU, CUC, CUA e CUG codificam o AA leucina
25
27/6/2016André de Carvalho - ICMC/USP 25 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina Alguns códons indicam quando parar a tradução de RNA em proteína
26
27/6/2016André de Carvalho - ICMC/USP 26 Tradução A C G U C G A G G C C U G A G G U A... mRNA Tradução Met Ribossomo A U G
27
27/6/2016André de Carvalho - ICMC/USP 27 Tradução A U G U C G A G G C C U G A G G U A... mRNA Tradução Ribossomo His LeuGly Ser Met
28
27/6/2016André de Carvalho - ICMC/USP 28 Tradução Seq. mRNA possui, nas duas pontas, regiões que não devem ser traduzidas Untranslated regions – UTRs A posição final da tradução é dada por um dos códons de terminação Não codificam Amino Ácidos Mas onde começar a tradução?
29
27/6/2016André de Carvalho - ICMC/USP 29 Tradução Fase (ou quadro) de leitura Reading frame Em uma faixa de DNA, nucleotídeos podem ser agrupados em triplas de três formas diferentes Códon pode começar no 1 a, 2 a ou 3 a nucleotídeo A T T A C G A A G
30
Dependendo da fase de leitura em que a tradução comece, uma proteína diferente seria produzida Mas qual é o ponto inicial correto? 15’--- A G G C U G C A G U U C A G A C --- 3’ 25’--- A G G C U G C A G U U C A G A C --- 3’ 35’--- A G G C U G C A G U U C A G A C --- 3’ 27/6/2016André de Carvalho - ICMC/USP 30 Tradução
31
27/6/2016André de Carvalho - ICMC/USP 31 Tradução Códon AUG Codifica a metionina Especifica o início da tradução e a fase de leitura Códon de iniciação Em geral, proteína começa a ser produzida com uma metionina Exceção: GUG (valina) Ocorre com menos frequência Síntese de proteína em bactérias
32
27/6/2016André de Carvalho - ICMC/USP 32 Processo de Expressão Gênica Célula Núcleo Cromossomo Proteína Fonte: National Human Genome Research Institute Gene (DNA) Gene (mRNA), Fita simples Expressão Gênica
33
27/6/2016André de Carvalho - ICMC/USP 33 Identificação de Genes Eucariotos Genes codificantes possuem sequências de DNA transcritas mas não traduzidas (introns) Após o DNA ser transcrito, essas partes do mRNA são eliminadas Seqüências traduzidasSeqüências não traduzidas
34
27/6/2016André de Carvalho - ICMC/USP 34 Identificação de Genes Exons: Parte do gene que é transcrita e eventualmente traduzida Regiões codificadoras que podem ser traduzidas em proteínas Regiões 5’ e 3’ UTRs são exons, mas não são traduzidas Compõem cerca de 2% do genoma humano Podem ser vistos como os dados de um programa
35
27/6/2016André de Carvalho - ICMC/USP 35 Identificação de Genes Introns: Sequências intercaladas que são eliminadas na tradução Regiões não codificadoras Têm funções regulatórias (controle) e de integridade estrutural Podem ser vistos como a lógica de um programa Genoma humanos têm muito mais estrutura de controle que o do arroz
36
27/6/2016André de Carvalho - ICMC/USP 36 Open Reading Frame Open Reading Frame (ORF) Sequência de DNA de qualquer tamanho múltiplo de 3 Começa com um códon de iniciação Pode ter códons de iniciação internos Termina com um códon de terminação Não possui códons de terminação internos Tem potencial para codificar uma proteína
37
27/6/2016André de Carvalho - ICMC/USP 37 Fase Aberta de Leitura Como cromossomos têm fita dupla, genes podem estar em qualquer uma das fitas Sempre no sentido 5’ a 3’ 3 quadros de leitura podem ser identificados em cada fita = 6 quadros Algoritmo de identificação procura ORFs nas duas fitas Uma fita pode ser facilmente obtida a partir da outra Bases de dados de DNA armazenam apenas uma fita
38
27/6/2016André de Carvalho - ICMC/USP 38 Identificação de Genes Uma ORF pode ser usada para encontrar potenciais genes? Só nos procariotos Porque somente os genes dos procariotos consistem de ORFs contínuas únicas Nos eucariotos... É mais complicado São encontrados genes candidatos Genes em potencial
39
27/6/2016André de Carvalho - ICMC/USP 39 Identificação de Genes Métodos que podem ser usados para encontrar genes: Nos procariotos: Métodos simples, baseados em propriedades estatísticas da sequência Nos eucariotos Métodos baseados alinhamento de sequências ou modelos de sequência de Markov
40
27/6/2016 André de Carvalho - ICMC/USP 40 Identificação de Genes Genomas pequenos: 0.5 – 10·10 6 bp Alta densidade de codificação (> 90%) Identificação de genes é fácil Acurácia 99% Problemas Sobreposição de ORFs Genes curtos Genomas grandes: 10 7 – 10 10 bp Baixa densidade de codificação (< 50%) Identificação de genes é complexa Acurácia 50% Problemas Vários ProcariotosEucariotos
41
27/6/2016André de Carvalho - ICMC/USP 41 Identificação de Genes Algoritmo para encontrar ORFs: Dada uma seqüência s e um valor positivo k Para cada fase de leitura Dividir a seqüência de DNA em trechos com 3 bases Encontrar todos os trechos de triplas que: Começam em um códon de iniciação e terminam em um códon de terminação Repetir para o complemento reverso da seqüência Retornar as ORFs de comprimento maior que k
42
27/6/2016André de Carvalho - ICMC/USP 42 Exemplo ORFs no genoma M. genitalium Algoritmo com diferentes valores para k Só aceita genes candidatos com mais que k AAs K = 90 Encontra 543 ORFs no genoma K = 100 Encontra 471 ORFs no genoma Artigo original do genoma cita 470 ORFs Incluindo genes de RNA não traduzidos (não detectados pelo algoritmo anterior)
43
27/6/2016André de Carvalho - ICMC/USP 43 Identificação de Genes Pode haver muitos trechos de DNA que contêm as características de uma ORF apenas devido ao acaso Como saber se uma ORF é uma boa candidata a gene?
44
27/6/2016André de Carvalho - ICMC/USP 44 Identificação de Genes Teste de hipótese Calcular a probabilidade de encontrar uma ORF de comprimento L em uma sequência aleatória Fazer inferências com base nessa probabilidade Uma ORF é significativa quando ela é altamente improvável sob um modelo nulo (Null Model)
45
27/6/2016André de Carvalho - ICMC/USP 45 Identificação de Genes Hipóteses: H 0 : a ORF foi gerada por um processo aleatório H 1 : a ORF foi gerada por algum processo biologicamente relevante
46
27/6/2016André de Carvalho - ICMC/USP 46 Identificação de Genes p-value: Probabilidade de obter um valor da estatística testada (L, por exemplo) que seja o valor observado ao acaso, se H 0 for verdadeira L = comprimento de uma ORF É comparada com um nível de significância escolhido Se menor que , H 1 é aceita e a ORF é considerada significante Caso contrário, é rejeitada
47
27/6/2016André de Carvalho - ICMC/USP 47 Identificação de Genes Determinar um comprimento mínimo L que uma ORF precisa ter para ser um gene candidato Qual a probabilidade de uma ORF de comprimento maior ou igual a L surgir ao acaso? Qual é o limiar para L tal que 95% das ORFs aleatórias sejam menores que L?
48
27/6/2016André de Carvalho - ICMC/USP 48 Identificação de Genes Probabilidade de obter um códon de terminação (distribuição uniforme dos códons): 3/64 Probabilidade de códons que não são de terminação: 61/64 Probabilidade de uma sucessão de L ou mais códons não-terminais após um códon de iniciação: (61/64) L
49
27/6/2016André de Carvalho - ICMC/USP 49 Identificação de Genes Usando =0,05 pode-se estimar o tamanho mínimo aceitável de uma ORF: Como (61/64) 62 = 0.051 95% das ORFs espúrias serão removidas se ORFs com L 64 forem descartadas 62 + códon de iniciação + códon de terminação)
50
27/6/2016André de Carvalho - ICMC/USP 50 Identificação de Genes Contudo, a distribuição das bases na maioria dos organismos não é uniforme Estima as frequências a partir da própria sequência: P terminação = P(TAA) + P(TAG) + P(TGA) P(L códons não terminação) = (1 - P terminação ) L Para um dado , estimar L da mesma maneira descrita anteriormente
51
27/6/2016André de Carvalho - ICMC/USP 51 Identificação de Genes E se não der para calcular o p-value exato? Razões teóricas ou computacionais Gerar sequências com as mesmas propriedades dos dados usando uma técnica de “ randomização ” : Permutação da sequência original Bootstrapping (amostra com substituição) Usa essas sequências para calcular uma distribuição nula O p-value é calculado encontrando o rank de L na distribuição nula
52
27/6/2016André de Carvalho - ICMC/USP 52 Exemplo: Mycoplasma genitalium Mycoplasma genitalium Sequência original: 11.922 ORFs Método usado: permutação de base Faz permutação, busca as ORFs e armazena seus comprimentos Na sequência “randomizada”: 17.367 ORFs H 0 = sequência “randomizada”
53
27/6/2016André de Carvalho - ICMC/USP 53 Exemplo: Mycoplasma genitalium Mantém como genes candidatos as ORFs da sequência real que a maior ORFs da sequência aleatória O comprimento máximo das ORFs na sequência aleatória foi 402 pb Número estimado de ORFs na sequência real (> 402 bp)foi de 326 Próximo do número de genes realmente existentes, 470
54
54 Exemplo: Mycoplasma genitalium Manter como genes candidatos ORFs >= às top 5% ORFs da sequência aleatória P-values < 0.05 1520 ORFs
55
27/6/2016André de Carvalho - ICMC/USP 55 Conclusão Reconhecimento de genes em sequências de DNA Processo custoso em laboratórios Técnica simples Procariotos X Eucariotos Técnicas mais sofisticadas confirmam ou rejeitam candidatos Comparação com sequências conhecidas
56
Perguntas?
57
27/6/2016André de Carvalho - ICMC/USP 57 Biologia Molecular Estudo das células e moléculas Em particular: genoma dos organismos Estruturas principais: Genes Cromossomos DNA RNA Proteínas nucleotídeos aminoácidos Expressão Gênica
58
27/6/2016André de Carvalho - ICMC/USP 58 Procatiotos x Eucariotos
59
27/6/2016André de Carvalho - ICMC/USP 59 Transcrição
60
27/6/2016André de Carvalho - ICMC/USP 60 Tradução
61
27/6/2016André de Carvalho - ICMC/USP 61 Identificação de Genes
62
27/6/2016André de Carvalho - ICMC/USP 62 Proteoma Proteína (d o grego proteios, em primeiro lugar) Formada por sequência de aminoácidos Podem ser centenas Bastante liberdade de movimento Unidos por ligações peptídicas R H 2 N C COOH H
63
27/6/2016André de Carvalho - ICMC/USP 63 Proteoma Aminoácidos se conectam por ligações peptídicas
64
27/6/2016André de Carvalho - ICMC/USP 64 Proteína Pode se dobrar em diferentes formatos 3- dimensionais Dobramento é rápido (cerca de 2 segundos) e consistente Estrutura de uma proteína determina o que ela faz Enzimas Sinalização celular Anticorpos
65
27/6/2016André de Carvalho - ICMC/USP 65 Proteína Estrutura pode ser descrita segundo 4 níveis ou estruturas Primária Secundária Terciária Quaternária
66
27/6/2016André de Carvalho - ICMC/USP 66 Proteínas Estrutura primária Seqüência de aminoácidos que compõem a cadeia polipeptídica Ordem exata dos aminoácidos em uma proteína constitui sua estrutura primária F – P – A – V – A – F Proteínas se dobram espontaneamente Assumindo um formato 3-dimensional Forma depende da sequência de aminoácidos Forma define função da proteína
67
27/6/2016André de Carvalho - ICMC/USP 67 Proteínas Estrutura secundária Representa os padrões regulares e repetitivos locais Encontrados no enovelamento da proteína Dois arranjos locais mais comuns nas proteínas: Alfa-hélice Folha-beta
68
27/6/2016 André de Carvalho - ICMC/USP 68 Proteínas Alfa-hélice Folha-beta
69
27/6/2016André de Carvalho - ICMC/USP 69 Proteínas Estrutura terciária Combinação sequencial de estruturas secundárias Descreve como ocorre enovelamento da proteína no espaço 3-dimensional Resultado do enovelamento global de toda a cadeia polipeptídica Define formato da proteína Enzimas geralmente têm uma forma globular compacta
70
27/6/2016André de Carvalho - ICMC/USP 70 Proteínas Alfa-helix Folha-beta loop
71
27/6/2016André de Carvalho - ICMC/USP 71 Proteínas Estrutura quaternária Muitas proteínas são constituídas por mais de uma cadeia polipeptídica A estrutura quaternária descreve a forma como as diferentes subunidades se agrupam e se ajustam Para formar a estrutura completa da proteína Ex.: a molécula da hemoglobina humana é composta por quatro subunidades
72
27/6/2016André de Carvalho - ICMC/USP 72 Proteínas Estrutura quaternária
73
27/6/2016André de Carvalho - ICMC/USP 73 Transposons Segmentos móveis de DNA Podem se mover para diferentes regiões ou se replicar dentro do genoma Genes saltadores Ocupam grande porção do genoma Presentes em quase todos os organismos Efeitos: Causar mutações Aumentar ou reduzir quantidade de DNA no genoma
74
Perguntas?
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.