A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

RECONHECIMENTO DE GENES Dilvan Moreira (Baseado em material do prof. André Carvalho)

Apresentações semelhantes


Apresentação em tema: "RECONHECIMENTO DE GENES Dilvan Moreira (Baseado em material do prof. André Carvalho)"— Transcrição da apresentação:

1 RECONHECIMENTO DE GENES Dilvan Moreira (Baseado em material do prof. André Carvalho)

2 Leitura  Introduction to Computational Genomics: A Case Studies Approach  Capítulo 2

3 27/6/2016André de Carvalho - ICMC/USP 3 Conteúdo  Proteínas  Expressão gênica  Transcrição  Código genético  Tradução  Descoberta de genes

4 27/6/2016André de Carvalho - ICMC/USP 4 Introdução  Gene Sweepstake  Bolsa de apostas gerada em 2000 pelo debate sobre número de genes do genoma humano Dr. Ewan Birney teve idéia no bar do Cold Spring Harbor Laboratory (CSHL)  Cada cientista de genoma participante do CSHL Genome Meeting pode apostar um número  Número vencedor a ser anunciado em maio de 2003 no CSHL Genome Meeting  Apostas variaram de 26.000 até mais que 150.000

5 27/6/2016André de Carvalho - ICMC/USP 5 Introdução  Valor das apostas:  2000: US$ 1  2001: US$ 5  2002: US$ 20  Até abril de 2003  165 apostas de mais de 50 países  Média: 61.170 genes

6 27/6/2016André de Carvalho - ICMC/USP 6 Introdução  Prêmio foi ganho por Lee Rowen  Instituto para Biologia de Sistemas, Seattle  Palpite em 2001: 25.949 genes  Ganhou metade de US$ 1.200 mais livro autografado de James Watson ¼ para aposta de 27.462, feita em 2000 ¼ para aposta de 26.500, feita em 2002

7 27/6/2016André de Carvalho - ICMC/USP 7 Introdução  Estimativas do número de genes:  1990: ~300,000  1995: ~100,000  2000: ~30,000  2004: ~25,000  2007: Número conhecido ~19,000

8 27/6/2016André de Carvalho - ICMC/USP 8 Proteínas  Moléculas grandes  Compostas de uma ou mais cadeias aminoácidos (AAs) Cadeia polipeptídica  Tamanhos variam: 30-40 AAs 200-300 AAs (mais comuns) Dezenas de milhares de AAs  Define estrutura e funcionamento de um organismo

9 27/6/2016André de Carvalho - ICMC/USP 9 Funções de Proteínas Humanas  Função estrutural  Participam da estrutura dos tecidos  Ex. 1: Colágeno Proteína de alta resistência, encontrada na pele, nas cartilagens, nos ossos e tendões  Ex. 2: Actina e Miosina Proteínas contráteis, abundantes nos músculos, onde participam do mecanismo da contração muscular  Função de transporte  Ex.: Hemoglobina Transporta oxigênio no sangue

10 27/6/2016André de Carvalho - ICMC/USP 10 Funções de Proteínas Humanas  Função enzimática  Regulam as reações biológicas  Ex.: Lipases Transformam os lipídios em ácidos graxos e glicerol  Função hormonal  Estimulam ou inibem a atividade de certos órgãos  Ex.: Insulina Controla o transporte de açúcar do sangue para o interior das células

11 27/6/2016André de Carvalho - ICMC/USP 11 Expressão gênica  Processo pelo qual genes são usados como formas para produção de proteínas  Alguns genes não codificam proteínas RNA é o produto final  Mecanismos de expressão gênica são diferentes para organismos:  Procariotos Material genético difuso nas células (Ex.: bactérias)  Eucariotos Material genético em um núcleo (Ex.: seres humanos)

12 27/6/2016André de Carvalho - ICMC/USP 12 Procatiotos x Eucariotos ProcariotosEucariotos Única célulaUma ou múltiplas células Não têm núcleoTêm núcleo Não têm organelasTêm organelas DNA circularDNA linear Nenhuma modificação do mRNA após transcrição Exons/Introns

13 27/6/2016André de Carvalho - ICMC/USP 13 Biologia Molecular  Dogma central da Biologia Molecular  Transferência de Informação Transcrição Tradução DNA RNA Proteínas Replicação

14 27/6/2016André de Carvalho - ICMC/USP 14 Expressão gênica Dogma central da Biologia Molecular Compostos de nucleotídeos: A, C, T (ou U), G Composta de aminoácidos (20 AAs diferentes)

15 27/6/2016André de Carvalho - ICMC/USP 15 Expressão gênica  Algumas descobertas posteriores contradizem este dogma:  RNA pode sofrer replicação em alguns vírus e plantas  RNA viral, por meio de uma enzima denominada transcriptase reversa, pode ser transcrito em DNA  DNA pode traduzir diretamente proteínas específicas - sem transcrição  Algumas proteínas podem se auto-replicar (Prions) Causa doença da vaca louca

16 27/6/2016André de Carvalho - ICMC/USP 16 Transcrição  Filme: Transcrição de DNATranscrição de DNA  Realizada pela enzima RNA polimerase  RNA polimerase começa a transcrição após se ligar a um sinal regulatório no DNA  Promotor ou região promotora  Produz molécula de RNA mensageiro (mRNA)  Trecho do DNA transcrito em RNA = unidade de transcrição

17 27/6/2016André de Carvalho - ICMC/USP 17 Transcrição  Processo de transcrição depende do organismo  Organismos eucariotos Genes são transcritos independentemente Existe um promotor antes de cada gene  Organismos procariotos Vários genes consecutivos podem ser transcritos em uma única molécula de RNA Não existe necessariamente um promotor antes de cada gene

18 27/6/2016André de Carvalho - ICMC/USP 18 Transcrição T G C A G C T C C G G A C T C C A T... RNA Polimerase promotor Transcrição DNA mRNA A 5’5’3’3’

19 27/6/2016André de Carvalho - ICMC/USP 19 Transcrição T G C A G C T C C G G A C T C C A T... RNA Polimerase promotor Transcrição A C G U C G A G G C C U G A G G U A... DNA mRNA

20 27/6/2016André de Carvalho - ICMC/USP 20 Tradução  Filme: Tradução RNATradução RNA  Leitura do mRNA é feita por uma molécula de ribossomo  Mensagem lida é utilizada para montar uma cadeia de proteína  Código genético: conjunto de regras para mapear DNA (RNA) em proteínas

21 27/6/2016André de Carvalho - ICMC/USP 21 Tradução  Para codificar 20 AAs são necessários 3 nucleotídeos: códon  4 1 = 4 AAs  4 2 = 16 AAs  4 3 = 64 AAs  Código genético define o mapeamento de códons em aminoácidos  Quase todos os seres vivos usam o mesmo código (código padrão)  Poucos organismos usam código ligeiramente diferente

22 27/6/2016André de Carvalho - ICMC/USP 22 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina

23 27/6/2016André de Carvalho - ICMC/USP 23 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina Exemplo: UCG codifica serina

24 27/6/2016André de Carvalho - ICMC/USP 24 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina Vários códons codificam o mesmo aminoácido Exemplo: UUA, UUG, CUU, CUC, CUA e CUG codificam o AA leucina

25 27/6/2016André de Carvalho - ICMC/USP 25 Código Genético UCAGUCAG Gly Asp Glu Ala Val G UCAGUCAG Ser Arg Asn Lys Thr Ile Met A UCAGUCAG Arg His Gln Pro Leu C UCAGUCAG Cys Parada Trp Tyr Parada Ser Phe Leu U GACU 1 a base no códon 2 a base no códon 3 a base no códon GlyGlicina Ala Alanina Leu Leucina Val Valina Ile Isoleucina Pro Prolina Phe Fenilalanina Ser Serina Thr Treonina Cys Cisteina Tyr Tirosina Asn Asparagina Gln Glutamina Asp Aspartato Glu Glutamato Arg Arginina Lys Lisina His Histidina Trp Triptofano Met Metionina Alguns códons indicam quando parar a tradução de RNA em proteína

26 27/6/2016André de Carvalho - ICMC/USP 26 Tradução A C G U C G A G G C C U G A G G U A... mRNA Tradução Met Ribossomo A U G

27 27/6/2016André de Carvalho - ICMC/USP 27 Tradução A U G U C G A G G C C U G A G G U A... mRNA Tradução Ribossomo His LeuGly Ser Met

28 27/6/2016André de Carvalho - ICMC/USP 28 Tradução  Seq. mRNA possui, nas duas pontas, regiões que não devem ser traduzidas  Untranslated regions – UTRs  A posição final da tradução é dada por um dos códons de terminação  Não codificam Amino Ácidos  Mas onde começar a tradução?

29 27/6/2016André de Carvalho - ICMC/USP 29 Tradução  Fase (ou quadro) de leitura  Reading frame  Em uma faixa de DNA, nucleotídeos podem ser agrupados em triplas de três formas diferentes Códon pode começar no 1 a, 2 a ou 3 a nucleotídeo A T T A C G A A G

30  Dependendo da fase de leitura em que a tradução comece, uma proteína diferente seria produzida  Mas qual é o ponto inicial correto? 15’--- A G G C U G C A G U U C A G A C --- 3’ 25’--- A G G C U G C A G U U C A G A C --- 3’ 35’--- A G G C U G C A G U U C A G A C --- 3’ 27/6/2016André de Carvalho - ICMC/USP 30 Tradução

31 27/6/2016André de Carvalho - ICMC/USP 31 Tradução  Códon AUG  Codifica a metionina  Especifica o início da tradução e a fase de leitura Códon de iniciação  Em geral, proteína começa a ser produzida com uma metionina  Exceção: GUG (valina) Ocorre com menos frequência Síntese de proteína em bactérias

32 27/6/2016André de Carvalho - ICMC/USP 32 Processo de Expressão Gênica Célula Núcleo Cromossomo Proteína Fonte: National Human Genome Research Institute Gene (DNA) Gene (mRNA), Fita simples Expressão Gênica

33 27/6/2016André de Carvalho - ICMC/USP 33 Identificação de Genes  Eucariotos  Genes codificantes possuem sequências de DNA transcritas mas não traduzidas (introns) Após o DNA ser transcrito, essas partes do mRNA são eliminadas Seqüências traduzidasSeqüências não traduzidas

34 27/6/2016André de Carvalho - ICMC/USP 34 Identificação de Genes  Exons:  Parte do gene que é transcrita e eventualmente traduzida Regiões codificadoras que podem ser traduzidas em proteínas Regiões 5’ e 3’ UTRs são exons, mas não são traduzidas  Compõem cerca de 2% do genoma humano  Podem ser vistos como os dados de um programa

35 27/6/2016André de Carvalho - ICMC/USP 35 Identificação de Genes  Introns:  Sequências intercaladas que são eliminadas na tradução  Regiões não codificadoras  Têm funções regulatórias (controle) e de integridade estrutural  Podem ser vistos como a lógica de um programa  Genoma humanos têm muito mais estrutura de controle que o do arroz

36 27/6/2016André de Carvalho - ICMC/USP 36 Open Reading Frame  Open Reading Frame (ORF)  Sequência de DNA de qualquer tamanho múltiplo de 3  Começa com um códon de iniciação Pode ter códons de iniciação internos  Termina com um códon de terminação Não possui códons de terminação internos  Tem potencial para codificar uma proteína

37 27/6/2016André de Carvalho - ICMC/USP 37 Fase Aberta de Leitura  Como cromossomos têm fita dupla, genes podem estar em qualquer uma das fitas  Sempre no sentido 5’ a 3’  3 quadros de leitura podem ser identificados em cada fita = 6 quadros  Algoritmo de identificação procura ORFs nas duas fitas  Uma fita pode ser facilmente obtida a partir da outra Bases de dados de DNA armazenam apenas uma fita

38 27/6/2016André de Carvalho - ICMC/USP 38 Identificação de Genes  Uma ORF pode ser usada para encontrar potenciais genes?  Só nos procariotos  Porque somente os genes dos procariotos consistem de ORFs contínuas únicas  Nos eucariotos...  É mais complicado  São encontrados genes candidatos  Genes em potencial

39 27/6/2016André de Carvalho - ICMC/USP 39 Identificação de Genes  Métodos que podem ser usados para encontrar genes:  Nos procariotos: Métodos simples, baseados em propriedades estatísticas da sequência  Nos eucariotos Métodos baseados alinhamento de sequências ou modelos de sequência de Markov

40 27/6/2016 André de Carvalho - ICMC/USP 40 Identificação de Genes  Genomas pequenos: 0.5 – 10·10 6 bp  Alta densidade de codificação (> 90%)  Identificação de genes é fácil  Acurácia  99%  Problemas  Sobreposição de ORFs  Genes curtos  Genomas grandes: 10 7 – 10 10 bp  Baixa densidade de codificação (< 50%)  Identificação de genes é complexa  Acurácia  50%  Problemas  Vários ProcariotosEucariotos

41 27/6/2016André de Carvalho - ICMC/USP 41 Identificação de Genes  Algoritmo para encontrar ORFs:  Dada uma seqüência s e um valor positivo k  Para cada fase de leitura Dividir a seqüência de DNA em trechos com 3 bases Encontrar todos os trechos de triplas que: Começam em um códon de iniciação e terminam em um códon de terminação  Repetir para o complemento reverso da seqüência  Retornar as ORFs de comprimento maior que k

42 27/6/2016André de Carvalho - ICMC/USP 42 Exemplo  ORFs no genoma M. genitalium  Algoritmo com diferentes valores para k Só aceita genes candidatos com mais que k AAs  K = 90 Encontra 543 ORFs no genoma  K = 100 Encontra 471 ORFs no genoma  Artigo original do genoma cita 470 ORFs Incluindo genes de RNA não traduzidos (não detectados pelo algoritmo anterior)

43 27/6/2016André de Carvalho - ICMC/USP 43 Identificação de Genes  Pode haver muitos trechos de DNA que contêm as características de uma ORF apenas devido ao acaso  Como saber se uma ORF é uma boa candidata a gene?

44 27/6/2016André de Carvalho - ICMC/USP 44 Identificação de Genes  Teste de hipótese  Calcular a probabilidade de encontrar uma ORF de comprimento L em uma sequência aleatória  Fazer inferências com base nessa probabilidade  Uma ORF é significativa quando ela é altamente improvável sob um modelo nulo (Null Model)

45 27/6/2016André de Carvalho - ICMC/USP 45 Identificação de Genes  Hipóteses:  H 0 : a ORF foi gerada por um processo aleatório  H 1 : a ORF foi gerada por algum processo biologicamente relevante

46 27/6/2016André de Carvalho - ICMC/USP 46 Identificação de Genes  p-value:  Probabilidade de obter um valor da estatística testada (L, por exemplo) que seja  o valor observado ao acaso, se H 0 for verdadeira L = comprimento de uma ORF  É comparada com um nível de significância escolhido   Se menor que , H 1 é aceita e a ORF é considerada significante Caso contrário, é rejeitada

47 27/6/2016André de Carvalho - ICMC/USP 47 Identificação de Genes  Determinar um comprimento mínimo L que uma ORF precisa ter para ser um gene candidato  Qual a probabilidade de uma ORF de comprimento maior ou igual a L surgir ao acaso?  Qual é o limiar para L tal que 95% das ORFs aleatórias sejam menores que L?

48 27/6/2016André de Carvalho - ICMC/USP 48 Identificação de Genes  Probabilidade de obter um códon de terminação (distribuição uniforme dos códons): 3/64  Probabilidade de códons que não são de terminação: 61/64  Probabilidade de uma sucessão de L ou mais códons não-terminais após um códon de iniciação: (61/64) L

49 27/6/2016André de Carvalho - ICMC/USP 49 Identificação de Genes  Usando  =0,05 pode-se estimar o tamanho mínimo aceitável de uma ORF:  Como (61/64) 62 = 0.051  95% das ORFs espúrias serão removidas se ORFs com L  64 forem descartadas 62 + códon de iniciação + códon de terminação)

50 27/6/2016André de Carvalho - ICMC/USP 50 Identificação de Genes  Contudo, a distribuição das bases na maioria dos organismos não é uniforme  Estima as frequências a partir da própria sequência:  P terminação = P(TAA) + P(TAG) + P(TGA)  P(L códons não terminação) = (1 - P terminação ) L  Para um dado , estimar L da mesma maneira descrita anteriormente

51 27/6/2016André de Carvalho - ICMC/USP 51 Identificação de Genes  E se não der para calcular o p-value exato?  Razões teóricas ou computacionais  Gerar sequências com as mesmas propriedades dos dados usando uma técnica de “ randomização ” : Permutação da sequência original Bootstrapping (amostra com substituição)  Usa essas sequências para calcular uma distribuição nula  O p-value é calculado encontrando o rank de L na distribuição nula

52 27/6/2016André de Carvalho - ICMC/USP 52 Exemplo: Mycoplasma genitalium  Mycoplasma genitalium  Sequência original: 11.922 ORFs  Método usado: permutação de base  Faz permutação, busca as ORFs e armazena seus comprimentos  Na sequência “randomizada”: 17.367 ORFs  H 0 = sequência “randomizada”

53 27/6/2016André de Carvalho - ICMC/USP 53 Exemplo: Mycoplasma genitalium  Mantém como genes candidatos as ORFs da sequência real  que a maior ORFs da sequência aleatória  O comprimento máximo das ORFs na sequência aleatória foi 402 pb  Número estimado de ORFs na sequência real (> 402 bp)foi de 326  Próximo do número de genes realmente existentes, 470

54 54 Exemplo: Mycoplasma genitalium  Manter como genes candidatos ORFs >= às top 5% ORFs da sequência aleatória  P-values < 0.05  1520 ORFs

55 27/6/2016André de Carvalho - ICMC/USP 55 Conclusão  Reconhecimento de genes em sequências de DNA  Processo custoso em laboratórios  Técnica simples  Procariotos X Eucariotos  Técnicas mais sofisticadas confirmam ou rejeitam candidatos  Comparação com sequências conhecidas

56 Perguntas?

57 27/6/2016André de Carvalho - ICMC/USP 57 Biologia Molecular  Estudo das células e moléculas  Em particular: genoma dos organismos  Estruturas principais:  Genes  Cromossomos  DNA  RNA  Proteínas nucleotídeos aminoácidos Expressão Gênica

58 27/6/2016André de Carvalho - ICMC/USP 58 Procatiotos x Eucariotos

59 27/6/2016André de Carvalho - ICMC/USP 59 Transcrição

60 27/6/2016André de Carvalho - ICMC/USP 60 Tradução

61 27/6/2016André de Carvalho - ICMC/USP 61 Identificação de Genes

62 27/6/2016André de Carvalho - ICMC/USP 62 Proteoma  Proteína (d o grego proteios, em primeiro lugar)  Formada por sequência de aminoácidos Podem ser centenas Bastante liberdade de movimento Unidos por ligações peptídicas R H 2 N C COOH H

63 27/6/2016André de Carvalho - ICMC/USP 63 Proteoma  Aminoácidos se conectam por ligações peptídicas

64 27/6/2016André de Carvalho - ICMC/USP 64 Proteína  Pode se dobrar em diferentes formatos 3- dimensionais  Dobramento é rápido (cerca de 2 segundos) e consistente  Estrutura de uma proteína determina o que ela faz  Enzimas  Sinalização celular  Anticorpos

65 27/6/2016André de Carvalho - ICMC/USP 65 Proteína  Estrutura pode ser descrita segundo 4 níveis ou estruturas  Primária  Secundária  Terciária  Quaternária

66 27/6/2016André de Carvalho - ICMC/USP 66 Proteínas  Estrutura primária  Seqüência de aminoácidos que compõem a cadeia polipeptídica Ordem exata dos aminoácidos em uma proteína constitui sua estrutura primária F – P – A – V – A – F  Proteínas se dobram espontaneamente Assumindo um formato 3-dimensional Forma depende da sequência de aminoácidos Forma define função da proteína

67 27/6/2016André de Carvalho - ICMC/USP 67 Proteínas  Estrutura secundária  Representa os padrões regulares e repetitivos locais Encontrados no enovelamento da proteína  Dois arranjos locais mais comuns nas proteínas: Alfa-hélice Folha-beta

68 27/6/2016 André de Carvalho - ICMC/USP 68 Proteínas Alfa-hélice Folha-beta

69 27/6/2016André de Carvalho - ICMC/USP 69 Proteínas  Estrutura terciária  Combinação sequencial de estruturas secundárias  Descreve como ocorre enovelamento da proteína no espaço 3-dimensional Resultado do enovelamento global de toda a cadeia polipeptídica Define formato da proteína Enzimas geralmente têm uma forma globular compacta

70 27/6/2016André de Carvalho - ICMC/USP 70 Proteínas Alfa-helix Folha-beta loop

71 27/6/2016André de Carvalho - ICMC/USP 71 Proteínas  Estrutura quaternária  Muitas proteínas são constituídas por mais de uma cadeia polipeptídica  A estrutura quaternária descreve a forma como as diferentes subunidades se agrupam e se ajustam Para formar a estrutura completa da proteína  Ex.: a molécula da hemoglobina humana é composta por quatro subunidades

72 27/6/2016André de Carvalho - ICMC/USP 72 Proteínas Estrutura quaternária

73 27/6/2016André de Carvalho - ICMC/USP 73 Transposons  Segmentos móveis de DNA  Podem se mover para diferentes regiões ou se replicar dentro do genoma  Genes saltadores  Ocupam grande porção do genoma  Presentes em quase todos os organismos  Efeitos:  Causar mutações  Aumentar ou reduzir quantidade de DNA no genoma

74 Perguntas?


Carregar ppt "RECONHECIMENTO DE GENES Dilvan Moreira (Baseado em material do prof. André Carvalho)"

Apresentações semelhantes


Anúncios Google