A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas.

Apresentações semelhantes


Apresentação em tema: "Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas."— Transcrição da apresentação:

1 Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas

2 Introdução Motivação Regulação Gênica

3 Introdução Fatores de Transcrição Locais de amarração dos fatores de transcrição (TFBS’s) Elementos regulatórios Auxílio da Computação no estudo da regulação gênica

4 Introdução Figura 1 – Elemento Regulatório

5 Objetivo Identificação de elementos regulatórios Sequência Promotora

6 Objetivo Figura 2 – Definindo uma sequência promotora, onde serão procurados os elementos regulatórios.

7 Phylogenetic Footprinting “impressões de pegadas filogenéticas” Hipótese Conservação de elementos regulatórios em espécies próximas

8 Phylogenetic Footprinting Genes Ortólogos Procedimento baseia-se na comparação de sequências genômicas 2 etapas:

9 Phylogenetic Footprinting 1) Identificar genes ortólogos e obter sequências promotoras de cada um 2) Comparar sequências promotoras e extrair sub-sequências bem conservadas (motifs). Estes motifs serão excelente candidatos a elementos regulatórios

10 Genômica Comparativa Alinhamento Múltiplo Agrupamento Comparação com TRANSFAC

11 Algoritmo Entrada: Lista de genes Conjunto de espécies

12 Algoritmo ALGORITMO: Para cada gene na lista de entrada: – Pesquise em HomoloGene para identificar os genes ortólogos a este gene. – Se este gene possui ortólogos para todas as espécies consideradas no conjunto de espécies da entrada: Para cada gene ortólogo: – Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência genômica de sua espécie. – Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene. Compute o Alinhamento Múltiplo das sequências promotoras. Extraia do alinhamento os motifs bem conservados. Compute o agrupamento dos motifs. Compare com a base de dados TRANSFAC.

13 Algoritmo Saída : Lista de Motifs Lista de Grupos Lista de casamentos com TRANSFAC

14 Casos de Estudo Humano / Chimpanzé / Camundongo / Rato Humano / Chimpanzé / Camundongo / Rato / Cachorro Humano / Chimpanzé / Camundongo / Rato / Galinha Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Humano / Chimpanzé / Camundongo / Rato / Mosca

15 Dados Biológicos NCBI http://www.ncbi.nlm.nih.gov/ Consistência dos dados

16 Figura 3 - NCBI

17 Dados Biológicos HomoloGene – Genes Ortólogos http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?D B=homologene http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?D B=homologene Restrição das espécies

18 Figura 4 - HomoloGene

19 Dados Biológicos Exemplo de Pesquisa no HomoloGene ING5 (id 84289) Humano / chimpanzé / camundongo / rato

20 Figura 5 – Pesquisa no HomoloGene

21 Dados Biológicos Entrez Gene http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=ge ne http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=ge ne Objetivo: localização do gene

22 Figura 6 – Entrez Gene

23 Dados Biológicos Exemplo: ING5 Cromossomo: NC_000002.10 Início: 242290129 Fim: 242317569

24 Figura 7 – Pesquisa no Entrez Gene

25 Dados Biológicos Entrez Nucleotide – Sequências Promotoras promoter_start = gene_start – 1000 promoter_end = gene_start + 200

26 Figura 8 - Entrez Nucleotide - contém sequências de nucleotídeos de diversos genomas.

27 Dados Biológicos Exemplo: Região promotora do gene ING5 Cromossomo: NC_000002.10 promoter_start: 242289129 promoter_end: 242290329 Formato: FASTA

28 Figura 9 – Pesquisa no Entrez Nucleotide

29 Alinhamento Múltiplo Problema NP-Hard Needleman e Wunsch Programação Dinâmica Idéia do Algoritmo

30 Alinhamento Múltiplo Ferramentas computacionais para alinhamento múltiplo CLUSTALW Heurística x Programação Dinâmica

31 Figura 10 – Exemplo de Alinhamento Múltiplo

32 Alinhamento Múltiplo Identificação dos Motifs Tamanho do motif = 10 b.p. Casamento perfeito entre todas as espécies em pelo menos 9 dos 10 nucleotídeos.

33 Figura 11 – Motif com 10 casamentos perfeitos

34 Figura 12 – Motif com 9 casamentos perfeitos

35 Figura 13 – Sub-sequência com 9 casamentos perfeitos e 2 imperfeitos – não é um motif

36 Alinhamento Múltiplo Casamentos imperfeitos completados por gaps (-) Exemplo: motifs do estudo : humano / chimpanzé / camundongo / rato / mosca Sequência do motif, id do gene, espécie, id do cromossomo, posição de início do gene, posição de término do gene e posição de início do motif.

37 Alinhamento Múltiplo Figura 14 – Motifs encontrados no estudo humano/chimpanzé/camundongo/rato/mosca

38 Agrupamento Introdução Fim da estratégia de Phylogenetic Footprinting Objetivo do Agrupamento Método restritivo Apenas grupos com mais de 1 motif serão mais detalhadamente analisados

39 Agrupamento Algoritmo K-Means Um dos mais populares algoritmos iterativos de agrupamento. Este algoritmo é aleatório e baseia-se na heurística de Loyd. O número de grupos (K) deve ser definido previamente.

40 Agrupamento Algoritmo 1) Os motifs são designados aleatoriamente para os K grupos. 2) Um vetor de expressão média (ou centróide) de cada grupo é computado. 3) Cada motif é movido para o grupo mais próximo (do qual mais se assemelha ao centróide). 4) Repete 2 e 3 até que nenhum motif possa ser movido para outro grupo.

41 Agrupamento Evitando não-convergência Evitando mínimos locais Vários valores de K foram testados

42 Agrupamento Número “K” de grupos Duas considerações: 1) Estamos interessados em grupos com alta similaridade entre os seus elementos, mesmo que tenhamos muitos grupos unitários. Solução: foi definido que seriam testados 100 valores diferentes de K entre 70% e 90% do número de motifs.

43 Agrupamento 2) Conceito estatístico  W = within-cluster sum of distances  Quanto maior K, menor será o W.  Existe um K’ tal que: K W i+5 >>> W i K > K’ => W i+5 > W i

44 500 - 2567.29833333 501 - 2320.36666667 503 - 2632.32833333 504 - 2493.36666667 506 - 2424.73666667 507 - 2623.43 509 - 2337.16583333 510 - 2367.40880952 511 - 2456.52166667 513 - 2407.99833333 514 - 2297.01333333 516 - 2435.60833333 517 - 2289.1 519 - 2092.85666667 520 - 2500.10166667 521 - 2296.41666667 523 - 2297.80333333 524 - 2170.43833333 526 - 2156.93833333 527 - 1908.535 529 - 2179.25 530 - 1986.35833333 531 - 1919.5 533 - 1830.58666667 534 - 1894.125 536 - 2128.43333333 537 - 1936.9 539 - 1929.86333333 540 - 1870.675 541 - 1919.23 543 - 1871.20166667 544 - 1843.55333333 546 - 1756.30333333 547 - 1623.95 549 - 1788.83833333 550 - 1738.21666667 551 - 1799.64642857 553 - 1679.4 554 - 1758.215 556 - 1643.48 557 - 1622.35333333 559 - 1727.74166667 560 - 1746.45 561 - 1759.0 563 - 1526.36666667 564 - 1466.25833333 566 - 1565.76333333 567 - 1527.86833333 569 - 1545.51833333 570 - 1452.1 572 - 1559.96833333 573 - 1243.94166667 574 - 1489.82166667 576 - 1463.59166667 577 - 1374.70833333 579 - 1382.34333333 580 - 1462.59166667 582 - 1374.045 583 - 1394.11666667 584 - 1334.05 586 - 1371.36833333 587 - 1211.65 589 - 1268.01666667 590 - 1236.69166667 592 - 1216.375 593 - 1173.65 594 - 1105.06666667 596 - 1113.3 597 - 1155.88333333 599 - 1148.95833333 600 - 1050.44166667 602 - 1065.525 603 - 970.8 604 - 1021.13 606 - 985.383333333 607 - 933.033333333 609 - 988.533333333 610 - 917.241666667 612 - 1062.25 613 - 992.441666667 614 - 979.941666667 616 - 887.083333333 617 - 1041.15 619 - 823.758333333 620 - 863.6 622 - 864.541666667 623 - 904.158333333 624 - 905.575 626 - 817.416666667 627 - 846.625 629 - 795.25 630 - 858.133333333 632 - 689.358333333 633 - 812.8 634 - 704.7 636 - 706.116666667 637 - 593.266666667 639 - 724.2 640 - 626.766666667 642 - 701.35

45 Agrupamento KW 1 2 3 4 5 6 7 8 9 10 11 12 13 1790.73846154 1459.11666667 1296.95 1034.98333333 818.425 627.166666667 683.875 446.733333333 404.433333333 417.9 11 - 76.3333333333 12 - 168.85 13 - 0.0

46 Figura 15 – Exemplo de Agrupamento

47 TRANSFAC Figura 16 - TRANSFAC

48 TRANSFAC 1388 elementos regulatórios humanos anotados Objetivos da comparação com TRANSFAC

49 TRANSFAC Sequência de Consenso de um Grupo Um grupo do estudo humano/chimpanzé/camundongo/rato: CLUSTER 13576: CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310 AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728 AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424 AAAGACACT => Sequência de Consenso do grupo 13576

50 TRANSFAC Casamentos relevantes Alinhamento local sem gaps de tamanho pelo menos 5. Exemplo de outro grupo do estudo humano / chimpanzé / camundongo / rato :

51 TRANSFAC CLUSTER 13534: ATCCCTCCTC 1956 H.sapiens NC_000007.12 55054219 55242525 55054235 CTCCCTCCTC 339287 H.sapiens NC_000017.9 35531749 35548144 35531706 - TCCCTCCTC => Sequência de Consenso do grupo 13534 Casamento relevante com TRANSFAC : -TCCCTCCTC (sequência de consenso do grupo 13534) ATCCCTCCTC (motif do transfac com id R00377) TCCCTCCTC (casamento)

52 Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377)

53 TRANSFAC Figura 18 – Gene do grupo 13534 (id 1956)

54 TRANSFAC A seguir temos mais exemplos do estudo humano / chimpanzé / camundongo / rato:

55 GENEMOTIF EGFR (epidermal growth factor receptor); G000251 EGFR epidermal growth factor receptor (erythroblastic leukemia viral (v-erb-b) oncogene homolog, avian) (id 1956) LOC339287 - hypothetical protein LOC339287 (id 339287) ATCCCTCCTC (R00377) ATCCCTCCTC (Cluster 13534) CTCCCTCCTC (Cluster 13534)

56 GENEMOTIF DBH (dopamine beta hydroxylase); G002007 DBH dopamine beta-hydroxylase (id 1621) OR52K2 olfactory receptor, family 52, subfamily K, member 2 (id 119774) GTCCATGTGT (R09521) GA-GTCCATG (Cluster 17159) GC-CTCCATG (Cluster 17159)

57 GENEMOTIF G-CSF (granulocyte colony- stimulating factor); G000260 G-CSF (or CSF3) colony stimulating factor 3 (granulocyte) (id 1440) AMHR2 anti-Mullerian hormone receptor, type II (id 269) C9orf58 chromosome 9 open reading frame 58 (id 83543) GAGATTCCAC (R02683) TTCCCAGCTA (Cluster 21242) TTCCAAGGTC (Cluster 21242) TTCCAAGGTA (Cluster 21242)

58 GENEMOTIF SI (sucrase-isomaltase); G000385 SI sucrase-isomaltase (alpha- glucosidase) (id 6476) CPA2 carboxypeptidase A2 (pancreatic) (id 1358) ITGB1BP2 integrin beta 1 binding protein (melusin) 2 (id 26548) GGTGCAATAAAACTTTATGAGTA (R04239) TTTATT-TCT (Cluster 22280) TTTGTT-TCT (Cluster 22280) TTTAGT-TAT (Cluster 22280)

59 GENEMOTIF H4 (histone 4 pHu4A gene); G000295 H4 (or HRH4) histamine receptor H4 (id 59340) NR1D1 nuclear receptor subfamily 1, group D, member 1 (id 9572) GGTTTTCAATCTGGTCCG(R00687) TGTTTTGAGT (Cluster 41063) TGTTTTGGGT (Cluster 41063)

60 TRANSFAC Observações Motifs agrupados diferentes do motif anotado no TRANSFAC que teve casamento relevante. Comparando nomes de genes entre NCBI e TRANSFAC

61 Resultados Humano / Chimpanzé / Camundongo / Rato Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 10738 genes Número de motifs identificados: 66903 motifs Número de grupos: K = 57536 grupos 57536 - 9738.37333333 57670 - 9795.11666667 57804 - 9765.19166667 57937 - 9533.13833333 58071 - 9449.37833333 Wmax – Wmin <= 400 Número de grupos com pelo menos 2 motifs: 8329 grupos Número de grupos com casamento relevante com TRANSFAC: 4498 grupos

62 Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 9494 genes Número de motifs identificados: 11002 motifs Número de grupos: K = 7921 grupos 7921 - 10681.4533333 7943 - 10608.805 7965 - 10619.7461905 7987 - 10602.74 8009 - 10498.6733333 Wmax – Wmin <= 200 Número de grupos com pelo menos 2 motifs: 2329 grupos Número de grupos com casamento relevante com TRANSFAC: 867 grupos

63 Resultados Humano / Chimpanzé / Camundongo / Rato / Galinha Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 6974 genes Número de motifs identificados: 1268 motifs Número de grupos: K = 968 grupos 968 - 2565.98333333 971 - 2542.30333333 973 - 2521.27666667 976 - 2564.505 978 - 2554.04833333 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 238 grupos Número de grupos com casamento relevante com TRANSFAC: 56 grupos

64 Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 6382 genes Número de motifs identificados: 715 motifs Número de grupos: K = 537 grupos 537 - 1936.9 539 - 1929.86333333 540 - 1870.675 541 - 1919.23 543 - 1871.20166667 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 141 grupos Número de grupos com casamento relevante com TRANSFAC: 26 grupos

65 Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Número inicial de genes humanos: 23516 genes Número de genes com ortólogos nas 4 espécies: 3444 genes Número de motifs identificados: 13 motifs Número de grupos: K = 8 grupos 8 - 446.733333333 9 - 404.433333333 10 - 417.9 Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 4 grupos Número de grupos com casamento relevante com TRANSFAC: 1 grupos

66 Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Neste estudo, o grupo que possui um casamento relevante com TRANSFAC foi o grupo 0. CLUSTER 0: ATTTATT-TG 1506 H.sapiens NC_000016.8 66520974 66523266 66521109 GTGTGTG-GT 5459 H.sapiens NC_000005.8 145698869 145700200 145698417 GGTTATG-AA 8834 H.sapiens NC_000017.9 21041855 21058297 21042121 GTTTATG--- => Sequência de consenso A tabela a seguir lista os genes de cada um desses motifs e também o de alguns dos motifs do TRANSFAC com casamento relevante.

67 GENEMOTIF CTRL chymotrypsin-like (id 1506) POU4F3 POU domain, class 4, transcription factor 3 (id 5459) TMEM11 transmembrane protein 11 (id 8834) B-ACT (beta-actin); G000214 TCR-delta (T-cell receptor delta); G000395. apoB (apolipoprotein B); G000205 GCC (guanylyl cyclase C); G001742 ATTTATT-TG (Cluster 0) GTGTGTG-GT (Cluster 0) GGTTATG-AA (Cluster 0) CCTTTTATGG (R00040) AAATAAACAAGGAGATAGGGTGTT TATTT (R01429) GCATTTATGAGCTG (R04012) GTTTATAGCTCTGACCT (R08886)

68 Conclusões ESTUDOGenes com ortólogos MotifsGruposGrupos com mais de 1 motif Grupos com casamento relevante no TRANSFAC Humano/Chimpanzé/ Camundongo/Rato 10738669035753683294498 Humano/Chimpanzé/ Camundongo/Rato/ Cachorro 94941100279212329867 Humano/Chimpanzé/ Camundongo/Rato/ Galinha 6974126896823856 Humano/Chimpanzé/ Camundongo/Rato/ Cachorro/Galinha 638271553714126 Humano/Chimpanzé/ Camundongo/Rato/Mosca 344413841

69 Conclusões Objetivo alcançado Motifs conhecidos / motifs novos Resultados (lista de motifs, grupos e casamentos com Transfac) para cada um dos 5 estudos conduzidos nesta pesquisa estarão disponíveis na web.

70 Trabalhos Futuros Conhecimento sobre genes ortólogos Filtro de locais de início da transcrição ortólogos. Vários elementos regulatórios para um mesmo gene.

71 Apêndice I - Programação Python BioPython CLUSTALW The C Clustering Library

72 Esta apresentação foi parte do Projeto Final de Graduação de Raonne Barbosa Vargas, para obtenção do grau de Bacharel em Ciência da Computação Departamento de Informática Universidade Federal do Espírito Santo


Carregar ppt "Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas."

Apresentações semelhantes


Anúncios Google