A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas.

Apresentações semelhantes


Apresentação em tema: "Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas."— Transcrição da apresentação:

1 Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas

2 Introdução Motivação Regulação Gênica

3 Introdução Fatores de Transcrição Locais de amarração dos fatores de transcrição (TFBS’s) Elementos regulatórios Auxílio da Computação no estudo da regulação gênica

4 Introdução Figura 1 – Elemento Regulatório

5 Objetivo Identificação de elementos regulatórios Sequência Promotora

6 Objetivo Figura 2 – Definindo uma sequência promotora, onde serão procurados os elementos regulatórios.

7 Phylogenetic Footprinting “impressões de pegadas filogenéticas” Hipótese Conservação de elementos regulatórios em espécies próximas

8 Phylogenetic Footprinting Genes Ortólogos Procedimento baseia-se na comparação de sequências genômicas 2 etapas:

9 Phylogenetic Footprinting 1) Identificar genes ortólogos e obter sequências promotoras de cada um 2) Comparar sequências promotoras e extrair sub-sequências bem conservadas (motifs). Estes motifs serão excelente candidatos a elementos regulatórios

10 Genômica Comparativa Alinhamento Múltiplo Agrupamento Comparação com TRANSFAC

11 Algoritmo Entrada: Lista de genes Conjunto de espécies

12 Algoritmo ALGORITMO: Para cada gene na lista de entrada: – Pesquise em HomoloGene para identificar os genes ortólogos a este gene. – Se este gene possui ortólogos para todas as espécies consideradas no conjunto de espécies da entrada: Para cada gene ortólogo: – Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência genômica de sua espécie. – Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene. Compute o Alinhamento Múltiplo das sequências promotoras. Extraia do alinhamento os motifs bem conservados. Compute o agrupamento dos motifs. Compare com a base de dados TRANSFAC.

13 Algoritmo Saída : Lista de Motifs Lista de Grupos Lista de casamentos com TRANSFAC

14 Casos de Estudo Humano / Chimpanzé / Camundongo / Rato Humano / Chimpanzé / Camundongo / Rato / Cachorro Humano / Chimpanzé / Camundongo / Rato / Galinha Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Humano / Chimpanzé / Camundongo / Rato / Mosca

15 Dados Biológicos NCBI Consistência dos dados

16 Figura 3 - NCBI

17 Dados Biológicos HomoloGene – Genes Ortólogos B=homologene B=homologene Restrição das espécies

18 Figura 4 - HomoloGene

19 Dados Biológicos Exemplo de Pesquisa no HomoloGene ING5 (id 84289) Humano / chimpanzé / camundongo / rato

20 Figura 5 – Pesquisa no HomoloGene

21 Dados Biológicos Entrez Gene ne ne Objetivo: localização do gene

22 Figura 6 – Entrez Gene

23 Dados Biológicos Exemplo: ING5 Cromossomo: NC_ Início: Fim:

24 Figura 7 – Pesquisa no Entrez Gene

25 Dados Biológicos Entrez Nucleotide – Sequências Promotoras promoter_start = gene_start – 1000 promoter_end = gene_start + 200

26 Figura 8 - Entrez Nucleotide - contém sequências de nucleotídeos de diversos genomas.

27 Dados Biológicos Exemplo: Região promotora do gene ING5 Cromossomo: NC_ promoter_start: promoter_end: Formato: FASTA

28 Figura 9 – Pesquisa no Entrez Nucleotide

29 Alinhamento Múltiplo Problema NP-Hard Needleman e Wunsch Programação Dinâmica Idéia do Algoritmo

30 Alinhamento Múltiplo Ferramentas computacionais para alinhamento múltiplo CLUSTALW Heurística x Programação Dinâmica

31 Figura 10 – Exemplo de Alinhamento Múltiplo

32 Alinhamento Múltiplo Identificação dos Motifs Tamanho do motif = 10 b.p. Casamento perfeito entre todas as espécies em pelo menos 9 dos 10 nucleotídeos.

33 Figura 11 – Motif com 10 casamentos perfeitos

34 Figura 12 – Motif com 9 casamentos perfeitos

35 Figura 13 – Sub-sequência com 9 casamentos perfeitos e 2 imperfeitos – não é um motif

36 Alinhamento Múltiplo Casamentos imperfeitos completados por gaps (-) Exemplo: motifs do estudo : humano / chimpanzé / camundongo / rato / mosca Sequência do motif, id do gene, espécie, id do cromossomo, posição de início do gene, posição de término do gene e posição de início do motif.

37 Alinhamento Múltiplo Figura 14 – Motifs encontrados no estudo humano/chimpanzé/camundongo/rato/mosca

38 Agrupamento Introdução Fim da estratégia de Phylogenetic Footprinting Objetivo do Agrupamento Método restritivo Apenas grupos com mais de 1 motif serão mais detalhadamente analisados

39 Agrupamento Algoritmo K-Means Um dos mais populares algoritmos iterativos de agrupamento. Este algoritmo é aleatório e baseia-se na heurística de Loyd. O número de grupos (K) deve ser definido previamente.

40 Agrupamento Algoritmo 1) Os motifs são designados aleatoriamente para os K grupos. 2) Um vetor de expressão média (ou centróide) de cada grupo é computado. 3) Cada motif é movido para o grupo mais próximo (do qual mais se assemelha ao centróide). 4) Repete 2 e 3 até que nenhum motif possa ser movido para outro grupo.

41 Agrupamento Evitando não-convergência Evitando mínimos locais Vários valores de K foram testados

42 Agrupamento Número “K” de grupos Duas considerações: 1) Estamos interessados em grupos com alta similaridade entre os seus elementos, mesmo que tenhamos muitos grupos unitários. Solução: foi definido que seriam testados 100 valores diferentes de K entre 70% e 90% do número de motifs.

43 Agrupamento 2) Conceito estatístico  W = within-cluster sum of distances  Quanto maior K, menor será o W.  Existe um K’ tal que: K W i+5 >>> W i K > K’ => W i+5 > W i

44

45 Agrupamento KW

46 Figura 15 – Exemplo de Agrupamento

47 TRANSFAC Figura 16 - TRANSFAC

48 TRANSFAC 1388 elementos regulatórios humanos anotados Objetivos da comparação com TRANSFAC

49 TRANSFAC Sequência de Consenso de um Grupo Um grupo do estudo humano/chimpanzé/camundongo/rato: CLUSTER 13576: CCAGACACT H.sapiens NC_ AAAGAACAT H.sapiens NC_ AAAGACACT H.sapiens NC_ AAAGACACT => Sequência de Consenso do grupo 13576

50 TRANSFAC Casamentos relevantes Alinhamento local sem gaps de tamanho pelo menos 5. Exemplo de outro grupo do estudo humano / chimpanzé / camundongo / rato :

51 TRANSFAC CLUSTER 13534: ATCCCTCCTC 1956 H.sapiens NC_ CTCCCTCCTC H.sapiens NC_ TCCCTCCTC => Sequência de Consenso do grupo Casamento relevante com TRANSFAC : -TCCCTCCTC (sequência de consenso do grupo 13534) ATCCCTCCTC (motif do transfac com id R00377) TCCCTCCTC (casamento)

52 Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377)

53 TRANSFAC Figura 18 – Gene do grupo (id 1956)

54 TRANSFAC A seguir temos mais exemplos do estudo humano / chimpanzé / camundongo / rato:

55 GENEMOTIF EGFR (epidermal growth factor receptor); G EGFR epidermal growth factor receptor (erythroblastic leukemia viral (v-erb-b) oncogene homolog, avian) (id 1956) LOC hypothetical protein LOC (id ) ATCCCTCCTC (R00377) ATCCCTCCTC (Cluster 13534) CTCCCTCCTC (Cluster 13534)

56 GENEMOTIF DBH (dopamine beta hydroxylase); G DBH dopamine beta-hydroxylase (id 1621) OR52K2 olfactory receptor, family 52, subfamily K, member 2 (id ) GTCCATGTGT (R09521) GA-GTCCATG (Cluster 17159) GC-CTCCATG (Cluster 17159)

57 GENEMOTIF G-CSF (granulocyte colony- stimulating factor); G G-CSF (or CSF3) colony stimulating factor 3 (granulocyte) (id 1440) AMHR2 anti-Mullerian hormone receptor, type II (id 269) C9orf58 chromosome 9 open reading frame 58 (id 83543) GAGATTCCAC (R02683) TTCCCAGCTA (Cluster 21242) TTCCAAGGTC (Cluster 21242) TTCCAAGGTA (Cluster 21242)

58 GENEMOTIF SI (sucrase-isomaltase); G SI sucrase-isomaltase (alpha- glucosidase) (id 6476) CPA2 carboxypeptidase A2 (pancreatic) (id 1358) ITGB1BP2 integrin beta 1 binding protein (melusin) 2 (id 26548) GGTGCAATAAAACTTTATGAGTA (R04239) TTTATT-TCT (Cluster 22280) TTTGTT-TCT (Cluster 22280) TTTAGT-TAT (Cluster 22280)

59 GENEMOTIF H4 (histone 4 pHu4A gene); G H4 (or HRH4) histamine receptor H4 (id 59340) NR1D1 nuclear receptor subfamily 1, group D, member 1 (id 9572) GGTTTTCAATCTGGTCCG(R00687) TGTTTTGAGT (Cluster 41063) TGTTTTGGGT (Cluster 41063)

60 TRANSFAC Observações Motifs agrupados diferentes do motif anotado no TRANSFAC que teve casamento relevante. Comparando nomes de genes entre NCBI e TRANSFAC

61 Resultados Humano / Chimpanzé / Camundongo / Rato Número inicial de genes humanos: genes Número de genes com ortólogos nas 4 espécies: genes Número de motifs identificados: motifs Número de grupos: K = grupos Wmax – Wmin <= 400 Número de grupos com pelo menos 2 motifs: 8329 grupos Número de grupos com casamento relevante com TRANSFAC: 4498 grupos

62 Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro Número inicial de genes humanos: genes Número de genes com ortólogos nas 4 espécies: 9494 genes Número de motifs identificados: motifs Número de grupos: K = 7921 grupos Wmax – Wmin <= 200 Número de grupos com pelo menos 2 motifs: 2329 grupos Número de grupos com casamento relevante com TRANSFAC: 867 grupos

63 Resultados Humano / Chimpanzé / Camundongo / Rato / Galinha Número inicial de genes humanos: genes Número de genes com ortólogos nas 4 espécies: 6974 genes Número de motifs identificados: 1268 motifs Número de grupos: K = 968 grupos Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 238 grupos Número de grupos com casamento relevante com TRANSFAC: 56 grupos

64 Resultados Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha Número inicial de genes humanos: genes Número de genes com ortólogos nas 4 espécies: 6382 genes Número de motifs identificados: 715 motifs Número de grupos: K = 537 grupos Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 141 grupos Número de grupos com casamento relevante com TRANSFAC: 26 grupos

65 Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Número inicial de genes humanos: genes Número de genes com ortólogos nas 4 espécies: 3444 genes Número de motifs identificados: 13 motifs Número de grupos: K = 8 grupos Wmax – Wmin <= 100 Número de grupos com pelo menos 2 motifs: 4 grupos Número de grupos com casamento relevante com TRANSFAC: 1 grupos

66 Resultados Humano / Chimpanzé / Camundongo / Rato / Mosca Neste estudo, o grupo que possui um casamento relevante com TRANSFAC foi o grupo 0. CLUSTER 0: ATTTATT-TG 1506 H.sapiens NC_ GTGTGTG-GT 5459 H.sapiens NC_ GGTTATG-AA 8834 H.sapiens NC_ GTTTATG--- => Sequência de consenso A tabela a seguir lista os genes de cada um desses motifs e também o de alguns dos motifs do TRANSFAC com casamento relevante.

67 GENEMOTIF CTRL chymotrypsin-like (id 1506) POU4F3 POU domain, class 4, transcription factor 3 (id 5459) TMEM11 transmembrane protein 11 (id 8834) B-ACT (beta-actin); G TCR-delta (T-cell receptor delta); G apoB (apolipoprotein B); G GCC (guanylyl cyclase C); G ATTTATT-TG (Cluster 0) GTGTGTG-GT (Cluster 0) GGTTATG-AA (Cluster 0) CCTTTTATGG (R00040) AAATAAACAAGGAGATAGGGTGTT TATTT (R01429) GCATTTATGAGCTG (R04012) GTTTATAGCTCTGACCT (R08886)

68 Conclusões ESTUDOGenes com ortólogos MotifsGruposGrupos com mais de 1 motif Grupos com casamento relevante no TRANSFAC Humano/Chimpanzé/ Camundongo/Rato Humano/Chimpanzé/ Camundongo/Rato/ Cachorro Humano/Chimpanzé/ Camundongo/Rato/ Galinha Humano/Chimpanzé/ Camundongo/Rato/ Cachorro/Galinha Humano/Chimpanzé/ Camundongo/Rato/Mosca

69 Conclusões Objetivo alcançado Motifs conhecidos / motifs novos Resultados (lista de motifs, grupos e casamentos com Transfac) para cada um dos 5 estudos conduzidos nesta pesquisa estarão disponíveis na web.

70 Trabalhos Futuros Conhecimento sobre genes ortólogos Filtro de locais de início da transcrição ortólogos. Vários elementos regulatórios para um mesmo gene.

71 Apêndice I - Programação Python BioPython CLUSTALW The C Clustering Library

72 Esta apresentação foi parte do Projeto Final de Graduação de Raonne Barbosa Vargas, para obtenção do grau de Bacharel em Ciência da Computação Departamento de Informática Universidade Federal do Espírito Santo


Carregar ppt "Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas."

Apresentações semelhantes


Anúncios Google