A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aplicações de Bioinformática (Epigenética)

Apresentações semelhantes


Apresentação em tema: "Aplicações de Bioinformática (Epigenética)"— Transcrição da apresentação:

1 Aplicações de Bioinformática (Epigenética)
A Bioinformática que teve papel essencial na considerada era do genoma, somente através dela foi possível obter as seqüências completas do genoma de diversos organismos. Hoje, na chamada era pós-genômica, cujo interesse está no chamado genoma funcional, na integração dos dados provenientes do genoma, do trasnscriptoma, do proteoma e também do epigenoma. Nesse contexto, a bioinformática também pode contribuir ainda mais. Essa minha apresentação objetiva mostrar algumas das aplicações de bioinformática que estão sendo utilizadas nos estudos do epigenoma. Daniel Guariz Pinheiro

2 Tópicos Abordagens Banco de Dados
Análise após sequenciamento com bissulfito Comparação de Genomas Análise de Expressão Gênica Diferencial Alelo Específica Análise de Perfis de Metilação e Predição de Classes Banco de Dados MethDB Serão apresentadas algumas abordagens, incluindo os softwares existentes adequadas a determinada abordagem... Dentre todas as abordagens existentes, eu selecionei estas... A análise de seqüências após o tratamento do DNA com o bissulfito (que já foi falado); A comparação de genomas, uma das primeiras abordagens, que iniciou antes mesmo da finalização do genoma humano; A análise de expressão gênica diferencial alelo específica (in silico) a partir de dados encontrados em bancos de dados públicos; E uma análise do perlfil de metilação utilizando técnicas que auxiliam a identificar uma assinatura molecular de metilação, que permite predizer classes fenotípicas a partir dos dados obtidos de uma técnica baseada em microarray que permite analisar uma grande quantidade de sítios CpGs metilados ou não metilados. Por fim, eu falo um pouco sobre a base de dados de padrões ou de perfis de metilação existente, que é o MethDB. O MethDB é público e atualmente parece ser o único banco de dados de metilação...

3 Análise após o sequenciamento com bissulfito
Tratamento com bissulfito - Conversão de Citosinas não metiladas para Uracila. Análise dos dados : Manual x Automatizada Ferramentas Computacionais : MethTools BIQ Analyzer Alinhamento Global : ClustalW Como dito anteriormente, o tratamento da amostra de DNA com o bissulfito provoca a conversão das Citosinas não metiladas para Uracila, que após ao final do sequenciamento irá aparece como Timina. Após o sequenciamento, as sequencias obtidas podem ser comparadas com a sequencia genômica original, através de alinhamento e comparada... Os Cs nas seqüências obtidas, representam as citosinas metiladas. Como neste exemplo: a seqüência em negrito representa a seqüência genômica original e a outra a seqüência obtida do sequenciamento, os Cs em azul representam as citosinas e em vermelho representa a citosina metilada. A análise manual dos dados é uma tarefa árdua, consome tempo, é entediante e propensa a erros. A automatização desse processo é portanto uma necessidade. Há duas ferramentas que lidam com esse tipo de procedimento o MethTools e o BIQ Analyzer. Em ambas as ferramentas é utilizado o programa ClustalW para o alinhamento global. CGCCGCTGCCGCTCGGTGGCCGGGCCGGGCGCCTCCACCCCCCTCGCAGTCATGTGCCTG TGTTGTTGTTGTTTGGTGGTTGGGTTGGGCGTTTTTATTTTTTTTGTAGTTATGTGTTTG

4 Identificar padrões de metilação
MethTools Coleção de ferramentas computacionais específicas para o processo de comparação que geram saídas gráficas que permitem: Identificar padrões de metilação Analisar a densidade dos padrões de metilação Identificar possíveis motivos para metilação Estimar os erros sistemáticos do experimento O MethTools é na verdade um conjunto de programas que realizam tarefas específicas, inclusive gerar gráficos e diagramas úteis que auxiliam em diversos pontos: Identificar padrões de metilação em seqüências Analisar a densidade desses padrões no conjunto de seqüências A identificar possíveis motivos de metilação E na estimativa dos erros inerentes ao experimento

5 Padrões de Metilação Lollipops
Esta representação é conhecida como lollipop : Cada círculo corresponde a um sítio CpG, círculos preenchidos correspondem os sítios onde há Citosina metilada, os círculos vazios correspondem às Citosinas não metiladas, as linhas verticais representam seqüências onde há um outro nucleotídeo que não a Citosina (que representa a Citosina metilada) nem a Timina (que neste caso representa a Citosina não metilada).

6 Densidade dos Padrões de Metilação
Gráfico de Densidade O gráfico de densidade mostra o nível de metilação em cada uma das posições ao longo das seqüências alinhadas, o eixo-x indica o tamanho da seqüência em pares de bases e o eixo-y a porcentagem de metilação em determinada posição. As cores indicam a quantidade de clones.

7 Motivos para Metilação
Logos O consenso geral das seqüências A ordem de predominância de um resíduo em cada posição A freqüência relativa de cada um dos resíduos em cada posição A quantidade de informação em cada uma das posições na seqüência Localização significante Outra representação útil, que permite a identificação de possíveis motivos* para metilação são os logos. Os logos podem concentrar as seguintes informações: O consenso geral das seqüências A ordem de predominância de um resíduo em cada posição (ordem de cima para baixo) A freqüência relativa de cada um dos resíduos em cada posição (tamanho do resíduo) A quantidade de informação em cada uma das posições na seqüência (altura da coluna, a qtd de informação é máxima se há exclusivamente uma base e 0 se os resíduos se todas as bases estão igualmente distribuídas) Localização significante (alguma localização referencial que neste caso é o sítio metilado) *Motivo é uma padrão de seqüência de nucleotídeos ou aminoácidos que é freqüente e que tem, ou presume-se ter alguma significância biológica.

8 Estimativa de erros sistemáticos do experimento
Estimativa feita a partir do número de trocas de bases diferentes das de C para T. A fidelidade do sequenciamento é estimada a partir do número de trocas de bases diferentes das de C para T. Quanto maior essas trocas de nucleotídeos, maior será a taxa de erro estimada.

9 BIQ Analyzer Programa interativo que automatiza o processo de análise de metilação por seqüênciamento com bissulfito. O BIQ Analyzer pode auxiliar nos seguintes processos: Importação dos dados do sequenciador Alinhamento das seqüências Identificação de seqüências críticas Gera estatísticas básicas Produz diagramas úteis O BIQ Analyzer é o outro programa que eu havia comentado, que também possibilita uma análise automatizada do processo. Ele não é um conjunto de programas com o MethTools, as análises são integradas em um único programa, além disso ele é interativo, o usuário é de certa forma direcionado através das análises. Pode auxiliar nos seguintes processos : Importação dos dados diretamente do sequenciador Alinhamento das seqüências, que como dito anteriormente é feito pelo programa ClustalW Identificação de seqüências críticas que atrapalham a análise Gera as estatísticas básicas E é capaz de produz diagramas úteis

10 Diagrama (BIQ Analyzer)
Este diagrama é exclusivo do BIQ Analyzer. Cada caixa corresponde a um sítio CpG na seqüência genômica. As barras coloridas, sumarizam o estado de metilação de todas as seqüências para aquela posição.

11 Controle de Qualidade (BIQ Analyzer)
Tipos de erros freqüentes e soluções: Conversão incompleta No caso de vertebrados é utilizado o critério da taxa de conversão. Seqüências clones É utilizado um método heurístico para detecção de clones. Erros no sequenciamento Sugere a exclusão das seqüências com baixa identidade. Em relação ao controle de qualidade estes são os Tipos de erros freqüentes e as soluções implementadas: Conversão incompleta ( Quando o tratamento com bissulfito falha em converter Cs não metiladas, há uma super estimação da quantidade de seqüências metiladas ) Vertebrado – Cs fora de um contexto são sempre não metilados. Taxa de conversão : razão Cs convertidos corretamente fora do contexto CpG dividido pela soma de convertidos e não convertidos fora do contexto CpG. Seq Seqüências clones ( Uma alta representatividade de um único clone pode atrapalhar a análise ) É utilizado um método heurístico* para detecção de clones. Erros no sequenciamento ( Erros no sequenciamento podem trocar um C por T ou vice ou até mesmo outro nucleotídeo) Neste caso o programa identifica as seqüências com baixa identidade em relação à seqüência genômica e sugere a sua exclusão. *Heurísticas são critérios ou métodos computacionais para decidir o caminho mais eficiente entre várias alternativas de ação, buscando encontrar um determinado objetivo.

12 Comparação de Genomas Certos padrões de regulação gênica e dos elementos regulatórios correspondentes estão freqüentemente conservados entre as espécies. Envolve o alinhamento de regiões genômicas ortólogas. Domínios de Imprinting - Região 11p15 (Hs) - Cromossomo 7 (Mm) Regiões Conservadas (não exônicas) - 74% Regiões ricas em GC ou Ilhas CpG. Genes Metilados - Associados a ilhas CpG (2 ou mais) Onyango, P. et al. (2000) Uma outra abordagem é a comparação entre genomas, devido ao fato de que certos padrões de regulação e de elementos regulatórios correspondentes estão freqüentemente conservados entre as espécies. Portanto, esse tipo de abordagem envolve o alinhamento de regiões genômicas órtologas, ou seja, que possuem uma origem evolutiva comum. Um fato observado é que a maioria dos genes que sofrem de imprinting, estão agrupados em um domínio comossômico. Uma comparação entre esses domínios pode ser útil na identificação desses elementos reguladores. A identificação de seqüências não exônicas conservadas, é uma forte evidência para considerá-la um elemento regulador. A figura representa um exemplo, a comparação entre duas regiões órtologas em humanos e camundongos. Nesse caso, das regiões conservadas não exônicas identificadas, 74% eram regiões ricas em GC ou Ilhas CpGs. Além disso, muitos dos genes metilados, possuiam associação com ilhas CpGs, mais que 2 normalmente.

13 PipMaker PIP (Percent Identity Plot ) - gráfico com a porcentagem de identidade entre as regiões ao longo das seqüências. Schwartz et al. (2000) Alinhamento Local BLASTZ Identificação de Repeats RepeatMasker Predição Gênica Genscan Mapeamento de Transcritos Matches com ESTs Mapeamento de Ilhas CpG Gardiner-Garden e Frommer O PipMaker é um programa útil para a comparação entre genomas, ele possibilita a visualização desse tipo de gráfico bastante informativo, que é conhecido como PIP. Para o alinhamento, é utilizado o programa BLASTZ, que permite o alinhamento local entre longas seqüências genômicas. O PIP além de apresentar o alinhamento e a porcentagem de identidade, mapeia as informações obtidas de outras fontes: As coordenadas de repeats podem ser obtidas do RepeatMasker, as coordenadas de estruturas gênicas preditas podem ser obtidas do Genscan, o mapeamento de transcritos através das coordenads de matches com ESTs e o mapeamento de ilhas CpG através de uma implementação do critério de Gardiner-Garden e Frommer.

14 Análise de Expressão Gênica Diferencial Alelo Específica
UniGene – ESTs (Expressed Sequence Tags) SNPs (Single Nucleotide Polymorphisms) Biblioteca de EST  ↔ Indivíduo EST Library Only allele A was found Alleles A and B were found Only allele B was found Baye’s inference Individual genotyping AA or AB AB BB or AB Um outro tipo de estudo é a análise de expressão gênica diferencial alelo específica. Essa abordagem apresentada utiliza as informações da base de dados do UniGene* e uma base de dados de SNPs. A abordagem baseia-se no fato de que a quantidade de ESTs de determinado gene pode fornecer uma estimativa da expressão desse gene e os SNPs podem ajudar a identificar o alelo. Nesta abordagem, cada biblioteca de EST é considerada um indivíduo e o todo o conjunto de bibliotecas a população. Os SNPs selecionados são identificados nas bibliotecas e considerados os possíveis genótipos AA ou AB se somente o A foi encontrado, AB se os dois forem encontrados e BB ou AB se somente o B foi econtrado. Para encontrar as probabilidades de cada indivíduo foi utilizada a inferência bayesiana, para cada situação foram estimas as probabilidades de AA, AB e BB e em seguida estimadas as freqüências de cada genótipo na população e também as freqüências alélicas. De acordo com a distribuição de equilíbrio de Hardy-Weinberg foi calculada a freqüência de heterozigotos. Essa freqüência de heterozigotos Q(AB) foi comparada à P(AB). No caso de genes com imprinting a freqüência de P(AB) tende a ser menor do que a de Q(AB). Para identificar as diferenças mais significativas foi utilizada a Z-statistics, para obter o valor de significância. *UniGene – é um sistema experimental para separar automaticamente do Genbank um conjunto não redundante de agrupamentos (clusters) que representam um gene. Estimados PAA, PAB e PBB para a população Population allele freq QA = PAA + 0.5PAB ; QB = 1-QA ; QAB = 2QAQB Cálculo da diferença entre PAB e QAB PAB tende a ser menor que QAB para gene metilados Z-statistics

15 Expressão Gênica Diferencial Alelo Específica
19312 SNPs 194 mais significantes 4 genes conhecidos com imprinting Esse gráfico mostra o resultado de uma análise de cerca de SNPs em bibliotecas de tecidos normais de ESTs. 194 estão entre aqueles com as diferenças mais significantes entre P(AB) e Q(AB). O eixo-y é o valor p de significância e o eixo-x os SNPs ordenados. Em uma mesma análise feita com bibliotecas de tecido tumoral, somente 1 desses 4 conhecidos estavam entre os mais significantes. Os números menores que 1 têm logaritmo negativo.

16 Análise de Perfis de Metilação e Predição de Classes
Objetivo Extrair informação dos dados e identificar sua implicação biológica em determinado fenótipo. Auxiliar no diagnóstico e/ou prognóstico de uma doença (AML e ALL). Estratégia Baseada em certos padrões de metilação do DNA que estão correlacionados com determinados parâmetros fenotípicos. Utilizar uma análise baseada em microarrays. Utilizar sistemas de Aprendizado de Máquina SVM (Support Vector Machine) Outra abordagem a ser apresentada é a análise dos perfis de metilação e a predição de classes fenotípicas. Objetivo A intenção é extrair informação dos dados e identificar sua implicação biológica, ou seja, o que há de informação nos dados que o relaciona a um determinado fenótipo. Considerando a aplicação desse conhecimento na área médica, esse fenótipo pode ser o de uma doença como o câncer, e o conhecimento desses marcadores podem auxiliar no dianóstico de doenças, no caso do exemplo que será apresentado AML – Leucemia Mielóide Aguda e Leucemia Linfoblástica Aguda. Estratégia A estratégia é baseada no fato de que certos padrões de metilação estão fortemente correlacionados com determinados parâmetro fenotípicos. Sabe-se que são comuns certas alterações aberrantes no padrão de metilação do DNA em cânceres. Nesse exemplo utiliza-se uma análise em larga-escala baseada em microarrays para a obtenção dos perfis de metilação. E para a predição de classes, utiliza-se sistemas de Aprendizado de Máquina*. Tais sistemas permitem obter conclusões genéricas sobre um conjunto particular de exemplos que lhe são apresentados. Em seguida, avalia-se a capacidade de generalização apresendando ao sistema outros exemplos ainda não conhecidos e espera-se que ele seja capaz de identificá-lo predizando-o sua classe. No caso deste exemplo, a técnica utilizada é a SVM (Support Vector Machine). *Sistemas Computacionais que tomam decisões baseado em experiências acumuladas através da solução bem sucedida de experimentos anteriores.

17 Análise de Metilação Baseada em Microarrays
CG CG m Bissulfito UG CG m PCR AC GC Esse é o esquema do experimento para identificar dinucleotídeos CpG não-metilados e metilados. Neste caso também é utilizado o tratamento da amostra de DNA com o Bissulfito para a conversão de Citosinas não metiladas para Uracila, que após a amplificação por PCR é convertido para Timina. Neste caso esta representada a fita complementar que é marcada com um fluorescente. Foram desenvolvidos dois tipos de oligonucleotídeos : um para hibridar com o dinucleotídeo não metilado (TG) e o outro com o dinucleotídeo metilado (CG). Os oligonucleotídeos são imobilizados nos spot da lâmina de microarray e o processo de hibridação é feito e então os os níveis de metilação para cada dinucleotídeo são obtidos varrendo a lâmina com um scanner. TG CG Sondas (oligonucleotídeos)

18 ALL x AML AML – Leucemia Mielóide Aguda
17 amostras (tecidos e linhagem celulares) ALL – Leucemia Linfoblástica Aguda 8 amostras (tecidos e linhagens celulares) 81 sítios CpG (região promotora, exons ou introns) Genes : ELK1, CSNK2B, 1-myc, CD63, CDC25A, TUBB2, CD1A, CDK4, n-myc, AR e c-MOS Vetor de atributos para cada amostra: Razão : log CG/TG para os 81 sítios Neste estudo foram feitos experimentos com 17 amostras de AML e 8 amostras de ALL, analisando diversos sítios CpG na região promotora, em exons e íntrons. Neste estudo, foram selecionados 81 sítios CpG para os genes : ELK1, CSNK2B, 1-myc, CD63, CDC25A, TUBB2, CD1A, CDK4, n-myc, AR e c-MOS. Para cada experimento os valores da log da razão entre a quantidade de dinucleotídeos metilados dividido pelos não metilados. Esses valores são organizados em um vetor de 81 atributos, um para cada sítio CpG. Nesta imagem é possível ver o nível de intensidade de 20 sítios CpG para 2 genes localizados no cromossomo X, onde se espera que em amostras obtidas de mulheres, seja encontrado mais DNA metilado para esses genes, devido à inativação de um dos cromossomos X. É possível ver claramente que os quadrados estão mais escuros nas amostras de mulheres comparadas com as de homens, indicando que há mais DNA metilado. 20 Sítios CpG para os genes ELK1 e AR (cromossomo X)

19 Sistema de Aprendizado de Máquina Supervisionado
Vetor de atributos X = {xi : xi є Rn} , i = 1,...,n Número de atributos n = 81 Vetor de classes Y = {yj : yj є {ALL,AML}}, j = 1,...,m Número de exemplos que serão treinados m Conjunto de treinamento {X, Y} Performance de Generalização Estimada a partir da quantidade de erros de classificação na fase de testes Obtidos os dados, a intenção agora é utilizar um sistema de Aprendizado de Máquina, que neste caso é o SVM (Support Vector Machine) para aprender a separar corretamente as amostras de ALL e AML. O SVM é um sistema de aprendizado supervisionado, isso significa que o treinamento é com os vetores de atributos associados à classe correspondende. Os vetores de atributos, neste caso são 81, cujos valores pertencem ao conjunto dos números reais. O vetor de classes, possui valor para cada experimento utilizado na fase de treinamento, os valores podem ser AML ou ALL. Para avaliar a performance de generaliação, são feitos testes com somente com os vetores de atributos, e espera-se que o sistema identifique a classe corretamente. A quantidade de erros de classificação pode contribuir para estimar a performance de generalização.

20 Support Vector Machine
Objetivo: encontrar uma função discriminante (f) capaz de capturar as propriedades essenciais da distribuição dos dados e evitar o super ajustamento aos dados de treinamento. SVM - discriminante linear ( f : Rn →{ALL,AML}) separar os dados do conjunto de treinamento maximizar a distância da margem do hiperplano No sistema de Aprendizado de Máquina SVM, o objetivo é encontrar uma função discriminante (f) que define um hiperplano capaz de separar os dados do conjunto de treinamento segundo sua classe (capturando suas propriedades essenciais) enquanto maximiza a distância da margem do hiperplano (evitando o super ajustamento aos dados de treinamento). Imaginem um espaço multi-dimensional, no exemplo da figura, vocês podem ver um espaço tridimensional (eixos x,y e z – três atributos) onde cada ponto representa um exemplo (no caso do estudo em questão, os dados experimentais de uma das amostra), e há pontos verdes e vermelhos, 2 classes (no caso do estudo em questão, AML e ALL), o SVM tenta identificar um discriminante linear capaz de separar as duas classes. Caso não seja possível como mostrado nessa outra imagem, o SVM mapeia através de uma função todos os pontos para um outro espaço chamado espaço de características onde então é possível uma separação linear.

21 Redução de Dimensionalidade
Critérios avaliados Fisher Golub t-test PCA Backward Elimination Método Avaliação Cross-validation (repetido 50 vezes) 8 Partições 7 treinamento 1 teste Um problema encontrado em casos em que há poucos exemplos (17 - AML e 8 - ALL) e o espaço dimensional é muito grande (81 sítios), com isso, não é possível encontrar um hiperplano com boa capacidade de generalização. Nestes casos é necessário uma redução de dimensionalidade. Para extrair aqueles atributos mais significativos foram testados os seguintes critérios : Fisher Golub t-test PCA Backward Elimination O resultado está neste gráfico, no eixo-y estão as taxa de erro estimadas, e no eixo-x a quantidade de atributos (mais significantes) utilizados. Pode-se observar que neste caso o critério de Fisher (e o de Golub que não está no gráfico porque teve um resultado muito próximo ao de Fisher) foi o que proporcionou melhor generalização, com menor taxa de erros para quase todas as quantidades de atributos utilizados. O método de avaliação utilizado foi o cross-validation, no qual o conjunto de dados total é particionado em 8, 7 partições são selecionadas aleatoriamente para treinamento e o outro para teste. Esse processo é repetido 8 vezes trocando a partição de teste. Esse processo no geral foi repetido 50 vezes.

22 SVM (ALL / AML) Critério de Fisher CSNK2B CpG2 (eixo-x)
CDK4 CpG3 (eixo-y) Utilizando o critério de Fisher e selecionando os dois atributos mais significantes, o CSNK2B CpG2 e o CDK4 CpG3, mostrados no gráfico respectivamente nos eixos x e y, foi encontrado através de SVM um plano que separa as duas classes, com poucos erros. Os pontos pretos representam as amostras AML e os pontos cinzas representam as amostras ALL. Os pontos circundados são os vetores suporte, definindo a borda branca entre as áreas. O degradée representa a força da predição, quanto mais escuro mais forte. O interessante neste estudo, em comparação com os estudos convencionais para a predição de classes, que utilizam RNA mensageiro, é que pode ser possível utilizar DNA, uma molécula mais estável, e obter sucesso comparável.

23 Banco de Dados (MethDB)
MethDB (setembro, 2002) 6667 experimentos 46 espécies, 160 tecidos e 72 fenótipos Tipos de dados Descrições dos experimentos Padrões e perfis de metilação Padrão de metilação : seqüência 5 mucleotídeos (incluindo a 5mC) Perfil de metilação : representação da metilação ao longo das seqüências (lollipops) Conteúdo de metilação total Quantidade de 5mC em uma amostra de DNA. O Banco de Dados públicos MethDB (setembro, 2002) Possuia um total de 6667 experimentos Divididos entre 46 espécies, 160 tecidos e 72 fenótipos Apesar de bastante heterogêneo em relação aos dados, é possível distinguir estes tipos de dados : Descrições dos experimentos Padrões e perfis de metilação Padrão de metilação : seqüência 5 mucleotídeos (incluindo a 5mC) Perfil de metilação : representação da metilação ao longo das seqüências (lollipops) Conteúdo de metilação total Quantidade de 5mC em uma amostra de DNA.


Carregar ppt "Aplicações de Bioinformática (Epigenética)"

Apresentações semelhantes


Anúncios Google