Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.

Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Roteiro 1. Gene Expression Analysis 2. Redução de Dimensionalidade 3. Clustering 4. Hierarchical Clustering 5. K-Means 6. Self-Organizing Maps 7. Gene Clustering 8. Sample Clustering 9. Região Reguladora 10. Conclusão

Gene Expression Analysis Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições. Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.

Gene Expression Analysis Genes codificadores de enzimas que catalisam um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo). A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações. Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.

Gene Expression Analysis Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe:  Redução de Dimensionalidade: Principal Component Analysis  Clustering: Hierarchical Clustering K-Means  Self-Organizing Maps

Redução de Dimensionalidade Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré- processamento.

Redução de Dimensionalidade Principal Component Analysis (PCA):  Método estatístico para projetar pontos de dimensão M num espaço de dimensão K (K << M).  Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.

Clustering O que é clusterizar?  Classificar, agrupar, comprimir.

Clustering

Tipos de dados  Numérico  Relacional  Nominal Similaridade / Distância Número de Clusters

Clustering Supervisionado:  Baseado num conjunto de vetores ou classes dados. Não-Supervisionado:  Não existe nenhum conhecimento prévio de classificação. Métodos Híbridos:  Métodos supervisionados utilizando classificações previamente obtidas pela aplicação de um método não-supervisionado.

Hierarchical Clustering Algoritmo:  Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.  A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.  Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.

Hierarchical Clustering

Árvore de Visualização  Problema: Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita. 2 N-1 possibilidades.  Solução: Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar

Hierarchical Clustering Vantagens / Desvantagens

K-Means Algoritmo:  Escolhe-se uma quantidade K de elementos representativos, do conjunto de dados.  Cada ponto é associado ao ‘cluster’ do representante mais próximo.  Novos pontos representantes são calculados pela média ou centro de gravidade do cluster.  Os dois últimos procedimentos são repetidos até o sistema convergir.

K-Means

Vantagens / Desvantagens

Self-Organizing Maps Parecido com o K-Means Preserva as propriedade topológicas dos dados Também conhecido como Kohonen Map, foi descrito pela primeira vez como uma rede neural artificial. Algoritmo não-supervisionado

Self-Organizing Maps Possui uma forma muito conveniente para visualização dos dados. Manipula bem dados não uniformes e irregulares. Não tem base teórica para determinar a dimensão ótima. Pode demorar muitas iterações para convergir.

Self-Organizing Maps

Gene Clustering

Sample Clustering

DNA e Regiões Reguladoras

Conclusão

Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.

Apresentações semelhantes

Apresentação em tema: "Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.

Apresentações semelhantes

Apresentação em tema: "Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback