Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouMariana de Oliveira Azeredo Alterado mais de 9 anos atrás
1
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento
2
Roteiro 1. Gene Expression Analysis 2. Redução de Dimensionalidade 3. Clustering 4. Hierarchical Clustering 5. K-Means 6. Self-Organizing Maps 7. Gene Clustering 8. Sample Clustering 9. Região Reguladora 10. Conclusão
3
Gene Expression Analysis Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições. Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.
4
Gene Expression Analysis Genes codificadores de enzimas que catalisam um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo). A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações. Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.
5
Gene Expression Analysis Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe: Redução de Dimensionalidade: Principal Component Analysis Clustering: Hierarchical Clustering K-Means Self-Organizing Maps
6
Redução de Dimensionalidade Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré- processamento.
7
Redução de Dimensionalidade Principal Component Analysis (PCA): Método estatístico para projetar pontos de dimensão M num espaço de dimensão K (K << M). Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.
8
Clustering O que é clusterizar? Classificar, agrupar, comprimir.
9
Clustering
10
Tipos de dados Numérico Relacional Nominal Similaridade / Distância Número de Clusters
11
Clustering Supervisionado: Baseado num conjunto de vetores ou classes dados. Não-Supervisionado: Não existe nenhum conhecimento prévio de classificação. Métodos Híbridos: Métodos supervisionados utilizando classificações previamente obtidas pela aplicação de um método não-supervisionado.
13
Hierarchical Clustering Algoritmo: Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó. A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores. Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.
14
Hierarchical Clustering
15
Árvore de Visualização Problema: Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita. 2 N-1 possibilidades. Solução: Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar
16
Hierarchical Clustering Vantagens / Desvantagens
17
K-Means Algoritmo: Escolhe-se uma quantidade K de elementos representativos, do conjunto de dados. Cada ponto é associado ao ‘cluster’ do representante mais próximo. Novos pontos representantes são calculados pela média ou centro de gravidade do cluster. Os dois últimos procedimentos são repetidos até o sistema convergir.
18
K-Means
19
Vantagens / Desvantagens
20
Self-Organizing Maps Parecido com o K-Means Preserva as propriedade topológicas dos dados Também conhecido como Kohonen Map, foi descrito pela primeira vez como uma rede neural artificial. Algoritmo não-supervisionado
21
Self-Organizing Maps Possui uma forma muito conveniente para visualização dos dados. Manipula bem dados não uniformes e irregulares. Não tem base teórica para determinar a dimensão ótima. Pode demorar muitas iterações para convergir.
22
Self-Organizing Maps
23
Gene Clustering
24
Sample Clustering
26
DNA e Regiões Reguladoras
27
Conclusão
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.