A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento.

Apresentações semelhantes


Apresentação em tema: "Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento."— Transcrição da apresentação:

1 Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento

2 Gene Expression Analysis Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições. Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.

3 Gene Expression Analysis Genes codificadores de enzimas que catalisam um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo). A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações. O padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.

4 Micro Arrays probe (on chip) sample (labelled) pseudo-colour image [image from Jeremy Buhler]

5 Micro array Output Image Color-coded spots:

6 Gene Expression Analysis Micro Array Data Matrix:

7 Gene Expression Analysis Diversas técnicas de análise de dados têm sido aplicadas para problemas dessa classe:  Redução de Dimensionalidade: Principal Component Analysis  Clustering: Hierarchical Clustering K-Means  Self-Organizing Maps

8 Redução de Dimensionalidade Vetores de dados biológicos possuem muitas dimensões. Métodos que diminuem a dimensionalidade dos dados facilitam a extração de informações.

9 Redução de Dimensionalidade Principal Component Analysis (PCA):  Método estatístico para projetar pontos de dimensão M num espaço de dimensão K (K << M).  Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.

10 Clustering O que é clusterizar?  Classificar, agrupar, comprimir.

11 Clustering

12 Tipos de dados  Numérico  Relacional  Nominal Similaridade / Distância Número de Clusters

13 Clustering Supervisionado:  Baseado num conjunto de vetores ou classes dados. Não-Supervisionado:  Não existe nenhum conhecimento prévio de classificação. Métodos Híbridos:  Métodos supervisionados utilizando classificações previamente obtidas pela aplicação de um método não-supervisionado.

14 Hierarchical Clustering Algoritmo:  Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.  A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.  Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.

15 Hierarchical Clustering

16 Árvore de Visualização  Problema: Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita. 2 N-1 possibilidades.  Solução: Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar

17 Hierarchical Clustering Desvantagens:  A divisão da árvore em clusters não é clara.  Métodos de classificação usando hierarchical clustering são imprecisos.

18 K-Means Algoritmo:  Inicialização: Defina K; Gere K vetores representantes;  Para cada ponto associe-o ao representante mais próximo.  Para cada representante, redefina sua posição como sendo a média das distâncias dos componentes associados a ele no passo anterior. Caso a variação dos representantes seja menor que um limiar finalize o algoritmo, caso contrário, volte ao passo anterior.

19 K-Means

20 Vantagens:  Fácil implementação  Convergência rápida Desvantagens:  Nem sempre gera uma divisão ótima  Má escolha dos representantes

21 K-Means

22 Self-Organizing Maps Também conhecido como Kohonen Map, foi descrito pela primeira vez como uma rede neural artificial. Parecido com o K-Means. Preserva as propriedade topológicas dos dados. Algoritmo não-supervisionado.

23 Self-Organizing Maps Algoritmo:  Crie um conjunto de nós.  Mapeie-os aleatoriamente pelo espaço de entrada.  A cada iteração escolha um ponto da entrada aleatoriamente e encontre o nó mais próximo a ele.  Este nó e seus vizinhos se moverão em direção a este ponto. A influência do nó escolhido nos vizinhos decresce com relação à distância entre eles e a iteração.

24 Self-Organizing Maps Vantagens:  O algoritmo converge para um mapa de classificação e topologia ótimas.  Possui uma forma muito conveniente para visualização dos dados.  Manipula bem dados não uniformes e irregulares. Desvantagens:  Não tem base teórica para determinar a dimensão ótima.  Pode demorar muitas iterações para convergir (20.000 - 50.000).

25 Gene Clustering A co-expressão de genes sugere que eles são relacionados funcionalmente e que eles são possivelmente co- regulados. A função de muitos genes não- caracterizados podem ser descobertas a partir das funções de genes co- expressados conhecidos.

26 Gene Clustering Os principais objetivos de gene clustering são:  Organização funcional de genes.  Interpretar o estado da célula de acordo com um determinado padrão de expressão gênica.  Deduzir a função de genes desconhecidos.  Explorar a regulação transcripcional.

27 Sample Clustering Verificar a expressão gênica relativa a uma condição fisiológica. Classificar doenças utilizando perfis de expressão gênica baseados em micro- array. Agrupar experimentos de acordo com a similaridade dos perfis. Os clusters identificados podem ser analisados diretamente dos padrões de expressão gênica associados sob perspectivas moleculares ou clínicas.

28 Visualization of Gene Expression Data

29 Applets http://home.dei.polimi.it/matteucc/Clust ering/tutorial_html/AppletH.html http://home.dei.polimi.it/matteucc/Clust ering/tutorial_html/AppletH.html http://home.dei.polimi.it/matteucc/Clust ering/tutorial_html/AppletKM.html http://home.dei.polimi.it/matteucc/Clust ering/tutorial_html/AppletKM.html http://davis.wpi.edu/~matt/courses/som s/applet.html http://davis.wpi.edu/~matt/courses/som s/applet.html

30 Referências Handbook of Computational Molecular Biology (Chapman & Hall/CRC Computer and Information Science Series) Cap. 25; http://compbio.utmem.edu/MSCI814/Module10.htm http://www.ucl.ac.uk/oncology/MicroCore/HTML_res ource/PCA_1.htm http://www.ucl.ac.uk/oncology/MicroCore/HTML_res ource/PCA_1.htm http://en.wikipedia.org/wiki/DNA_microarray http://en.wikipedia.org/wiki/Data_clustering http://en.wikipedia.org/wiki/Self_organizing_maps http://www.autonlab.org/tutorials/kmeans.html


Carregar ppt "Clustering Algorithms for Gene Expression Analysis Adaptado de uma apresentação de Pablo Viana Fagner Nascimento."

Apresentações semelhantes


Anúncios Google