Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN

Introdução Suponha que tenhamos os dados abaixo a serem agrupados

Introdução De um ponto de vista probabilístico, o objetivo da análise de agrupamentos é encontrar o conjunto de grupos (C) mais provável, dadas as instâncias ou evidências (D) Uma quantidade finita de evidência não é suficiente para se tomar uma decisão segura sobre a pertinência de cada instância a um determinado grupo As instâncias não deveriam ser atribuidas categoricamente a um ou outro grupo De fato, elas deveriam ter um certa probabilidade de pertencer a cada um dos grupos A base para o agrupamento probabiblístico é um modelo chamado de mistura finita (finite mixture)

Mistura Finita Uma mistura é um conjunto de k distribuições de probabilidade (representando k grupos) que governam os valores dos atributos dos seus membros Cada grupo possui uma distribuição de probabilidade diferente Os grupos não precisam ser igualmente prováveis Há uma distribuição de probabilidade que reflete suas populações relativas em que as f i são as distribuições representado os grupos Gaussianas, Poisson, Exponencial,.... Mais comum: Mistura de Gaussianas

Exemplo: Mistura Finita de Duas Gaussianas A B μ A =50, σ A =5, p A =0.6 μ B =65, σ B =2, p A =0.4

Mistura Finita de Gaussianas O processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes. P(D|C i )*P(C i ) ----------------- P(D) P(C i |D) = em que P(D|C i ) é a PDF do grupo C i, avaliada em D (conjunto de dados); P(C i ) é a probabilidade a priori para o grupo C i, e P(D) é a PDF do conjunto de dados (D).

Mistura Finita: Exemplo Um exemplo simples de mistura finita ocorre quando há apenas um atributo numérico cujos valores obdecem uma distribuição normal (gaussiana) para cada grupo Cada distribuição (grupo) possui diferentes médias e variância O problema de agrupamento é Dado um conjunto de instâncias e um número pré-definido de grupos Encontrar a média e a variância de cada grupo, como também a distribuição da população entre os grupos A figura a seguir ilustra um exemplo em que há dois grupos A e B (cada um definido por uma distribuição normal)

Exemplo: Mistura Finita de Duas Gaussianas A B μ A =50, σ A =5, p A =0.6 μ B =65, σ B =2, p A =0.4

Exemplo: Mistura Finita de Duas Gaussianas Dados gerados a partir da mistura Se tivessemos os rótulos disponíveis, poderiamos usar o Naive Bayes para classificar um nova instância P(A|x)=P(x|A)*P(A) ------------ P(x) 2 2 2 )( 2 1 )( x exf P(x|A) ~

Exemplo: Mistura Finita de Duas Gaussianas Suponha que tenhamos disponível o conjunto de dados sem os rótulos dos grupos Como poderiamos determinar os cinco parâmetros que caracterizam o modelo: μ A, σ A, p A, μ B e σ B (p B pode ser determinado diretamente a partir de p A )?

Mistura de Gaussianas No contexto probabilístico, o processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes: P(D|C i )*P(C i ) ----------------- P(D) P(C i |D) = em que P(D|C i ) é a PDF do grupo C i, avaliada em D (conjunto de dados); P(C i ) é a probabilidade a priori para o grupo C i, e P(D) é a PDF do conjunto de dados (D).

Bibliografia Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419. Bookman. Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323. Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp. 645- 678.

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

Apresentações semelhantes

Apresentação em tema: "Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

Apresentações semelhantes

Apresentação em tema: "Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback