Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Estatística Dados valores (amostras) de variáveis aleatórias X1, X2, ..., Xn, cuja distribuição conjunta é desconhecida, inferir propriedades desta distribuição.
1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.
Algoritmos para Geração de Variáveis Aleatórias
CAPÍTULO 7 TESTE DE HIPÓTESE
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
ANÁLISE DISCRIMINANTE LIG, 13 de novembro de 2008.
ANÁLISE DISCRIMINANTE
Cássio Luís Fernandes de Oliveira
CAPÍTULO 7 TESTE DE HIPÓTESE
Análise Discriminante
Reconhecimento de Padrões Revisão de Probabilidade e Estatística
Reconhecimento de Padrões Teoria da Decisão Bayesiana
Capítulo 6 Estimativas e Tamanho de Amostras
Jacques Robin, Francisco Carvalho, Flávia Barros
Agrupamento de Dados: uma Revisão Data Clustering
Variáveis Aleatórias Contínuas
Análise de Dados.
TE – PROBABILIDADE E PROCESSOS ESTOCÁSTICOS
Objetivo Definições Cálculo do teste Exemplo Comentários Bibliografia
ANOVA Prof. Herondino.
CAPÍTULO I- TEORIA DAS PROBABILIDADE
Aprendizagem de Máquina - Agrupamento
Professora Francisca Barros
Teste de Hipóteses para a média, caso de grande amostra
VALORES ESPERADOS.
FUNÇÃO CARACTERÍSTICA
Função de uma Variável Aleatória
Distribuições discretas
Estatística e Probabilidade
DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS
DISTRIBUIÇÕES AMOSTRAIS
Distribuição T - Student
Avaliação de Clusteres Parte II
Aprendizado de Máquina Prof.: Dino R. C. Franklin Aluno.: Thiago Fialho Q. L.
Site: Estatística Prof. Edson Nemer Site:
ANÁLISE ESTATÍSTICA II
Distribuição Normal Prof. Herondino.
Distribuição da Proporção Amostral
ANÁLISE ESTATÍSTICA II
ANÁLISE ESTATÍSTICA II
ANÁLISE ESTATÍSTICA II
Teste de Hipótese.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Clique para editar o estilo do título mestre Clique para editar o estilo do subtítulo mestre 1 Seminário: Disciplina: Probabilidade e Inferência Professor:
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Intervalo de Confiança Camilo Daleles Rennó
COMPARAÇÃO DE DUAS POPULAÇÕES
1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Validação de Agrupamentos
Distribuição da Amostra
Apresenta:.
Capítulo 4 As distribuições de probabilidade mais importantes em controle estatístico de qualidade (CEQ): atributos Sumário 4.1 Introdução 4.2 Distribuição.
Laboratório de Física Corpuscular - aula expositiva IF - UFRJ1 Algumas Distribuições de Probabilidade e Estatística de Contagem Prof. Marcelo.
PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA
DISTRIBUIÇÕES DE PROBABILIDADE
III - Amostragem Prof. Herondino.
Probabilidade Modelos de Distribuições Contínuas:
INTERVALOS DE CONFIANÇA
MEDIDAS DE DISPERSÃO Profa Ana Clara Guedes. MEDIDAS DE DISPERSÃO Observe os dois quadros abaixo e compare a Dispersão dos pontos azuis, em torno do ponto.
DETEÇÃO E ESTIMAÇÃO Aula 20: Estimação Paramétrica Clássica.
Modelos de distribuições discretas de probabilidade
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Métodos Probabilísticos
Estatística Aplicada à Adminitração Prof. Alessandro Moura Costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
Transcrição da apresentação:

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN

Introdução Suponha que tenhamos os dados abaixo a serem agrupados

Introdução De um ponto de vista probabilístico, o objetivo da análise de agrupamentos é encontrar o conjunto de grupos (C) mais provável, dadas as instâncias ou evidências (D) Uma quantidade finita de evidência não é suficiente para se tomar uma decisão segura sobre a pertinência de cada instância a um determinado grupo As instâncias não deveriam ser atribuidas categoricamente a um ou outro grupo De fato, elas deveriam ter um certa probabilidade de pertencer a cada um dos grupos A base para o agrupamento probabiblístico é um modelo chamado de mistura finita (finite mixture)

Mistura Finita Uma mistura é um conjunto de k distribuições de probabilidade (representando k grupos) que governam os valores dos atributos dos seus membros Cada grupo possui uma distribuição de probabilidade diferente Os grupos não precisam ser igualmente prováveis Há uma distribuição de probabilidade que reflete suas populações relativas em que as f i são as distribuições representado os grupos Gaussianas, Poisson, Exponencial,.... Mais comum: Mistura de Gaussianas

Exemplo: Mistura Finita de Duas Gaussianas A B μ A =50, σ A =5, p A =0.6 μ B =65, σ B =2, p A =0.4

Mistura Finita de Gaussianas O processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes. P(D|C i )*P(C i ) P(D) P(C i |D) = em que P(D|C i ) é a PDF do grupo C i, avaliada em D (conjunto de dados); P(C i ) é a probabilidade a priori para o grupo C i, e P(D) é a PDF do conjunto de dados (D).

Mistura Finita: Exemplo Um exemplo simples de mistura finita ocorre quando há apenas um atributo numérico cujos valores obdecem uma distribuição normal (gaussiana) para cada grupo Cada distribuição (grupo) possui diferentes médias e variância O problema de agrupamento é Dado um conjunto de instâncias e um número pré-definido de grupos Encontrar a média e a variância de cada grupo, como também a distribuição da população entre os grupos A figura a seguir ilustra um exemplo em que há dois grupos A e B (cada um definido por uma distribuição normal)

Exemplo: Mistura Finita de Duas Gaussianas A B μ A =50, σ A =5, p A =0.6 μ B =65, σ B =2, p A =0.4

Exemplo: Mistura Finita de Duas Gaussianas Dados gerados a partir da mistura Se tivessemos os rótulos disponíveis, poderiamos usar o Naive Bayes para classificar um nova instância P(A|x)=P(x|A)*P(A) P(x) )( 2 1 )( x exf P(x|A) ~

Exemplo: Mistura Finita de Duas Gaussianas Suponha que tenhamos disponível o conjunto de dados sem os rótulos dos grupos Como poderiamos determinar os cinco parâmetros que caracterizam o modelo: μ A, σ A, p A, μ B e σ B (p B pode ser determinado diretamente a partir de p A )?

Mistura de Gaussianas No contexto probabilístico, o processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes: P(D|C i )*P(C i ) P(D) P(C i |D) = em que P(D|C i ) é a PDF do grupo C i, avaliada em D (conjunto de dados); P(C i ) é a probabilidade a priori para o grupo C i, e P(D) é a PDF do conjunto de dados (D).

Bibliografia Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp Bookman. Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp