Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.

Slides:



Advertisements
Apresentações semelhantes
Introdução à Programação: uma Abordagem Funcional PD I – Engenharia Elétrica Prof.ª Claudia Boeres 2008/2.
Advertisements

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
INTELIGÊNGIA COMPUTACIONAL
Capítulo 4 PESQUISA QUALITATIVA E QUANTITATIVA.
SISTEMAS DE INFORMAÇÃO GERENCIAL Dados / Informação
Construção e Interpretação das Escalas de Conhecimento
Refatorações Experiência é aquela coisa maravilhosa que permite que você reconheça um erro tão logo o cometa novamente F.P. Jones.
Segmentação de imagens
ANÁLISE DE AGRUPAMENTO
Reconhecimento de Padrões Segmentação
Iana Alexandra Alves Rufino
Quantização de cores em Imagens: o caso do K-means
Agrupamento de Dados: uma Revisão Data Clustering
EQUAÇÕES POLINOMIAIS Prof. Marlon.
SISTEMAS LINEARES II Prof. Marlon.
Projeto da Camada de Domínio
Atividade R05 Grupo 3 Turma 19.
Introdução aos Sistemas de Controle
INF 1771 – Inteligência Artificial
3 - Equações Lineares de Segunda Ordem
Estratégia Universidade de Brasília Faculdade de Ciência da Informação
A tomada de decisão pode ser centralizada ou descentralizada.
Teoria da Produção Em cada momento no tempo existe um conjunto de técnicas produtivas, ou tecnologias, que permite produzir determinado produto, a partir.
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Aula prática 6 Vetores e Matrizes
Caracterização de consumos
K-Means / Clustering.
Número de grupos Grupos constituem uma proposição sobre a organização básica e desconhecida dos dados; Os algoritmos de agrupamento não apresentam solução.
Treinamento do Microsoft® Access® 2010
Introdução Ao Marketing
1 - Equações Diferenciais Ordinárias
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
EQUILÍBRIO QUÍMICO.
Aula 6 - Método não-experimental ou de seleção não-aleatória
Interpretando as Escrituras Sagradas
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Profa. Flávia Santos Metodologia da Pesquisa Extraído de: Roesch, Yin e metodologia da UFPR e UFSC Profa. Flávia Santos
Análise de padrões de uso em grades computacionais oportunistas
O COMPORTAMENTO DOS CONSUMIDORES X IDENTIDADE CULTURAL
Professor: Fábio Campos UFPE Aula 08 :: Técnicas Criativas para Geração e Seleção de Alternativas.
ANÁLISE ESTATÍSTICA II
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
INE Fundamentos de Matemática Discreta para a Computação
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Recuperação Inteligente de Informação
Análise Multivariada BioEstat
ANÁLISE DE INVESTIMENTOS PROFESSOR: PIERRE LUCENA
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
As bases da ciência moderna
Descrição Bivariada Comparando Duas Distribuições
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
Estática Estática Histórico
Análise de Componentes Principais
Demanda por moeda 4.1 Conceitos:
Introdução – Origens Em 1958 A. W. Phillips apresentou um gráfico que mostrava a taxa de inflação vis s vis a taxa de desemprego no Reino Unido entre.
Gerenciamento de riscos
AULA 6 Planejamento Experimental
Avaliação de empresas por múltiplos aplicados em empresas agrupadas com análise de cluster Autores CLOVIS GRIMALDO COUTO JÚNIOR FERNANDO CAIO GALDI Acadêmicos.
Marketing de Relacionamento CARLOS FREIRE – Estratégia de Marketing e Posicionamento Competitivo – Hooley, Saunders e Piercy – Prentice Hall.
Aula 6 – Sistemas Lineares
Desvio Padrão (V), em termos financeiros, é entendido como o valor do risco das operações. É obtido a partir da raiz quadrada da Variância; Variância (V²),
Pesquisa de Mercado Carlos Freire –
Nossos 2 olhos formam imagens ligeiramente diferentes do mundo A diferença entre as posições de objetos nas 2 images é chamada de disparidade O termo disparidade.
Questionário (Básico) Autor: Skyup Informática. Atividade - Questionário O módulo permite criar uma série de questões, que deverão ser respondida pelos.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
NOVAS TENDÊNCIAS NA CAPTAÇÃO E SELEÇÃO DE TALENTOS: do paradigma tradicional ao moderno Em que o tradicional paradigma de recrutamento e seleção de pessoas.
Transcrição da apresentação:

Análise de Agrupamentos Marcílio Souto DIMAp/UFRN

O que é Análise de Agrupamentos? A análise de agrupamentos “classifica” objetos (instâncias) de modo que cada objeto é muito semelhante aos outros no agrupamento (grupo ou cluster) em relação a algum critério de seleção pré-determinado Os grupos resultantes de objetos deve exibir elevada homogeneidade interna (dentro dos grupos) e elevada heterogeneidade externa (entre grupos)

Formalmente,....

Exemplo (1/2) V1 V2 D

Exemplo (2/2) V1 V2 C1 C2 C3

Aplicações Exemplo –Se podemos entender as atitudes de uma população (e.g, clientes de um banco) pela identificação (descoberta) dos principais grupos dentro da população, então reduzimos os dados para população inteira em perfis de alguns grupos Desempenho de empresas, subclasses de doenças, padrões de compra,.... –Descrição mais concisa e compreensível dos objetos (instâncias).

Como funciona a análise de agrupamentos? (1/2) Suponha que um pesquisador de marketing queira determinar segmentos de mercado em uma comunidade com base em seus padrões de lealdade a marcas e lojas Uma pequena amostra de sete respondentes é selecionada –Duas medidas de lealdade - V1 (lealdade à loja) e V2 (lealdade à marca) - foram feitas para cada respondente em uma escala de 0 a 10

Como funciona a análise de agrupamentos? (2/2) O objetivo principal da análise de agrupamentos é definir a estrutura dos dados colocando observações (instâncias ou objetos) mais parecidas em grupos Mas para conseguir isso, devemos abordar três questões básicas –Como medir a similaridade? Correlação, Distância, Medida de Associação,... –Como formamos os grupos (clusters)? Não importa apenas medir a similaridade, deve haver um procedimento para agregar as observações mais similares em grupos –Quantos grupos formamos? Compromisso entre menos grupos e mais homogeneidade

Medida de Similaridade: Distância Euclidiana

Formação de Grupos Como já temos a medida de similaridade, devemos desenvolver um procedimento para formar grupos Para nosso propósito, usaremos uma regra simples: –Identifique as duas observações mais semelhantes (mais próximas) que ainda não estão no mesmo grupo e combine seus grupos –Aplicamos essa regra repetidamente, começando com cada observação em seu próprio grupo e combinando dois grupos por vez, até que todas as observações estejam em um único grupo –Procedimento Hierárquico e Aglomerativo

Formação de Grupos: Passo 1 1 E F

Formação de Grupos: Passo E F G

Formação de Grupos: Passo E F G DC

Formação de Grupos: Passo E F G DC B

Formação de Grupos: Passo E F G B CD

Formação de Grupos: Passo E F G B C D A

Representação de um Agrupamento Hierárquico Uma abordagem comum para representar um agrupamento hierárquico é o dendograma O eixo horizontal representa o coeficiente de aglomeração, nesse caso a distância usada para unir grupos

Determinação do número de grupos da solução final Um método hierárquico resulta em diversas soluções de agrupamentos (partições) –No caso do exemplo anterior, elas variam de um a seis grupos Qual devemos escolher? –Sabemos que quando nos afastamos de grupos unitários, a homogeneidade diminui –Então, por que não ficamos com sete grupos, a opção mais homogênea possível? –O problema é que não definimos qualquer estrutura com sete grupos –Assim, devemos devemos verificar cada solução para a sua descrição de estrutura versus a homogeneidade dos grupos

Determinação do número de grupos da solução final Para fins de ilustração, no nosso exemplo foi usada uma medida muito simples homogeneidade: –As distâncias médias de todas as observações dentro dos grupos

Solução Inicial Na solução inicial com sete grupos, essa medida de similaridade geral é 0 (nenhum observação faz par com alguma outra)

Passo 1 Nesse passo, a similaridade média (1,414) é a distância entre as duas observações reunidas (E-F)

Passo 2 Um agrupamento de três elementos (E, F e G) é formado –A medida de similaridade geral é a média das distâncias entre E e F (1,414), e E e G (2,000), e F e G (3,162), que nos dá 2,192 Aumento do valor da similaridade geral, em relação ao passo anterior

Passo 3 No Passo 3, um novo grupo de dois membros é formado com a distância 2,000 Ligeira diminuição do valor da similaridade geral, em relação ao passo anterior

Passo 4 Ligeira alteração do valor da similaridade geral, em relação ao passo anterior Isto significa que estamos gerando outros grupos essencialmente com a homogeneidade dos grupos existentes

Passo 5 Combinação de dois grupos com três observações. Grande aumento no valor da similaridade geral, em relação ao passo anterior Isso é indicativo de que reunir esses dois grupos resultou em um agregado que é bem menos homogêneo Segundo a nossa medida, poderíamos considerar a solução do Passo 4 muito melhor do que esta

Passo 6 Nesse passo, a medida geral novamente aumenta consideravelmente Ou seja, a observação “A” mesmo sozinha ainda foi capaz de mudar a homogeneidade do agrupamento. Observação atípica? Portanto, segundo a nossa medida, ainda consideraríamos a solução do Passo 4 muito melhor do que esta

Pré-Proc Alg. Clustering Interpretação Validação Conhecimento Dados Partição Passos na Análise de Agrupamentos

Medidas de Similaridade Marcilio Souto DIMAp/UFRN

Medidas de Similaridade A similaridade entre objetos (instâncias) é uma medida de correspondência ou semelhança entre objetos a serem agrupados Ela pode ser medida de diversas formas –Medidas Correlacionais (e.g., correlação de Pearson) –Medidas de Distância (e.g., distância euclidiana) –Medidas de Associação (e.g., índice de Jaccard) Cada uma dessas formas representa uma perspectiva particular da similaridade, dependendo de seus objetivos e do tipo de dados Tanto as medidas correlacionais quanto as medidas de distância requerem dados métricos, ao passo que as medidas de associação são para dados não-métricos

Medidas Correlacionais Medidas correlacionais representam similaridades pela correspondência de padrões ao longo dos atributos –Ela não olha a magnitude do valores dos atributos, apenas o padrão global de valores

Exemplo

Medidas Correlacionais As instâncias 1, 5 e 7 têm padrões semelhantes e correlação (positiva) alta Da mesma forma instâncias 2, 4 e 6 A instância 3 tem correlação baixa ou negativas com todas as demais, de modo que talvez forme um grupo por si mesma Portanto, as correlações representam padrões ao longo dos atributos, muito mais do que as magnitudes

Medidas de Distância Representam a similaridade como a proximidade entre observações (instâncias) ao longo dos atributos As medidas de distância são, na verdade, uma medida de dissimilaridade, em que os valores maiores denotam menor similaridade A distância é convertida em similaridade pelo uso da relação inversa (1 - distância)

Medidas de Distância: Exemplo Distância Euclidiana

Distância versus Correlação As medidas de distância se concentram na magnitude dos valores e representam casos similares que estão próximos, mas podem ter padrões muito diferentes ao longo dos atributos No caso do exemplo anterior, vemos emergir grupos muitos diferentes quando a distância é considerada em lugar da correlação Como as distâncias menores representam maior similaridade, percebemos que as instâncias 1 e 2 formam um grupo e as instâncias 4, 5, 6 e 7 formam outro Um terceiro grupo, que consiste apenas do caso 3, difere dos outros dois porque possui valores que são tantos altos quanto baixos

Distância versus Correlação Agrupamentos baseados em medidas correlacionais podem não ter valores similares, mas sim padrões similares Agrupamentos baseados em distância têm valores mais similares no conjunto de atributos, mas os padrões podem ser bem diferentes