Técnicas Estatísticas de Agrupamento Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Disciplina: EAD 351 Técnicas Estatísticas de Agrupamento
Aplicação no PASW Statistics
Exemplo 3
Considere o exemplo de uma analista de gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos.
Neste exemplo será utilizado o software PASW Statistics versão 18.
Importar a Base de Dados
Para importar um arquivo clicar em File, localizar o arquivo no computador e clicar em open.
Caso a primeira linha do arquivo a ser importado tiver o nome das variáveis deixar a opção que está marcada selecionada e clicar em OK.
O PASW Statistics importou de forma adequada a a base de dados.
Clicar em Variable View para verificar o tipo de cada variável.
A variável candidato é uma string e não uma variável numérica A variável candidato é uma string e não uma variável numérica. Para trocar o tipo de variável clicar em TYPE , selecionar o tipo desejado e clicar em OK.
Agora a variável candidato é uma string.
Cluster Hierárquico
Selecionar Analyze , Classify e Hierarchical Cluster
Selecionar as variáveis que deverão ser utilizadas para formar os grupos e selecionar a variável Label.
As variáveis que deverão ser utilizadas para formar os grupos e a variável Label foram selecionadas.
No menu Statistics, Fazer estas seleções :
No menu Plots. Fazer estas seleções :
No menu Method, Selecionar um dos métodos de agrupamento
Neste exemplo selecionar o vizinho mais próximo (Nearest Neighbor )
No menu Method, Selecionar uma das medidas
Neste exemplo selecionar a Distância Euclidiana
Após a seleção das opções clicar em ok
O PASW Statistics gera um output com todos os resultados.
Número de elementos da base de dados e a matriz com as distâncias Euclidianas.
O PASW Statistics mostra quais os elementos que foram agrupados e em que distância. No estágio 1, o elemento 1 foi agrupado ao elemento 2 na distância 2,236. No estágio 2, o elemento 3 foi agrupado ao elemento 4 na distância 5,657. No estágio 3, o grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. No estágio 4, o grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00.
Dendrograma O PASW Statistics gera o dendograma. Neste dendograma o PASW Statistics não apresenta no eixo vertical as distâncias euclidianas originais. O PASW Statistics faz uma mudança de escala. Dendrograma
Exercício
1 – Considerando a matriz de distância quais os 2 Pokemons mais parecidos? ENTREGAR
2 – Faça o dendograma ENTREGAR
Banco de Dados: MCDONALDS.xls Exemplo 4 Banco de Dados: MCDONALDS.xls
Neste exemplo pretende-se agrupar os lanches do Mcdonalds de acordo com as variáveis apresentadas.
Método Hierárquico
As variáveis que deverão ser utilizadas no cluster foram selecionadas e a variável Label foi selecionada.
No menu Statistics, Fazer estas seleções :
No menu Plots, Fazer estas seleções :
Método Hierárquico Vizinho mais próximo (Nearest neighbor)
Selecionar: Cluster Method: Vizinho mais próximo (Nearest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas).
A variável padronizada é denominada Z. X: variável aleatória com média e desvio padrão S Z: variável aleatória padronizada com média 0 e variância 1.
Dendrograma
base de dados: MCdonalds1.xls Exercício 1 base de dados: MCdonalds1.xls
Considerando as variáveis padronizadas, o método da centróide e a matriz de distância Euclidiana , faça o dendograma. Obtenha 5 grupos com a base de dados: MCdonalds1.xls 1 – Quais os lanches estão em cada grupo. Responder com o número do lanche e não com o nome. Considerar a formação da esquerda para a direita: Grupo 1: Grupo 2: Grupo 3: Grupo 4: Grupo 5: ENTREGAR
Exercício 2 base de dados: POKEMON1.xls
Todas as variáveis devem estar como : ESCALA.
Considerando as variáveis padronizadas, o método do vizinho mais distante e a matriz de distância Euclidiana, faça o dendograma. Obtenha 4 grupos com a base de dados: POKEMON1.xls. Considerar a formação da esquerda para a direita. 1 – Quais elementos (Pokemon) estão em cada grupo ? ENTREGAR
ENTREGAR Abrir a base de dados no excel. Considerar as variáveis originais e não as variáveis padronizadas. 2 – Complete a tabela abaixo com a média da variável para cada grupo. Caracterize os grupos. ENTREGAR