Agrupamento (clustering) Tarefa descritiva que agrupa exemplos (objetos) de acordo com suas características Objetivo: agrupar objetos em clusters (agrupamentos) de modo que objetos pertencentes a um mesmo cluster são mais similares entre si de acordo com alguma medida de similaridade pré-definida, enquanto que objetos pertences a clusters diferentes têm uma similaridade menor Consumo de um carro em função de suas características Valor de um imóvel em função das características dele e do bairro
Tarefas de MD Data Mining Atividade Preditiva Atividade Descritiva Classificação Regressão Regras de Associação Clustering Sumarização
Agrupamento Tarefa de aprendizado não-supervisionado: Exemplos não estão rotulados – não existe uma classe conhecida considerada o atributo meta
Exemplo 1 2 3 4 5 6 xk1 xk2
Examplo – conjunto de dados 1) 0.5 3 16) 6 8 31) 6.5 7.5 2) 1 17) 7 32) 4 2 3) 18) 10 33) 4) 19) 10.5 34) 5) 20) 35) 6) 2.5 21) 9.5 36) 7) 1.5 22) 37) 5 8) 23) 38) 9) 24) 39) 10) 25) 40) 11) 26) 3.5 41) 12) 9 27) 42) 13) 28) 43) 14) 29) 44) 15) 30) 45)
Processo de agrupamento 1. seleção de exemplos e seleção ou construção de atributos seleciona atributos relevantes ou constroi atributos representativos 2. Similaridade entre exemplos seleciona a medida de similaridade a ser utilizada, que deve ser adequada ao domínio 3. Agrupamento aplicação do algoritmo de agrupamento
Medidas de similaridade medidas de distância (para dados contínuos) medidas de correlação medidas de associação (para dados discretos)
Medidas de distância atributos dos exemplos são considerados como dimensões de um espaço multidimensional cada exemplo corresponde a um ponto no espaço similaridade entre dois pontos é a distância entre eles
Medidas de distância Manhattan/city-block D(x,y) = ∑(abs(xi – yi)) formato do cluster encontrado: 0,0
D(x,y) = SQRT(∑(xi – yi)2) Medidas de distância euclidiana D(x,y) = SQRT(∑(xi – yi)2) formato do cluster encontrado: 0,0
Formatos de clusters Manhattan Euclidiana Chebychev Mahalanobis
Algoritmo k-means usuário define previamente o número k de partições repetir até que os cluster se estabilizem: Escolher aleatoriamente k pontos que serão os centros dos clusters iniciais – centróides determinar para cada exemplo do conjunto de dados, o cluster ao qual ele pertence, calculando a distância entre o exemplo e o centro do cluster calcular um novo centróide para cada cluster, que passa a ser o novo centro (os pontos iniciais não são os centros definitivos dos clusters, mas sim uma tentativa inicial)