A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.

Apresentações semelhantes


Apresentação em tema: "Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação."— Transcrição da apresentação:

1 Marcus Sampaio DSC/UFCG

2 Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação não supervisionada define dinamicamente o atributo de classificação e as classes –Algoritmos de lógica muito complexa

3 Marcus Sampaio DSC/UFCG O objetivo é mostrar as instâncias caem dentro de um grupo (cluster) –Um grupo podia ser clientes que compram muito equipamentos eletrônicos Os algoritmos de clustering diferem –Na forma como os grupos são visualizados –Na precisão com que os grupos são definidos Lógica de Clustering

4 Marcus Sampaio DSC/UFCG Visualização de Grupos a d k j h e c b g i f

5 Marcus Sampaio DSC/UFCG Visualização de Grupos (2) a d k j g e h c i f b Note que uma instância pode pertencer a mais de um grupo

6 Marcus Sampaio DSC/UFCG O estágio de agrupamento (clustering) é muitas vezes seguido de outro estágio –Dado um grupo, uma árvore de decisão ou um conjunto de regras de classificação são inferidas para o grupo (definição do grupo) Semântica de Grupos

7 Marcus Sampaio DSC/UFCG Algoritmo CobWeb Técnica incremental de agrupamento Atributos nominais Agrupamentos hierárquicos de instâncias Category Utility –Medida de qualidade de um grupo

8 Marcus Sampaio DSC/UFCG EstadoTempUmidVentoJogo ensolquentealtafalsonão (a) ensolquentealtaverdadenão (b) nubladoquentealtafalsosim (c) chuvosoamenaaltafalsosim (d) chuvosofrianormalfalsosim (e) chuvosofrianormalverdadenão (f) nubladofrianormalverdadesim (g) ensolamenaaltafalsonão (h) ensolfrianormalfalsosim (i) Algoritmo CobWeb (2)

9 Marcus Sampaio DSC/UFCG chuvosoamenanormalfalsosim (j) ensolamenanormalverdadesim (k) nubladoamenaaltaverdadesim (l) nubladoquentenormalfalsosim (m) chuvosoamenaaltaverdadenão (n) Algoritmo CobWeb (3)

10 Marcus Sampaio DSC/UFCG a:não b:nãod:simc:sim e:sim a:nãob:nãod:simc:sim f:não (1)(2) (3) Algoritmo CobWeb (4)

11 Marcus Sampaio DSC/UFCG e:sim a:nãob:nãod:simc:sim f:não (4) g:sim Algoritmo CobWeb (5)

12 Marcus Sampaio DSC/UFCG e:sima:não c:simb:não f:não (5) g:simd:simh:não Algoritmo CobWeb (6)

13 Marcus Sampaio DSC/UFCG e:sim a:não i:sim b:não f:não (6) g:sim d:simh:não k:sim l:simc:sim n:não j:sim m:sim 1 23 4 56 7 Algoritmo CobWeb (7)

14 Marcus Sampaio DSC/UFCG EstadoTempUmidVentoJogo ensolquentealtafalsonão (a, 1-2- 4) ensolquentealtaverdadenão (b), 1-2- 5-7 nubladoquentealtafalsosim (c), 1-2- 5 chuvosoamenaaltafalsosim (d, 1-2- 4) chuvosofrianormalfalsosim (e), 1-3- 6 chuvosofrianormalverdadenão (f), 1-3 nubladofrianormalverdadesim (g), 1-3 ensolamenaaltafalsonão (h, 1-2- 4) ensolfrianormalfalsosim (i), 1-3-6 Algoritmo CobWeb (8)

15 Marcus Sampaio DSC/UFCG chuvosoamenanormalfalsosim (j), 1-3 ensolamenanormalverdadesim (k), 1-2- 5-7 nubladoamenaaltaverdadesim (l), 1-2-5 nubladoquentenormalfalsosim (m), 1-3 chuvosoamenaaltaverdadenão (n), 1-3 Algoritmo CobWeb (9)

16 Marcus Sampaio DSC/UFCG Algoritmo CobWeb (10) Aplicando um algoritmo de classificação, pode-se inferir a semântica dos grupos –1-2-4 –1-2-5-7 –1-2-5 –1-3-6 –1-3

17 Marcus Sampaio DSC/UFCG Algoritmo CobWeb (11) Para ver como a qualidade — category utility — de um grupo é calculada, consulte o livro- texto

18 Marcus Sampaio DSC/UFCG Algoritmo CobWeb (12) Como fazer predição com um modelo induzido por um algoritmo clustering? –Dada uma instância de execução, um algoritmo classifica a instância como pertencendo a um ou mais grupos O algoritmo ‘conhece’ os “clusters” induzidos por CobWeb O algoritmo ‘sabe’ interpretar os “clusters”

19 Marcus Sampaio DSC/UFCG “Clustering” de Documentos Organiza uma coleção de documentos  sem rótulos: classificação não-supervisionada  em Grupos (“Clusters”) –Um “cluster” deve conter documentos similares O critério de similaridade é baseado no exame das palavras comuns aos documentos Documentos com os mesmos rótulos lógicos

20 Marcus Sampaio DSC/UFCG “Clustering” de Documentos (2) Clusters D5 D1 D3 D8 D11D6 D12 D7 D2 D3 D9 D4 D10 D2 D6 D5 D3 D1 D11 D9 D4 D12 D7D10 D6

21 Marcus Sampaio DSC/UFCG Identificação de “clusters” –Em geral, os algoritmos de “clustering” numeram sequencialmente os “clusters” (1, 2, 3,...) O significado? TMSK: Coleção de palavras relevantes para um “cluster” São úteis? Exemplo: “Call Center” de uma Empresa de Produtos de Informática –Usuários submeteram problemas, ao longo do tempo –Classificação não-supervisionada “Cluster” 1: problemas de impressora “Cluster” 2: problemas de rede... –O que conseguimos com a classificação? Entender os tipos de problema submetidos Priorização de problemas: tamanho dos “clusters” “Clustering” de Documentos (3)

22 Marcus Sampaio DSC/UFCG Identificação não-manual de “clusters” –Necessária se os “clusters” forem grandes 1.Classificação supervisionada Cada documento recebe como rótulo o número do seu “cluster” As regras  conjunção de palavras  de definição dos números são então induzidas por qualquer algoritmo de classificação supervisionada 2.Geração de um dicionário local a cada “cluster” “Clustering” de Documentos (4)

23 Marcus Sampaio DSC/UFCG Algoritmo “k-Means Clustering” –A lógica “Clustering” de Documentos (5) Documento 1 Documento 2 Calcule a similaridade Escore de Similaridade

24 Marcus Sampaio DSC/UFCG Algoritmo “k-Means Clustering” “Clustering” de Documentos (6) --- Documentos --- --- “Clusters” ---

25 Marcus Sampaio DSC/UFCG Algoritmo “k-Means Clustering” 1.Distribute all documents among the k bins 2.Compute the mean vector for each bin 3.Compare the vector of each document to the bin means and note the mean vector that is most similar 4.Move all documents to their most similar bins 5.If no document has been moved to a new bin, then stop; else go to step 2 “Clustering” de Documentos (7)

26 Marcus Sampaio DSC/UFCG Algoritmo “k-Means Clustering” –Exemplo 2 “clusters” 5 documentos Vetores para uma única palavra, freqüência “Clustering” de Documentos (8) “Cluster” 1“Cluster” 2 Initial: Step 1: Step 2: Step 3: 0,4,2,3,4 0,42,3,4 0,24,3,4 0,24,3,4 Mean=2Mean=3 Mean=1Mean=3.67 Mean=1Mean=3.67

27 Marcus Sampaio DSC/UFCG Algoritmo “k-Means Clustering” –Como para o algoritmo “k-Nearest Neighbor”, como escolher k? Ver discussão no livro “Text Mining”, seção 5.2.1 “k- Means Clustering” “Clustering” de Documentos (9)

28 Marcus Sampaio DSC/UFCG Outros Algoritmos (ver livro “Text Mining”) –“Centroid Classifier” –“Expectation Maximization” (EM) “Clustering” de Documentos (10)

29 Marcus Sampaio DSC/UFCG O Software TMSK –“Clustering” kmeans –Identificação dos “clusters”: palavras do dicionário mais freqüentes em cada “cluster” Dicionário local ao “cluster –Similaridade matcher –Funciona como uma máquina de busca, mostrando os documentos mais similares a um certo documento “Clustering” de Documentos (11)


Carregar ppt "Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação."

Apresentações semelhantes


Anúncios Google