A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizado não-supervisionado

Apresentações semelhantes


Apresentação em tema: "Aprendizado não-supervisionado"— Transcrição da apresentação:

1 Aprendizado não-supervisionado
Algoritmos de Agrupamento Hierárquico, K-Means e ISODATA Julio Cesar Duarte

2 Algoritmos de agrupamento
Partição em grupos Inter-similaridade alta Intra-similaridade baixa

3 Exemplo Dendograma

4 Tipos de agrupamento Estrutura Propriedade Hierárquico
Agrupamentos são sub-classes de outros Não-hierárquico ou flat Sem relação entre agrupamentos Propriedade Estrito Objeto x Agrupamento (1xN) Livre Probabilidade de pertencer (Incerteza, multiplicidade)

5 Tipos de agrupamento Hierárquico <--> Estrito
Não-hierárquico <--> Estrito ou Livre

6 Características Hierárquico Não-hierárquico Análise detalhada
Mais informação Vários algoritmos ótimos Menos eficiente Não-hierárquico Mais eficiente Métodos simples Resultados suficientes

7 Agrupamento hierárquico
Estratégias: Bottom-up: Objetos se agrupando Algoritmo Aglomerativo Top-Down: Grande agrupamento sendo dividido Algoritmo Divisivo

8 Notação X – Conjunto de objetos n – Tamanho de X
C – Conjunto de agrupamentos sim – Função de similaridade sim(x,y) = 1/(1+d(x,y)) Monotônica Sim (c, c1 U c2) ≤ min(Sim (c, c1), Sim (c, c2)) coh – Função de coerência Coh(c) ?x1,x2εcsim(x1,x2)

9 Algoritmo Aglomerativo
C = X while len(C)>1: [c1, c2] = argmaxc1,c2εC Sim(c1, c2) cj = [c1, c2] C.remove(c1) C.remove(c2) C.append(cj)

10 Algoritmo Divisivo C = [X] while з i  C[i]>1:
cj = argmin cjεC coh(cj) [cj1, cj2] = dividir(cj) C.remove(cj) C.append(cj1) C.append(cj2)

11 Funções de similaridade
Ligação simples: Similaridade dos dois membros mais similares Ligação completa Similaridade dos dois membros menos similares Média grupal Média das similaridades dos membros

12 Simples x Completa

13 Simples Completa

14 Simples x Completa Simples: Completa: Coerência local
Agrupamentos alongados ou efeito da corrente Relação com AGm Remove maior aresta recursivamente Explica formação das ilhas do Hawaii O(n2) Completa: Coerência global Agrupamentos justos Relação com clique Melhor intuitivamente Grupos em torno de um centróide O(n2logn)

15 Média grupal Compromisso entre ligação simples e completa
O(n3)  O(n2) sim(x,y) = cos(x,y)

16 Agrupamento top-down Similaridade <--> coerência Divisão:
Simples: menor similaridade na agm do agrupamento Completa: menor similaridade entre dois membros Média grupal: similaridade média no agrupamento Divisão: Função do agrupamento Algoritmo bottom-up

17 Agrupamento não-hierárquico
Agrupamento inicial aleatório Iterativamente troca de elementos Critério de parada: Medida de verossimilhança Número de agrupamentos

18 K-Means Não-hierárquico Estrito
Agrupamentos <--> centros de massas

19 Algoritmo K-Means Centros de massas aleatórios iniciais Iteração:
Elemento ε agrupamento (centro de massa mais próximo) Recálculo dos centros de massa Iteração enquanto não CP: ex: sem alterações

20 Algoritmo K-Means Função de distância: Complexidade: Euclidiana
Mais sensível a outliers Norma L1 L1(X, Y) = ∑k |xk-yk| Complexidade: Se número de iterações constante O(n)

21 Exemplo

22 Algoritmo K-Means Quebra de empates: Aleatória  não-convergência
Perturbação de elementos

23 K-Means Livre 1a Estratégia: minimizar o erro quadrático Σimincd(i-µc)2 Δµc=Σi η.d(i-µc), i mais próximo de µc , c.c. µc = µc + Δµc

24 K-Means Livre 2a Estratégia: Contribuição de todos

25 ISODATA Iterative Self-Organizing Data Analysis Technique Algorithm
Extensão do K-Means: seleção automática de k (qtde de agrupamentos) Parâmetros: NMIN_EX:no mínimo de elementos por agrupamento Nd: número aproximado de agrupamentos σs2: parâmetro máximo de abertura para divisão DM:distância máxima de separação para união NM: número máximo de agrupamentos a serem unidos

26 ISODATA Algoritmo: K-Means
Dividir agrupamentos segundo critério de dissimilaridade Unir dois agrupamentos próximos Repetir

27 ISODATA

28 ISODATA Vantagens: Desvantagens: Auto-organização
Eliminação de agrupamentos pequenos Divisão de agrupamentos dissimilares União de agrupamentos similares Desvantagens: Dados linearmente separáveis Parâmetros iniciais Impacto na performance Performance Baixa x Muitos Dados Garantia de convergência Agrupamentos não sobrepostos

29 Referências Manning Schuetze Soumen Chakrabarti
Foundations Of Statistical Natural Language Processing Soumen Chakrabarti Mining The Web Discovering Knowledge From Hypertext Data Ricardo Gutierrez-Osuna Introduction to Pattern Recognition Irina Rish, Daniel Oblinger Lectures in Statistical Pattern Recognition


Carregar ppt "Aprendizado não-supervisionado"

Apresentações semelhantes


Anúncios Google