A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN.

Apresentações semelhantes


Apresentação em tema: "CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN."— Transcrição da apresentação:

1 CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

2 ORDEM DA APRESENTAÇÃO Introdução Motivação Componentes de algoritmos de clustering Definições. Algoritmos de clustering Aplicação.

3 INTRODUÇÃO Clustering: É o processo de classificação não supervisionada de padrões em grupos chamados de clusters. Aprendizado supervisionado dados Classificação Aprendizado NÃO supervisionado dados

4 DADOS NÃO CLASSIFICADOS DADOS CLUSTERIZADOS

5 MOTIVAÇÃO Grandes quantidades de dados são geradas e armazenadas diariamente. A pressão da competência é forte. Os Computadores são poderosos e baratos.

6 COMPONENTES DOS SISTEMAS DE CLUSTERING Clusters Representação de padrões Dado Extração de características Medida de Similaridade Agrupamento Loop de Feedback

7 CARACTERÍSTICAS SELEÇÃO Ao processo de Identificar o conjunto mais representativo de características. EXTRAÇÃO Utilizar uma ou mais transformações no conjunto de características para gerar novas propriedades ainda mais representativas. As características podem ser: Qualitativas. Quantitativas.

8 REPRESENTAÇÃO DOS CLUSTERS Pelo centroide do cluster. Por pontos distantes do cluster. Utilizando nós em arvores de classificação. Utilizando expressões logicas conjuntivas.

9 Os clusters estão formados por dados com características semelhantes. São as relações que medem a distância entre um par de padrões no espaço de características FUNÇÃO DE SIMILARIDADE Euclidiana. Minkowski (p>2) Mahalonobis Manhattan

10 AGRUPAMENTO

11 CLASSIFICAÇÃO DOS ALGORITMOS DE CLUSTERING Clustering Hierárquico Divisional Link completo Busca Link simples Erro quadrático CSP Max. da esperança k-means Teoria de grafos

12 ABORDAGENS PARA CLUSTERIZAÇÃO (PARTE I) Aglomeração. Inicia tantos cluster quantos dados. Separação. Inicia um clusters só. Monothetic. Todas as características são utilizadas simultaneamente. Polithetic. As características são utilizadas sequencialmente.

13 Duro Cada dado pertence a um e só um cluster. Fuzzi Cada dado é classificado com uma variável de pertinência a cada cluster ABORDAGENS PARA CLUSTERIZAÇÃO (PARTE II)

14 EXEMPLOS DAS ABORDAGENS AglomerativoMonothetic Fuzzi

15 DEFINIÇÕES FUNDAMENTAIS (PARTE I)

16 Classe: Estado da natureza que governa a geração de padrões. uma fonte de padrões cuja distribuição no espaço de característica esta governada por uma determinada função de densidade de probabilidade. Rotulo: É o valor assignado pelo algoritmo de clustering aos dados que pertencem à mesma classe. DEFINIÇÕES FUNDAMENTAIS (PARTE II)

17 CLUSTERING HIERARQUICOS ( LINK SIMPLES)

18 CLUSTERING HIERARQUICOS LINK SIMPLES LINK COMPLETO

19 CLUSTERING TEORIA DE GRAFOS Calcular o minimal spanning tree (MST). Formar os cluster eliminando as ramas de maior valor.

20 CLUSTERING INCREMENTAL Iniciar o algoritmo associando um padrão ao primer cluster Analisar o seguinte padrão do conjunto de dados e classifica-lo em algum dos clusters existentes ou em um novo cluster baseando-se em algum critério de similaridade. Repetir o passo anterior até todos os padrões estarem classificados.

21 CLUSTERING INCREMENTAL

22 K-MEANS Escolher k pontos, dentro do espaço de características, representando os centros dos k clusters em que é desejado dividir o conjunto de dados. Assignar cada padrão ao centro mais próximo de acordo com a função de similaridade. Recalcular os centros dos clusters utilizando os dados membros de cada cluster. Repetir o algoritmo desde o item dois até atingir um critério de parada.

23 O seu tempo de convergência é proporcional ao numero de padrões n, ao numero de clusters k e ao numero de iterações l. O espaço de memoria requerido é proporcional ao numero de dados e ao numero de clusters. Para um dado conjunto inicial de centros, o algoritmo gera a mesma partição de dados sem importar a ordem em que os dados são apresentados. sensibilidade com respeito à seleção dos k primeiros centros. CARACTERÍSTICAS DO K-MEANS

24 SELEÇÃO DOS K CENTROS. Selecionar os extremos e/ou o centro do espaço de características como centroides iniciais dos clusters. Dividir o espaço de características e selecionar randomicamente em cada seção algum ponto como centroide de um cluster. Isto garante que os centroides estejam espalhados por todo o espaço de caraterísticas. Selecionar os centros dos clusters perto do centro de massa do conjunto de dados. Cada centro é obtido adicionando um valor randômico ao centro de massa dos dados.

25 COMPARAÇÃO ENTRE TÉCNICAS Algoritmo de clustering Complexidade TempoEspaço LíderO(kn)O(k) K-MeansO(knl)O(k) ISODATAO(knl)O(k) Shortest Spanning Path (SPP) O(n) Link Simples Link Completo

26 APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS

27 APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (OTSU) Efetuar o cálculo do histograma da intesidade dos pixeis. Calcular o limiar que maximize a variância ponderada entre as classes

28 APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (OTSU)

29

30 Efetuar o cálculo do histograma de cores. Seleção das cinco cores de maior frequência como possível centroide do cluster. Escolhe-se como semente aquela que possui maior quantidade de pixeis a uma distância de Manhattan menor do que um limiar τ (utilizou- se nesta aplicação um limiar τ =20). APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (K-MEANS)

31

32

33 OBRIGADO


Carregar ppt "CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN."

Apresentações semelhantes


Anúncios Google