CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Hector enrique de la hoz LEÓN

Ordem da apresentação Introdução Motivação Componentes de algoritmos de clustering Definições. Algoritmos de clustering Aplicação.

Introdução Clustering: É o processo de classificação não supervisionada de padrões em grupos chamados de clusters. Aprendizado supervisionado dados Classificação Aprendizado NÃO supervisionado dados

DADOS NÃO CLASSIFICADOS
Dados Clusterizados

Grandes quantidades de dados são geradas e armazenadas diariamente.
Motivação Grandes quantidades de dados são geradas e armazenadas diariamente. A pressão da competência é forte. Os Computadores são poderosos e baratos.

Componentes dos sistemas de clustering
Clusters Representação de padrões Dado Extração de características Medida de Similaridade Agrupamento Loop de Feedback

características Seleção Extração
Ao processo de Identificar o conjunto mais representativo de características. Utilizar uma ou mais transformações no conjunto de características para gerar novas propriedades ainda mais representativas. As características podem ser: Qualitativas . Quantitativas.

Representação dos clusters
Pelo centroide do cluster. Por pontos distantes do cluster. Utilizando nós em arvores de classificação. Utilizando expressões logicas conjuntivas.

Função de similaridade
Os clusters estão formados por dados com características semelhantes. São as relações que medem a distância entre um par de padrões no espaço de características Euclidiana. Minkowski (p>2) Mahalonobis Manhattan 𝑫 𝒙 𝒊 , 𝒙 𝒋 = 𝒌=𝟏 𝒅 ( 𝒙 𝒊,𝒌 − 𝒙 𝒋,𝒌 ) 𝟐

AGRUPAMENTO

Classificação dos algoritmos de clustering
Hierárquico Divisional Link completo Busca Link simples Erro quadrático CSP Max. da esperança k-means Teoria de grafos

Abordagens para clusterização (parte i)
Aglomeração. Inicia tantos cluster quantos dados. Separação. Inicia um clusters só. Monothetic. Todas as características são utilizadas simultaneamente. Polithetic. As características são utilizadas sequencialmente.

Abordagens para clusterização (parte ii)
Duro Cada dado pertence a um e só um cluster. Fuzzi Cada dado é classificado com uma variável de pertinência a cada cluster

Exemplos das abordagens
Aglomerativo Monothetic Fuzzi

Definições fundamentais (PARTE i)
Padrão: Itens de dados utilizados pelos algoritmos de clustering. Representados por um vetor de características. 𝒙= 𝑥 1 , 𝑥 2 ,…, 𝑥 𝑛 Características: Cada uma das componentes dos padrões (Atributos). Conjunto de dados: O conjunto de padrões analisados pelo algoritmo. 𝐗= 𝒙 1 , 𝒙 2 ,…, 𝒙 𝑑

Definições fundamentais (PARTE iI)
Classe: Estado da natureza que governa a geração de padrões. uma fonte de padrões cuja distribuição no espaço de característica esta governada por uma determinada função de densidade de probabilidade. Rotulo: É o valor assignado pelo algoritmo de clustering aos dados que pertencem à mesma classe.

CLUSTERING HIERARQUICOS (Link simples)
Iniciar o algoritmo colocando cada padrão do conjunto de dados em um cluster diferente. Construir a lista das distâncias 𝑑 𝑘 entre os padrões e organiza-la em forma ascendente. Percorrer a lista de distâncias ordenadas, e aglomerar os padrões com distancias menores do que um determinado D. Repetir até obter o numero de clusters desejados: Calcular a distância entre todos os pares de padrões de classes diferentes. Aglomerar as classes cuja mínima distância seja menor do que D. Atualizar as distâncias e atualizar D caso necessário.

CLUSTERING HIERARQUICOS
LINK SIMPLES LINK COMPLETO

Clustering teoria de grafos
Calcular o minimal spanning tree (MST). Formar os cluster eliminando as ramas de maior valor.

Clustering incremental
Iniciar o algoritmo associando um padrão ao primer cluster Analisar o seguinte padrão do conjunto de dados e classifica-lo em algum dos clusters existentes ou em um novo cluster baseando-se em algum critério de similaridade. Repetir o passo anterior até todos os padrões estarem classificados.

Clustering incremental

K-MEANS • Escolher k pontos, dentro do espaço de características, representando os centros dos k clusters em que é desejado dividir o conjunto de dados. • Assignar cada padrão ao centro mais próximo de acordo com a função de similaridade. • Recalcular os centros dos clusters utilizando os dados membros de cada cluster. • Repetir o algoritmo desde o item dois até atingir um critério de parada.

Características do K-MEANS
• O seu tempo de convergência é proporcional ao numero de padrões n, ao numero de clusters k e ao numero de iterações l. • O espaço de memoria requerido é proporcional ao numero de dados e ao numero de clusters. • Para um dado conjunto inicial de centros, o algoritmo gera a mesma partição de dados sem importar a ordem em que os dados são apresentados. sensibilidade com respeito à seleção dos k primeiros centros.

Seleção dos k centros. • Selecionar os extremos e/ou o centro do espaço de características como centroides iniciais dos clusters. • Dividir o espaço de características e selecionar randomicamente em cada seção algum ponto como centroide de um cluster. Isto garante que os centroides estejam espalhados por todo o espaço de caraterísticas. • Selecionar os centros dos clusters perto do centro de massa do conjunto de dados. Cada centro é obtido adicionando um valor randômico ao centro de massa dos dados.

COMPARAÇÃO ENTRE TÉCNICAS
Algoritmo de clustering Complexidade Tempo Espaço Líder O(kn) O(k) K-Means O(knl) ISODATA Shortest Spanning Path (SPP) O( 𝑛 2 ) O(n) Link Simples O( 𝑛 2 log⁡ 𝑛) Link Completo

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu)
Efetuar o cálculo do histograma da intesidade dos pixeis. Calcular o limiar que maximize a variância ponderada entre as classes 𝝈 𝟐 = 𝝎 𝟏 𝝉 𝝈 𝟐 𝟏 𝝉 + 𝝎 𝟐 (𝝉) 𝝈 𝟐 𝟐 (𝝉)

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu)

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (k-means)
• Efetuar o cálculo do histograma de cores. • Seleção das cinco cores de maior frequência como possível centroide do cluster. Escolhe-se como semente aquela que possui maior quantidade de pixeis a uma distância de Manhattan menor do que um limiar τ (utilizou- se nesta aplicação um limiar τ=20).

𝑑 𝑖 𝑝,𝑞 = 𝑝− 𝑞 𝑖

OBRIGADO

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS

Apresentações semelhantes

Apresentação em tema: "CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS

Apresentações semelhantes

Apresentação em tema: "CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback