Método de Clusterização baseado em Densidade Algoritmo DBSCAN

Slides:



Advertisements
Apresentações semelhantes
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Advertisements

Noções primitivas! O que é um plano? O que é um ponto?
AULA 8 Profa. Sandra de Amo GBC053 – BCC
Funções de mais de uma variável - Limite e Continuidade
Construção de Algoritmos Professor: Aquiles Burlamaqui Construção de Algoritmos AULA 07 Aquiles Burlamaqui UERN
Definição de Casos de Teste Funcionais a partir de Casos de Uso
Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE
Método K-medóides Algoritmos PAM e CLARA
Análise de Clusters – Introdução Método K-means
Outliers Detecção de Anomalias
Otimização de Consultas em SQL Parte I - Planos de Execução e Equivalências de Expressões da Álgebra Relacional AULA 19 Profa. Sandra de Amo Programa.
Programação Linear Método Simplex
Organização de Arquivos Introdução
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Organização de Arquivos Tipos de Indices Cálculo de Custos de I/O
Classificadores em Dados não Balanceados
AULA 23 Profa. Sandra de Amo GBC053 – BCC
Gerenciamento de Arquivos, Páginas e Registros
Mineração de Preferências (a partir de amostras superiores e inferiores) J.Pei et al. KDD 2008 AULA 18 Data Mining Profa. Sandra de Amo.
Avaliação de Clusteres
Capítulo 4: Estado Global
Reconhecimento de Padrões Segmentação
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
David Menotti Estruturas de Dados I DECOM – UFOP
AUTOCAD – comandos básicos
Avaliação de Sistemas Operacionais
Avaliação de Desempenho
Avaliação de Desempenho Introdução Aula 1 Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de Ciências Matemáticas.
Apresentação: Léia Michelle de Souza
1 Simulação baseada em multiagentes – aplicação em educação O processo de simulação significa dirigir o modelo de um sistema com entradas satisfatórias.
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
List Ranking: Um Estudo Experimental
Sistemas Operacionais I
Correlação de Imagens FUNÇÃO 0,0 C L.
List Ranking. List Ranking (1) Seja L uma lista representada por um vetor s tal que s[i] é o nó sucessor de i na lista L, para u, o último elemento da.
Aprendizagem de Máquina - Agrupamento
Algoritmos e Estruturas de Dados II
K-Means / Clustering.
Desempenho, Método de Shell, Quicksort
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Clustering Estudo de métodos computacionais para encontrar os grupos naturais existentes nos dados. Processo também conhecido por Segmentação ou por Aprendizagem.
Algoritmos e Programação I
Rodrigo de Carvalho.  Introdução ◦ Descrição do Problema  Algoritmos ◦ GRASP ◦ S.A ◦ AG  Planejamento Experimental ◦ Objetivo ◦ Instância e métricas.
Algoritmos 1º Semestre Materia: Informática Profº: Cristiano.
Avaliação de Clusteres Parte II
MapReduce Conceitos e Aplicações
Prof. Ricardo Santos PONTEIROS
Flávio Henrique Moura Stakoviak
Propriedades Sejam conjuntos de um espaço vetorial Então:
Ronaldo Celso Messias Correia –
SISTEMAS OPERACIONAIS I
Roberto A. G. Motta sob orientação do Prof. Dr. Siang Wun Song
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Transformação Linear Definição: Sejam dois espaços vetoriais reais. Uma função T (ou aplicação) é denominada Transformação Linear de se:
Aula 8. Classificação Não Supervisonada por Regiões
Sistemas de Recomendação – Filtragem Colaborativa
ANÁLISE ESTATÍSTICA II
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Recuperação Inteligente de Informação
Como analisar um algoritmo
Problemas NP-completos e Programação Dinâmica
Hugo Feitosa Yuri Lacerda.  Introdução  Projeto  Protótipo  Avaliação  Trabalhos Futuros  Conclusões.
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida.
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.
Introdução a Análise de Redes Sociais Aula 07 Dalton Martins Laboratório de Políticas Públicas Participativas Gestão da Informação Universidade.
Transcrição da apresentação:

Método de Clusterização baseado em Densidade Algoritmo DBSCAN Sandra de Amo AULA 22 DATA MINING

Algoritmos Baseados em Densidade Definição: Clusters são regiões de alta densidade de padrões separadas por regiões com baixa densidade, no espaço de padrões. Algoritmos baseados em densidade são projetados para encontrar clusters segundo esta definição.

O que são regiões densas ? Esparsas ? Definição baseada em centros: Uma região densa é uma região onde cada ponto tem muitos pontos em sua vizinhança. Muitos ?? Vizinhança ?? Parâmetros de Ajuste

Parâmetros de Ajuste Vizinhança: raio Eps Muitos : MinPts Assim, uma região densa é uma região em que todos os pontos têm pelo menos MinPts pontos num raio de Eps ao seu redor Eps MinPts = 13

Observação A densidade de cada objeto depende dos parâmetros Eps e MinPts Se Eps é muito grande, então é possivel que todos os objetos tenham densidade grande (= m = número de objetos da base). Se Eps é muito pequeno, então é possível que todos os objetos tenham baixa densidade.

Tipos de Objetos Objeto Core : está no interior de uma região densa. Existem pelo menos MinPts objetos core num raio Eps ao redor do objeto. Objeto fronteiriço : está na fronteira de uma região densa. Está na vizinhança Eps de um objeto core, mas não é um objeto core. Objetos outliers: está em uma região de baixa densidade. Não é objeto core nem está numa vizinhança de um objeto core.

Exemplo w p q p: objeto fronteiriço q: objeto core w: objeto outlier MinPts = 5 Eps = 1cm w 1 cm p q

Cadeia de objetos Um objeto p é diretamente alcançável pela densidade a partir de um objeto q (com relação aos parâmetros Eps, MinPts) se: p  Neps(q) Neps(q) : {q’  BD | d(q,q’) ≤ Eps} |Neps(q)| ≥ MinPts

Exemplo p é alcançável a partir de q MinPts = 5 Eps = 1cm p q 1 cm

Cadeia de objetos Alcançável por Densidade Um objeto p é alcançável por densidade a partir de um objeto q (com relação aos parâmetros Eps, MinPts) se existe uma cadeia de objetos q = p1, p2, p3,..., pn = p tal que pi+1 é diretamente alcançável por densidade a partir de pi. q p p2 p3

Conexão por Densidade Um objeto p é conectado por densidade a um objeto q (com respeito aos parâmetros Eps, MinPts) se existir um objeto O tal que p e q são alcançáveis por densidade a partir de O. p q O

Exercicio 1 Se p é alcançável por densidade a partir de q, isto não implica que q é alcançável por densidade a partir de p. p q

Exercicio 2 Se p é alcançável por densidade a partir de q, e ambos são objetos core, é verdade que q também será alcançável por densidade a partir de p ?

Exercício 3 A relação “conectável por densidade” é simétrica ?

Algoritmo DBSCAN Entrada Eps, MinPts, um banco de dados BD Saída Um conjunto de K clusteres tais que: Objetos dentro de um mesmo cluster são conectados por densidade Objetos em clusters distintos não são conectados por densidade. Observação: Repare que o número K de clusteres é encontrado pelo algoritmo, não é dado como input.

Método : Etapa 1 Calcula a vizinhança Eps de cada objeto do banco de dados Detecta os que são objetos core Cada objeto core q será o representante de um cluster formado por sua vizinhança Neps(q) Enumera-se os clusteres assim obtidos C1, C2, ... , Ck1 Seus representantes são p1, p2, ..., pk1

Etapa 2 i = 1 Procura o primeiro j tal que pj é diretamente alcançável a partir de p1 Une-se os clusteres C1 e Cj Os novos representantes do novo cluster são p1 e pj p1 pj i = primeiro n = 1,...,k1, diferente de 1 e j Repete-se o processo para Ci e o primeiro Cj’ tais que pj’ seja diretamente alcançável a partir de pi

Final da Etapa 2 p1 p2 p3 p5 p6 p4 p7

Etapa 3 Para cada cluster Ci da etapa 2, procura-se um cluster Cki tal que um de seus representantes é diretamente alcançável a partir de um dos representantes do cluster Ci Junta-se os clusters Ci e Cki Cluster C2 p5 p2 p1 p4 Cluster C1

Parada do algoritmo O algoritmo pára na etapa N quando não há mais possibilidade de se juntar clusteres formados na etapa N-1.

Exercício Sejam C1,...,Ck os clusteres produzidos pelo algoritmo DBSCAN Se p e q estão num mesmo cluster Ci então p e q são conectados por densidade Se p e q estão em clusteres distintos então p e que não são conectáveis por densidade O que se pode dizer de um objeto p que não está em nenhum cluster Ci ?

Como selecionar os parâmetros ? Verificar a distância ao k-ésimo vizinho mais próximo k-dist Análise 1. Para objetos que estão dentro de um cluster: se k ≤ tamanho do cluster então k-dist é pequeno. 2. Para objetos que não estão dentro de um cluster: k-dist é grande

Como selecionar os parâmetros ? Seleciona-se os k-dist para cada objeto, para um determinado valor de k. Ordena-se os objetos pelos valores de k-dist No ponto onde houver uma grande variação do número k-dist, significa que foi atingido um valor adequado para Eps. Só funciona se os clusteres não apresentarem grandes variações de densidade. Valor de Eps depende do número k escolhido. Na prática, o valor k = 4 é utilizado para a maioria dos banco de dados, com bons resultados

Exemplo: BD com 3000 objetos K-dist 50 40 30 Eps = 10 MinPts = 4 20 10 10 500 1000 1500 2000 2500 3000 Objetos Crescimento muito grande de k-dist

Problema: Clusteres com diferentes densidades Se Eps é alto suficiente para que C e D sejam detectados como clusteres então A e B e a região a sua volta se tornarão um unico cluster Se Eps é baixo suficiente para que A e B sejam detectados como clusteres separados então C e D (e os objetos a seu redor) serão considerados outliers !

Parâmetros versus Tipos de clusteres Eps MinPt Resultado Alto Poucos clusters, grandes e densos Baixo Muitos clusters, pequenos e menos densos Clusters grandes e menos densos Clusters pequenos e densos

Avaliação de desempenho: qualidade dos clusteres produzidos Agrupamentos descobertos por CLARANS

Avaliação de desempenho: qualidade dos clusteres produzidos Agrupamentos descobertos por DBSCAN

Tempo de execução em segundos

Vantagens e Desvantagens Eficiente em tratar grandes bases de dados Menos sensível a ruídos Forma clusters de formato arbitrário Usuário não precisa especificar a quantidade de clusters Desvantagens Sensível aos parâmetros de entrada(Eps e MinPt) Produz resultados não confiáveis se os clusteres têm densidades muito diferentes.

Referência M. Ester, H.-P Kriegel, J. Sander, X. Xu: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, pp. 226-231, 1996.