Agrupamento (clustering)

Slides:



Advertisements
Apresentações semelhantes
Algoritmos em Grafos.
Advertisements

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
O Problema da K-Dispersão Discreta
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Estatística Descritiva Aula 02
1 MD - junho/2008 HAC Regressão Tarefa preditiva em que as classes são contínuas Objetivo: predizer um valor numérico para a saída: Consumo de um carro.
Uma das tarefas descritivas da
1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Curso de ADMINISTRAÇÃO
Análise de Clusters – Introdução Método K-means
Avaliação de Clusteres
Inteligência Artificial I
Formação de agrupamentos: conceitos básicos e algoritmos prof
EXPRESSÕES ARITMÉTICAS
Mineração de Dados ou Descoberta de conhecimento em BDs
Reconhecimento de Padrões Tipos de Aprendizagem
Reconhecimento de Padrões Segmentação
Rodrigo Geraldo Ribeiro Denis Pinto Pinheiro Camila Leles Rezende
Reconhecimento de Padrões Tipos de Aprendizagem David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa.
Mineração de Dados Introdução.
Agrupamento de Dados: uma Revisão Data Clustering
Agrupamento de padrões Métodos hierárquicos
INF 1771 – Inteligência Artificial
© GfK 2012 | Title of presentation | DD. Month
Renda até 2 SM.
Aprendizado de Máquina
PESQUISA SOBRE PRAZO MÉDIO DA ASSISTÊNCIA NA SAÚDE SUPLEMENTAR
(CESPE/ Técnico Judiciário do TRT 17ª Região/ES) O Superior Tribunal de Justiça entende que o candidato aprovado em concurso público dentro do limite.
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Agrupamentos / Clustering
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Anderson Berg Orientador: Prof. Fernando Buarque
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.
K-Means / Clustering.
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conservação - Frota ANO IV – Nº 06.
Celso C. Ribeiro Caroline T. Rocha
Clustering Estudo de métodos computacionais para encontrar os grupos naturais existentes nos dados. Processo também conhecido por Segmentação ou por Aprendizagem.
Avaliação de Clusteres Parte II
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
1 2 Observa ilustração. Cria um texto. Observa ilustração.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
1.
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Árvores de Decisão: supervisionado, simbólico, não incremental (?)
1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.
MATRIZ DE PARENTESCO Nas equações do Modelo Misto, é incluída a matriz de parentesco ( a inversa desta, A-1). Para que? A matriz de parentesco de n indivíduos.
Olhe fixamente para a Bruxa Nariguda
Máquina de Turing Universal
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Planilha Eletrônica - Excel
Análise de padrões de uso em grades computacionais oportunistas
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Revisão 2° Bimestre Inteligência Artificial. Redes Neurais.
Recuperação Inteligente de Informação
Análise Multivariada BioEstat
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Transcrição da apresentação:

Agrupamento (clustering) Tarefa descritiva que agrupa exemplos (objetos) de acordo com suas características Objetivo: agrupar objetos em clusters (agrupamentos) de modo que objetos pertencentes a um mesmo cluster são mais similares entre si de acordo com alguma medida de similaridade pré-definida, enquanto que objetos pertences a clusters diferentes têm uma similaridade menor Consumo de um carro em função de suas características Valor de um imóvel em função das características dele e do bairro

Tarefas de MD Data Mining Atividade Preditiva Atividade Descritiva Classificação Regressão Regras de Associação Clustering Sumarização

Agrupamento Tarefa de aprendizado não-supervisionado: Exemplos não estão rotulados – não existe uma classe conhecida considerada o atributo meta

Exemplo 1 2 3 4 5 6 xk1 xk2

Examplo – conjunto de dados 1) 0.5 3 16) 6 8 31) 6.5 7.5 2) 1 17) 7 32) 4 2 3) 18) 10 33) 4) 19) 10.5 34) 5) 20) 35) 6) 2.5 21) 9.5 36) 7) 1.5 22) 37) 5 8) 23) 38) 9) 24) 39) 10) 25) 40) 11) 26) 3.5 41) 12) 9 27) 42) 13) 28) 43) 14) 29) 44) 15) 30) 45)

Processo de agrupamento 1. seleção de exemplos e seleção ou construção de atributos seleciona atributos relevantes ou constroi atributos representativos 2. Similaridade entre exemplos seleciona a medida de similaridade a ser utilizada, que deve ser adequada ao domínio 3. Agrupamento aplicação do algoritmo de agrupamento

Medidas de similaridade medidas de distância (para dados contínuos) medidas de correlação medidas de associação (para dados discretos)

Medidas de distância atributos dos exemplos são considerados como dimensões de um espaço multidimensional cada exemplo corresponde a um ponto no espaço similaridade entre dois pontos é a distância entre eles

Medidas de distância Manhattan/city-block D(x,y) = ∑(abs(xi – yi)) formato do cluster encontrado: 0,0

D(x,y) = SQRT(∑(xi – yi)2) Medidas de distância euclidiana D(x,y) = SQRT(∑(xi – yi)2) formato do cluster encontrado: 0,0

Formatos de clusters Manhattan Euclidiana Chebychev Mahalanobis

Algoritmo k-means usuário define previamente o número k de partições repetir até que os cluster se estabilizem: Escolher aleatoriamente k pontos que serão os centros dos clusters iniciais – centróides determinar para cada exemplo do conjunto de dados, o cluster ao qual ele pertence, calculando a distância entre o exemplo e o centro do cluster calcular um novo centróide para cada cluster, que passa a ser o novo centro (os pontos iniciais não são os centros definitivos dos clusters, mas sim uma tentativa inicial)