Agrupamento de Dados: uma Revisão Data Clustering

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.
Engenharia de Software
INTELIGÊNGIA COMPUTACIONAL
Especificação de Consultas
Felipe Carvalho – UFES 2009/2
UFRGS APLICAÇÃO DAS TÉCNICAS DE MINERAÇÃO DE DADOS NA ADMINISTRAÇÃO: O CASO DE 3 SUPERMERCADOS Aluna: Lóren Pinto Ferreira Gonçalves Orientador: Professor.
Agrupamento (clustering)
Segmentação de mercado
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Avaliação de Clusteres
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Iana Alexandra Alves Rufino
Pré-processamento e Pós-processamento dos Dados
Classificação (Ordenação) de dados
Agrupamento de padrões Métodos hierárquicos
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo
Anderson Berg Orientador: Prof. Fernando Buarque
Paulo J Azevedo Departamento de Informática
INF 1771 – Inteligência Artificial
Data Mining como ferramenta de Gestão
Data Mining, Data Warehousing e OLAP
Inteligência Artificial
Data Warehouse & Data Mining
DEPARTAMENTALIZAÇÃO.
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Agrupamentos / Clustering
Desenvolvimento de Sistemas OLAP
Desenvolvimento de Sistemas OLAP
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
K-Means / Clustering.
Disciplina Geoprocessamento Aplicado ao Planejamento
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Capacidades do Data Warehouse
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Data Mining: Conceitos e Técnicas
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Análise de Agrupamentos
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Conceitos básicos da gestão da informação nas organizações
Análise de padrões de uso em grades computacionais oportunistas
Aula 8. Classificação Não Supervisonada por Regiões
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.
Recuperação Inteligente de Informação
Mineração de Dados: Introdução
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Classificação de Textos
Professora Michelle Luz
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
PROJETO DE PESQUISA AVALIAÇÃO DA QUALIDADE NA GESTÃO DO TRÁFEGO URBANO ATRAVÉS DO ESTUDO DO BENCHMARKING ENTRE OS CENTROS DE CONTROLE.
Avaliação de empresas por múltiplos aplicados em empresas agrupadas com análise de cluster Autores CLOVIS GRIMALDO COUTO JÚNIOR FERNANDO CAIO GALDI Acadêmicos.
Mineração de Dados (Data Mining)
1 Projeto Híbrido de Redes Neurais Ricardo Bastos C. Prudêncio Orientação: Teresa B. Ludermir CIn - UFPE Jan
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Laboratório de Classificação Supervisionada Laboratório de Geoprocessamento do Departamento de Engenharia de Transportes da EPUSP setembro de 2011.
Unidade III Descrição de Cargos
Transcrição da apresentação:

Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado em Informatica

O que é Agrupamento de Dados? Qual a utilidade? Nivelamento

Roteiro Contextualização; Processo de Agrupamento; Agrupamento de Dados; Uma Aplicacão: Mineração de Dados; Considerações Finais. Bibliografia Roteiro

Análise Automática dos Dados Motivação É crescente a migração dos dados para a mídia digital; Na informação reside o conhecimento; O volume de informação é cada vez maior; Análise Automática dos Dados Contextualização

Análise Automática de Dados Previsão de Dados Fluxo de Caixa Previsto Classificação de Dados Relatório gerado segundo consulta Análise de Agrupamentos Data Mining – Mineração de Dados Contextualização

Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos Objetivo Processo de Agrupamento . Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos

Seleção e tratamento dos dados; Agrupamento de dados; Etapas Seleção e tratamento dos dados; Agrupamento de dados; Análise dos resultados; Processo de Agrupamento

Seleção e Tratamento de Dados Eliminação de dados duplicados ou corrompidos; Tratamento de outliers; Valores faltantes ou inválidos; Transformação dos dados; Tratamento de Atributos: Adequar os diferentes tipos de atributos para o processo de agrupamento. Normalização: Tratar dados com atributos de diferentes dimensões, quando se pretende que eles tenham a mesma influência no processo. Processo de Agrupamento

Medidas de proximidade Agrupamento de Dados Métodos: Hierárquicos; Segmentação; Medidas de proximidade Dissimilaridade Similaridade Processo de Agrupamento

Métricas comuns em medidas de proximidade Agrupamento de Dados Métricas comuns em medidas de proximidade Processo de Agrupamento Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan

Análise dos resultados Gráfico da Silhueta Processo de Agrupamento Figura 3: Gráfico da Silhueta

Análise dos resultados Valores da Silhueta Valor Descrição 0,71 – 1,00 Uma estrutura forte foi encontrada. 0,51 – 0,70 Uma estrutura razoável foi encontrada. 0,26 – 0,50 A estrutura é fraca e pode ser superficial. ≤0,25 Nenhuma estrutura substancial foi encontrada. Processo de Agrupamento Tabela 1: Valores da Silhueta

Métodos Hierárquicos Os dados são segmentados sucessivamente, produzindo uma representação hierárquica dos agrupamentos Tipos: Aglomerativos; Divisivos; Agrupamento de Dados

Figura 3: Método Hierárquico Aglomerativo Métodos Hierárquicos Aglomerativos Agrupamento de Dados Figura 3: Método Hierárquico Aglomerativo

Métodos Hierárquicos Aglomerativos Agrupamento de Dados Principais desvantagens: Os agrupamentos não podem ser corrigidos; Requerem muito espaço de memória e tempo de processamento; Agrupamento de Dados

Figura 4: Método Hierárquico Divisivo Métodos Hierárquicos Divisivos Agrupamento de Dados O Figura 4: Método Hierárquico Divisivo

Métodos Hierárquicos Divisivos Agrupamento de Dados Principais vantagens Considera muitas divisões no primeiro passo; Principais desvantagens: Capacidade computacional maior que os hierárquicos aglomerativos (grande número de combinações); Requerem muito espaço de memória e tempo de processamento Agrupamento de Dados

Métodos de Segmentação Constroem uma única partição k grupos, isto é, classificam os dados em k grupos Cada grupo deve conter no mínimo um objeto; Todo objeto foi atribuído a um grupo. Tipos: Exclusivos Cada objeto pertence a exatamente um grupo Não-exclusivos A escolha do grupo do objeto é definida com base no grau de pertinência do mesmo Agrupamento de Dados

Mineração de Dados Contextualização “A extração de Conhecimento de base de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” (Fayyad, Piatetsky-Shapiro e Smyth citado por Rezende) Contextualização

Motivação Contextualização Grandes volumes de dados heterogêneos; Necessidade de técnicas para extrair a informação que realmente seja relevantes. Contextualização

Abordagem da Mineração de Dados Segmentação; Modelos de predição; Visualização; Mineração de Dados e Agrupamento

Abordagem da Mineração de Dados Segmentação : Os métodos de agrupamento são utilizados para segmentar bases de dados em grupos homogêneos Mineração de Dados e Agrupamento

Abordagem da Mineração de Dados Modelos de Prediticao : Usam o agrupamento de dados para agrupar itens, a fim de inferir regras, caracterizar os grupos e sugerir modelos. Mineração de Dados e Agrupamento

Abordagem da Mineração de Dados Visualização: o agrupamento de dados pode ser utilizado como tecnica que permite observar as informacoes em diferentes niveis e estruturas. Mineração de Dados e Agrupamento

Aplicações citadas pelo autores Mineração em dados não estruturados WWW; Mineração em banco de dados geológicos; Mineração de Dados

Exemplo Banco de Dados Geológicos Regiao do Alasca Aplicações - Mineração de Dados

Exemplo Banco de Dados Geológicos Regiao do Alasca Aplicações - Mineração de Dados

Mineração de dados da bacia do Alaska Definição do contexto Descoberta das estruturas primitivas para agrupamento; Definição do contexto em termos relevantes para agrupamento homogêneos de dados; Aplicação do algoritmo k-medias Aplicações - Mineração de Dados

Algoritmo K-medias Mineração de Dados Bacia do Alaska Algoritmo de agrupamento que segmenta os objetos em conjuntos de elementos semelhantes, segundo algum criterio Mineração de Dados Bacia do Alaska

Algoritmo K-medias Etapas Define-se o número de grupamentos; Inicia-se os agrupamentos através de atributos arbitrários ou centróides; Atribuição das amostras Volta-se ao passo 3 até um critério de convergência ser cumprido; Mineração de Dados Bacia do Alaska

Algoritmo K-medias Mineração de Dados Bacia do Alaska Inicialização dos centróides Atribuição das amostra Procura de Novos centróides

Como escolher um método? Tipo de atributos que o algoritmo opera; Escalabilidade para grandes conjuntos de dados; Definição da melhor métrica de similaridade; Habilidade de operar com uma dimensão grande de variáveis; Considerações Finais

Como escolher um método? Tratar valores discrepantes (outliers); Tempo de execução; Dependência de ordem dos dados; Interpretabilidade dos resultados. Considerações Finais

Dependência dos usuários Considerações Finais Problemas Ferramentas atuais Dependência dos usuários Informação para início do processo Capacidade de interpretação dos resultados Decisão sobre a utilização do método adequado Considerações Finais

Básica Complementar Bibliografia Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data Clustering: A Review” – ACM computing Surveys, vol. 31, nº 3, september 1999. Complementar Vale, Marcos Neves do. “Agrupamentos de dados : avaliação de métodos e desenvolvimento de aplicativo para análise de grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo Tanscheit. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2005. Rezende, Solange de Almeida “Mineração de Dados ” Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis Ferreira, gilberto Câmara, Jão Argemiro C. Paiva – “Programação Genética Aplicada a Algoritmos Geográficos ”- INPE – São José dos Campos SP. Bibliografia