Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouJennifer Carreiro Alterado mais de 10 anos atrás
1
Agrupamento de Dados: uma Revisão Data Clustering
Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado em Informatica
2
O que é Agrupamento de Dados?
Qual a utilidade? Nivelamento
3
Roteiro Contextualização; Processo de Agrupamento;
Agrupamento de Dados; Uma Aplicacão: Mineração de Dados; Considerações Finais. Bibliografia Roteiro
4
Análise Automática dos Dados
Motivação É crescente a migração dos dados para a mídia digital; Na informação reside o conhecimento; O volume de informação é cada vez maior; Análise Automática dos Dados Contextualização
5
Análise Automática de Dados
Previsão de Dados Fluxo de Caixa Previsto Classificação de Dados Relatório gerado segundo consulta Análise de Agrupamentos Data Mining – Mineração de Dados Contextualização
6
Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos
Objetivo Processo de Agrupamento . Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos
7
Seleção e tratamento dos dados; Agrupamento de dados;
Etapas Seleção e tratamento dos dados; Agrupamento de dados; Análise dos resultados; Processo de Agrupamento
8
Seleção e Tratamento de Dados
Eliminação de dados duplicados ou corrompidos; Tratamento de outliers; Valores faltantes ou inválidos; Transformação dos dados; Tratamento de Atributos: Adequar os diferentes tipos de atributos para o processo de agrupamento. Normalização: Tratar dados com atributos de diferentes dimensões, quando se pretende que eles tenham a mesma influência no processo. Processo de Agrupamento
9
Medidas de proximidade
Agrupamento de Dados Métodos: Hierárquicos; Segmentação; Medidas de proximidade Dissimilaridade Similaridade Processo de Agrupamento
10
Métricas comuns em medidas de proximidade
Agrupamento de Dados Métricas comuns em medidas de proximidade Processo de Agrupamento Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan
11
Análise dos resultados
Gráfico da Silhueta Processo de Agrupamento Figura 3: Gráfico da Silhueta
12
Análise dos resultados
Valores da Silhueta Valor Descrição 0,71 – 1,00 Uma estrutura forte foi encontrada. 0,51 – 0,70 Uma estrutura razoável foi encontrada. 0,26 – 0,50 A estrutura é fraca e pode ser superficial. ≤0,25 Nenhuma estrutura substancial foi encontrada. Processo de Agrupamento Tabela 1: Valores da Silhueta
13
Métodos Hierárquicos Os dados são segmentados sucessivamente, produzindo uma representação hierárquica dos agrupamentos Tipos: Aglomerativos; Divisivos; Agrupamento de Dados
14
Figura 3: Método Hierárquico Aglomerativo
Métodos Hierárquicos Aglomerativos Agrupamento de Dados Figura 3: Método Hierárquico Aglomerativo
15
Métodos Hierárquicos Aglomerativos Agrupamento de Dados
Principais desvantagens: Os agrupamentos não podem ser corrigidos; Requerem muito espaço de memória e tempo de processamento; Agrupamento de Dados
16
Figura 4: Método Hierárquico Divisivo
Métodos Hierárquicos Divisivos Agrupamento de Dados O Figura 4: Método Hierárquico Divisivo
17
Métodos Hierárquicos Divisivos Agrupamento de Dados
Principais vantagens Considera muitas divisões no primeiro passo; Principais desvantagens: Capacidade computacional maior que os hierárquicos aglomerativos (grande número de combinações); Requerem muito espaço de memória e tempo de processamento Agrupamento de Dados
18
Métodos de Segmentação
Constroem uma única partição k grupos, isto é, classificam os dados em k grupos Cada grupo deve conter no mínimo um objeto; Todo objeto foi atribuído a um grupo. Tipos: Exclusivos Cada objeto pertence a exatamente um grupo Não-exclusivos A escolha do grupo do objeto é definida com base no grau de pertinência do mesmo Agrupamento de Dados
19
Mineração de Dados Contextualização
“A extração de Conhecimento de base de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” (Fayyad, Piatetsky-Shapiro e Smyth citado por Rezende) Contextualização
20
Motivação Contextualização Grandes volumes de dados heterogêneos;
Necessidade de técnicas para extrair a informação que realmente seja relevantes. Contextualização
21
Abordagem da Mineração de Dados
Segmentação; Modelos de predição; Visualização; Mineração de Dados e Agrupamento
22
Abordagem da Mineração de Dados
Segmentação : Os métodos de agrupamento são utilizados para segmentar bases de dados em grupos homogêneos Mineração de Dados e Agrupamento
23
Abordagem da Mineração de Dados
Modelos de Prediticao : Usam o agrupamento de dados para agrupar itens, a fim de inferir regras, caracterizar os grupos e sugerir modelos. Mineração de Dados e Agrupamento
24
Abordagem da Mineração de Dados
Visualização: o agrupamento de dados pode ser utilizado como tecnica que permite observar as informacoes em diferentes niveis e estruturas. Mineração de Dados e Agrupamento
25
Aplicações citadas pelo autores
Mineração em dados não estruturados WWW; Mineração em banco de dados geológicos; Mineração de Dados
26
Exemplo Banco de Dados Geológicos
Regiao do Alasca Aplicações - Mineração de Dados
27
Exemplo Banco de Dados Geológicos
Regiao do Alasca Aplicações - Mineração de Dados
28
Mineração de dados da bacia do Alaska
Definição do contexto Descoberta das estruturas primitivas para agrupamento; Definição do contexto em termos relevantes para agrupamento homogêneos de dados; Aplicação do algoritmo k-medias Aplicações - Mineração de Dados
29
Algoritmo K-medias Mineração de Dados Bacia do Alaska
Algoritmo de agrupamento que segmenta os objetos em conjuntos de elementos semelhantes, segundo algum criterio Mineração de Dados Bacia do Alaska
30
Algoritmo K-medias Etapas Define-se o número de grupamentos;
Inicia-se os agrupamentos através de atributos arbitrários ou centróides; Atribuição das amostras Volta-se ao passo 3 até um critério de convergência ser cumprido; Mineração de Dados Bacia do Alaska
31
Algoritmo K-medias Mineração de Dados Bacia do Alaska
Inicialização dos centróides Atribuição das amostra Procura de Novos centróides
32
Como escolher um método?
Tipo de atributos que o algoritmo opera; Escalabilidade para grandes conjuntos de dados; Definição da melhor métrica de similaridade; Habilidade de operar com uma dimensão grande de variáveis; Considerações Finais
33
Como escolher um método?
Tratar valores discrepantes (outliers); Tempo de execução; Dependência de ordem dos dados; Interpretabilidade dos resultados. Considerações Finais
34
Dependência dos usuários Considerações Finais
Problemas Ferramentas atuais Dependência dos usuários Informação para início do processo Capacidade de interpretação dos resultados Decisão sobre a utilização do método adequado Considerações Finais
35
Básica Complementar Bibliografia
Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data Clustering: A Review” – ACM computing Surveys, vol. 31, nº 3, september 1999. Complementar Vale, Marcos Neves do. “Agrupamentos de dados : avaliação de métodos e desenvolvimento de aplicativo para análise de grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo Tanscheit. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2005. Rezende, Solange de Almeida “Mineração de Dados ” Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis Ferreira, gilberto Câmara, Jão Argemiro C. Paiva – “Programação Genética Aplicada a Algoritmos Geográficos ”- INPE – São José dos Campos SP. Bibliografia
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.