A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Agrupamento de Dados: uma Revisão Data Clustering

Apresentações semelhantes


Apresentação em tema: "Agrupamento de Dados: uma Revisão Data Clustering"— Transcrição da apresentação:

1 Agrupamento de Dados: uma Revisão Data Clustering
Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado em Informatica

2 O que é Agrupamento de Dados?
Qual a utilidade? Nivelamento

3 Roteiro Contextualização; Processo de Agrupamento;
Agrupamento de Dados; Uma Aplicacão: Mineração de Dados; Considerações Finais. Bibliografia Roteiro

4 Análise Automática dos Dados
Motivação É crescente a migração dos dados para a mídia digital; Na informação reside o conhecimento; O volume de informação é cada vez maior; Análise Automática dos Dados Contextualização

5 Análise Automática de Dados
Previsão de Dados Fluxo de Caixa Previsto Classificação de Dados Relatório gerado segundo consulta Análise de Agrupamentos Data Mining – Mineração de Dados Contextualização

6 Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos
Objetivo Processo de Agrupamento . Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos

7 Seleção e tratamento dos dados; Agrupamento de dados;
Etapas Seleção e tratamento dos dados; Agrupamento de dados; Análise dos resultados; Processo de Agrupamento

8 Seleção e Tratamento de Dados
Eliminação de dados duplicados ou corrompidos; Tratamento de outliers; Valores faltantes ou inválidos; Transformação dos dados; Tratamento de Atributos: Adequar os diferentes tipos de atributos para o processo de agrupamento. Normalização: Tratar dados com atributos de diferentes dimensões, quando se pretende que eles tenham a mesma influência no processo. Processo de Agrupamento

9 Medidas de proximidade
Agrupamento de Dados Métodos: Hierárquicos; Segmentação; Medidas de proximidade Dissimilaridade Similaridade Processo de Agrupamento

10 Métricas comuns em medidas de proximidade
Agrupamento de Dados Métricas comuns em medidas de proximidade Processo de Agrupamento Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan

11 Análise dos resultados
Gráfico da Silhueta Processo de Agrupamento Figura 3: Gráfico da Silhueta

12 Análise dos resultados
Valores da Silhueta Valor Descrição 0,71 – 1,00 Uma estrutura forte foi encontrada. 0,51 – 0,70 Uma estrutura razoável foi encontrada. 0,26 – 0,50 A estrutura é fraca e pode ser superficial. ≤0,25 Nenhuma estrutura substancial foi encontrada. Processo de Agrupamento Tabela 1: Valores da Silhueta

13 Métodos Hierárquicos Os dados são segmentados sucessivamente, produzindo uma representação hierárquica dos agrupamentos Tipos: Aglomerativos; Divisivos; Agrupamento de Dados

14 Figura 3: Método Hierárquico Aglomerativo
Métodos Hierárquicos Aglomerativos Agrupamento de Dados Figura 3: Método Hierárquico Aglomerativo

15 Métodos Hierárquicos Aglomerativos Agrupamento de Dados
Principais desvantagens: Os agrupamentos não podem ser corrigidos; Requerem muito espaço de memória e tempo de processamento; Agrupamento de Dados

16 Figura 4: Método Hierárquico Divisivo
Métodos Hierárquicos Divisivos Agrupamento de Dados O Figura 4: Método Hierárquico Divisivo

17 Métodos Hierárquicos Divisivos Agrupamento de Dados
Principais vantagens Considera muitas divisões no primeiro passo; Principais desvantagens: Capacidade computacional maior que os hierárquicos aglomerativos (grande número de combinações); Requerem muito espaço de memória e tempo de processamento Agrupamento de Dados

18 Métodos de Segmentação
Constroem uma única partição k grupos, isto é, classificam os dados em k grupos Cada grupo deve conter no mínimo um objeto; Todo objeto foi atribuído a um grupo. Tipos: Exclusivos Cada objeto pertence a exatamente um grupo Não-exclusivos A escolha do grupo do objeto é definida com base no grau de pertinência do mesmo Agrupamento de Dados

19 Mineração de Dados Contextualização
“A extração de Conhecimento de base de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” (Fayyad, Piatetsky-Shapiro e Smyth citado por Rezende) Contextualização

20 Motivação Contextualização Grandes volumes de dados heterogêneos;
Necessidade de técnicas para extrair a informação que realmente seja relevantes. Contextualização

21 Abordagem da Mineração de Dados
Segmentação; Modelos de predição; Visualização; Mineração de Dados e Agrupamento

22 Abordagem da Mineração de Dados
Segmentação : Os métodos de agrupamento são utilizados para segmentar bases de dados em grupos homogêneos Mineração de Dados e Agrupamento

23 Abordagem da Mineração de Dados
Modelos de Prediticao : Usam o agrupamento de dados para agrupar itens, a fim de inferir regras, caracterizar os grupos e sugerir modelos. Mineração de Dados e Agrupamento

24 Abordagem da Mineração de Dados
Visualização: o agrupamento de dados pode ser utilizado como tecnica que permite observar as informacoes em diferentes niveis e estruturas. Mineração de Dados e Agrupamento

25 Aplicações citadas pelo autores
Mineração em dados não estruturados WWW; Mineração em banco de dados geológicos; Mineração de Dados

26 Exemplo Banco de Dados Geológicos
Regiao do Alasca Aplicações - Mineração de Dados

27 Exemplo Banco de Dados Geológicos
Regiao do Alasca Aplicações - Mineração de Dados

28 Mineração de dados da bacia do Alaska
Definição do contexto Descoberta das estruturas primitivas para agrupamento; Definição do contexto em termos relevantes para agrupamento homogêneos de dados; Aplicação do algoritmo k-medias Aplicações - Mineração de Dados

29 Algoritmo K-medias Mineração de Dados Bacia do Alaska
Algoritmo de agrupamento que segmenta os objetos em conjuntos de elementos semelhantes, segundo algum criterio Mineração de Dados Bacia do Alaska

30 Algoritmo K-medias Etapas Define-se o número de grupamentos;
Inicia-se os agrupamentos através de atributos arbitrários ou centróides; Atribuição das amostras Volta-se ao passo 3 até um critério de convergência ser cumprido; Mineração de Dados Bacia do Alaska

31 Algoritmo K-medias Mineração de Dados Bacia do Alaska
Inicialização dos centróides Atribuição das amostra Procura de Novos centróides

32 Como escolher um método?
Tipo de atributos que o algoritmo opera; Escalabilidade para grandes conjuntos de dados; Definição da melhor métrica de similaridade; Habilidade de operar com uma dimensão grande de variáveis; Considerações Finais

33 Como escolher um método?
Tratar valores discrepantes (outliers); Tempo de execução; Dependência de ordem dos dados; Interpretabilidade dos resultados. Considerações Finais

34 Dependência dos usuários Considerações Finais
Problemas Ferramentas atuais Dependência dos usuários Informação para início do processo Capacidade de interpretação dos resultados Decisão sobre a utilização do método adequado Considerações Finais

35 Básica Complementar Bibliografia
Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data Clustering: A Review” – ACM computing Surveys, vol. 31, nº 3, september 1999. Complementar Vale, Marcos Neves do. “Agrupamentos de dados : avaliação de métodos e desenvolvimento de aplicativo para análise de grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo Tanscheit. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2005. Rezende, Solange de Almeida “Mineração de Dados ” Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis Ferreira, gilberto Câmara, Jão Argemiro C. Paiva – “Programação Genética Aplicada a Algoritmos Geográficos ”- INPE – São José dos Campos SP. Bibliografia


Carregar ppt "Agrupamento de Dados: uma Revisão Data Clustering"

Apresentações semelhantes


Anúncios Google