Introdução a Descoberta de Conhecimento em Bancos de Dados Espaciais

Slides:



Advertisements
Apresentações semelhantes
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Advertisements

Sistemas de Localização baseados em
Felipe Carvalho – UFES 2009/2
Modelos de Mineração de Dados
Uma das tarefas descritivas da
CLIMATOLOGIA DA REGIÃO
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
Outliers Detecção de Anomalias
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Correção – Completude – Performance – Escalabilidade
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
ArcToolbox Carlos Ruberto Fragoso Júnior www. ctec. ufal
Usando ArcMap Carlos Ruberto Fragoso Júnior www. ctec. ufal
Mineração de Dados ou Descoberta de conhecimento em BDs
PRINCÍPIOS BÁSICOS EM GEOPROCESSAMENTO
ANÁLISE DE AGRUPAMENTO
A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003.
A Review of Algorithms for Audio Fingerprinting
Mineração de Dados Introdução.
Apresentação: Léia Michelle de Souza
Mining Frequent Patterns without Candidate Generation
SISTEMA DA INFORMAÇÃO GEOGRÁFICA
Aprendizado de Máquina
Mudanças Climáticas – bases físicas e incertezas
Link Mining Víctor Medeiros.
Aprendizagem de Máquina - Agrupamento
Predição de Relacionamentos
R ESOLUÇÃO DE E NTIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Tópicos Avançados de Base de Dados
K-Means / Clustering.
Combined Regression and Ranking
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Design Patterns / Acesso ao banco de dados (java.sql)
INFERÊNCIAS SOBRE OS PERFIS DE VESTIBULANDOS DOS CURSOS DE ENGENHARIA DO CEFET-MG UTILIZANDO A FERRAMENTA WEKA DE DATAMINING Aluna: Lúcia Salomé de Aguilar.
Avaliação de Clusteres Parte II
Introdução Indagações → Descobertas → Conhecimento → Tecnologia → Novos instrumentos → Indagações... Subdivisão das ciências → especializações; Teoria.
Introdução à Sintaxe Espacial
Fotografia automática
Capacidades do Data Warehouse
Modelos de Dados para Bancos de Dados Móveis
APLICANDO O PROCESSO DIRIGIDO POR RESPONSABILIDADES PARA A CRIAÇÃO DE UM SUBFRAMEWORK PARA VALIDAÇÃO SINTÁTICA DE FÓRMULAS Autores: Rafael Hornung Simone.
Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.
Microsoft Office Excel 2010
Uma Abordagem Baseada em Modelos para Detecção de Situações em Sistemas Sensíveis ao Contexto Izon Thomaz Mielke Orientadora: Patrícia Dockhorn Costa.
IV Congresso Brasileiro de Avaliação Psicológica V Congresso da Associação Brasileira de Rorschach e Métodos Projetivos XIV Conferência Internacional de.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Filtragem Colaborativa
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Combining Population and Environmental Data A Typology Approach based on Patterns and its Generative Processes Trajectories Building up Trajectories of.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Ricardo Ferreira Schiavo
UFPE-CIN SeminárioSeminário Erivan A. Andrade Jacques Robin Mineração de Exceções.
Probabilidade e Estatística para Avaliação de Desempenho
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Mineração de Dados: Introdução
Hugo Feitosa Yuri Lacerda.  Introdução  Projeto  Protótipo  Avaliação  Trabalhos Futuros  Conclusões.
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
Value type-based smart proxies: a concept for adaptable distributed applications Markus Aleksy, Ralf Gitzel ACM International Conference Proceeding Series;
Mineração de Grafos e Predição de Links
Aplicações em Redes Neurais Artificiais De acordo com Turbam, McLean e Wetherbe (2004), “a computação neural também pode ser combinada com outros sistemas.
PRINCÍPIOS BÁSICOS EM GEOPROCESSAMENTO
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
Transcrição da apresentação:

Introdução a Descoberta de Conhecimento em Bancos de Dados Espaciais Adaptado de material elaborado pelo Prof. Shashi Shekhar, University of Minnesota www.cs.umn.edu/~shekhar

Exemplo Histórico Cólera Asiática em Londres (1855): um poço identificado como a fonte do problema

Exemplos Modernos Clusters de pessoas com cancer para investigar a influência do ambiente Locais de concentração de crimes para planejar as rotas de patrulha da polícia Identificação de características onde certo tipo de águias fazem os ninhos Propagação do virus do Nilo do nordeste para o sul e o oeste dos EUA

Exemplos Modernos Aquecimento anormal de região do oceano Pacífico (El Niño) afeta o clima Average Monthly Temperature (Courtsey: NASA, Prof. V. Kumar) Global Influence of El Nino during the Northern Hemisphere Winter (D: Dry, W: Warm, R: Rainfall)

O que é um padrão espacial? O que não é um padrão? Aleatório, ao acaso, acidental O que é um padrão (pattern)? Um arranjo frequente, configuração, regularidade Uma regra, lei, método Uma direção ou tendência importante Uma irregularidade espacial importante

O que é descoberta de conhecimento em dados espaciais? Metáfora Minerando pepitas de informação “escondidas” em grandes bancos de dados pepitas= padrões espaciais não conhecidos, interessantes e úteis minerando= procurando por pepitas Definindo Data Mining Espacial Procura por padrões espaciais Procura não-trivial tão automática quanto possível (reduzindo o esforço humano) Padrões espaciais interessantes, úteis e inesperados (desconhecidos)

O que é data mining espacial?- 2 Busca não trivial por padrões espaciais interessantes e desconhecidos Busca não trivial Grande (ex. exponencial) espaço de busca de hipóteses plausíveis Ex. Cólera Asiática - causas plausíveis: água, alimento, ar, insetos, …; Interessante Útil em algum domínio de aplicação Ex. Desativando o poço identificado => salvar vidas humanas Inesperado O padrão não é conhecimento comum Pode levar a um novo entendimento do mundo Ex. A conexão Poço - Colera levou a teoria do “germe”

O que NÃO é data mining espacial? Consultas simples a dados espaciais Encontre os vizinhos de Porto Alegre dados os nomes e limites de todas as cidades Encontre o menor caminho do RS a SP na malha de rodovias O espaço de busca não é grande (não é exponencial) Testar uma hipótese através de uma análise simples de dados Ex. O território das chimpanzes femeas é menor do que o dos machos O espaço de busca não é grande ! Padrões espaciais não interessantes ou óbvios Muita chuva em Porto Alegre está correlacionada com muita chuva em Canoas, dado que as duas cidades são vizinhas. Conhecimento comum: lugares próximos tem precipitações similares Mineração de dados não espaciais As vendas de fraldas e cervejas são correlacionadas nas sextas-feiras

Porque estudar mineração de dados espaciais? Novo conhecimento dos processos geográficos para questões críticas Ex. Como está a saúde do planeta Terra? Ex. Caracterizar os efeitos da atividade humana para o ambiente e a ecologia Ex. Predizer o efeito do El Niño no clima e na economia Abordagem tradicional: gerar e testar hipóteses manualmente Mas os dados espaciais estão crescendo rápido demais para uma análise manual Imagens de satélite, trajetórias geradas por GPS, sensores em rodovias, … Número de hipóteses geográficas possíveis é grande demais para uma análise manual Grande número de objetos geográficos O número de relacionamentos entre os objetos cresce exponencialmente Ex. Encontre correlação entre eventos climáticos oceânicos e em terra firme Data Mining Espacial pode reduzir o conjunto de hipóteses plausíveis

Data Mining Espacial: os atores Especialista do domínio Identifica os objetivos da descoberta e fornece os bancos de dados espaciais Descreve o conhecimento do domínio, p.ex. padrões bem conhecidos Validação de novos padrões Analista de DCBD Espaciais Ajuda a identificar famílias de padrões e técnicas de data mining a serem usadas Explica a saída dos algoritmos para o especialista do domínio Esforço conjunto Seleção de atributos Seleção de padrões para análise aprofundada (mais detalhada)

Escolha de métodos Duas abordagens: Abordagem possível: Uso de técnicas específicas para mineração de dados espaciais Obtenção dos dados ou relacionamentos espaciais de interesse para uso com métodos de DM clássicos Abordagem possível: Defina o problema: obtenha as necessidades particulares Analise os dados usando mapas e outras técnicas de visualização Tente usar métodos clássicos de data mining Se não obtiver resultados satisfatórios, tente novos métodos Avalie os métodos escolhidos rigorosamente

Famílias de padrões espaciais Familias usuais de padrões espaciais Predição de localização (location prediction): onde um certo fenômeno ocorrerá? Interação espacial (spatial interaction): quais subconjuntos de objetos ou fenômenos espaciais interagem? Hot spots: quais localizações são não usuais? Nota: Outras famílias de padrões espaciais podem ser definidas Data mining espacial é um campo em desenvolvimento, que pode acomodar novas famílias de padrões

Predição de localização Questões a serem respondidas: Onde um fenômeno vai ocorrer? Que eventos espaciais são previsíveis? Como um evento espacial pode ser predito a partir de outros eventos espaciais? Equações, regras, outros métodos Exemplos: Onde um pássaro em extinção faz seus ninhos? Que áreas estão mais sujeitas a incêndio florestal considerando dados de vegetação, vento, etc.? O que poderia ser recomendado para um viajante que está em um certo local?

Hot spots Questões a serem respondidas: Exemplos: É um fenômeno espacialmente agrupado? Que entidade espaciais ou agrupamentos são não usuais? Que entidades espaciais compartilham características comuns? Exemplos: Regiões com alta incidência de cancer podem ser usadas para iniciar investigação Locais com alta incidência de crimes podem ser usados para planejar rotas de patrulha para a polícia

Propriedades únicas dos padrões espaciais Os items em dados tradicionais são independentes uns dos outros, Enquanto propriedades de localização em um mapa são frequentemente “auto-correlacionados” (ex: ilha e recurso hídrico). Dados tradicionais trabalham com domínios simples, p.ex. números e símbolos, Enquanto os tipos de dados espaciais são complexos (ex: linha, polígono) Itens em dados tradicionais descrevem objetos discretos, Enquanto dados espaciais são contínuos Primeira lei da geografia [Tobler]: Tudo está relacionado com tudo, mas coisas próximas estão mais relacionadas que coisas distantes. Pessoas com background similar tendem a viver na mesma área Economias de regiões próximas tendem a serem similares Mudanças na temperatura ocorrem gradualmente no espaço (e tempo)

Mapeando técnicas para as famílias de padrões espaciais Visão geral Existem várias técnicas para encontrar padrões espaciais de uma mesma família A escolha da técnica depende da seleção dos atributos, dos dados espaciais, etc. Famílias de padrões espaciais x técnicas Predição de localização: Classificação Interação espacial: Correlação, Associação, Co-locations Hot spots: Clustering, detecção de desvios

Location Prediction as a classification problem Given: 1. Spatial dataset (nest, vegetation, water, trees, etc..) 2. Characteristics (nests close to tree, close to water, etc) 3. A dependent class (nest) Find: Classification model Objective:maximize classification_accuracy Constraints: Spatial Autocorrelation exists Nest locations Distance to open water Vegetation durability Water depth

Co-location find patterns from the following sample dataset Answers: and find patterns from the following sample dataset

Association Rules (Agrawal 1993) Association rule is an implication of form X  Y Suport = #(XY) / #D, where #D is the number of rows in the dataset Confidence : suport(XY) / suport(X) Suport {AC} = 3/6 (50%) Confidence AC = 3/4 (75%) Generate frequent itemsets 1 Tid Itemset 1 A, C, D ,T, W 2 C, D, W 3 A, D, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T k Frequent itemsets with minsup 50% {A}, {C}, {D}, {T}, {W} k=1 {A,C}, {A,D}, {A,T}, {A,W}, {C,D}, k=2 {C,T}, {C,W}, {D,T}, {D,W}, {T,W} {A,C,D}, {A,C,W}, {A,D,T}, {A,D,W}, k=3 {A,T,W}, {C,D,T}, {C,D,W}, {D,T,W} k=4 {A,C,D,W}, {A,D,T,W} Extract association rules 2

Co-Location Patterns (Huang 2004, Yoo 2005) Input: Spatial dataset Distance threshold Minimum participation index Method Find neigbours Find co-location candidates Find frequent co-location sets Extract co-location rules

Co-location Mining A, B, C: Spatial Feature Types Spatial Dataset A, B, C: Spatial Feature Types A1, A2... Spatial Feature Instances Edges: neighbor

Co-location Mining Co-location instances Candidates of size k=2 B1 C2 A1 C1 A4 A2 A3 B2 B4 B3 C3 B5 Spatial Dataset Set of Spatial Feature Types {A, B, C} Candidates of size k=1 A B C 1 1 2 2 3 3 4 5 Candidates of size k=2 A B A C B C 1 1 2 2 1 4 3 1 4 1 4 5 3 Co-location instances

Co-location Mining Co-location instances Candidates of size k=2 B1 C2 A1 C1 A4 A2 A3 B2 B4 B3 C3 B5 Spatial Dataset Candidates of size k=1 A B C 1 1 2 2 3 3 4 5 Candidates of size k=2 A B A C B C 1 1 2 2 1 4 3 1 4 1 4 5 3 Co-location instances 3/4 2/5 2/4 2/3 3/5 2/3 Participation ratio

Co-location Mining Co-location instances Candidates of size k=2 B1 C2 A1 C1 A4 A2 A3 B2 B4 B3 C3 B5 Spatial Dataset Candidates of size k=2 A B A C B C 1 1 2 2 1 4 3 1 4 1 4 5 3 Co-location instances 2/5 2/4 3/5 Participation Index Lowest index

Co-location Mining Co-location instances Participation index B1 C2 A1 C1 A4 A2 A3 B2 B4 B3 C3 B5 Spatial Dataset Candidates of size k=3 A B C 3 4 1 Co-location instances 1/4 1/5 1/3 Participation index

Co-location Example Cropland with Roads Roads with Bridges Cropland Outliers? Cropland Roads Bridges

Outliers What is an outlier? What is a spacial outlier? Observations inconsistent with the rest of the dataset Techniques for global outliers tests based on membership in a distribution [item in population] is low tests based on distance, nearest neighbors, etc. What is a spacial outlier? Observations inconsistent with their neighborhoods A local instability or discontinuity

Outliers Global outliers have been defined as observations of data in databases which appear to be inconsistent with the remainder of the data in the database (Shekhar apud Barnett 1994). The identification of global outlier can lead to the discovery of unexpected knowledge, and has a number of practical applications in areas such as credit card fraud, athlete performance analysis, voting irregularity, and severe weather prediction (SHEKHAR, 2001). A spatial outlier is a spatially referenced object whose non-spatial attribute values are significantly different from those of other spatially referenced objects in its spatial neighborhood. For example, a new house in an old neighborhood of a growing metropolitan area is a spatial outlier based on the non-spatial attribute house age (SHEKHAR, 2003). Tests to detect spatial outliers separate the spatial attributes from the non-spatial attributes. Spatial attributes are used to characterize location, neighborhood, and distance. Non-spatial attributes are used to compare a spatial referenced object to its neighbors.

Spatial Outlier Detection: Example

Outliers - Examples River Road Bridge Map Production Error identification E.g., spatial object violation Road leading into water Or missing bridge Bridge location error River Road Bridge

Summary Patterns are opposite of random Common spatial patterns: location prediction, outliers, hot spots, SDM = search for unexpected interesting patterns in large spatial databases Spatial patterns may be discovered using Techniques like classification, associations, clustering and outlier detection New techniques are needed for SDM due to Spatial Auto-correlation Continuity of space

References Shekhar, S.; Huang, Y.Discovering Spatial Co-location Patterns: A Summary of Results , Proc. of 7th International Symposium on Spatial and Temporal Databases(SSTD01), L.A., CA, July 2001 HUANG, Y.; SHEKHAR, S.; XIONG, H. Discovering Co-location Patterns from Spatial Datasets: A General Approach. IEEE Transactions on Knowledge and Data Engineering, v.16, n.12, Dec. 2004. SHEKHAR, S.; LU, C.-T.; ZHANG, P. Detecting graph-based spatial outliers: algorithms and applications (a summary of results). In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, KDD, 7., 2001, San Francisco. Proceedings… ACM, 2001. p.371-376. SHEKHAR, S., CHAWLA, S. Spatial databases: a tour. Upper Saddle River, NJ: Prentice Hall, 2003. YOO, J.S.; SHEKHAR, S; CELIK, M. A Join-less Approach for Co-location Pattern Mining: A Summary of Results. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, ICDM, 5., 2005, Houston. Proceedings… IEEE Computer Society, 2005. p.813-816. AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining association rules between sets of items in large databases. In: ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, SIGMOD, 1993, Washington, D.C. Proceedings… New York: ACM Press, 1993. p. 207-216. X. Zhang, N. Mamoulis, D. W. L. Cheung, and Y. Shou, "Fast Mining of Spatial Collocations," Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), pp. 384-393, Seattle, WA, August 2004.