Mineração de Bancos de Dados Não Convencionais

Slides:



Advertisements
Apresentações semelhantes
INTELIGÊNGIA COMPUTACIONAL
Advertisements

Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
Lógica Fuzzy Aplicada a Sistemas de Diagnóstico
SISTEMAS DE INFORMAÇÃO
Otimização de Consultas em SQL Parte I - Planos de Execução e Equivalências de Expressões da Álgebra Relacional AULA 19 Profa. Sandra de Amo Programa.
Otimização de Consultas em SQL Planos de Execução e Equivalências de Expressões da Álgebra Relacional AULA 24 Profa. Sandra de Amo GBC053 – BCC
UML Diagrama de Classes elementos básicos. Contexto Os diagramas de classes fazem parte do da visão estática da UML. Os elemento desta visão são conceitos.
Capítulo 2 Data Preparation for Data Mining
PRINCÍPIOS BÁSICOS EM GEOPROCESSAMENTO
Curso de Cafeicultura de Precisão
Medida do Tempo de Execução de um Programa
Iana Alexandra Alves Rufino
Hashing (Espalhamento)
A FAST APRIORI implementation
Descoberta de Padrões usando Conhecimento Prévio
Using Concept Hierarchies in Knowledge Discovery
Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo
Visualização Neural Visualizando dados neurais para a medicina
Administração de Sistemas de Informação Banco de Dados
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
1 Fundamentos de SIG. - Sistemas de Informação
Autoria de Aplicações Hipermídia Daniel Schwabe Departamento de Informática PUC-Rio [ Parte 6 ]
IFSul – Campus Venâncio Aires
DISCIPLINA: SR, Geoprocessamento I e II e Cartografia A tecnologia do Geoprocessamento – Aplicações e Potencialidades 12/3/ Aula 5.
Gerenciamento de Dados
Sociedade da Informação: Ambiente de TI nas Organizações
Banco de Dados e Usuários do Banco de Dados (capítulo 1)
Tecnologia da Informação
Otimização de Consultas em SQL Planos de Execução
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Mineração da Web Recuperação de Informação
Modelos de Dados para Bancos de Dados Móveis
Data Mining: Conceitos e Técnicas
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
Sistemas de Informações Geográficas
BANCOS DE DADOS NÃO CONVENCIONAIS
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Aula 8. Classificação Não Supervisonada por Regiões
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
Spatial Data Warehouse Por: Camilo Porto. Apresentação  Revisando esquema estrela... limitações  Spatial Data Warehouse (SDW) Um modelo conceitual Estendendo.
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
Unidade 8: Apresentação dos Dados em Figuras, Gráficos e Tabelas
Classificação de Imagens de Sensoriamento Remoto
Manipulação de Mapa Cadastral de Objetos e Consulta ao Banco de Dados
Inferência Geográfica: Álgebra de Mapas - Linguagem LEGAL
Resolução de Problemas de Busca
Mineração de Dados: Introdução
Operações para entrada de dados –Compilação de dados codificação de dados geográficos de uma forma conveniente para o sistema; incluem a digitalização,
Sumário 1 SQL Embutida 2 Processamento de Consultas
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Descoberta em múltiplos níveis conceituais
Disciplina: Banco de Dados III
Operações para entrada de dados –Compilação de dados codificação de dados geográficos de uma forma conveniente para o sistema; incluem a digitalização,
Banco de Dados Universidade do Estado de Santa Catarina
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Dados em Geoprocessamento
Uso de Ontologias em Data Warehousing
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
PRINCÍPIOS BÁSICOS EM GEOPROCESSAMENTO
Projeto de Banco de Dados
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Copyright © 2011 Ramez Elmasri and Shamkant Navathe slide 1 Tópicos  Introdução  Um exemplo  Características da abordagem de banco de dados  Vantagens.
Análise do Sistema Alexandre Mota
Sincronização Lip Sync Sincronização cursor-voz Entre outras mídias.
Aula 1 – Parte II O PROBLEMA DA REPRESENTAÇÃO COMPUTACIONAL DO ESPAÇO
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Modelagem de Banco de Dados: Conceitos
Transcrição da apresentação:

Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Roteiro Bancos de dados não convencionais consultar BD multimídia (baseado em metadados ou contéudo) BD O-R e OO generalização por indução orientada a atributos e OLAP BD de planos BD espaciais regras de associação clustering classificação series espaço-temporais BD multimídia Generalização por indução orientada a atributos e OLAP Classificação e predição

Roteiro Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia

Bancos de dados não convencionais BD dedutivo BD probabilista BD indutivo BD temporal BD de restrições BD semi-estruturado Páginas web BD espacial BD objeto-relacional BD orientado a objetos BD multimídia

Bds Multimidia Armazena grande coleção de objetos multimidia Audio Imagem Video hipertexto

Revisão de alguns conceitos de representação de imagens Representações matriciais e vetoriais de imagens Orientação, textura (layout, density) Wavelet

Consultar Bds Multimidia Recuperação baseada em descrição Palavras chaves, titulos, tamanho, tempo de criação Manualmente: trabalhoso Automatizado: resultado de pouca qualidade Recuperação baseada em conteudo Histograma de cor Não leva em conta fatores espaciais Multiplas Caracteristicas Wavelet Captura forma, textura Problemas Wavelet baseada em regiões

Multi-Dimensional Search in Multimedia Databases Color layout

Multi-Dimensional Analysis in Multimedia Databases Histograma de Cor Layout de textura

Mining Multimedia Databases Refining or combining searches Search for “airplane in blue sky” (top layout grid is blue and keyword = “airplane”) Search for “blue sky and green meadows” (top layout grid is blue and bottom is green) Search for “blue sky” (top layout grid is blue)

Roteiro Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia

Minerando Tipos de Dados Complexos: Generalização de Dados Estruturados Set-valued Generalização de cada valor do conjunto em seu correspondente um nível acima de abstração Derivação do comportamento geral do conjunto, tal como o número de elementos, os tipos ou intervalo de valores, ou a média para dados numéricos hobby = {tênis, hóquei, xadrez, violino, atari} pode ser genérico para {esportes, música, vídeo_games} List-valued ou sequence-valued Igual a set-valued exceto que a ordem dos elementos deve ser mantida na generalização Minerando tipos de dados complexos   Uma grande quantidade de dados em vários formatos complexos (estruturado e não estruturado, hipertexto e multimídia) vem crescendo devido ao progresso das novas ferramentas, e das tecnologias para a Web. Então, é fica cada vez mais importante a tarefa de minerar tipos complexos de dados, incluindo objetos complexos, dados espaciais, dados multimídia, e a World Wide Web. Nessa apresentação, nós vamos examinar como aplicar as técnicas essenciais (como caracterização, associação, classificação, e agrupamento) e como desenvolver novas técnicas para lidar com tipos de dados complexos e realizar uma mineração mais proveitosa do conhecimento em repositórios de informação.

Generalizando Dados Espaciais e Multimídia Generaliza pontos geográficos detalhados agrupados em regiões, tal como business, residencial, industrial, ou agricultural, de acordo com o uso Requer a união de um conjunto de áreas geográficas através de operações espaciais Dados de imagem: Extraídos por agregação e/ou aproximação Tamanho, cor, forma, textura, orientação, e posições relativas dos objetos contidos ou regiões na imagem Dados musicais: Resumir esta melodia: baseado nos padrões aproximados que ocorrem repetidamente Resumir este estilo: baseado no tom, tempo, ou nos principais instrumentos tocados

Generalizando Dados do Objeto Identificador do objeto: generaliza para um nível menor na hierarquia de classes Hierarquia da composição das classes generaliza estruturas de dados aninhadas generaliza apenas objetos mais semelhantes semanticamente ao atual Construção e mineração de cubos de objetos Estende o método de indução orientado a atributo Aplica uma seqüência de operadores de generalizações baseadas em classes sobre os atributos Continua até conseguir um pequeno número de objetos genéricos que podem ser resumidos e concisos em termos de alto nível Por uma implementação eficiente Examina cada atributo, generaliza para um dado simple-valued Constrói um cubo de dados multi-dimensional Problema: nem sempre é desejável generalizar um conjunto de valores em um dado single-valued

Roteiro Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia

Um Exemplo: Planejamento de mineração Planejamento: uma seqüência variável de ações Viagem (vôo): <viajante, partida, chegada, hora-p, hora-c, companhia, preço, assento> Planejamento de mineração: extração de padrões genéricos mais significativos de uma base de planejamentos Descobrir padrões de viagens em uma base de vôos, ou achar padrões significativos em uma seqüência de ações no reparo de automóveis Método Indução orientada a atributo sobre uma seqüência de dados Um plano de viagem genérico: <pequeno-grande*-pequeno> (tamanho do aeroporto) Divide & conquer: Minera características para cada subseqüência grande*: mesma companhia aérea, pequeno-grande: região próxima

Uma Base de Viagens para um Planejamento de Mineração Exemplo: Minerando uma base de planejamento de viagens Tabela de planos de viagens Tabela de informações de aeroportos

Análise Multi-dimensional Estratégia Generaliza a base de planejamento em diferentes direções Procura por padrões seqüenciais nos planejamentos genéricos Deriva planejamentos de alto nível Modelo multi-dimensional para uma base de planejamento tamanho_aeroporto categoria #_passageiros subir hierarquicamente cidade estado região localização companhia parceiros linha_aérea

Generalização Multi-dimensional Generalização multi-dimensional de uma base de planejamento Unindo ações idênticas e consecutivas nos planos Vôo(x,y) ^ tamanho_aeroporto(x,S) ^ tamanho_aeroporto(y, L) > região(x) = região(y) [75%]

Mineração em Seqüência Baseada em Generalização Generaliza uma base de planejamento de forma multi-dimensional usando tabelas dimensionais Usa # para valores distintos (cardinalidade) a cada nível para determinar o nível correto da generalização (planejamento de níveis) Usa operadores * para unir (merge) e [] (opcional) para facilitar a generalização de padrões Retém padrões com apoio significativo

Padrões de Seqüência Genéricos Numa seqüência de tamanho_aeroporto, ficará uma que engloba todas as outras (aplicando o operador de união) S - L* - S [35%], L* - S [30%], S - L* [24.5%], L* [9%] Depois de aplicar o operador opcional: [S] - L* - [S] [98.5%] Na maioria das vezes, as pessoas viajam de grandes aeroportos para chegar ao destino Outro planos: 1.5% de chances, existem outros padrões: S - S, L- S - L

Roteiro Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia

Banco de dados espacial Dados relacionados ao espaço Mapas Sensoriamento remoto Chips VLSI Imagens médicas Informações topologicas e de distancia Mineração: relações espaciais Padrões

Dimensões e medidas em Data Warehouses espaciais numericas distributivo (e.x. count, sum) algebricas (e.x. média) holistica (e.x. mediana) espaciais Coleção de ponteiros para objetos espaciais em uma mapa (e.x. regiões com temperatura de 25-30 graus em julho) Dimensões Não-espacial E.x. temperatura: 25-30 Espacial para não espacial E.x. acre(objeto espacial) generalizado para string “região norte” Espacial para espacial e.x. acre (objeto espacial) para região norte (objeto espacial)

Esquema estrela of the BC Weather Warehouse 3000 medidores do clima na Columbia Britanica(BC) Cada medidor mede Temperatura e Precipitação Dimensões Nome da região tempo temperatura precipitação Medidas Região do mapa area contador Tabela de dimensão Tabela de fatos

Roll-up Por Temperatura Por Precipitação

Metodos para computação de cubos espaciais Não armazenar medidas Pré-computar todas as possiveis medidas Pré-computar estimativas Pré-computar apenas as mais acessadas

Regras de associação Regra de associação: A Þ B [s%, c%] A e B são conjuntos de predicados Relações topologicas Orientação espacial Informação de distancia s% suporte e c% confidencia e_um(x,cidade) e intercepta(x,estrada) -> adjacente(x,agua) [7%, 85%] e_um(X,”escola”) e perto_de(X,”centro esportivo” ) -> perto_de(X,”parque”) [0.5%,80%]

Regras de associação Refinamento Progressivo Minerar relação perto_de Deve preservar todas as respostas possiveis Minerar relação perto_de Aplicar algoritmo impreciso Intersecção entre retangulos

Classificação e Analise de tendencias Exemplo: regiões ricas x regiões pobres Determinar regiões Tendencias Espaciais Temporais

Roteiro Bancos de dados não convencionais BD O-R e OO BD de planos BD espaciais BD multimídia

Análise Multidimensional e OLAP MultiMediaMiner Descritor de caracteristicas Conjunto de vetores para caracteristicas visuais Histograma de cores quantizado Cor mais frequente Descritor de layout Imagens transformadas em grade 8X8 Armazena informações para celulas da grade

Minerando banco de dados multimidia MultiMediaMiner

Minerando banco de dados multimidia Three Dimensions JPEG GIF Small Very Large RED WHITE BLUE By Colour By Format & Colour By Format & Size By Colour & Size By Format By Size Sum The Data Cube and the Sub-Space Measurements Medium Large Two Dimensions RED WHITE BLUE GIF JPEG By Format By Colour Sum Cross Tab Format of image Duration Colors Textures Keywords Size Width Height Internet domain of image Internet domain of parent pages Image popularity Dimensions RED WHITE BLUE Colour Sum Group By Measurement

Regras de associação Entre imagem – não imagem 50% de azul no topo da figura -> representa céu Entre imagens sem relação espacial figura contem dois quadrados azuis -> circulo vermelho Entre imagens relacionadas espacialmente Triangulo vermelho entre dois quadrados amarelos -> grande circulo abaixo Uso de resolução progressiva Garantir completude Recorrencia Relações espaciais

Minerando banco e dados multimidia Relações espaciais property P1 on-top-of property P2 property P1 next-to property P2 Different Resolution Hierarchy

Predição e Classificação Pré-computação para descobrir atributos Exemplo de interface: