BANCOS DE DADOS NÃO CONVENCIONAIS

Slides:



Advertisements
Apresentações semelhantes
EBSCOhost Estilo guiado de pesquisa avançada
Advertisements

Um pouco mais de cardinalidade e Relacionamentos
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
INTELIGÊNGIA COMPUTACIONAL
Lógica Fuzzy Aplicada a Sistemas de Diagnóstico
SISTEMAS DE INFORMAÇÃO
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
Modelo Entidade-Relacionamento
O COEFICIENTE DE HURST E O COEFICIENTE DE VARIAÇÃO ESPACIAL NA SEGMENTAÇÃO DE TEXTURAS MULTIESPECTRAIS Dra Aura Conci Éldman Oliveira Nunes.
Capítulo 2 Data Preparation for Data Mining
Curso de Cafeicultura de Precisão
Reconhecimento de Padrões Segmentação
Iana Alexandra Alves Rufino
Recursividade Conceitos e Aplicações.
A FAST APRIORI implementation
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Jian Pei, Jiawei Han e Runying Mao Apresentação preparada por Alexandre Lorenzatti.
Para ações em Vigilância do Óbito
Capítulo 6 Sistemas de Arquivos 6.1 Arquivos 6.2 Diretórios
Paulo Sérgio Rodrigues PEL205
Análise Léxica Supondo o trecho de programa abaixo:
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Sistemas de Informações Geográficas
POWER POINT O POWER POINT é um editor de apresentações, pertencente ao
TOpico Especial 1: Banco de Dados Geográfico
Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo
Paulo J Azevedo Departamento de Informática
Administração de Sistemas de Informação Banco de Dados
Data Mining, Data Warehousing e OLAP
Sistemas Multimídia e Interface Homem-Máquina
1 Fundamentos de SIG. - Sistemas de Informação
Desenvolvimento de Sistemas OLAP
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Treinamento do Microsoft® Access® 2010
Autoria de Aplicações Hipermídia Daniel Schwabe Departamento de Informática PUC-Rio [ Parte 6 ]
Rodrigo Cristiano Silva
DISCIPLINA: SR, Geoprocessamento I e II e Cartografia A tecnologia do Geoprocessamento – Aplicações e Potencialidades 12/3/ Aula 5.
Sociedade da Informação: Ambiente de TI nas Organizações
Modelos de Dados para Bancos de Dados Móveis
Mineração na Web Introdução a Recuperação de Informação
Data Mining: Conceitos e Técnicas
Sistemas Especialistas
Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva.
Sistemas de Informações Geográficas
A abordagem de banco de dados para gerenciamento de dados
Análise Orientado aos Objetos Prof. Wolley W. Silva
Aula 8. Classificação Não Supervisonada por Regiões
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
Unidade 8: Apresentação dos Dados em Figuras, Gráficos e Tabelas
Desenho basico de arquitetura
Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Sumário 1 SQL Embutida 2 Processamento de Consultas
Sistemas de Apoio à Decisão (SAD) Decision Support Systems
Mineração de Bancos de Dados Não Convencionais
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Descoberta em múltiplos níveis conceituais
Operações para entrada de dados –Compilação de dados codificação de dados geográficos de uma forma conveniente para o sistema; incluem a digitalização,
Dados em Geoprocessamento
Uso de Ontologias em Data Warehousing
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Projeto de Banco de Dados
Análise de Componentes Principais
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Pearson Education Sistemas Operacionais Modernos – 2ª Edição 1 Sistemas de Arquivos Capítulo Arquivos 6.2 Diretórios 6.3 Implementação do sistema.
Copyright © 2011 Ramez Elmasri and Shamkant Navathe slide 1 Tópicos  Introdução  Um exemplo  Características da abordagem de banco de dados  Vantagens.
Aula 1 – Parte II O PROBLEMA DA REPRESENTAÇÃO COMPUTACIONAL DO ESPAÇO
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Transcrição da apresentação:

BANCOS DE DADOS NÃO CONVENCIONAIS MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

BDs NÃO CONVENCIONAIS BDs de estrutura complexa BDs de Planos BDs Espaciais BDs Multimedia Arquivos flat Web Estudamos até agora os BDS convencionais, tais como BDs relacionais, BDs transacionais e DW (integração de dados estruturados). Tem crescido o número de dados em estruturas complexas, portanto surge a importância da mineração desses dados.

BDs DE ESTRUTURA COMPLEXA Aspecto relevante : GENERALIZAÇÃO Generalização de atributos multivalorados : Atributos com conjunto de valores (set-valued data) Atributos com lista de valores (list-valued data) Atributos com estruturas aninhadas (nested structured data) Generalização é uma tarefa importantíssima em mineração de dados complexos . Como generalizar estrutura de dados complexa ?

Atributos com conjunto de valores (set-valued data) Generalização de cada valor do conjunto para hierarquia de nível mais alto ex : alimento = {maçã, uva, couve-flor, cebola, arroz} generalização pode ser {frutas, verduras, cereais} ou Derivação do comportamento geral do conjunto Número de elementos, tipos ou intervalos de valores, média para dados numéricos ; Derivação : P/ valores numéricos, a média do conjunto total de valores, por exemplo.

Atributos com lista de valores (list-valued data) Generalização semelhante à de atributos com conjunto de valores, exceto que a ordem dos elementos deve ser mantida na generalização ; Uma lista pode ser generalizada excluindo-se os elementos menos importantes ou mantendo apenas o mais importante: ex: Atributo historico_escolar =((Tecnico em contabilidade, Esc.Tecnica, 1990),(Mestrado em Matemática, UFPE, 1994),(Doutorado em Matemática, UFPE, 1998)) ; Manter, por exemplo : (Doutorado em Matemática, UFPE, 1998)

Atributos com estruturas aninhadas (nested structured data) Um atributo complexo pode conter conjuntos, listas, registros, árvores, e a combinação destes, onde uma estrutura pode estar aninhada em outra. Generalização : 1. Generalizar cada atributo da estrutura e manter o formato da estrutura ; 2. Transformar a estrutura num flat file e generalizá-la a partir daí ; 3. Retornar o tipo da estrutura ; Estruturas aninhadas : Objeto - atributos do tipo lista e conjunto

Generalização em BDs Espaciais Agregação e aproximação : Generalização de pontos geográficos em grupos de regiões tais como regiões de negócio, residencial, agricultura ou indústria de acordo com o uso da terra ; Ex : Temos pedaços de terra com vários objetivos. Estes podem ser agregados em um grande pedaço de terra para agricultura através de uma operação de merge espacial . No entanto, este pedaço de terra pode conter casas, rodovias ... Se a maioria da região é usada para agricultura, regiões com outros objetivos podem ser descartadas.

Generalização em BDs Multimidia Reconhecimento e extração de características essenciais ou padrões gerais ; Imagem : Tamanho, cor, formato podem ser extraídos por agregação ou aproximação ; Música : Resumo Melodia => Padrões que ocorrem repetidamente no segmento ; Resumo Estilo => Baseado no tom, tempo ou principais instrumentos tocados ;

GENERALIZAÇÃO Identificadores de Objetos e Classes 1 - O OID é generalizado para o ID da mais baixa subclasse à qual o objeto pertence ; 2 - O ID da subclasse é generalizado para o ID da classe escalando-se um nível acima na hierarquia de classes ; 3 - Similarmente, uma classe pode ser generalizada para sua super-classe correspondente escalando-se um nível acima na hierarquia de classes ; Pessoa (classe) homem mulher (subclasse) Carlos (objeto)

Mineração de cubos de objetos Estende-se o Método de Indução Orientado a Atributo , visto em mineração de características em BDs relacionais ; Aplica-se uma sequência de operadores de generalização baseado em classes ; Controle do limite da generalização : Até a classe resultante conter um número pequeno de objetos ; Por eficiência : Cada atributo multivalorado de um objeto complexo é generalizado para conter dados simples, univalorados ; Constrói-se um Cubo de Objetos ; Problema : Nem sempre é desejável se generalizar dados multivalorados ! Método de Indução Orientada a Atributo em BDs relacionais : - Colecionam-se os atributos mais relevantes ; - Faz-se a generalização baseada no número de valores distintos de cada atributo . Cubo de objetos : Cubo de dados multidimensional ; Problema :Nem sempre é desejável se generalizar dados multivalorados ! Ex: atributo palavra-chave que descreve um livro. Desafio : Técnicas para gerenciamento de dados multivalorados em cubos de objetos e em mineração de dados baseados em objeto ;

BANCOS DE DADOS DE PLANOS PLANO : Sequência variada de ações ; BD de Planos : Coleção de planos ; Mineração de plano : Tarefa de se minerar conhecimento ou padrões significantes de um BD de Planos .

Exemplo - Plano de vôo Como minerar esta base de planos ?

Mineração da base Passos : (1) Generalizar a Base de planos em diferentes direções usando o modelo multidimensional ; (2) Observar planos generalizados que possuem padrões em comum e sequenciais interessantes com bom suporte ; (3) Derivar planos concisos de alto nível ;

Visão Multidimensional Ex : num_passageiros < 50.000 => categoria = “S” num_passageiros > 50.000 => categoria = “L”

Generalização Multidimensional Operador de merge : + Ação opcional : [ ] [S] - L+ - [S] [98,5%] 98,5% dos planos de vôo iniciam, possivelmente, em um aeroporto pequeno, passando por aeroportos grandes (um ou mais), e, finalmente, terminam em um aeroporto possivelmente pequeno. Daí, podemos encontrar padrões sequenciais genéricos, como : [S] - L+ - [S] [98,5%]

Estratégia dividir pra conquistar Ao encontrar um padrão genérico com um suporte alto, podemos particionar o plano base em subplanos ; A partir daí, mineramos cada subsequência para encontrar características em comum ; Para o exemplo dado, podemos gerar a regra : vôo(x,y) ^ categoria(x,S) ^ categoria(y,L) => região(x) = região(y) [75 %] O plano base é particionado em subplanos base e características interessantes são descobertas pelo processo de mineração de dados . Num vôo direto de um aeroporto pequeno para um grande, existe 75% de probabilidade destes pertencerem a uma mesma região.

BANCOS DE DADOS ESPACIAIS Armazena grande quantidade de dados relacionados ao espaço : Imagens médicas Mapas Navegação Controle tráfego aéreo Armazena informações topológicas e de distância Desafio em mineração : Encontrar técnicas eficientes de mineração (grande quantidade de dados , complexidade de tipos e de métodos de acesso)

Construção de D.W. Espacial Desafios : Integração de dados de vários sistemas e fontes heterogêneas Estrutura baseada em vetores, objetos ou relacionais Fornecedor : Mapinfo, intergraph ... Realização de OLAP rápido e flexível em DW espacial Algumas dimensões e medidas possuem comportamento espacial Construção de um DW para facilitar o trabalho de Mineração de Dados

Cubos de dados espaciais Três dimensões presentes : Dimensão não-espacial ex: temperatura : 35 a 45 º C --> quente Dimensão espacial p/ não -espacial ex: Pernambuco --> “região _nordeste” Dimensão espacial p/ espacial ex : Pernambuco --> Nordeste Dois tipos de medidas : Medida numérica Distributiva: Obtida pela aplicação da função de agregação ex: count() Algébrica: Obtida pela aplicação da função algébrica ex: avg = sum()/count() Holística : Não deriva de função algébrica ex: Median() Medida espacial ex: Coleção de ponteiros para região de mesma temperatura Gerenalização --> (símbolo) Pernambuco : tipo região (Rep. Mapa) Região_nordeste : Apesar de ser um conceito espacial, o tipo é string

DW espacial: BC_weather Esquema estrela :

OPERAÇÕES DE ROLL-UP Por Precipitação Por Temperatura Temperatura : intervalos em ºC Precipitação : seco, úmido, moderado

Computação de medidas espaciais em cubos de dados Dilema : armazenamento x custo computacional Armazenamento de ponteiros para objetos sem pré-computação de medidas espaciais Pré-computação e armazenamento aproximado de medidas espaciais ex: estimativa de região um retângulo - MBR (min.bounding rectangle) pode ser visto como uma estimativa grosseira do mapa de uma região Materialização de porções de cubos que mais se tem acesso Examinar cada grupo de obj. espaciais que podem sofrer merge

Regras de associação espacial Forma : A => B [s%,p%] é_uma (X,”escola”)^perto_de(X,”clube”) => perto_de(X,”parque”) [0.5%,80%] Predicados espaciais : perto_de , longe_de (relacionado a distância) intercepta, sobrepõe (relacionado a topologia) à_esquerda, à_direita, à_oeste (orientação espacial) A regra lê-se : 80% das escolas localizadas perto de clubes também são perto de parques. Em 0.5 % dos dados ocorre este caso

Classificação e análise de tendência Classificação de regiões : rica x pobre (propriedades associadas a objetos espaciais) ex: possui universidade ? Shoppings ? Análise de tendência (espacial e temporal) Mudança de dados (espaciais ou não) com o espaço ex: Distância do oceano muda clima e vegetação Mudança de padrões com o tempo e espaço ex : Fluxo de tráfego em rodovias e cidades

BDs MULTIMIDIA Armazenam e gerenciam objetos multimídia, tais como imagem, audio, vídeo, hipertexto Sistemas de recuperação de similaridades em imagens : Baseado em descrição : Manualmente : laborioso Automaticamente : resultado de baixa qualidade Ex: palavra-chave, título, tamanho, tempo de criação Polissemia : uma só forma com mais de um significado Baseado em conteúdo : Usa características visuais para indexar imagens e fazer a recuperação baseada em similaridade com outras imagens Ex: Textura, forma, cor, objetos Baixa qualidade : - Atribuição de palavras-chaves pode ser enganosa ou arbitrária ex : manga (Polissemia) 1- de camisa ou candeeiro 2 - Fruta Semânticas diferentes

MultiMediaMiner Sistema de mineração de dados multimídia Imagem : grid 8 x 8 Cada imagem contém dois descritores : Descritor de características Imagem original não é armazenada diretamente no BD, mas nome do arquivo, URL, tipo da imagem, URLs pais Descritor de layout Vetor de cores - cor mais frequente em cada uma das 64 células Vetor de margens - Número de lados em cada uma das células Tipo da imagem : jpeg, gif, bmp URLs pais : Fazem referência à imagem

MultiMediaMiner Dimensões em cubo de dados multimídia :

MultiMediaMiner Thumbnails Selecting (and browsing) data sets of images using keyword hierarchy: Thumbnails of images and video frames in the database can be browsed with MultiMediaMiner user interface. In this example thumbnails of commercial airplanes pertaining to the airliner Boeing are displayed. This user interface also allows the selection of a multimedia data set to be mined. The hierarchy of keywords on the left is a section of the concept hierarchy automatically generated by visiting some web sites containing aircraft images. By selecting a keyword, the images associated with the word and its descendents are selected. By clicking on a thumbnail, the image from the web and a list of links to the web pages that contain it are displayed.

Minerando associações Que tipos de associação podem ser mineradas em BDs multimídia ? Três categorias de associação : Associação entre conteúdo de imagem e de não-imagem Se 50% da parte superior da imagem é azul então é “céu” Associação entre conteúdo de imagens não relacionadas ao espaço Se imagem possui dois quadrados azuis então contém círculo vermelho Associação entre conteúdo de imagens relacionadas ao espaço Se imagem possui um triângulo vermelho entre dois quadrados então contém grande círculo abaixo

Mineração de regras de associações BDs transacionais x BDs multimídia Refinamento progressivo de resolução : Uma imagem pode conter muitos objetos com características diferentes, tais como cor, forma, textura ... semelhança de características numa resolução baixa podem diferir em uma resolução melhor; Uma figura contendo dois objetos iguais difere daquela contendo apenas um objeto do mesmo tipo em BDs multimídia. Em BDs transacionais, a pessoa comprar uma ou duas caixas de leite é tratado como o mesmo atributo compra_leite ; Existem relações espaciais entre objetos multimídia, tais como acima, através de , abaixo, à esquerda ...

Conclusão A cada dia , mais e mais dados são armazenados de forma complexa, estruturados ou não estruturados, hipertexto e multimídia ; Mineração de tipos complexos de dados, tais como objetos, dados espaciais, multimídia, dados seriais-temporais, textos e web tem se tornado uma tarefa muito importante ; Mineração de dados complexos ainda está em fase inicial, e muitos desafios ainda terão de ser superados.

Bibliografia Han, Jiawei. Kamber, Micheline. Data Mining: Concepts and Techniques - Morgan Kaufmann Publishers. MultiMediaMiner. Site - http://db.cs.sfu.ca/MMMiner Bechara, Evanildo. Moderna Gramática Portuguesa - Editora Lucerna / Rj - 2000