A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

BANCOS DE DADOS NÃO CONVENCIONAIS

Apresentações semelhantes


Apresentação em tema: "BANCOS DE DADOS NÃO CONVENCIONAIS"— Transcrição da apresentação:

1 BANCOS DE DADOS NÃO CONVENCIONAIS
MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

2 BDs NÃO CONVENCIONAIS BDs de estrutura complexa BDs de Planos
BDs Espaciais BDs Multimedia Arquivos flat Web Estudamos até agora os BDS convencionais, tais como BDs relacionais, BDs transacionais e DW (integração de dados estruturados). Tem crescido o número de dados em estruturas complexas, portanto surge a importância da mineração desses dados.

3 BDs DE ESTRUTURA COMPLEXA
Aspecto relevante : GENERALIZAÇÃO Generalização de atributos multivalorados : Atributos com conjunto de valores (set-valued data) Atributos com lista de valores (list-valued data) Atributos com estruturas aninhadas (nested structured data) Generalização é uma tarefa importantíssima em mineração de dados complexos . Como generalizar estrutura de dados complexa ?

4 Atributos com conjunto de valores (set-valued data)
Generalização de cada valor do conjunto para hierarquia de nível mais alto ex : alimento = {maçã, uva, couve-flor, cebola, arroz} generalização pode ser {frutas, verduras, cereais} ou Derivação do comportamento geral do conjunto Número de elementos, tipos ou intervalos de valores, média para dados numéricos ; Derivação : P/ valores numéricos, a média do conjunto total de valores, por exemplo.

5 Atributos com lista de valores (list-valued data)
Generalização semelhante à de atributos com conjunto de valores, exceto que a ordem dos elementos deve ser mantida na generalização ; Uma lista pode ser generalizada excluindo-se os elementos menos importantes ou mantendo apenas o mais importante: ex: Atributo historico_escolar =((Tecnico em contabilidade, Esc.Tecnica, 1990),(Mestrado em Matemática, UFPE, 1994),(Doutorado em Matemática, UFPE, 1998)) ; Manter, por exemplo : (Doutorado em Matemática, UFPE, 1998)

6 Atributos com estruturas aninhadas (nested structured data)
Um atributo complexo pode conter conjuntos, listas, registros, árvores, e a combinação destes, onde uma estrutura pode estar aninhada em outra. Generalização : 1. Generalizar cada atributo da estrutura e manter o formato da estrutura ; 2. Transformar a estrutura num flat file e generalizá-la a partir daí ; 3. Retornar o tipo da estrutura ; Estruturas aninhadas : Objeto - atributos do tipo lista e conjunto

7 Generalização em BDs Espaciais
Agregação e aproximação : Generalização de pontos geográficos em grupos de regiões tais como regiões de negócio, residencial, agricultura ou indústria de acordo com o uso da terra ; Ex : Temos pedaços de terra com vários objetivos. Estes podem ser agregados em um grande pedaço de terra para agricultura através de uma operação de merge espacial . No entanto, este pedaço de terra pode conter casas, rodovias ... Se a maioria da região é usada para agricultura, regiões com outros objetivos podem ser descartadas.

8 Generalização em BDs Multimidia
Reconhecimento e extração de características essenciais ou padrões gerais ; Imagem : Tamanho, cor, formato podem ser extraídos por agregação ou aproximação ; Música : Resumo Melodia => Padrões que ocorrem repetidamente no segmento ; Resumo Estilo => Baseado no tom, tempo ou principais instrumentos tocados ;

9 GENERALIZAÇÃO Identificadores de Objetos e Classes
1 - O OID é generalizado para o ID da mais baixa subclasse à qual o objeto pertence ; 2 - O ID da subclasse é generalizado para o ID da classe escalando-se um nível acima na hierarquia de classes ; 3 - Similarmente, uma classe pode ser generalizada para sua super-classe correspondente escalando-se um nível acima na hierarquia de classes ; Pessoa (classe) homem mulher (subclasse) Carlos (objeto)

10 Mineração de cubos de objetos
Estende-se o Método de Indução Orientado a Atributo , visto em mineração de características em BDs relacionais ; Aplica-se uma sequência de operadores de generalização baseado em classes ; Controle do limite da generalização : Até a classe resultante conter um número pequeno de objetos ; Por eficiência : Cada atributo multivalorado de um objeto complexo é generalizado para conter dados simples, univalorados ; Constrói-se um Cubo de Objetos ; Problema : Nem sempre é desejável se generalizar dados multivalorados ! Método de Indução Orientada a Atributo em BDs relacionais : - Colecionam-se os atributos mais relevantes ; - Faz-se a generalização baseada no número de valores distintos de cada atributo . Cubo de objetos : Cubo de dados multidimensional ; Problema :Nem sempre é desejável se generalizar dados multivalorados ! Ex: atributo palavra-chave que descreve um livro. Desafio : Técnicas para gerenciamento de dados multivalorados em cubos de objetos e em mineração de dados baseados em objeto ;

11 BANCOS DE DADOS DE PLANOS
PLANO : Sequência variada de ações ; BD de Planos : Coleção de planos ; Mineração de plano : Tarefa de se minerar conhecimento ou padrões significantes de um BD de Planos .

12 Exemplo - Plano de vôo Como minerar esta base de planos ?

13 Mineração da base Passos :
(1) Generalizar a Base de planos em diferentes direções usando o modelo multidimensional ; (2) Observar planos generalizados que possuem padrões em comum e sequenciais interessantes com bom suporte ; (3) Derivar planos concisos de alto nível ;

14 Visão Multidimensional
Ex : num_passageiros < => categoria = “S” num_passageiros > => categoria = “L”

15 Generalização Multidimensional
Operador de merge : + Ação opcional : [ ] [S] - L+ - [S] [98,5%] 98,5% dos planos de vôo iniciam, possivelmente, em um aeroporto pequeno, passando por aeroportos grandes (um ou mais), e, finalmente, terminam em um aeroporto possivelmente pequeno. Daí, podemos encontrar padrões sequenciais genéricos, como : [S] - L+ - [S] [98,5%]

16 Estratégia dividir pra conquistar
Ao encontrar um padrão genérico com um suporte alto, podemos particionar o plano base em subplanos ; A partir daí, mineramos cada subsequência para encontrar características em comum ; Para o exemplo dado, podemos gerar a regra : vôo(x,y) ^ categoria(x,S) ^ categoria(y,L) => região(x) = região(y) [75 %] O plano base é particionado em subplanos base e características interessantes são descobertas pelo processo de mineração de dados . Num vôo direto de um aeroporto pequeno para um grande, existe 75% de probabilidade destes pertencerem a uma mesma região.

17 BANCOS DE DADOS ESPACIAIS
Armazena grande quantidade de dados relacionados ao espaço : Imagens médicas Mapas Navegação Controle tráfego aéreo Armazena informações topológicas e de distância Desafio em mineração : Encontrar técnicas eficientes de mineração (grande quantidade de dados , complexidade de tipos e de métodos de acesso)

18 Construção de D.W. Espacial
Desafios : Integração de dados de vários sistemas e fontes heterogêneas Estrutura baseada em vetores, objetos ou relacionais Fornecedor : Mapinfo, intergraph ... Realização de OLAP rápido e flexível em DW espacial Algumas dimensões e medidas possuem comportamento espacial Construção de um DW para facilitar o trabalho de Mineração de Dados

19 Cubos de dados espaciais
Três dimensões presentes : Dimensão não-espacial ex: temperatura : 35 a 45 º C --> quente Dimensão espacial p/ não -espacial ex: Pernambuco --> “região _nordeste” Dimensão espacial p/ espacial ex : Pernambuco --> Nordeste Dois tipos de medidas : Medida numérica Distributiva: Obtida pela aplicação da função de agregação ex: count() Algébrica: Obtida pela aplicação da função algébrica ex: avg = sum()/count() Holística : Não deriva de função algébrica ex: Median() Medida espacial ex: Coleção de ponteiros para região de mesma temperatura Gerenalização --> (símbolo) Pernambuco : tipo região (Rep. Mapa) Região_nordeste : Apesar de ser um conceito espacial, o tipo é string

20 DW espacial: BC_weather
Esquema estrela :

21 OPERAÇÕES DE ROLL-UP Por Precipitação Por Temperatura
Temperatura : intervalos em ºC Precipitação : seco, úmido, moderado

22 Computação de medidas espaciais em cubos de dados
Dilema : armazenamento x custo computacional Armazenamento de ponteiros para objetos sem pré-computação de medidas espaciais Pré-computação e armazenamento aproximado de medidas espaciais ex: estimativa de região um retângulo - MBR (min.bounding rectangle) pode ser visto como uma estimativa grosseira do mapa de uma região Materialização de porções de cubos que mais se tem acesso Examinar cada grupo de obj. espaciais que podem sofrer merge

23 Regras de associação espacial
Forma : A => B [s%,p%] é_uma (X,”escola”)^perto_de(X,”clube”) => perto_de(X,”parque”) [0.5%,80%] Predicados espaciais : perto_de , longe_de (relacionado a distância) intercepta, sobrepõe (relacionado a topologia) à_esquerda, à_direita, à_oeste (orientação espacial) A regra lê-se : 80% das escolas localizadas perto de clubes também são perto de parques. Em 0.5 % dos dados ocorre este caso

24 Classificação e análise de tendência
Classificação de regiões : rica x pobre (propriedades associadas a objetos espaciais) ex: possui universidade ? Shoppings ? Análise de tendência (espacial e temporal) Mudança de dados (espaciais ou não) com o espaço ex: Distância do oceano muda clima e vegetação Mudança de padrões com o tempo e espaço ex : Fluxo de tráfego em rodovias e cidades

25 BDs MULTIMIDIA Armazenam e gerenciam objetos multimídia, tais como imagem, audio, vídeo, hipertexto Sistemas de recuperação de similaridades em imagens : Baseado em descrição : Manualmente : laborioso Automaticamente : resultado de baixa qualidade Ex: palavra-chave, título, tamanho, tempo de criação Polissemia : uma só forma com mais de um significado Baseado em conteúdo : Usa características visuais para indexar imagens e fazer a recuperação baseada em similaridade com outras imagens Ex: Textura, forma, cor, objetos Baixa qualidade : - Atribuição de palavras-chaves pode ser enganosa ou arbitrária ex : manga (Polissemia) 1- de camisa ou candeeiro 2 - Fruta Semânticas diferentes

26 MultiMediaMiner Sistema de mineração de dados multimídia
Imagem : grid 8 x 8 Cada imagem contém dois descritores : Descritor de características Imagem original não é armazenada diretamente no BD, mas nome do arquivo, URL, tipo da imagem, URLs pais Descritor de layout Vetor de cores - cor mais frequente em cada uma das 64 células Vetor de margens - Número de lados em cada uma das células Tipo da imagem : jpeg, gif, bmp URLs pais : Fazem referência à imagem

27 MultiMediaMiner Dimensões em cubo de dados multimídia :

28 MultiMediaMiner Thumbnails
Selecting (and browsing) data sets of images using keyword hierarchy: Thumbnails of images and video frames in the database can be browsed with MultiMediaMiner user interface. In this example thumbnails of commercial airplanes pertaining to the airliner Boeing are displayed. This user interface also allows the selection of a multimedia data set to be mined. The hierarchy of keywords on the left is a section of the concept hierarchy automatically generated by visiting some web sites containing aircraft images. By selecting a keyword, the images associated with the word and its descendents are selected. By clicking on a thumbnail, the image from the web and a list of links to the web pages that contain it are displayed.

29 Minerando associações
Que tipos de associação podem ser mineradas em BDs multimídia ? Três categorias de associação : Associação entre conteúdo de imagem e de não-imagem Se 50% da parte superior da imagem é azul então é “céu” Associação entre conteúdo de imagens não relacionadas ao espaço Se imagem possui dois quadrados azuis então contém círculo vermelho Associação entre conteúdo de imagens relacionadas ao espaço Se imagem possui um triângulo vermelho entre dois quadrados então contém grande círculo abaixo

30 Mineração de regras de associações BDs transacionais x BDs multimídia
Refinamento progressivo de resolução : Uma imagem pode conter muitos objetos com características diferentes, tais como cor, forma, textura ... semelhança de características numa resolução baixa podem diferir em uma resolução melhor; Uma figura contendo dois objetos iguais difere daquela contendo apenas um objeto do mesmo tipo em BDs multimídia. Em BDs transacionais, a pessoa comprar uma ou duas caixas de leite é tratado como o mesmo atributo compra_leite ; Existem relações espaciais entre objetos multimídia, tais como acima, através de , abaixo, à esquerda ...

31 Conclusão A cada dia , mais e mais dados são armazenados de forma complexa, estruturados ou não estruturados, hipertexto e multimídia ; Mineração de tipos complexos de dados, tais como objetos, dados espaciais, multimídia, dados seriais-temporais, textos e web tem se tornado uma tarefa muito importante ; Mineração de dados complexos ainda está em fase inicial, e muitos desafios ainda terão de ser superados.

32 Bibliografia Han, Jiawei. Kamber, Micheline. Data Mining: Concepts and Techniques - Morgan Kaufmann Publishers. MultiMediaMiner. Site - Bechara, Evanildo. Moderna Gramática Portuguesa - Editora Lucerna / Rj


Carregar ppt "BANCOS DE DADOS NÃO CONVENCIONAIS"

Apresentações semelhantes


Anúncios Google