A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Capacidades do Data Warehouse

Apresentações semelhantes


Apresentação em tema: "Capacidades do Data Warehouse"— Transcrição da apresentação:

1 Capacidades do Data Warehouse
O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas através das operações OLAP (drill-down, roll-up, slice) são poderosas mais muito simples, tudo gira em torno de somas (fatos aditivos), médias (fatos semi-aditivos) e/ou contagens (fatos não-aditivos)

2 Limites do OLAP As operações Olap podem responder aos seguintes questionamentos: Qual região vendeu mais? Qual diferença entre vendas de determinado produto por região ou por vendedor? Olap não pode responder: Qual o perfil dos compradores da região que mais vendeu determinado produto? Quais produtos que mais venderam em conjunto? Quais os prováveis produtos que determinado cliente irá escolher na próxima compra?

3 Data Mining Data Mining visa analisar dados também, só que com a utilização de métodos mais complexos, como conseqüência, os resultados são mais elaborados. A Mineração de Dados é uma conjunto de poderosas técnicas de análise para extração de conhecimentos a partir de séries de dados muito grandes, que podem ser de extraordinário valor para análises e decisões nas organizações

4 Relação DW e Data Mining
Do ponto de vista de um DW, Data Mining pode ser vista como um aplicação cliente do DW. Como uma ferramenta de consulta OLAP ou uma ferramenta de relatórios, a ferramenta de Data Mining pode estar em uma máquina a parte e requisitando dados do DW Do ponto de vista de Data Mining, o DW é apenas uma coleção de dados organizada e sem problemas de qualidade, i.e., uma fonte de dados

5 Relação DW e Data Mining
São independentes e podem ser utilizados em separado. As análises são complementares e não sobrepostas Contudo, um ambiente de análise completo necessita resultados de ambos, ou seja, o melhor é utilizar os dois em conjunto. Existe uma tendência de ter as duas formas de análise no mesmo ambiente

6 Exemplos de Aplicação Marketing Varejo Telecomunicações
Mala direta de produtos para clientes que tem possibilidade de comprar aquele produto Varejo Produtos organizados nas prateleiras de forma que o cliente ponha no carrinho de compra os produtos que vendem em conjunto Telecomunicações Ligações fraudulentas de Celulares clonados

7 Exemplos de Aplicação Bancário Científico Acadêmico
Liberação de empréstimos para clientes que tem característica de bom pagador Científico NASA cataloga imagem de satélites classifica eventos similares nas imagens Acadêmico Disciplinas de graduação que tem maior probabilidade de serem cursadas em conjunto

8 KDD & Data Mining Descoberta de Conhecimento em Base de Dados (KDD)
“é o processo não trivial de identificação de padrões em dados que sejam válidos, novos, potencialmente úteis e compreensíveis” [Fayyad 96] “é uma tarefa cujo uso de conhecimento é intensivo, consistindo de complexas interações, prolongadas no tempo, entre uma pessoa e um banco de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” [Brachman 96]

9 KDD & Data Mining Data Mining
é uma etapa neste processo onde os recursos computacionais são mais exigidos Também chamada de Mineração de Dados e Prospecção de dados sondagem pesquisa avaliar investigar explorar

10 Condições Critérios que justificam adoção de KDD [Fayyad 96] Práticos
Impacto Potencial Falta de Alternativa Suporte Organizacional

11 Condições Critérios que justificam adoção de KDD [Fayyad 96] Técnicos
Quantidade de dados Atributos Relevantes Qualidade dos dados Conhecimento acerca do domínio

12 Processo de KDD Abordagem utilizada Dividida em etapas [Fayyad 96]

13 Processo de KDD Adriaans 97

14 Processo de KDD Terra 2000

15 Etapas do Processo Definição de Objetivos
Sempre o processo de KDD tem um objetivo inicial, uma hipótese, que será comprovada ou rejeitada com utilização de exemplos de dados/conhecimento extraído Nem sempre o objetivo do processo é diretamente atribuído a um conjunto de dados do universo de discurso. Nestas situações existe o problema chamado de “concept assignment problem”. Por exemplo, como determinar o perfil dos melhores(?) clientes

16 Etapas do Processo Preparação dos Dados
A partir do objetivo podemos preparar um conjunto de dados. Seleção. Focar em um subconjunto Limpeza. Eliminar ruído Enriquecimento. Acrescentar dados externos Transformação/Codificação. Normalizar dados Grande parte da preparação é feita quando temos o DW!

17 Etapas do Processo Data Mining
Algoritmos específicos são utilizados para extrair conhecimento Existem vários tipos de análises realizadas pelos algoritmos Escolher uma análise nem sempre é uma tarefa, principalmente onde há o “concept assignment problem”

18 Etapas do Processo Interpretação/Validação dos resultados
Muitas vezes temos uma quantidade de resultados de difícil aplicação na etapa de Data Mining (muito grande ou muito pequena) A quantidade depende dos valores dos parâmetros escolhidos na análise Características desejáveis Result.(Conhecimento) Correto Compreensível Interessante / Útil/ Novo

19 Data Mining Tarefas de Mineração/Classes de Problemas
Após criar um conjunto de dados é preciso definir qual método de mineração será aplicado Existem vários métodos que são agrupados em “tarefas” ou “classes” semelhantes: [Agrawal 93] : Associações, Classificação e Seqüência [Fayyad 96] : Link Analysis, Classificação, Agrupamento, Detecção de desvios, Sumarização,...

20 Métodos Em [Fayyad 96] é proposta uma divisão em mais alto nível dos métodos segundo a aplicação : Descritivos Procuram criar um modelo para gerar uma representação descritiva dos dados. A partir desta representação podem ser tomadas as devidas ações Preditivos Procuram criar modelos que permitam prever a situação futura. Não focam necessariamente a compreensão humana do modelo extraído.

21 Algoritmos de Data Mining
Existem muitos algoritmos que podem ser utilizados em Data Mining Em parte, estes algoritmos não são novos, mas sim originários de métodos estatísticos e de IA. Contudo, em Data Mining, estes algoritmos devem ser adaptados para que possam tratar uma grande quantidades de dados. Muitos algoritmos não podem ser utilizados

22 Associações/Link Analysis
As regras de associações representam padrões onde a ocorrência de eventos em conjunto é alta. Exemplo mais comum é o do supermercado : produtos que frequentemente são vendidos conjuntamente folclore : cerveja e fralda saem em juntas em grande quantidade de transações Existem associações usuais por seu uso comum : pão e manteiga, café e leite As interessantes são as não usuais.

23 Seqüência São regras de associação que utilizam o fator tempo.
Os dados de uma seqüência podem ser transformados para que sejam aplicados algoritmos de associação Ex. Utilização do Cartão de Crédito: Quem compra um celular vai comprar um micro um tempo depois

24 Agrupamentos/Clustering
Neste método os pares atributo/valor são analisados com o objetivo de criar grupos onde os valores são semelhantes. Existem vários registros (exemplos) que representam um evento Não são fornecidos rótulos para os exemplos. Ex: Quais são os grupos que se comportam da mesma maneira?

25 Classificação Neste método são procurados padrões que “classifiquem” elementos rotulados (exemplos) Os exemplos são fornecidos, juntamente com um conjunto de registros. O objetivo é descobrir quais valores justificam o exemplo. Podem ser utilizados para “compreender” os agrupamentos Ex. qual a característica do agrupamento

26 Sumarização Os métodos de sumarização são, em geral, métodos estatísticos mais simples. Ex. Média, Desvio, Correlação São muito parecidos com as possibilidades de análise fornecidas pelo OLAP. Ex. Existe relação entre ações de empresas diferentes ao longo do tempo?

27 Conclusões O processo tem muitas escolhas
Como saber se as escolhas foram corretas? Experiência do condutor do processo, o analista O Analista não é necessariamente um usuário final!! O processo pode ser refeito em algumas partes (iteratividade!!!) Altamente Interativo, o usuário(especialista) é essencial  “background knowledge”


Carregar ppt "Capacidades do Data Warehouse"

Apresentações semelhantes


Anúncios Google