A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Introdução e Motivação de DW, OLAP e Data Mining

Apresentações semelhantes


Apresentação em tema: "Introdução e Motivação de DW, OLAP e Data Mining"— Transcrição da apresentação:

1 Introdução e Motivação de DW, OLAP e Data Mining
(baseado nos slides do livro: Data Mining: C & T)

2 Motivação Problema: Explosão de dados
As maturidade atingida pelas ferramentas de recolha automática de dados e pelas tecnologias de BD têm como consequência a existência de grandes volumes de dados armazenados em BDs, DWs e outros repositórios de informação. “Afogados” em dados, mas “famintos” de conhecimento. Solução: Data warehousing e data mining Data warehousing e on-line analytical processing (OLAP) Extracção de conhecimento interessante (regras, padrões, restrições) dos dados existentes em grandes BDs SAD Tagus 2004/05 H. Galhardas

3 Evolução da tecnologia de BD
1960s: Data collection, database creation, IMS and network DBMS 1970s: Relational data model, relational DBMS implementation 1980s: RDBMS, advanced data models (extended-relational, OO, deductive, etc.) and application-oriented DBMS (spatial, scientific, engineering, etc.) 1990s—2000s: Data mining and data warehousing, multimedia databases, Web databases SAD Tagus 2004/05 H. Galhardas

4 Plano Objectivo de um DW Operações OLTP vs OLAP
Conceito de DW: repositório e arquitectura Interrogações OLAP Exploração de dados (Data Mining) e aplicações Processo de descoberta de conhecimento (KDD) Arquitectura típica de um sistema de data mining Funções de data mining Medidas de interesse SAD Tagus 2004/05 H. Galhardas

5 Objectivo Geral de um DW
Acumular informação para produzir indicadores de negócio que permitam tomar decisões Indicador de negócio: medida ou métrica que me permite avaliar uma perspectiva do negócio. SAD Tagus 2004/05 H. Galhardas

6 Informação Grandes quantidades de informação estão disponíveis
A análise de informação é a base da tomada de decisão Características necessárias: precisa fiável actualizada relevante orientada à acção O progresso da tecnologia de HW torna possível que grandes quantidades de info. sejam armazenadas e tornadas disponíveis. Há que saber tratar esta informação de forma a que seja útil. O desenvolvimento que tem tido lugar nas tecnologias de de BDs torna possível novas funcionalidades tais como análise e compreensão dos dados No retalho por exemplo, pretende-se saber onde melhor colocar os ovos relativamente ao leite fiambre e queijos. Pessoas que compram ovos são tipicamente para preparar a refeição do dia. Só estudar os produtos associados é pobre. Podemos estudar os produtos comprados entre as 18 e 20H e emcarrinhos com + de 5 produtos e menos de 25 (cabaz do mês) SAD Tagus 2004/05 H. Galhardas

7 Sistemas operacionais (OLTP)
Contabilidade, compras, reservas, telecomunicações, etc Muitas fontes de dados dispersas (ficheiros excel, BD Access,etc), mtas aplicações, mtas interfaces Problemas: acesso aos dados díficil, qualidade de dados duvidosa, dados estruturados à aplicação (ex: códigos específicos), suporte a interrogações simples SAD Tagus 2004/05 H. Galhardas

8 Esquema TPC-C (benchmark)
Warehouse W Legend Table Name <cardinality> one-to-many relationship secondary index District W*10 10 Customer W*30K 3K History W*30K+ 1+ Item 100K (fixed) Stock W*100K 100K Order Order-Line W*300K+ 10-15 New-Order W*5K 0-1 SAD Tagus 2004/05 H. Galhardas

9 Vista detalhada CUSTOMER ORDER ORDER-LINE C_ID C_D_ID C_W_ID C_FIRST
C_MIDDLE C_LAST C_STREET_1 C_STREET_2 C_CITY C_STATE C_ZIP C_PHONE C_SINCE C_CREDIT C_CREDIT_LIM C_DISCOUNT C_BALANCE C_YTD_PAYMENT C_PAYMENT_CNT C_DELIVERY_CNT C_DATA O_ID O_D_ID O_W_ID O_C_ID O_ENTRY_D O_CARRIER_ID O_OL_CNT O_ALL_LOCAL OL_O_ID OL_D_ID OL_C_ID OL_NUMBER OL_I_ID OL_SUPPLY_W_ID OL_DELIVERY_D OL_QUANTITY OL_AMOUNT OL_DIST_INFO CUSTOMER SAD Tagus 2004/05 H. Galhardas

10 Operações OLTP New-order: enter a new order from a customer
Payment: update customer balance to reflect a payment Delivery: deliver orders (done as a batch transaction) Order-status: retrieve status of customer’s most recent order Stock-level: monitor warehouse inventory SAD Tagus 2004/05 H. Galhardas

11 Interrogações de apoio à decisão
Extractos de TPC-D (actualmente H e R): Retrieve the 10 unshipped orders with the highest value. Report the amount of business that was billed, shipped, and returned. Determines how well the order priority system is working and gives an assessment of customer satisfaction. That is, count the number of orders ordered in a given quarter of a given year in which at least one lineitem was shipped by the customer later than its committed date. The query lists the count of such orders for each order priority sorted in ascending priority order. SAD Tagus 2004/05 H. Galhardas

12 Extracção de dados operacionais
Para suportar aplicações de SAD, existem vários problemas: Duplicação de esforço em extracções múltiplas Versões de dados incoerentes e obsoletas Qualidade de dados:falta de chave universal, entrada de dados livre, campos c/ valores heterógeneos, normalização Extracções Sistemas operacionais Gestores SAD Tagus 2004/05 H. Galhardas

13 OLTP vs. OLAP SAD Tagus 2004/05 H. Galhardas
Utilizadores são diferentes, HW é diferente, SW dif., administração é diferente, gestão de sistemas, o ritmo diário é dif. Consistência OLTP é ao nível microscópico. Sistema OLTP processa milhares ou milhões de transacções por dia. Cada transacção diz respeito a um pequeno pedaço de info. Sistema OLAP processa 1 transacção por dia que contém milhares ou milhões de registos. ER não +e apropriado, porque: Era-o em sistemas OLTP, para se obter desempenho. Não existe redundância na info de uma tabela, logo uma transacção que altera dados só o faz numa tabela. As tabelas são simétricas, não existe uma que destcadamente tenha info mais importante. Se 2 tabelas são necessárias para responder a uma interrogação, elas podem ser combinadas de várias maneiras. Não pode ser usado como base à navegação eficiente de dados. Artigo do Kmball SAD Tagus 2004/05 H. Galhardas

14 Conceito de DW (1) Conjunto centralizado de dados:
temáticos históricos datados integrados persistentes que oferece um nível de qualidade adequado às aplicações de decisão Necessidade de convergência (uma aplicação, uma interface, um sistema) e de navegabilidade SAD Tagus 2004/05 H. Galhardas

15 Dados temáticos Os dados estão organizados por processo de negócio e não por aplicação de produção Exemplos : Cliente(contratos seguros, empréstimos, contas, planos de poupança, etc) Produto(gama, vendas, compras, custos de produção, etc) Em vez de se concentrarem sobre operações do dia-a-dia e processamento de transacções de uma organização, um dw foca-se na modelação e análise dos dados para suporte à decisão. Assim, tipicamente fornecem uma visão concisa e simples de um assunto em particular e excluem a informação que não é útil para o processo de tomada de decisão SAD Tagus 2004/05 H. Galhardas

16 Dados históricos Os dados residem no DW durante um largo período de tempo É feita a adição sucessiva de incrementos de dados Actualizações e remoções são raras Carregamentos sucessivos e incrementais Arquivo de dados muito antigos SAD Tagus 2004/05 H. Galhardas

17 Dados datados Os dados do DW representam imagens sucessivas do mundo real São importantes os seguintes aspectos: Granularidade de tempo Granularidade de refrescamento Coerência das imagens SAD Tagus 2004/05 H. Galhardas

18 Dados integrados Todos os dados relativos a um processo de negócio encontram-se organizados de forma pertinente, coerente e não redundante A integração de dados é obtida através de processos de transformação de dados: consolidação, agregação, interpretação Estes processos devem estar documentados através de metadados O dw é em geral construído integrando múltiplas fontes de dados heterógeneas (BDs, ficheiros, registos de transacções on-line, etc). São usadas técnicas de integração e limpeza de dados que garantam consistência na convenção de nomes, medidas, etc. SAD Tagus 2004/05 H. Galhardas

19 Dados persistentes Os dados estão fisicamente separados dos sistemas operacionais Não são necessários mecanismos de gestão de transacções, recuperação e controlo de concorrência As operações fundamentais são: carregamento inicial e incremental dos dados, e leitura dos dados Os sistemas opeacionais têm que continuar a assegurar operações básicas SAD Tagus 2004/05 H. Galhardas

20 Conceito de DW (2) Arquitectura de integração de dados que suporta a tomada de decisão através de: Técnicas OLAP (interrogações estruturadas ou ad-hoc, geração de relatórios analíticos) para visualização e navegação de informação segundo difs. perspectivas Técnicas de data mining: técnicas de análise de dados mais avançadas para compreender os dados. Data mining apps: descobrir padrões nos dados ex: fraldas e cervejas E descobrir fraudes outlier detection SAD Tagus 2004/05 H. Galhardas

21 Arquitectura típica de DW
Data Warehouse Extract Transform Load Refresh Metadata Data Marts Data Storage OLAP Engine Serve OLAP Server other sources OLAP Ad-hoc Query Reports Data mining Ex data mart: no retalho o que interessa são as vendas, a info sobre os empregados é à parte. Operational DBs Data Sources SAD Tagus 2004/05 H. Galhardas Front-End Tools

22 Interrogações OLAP (1) Ex: Pivoting on Location and
TIMES timeid date week month quarter year holiday_flag pid timeid locid sales (Fact table) SALES PRODUCTS LOCATIONS pid pname category price locid city state country Pivoting: Agragação por determinadas dimensões Ex: Pivoting on Location and Time yields this cross-tabulation: WI CA Total 1995 1996 1997 SAD Tagus 2004/05 H. Galhardas Total

23 Interrogações OLAP (2) Outra operação comum: agregar uma medida sobre uma ou mais dimensões Find total sales. Find total sales for each city, or for each state. Find top five products ranked by total sales. Roll-up: Agregar a diferentes níveis de uma hierarquia de dimensões Given total sales by city, we can roll-up to get sales by state. As interrogações sobre dados multidimensionais são fortemente influenciadas por aplicações do tipo folhas de cálculo (excel). Ideia é fornecer a utilizadores que não sabem SQL uma interface intuitiva. SAD Tagus 2004/05 H. Galhardas

24 SQL para expressar interrogações OLAP
A cross-tabulation pode ser calculada usando uma colecção de interrogações SQL SELECT SUM(S.sales) FROM Sales S, Times T, Locations L WHERE S.timeid=T.timeid AND S.timeid=L.timeid GROUP BY T.year, L.state SELECT SUM(S.sales) FROM Sales S, Times T WHERE S.timeid=T.timeid GROUP BY T.year SELECT SUM(S.sales) FROM Sales S, Location L WHERE S.timeid=L.timeid GROUP BY L.state SAD Tagus 2004/05 H. Galhardas

25 O operador CUBE (SQL:1999) Generalizando, se existirem k dimensões, existem 2^k possíveis interrogações GROUP BY sobre um subcjto de dimensões CUBE pid, locid, timeid BY SUM Sales Equivalente a fazer rolling up de Sales em todos os 8 sucjtos do conjunto {pid, locid, timeid}; cada roll-up corresponde a uma interrogação SQL da forma: Em geral, dada uma medida com k dimensões associadas, podemos fazer roll-up sobre qualquer subconjunto dessas k dimensões 2^k queries SQL É impossível expressar todas as queries possíveis em SQL usando group by, porque: são muitas e porque demasiado complexo para optimizar. Logo surge o operado CUBE como uma generalização para n-dimensões de funções de agregação simples. Algumas partes do cubo podem não ser necessárias SELECT SUM(S.sales) FROM Sales S GROUP BY grouping-list SAD Tagus 2004/05 H. Galhardas

26 O que é Data Mining? Data mining ou descoberta de conhecimento em BDs (knowledge discovery in databases): Extracção de informação interessante (não trivial, implicita, desconhecida ou potencialmente útil) ou padrões em grandes BDs Nomes alternativos: Knowledge discovery(mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. SAD Tagus 2004/05 H. Galhardas

27 Aplicações Análise de dados e suporte à decisão: Outras aplicações:
Análise e gestão de mercado: target marketing, customer relation management, market basket analysis, cross selling, market segmentation Análise e gestão de risco: Forecasting, customer retention, improved underwriting, quality control, competitive analysis Detecção e gestão de fraudes Outras aplicações: Text mining (news group, , documents) and Web analysis. Intelligent query answering SAD Tagus 2004/05 H. Galhardas

28 1. Análise e gestão de mercado
Fontes de dados: Credit card transactions, loyalty cards, discount coupons, customer complaint calls, plus (public) lifestyle studies Alvo de mercado: Find clusters of “model” customers who share the same characteristics: interest, income level, spending habits, etc. Deteminar padrões de aquisição/compra ao longo do tempo Conversão de uma conta bancária simples para uma conta conjunta quando as pessoas se casam Cross-market analysis Associações entre compras de produtos Previsão baseada nas associações encontradas SAD Tagus 2004/05 H. Galhardas

29 1. Análise e gestão de mercado (cont)
Traçar perfil de clientes Que tipos de clientes compram que tipo de produtos (clustering e classificação) Identificar requisitos dos clientes Quais os melhores produtos para diferentes clientes Usar previsão para encontrar quais os factores que atraiem novos clientes Fornece informação sumarizada Vários relatórios com informação (estatistica) sumarizada SAD Tagus 2004/05 H. Galhardas

30 2. Análise e gestão de risco
Planeamento financeiro e avaliação de bens Previsão e análise de cash flow contingent claim analysis to evaluate assets cross-sectional and time series analysis (financial-ratio, trend analysis, etc.) Planeamento de recursos: Sumarizar e comparar recursos e gastos Competição: Monitorizar a concorrência e as direcções do mercado Agrupar os clientes em classes e conceber uma estratégia de preços baseada nessas classes SAD Tagus 2004/05 H. Galhardas

31 3. Detecção e gestão de fraudes
Aplicações: medicina, retalho, serviços de cartões de crédio, telecom (detecção de fraudes nos cartões telefónicos), etc Aproximação: Usar dados históricos para construir modelos de comportamento fraudulento Exemplos: Seguros: detectar grupos de pessoas que forjam acidentes para receber o dinheiro do seguro Branqueamento de capital: detectar transacções bancárias suspeitas SAD Tagus 2004/05 H. Galhardas

32 Outras aplicações Sports Astronomy Internet Web Surf-Aid
IBM Advanced Scout analyzed NBA game statistics (shots blocked, assists, and fouls) to gain competitive advantage for New York Knicks and Miami Heat Astronomy JPL and the Palomar Observatory discovered 22 quasars with the help of data mining Internet Web Surf-Aid IBM Surf-Aid applies data mining algorithms to Web access logs for market-related pages to discover customer preference and behavior pages, analyzing effectiveness of Web marketing, improving Web site organization, etc. SAD Tagus 2004/05 H. Galhardas

33 Data Mining para KDD Knowledge Pattern Evaluation Data Mining
Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration SAD Tagus 2004/05 Databases H. Galhardas

34 Passos de um processo de KDD
Apreender o domínio do problema Seleccionar as fontes de dados relevantes Limpeza e pré-processamento de dados Redução e transformação de dados Descobrir características úteis, reduzir as dimensões, etc Escolher funções/tarefas de data mining Sumarização, classificação, regressão, associação, clustering Escolher e executar o algoritmo de data mining Para procurar padrões de interesse Avaliar os padrões encontrados e a apresentação de conhecimento Visualização, remoção de padrões redundantes, etc Utilização do conhecimento descoberto SAD Tagus 2004/05 H. Galhardas

35 Arquitectura típica de um sistema de data mining
Graphical user interface Pattern evaluation Data mining engine Knowledge-base Database or data warehouse server Filtering Data cleaning & data integration Data Warehouse Databases SAD Tagus 2004/05 H. Galhardas

36 Data Mining e Business Intelligence
Increasing potential to support business decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Analyst Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP SAD Tagus 2004/05 H. Galhardas

37 Sobre que tipos de dados se faz data mining?
Relational databases Data warehouses Transactional databases Advanced DB and information repositories Object-oriented and object-relational databases Spatial databases Time-series data and temporal data Text databases and multimedia databases Heterogeneous and legacy databases WWW SAD Tagus 2004/05 H. Galhardas

38 Data Mining: confluência de várias disciplinas
Database Technology Statistics Data Mining Machine Learning Visualization Information Science Other Disciplines SAD Tagus 2004/05 H. Galhardas

39 Funções de Data Mining (1)
Descrição de conceitos: caracterização e discriminação Generalizar, sumarizar e contrastar características dos dados Associação (correlação e causalidade) Associação multi-dimensional vs uni-dimensional age(X, “20..29”) ^ income(X, “20..29K”) à buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) à contains(x, “software”) [1%, 75%] SAD Tagus 2004/05 H. Galhardas

40 Funções de Data Mining (2)
Classificação Encontrar modelos que descrevam e sejam capazes de distinguir classes/conceitos para previsão Ex: classificar países baseado no clima, ou classificar carros baseado na kilometragem Técnicas: árvores de decisão, regras de classificação, redes neuronais Previsão Prever valores desconhecidos ou em falta SAD Tagus 2004/05 H. Galhardas

41 Funções de Data Mining (3)
Análise de clusters Não existe uma catalogação apriori, logo agrupa dados para formar novas classes Ex: agrupar casas para encontrar padrões de distribuição Principio: maximizar a semelhança dentro de uma classe e minimizar a semelhança entre classes SAD Tagus 2004/05 H. Galhardas

42 Funções de Data Mining (4)
Detecção de outliers Outlier é um objecto de dados que não obedece ao comportamento genérico dos dados Pode ser considerado como ruído ou excepção, mas é útil em detecção de fraudes Trend and evolution analysis Técnicas: análise de regressão, mining de padrões em sequências, análise baseada em semelhança SAD Tagus 2004/05 H. Galhardas

43 Todos os padrões descobertos são interessantes?
Milhares de padrões gerados, nem todos interessantes Um padrão é interessante se fôr compreendido por humanos, fôr válido para dados de teste e novos dados com um grau de certeza fôr potencialmente útil Validar alguma hipótese procurada pelo utilizador. Medidas de interesse: objectivas: baseadas em estatística e estruturas de padrões (suporte, confiança, etc) subjectivas: baseadas na crença do utilizador nos dados SAD Tagus 2004/05 H. Galhardas

44 Podem ser descobertos todos os padrões e só os interessantes?
Completude: encontrar todos os padrões interessantes Association vs. classification vs. clustering Optimização: procurar só os padrões interessantes Todos os padrões e depois filtrar só os interessantes Optimização de interrogações de mining: encontrar só os interessantes SAD Tagus 2004/05 H. Galhardas

45 OLAP Mining: integração de data mining e DW
On-line analytical mining data Integração de tecnologias de mining e OLAP Mining interactivo de conhecimento a diferentes níveis Explorar conhecimento e padrões a diferentes níveis de abstracção,através das operações de drilling/rolling, pivoting, etc. Integração de múltiplas funções de mining Classificação, clustering, associação SAD Tagus 2004/05 H. Galhardas

46 An OLAM Architecture Mining query Mining result OLAM Engine OLAP
Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases SAD Tagus 2004/05 Data integration H. Galhardas

47 Aspectos mais importantes em data mining
Metodologia de mining e interacção com o utilizador Desempenho e escalabilidade Lidar com diversidade de tipos de dados ... SAD Tagus 2004/05 H. Galhardas

48 Bibliografia (Livro) Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, (Cap 1 ) (Livro) The Data Warehouse Toolkit, R. Kimball, Wiley 2001 (?) (Artigo) An Overview of Data Warehousing and OLAP Technology, S. Chaudhuri & U. Dayal, SIGMOD Record, March 1997 SAD Tagus 2004/05 H. Galhardas


Carregar ppt "Introdução e Motivação de DW, OLAP e Data Mining"

Apresentações semelhantes


Anúncios Google