A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Data Mining Definição Gartner Group:

Apresentações semelhantes


Apresentação em tema: "Data Mining Definição Gartner Group:"— Transcrição da apresentação:

1 Data Mining Definição Gartner Group:
“Data mining is the process of discovering meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.” Descobrimento de conhecimento em BD Extração de padrões de informação de interesse : Não trivial Implícita Previamente desconhecida Potencialmente útil NH Consultoria

2 Data Mining Definições
O que é : Descoberta de conhecimento em BD (KDD), extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc. O que não é : Processamento dedutivo de consultas; Sistemas especialistas e pequenos programas estatísticos e de aprendizagem de máquina. NH Consultoria

3 Data Mining Definições
O Data Mining trabalha com grandes quantitades de dados. O Data Mining é diferente da análise de dados e da estatística : Não precisa establecer uma hipótese a priori para testá-la em seguida. É dos próprios dados que devem surgir as hipóteses (desconhecidas a priori) que o usuário validará depois. Necessita uma arbitragem entre a validade científica, a interpretabilidade dos resultados e a facilidade de utilização em ambiante profissional onde os usuários não são especialistas de estatística. O Data Mining é EMPÍRICO NH Consultoria

4 Data Mining Definições
Estatísticas Bases de Dados Data Mining Inteligência Artificial NH Consultoria

5 Data Mining : Aplicações
Analisar Comportamento de consumidores Vendas cruzadas Similaridades de comportamentos Cartões de fidelidade Prever Respostas a uma mala direita ou operação Marketing (Ex : OPA). Probabilidade de um cliente se separar do seu fornecedor (banco, telefone móvel, etc.) Necessidades de manutenção preventiva. Detectar Comportamentos anormais ou fraudulento Desvios financeiros, Fraude com seguros, Energia, etc. Problemas de qualidade (pós-venda). Procurar Critérios para avaliar os "bons" clientes sem risco e propor para eles umas condições financeiras particularizadas (banco, seguro). Sugerir Uma resposta adequada durante uma chamada num call-center. NH Consultoria

6 Data Mining : Anedotas Wal-Mart : Coca-Cola :
Primeiros ensaios de KDD com os dados dos "Tickets" de caixa dos supermercados. Detecção de forte correlação entre compra de fraldas e cervejas nos sábados pela tarde... Os esposos eram mandados pelas esposas para fazer compras volumosas. Re-organização das gôndolas deixando as fraldas perto da cerveja : Aumento significativo das vendas de cerveja ! Coca-Cola : Baixa de 5% do preço da bebida => aumento de 15% das vendas. DM : as vendas de biscoitos aperitivos vão aumentar na mesma proporção que as de bebida. Conclusão : baixar o preço da bebida permite aumentar as vendas de biscoitos aperitivos (margem fraca na bebida e importante nos biscoitos). NH Consultoria

7 Data mining & BI Making Decisions Data Presentation
Increasing potential to support business decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Analyst Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP NH Consultoria

8 Data Mining : O Processo
Formalizar O problema que deve ser resolvido a partir de dados. Coletar Os dados adequados onde eles forem. Preparar Os dados para os cálculos futuros. (a etapa é então SUBJETIVA). Processar Os dados aplicando algoritmos de análise. Avaliar e validar Os conhecimentos resultantes do processamento. Desdobrar As análises na Empresa para uma utilização eficaz. O Processo é Cíclico ! O DM não é uma soma de vários pequenos estudos, mas sim um método de capitalização de conhecimentos adquiridos e explícitos. O DM deve permitir a estruturação dos conteúdos necessários à engenharia do conhecimento. NH Consultoria

9 Data Mining : Os Algoritmos
Não Supervisionado Nenhum dado ou variável têm mais importância que os outros. Nenhuma variável é considerada individualmente como o alvo da análise. Utilizações típicas : Extrair grupos homogêneos a partir de indivíduos Extrair normas de comportamento e desvios em relação com estas normas (ex : deteção de novas fraudes) Compressão de informação Supervisionado Objetivo : prever e/ou explicar um ou vários fenômenos observáveis e medidos. Algumas variáveis são os alvos. Por que um individuo compra A mais que B ? Por que um individuo pegou uma doença ? Por que um individuo visitou muito uma página WEB ? Etc. Redução de dados Eliminação de ruído. Redução do volume de dados. Em pré-processamento dos dados. Complementares das técnicas prévias. NH Consultoria

10 Data Mining Pré-processamento
Dados reais são “sujos”: Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contêm discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: Decisões de qualidade devem estar baseadas em dados de qualidade; DWH necessita da integração consistente de dados de qualidade. NH Consultoria

11 Data Mining Pré-processamento
NH Consultoria

12 Pré-processamento Limpeza de dados
Valores Faltantes Ignorar a tupla Preencher o valor manualmente Usar uma constante global Usar o valor médio do atributo na base Usar o valor mais provável Atenuação de ruido Discretização Agrupamento Interação humana Regressão NH Consultoria

13 Limpeza da dados Exemplo : Regressão linear
Estatística : Y e X são correlacionados pela relação Y = a.X + b Achar a e b de tal maneira que a soma seja mínima Y = a0 + a1.X an.Xn : regressão linear múltipla NH Consultoria

14 Pré-processamento Integração de dados
Problemas Redundâncias Valores conflitantes (incoerências) Soluções Regras de gestão nos ETL Referenciais de dados Integração no DWH, não no Datamart ! NH Consultoria

15 Pré-processamento Transformação
Suavização Ex : Média Móvel (Moving Average) Agregação Generalização Normalização Utilizado para alguns tipos de análises (ex : ACP, cálculo matricial de correlações, etc.) Discretização Tb pode ser utilizada para transformar os dados (alguns métodos somente funcionam com dados discretos). Etc. NH Consultoria

16 Pré-processamento Discretização - Normalização
NH Consultoria

17 Pré-processamento Redução de dados
Agregação de data cubes Redução de dimensionalidade Ex : Análise em componentes principais Compressão de dados Redução de instâncias Geração de hierarquias de conceitos Ex : Classificação Ascendente Hierárquica NH Consultoria

18 Redução de dados Exemplo : ACP
O objetivo da ACP é de determinar os eixos que melhor explicam a dispersão dos pontos disponíveis. Com N dimensões, a ACP vai determinar N eixos ordenados por inércia explicada. Projetando nos dois primeiros eixos (de maior inércia) os indivíduos, conseguimos uma visualização em duas dimensões das observações. A ACP também é um meio de : Descorrelacionar os dados (na nova base os pontos têm correlação 0) Reduzir o ruído (considerando que os eixos descartados contêm o ruído). Comprimir os dados (descartando as coordenadas dos eixos excluídos). Inertie du nuage : moyenne pondérée des carrés des distances des points au centre d'inertie du nuage. NH Consultoria

19 ACP variáveis Individuos (realizações) Centrada no centro de gravidade
Reduzida Os vetores próprios da matriz de covariância (ou da matriz de correlação) são aqueles que explicam a maior inércia dos pontos e são ordenados. O problema é então resolvido diagonalizando as matrizes. Covariância : uma variável com muita variância vai "atrair" todo resultado par ela. Correlações : uma variável que é somente ruído será considerada igual que as outras variáveis informativas. 1/K * tM * M _ Matriz das covariâncias ~ Matriz das correlações Matrizes quadradas, simétricas e reais. Podem ser diagonalizadas numa base ortogonal e normalizada. NH Consultoria

20 Exemplo de ACP NH Consultoria

21 NH Consultoria

22 NH Consultoria

23 NH Consultoria

24 NH Consultoria

25 NH Consultoria

26 Exemplo das "abstrações simbólicas"
Pré-processamento Exemplo das "abstrações simbólicas" Discretização, redução, agrupamento, generalização, etc. com dados temporais e em tempo real Clancey W., Heuristic classification, Artificial Intelligence, vol. 27, pp , 1985. Ramaux N., Fontaine D., Dojat M., Temporal scenario recognition for Intelligent patient monitoring, in Proc. 6th AIME 97, Lecture notes in Artificial Intelligence vol 1211, E. Keravnou, C. Garbay, R. Baud; J. Wyatt Eds, Springer, pp , Grenoble, 1997. Shahar Y., A framework for knowledge-based temporal abstraction, Artificial Intelligence, vol 90, pp , 1997. NH Consultoria

27 Abstração simbólica Síntese dos dados no tempo
Conversão numérica / simbólica Modificação da granularidade temporal Modificação do espaço de indicadores (variáveis) Abstração "Horizontal" Abstração "Vertical" Tendência NH Consultoria

28 Mecanismos verticais Diagnóstico de ventilação Abstração
Simbólico Abstração "definicional" Freqüência respiratória Simbólico Volume aspirado Abstração qualitativa Freqüência respiratória numérico, Cyclos/min Volume aspirado numérico, Litros/sec NH Consultoria

29 Mecanismos horizontais - 1 Particular para cada variável
Estado Interpolação temporal Tempo Valores numéricos adquiridos Persistência do valor Particular para cada variável NH Consultoria

30 Mecanismos horizontais - 2 Para qualquer variável
var=v Prolongação por continuidade Tempo var=v Para qualquer variável NH Consultoria

31 Mecanismos horizontais - 3 Particular para cada variável
Var=a Agregação realizada Tempo Var=a b Particular para cada variável Agregação Não realizada Tempo Var=a Var=b NH Consultoria

32 Mecanismos horizontais
exemplo Nível de abstração temporal Tempo B Agregação A I A I B Esquecimento B A I Prolongação Por continuidade A Desconhecido { I Desconhecido A { I B A Interpolação temporal Tempo Valores numéricos brutos Classe A Classe B t1 t2 t3 t4 t5 t6 t7 t8 t9 NH Consultoria

33 Tendências Interpolação temporal Tendência = "Aumento médio"
Intervalo de tempo Abstração qualitativa Tendência = "Aumento médio" Tempo Valores Numéricos brutos Tendência = 1.232 Regressão linear NH Consultoria


Carregar ppt "Data Mining Definição Gartner Group:"

Apresentações semelhantes


Anúncios Google