A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

NH Consultoria www.NHConsultoriaTI.com Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns.

Apresentações semelhantes


Apresentação em tema: "NH Consultoria www.NHConsultoriaTI.com Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns."— Transcrição da apresentação:

1 NH Consultoria Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. Descobrimento de conhecimento em BD –Extração de padrões de informação de interesse : 1.Não trivial 2.Implícita 3.Previamente desconhecida 4.Potencialmente útil

2 NH Consultoria Data Mining Definições O que é : –Descoberta de conhecimento em BD (KDD), extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc. O que não é : –Processamento dedutivo de consultas; –Sistemas especialistas e pequenos programas estatísticos e de aprendizagem de máquina.

3 NH Consultoria Data Mining Definições O Data Mining trabalha com grandes quantitades de dados. O Data Mining é diferente da análise de dados e da estatística : –Não precisa establecer uma hipótese a priori para testá-la em seguida. –É dos próprios dados que devem surgir as hipóteses (desconhecidas a priori) que o usuário validará depois. –Necessita uma arbitragem entre a validade científica, a interpretabilidade dos resultados e a facilidade de utilização em ambiante profissional onde os usuários não são especialistas de estatística. O Data Mining é EMPÍRICO

4 NH Consultoria Data Mining Definições Estatísticas Bases de Dados Inteligência Artificial Data Mining

5 NH Consultoria Data Mining : Aplicações Analisar –Comportamento de consumidores –Vendas cruzadas –Similaridades de comportamentos –Cartões de fidelidade Prever –Respostas a uma mala direita ou operação Marketing (Ex : OPA). –Probabilidade de um cliente se separar do seu fornecedor (banco, telefone móvel, etc.) –Necessidades de manutenção preventiva. Detectar –Comportamentos anormais ou fraudulento Desvios financeiros, Fraude com seguros, Energia, etc. –Problemas de qualidade (pós-venda). Procurar –Critérios para avaliar os "bons" clientes sem risco e propor para eles umas condições financeiras particularizadas (banco, seguro). Sugerir –Uma resposta adequada durante uma chamada num call-center.

6 NH Consultoria Data Mining : Anedotas Wal-Mart : –Primeiros ensaios de KDD com os dados dos "Tickets" de caixa dos supermercados. –Detecção de forte correlação entre compra de fraldas e cervejas nos sábados pela tarde... Os esposos eram mandados pelas esposas para fazer compras volumosas. Re-organização das gôndolas deixando as fraldas perto da cerveja : Aumento significativo das vendas de cerveja ! Coca-Cola : –Baixa de 5% do preço da bebida => aumento de 15% das vendas. –DM : as vendas de biscoitos aperitivos vão aumentar na mesma proporção que as de bebida. –Conclusão : baixar o preço da bebida permite aumentar as vendas de biscoitos aperitivos (margem fraca na bebida e importante nos biscoitos).

7 NH Consultoria Data mining & BI Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP

8 NH Consultoria Data Mining : O Processo Formalizar –O problema que deve ser resolvido a partir de dados. Coletar –Os dados adequados onde eles forem. Preparar –Os dados para os cálculos futuros. (a etapa é então SUBJETIVA). Processar –Os dados aplicando algoritmos de análise. Avaliar e validar –Os conhecimentos resultantes do processamento. Desdobrar –As análises na Empresa para uma utilização eficaz. O Processo é Cíclico ! O DM não é uma soma de vários pequenos estudos, mas sim um método de capitalização de conhecimentos adquiridos e explícitos. O DM deve permitir a estruturação dos conteúdos necessários à engenharia do conhecimento.

9 NH Consultoria Data Mining : Os Algoritmos Não Supervisionado –Nenhum dado ou variável têm mais importância que os outros. –Nenhuma variável é considerada individualmente como o alvo da análise. –Utilizações típicas : Extrair grupos homogêneos a partir de indivíduos Extrair normas de comportamento e desvios em relação com estas normas (ex : deteção de novas fraudes) Compressão de informação Supervisionado –Objetivo : prever e/ou explicar um ou vários fenômenos observáveis e medidos. –Algumas variáveis são os alvos. –Utilizações típicas : Por que um individuo compra A mais que B ? Por que um individuo pegou uma doença ? Por que um individuo visitou muito uma página WEB ? Etc. Redução de dados –Eliminação de ruído. –Redução do volume de dados. –Utilizações típicas : Em pré-processamento dos dados. Complementares das técnicas prévias.

10 NH Consultoria Data Mining Pré-processamento Dados reais são sujos: –Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; –Ruidosos: contem erros e desvios; –Inconsistentes: contêm discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: –Decisões de qualidade devem estar baseadas em dados de qualidade; –DWH necessita da integração consistente de dados de qualidade.

11 NH Consultoria Data Mining Pré-processamento

12 NH Consultoria Pré-processamento Limpeza de dados Valores Faltantes –Ignorar a tupla –Preencher o valor manualmente –Usar uma constante global –Usar o valor médio do atributo na base –Usar o valor mais provável Atenuação de ruido –Discretização –Agrupamento –Interação humana –Regressão

13 NH Consultoria Limpeza da dados Exemplo : Regressão linear Estatística : –Y e X são correlacionados pela relação Y = a.X + b –Achar a e b de tal maneira que a soma seja mínima –Y = a 0 + a 1.X a n.X n : regressão linear múltipla

14 NH Consultoria Pré-processamento Integração de dados Problemas –Redundâncias –Valores conflitantes (incoerências) Soluções –Regras de gestão nos ETL –Referenciais de dados –Integração no DWH, não no Datamart !

15 NH Consultoria Pré-processamento Transformação Suavização –Ex : Média Móvel (Moving Average) Agregação Generalização Normalização –Utilizado para alguns tipos de análises (ex : ACP, cálculo matricial de correlações, etc.) Discretização –Tb pode ser utilizada para transformar os dados (alguns métodos somente funcionam com dados discretos). Etc.

16 NH Consultoria Pré-processamento Discretização - Normalização

17 NH Consultoria Pré-processamento Redução de dados Agregação de data cubes Redução de dimensionalidade –Ex : Análise em componentes principais Compressão de dados Redução de instâncias Geração de hierarquias de conceitos –Ex : Classificação Ascendente Hierárquica

18 NH Consultoria Redução de dados Exemplo : ACP O objetivo da ACP é de determinar os eixos que melhor explicam a dispersão dos pontos disponíveis. Com N dimensões, a ACP vai determinar N eixos ordenados por inércia explicada. Projetando nos dois primeiros eixos (de maior inércia) os indivíduos, conseguimos uma visualização em duas dimensões das observações. A ACP também é um meio de : Descorrelacionar os dados (na nova base os pontos têm correlação 0) Reduzir o ruído (considerando que os eixos descartados contêm o ruído). Comprimir os dados (descartando as coordenadas dos eixos excluídos).

19 NH Consultoria ACP variáveis Individuos (realizações) Reduzida Centrada no centro de gravidade 1/K * t M * M __ Matriz das covariâncias ~ 1/K * t M * M ~ Matriz das correlações Matrizes quadradas, simétricas e reais. Podem ser diagonalizadas numa base ortogonal e normalizada. Os vetores próprios da matriz de covariância (ou da matriz de correlação) são aqueles que explicam a maior inércia dos pontos e são ordenados. O problema é então resolvido diagonalizando as matrizes. Covariância : uma variável com muita variância vai "atrair" todo resultado par ela. Correlações : uma variável que é somente ruído será considerada igual que as outras variáveis informativas.

20 NH Consultoria Exemplo de ACP

21 NH Consultoria

22 NH Consultoria

23 NH Consultoria

24 NH Consultoria

25 NH Consultoria

26 NH Consultoria Pré-processamento Exemplo das "abstrações simbólicas" Discretização, redução, agrupamento, generalização, etc. com dados temporais e em tempo real Clancey W., Heuristic classification, Artificial Intelligence, vol. 27, pp , Ramaux N., Fontaine D., Dojat M., Temporal scenario recognition for Intelligent patient monitoring, in Proc. 6th AIME 97, Lecture notes in Artificial Intelligence vol 1211, E. Keravnou, C. Garbay, R. Baud; J. Wyatt Eds, Springer, pp , Grenoble, Shahar Y., A framework for knowledge-based temporal abstraction, Artificial Intelligence, vol 90, pp , 1997.

27 NH Consultoria Abstração simbólica Modificação do espaço de indicadores (variáveis) Modificação da granularidade temporal Síntese dos dados no tempo Conversão numérica / simbólica Abstração "Horizontal"Abstração "Vertical" Tendência

28 NH Consultoria Freqüência respiratória numérico, Cyclos/min Volume aspirado numérico, Litros/sec Freqüência respiratória Simbólico Volume aspirado Simbólico Abstração qualitativa Diagnóstico de ventilação Simbólico Abstração "definicional" Mecanismos verticais

29 NH Consultoria Tempo Valores numéricos adquiridos Estado Interpolação temporal Mecanismos horizontais - 1 Persistência do valor Particular para cada variável

30 NH Consultoria Tempo var=v Prolongação por continuidade Mecanismos horizontais - 2 Para qualquer variável

31 NH Consultoria Tempo Var=a b Agregação realizada Tempo Var=a Var=b Agregação Não realizada Mecanismos horizontais - 3 Particular para cada variável

32 NH Consultoria ABABBB Desconhecido { I A { I Tempo Valores numéricos brutos Classe A Classe B t1t2t3t4t5t6t7t8 t9 BABIAAI AIBAB Nível de abstração temporal Tempo Prolongação Por continuidade Esquecimento B Agregação AI Interpolação temporal Mecanismos horizontais exemplo

33 NH Consultoria Tempo Valores Numéricos brutos Tendência = Regressão linear Tendência = "aumento médio" Interpolação temporal Intervalo de tempo Abstração qualitativa Tendência = "Aumento médio" Tendências


Carregar ppt "NH Consultoria www.NHConsultoriaTI.com Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns."

Apresentações semelhantes


Anúncios Google