A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Artefatos Inteligência Artefatos para a Inteligência Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações Prof. Edilson.

Apresentações semelhantes


Apresentação em tema: "Artefatos Inteligência Artefatos para a Inteligência Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações Prof. Edilson."— Transcrição da apresentação:

1 Artefatos Inteligência Artefatos para a Inteligência Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações Prof. Edilson Ferneda ERIN’2010

2 DCBD 2 Fundamentos, ferramentas e aplicações Agenda CONTEXTUALIZAÇÃO Inteligência Organizacional METODOLOGIAS CRISP-DM Modelagem do conhecimento FERRAMENTAS WEKA APLICAÇÕES xxx

3 DCBD 3 Fundamentos, ferramentas e aplicações Inteligência Organizacional Aprendizagem Organizacional Habilidade de uma empresa aprender e rapidamente traduzir em ações o conhecimento como um meio eficaz de atingir vantagem competitiva O que uma empresa conhece, como usa o que conhece e com que rapidez pode assimilar algo novo Um dos objetivos da Inteligência Organizacional: Melhorar a qualidade da tomada de decisão em todos os níveis da organização, através do aumento do acesso às informações e da redução do problema de sobrecarga de informações.

4 DCBD 4 Fundamentos, ferramentas e aplicações Inteligência Organizacional Ciclo do conhecimento Potencial de apoio a decisões estratégicas DadoInformaçãoDecisãoRealidadeConhecimento COLETA Papel, arquivos, bases de dados operacionais,... ORGANIZAÇÃO/TRANSFORMAÇÃO/ANÁLISE Data Warehouse, Data Mart, OLAP, consultas, relatórios,... DESCOBERTA DE CONHECIMENTO Projeto de busca de padões, Data Mining, Estatística,... COMPREENSÃO, ANÁLISE, SÍNTESE Técnicas de visualização,... AÇÃO

5 DCBD 5 Fundamentos, ferramentas e aplicações Inteligência Organizacional Contexto de organizações no mundo competitivo (O modelo das 5 forças de Porter)

6 DCBD 6 Fundamentos, ferramentas e aplicações Inteligência Organizacional Definição “Conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nesses acontecimentos, apóia a tomada de decisões em negócios” Elementos técnico-organizacionais Database Marketing CRM Balanced Scorecard Data warehousing “BI” DCBD Tecnologia da Informação GestãoNegócio Inteligência Organizacional

7 DCBD 7 Fundamentos, ferramentas e aplicações Inteligência Organizacional Para que sistemas de IO? Database Marketing (“Marketing de precisão”) Ajuda a melhorar os contatos futuros e assegura um planejamento mais realista do marketing Usa canais e meios de comunicação de marketing para:  Ampliar a ajuda na busca do público-alvo da empresa  Estimular a demanda de seu público  Estar perto do público, registrando e mantendo uma memória eletrônica sobre clientes, clientes potenciais, todos os contatos comerciais e de comunicação

8 DCBD 8 Fundamentos, ferramentas e aplicações Inteligência Organizacional Para que sistemas de IO? CRM (Customer Relationship Management) Estratégia de negócio voltada ao atendimento e à antecipação das necessidades dos clientes atuais e potenciais Envolve... ... a captura dos dados dos clientes ao longo de toda a empresa ... a consolidação em um banco de dados central ... a análise e distribuição dos resultados da análise para todos os pontos de contato, utilizando as informações ao interagir com os clientes por meio de qualquer ponto de contato com a empresa Engloba... ... conceitos, métricas, processos, soluções, gestão de canais e estratégias ... ferramentas das áreas de marketing, vendas e serviços

9 DCBD 9 Fundamentos, ferramentas e aplicações Inteligência Organizacional Para que sistemas de IO? Balanced Scorecard Sistema de gestão da estratégia a longo prazo Busca traduzir a missão e a estratégia das organizações num conjunto abrangente de desempenho como base para um sistema de medição e gestão estratégica Empresas podem adotar esta metodologia para...  Esclarecer e obter consenso em relação à estratégia  Comunicar a estratégia a toda a organização  Alinhar as metas departamentais e pessoais à estratégia corporativa  Associar objetivos estratégicos  metas de longo prazo  orçamentos anuais  Identificar e alinhar as iniciativas estratégicas  Realizar revisões estratégicas periódicas e sistemáticas  Obter feedback p/aprofundar o conhecimento da estratégia e aperfeiçoá-la

10 DCBD 10 Fundamentos, ferramentas e aplicações Inteligência Organizacional Sistemas de Suporte à Decisão Problema: Explosão de dados Ferramentas automáticas de coleta de dados e tecnologia madura de armazenamento acarretam o surgimento de grandes bancos de dados e outros repositórios de informação “Estamos nos afogando em dados, mas carentes de conhecimento!” Excesso de dados nas Organizações  Disseminação  Disseminação de sistemas de informação (aplicações)  Eficiência  Eficiência para coletar e armazenar grandes volumes de dados Excesso de dados nas Organizações  Disseminação  Disseminação de sistemas de informação (aplicações)  Eficiência  Eficiência para coletar e armazenar grandes volumes de dados Dificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios Sistemas de Suporte à Decisão

11 DCBD 11 Fundamentos, ferramentas e aplicações Inteligência Organizacional Sistemas de Suporte à Decisão... necessitam de informação / conhecimento (Análises, Diagnósticos, Recomendações, Ações realizadas / em curso,...) Devem extrair e integrar dados de múltiplas fontes Servem-se da experiência para analisar dados contextualizados Trabalham com hipóteses (criação de cenários) Procuram relações de causa/efeito Transformam os registros obtidos em informação útil para o conhecimento empresarial

12 DCBD 12 Fundamentos, ferramentas e aplicações Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento refere-se à habilidade de criar um modelo mental que descreva objetos e indique ações a realizar Conhecimento tácito, segundo a gestão do conhecimento, Está nas pessoas (Experiências, casos, rotinas, observações, requisitos, códigos, especificações, mensagens,...) Não permite representação Difícil de explicar e se elicitar Se torna dados e informação quando assume forma explícita Conhecimento explícito (“informação”) Bases de Dados, documentos, correspondências, arquivos, livros, filmes, textos, planilhas,..

13 DCBD 13 Fundamentos, ferramentas e aplicações Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento na IA IA busca viabilizar a transferência desses processos para sistemas capazes de simular o processo de decisão do ser humano Representação do conhecimento  Simbólica (Frames, Redes Semânticas, Ontologias, Regras de Produção, Árvores de Decisão,...)  Conexionista (Redes Neurais Artificiais) Métodos de aprendizagem  Agrupamento - Clustering (Não supervisionados)  Classificação (Supervisionados)  Associação ... if... then...

14 DCBD 14 Fundamentos, ferramentas e aplicações Inteligência Organizacional Explicitação do conhecimento “Processo de articulação do conhecimento tácito em conceitos explícitos. O tácito se torna explícito expresso na forma de metáforas, analogias, conceitos, hipóteses ou modelos.” (Nonaka & Takeuchi) Engenharia do conhecimento CommonKADS Descoberta de conhecimento (Reconhecimento de padrões) Fayyad  CRISP-DM Elicitação de “conhecimento”

15 DCBD 15 Fundamentos, ferramentas e aplicações CRISP-DM Introdução CRISP-DM = Cross Industry Standard Process for Data Mining Projeto que padroniza conceitos e técnicas na busca de informações em banco de dados Surgiu a partir da experiência de três empresas pioneiras no setor (1996): DaimlerChrysler - Aplica análises de data mining em seus negócios NCR - Provê soluções de datawarehouse SPSS - Disponibiliza soluções baseadas no processo de mineração de dados Padroniza os passos do processo de descoberta de conhecimento e sua aplicação em diferentes mercados, independente do segmento Agiliza grandes projetos de DCBD, com mais eficiência e com menor custo Pode ser usada por qualquer analista de informações, tendo como base qualquer software de DM Manual disponível em

16 DCBD 16 Fundamentos, ferramentas e aplicações CRISP-DM Fases Compreensão do problema Compreensão dos dados Preparação dos dados Modelagem Avaliação Aplicação (Deployment)

17 DCBD 17 Fundamentos, ferramentas e aplicações CRISP-DM Compreensão do problema Objetivos do negócio Plano de fundo Objetivos do negócio Critério de sucesso do negócio Avaliação da situação Inventário de recursos Exigências, suposições e limitações Riscos e contingências Terminologia Custos e benefícios Objetivos do data mining (DCBD) Objetivos do data mining Critério do sucesso do data mining Plano de projeto Plano de projeto Avaliação inicial de ferramentas e técnicas

18 DCBD 18 Fundamentos, ferramentas e aplicações CRISP-DM Entendimento dos dados Coleta inicial dos dados Relatório da coleta inicial dos dados Descrição dos dados Relatório da descrição dos dados Exploração de dados Relatos da exploração de dados Verificação da qualidade dos dados Relatório de qualidade dos dados

19 DCBD 19 Fundamentos, ferramentas e aplicações CRISP-DM Preparação dos dados Seleção dos dados Racionalização para inclusão/exclusão Limpeza dos dados Relatório da limpeza de dados 3.3 -Construção dos dados Atributos derivados Registros gerados Integração dos dados Dados combinados Formatação dos dados Dados reformatados

20 DCBD 20 Fundamentos, ferramentas e aplicações CRISP-DM Modelagem Seleção da técnica de modelagem Técnica de modelagem Geração do design de teste Design de teste Construção do modelo Ajustes de parâmetros Modelos Descrição dos modelos Avaliação do modelo (Acurácia e generalidade do modelo) Avaliação do modelo (Validação cruzada, taxas de erro, etc) Avaliação do modelo revisado

21 DCBD 21 Fundamentos, ferramentas e aplicações CRISP-DM Avaliação do modelo Avaliar resultados Avaliação dos resultados do data mining a respeito dos critérios do sucesso do negócio Modelos aprovados Processo de revisão Revisão do processo Determinação dos próximos passos Lista das ações possíveis Decisão

22 DCBD 22 Fundamentos, ferramentas e aplicações CRISP-DM Aplicação (Deployment) Planejamento da implantação Plano de implantação Planejamento do monitoramento e manutenção Plano de monitoramento e manutenção Produção do relatório final Relatório final Apresentação final Revisão o projeto Documentação de experiências Exemplos: ♦Estruturação de Call Center com televendas ♦Marketing de precisão baseado em segmentação de mercado ♦Refinamento de perfis de clientes ♦Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc). ♦Gestão epidemiológica ♦Gestão de Ciência & Tecnologia ♦Avaliação do cumprimento de objetivos Exemplos: ♦Estruturação de Call Center com televendas ♦Marketing de precisão baseado em segmentação de mercado ♦Refinamento de perfis de clientes ♦Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc). ♦Gestão epidemiológica ♦Gestão de Ciência & Tecnologia ♦Avaliação do cumprimento de objetivos

23 DCBD 23 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Objetivo: construção de uma “base de conhecimento”... IF... THEN... Base de Conhecimento

24 DCBD 24 Fundamentos, ferramentas e aplicações Método empírico Reconhecimento de Padrões Engenharia do Conhecimento Método analítico Sistemas de Suporte à Decisão Modelagem do conhecimento... no contexto organizacional Experiências Regras de negócio Bases de dados Código de sistemas DW Documentos Textos Especificações Requisitos Gravações IO GC INTERNET Data Mart OLAP Inteligência Competitiva Coleta/Busca, Captura,... Base de Conhecimento Planilhas Filmes Livros Casos Rotinas Observações Benchmarking, Monitoramento, Head-hunting,...

25 DCBD 25 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Data Mining Utiliza técnicas sofisticadas de análise estatística e modelagem (aprendizagem de máquina) para descobrir padrões e relações escondidas nas bases de dados das organizações Padrões que métodos tradicionais não encontrariam! Padrões encontrados pela construção de modelos (representações abstratas da realidade) Um bom modelo ajuda a compreender um negócio e sugere ações que podem ajudar uma organização a ter sucesso É um processo iterativo!

26 DCBD 26 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Data Mining Treino (estimativa) do modelo com um conjunto dos dados Teste com os dados restantes Às vezes, é preciso uma validação com um terceiro grupo de dados (grupo de validação) Dados de teste podem ser um fatores de influência no modelo Grupo de validação atua como uma medida independente da precisão do modelo A precisão resultante é uma boa estimativa para como o modelo se irá comportar com futuras bases de dados Isto não garante que o modelo está correto! Se mesma técnica fosse utilizada numa sucessão de bases com dados semelhantes aos de treino e teste, a precisão média estaria próxima à obtida desta forma Por melhor que seja a precisão, não há garantia de que o modelo reflita de fato o mundo real Existem sempre circunstâncias que podem levar a modelos incorretos BD Treino Teste Mineração Modelo Teste Acurácia BD 3 Treinamento Teste BD 1 BD 2 BD 3 BD 1 Ac Ac 1 BD 1 BD 3 BD 2 Ac 2 Ac 3

27 DCBD 27 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Data Mining Tecnologias de suporte if... then... Dado Informação Conhecimento DW OLAP DM

28 DCBD 28 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Data Mining O que Data Mining pode fazer Data Mining permite  Confirmar relações empíricas  Descobrir padrões novos e úteis Pode trazer melhoria de desempenho, se comparado com os que não utilizam eficientemente estas técnicas Às vezes, descobre-se fatos que podem conduzir a melhorias radicais no negócio! O que Data Mining NÃO pode fazer Não se pode prescindir de conhecer o negócio, compreender os dados disponíveis ou de compreender os métodos analíticos Ajuda a encontrar padrões nos dados, mas nada diz sobre seu valor para a organização! Os padrões encontrados devem ser verificados no mundo real! É conveniente que se compreenda o funcionamento das ferramentas escolhidas e os algoritmos em que se baseiam! Não encontra respostas a perguntas que não se fez – deve-se saber a priori o tipo de padrão que se procura Não substitui analistas e gestores de negócio, mas lhes oferece uma poderosa ferramenta para melhorarem o seu trabalho!

29 DCBD 29 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Data Mining Modelos preditivos Utilizam dados com resultados conhecidos para desenvolver um modelo que possa ser utilizado para prever valores para diferentes dados Fazem uma previsão explícita Modelos descritivos Descrevem padrões em dados existentes, que podem ser utilizados para guiar decisões Podem ser utilizados para ajudar a construir um modelo preditivo ou para fazer uma previsão implícita quando formam a base para uma ação ou decisão Data Mining Atividades preditivas Atividades descritivas ClassificaçãoRegressãoClusteringRegras de associação SumarizaçãoSéries temporais

30 DCBD 30 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Atividades preditivas Classificação É preciso identificar as características ou casos que indicam a que grupo cada caso pertence Utilizado para compreender os dados existentes e para prever a classe de novas instâncias (variável discreta) Os modelos de classificação são criados examinando dados previamente classificados (casos) e ajustando-se o modelo em construção para mapear o padrão preditivo Os casos existentes podem derivar de uma base de dados histórica ou de uma experiência em que uma amostra de uma base de dados é testada no mundo real Regressão Funciona como a classificação, tendo como saída um valor numérico (variável contínua) No caso mais simples, utilizam-se técnicas estatísticas padrão, como regressão linear  No entanto, a maioria dos problemas reais não são projeções lineares, demandando métodos mais sofisticados (geração de modelos não lineares) Séries temporais Baseia-se na evolução temporal para, dados valores referentes a um determinado momento, prever valores em momentos futuros Consideram-se propriedades temporais diferenciadoras, como sazonalidade, efeitos do calendário (feriados),...

31 DCBD 31 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Atividades descritivas Agrupamento (Clustering) Divide a base de dados em grupos diferentes Encontrar grupos diferentes cujos membros são aparentemente semelhantes Ao contrário da classificação, não há uma variável que identifique os grupos, ou por quais atributos os dados serão agrupados Os grupos devem ser analisados por alguém que conheça muito bem o negócio Associações Identifica co-ocorrência de valores que caracterizam os casos  Por exemplo, itens que, com frequência, aparecem juntos em compras de supermercado Descobrem regras do tipo: Se o item A é parte de um evento, então em x% das vezes (fator de confiança) o item B também é parte do evento Sequenciamento Funciona como a associação, mas os itens relacionados ocorrem em tempos diferentes Para se encontrar seqüências, além da captura dos detalhes de cada transação, é preciso garantir a a origem única de cada sequência  Por exemplo, em análise de logs, é preciso associar cada clickstream a um único ator

32 DCBD 32 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Análise Estatística Árvores de Decisão (ID3 e suas derivações,...) Redes Neurais (MLP,...) Agrupamento (K-médias,...) Associação (Apriori,...)...

33 DCBD 33 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Estatística Estuda a coleta, organização e interpretação de dados numéricos Assim como Data Mining, tenta encontrar padrões e regularidades nos dados Data Mining se serve da Estatística para descoberta de padrões, cálculo de aproximações, médias, taxas de erro e desvios Técnicas estatísticas mais utilizadas  Técnicas baseadas em modelos lineares e não-lineares  Amostragem  Avaliação de hipóteses e do conhecimento obtido  Modelo bayesiano  Análise multivariada

34 DCBD 34 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Classificação CONHECIMENTO DO DOMÍNIO Especificação do problema Aprendizado de máquina Variáveis independentes (atributos) Variável dependente (classe) Especialista Dados brutos Classificador Avaliação

35 DCBD 35 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Árvores de Decisão R 1 : Se R  1000 Então Não rentável R 2 : Se 1000 < R < E D  100 Então Não rentável R 3 : Se 1000 < R < E 100 < D < Então Rentável R 4 : Se 1000 < R < E D  Então Não rentável R 6 : Se R  E D  Então Não rentável R 5 : Se R  E D < Então Rentável  Neste caso, o diagrama de retângulos é a representação mais adequada para se visualizar a partição do espaço de características gerada pela árvore de decisão  Todos os pontos dentro de um retângulo são classificados da mesma forma, pois todos satisfazem a regra que define o retângulo o o x x o o o o x o o x o o o o o o x o x x x Renda Dívida R1R1 R2R2 R3R3 R4R4 R5R5 R6R

36 DCBD 36 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Árvores de Decisão a1a1 X1X1 a4a4 X2X2 a3a3 a2a2 X2X2 X2X2 X1X1 a 1 a 3 a 4 >a 2

37 DCBD 37 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Árvores de Decisão Árvore “pensada”

38 DCBD 38 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação carrooutroscarona +: {E 10 } –: {E 5, E 6 } +: {E 1, E 7, E 11 } –: {E 3, E 9 } +: {E 2, E 4, E 12 } –: {E 8 } NãoSimNãoSimNãoOutrosPoucoE6E6 Não Sim OutrosSimE5E5 NãoSim OutrosNãoE 10 NãoSimNão CaronaPoucoE8E8 Sim NãoCaronaNãoE 12 SimNãoSimNão CaronaPoucoE4E4 Sim Não CaronaPoucoE2E2 Não Sim NãoCarroSimE9E9 NãoSim NãoCarroSimE3E3 NãoCarroNãoE 11 Sim NãoSimCarroPoucoE7E7 Sim NãoSim CarroPoucoE1E1 Vai pra balada? FomeSairÁlcoolUCBTransporteSono Transporte?

39 DCBD 39 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação Sim NãoCaronaNãoE 12 Sim NãoCarroNãoE 11 SimNãoSim OutrosNãoE 10 Não Sim NãoCarroSimE9E9 Não Sim OutrosSimE5E5 NãoSim NãoCarroSimE3E3 NãoSimNão CaronaPoucoE8E8 NãoSimNãoSimNãoOutrosPoucoE6E6 Sim NãoSimCarroPoucoE7E7 SimNãoSimNão CaronaPoucoE4E4 Sim Não CaronaPoucoE2E2 Sim NãoSim CarroPoucoE1E1 Vai pra balada? FomeSairÁlcoolUCBTransporteSono simnãopouco +: {E 10, E 11, E 12 } –: {} +: {} –: {E 3, E 5, E 9 } +: {E 1, E 2, E 4, E 7 } –: {E 6, E 8 } Sono?

40 DCBD 40 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Árvores de Decisão Árvore calculada

41 DCBD 41 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Redes Neurais Artificiais Técnica computacional que utiliza modelos matemáticos inspirados na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência

42 DCBD 42 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Redes Neurais Artificiais

43 DCBD 43 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Redes Neurais Artificiais Iniciar todas as conexões com w i = 0 (ou aleatórios) Repita Para cada padrão de treinamento (X, d) faça Calcular a saída y Se (d  y) então atualizar pesos até o erro ser aceitável Iniciar todas as conexões com w i = 0 (ou aleatórios) Repita Para cada padrão de treinamento (X, d) faça Calcular a saída y Se (d  y) então atualizar pesos até o erro ser aceitável Classe B Classe A Classe B Classe A Modelos lineares Modelos não lineares

44 DCBD 44 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles Utilizado para encontrar padrões inesperados nos dados Mamífero Ovíparo Aquático

45 DCBD 45 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Clustering - Técnica de aprendizado não-supervisionado, ou seja, quando não há uma classe associada a cada exemplo Os exemplos são colocados em clusters (grupos), cujos membros são similares entre si Por outro lado, os clusters devem ser diferentes entre si Representações de agrupamentos:

46 DCBD 46 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Métricas de similaridade  A distância é o método mais natural para dados numéricos  Valores pequenos indicam maior similaridade  Não generaliza muito bem para dados não numéricos (Qual a distância entre “masculino” e “feminino”?) Métricas de Distância mais comuns  Hamming - Usada para dados categóricos  Euclidiana - Usada para dados numéricos Normalização  As distâncias são freqüentemente normalizadas dividindo a distância de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributo  Assim, a distância para cada atributo é normalizada para o intervalo [0,1]

47 DCBD 47 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Passos para se fazer um agrupamento Passo 1:Escolha aleatória de clusters e cálculo dos centróides (círculos maiores) Passo 2:Atribua cada ponto ao centróide mais próximo Passo 3:Recalcule centróides (neste exemplo, a solução é agora estável)

48 DCBD 48 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo

49 DCBD 49 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 2)

50 DCBD 50 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 3)

51 DCBD 51 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 4)

52 DCBD 52 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 5)

53 DCBD 53 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 6)

54 DCBD 54 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 7)

55 DCBD 55 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 8)

56 DCBD 56 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 9)

57 DCBD 57 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 10)

58 DCBD 58 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Associação Notoriedade em DCBD pela descoberta da relação compra de fraldas  cerveja  Mas o que fazer? Colocar as fraldas junto com as cervejas para facilitar a venda? Colocá-las distantes para obrigar o cliente a ‘passear’ por outras gôndolas?  Decisões cabem ao especialista em marketing, baseado na sua experiência Regras de associação ou regras associativas: {X 1, X 2,..., X n }  Y Se todos os itens X 1, X 2,..., X n estão numa transação, então há uma boa chance de se encontrar também Y

59 DCBD 59 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Associação O algoritmo Apriori

60 DCBD 60 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3  {leite}{café}{cerveja}{pão}{manteiga}{arroz} {feijão} {café,pão}{pão,manteiga}{café,manteiga} {café,pão,manteiga}

61 DCBD 61 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 Conjunto de regras - Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão [conf = 1,0] Se café, pão Então manteiga [conf = 1,0] Se manteiga, pão Então café [conf = 0,75] Se café Então manteiga, pão [conf = 1,0] Se manteiga Então café, pão [conf = 0,6] Se pão Então café, manteiga [conf = 0,6] - Conjunto de itens: {café, pão} Se café Então pão [conf = 1,0] Se pão Então café [conf = 0,6] - Conjunto de itens: {café, manteiga} Se café Então manteiga [conf = 1,0] Se manteiga Então café [conf = 0,6] - Conjunto de itens: {pão, manteiga} Se pão Então manteiga [conf = 0,8] Se manteiga Então pão [conf = 0,8]

62 DCBD 62 Fundamentos, ferramentas e aplicações Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 Conjunto de regras - Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão [conf = 1,0] Se café Então manteiga [conf = 1,0] Se pão Então manteiga [conf = 0,8] Se manteiga Então pão [conf = 0,8] Se café, manteiga Então pão [conf = 1,0] Se café, pão Então manteiga [conf = 1,0] Se café Então manteiga, pão [conf = 1,0]

63 DCBD 63 Fundamentos, ferramentas e aplicações Ferramentas

64 DCBD 64 Fundamentos, ferramentas e aplicações Ferramentas

65 DCBD 65 Fundamentos, ferramentas e aplicações WEKA Software de Aprendizagem de Máquina/Data Mining escrito em Java (GNU Public License) Usado para pesquisa, educação e aplicações Complementa o livro “Data Mining - Practical Machine Learning Tools and Techniques” de Ian W. Witten & Eibe Frank Principais características: Conjunto abrangente de ferramentas para pré-processamento de dados, algoritmos de aprendizagem e métodos de avaliação Interface Gráfica (visualização de dados) Ambiente para comparação de algoritmos de aprendizagem Versões: WEKA 3.3: É a que vamos utilizar para a a apresentação WEKA 3.4: Versão compatível com o livro (2ª Edição) WEKA 3.6: Versão estável atual WEKA 3.7: “Developpment Version”

66 DCBD 66 Fundamentos, ferramentas e aplicações WEKA Entrada de dados WEKA só manipula arquivos age sex { female, chest_pain_type { typ_angina, asympt, non_anginal, cholesterol exercise_induced_angina { no, class { present, 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present... Arquivo no formato.arf Atributo numérico Atributo nominal

67 DCBD 67 Fundamentos, ferramentas e aplicações WEKA Abertura

68 DCBD 68 Fundamentos, ferramentas e aplicações WEKA Abertura Simple CLI Antiga interface em linha de comando Explorer Principal interface gráfica do WEKA Dá acesso a todas as funcionalidades por meio de seleção de menus e fornecimento de parâmetros Experimenter Permite a realização de experimentos em larga escala com diversas configurações de parâmetros Pode rodar em ambientes de grid KnowledgeFlow Permite executar um conjuto de ações em uma sequência controlada

69 DCBD 69 Fundamentos, ferramentas e aplicações WEKA Pré-processamento Dados podem ser importados de um arquivo em diversos formatos: ARFF CSV com os nomes das variáveis na primeira linha (pode ser gerado pelo EXCEL) C4.5 (sistema de Quinlan) – 2 arquivos, um com nomes e outro com dados binary – formato gerado pelo Java para compactar grandes arquivos de dados Dados podem também ser lidos de uma URL ou de um banco de dados SQL (usando JDBC) Ferramentas de pré-processamento no WEKA são chamadas “filters” WEKA contém filtros para: Discretização Normalização Amostragem Seleção de atributos Transformação Combinação de atributos …

70 DCBD 70 Fundamentos, ferramentas e aplicações

71 DCBD 71 Fundamentos, ferramentas e aplicações

72 DCBD 72 Fundamentos, ferramentas e aplicações

73 DCBD 73 Fundamentos, ferramentas e aplicações

74 DCBD 74 Fundamentos, ferramentas e aplicações

75 DCBD 75 Fundamentos, ferramentas e aplicações

76 DCBD 76 Fundamentos, ferramentas e aplicações

77 DCBD 77 Fundamentos, ferramentas e aplicações

78 DCBD 78 Fundamentos, ferramentas e aplicações

79 DCBD 79 Fundamentos, ferramentas e aplicações

80 DCBD 80 Fundamentos, ferramentas e aplicações

81 DCBD 81 Fundamentos, ferramentas e aplicações

82 DCBD 82 Fundamentos, ferramentas e aplicações WEKA Construção de “classificadores” Classificadoes no WEKA são modelos para predição nominal ou de quantidades numéricas (sic) Incluem: Árvores e listas de decisão Classificadores baseados em instâncias “Support Vector Machines” (Método baseado em aprendizagem estatística) Redes neurais (Multi-Layer Perceptrons, …) Regressão logística (Método estatístico de predição de valores de variáveis categóricas) Redes bayesianas (Método probabilístico) … Ferramentas para melhoria do desenpenho dos classificadores (Meta-classificadores)

83 DCBD 83 Fundamentos, ferramentas e aplicações

84 DCBD 84 Fundamentos, ferramentas e aplicações

85 DCBD 85 Fundamentos, ferramentas e aplicações

86 DCBD 86 Fundamentos, ferramentas e aplicações

87 DCBD 87 Fundamentos, ferramentas e aplicações

88 DCBD 88 Fundamentos, ferramentas e aplicações

89 DCBD 89 Fundamentos, ferramentas e aplicações

90 DCBD 90 Fundamentos, ferramentas e aplicações

91 DCBD 91 Fundamentos, ferramentas e aplicações

92 DCBD 92 Fundamentos, ferramentas e aplicações

93 DCBD 93 Fundamentos, ferramentas e aplicações

94 DCBD 94 Fundamentos, ferramentas e aplicações

95 DCBD 95 Fundamentos, ferramentas e aplicações

96 DCBD 96 Fundamentos, ferramentas e aplicações

97 DCBD 97 Fundamentos, ferramentas e aplicações

98 DCBD 98 Fundamentos, ferramentas e aplicações

99 DCBD 99 Fundamentos, ferramentas e aplicações

100 DCBD 100 Fundamentos, ferramentas e aplicações

101 DCBD 101 Fundamentos, ferramentas e aplicações

102 DCBD 102 Fundamentos, ferramentas e aplicações

103 DCBD 103 Fundamentos, ferramentas e aplicações

104 DCBD 104 Fundamentos, ferramentas e aplicações

105 DCBD 105 Fundamentos, ferramentas e aplicações

106 DCBD 106 Fundamentos, ferramentas e aplicações

107 DCBD 107 Fundamentos, ferramentas e aplicações

108 DCBD 108 Fundamentos, ferramentas e aplicações

109 DCBD 109 Fundamentos, ferramentas e aplicações

110 DCBD 110 Fundamentos, ferramentas e aplicações

111 DCBD 111 Fundamentos, ferramentas e aplicações

112 DCBD 112 Fundamentos, ferramentas e aplicações

113 DCBD 113 Fundamentos, ferramentas e aplicações

114 DCBD 114 Fundamentos, ferramentas e aplicações

115 DCBD 115 Fundamentos, ferramentas e aplicações

116 DCBD 116 Fundamentos, ferramentas e aplicações

117 DCBD 117 Fundamentos, ferramentas e aplicações

118 DCBD 118 Fundamentos, ferramentas e aplicações

119 DCBD 119 Fundamentos, ferramentas e aplicações

120 DCBD 120 Fundamentos, ferramentas e aplicações

121 DCBD 121 Fundamentos, ferramentas e aplicações

122 DCBD 122 Fundamentos, ferramentas e aplicações

123 DCBD 123 Fundamentos, ferramentas e aplicações WEKA Agrupamento de dados WEKA contém “agrupadores” para encontrar grupos de instâncias similares em um conjunto de dados Métodos implementados: k-Means EM Cobweb X-means FarthestFirst Agrupamentos podem ser visualizados e comparados a agrupamentos “verdadeiros” (se existir)

124 DCBD 124 Fundamentos, ferramentas e aplicações

125 DCBD 125 Fundamentos, ferramentas e aplicações

126 DCBD 126 Fundamentos, ferramentas e aplicações

127 DCBD 127 Fundamentos, ferramentas e aplicações

128 DCBD 128 Fundamentos, ferramentas e aplicações

129 DCBD 129 Fundamentos, ferramentas e aplicações

130 DCBD 130 Fundamentos, ferramentas e aplicações

131 DCBD 131 Fundamentos, ferramentas e aplicações

132 DCBD 132 Fundamentos, ferramentas e aplicações

133 DCBD 133 Fundamentos, ferramentas e aplicações

134 DCBD 134 Fundamentos, ferramentas e aplicações WEKA Associação WEKA contém uma implementação do algoritmo Apriori para aprendizagem de regras de associação Só trabalha com dados discretos Pode identificar dependências estatísticas entre grupos de atributos: leite, manteiga  pão (com confiança 0.9 e suporte 4) Apriori pode computar todas as regras com um suporte mínimo e uma certa confiança

135 DCBD 135 Fundamentos, ferramentas e aplicações

136 DCBD 136 Fundamentos, ferramentas e aplicações

137 DCBD 137 Fundamentos, ferramentas e aplicações

138 DCBD 138 Fundamentos, ferramentas e aplicações

139 DCBD 139 Fundamentos, ferramentas e aplicações WEKA Seleção de atributos Painel que pode ser usado para investigar quais (subconjunto de) atributos são os mais preditivos Seus métodos contêm um método de busca e um método de avaliação WEKA disponibiliza combinações (semi-)arbitrárias desses métodos

140 DCBD 140 Fundamentos, ferramentas e aplicações

141 DCBD 141 Fundamentos, ferramentas e aplicações

142 DCBD 142 Fundamentos, ferramentas e aplicações

143 DCBD 143 Fundamentos, ferramentas e aplicações

144 DCBD 144 Fundamentos, ferramentas e aplicações

145 DCBD 145 Fundamentos, ferramentas e aplicações

146 DCBD 146 Fundamentos, ferramentas e aplicações WEKA Visualozação de dados Bastante útil na prática: Por exemplo, ajuda a determinar a dificuldade do problema de aprendizagem WEKA pode visualizar atributos simples (1-d) e pares de atributos (2-d) Valores de classe codificados por cores Opção de “Jitter” para lidar com atributos nominais (e detectar pontos de dados “escondidos”) Função “Zoom-in”

147 DCBD 147 Fundamentos, ferramentas e aplicações

148 DCBD 148 Fundamentos, ferramentas e aplicações

149 DCBD 149 Fundamentos, ferramentas e aplicações

150 DCBD 150 Fundamentos, ferramentas e aplicações

151 DCBD 151 Fundamentos, ferramentas e aplicações

152 DCBD 152 Fundamentos, ferramentas e aplicações

153 DCBD 153 Fundamentos, ferramentas e aplicações Aplicações Mercado Pode ser utilizada para controlar custos ou para aumentar lucros Exemplos: Gestão da relação com os clientes: determinando os que podem ir para a concorrência, pode-se agir para retê-los (é geralmente bem mais barato reter um cliente do que adquirir um novo) Marketing: identificando bons candidatos para ofertas e catálogos, pode-se reduzir despesas e aumentar as vendas Data Mining de sucesso Mais importante que a escolha de qualquer algoritmo são Capacidade do construtor do modelo e a forma como um programa suporta o processo de construção do modelo! O grau em que a ferramenta de data mining suporta a exploração interativa dos dados Essa interação é mais eficiente quando os componentes seguintes são bem integrados: Boas ferramentas de visualização para compreender os dados e interpretar os resultados Algoritmos para a construção dos modelos Duas chaves para o sucesso: Formular corretamente o problema que se quer resolver Utilizar os dados corretos

154 DCBD 154 Fundamentos, ferramentas e aplicações Aplicações Análise e gerenciamento de mercado Marketing de precisão Gerenciamento de relações com consumidores Análise de cestas de mercado Vendas cruzadas Segmentação de mercado Análise e gerenciamento de risco Previsões retenção de clientes controle de qualidade análise de competitividade Análise e gerenciamento de fraudes

155 DCBD 155 Fundamentos, ferramentas e aplicações Aplicações Análise e gerenciamento de mercado Marketing de precisão Transações com cartões de crédito, cartões de fidelidade, cupons de desconto, requisições de clientes e estudos sobre o estilo de vida dos clientes Marketing dirigido Encontra grupos de clientes “modelo” que compartilham as mesma características: interesses, salário, hábitos de consumo,... Determinação de padrões de compra ao longo do tempo Conversão de conta simples para conjunta, casamento,... Análise de vendas cruzadas Associações e correlações entre vendas de produtos Predição baseada na informação de associações Perfil do consumidor Tipos de consumidores que compram quais produtos (agrupamento ou classificação) Identificação dos requisitos dos clientes Identifcação dos melhores produtos para os diferentes clientes Uso de predição para encontrar quais fatores atrairão os consumidores

156 DCBD 156 Fundamentos, ferramentas e aplicações Aplicações Análise corporativa e gerenciamento de risco Planejamento financeiro e avaliação de crédito Análise e previsão de fluxo de caixa Análise contingente para avaliação de crédito Análise seccional e temporal (razão financeira, análise de tendência, etc.) Planejamento de recursos Sumarização e comparação de recursos e gastos Competição Monitoramento de competidores e mercado Agrupamento de clientes em classes e procedimentos de preços baseados em classes Estratégias para fixação de preços em mercado competitivo

157 DCBD 157 Fundamentos, ferramentas e aplicações Aplicações Detecção e gerenciamento de fraudes Amplamente utilizado em serviços de cartões de crédito, telefonia celular, convênios de saúde, etc Uso de dados históricos para construir modelos do comportamento fraudulento e uso de data mining para identificar instâncias similares Exemplos Seguros de automóveis – Detecção de grupos de pessoas que forjam acidentes Lavagem de dinheiro – Detecção de transações suspeitas de dinheiro (US Treasury's Financial Crimes Enforcement Network) Seguros médicos – Detecção de pacientes ”profissionais” e grupos de doutores coniventes  Detecção de tratamento médico inapropriado (A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados - economia de AD$ 1 milhão /ano) Detecção de fraudes telefônicas – Modelo de chamadas telefônicas: destino da chamada, duração, horário e dia da semana; análise de padrões para detectar desvios  A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones celulares, e detectou uma fraude milionária Venda a varejo – Analistas estimam que 38% das perdas são devidas a empregados desonestos

158 DCBD 158 Fundamentos, ferramentas e aplicações Aplicações Outras aplicações Esportes IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas, bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat; Astronomia JPL e o Observatório do Monte Palomar descobriram 22 quasars com o auxílio de data mining Internet IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, para descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc.

159 DCBD 159 Fundamentos, ferramentas e aplicações AplicaçõesTendências Tecnologias de suporte ao Data Mining Data Mining em bases de dados relacionais Bases de dados heterogêneas, distribuídas ou legadas TextoMultimídia WebMetadados Informação geo-referenciada...

160 DCBD 160 Fundamentos, ferramentas e aplicações Artefatos para a Inteligência Contatos Telefone UCB: (61) Celular: (61)


Carregar ppt "Artefatos Inteligência Artefatos para a Inteligência Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações Prof. Edilson."

Apresentações semelhantes


Anúncios Google