Descoberta de Conhecimento em BD Jacques Robin e Ricardo Bezerra.

Slides:



Advertisements
Apresentações semelhantes
SISTEMAS DE SUPORTE À DECISÃO
Advertisements

Introdução aos Sistemas de Informação Gerencial
Agenda Introdução Justificativa Objetivo Detecção de Spam
Administração de Sistemas de Informação
SIN - Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Felipe Carvalho – UFES 2009/2
Engenharia de Software
Planejamento Estratégico de TI
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Apresentação da Monografia
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Redes Neurais (Conceitos Fundamentais)
Descoberta de Conhecimento em BD
Descoberta de Conhecimento em BD Jacques Robin e Ricardo Bezerra.
Mineração de Dados Introdução.
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados
FACENS – Engenharia da Computação Inteligência Artificial
Agrupamento de padrões Métodos hierárquicos
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
DATA MINING Inteligência Artificial
INF 1771 – Inteligência Artificial
Tomada de Decisão e Sistemas de Informação
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Sistema Recomendador para Comércio Eletrônico
Metolodogia de Desenvolvimento de Data Warehouse
IFSul – Campus Venâncio Aires
Gerenciamento de Dados
Tecnologia da informação e estado
Tecnologia da Informação
4.2. Data Mining (Mineração de Dados)
Tecnologia da informação
Fase de Elaboração: Fluxo de Análise Análise de Sistemas de Software Prof. Rodrigo Ribeiro.
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Redes Bayesianas - Aplicação em Risco Operacional
Data Mining: Conceitos e Técnicas
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
ESTÁGIOS NA CRIAÇÃO DE UM NEGÓCIO
Experimentação Algorítmica
TECNOLOGIA DA INFORMAÇÃO
Sistemas de Informações Gerenciais
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
O paradigma Indutivo Álvaro Degas
Prof. Ana Martins – UCB Unidade 02 Aula 03
Mineração de Dados: Introdução
SIM - (Sistema de Informação em MKT)
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
KDD E MINERAÇÃO DE DADOS
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
Gestão do Conhecimento e da Informação
Prof. Jacques Robin Sala C41 Pesquisa: * Inteligência Artificial  Banco de Dados  * Inteligência Artificial  Sistemas.
Projeto de Banco de Dados
Professora Michelle Luz
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Profa. Ms. Léia D’Alvia Aula D. Empresas Capacidade de surpreender o cliente diferente de preço e prazo Reinventaram o seu setor A Informação será o grande.
CMMI Capability Maturity Model Integration
Sistemas de Informações Sistemas Informações Empresariais 4. SIG Marketing e Vendas Márcio Aurélio Ribeiro Moreira
Reconhecimento de Padrões Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura.
Transcrição da apresentação:

Descoberta de Conhecimento em BD Jacques Robin e Ricardo Bezerra

Motivação: da seca de dados até o diluvio * Informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento em massa; * Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)” * Recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: processo iterativo de criação, teste e refinamento de hipóteses;

Motivação: inundação de informação * “Morrendo de sede por conhecimento em um oceano de dados” * Gigantismo do problema de análise de dados para tomada de decisão: BD da Wal-Mart: 20 milhões de transações por dia Data Warehouse da Mobil: 100 TB BD da NASA: recebe de satélites 50 GB por hora * Solução: ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados ferramentas de auxílio para as tarefas cognitivas da análise integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão

Exemplo preliminar * Problema do mundo dos negócios, entender o perfil dos clientes: desenvolvimento de novos produtos; para controle de estoque em postos de distribuição; propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; * Situação: empresa possui registro de todas as transações efetuadas; mas como aproveitar dessa riqueza de dados? * Categorias: produtos de esporte; eletrodomésticos; produtos de entretenimento; produtos para o lar;

Processo mínimo de descoberta de conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Redução de dimensionalidade, combinação de atributos; Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida Interpretação dos resultados, com possível retorno aos passos anteriores; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;

1. Seleção de dados e 2. pré-processamento * Com seu conhecimento do domínio, analista humano decide: que as informações relevantes a-priori encontram-se nas seguintes tabelas: t clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; t produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; t transações: identificador de cliente, identificador de produto, data e hora, quantidade; Eliminar registros incompletos, inconsistentes, etc.

3. Transformação de dados * Agrupando informações em uma única tabela;

4. Data mining stricto sensus * Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos ex.: rede de Kohonen do tipo vector quantization; * Idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares; * Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária; * A planilha calcula estatísticas de cada grupo, comparando-as com toda população;

5. Apresentação dos resultados * Analista humano: ainda precisa do seu conhecimento do domínio para interpretar esses resultados em conhecimento marketing

Descoberta de Conhecimento em BD * “O processo: não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; * “Torture os dados até eles confessarem”; * O que é uma descoberta, afinal? Exibir todos os empregados que ganham dentro de uma determinada faixa salarial é uma descoberta? * O que é um padrão interessante? Válido, Novo, Útil, Interpretável (objetividade difícil) que é conhecimento?: { X | f(X, V, N, U, I) > T}

KDD x Data Mining * Mineração de dados: passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; * KDD: utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento” incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;

O perigo da falta de interpretação Hospital AHospital B Morreram Sobreviveram Total %2% O hospital A parece ser o menos adequado.

O perigo da falta de interpretação (cont.) * Números x Bom-senso: 1. Mentiras, 2. Mentiras danadas, 3. Estatísticas... e data mining? Hosp. AHosp. B Morreram Sobreviveram Total Hosp. AHosp. B Morreram Sobreviveram Total %1.3% 3.8%4% Boas condições Más condições O hospital A é melhor!

A busca por causalidade * Correlação não é o mesmo que causalidade “lama” e “chuva” são dois conceitos relacionados, mas como inferir que um é causa do outro? A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais? t Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam; * Experimentos controlados * KDD necessariamente: processo exploratório, iterativo e interativo envolvendo em cada passo um especialista humano tanto (se não mais) importante do que método de mineração: t auxílio ao gerenciamento do processo (Knowledge Management) t integração transparente de ferramentas

Processo de KDD mais abrangente Task Discovery Goal Data Discovery Output Generation Data Analysis Model Development Data Cleaning Domain Model Report Action Model Monitor Query tools Statistic & AI tools Visualization tools Presentation tools Data transformation tools Database

KDD: problema pluridisciplinar * Inteligência Artificial aprendizado de máquina; representação de conhecimento e inferência; geração automática de resumos textuais; * Estatística: análise exploratória de dados; * Computação gráfica: visualização de dados; * Bancos de dados: integração, consolidação e remodelagem de dados para processamento analítico (data warehousing) linguagens de consulta para: t hipercubos de dados (OLAP) t funções de mineração (OLAM) * Integração: APIs entre ferramentas, disponibilização na Web, BD dedutivos, ativos, temporais, OOs, de restrições

* Ex, conhecimento extraído de um BD de supermercado: No ano passado, as variações de vendas mais incomuns foram: t Soda Diet com decrescimento de 40% na região nordeste de julho a agosto40% t Cerveja Bavaria com crescimento de 42% nacional de setembro a outubro; t... Outro exemplo de passos e saída de KDD BD Relacional Base de Conhecimento Data Warehouse Dimensiona l Aprendizagem Mineração de Dados Arquivos de Log Páginas Web Geração de Linguagem Natural

Tarefas básicas * Previsão Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; Exemplos: classificação e regressão; * Descrição Reportar relações entre as variáveis do modelo de forma simétrica; À princípio, está mais relacionada ao processo de KDD; Exemplos: agrupamento, restrições de integridade, dependências entre variáveis, análise de desvio, sumarização (incluindo sumário de textos),

Exemplo de previsão 1 * Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: se a renda é menor que t, então o crédito não deve ser liberado * Exemplo: árvores de decisão; indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito

Exemplo de previsão 2 * Hiperplano oblíquo: melhor separação: * Exemplos: regressão linear; perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado

Exemplo de previsão 3 * Superfície não linear: melhor poder de classificação, pior interpretação; * Exemplos: perceptrons multicamadas; regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado

Exemplo de previsão 4 * Métodos baseado em exemplos; * Exemplos: k-vizinhos mais próximos; raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado

Exemplo de previsão 5 * Previsão de séries temporais Identificação dos investimentos mais promissores nos próximos 30 dias;

Exemplo de descrição 1 * Agrupamento * Exemplo: vector quantization; renda débito t + +: exemplo Análise de crédito

Exemplo de descrição 2 * Regras de associação “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; descoberta simétrica de relações, ao contrário de métodos de classificação t qualquer atributo pode ser uma classe ou um atributo de discriminação;

Garimpando resultados * Transformar de registros em mil regras é bom, mas... o que fazer com estas 1000 regras? * Mineração de Conhecimento * Medidas de utilidade: subjetivas t dependentes de domínio; t demanda especialistas com tempo livre; objetivas t mais independentes; t ex, grau de surpresa; Validade t utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas; E as exceções? t ruído ou pepita de conhecimento

Distinguir pepitas de ruído * Regras cobrindo cobrem apenas uma pequena quantidade de dados: potencial para descrever relações interessantes e anteriormente despercebidas; porém, são facilmente descartadas em filtragens por limiar de grau de cobertura; t como distingui-las de ruído? * Idéia do algoritmo: criar pequenas generalizações das regras em estudo e comparar a cobertura obtida;

Escalabilidade técnicas para acelerar a mineração de BD gigantes * Amostragem redução de precisão; * Algoritmos distribuídos particionar o banco de dados em p partições; utilizar um processador diferente para cada partição; utilizar um método de combinação de resultados; * Paralelismo (intra-algorítimico)

Aplicabilidade de KDD * Onde o processo de descoberta de conhecimento deve ser aplicado? A tarefa é propícia ao estudo de novos experimentos; não há nenhuma outra boa alternativa de análise de dados; disponibilidade de dados suficientes; t com nível aceitável de ruído; t sem problemas de ordem jurídica; especialistas disponíveis para t avaliação do grau de interesse das descobertas obtidas; t seleção de atributos; t descrição de conhecimento a priori em geral;

A diminuição de 40% das vendas de soda diet de julho a agosto na região nordeste foi realmente atípica porque: t para as outras regiões, a variação média das vendas desse produto no mesmo período foi um aumento de 9%; t para o ano todo, as vendas desse produto nessa mesma região decresceram de apenas 7%; t as vendas globais, de todos os produtos, nessa região e no mesmo periódo, decresceram de apenas 2% Volta