Luis Otavio Alvares – II/UFRGS

Slides:



Advertisements
Apresentações semelhantes
Teoria e Prática Prof.Ms. Nilson Aguilar
Advertisements

Um pouco mais de cardinalidade e Relacionamentos
Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
SIM- Sistemas de Informação de Marketing
Felipe Carvalho – UFES 2009/2
Planejamento Estratégico de TI
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
Apresentação da Monografia
Universidade Federal do Paraná
Preparação Básica Pyle, D. Data preparation for Data Mining Capítulo 4.
Mineração de Dados ou Descoberta de conhecimento em BDs
Mineração de Dados Introdução.
Avaliação de Sistemas Operacionais
Aula 4 – Inteligência de Negócios (Business Intellingence)
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Estruturas de Dados e Complexidade de Algoritmos
TOpico Especial 1: Banco de Dados Geográfico
Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos
INF 1771 – Inteligência Artificial
Data Mining como ferramenta de Gestão
SQL Server 2012 Introdução a Modelagem de Dados
EAL ESTATÍSTICA, PLANEJAMENTO E OTIMIZAÇÃO DE EXPERIMENTOS
Link Mining Víctor Medeiros.
Dos dados ao Conhecimento: O Papel da Estatística no Marketing de Resultados UFRJ - 31/03/2005.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Sistema Recomendador para Comércio Eletrônico
Treinamento do Microsoft® Access® 2010
Análise e Projeto de Sistemas Levantamento de Requisitos
Metolodogia de Desenvolvimento de Data Warehouse
Gerenciamento de Dados
Nova solução CRM da Riosoft
Tecnologia da informação e estado
Tecnologia da Informação
Business Intelligence:
Análise e Projeto de Sistemas
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Projeto de Banco de Dados
Data Mining: Conceitos e Técnicas
Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.
Etapas do Projeto DC.IC.15 Data Revisão: 07/04/2017 Início Fim
Análise de Sistemas de Informação
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
SATISFAÇÃO, VALOR E RETENÇÃO DE CLIENTES
Decisões de Produto e o Papel do Marketing
Engenharia de Software
Gestão de defeitos.
Aquisição de Conhecimento
Curso de Administração com Ênfase em Marketing
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Ângelo Rogério Meneghetti – GESID/PPGA/EA/UFRGS Mestrando: Ângelo Rogério Meneghetti Orientadores: Prof. Dr. João Luis Becker Prof. Dr. Henrique Freitas.
Mineração de Dados: Classificação e Predição
INE5644 – Data Mining Profa Vania Bogorny
Gestão da Tecnologia da Informação
Prof. Ana Martins – UCB Unidade 02 Aula 03
Mineração de Dados: Introdução
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Aplicações em Redes Neurais Artificiais De acordo com Turbam, McLean e Wetherbe (2004), “a computação neural também pode ser combinada com outros sistemas.
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Professora Michelle Luz
DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
INE5644 – Data Mining Profa Vania Bogorny
Transcrição da apresentação:

Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Sumário Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

Introdução Grande quantidade de informações armazenadas em muitas áreas: comércio,indústria, governo, etc. Exemplos: cada compra em um supermercado fica registrada em um arquivo (código de barra) todas as chamadas telefônicas (origem, destino, horário, duração, ...) o SUS mantém registro magnético de todos os atendimentos realizados (hospital, data, médico, diagnóstico, procedimentos realizados, ...) Exemplo: Wal Mart - ~20 milhões de transações por dia Exemplo: sistema bancário: é facil onter o saldo de uma conta ou os últimos movimentos da conta, mas é difícil obter, por exemplo, o perfil dos clientes que tem plano de seguro, ou o tipo de aplicacoes financeiras realizadas por por grupos de clientes

Exemplo de uso de conhecimento Michael Dell: venda de assinaturas de jornais Foi quem mais vendeu assinaturas do jornal no período. Em vez de oferecer ao assinatura indiscriminadamente, de porta em porta, oferecia para quem tinha se mudado há pouco tempo para a cidade e para quem tinha acabado de se caasr. Para isso consultava a prefeitura e as igrejas.

BDs atuais BDs atuais são feitos para armazenar e recuperar rápida e eficientemente dados operacionais BDs atuais são úteis para recuperar dados específicos, mas não são capazes de extrair conhecimento genérico Exemplo: um sistema bancário recupera rapidamente as últimas movimentações ou o saldo de uma conta, mas teria dificuldade em descrever o perfil do cliente em relação a outros clientes ou determinar se ele seria um bom pagador em caso de fazer um empréstimo

Conceito de DCBD Introdução Tipos de descobertas Processo de DCBD Bibliografia

Descoberta de conhecimento em bases de dados Objetivo: estudar e desenvolver um processo capaz de extrair conhecimento novo, útil e interessante implícito em coleções de dados (BD) e representá-lo de forma acessível para o usuário.

Descoberta de conhecimento em bases de dados Objetivo: descoberta de “conhecimento” a partir de dados existentes identificar relacionamentos entre os dados e gerar regras para aplicar em casos futuros

Relações da DCBD com outras áreas O processo de DCBD utiliza conhecimento de várias áreas: BD IA: aprendizagem de máquina, redes neurais, representação de conhecimento, ... estatística

DCBD: Exemplo Predição de consumo de água: Dados: consumo diário de água aspectos do tempo (temperatura, umidade do ar, …) dia da semana e do mês, feriado, férias, ... Objetivo: minimizar o consumo de energia elétrica no bombeamento

Tipos de descobertas Introdução Conceito de DCBD Processo de DCBD Bibliografia

Tipos de descobertas Os dois principais objetivos de alto nível da DCBD são a descrição e a previsão a descrição se concentra em encontrar padrões que descrevem os dados de forma compreensível para o usuário a previsão envolve usar valores conhecidos de campos ou variáveis para prever o valor desconhecido ou futuro de variáveis de interesse para isso, utiliza-se vários tipos de descoberta ou tarefas de DCBD

“Tipos” de descobertas Dependência (associação) entre atributos (o valor de um influencia o outro) Exemplos: determinados procedimentos médicos aparecem sempre juntos determinados procedimento médicos aparecem sempre associados a homens e outros a mulheres compradores de leite geralmente compram pão na mesma transação em 80% das transações em que é comprada cerveja, também é comprada batata frita

Exemplo: vendas casadas PRODUTO A PRODUTO B Compra de produto Oferta de produto relacionado PRODUTO A

“Tipos” de descobertas (cont.) Formação de agrupamentos: é uma tarefa descritiva onde se procura identificar um conjunto finito de categorias ou agrupamentos que descrevem os dados + Renda Dívida Agrupamento 3 Agrupamento 1 Agrupamento 2

“Tipos” de descobertas (cont.) Detecção de seqüências: detecção de dependências em relação ao tempo, em uma ordem determinada. Exemplo: determinado procedimento médico sempre precede outro determinado procedimento só pode ser repetido após um intervalo mínimo de tempo

“Tipos” de descobertas (cont.) Detecção de desvios: utilizada para detectar anomalias em bases de dados. Pode evidenciar problemas na qualidade dos dados, fraudes ou descobrir eventos raros Exemplos: um paciente foi submetido a três cirurgias para extração de rim um homem submetido à cesariana a incidência da doença “x” é bem maior no município “y” do que nos municípios vizinhos

Exemplos de aplicações Cartões de crédito Empresas de energia elétrica e água SUS

exemplo: sistema de mortalidade Doenças “P” – Algumas afecções originadas no período perinatal: Uruguaiana apresenta um desvio significativo em relação a esta doença, pois foram registrados muito mais casos de morte do que o esperado. Porto Alegre registrou menos mortes do que a quantidade esperada, para esta doença. Caxias do Sul apresenta um desvio em relação às doenças “Q- malformação congênita, deformidades e anomalias cromossômicas”. Foi registrado um número de mortes significantemente maior do que o esperado para a cidade.

“Tipos” de descobertas (cont.) Classificação ou descrição de conceitos (aprendizado supervisionado): dado um atributo que indique a classe, o algoritmo monta uma descrição para cada classe, identificando características comuns entre os membros da classe exemplo: se tem salário alto, é casado, tem conta no banco e o valor da prestação é baixo então é bom pagador se tem salário baixo e a prestação é alta então é mau pagador

Exemplos de uso Upgrade de pacotes de TV por assinatura Cancelamento de assinaturas Análise para concessão de empréstimos bancários

Processo de DCBD Introdução Conceito de DCBD Tipos de descobertas Bibliografia

O processo de DCBD Pouco explorado na bibliografia Longo Trabalhoso Muito dependente do usuário

Metodologia CRISP-DM CRISP-DM = CRoss – Industry Standard Process for Data Mining (projeto ESPRIT com vários parceiros industriais) Geral - não se restringe a ferramenta ou tecnologia específica

Fases do CRISP-DM

Entendimento do Negócio (ou do domínio do problema) Identificação dos objetivos do usuário sob o ponto de vista de DCBD e preparação de um plano inicial Determinar os objetivos Avaliar a situação: disponibilidade de recursos, limitações, etc. Determinar os objetivos da DC: objetivo, tipo de problema (classificação, clustering,...), critérios para avaliação do modelo. Produzir plano do projeto

Entendimento dos Dados A partir da coleta inicial, explorar os dados, verificando suas propriedades e qualidade Coletar dados iniciais Descrever os dados Número de atributos e instâncias em cada arquivo Tipos e faixas de valores dos atributos Significado de cada atributo e sua importância para o objetivo Estatísticas básicas para alguns atributos(média, DP, máximo, mínimo, etc.) Relações entre os atributos-chave Explorar os dados Verificar qualidade dos dados

Preparação de Dados Produção de um conjunto de dados adequado aos algoritmos de mineração Selecionar os dados Limpar os dados Construir dados Integrar dados: combinar múltiplas tabelas ou outras fontes Formatar dados: modificações sintáticas nos dados, sem alterar o seu significado. Ex: Primeiro atributo tem que ser uma chave única O arquivo tem que estar em uma ordem determinada Retirar vírgulas dos campos para gerar um arquivo com atributos separados por vírgulas

Preparação de dados – seleção de dados Seleção de atributos motivos: Requisitos de tempo e espaço Simplicidade do modelo gerado Relevância dos atributos Redundância entre atributos Acurácia pode ser aumentada forma: Manual Por algoritmos: mais de 30 algoritmos

Preparação de dados – seleção de dados Seleção de instâncias (exemplos, registros) Manual Por algoritmos

Preparação de dados – Limpeza dos dados Visa garantir a qualidade dos dados Eliminação de dados errôneos – Padronização de dados: formato de datas, abreviaturas, valores de atributos (ex. sexo: M ou F, 0 ou 1, Mas e Fem, ...) Eliminação de duplicatas Tratamento de valores ausentes Excluir instâncias Completar valores ausentes Complemento manual Complemento com valor constante global: ex: “desconhecido” Complementar com o valor mais provável Complementar com o valor médio do atributo

Preparação de dados – Construir dados Transformação de dados Normalização Transformação de valores simbólicos para numéricos Discretização de atributos Criação de novos atributos. Ex: área = comprimento x largura

Cabeça Corpo Sorri Segura Classe Triangular Sim Balão Amigo Quadrada Quadrado Redonda Redondo Bandeira Não Espada Inimigo sorri segura amigo inimigo sim não balão espada inimigo inimigo bandeira ou

Cabeça Corpo Sorri Segura Mesma forma Classe Triangular Sim Balão Amigo Quadrada Quadrado Redonda Redondo Bandeira Não Espada Inimigo mesma mesma - - forma forma sim sim não não amigo amigo inimigo inimigo

Modelagem Corresponde a fase de Mineração de Dados utilizada por outros autores Selecionar a técnica de modelagem Gerar projeto de teste Construir modelo: mineração propriamente dita (aplicação do algoritmo) Avaliar modelo

Avaliação Interpretar e avaliar os resultados em relação aos objetivos do usuário Avaliar resultados Revisar o processo Determinar próximos passos: ir para a fase final de disponibilização ou voltar para alguma etapa anterior

Disponibilização Planejar disponibilização: decidir a estratégia para a integração dos resultados obtidos no ambiente da organização Planejar monitoramento e manutenção: Produzir relatório final Revisar o projeto: avaliar pontos positivos e negativos do projeto, problemas e sugestões

Descoberta de Conhecimento em Bases de Dados DESAFIOS: Esforço (%) Etapa - todos estes aspectos são importantes e devem ser considerados durante o processo de desenvolvimento de um sistema de Descoberta de Conhecimento. Segundo ADRIAANS, 80% dos problemas na implementação se referem às etapas de preparação dos dados, enquanto que os outros 20% se referem à etapa de mineração de dados em si. A manipulação de dados utilizando rotinas comuns para limpeza ou codificação é muito mais importante que o próprio reconhecimento de padrões, pois sem os dados corretos, dificilmente algum conhecimento útil será extraído, implicando em prejuízos para a empresa. Fonte: Adriaans

Bibliografia Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

Bibliografia ADRIAANS, Pieter, ZANTINGE, Dolf. Data Mining. Harlow : Addison-Wesley, 1997. 158p. FAYYAD, Usama M. et al. Advances in Knowledge Discovery and Data Mining. Califórnia : American Association for Artificial Intelligence, 1996. 611p. BERRY, Michael J. A.; LINOFF, Gordon. Data Mining techniques for marketing, sales and custumer support. New York: John Wiley, 1997. 454p. PYLE, Dorian. Data preparation for data mining. San Diego: Academic Press, 1999. 540p.