Introdução à Descoberta de Conhecimento e Mineração de Dados

Slides:

Advertisements

Apresentações semelhantes

Sistemas de Informação

Advertisements

INFORMAÇÕES COMPLEMENTARES

Administração de Sistemas de Informação

Sistemas de Informações Gerenciais

A busca das mulheres para alcançar seu espaço dentro das organizações

INTELIGÊNGIA COMPUTACIONAL

Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.

Aplicações Estatísticas na Área de Inteligência de Mercado

Capa Disciplina: Ajustamento de Observações

Operadores e Funções do LINGO

Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.

Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.

Felipe Carvalho – UFES 2009/2

Sistemas de Apoio à Decisão (SAD) Helena Galhardas

1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.

Curso de ADMINISTRAÇÃO

Aprendizado de Máquina

2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.

1 MODELAGEM COM A UML (UNIFIED MODELING LANGUAGE) BREVE HISTÓRICO CARACTERÍSTICAS CONCEITOS DE PROGRAMAÇÃO ORIENTADA A OBJETOS MODELAGEM DE ANÁLISE E DE.

EXPRESSÕES ARITMÉTICAS

Mineração de Dados ou Descoberta de conhecimento em BDs

Mineração de Dados Introdução.

S TÉFANI P IRES Mineração de Dados – Trimestre Prof. Marcus Sampaio 02/12/2008 Mineração de Dados.

KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.

Aula 4 Nomes, Vinculações, Tipos e Escopos

HellermannTyton Brasil Sistema de Gerenciamento Integrado HellermannTyton Brasil Sistema de Gerenciamento Integrado Alexandre Martins Consultor de Negócios.

O que é 5(S)? ? 5(S) É a prática de hábitos que permitem mudanças nas relações... É a base de qualquer programa de qualidade. 1.

34 © 2004 by Pearson Education Liquidez Liquidez é um conceito econômico que considera a facilidade com que um ativo pode ser convertido no meio de troca.

Paulo J Azevedo Departamento de Informática

Provas de Concursos Anteriores

Administração de Sistemas de Informação Banco de Dados

Instituto de Geociências Universidade Federal de Minas Gerais

Hamburgo, Alemanha Definir o caminho que irá permitir a Lions Clubs International alcançar o seu potencial pleno como organização.

Engenharia de Requisitos

Novos desafios em estudos de mercado: Knowledge Discovery e Data Mining 7º Congresso da APODEMO Novembro de 2000.

PESQUISA SOBRE PRAZO MÉDIO DA ASSISTÊNCIA NA SAÚDE SUPLEMENTAR

Data Warehouse & Data Mining

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Aluno: Mário Monteiro Orientador: Sérgio Soares 1.

Dos dados ao Conhecimento: O Papel da Estatística no Marketing de Resultados UFRJ - 31/03/2005.

Object Oriented Software Construction (MEYER, Bertrand)

1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.

Plataforma Brasil – Submissão de pesquisa

Sociedade da Informação: Ambiente de TI nas Organizações

Projeto Marcas que Eu Gosto 1 PROJETO MARCAS QUE EU GOSTO Estudos Quantitativo de Consumidores Janeiro / 2005.

Modelagem Estatística

Tecnologia da Informação

BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.

Capacidades do Data Warehouse

IF696 - Integração de Dados e DW

Semântica de Linguagens de Programação

Projeto de Banco de Dados

Data Mining: Conceitos e Técnicas

DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.

Recuperação de Informação

Sistemas de Informação e as decisões gerenciais na era da Internet

1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.

Olhe fixamente para a Bruxa Nariguda

3ª PESQUISA DE REMUNERAÇÃO

Soluções de Inteligência de Negócios para o Judiciário - TJMS IV Encontro de Gestores do SAJ - São Paulo - SP Leonardo Torres de Lima Secretaria de Tecnologia.

INE5644 – Data Mining Profa Vania Bogorny

Gestão da Tecnologia da Informação

Prof. Ana Martins – UCB Unidade 02 Aula 03

Mineração de Dados: Introdução

Sistemas de Apoio à Decisão (SAD) Decision Support Systems

HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

Aplicações em Redes Neurais Artificiais De acordo com Turbam, McLean e Wetherbe (2004), “a computação neural também pode ser combinada com outros sistemas.

Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes

Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes

Transcrição da apresentação:

Introdução à Descoberta de Conhecimento e Mineração de Dados Professor Celso A A Kaestner, Dr. Eng.

Site: http://www.dainf.ct.utfpr.edu.br/~kaestner/ls-dm.htm

Introdução

Introdução: por que Data Mining ? O problema da explosão da quantidade de dados (data explosion): Ferramentas de armazenamento automático e a maturidade da tecnologia de banco de dados, bem como o advento da Internet, levaram à criação de imensas massas de dados em data bases, data warehouses e em outros repositórios.

Introdução: por que Data Mining ? 1 byte = 8 bits; 1 Kbyte = 1.024 bytes; 1 Mbyte ~= 1.000.000 bytes; 1 Gbyte ~= 1.000.000.000 bytes; 1 Terabyte ~= 1.000.000.000.000= 1012 bytes 1 EB = 1 exabyte ~= 1.000.000 Tbytes Qual o tamanho das bases de dados ? Qual o tamanho da internet ?

Introdução: por que Data Mining ? Fonte: Curso de Piatetsky-Shapiro

Introdução: por que Data Mining ? Tamanho da Internet (2003, em Terabytes): Surface Web 167 Deep Web 91.850 Email (originals) 440.606 Instant messaging 274 TOTAL 532.897 Fonte: How Much Information 2003

Introdução: por que Data Mining ? Tamanho da Internet indexada (2005): 11,5 bilhões de páginas; Ver: http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf http://www.worldwidewebsize.com/

Introdução: por que Data Mining ? Estamos nos afogando em dados, mas sedentos por informação!

Introdução: por que Data Mining ? A solução: data warehousing e data mining: Data warehousing e on-line analytical processing (OLAP); Extração de conhecimentos interessantes (regras, regularidades, padrões, restrições) a partir das grandes bases de dados.

Introdução: evolução da tecnologia dos BD 1960s: Coleta de dados, criação de bancos de dados, IMS e DBMS em rede; 1970s: Modelo de dados relacional, implementação de DBMS relacionais; 1980s: RDBMS, modelos de dados avançados (relacional estendido, OO, dedutivo, etc.) e DBMS orientados à aplicação (espaciais, científicos, para engenharia, etc.) 1990s—2000s: Data mining and data warehousing, DBMS multimídia e Web DB.

Introdução: o que é data mining ? Data mining (descoberta de conhecimento em BD): Extração de padrões de informação de interesse: não-trivial, implícita, previamente desconhecida e potencialmente útil, de grandes DBs.

Introdução: o que é data mining ? Dilbert explica ...

Introdução: o que é data mining ? Conceitos relacionados: Descoberta de conhecimento em BD (KDD), extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc. O que não é data mining? Processamento dedutivo de consultas; Sistemas especialistas e pequenos programas estatísticos e de aprendizagem de máquina.

Introdução: o que é data mining ? Gartner Group: “Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.”

Introdução: potenciais aplicações Análise de DB e suporte à decisão: Análise e gerenciamento de mercado: Marketing dirigido, gerenciamento de relações com consumidores, análise de mercado, vendas cruzadas, segmentação de mercado; Análise e gerenciamento de risco: Previsões, retenção de clientes, controle de qualidade, análise de competitividade; Análise e gerenciamento de fraudes.

Introdução: potenciais aplicações Outras aplicações: Mineração de textos (documentos, emails, news) e Web mining. Resposta inteligente a consultas.

Análise e gerenciamento de mercado Onde estão as fontes de dados para análise ? Transações com cartões de crédito, cartões de fidelidade, cupons de desconto, requisições de clientes e estudos sobre o estilo de vida dos clientes. Marketing dirigido: Encontra grupos de clientes “modelo” que compartilham as mesma características: interesses, salário, hábitos de consumo, etc.

Análise e gerenciamento de mercado Determinação de padrões de compra ao longo do tempo: Conversão de conta simples para conjunta, casamento, etc. Análise de vendas cruzadas: Associações e correlações entre vendas de produtos; Predição baseada na informação de associações.

Análise e gerenciamento de mercado Perfil do consumidor: data mining pode informar que tipos de consumidores compram quais produtos (agrupamento ou classificação); Identificação dos requisitos dos clientes: Identificação dos melhores produtos para os diferentes clientes; Uso de predição para encontrar quais fatores atrairão os consumidores;

Análise e gerenciamento de mercado Fornecimento de informação sumarizada: Relatórios multidimensionais sumarizados; Informações estatísticas sumarizadas (tendência central e variação dos dados)

Análise corporativa e gerenciamento de risco Planejamento financeiro e avaliação de crédito: Análise e previsão de fluxo de caixa; Análise contingente para avaliação de crédito; Análise seccional e temporal (razão financeira, análise de tendência, etc.) Planejamento de recursos: Sumarização e comparação de recursos e gastos; Competição: Monitoramento de competidores e mercado; Agrupamento de clientes em classes e procedimentos de preços baseados em classes; Estratégias para fixação de preços em mercado competitivo.

Detecção e gerenciamento de fraudes Aplicações: Amplamente utilizado em serviços de cartões de crédito, telefonia celular, convênios de saúde, etc. Abordagem: Uso de dados históricos para construir modelos do comportamento fraudulento e uso de data mining para identificar instâncias similares;

Detecção e gerenciamento de fraudes Exemplos: Seguros de automóveis: detectar um grupo de pessoas que forjam acidentes para ganhar o seguro; Lavagem de dinheiro: detecção de transações suspeitas de dinheiro (US Treasury's Financial Crimes Enforcement Network) Seguros médicos: detecção de pacientes”profissionais” e grupos de doutores coniventes.

Detecção e gerenciamento de fraudes Detecção de tratamento médico inapropriado: A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados (economia de AD$1milhão /ano). Detecção de fraudes telefônicas: Modelo de chamadas telefônicas: destino da chamada, duração, horário e dia da semana; análise de padrões para detectar desvios; A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones celulares, e detectou uma fraude milionária.

Detecção e gerenciamento de fraudes Venda a varejo: Analistas estimam que 38% das perdas no varejo são devidas a empregados desonestos.

Outras aplicações Esportes: IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas, bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat; Astronomia: JPL e o Observatório do Monte Palomar descobriram 22 quasars com o auxílio de data mining;

Outras aplicações Ajuda ao uso da Internet, comércio eletrônico: IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, de forma a descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc. (ex-) Blue Martini Company... Amazon, Google...

A Web como fonte de aplicações Num site de comércio eletrônico, serve canal de negócios e laboratório; Limitado como canal de compra (valor do bem, segurança, privacidade ...); Como laboratório serve para testar campanhas, novos produtos, avaliar clientes, etc.

A Web como fonte de aplicações A amostra de clientes de tendenciosa; O comportamento na internet não é o mesmo do presencial; O custo de um site é elevado; Muitos robôs de busca ... (fonte: palestra de Ron Kohavi)

Análise da Web (fonte: palestra de Ron Kohavi) Tráfego na Web (10/46) por dia do mês; Por dia da semana (11/46); Exemplo por ponto de venda (POS) (12/46); Por hora (13/46); Um exemplo espúreo (14/46); Campanhas por emails (20/46); Estudos demográficos (25/46); Robôs de busca (28/46);

Análise da Web (fonte: palestra de Ron Kohavi) Estatística por visita (29/46); Privacidade (32/46); Exemplos de melhorias (41/46).

KDD e DM

Data Mining e Business Intelligence Increasing potential to support business decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Analyst Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP

KDD e Data Mining Knowledge Data mining é o coração do processo KDD Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration Databases

KDD e Data Mining Pattern Information Knowledge Post-Processing Data Pre-Processing Integração de Dados Normalização Seleção de atributos Redução de dimensionalidade Avaliação, Seleção, Interpretação e Visualização de padrões Descoberta de padrões Associação & correlação Classificação Agrupamento Análise de desvios Visão simplificada do processo de KDD

Passos do processo de KDD Estudo sobre o domínio de aplicação: Conhecimento relevante a priori e metas da aplicação; Criação de um dataset alvo: Seleção de dados; Limpeza e pré-processamento dos dados: Pode corresponder a 60 % do esforço; Redução e transformação dos dados: Encontrar atributos relevantes, redução de dimensionalidade, representação de invariantes;

Passos do processo de KDD Escolha da função de data mining: Sumarização, classificação, regressão, associação, regressão, agrupamento... Escolha do algoritmo de mineração: Busca aos padrões de interesse; Avaliação dos padrões e apresentação do conhecimento: Visualização, transformação, remoção de redundâncias, etc. Uso do conhecimento descoberto.

Arquitetura de um sistema de DM típico Graphical user interface Pattern evaluation Data mining engine Knowledge-base Database or data warehouse server Filtering Data cleaning & data integration Data Warehouse Databases

Alguns conceitos fundamentais Instância (item ou registro): Um exemplo, descrito por certo número de atributos: um dia descrito por temperatura, umidade e situação das nuvens; Atributo (característica ou campo): Medida de aspectos de uma instância, como o valor da temperatura; Classe (Rótulo): Agrupamento de instâncias, e.g. dias bons para jogar tênis

Alguns conceitos fundamentais Base de treinamento: Conjunto de exemplos utilizado para a geração do procedimento / estrutura que servirá para a aplicação em outros casos; Base de testes: Conjunto de exemplos que será utilizado para verificar a “eficiência” do procedimento de DM gerado.

Alguns conceitos fundamentais Desafio principal: Encontrar padrões verdadeiros nos dados e evitar o “overfitting” (padrões que parecem significantes mas são aleatórios ou que só funcionam para o conjunto de treinamento dado)

DM: em que dados? DB relacionais: Data warehouses; DB tradicionais; DB de transações; DB avançados e repositórios de informação; DB Orientados a Objeto e DB Objeto-Relacionais; DB espaciais; Séries temporais e dados temporais; DB legados e heterogêneos; A Web ...

Associação (correlação e causalidade) DM: funcionalidades Associação (correlação e causalidade) Associação multi-dimensional x uni-dimensional; idade(X,“20..29”)^ ganhos(X,“20..29K”) => compra (X, “PC”) [suporte = 2%, confiança = 60%]

DM: regras de associação Transações Conjuntos de itens frequentes Milk, Bread (4) Bread, Cereal (3) Milk, Bread, Cereal (2) … Regras: Milk => Bread (66%)

Descrição de conceitos: caracterização e discriminação: DM: funcionalidades Descrição de conceitos: caracterização e discriminação: Dados podem ser associados em classes; A caracterização de uma classe ou sua discriminação em relação a outras classes é potencialmente útil; Generalização, sumarização, contraste das características dos dados são os objetivos.

DM: funcionalidades Classificação e predição: Encontrar modelos (funções) que descrevem e distinguem classes ou conceitos para futura predição; Ex: classificar países conforme o clima ou carros conforme o consumo; Apresentação: árvore de decisão, regra de classificação, rede neural; Predição: de valor numérico desconhecido ou perdido;

DM: classificação Principais abordagens: Estatísticas, Árvores de decisão, redes neurais…

DM: funcionalidades Agrupamento (clustering): O rótulo (nome) da classe é desconhecido: deve-se agrupar os dados para formar classes; Ex: agrupamento de casas para encontrar padrões de distribuição; O agrupamento é baseado na maximização da similaridade intra-classe e minimização da similaridade inter-classes.

DM: agrupamento Encontrar agrupamentos“naturais” das instâncias em dados não-rotulados

Análise de desvios (outlier analysis): DM: funcionalidades Análise de desvios (outlier analysis): Desvio (outlier): objeto que não está em conformidade com o comportamento geral dos dados; Pode ser considerado como ruído ou exceção mas é útil no caso da detecção de fraudes, análise de eventos raros, etc.

DM: detecção de “outliers” Encontrar instâncias “inesperadas”

Análise de tendências e evolução: DM: funcionalidades Sumarização; Visualização; Análise de tendências e evolução: Tendência e desvio: análise de regressão DM seqüencial, análise de periodicidade; Análise baseada em similaridade; Outras análises estatísticas e de reconhecimento de padrões.

DM: sumarização Descrição de características de um grupo; Usa de linguagem natural e gráfica; Usualmente em combinação com a deteção de desvios ou outros métodos.

DM: visualização Visualizar adequadamente conjuntos de dados, facilitando a análise

Todos os padrões descobertos são interessantes ? Um sistema de DM pode gerar milhares de padrões, nem todos interessantes; Abordagem sugerida: centrada no usuário, baseada em consultas, dirigindo a mineração; Medidas do grau de interesse: Um padrão é interessante se for facilmente compreendido, válido no conjunto de dados novo / de teste com certo grau de certeza, potencialmente útil e anteriormente desconhecido, ou validando alguma hipótese que se deseja confirmar;

Todos os padrões descobertos são interessantes ? Medidas de interesse objetivas e subjetivas: Objetivas: baseadas em estatísticas e na estrutura doa padrões, e.g., suporte, confiança; Subjetivas: baseadas na crença do usuário nos dados, e.g., novidade, não-expectativa, etc.

Todos os padrões interessantes são encontrados ? Completude: encontrar todos os padrões interessantes: O sistema pode encontrar todos os padrões interessantes ? Associação x classificação x agrupamento. Otimização: busca apenas dos padrões interessantes: O sistema pode encontrar somente padrões interessantes ? Abordagens: Encontrar todos os padrões e descartar (filtrar) os não interessantes; Gerar apenas padrões interessantes: otimização de consultas de mineração.

DM: um campo multidisciplinar Database Technology Statistics Data Mining Machine Learning Visualization Information Science Other Disciplines

DM: esquemas de classificação Funcionalidade geral: DM descritivo; DM preditivo. Visões diferentes, classificações diferentes: Tipos de DB a serem minerados; Tipos de conhecimentos a serem descobertos; Técnicas a serem utilizadas; Tipos de aplicações alvo.

Uma visão multidimensional da classificação de DM DB a serem minerados: DB relacional, transacional, OO, OR, ativo, espacial, série-temporal, textual, multimídia, herdado, heterogêneo, Web... Conhecimento a ser minerado: Caracterização, agrupamento, associação, classificação, discriminação, tendência, desvios... Funções integradas e mineração em níveis múltiplos; Técnicas utilizadas: Orientada à DB, data warehouse (OLAP), aprendizagem de máquina (ML), estatística, visualização... Aplicações alvo: Varejo, telecomunicações, fraudes, DNA mining, Web mining...

OLAP mining: uma integração de data warehousing e DM Acoplamento dos sistemas de DM, DBMS e data warehouse; Sem acoplamento, fracamente acoplados, semi-acoplados, acoplados; On-line analytical mining (OLAM): Integração das tecnologias de OLAP e DM; Mineração interativa e conhecimento multi-níveis: Necessidade de minerar conhecimento e padrões em diferentes níveis de abstração utilizando drilling / rolling , etc. Integração de múltiplas funções de mineração: Classificação caracterizada, primeiro agrupamento e depois associação.

Uma arquitetura OLAM Mining query Mining result OLAM Engine OLAP Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases Data integration

Pontos centrais em DM Metodologia de mineração e interação com o usuário: Mineração de diferentes tipos de conhecimento nas DB; Mineração interativa em vários níveis de abstração; Incorporação de conhecimento de fundo (background knowledge); Linguagens de consulta para DM e DM ad-hoc; Visualização e apresentação dos resultados de DM; Manuseio de dados incompletos e de ruídos; Avaliação dos padrões: o problema do interesse. Performance e escalabilidade: Eficiência e escalabilidade dos algoritmos de DM; Métodos de DM paralelo, distribuído e incremental.

Pontos centrais em DM Pontos relacionados à diversidade de tipos de dados: Manuseio de dados relacionais e complexos; Mineração de fluxos de informação de DB heterogêneas e de sistemas de informação globais (Web). Pontos relacionados às aplicações e impactos sociais: Aplicações de descoberta de conhecimento: Ferramentas de DM para domínios específicos; Resposta inteligente a consultas; Controle de processos e processo decisório. Integração do conhecimento descoberto ao conhecimento existente: o problema da fusão de conhecimentos; Proteção de dados, segurança, integração e privacidade.

Sumário Data mining: descoberta de padrões interessantes em grandes quantidades de dados; DM é uma evolução natural da tecnologia de DB, com grande número de possíveis aplicações; O processo de KDD inclui a limpeza, integração, seleção e transformação dos dados, data mining, avaliação dos padrões e apresentação do conhecimento; A mineração pode ser executada em vários repositórios de informação; Funcionalidades do DM: caracterização, discriminação, associação, classificação, agrupamento, desvios, análise de tendências, etc. Classificação dos sistemas de DM; Pontos centrais em DM.

Referências J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. R. Goldschmidt; E. Passos. Data Mining: um Guia Prático. Editora Campus, 2005. I.H.Witten, E. Frank. Data Mining: Practical Machine Learning Tools and Techniques with JAVA Implementations. Morgan Kaufmann, 2000. P. Adriaans, D. Zantinge. Data Mining. Addison-Wesley, 1996. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Adv.in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. A. Berson, S.J. Schimdt. Data Warehousing, Data Mining & OLAP. McGraw-Hill, 1997. G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991.