KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002
KDD: Motivação aumento do volume de dados ineficiência da análise manual necessidade de novas teorias e ferramentas para auxílio na extração de conhecimento do crescente volume de dados digitais OLAP (on-line analytical processing): uma das primeiras técnicas de suporte à análise de dados set/2002
KDD: Definição Processo não trivial de identificar padrões que sejam válidos, novos, potencialmente úteis e inteligíveis, em dados. CONHECIMENTO set/2002
KDD: Objetivos 1. Verificação (hipótese do usuário) 2. Descoberta (novos padrões) - previsão - descrição set/2002
Classificação dos Padrões 1. Regra de Associação - regras na forma: A1... AnB1 ... Bm (atributos) - redes de dependência de probabilidade Itens A e C: A C (50%, 66.6%) suporte: P(A e C) = 50% confiança: P(C|A) = 66.6% Grau de Interesse set/2002
Classificação dos Padrões 2. Regra de Classificação - classificação de um conjunto de dados baseado nos valores de um atributo (atributo classificador) - árvores de decisão - aprendizado de máquina - redes neurais set/2002
Classificação dos Padrões 3. Agrupamento - agrupa um conjunto de dados (sem um determinado atributo) - similaridade intraclasse x extraclasse 4. Detecção de mudança/desvio - evolução do comportamento de um conjunto de dados set/2002
Classificação dos Padrões 5. Regras de Generalização - sintetizar características gerais de um conjunto de dados ex: média e desvio padrão - visão de alto nível de um conjunto de dados set/2002
Classificação dos Padrões Alimentos pão leite desnatado B A integral branco - Indução orientada a atributos (utiliza hierarquia da conceitos) set/2002
Etapas do KDD Interpretação / Avaliação Mineração de Dados Transformação CONHECIMENTO Pré-processamento Padrões Seleção Dados Transformados Dados Pré-processados Dados Alvo Dados set/2002
Grupo BIOINFO-USP Mundo Externo Mineração de Dados Transformação dos dados Máquinas Paralelas de Alto Desempenho Leitura de Dados Núcleo de Mineração BD Relacional Dados Primários BD de Objetos Complexos OC Elo entre dados primários e OC set/2002
Grupo BIOINFO-USP Mineração de Dados (dados extraídos do BD) - classificadores e técnicas de agrupamento - representação do conhecimento: objetos complexos/BD Relacional Interesses futuros: - técnicas de representação de conhecimento de IA - uso de conhecimento prévio set/2002
Proposta de Pesquisa Ferramentas de representação de conhecimento Base de Conhecimento Permitir a integração com a etapa de Mineração de Dados set/2002
Proposta de Pesquisa Hierarquia de Conceitos Formação: implícita no BD (definida pelo projetista) definida por especialistas análise de distribuição de dados (descoberta) set/2002
Proposta de Pesquisa Hierarquia de Conceitos (cont) Ajuste: dados dinâmicos levam a novos conceitos Codificação: permitir que seja utilizada pelos algoritmos de MD set/2002
Descoberta de padrões em múltiplos níveis conceituais Mineração de conceitos individuais (primitivos ou mais abstratos) (1) em geral, não existem regularidades fortes em conceitos de níveis baixos de abstração (2) regularidades em conceitos de nível mais alto de abstração, em geral podem ser conhecidas set/2002
Descoberta de padrões em múltiplos níveis conceituais Alimentos pão leite desnatado B A integral branco Leite Integral Pão Branco set/2002
KDD + IA Fim set/2002
Árvores de Decisão Jogar tênis SOL Chuvoso Encoberto umidade sim vento alta normal forte fraco não sim não sim set/2002