Jacques Robin CIn-UFPE Arquiteturas de software e linguagens de consultas para descoberta de conhecimento em BD.

Slides:



Advertisements
Apresentações semelhantes
Ana Paula B. Barboza Ivana Xavier Rodrigues
Advertisements

Curso: Banco de Dados I Análise de Sistemas PUC Campinas
SQL Structured Query Language (continuação)
Projeto conceitual Mostra ao cliente exatamente o que o sistema fará
Felipe Carvalho – UFES 2009/2
Maurício Edgar Stivanello
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
Capítulo 2 Data Preparation for Data Mining
Mineração de Dados Introdução.
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
Material III-Bimestre Wagner Santos C. de Jesus
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Using Concept Hierarchies in Knowledge Discovery
DATA MINING Inteligência Artificial
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
MySQL Gerdson de Araújo Silva Universidade Federal de Alagoas Maceió-AL, 21 de maio de 2009.
Administração de Sistemas de Informação Banco de Dados
Unidade 3 – Estrutura dos SAD: Componentes e Arquitetura – Slide 1
Query Tuning Lílian Simão Oliveira.
Data Mining, Data Warehousing e OLAP
Banco de Dados Avançado - Prof.ª Valeria Times
Laboratório de Programação I Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Web Services Uninorte Semana de Tecnologia da Informação
Sociedade da Informação: Ambiente de TI nas Organizações
Design Patterns / Acesso ao banco de dados (java.sql)
Especialização em Tecnologia da Informação
Banco de Dados Avançado
Capacidades do Data Warehouse
Sistemas Inteligentes
Banco de Dados Avançado
Banco de Dados Avançado
Data Mining: Conceitos e Técnicas
Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.
Desenvolvendo um script SQL
Introdução a Banco de dados
Treinamento sobre SQL.
Arquitetura de Desenvolvimento Web MVC vs. Three Tiers
Jacques Robin e Francisco Carvalho CIn-UFPE Tópicos de projetos da disciplina de mineração de dados
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
METODOLOGIA, MÉTODOS E FERRAMENTAS
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
©Silberschatz, Korth and Sudarshan (modificado)4.1.1Database System Concepts Capítulo 4: SQL Estrutura básica Operações com conjuntos Funções de agregação.
Projeto de Sistemas de Informação Prof. Schneider Oracle Object-Relational.
Padrões de Interação com o Usuário
Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE.
SQL- Structured Query Language  SQL é uma linguagem de comandos para interagir com uma BD relacional (não é case-sensitive).  A linguagem Java permite.
Construir e Consultar o Data Warehouse com SQL Server
Uma proposta para OLAP ontológica Adriana Ribeiro.
RequisitePro Ismênia Galvão Lourenço da Silva ANÁLISE E ESPECIFICAÇÃO DE REQUISITOS CENTRO DE INFORMÁTICA UNIVERSIDADE FEDERAL DE PERNAMBUCO.
Jacques Robin CIn-UFPE
Mestrado em Engenharia de Computação área de concentração Geomática
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Mineração de Dados: Introdução
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Descoberta em múltiplos níveis conceituais
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
Conceitos básicos Professor Esp. Diego André Sant’Ana
Prof. Jacques Robin Sala C41 Pesquisa: * Inteligência Artificial  Banco de Dados  * Inteligência Artificial  Sistemas.
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
BANCO DE DADOS MULTIDIMENSIONAIS CONSULTANDO O CUBO DE DADOS (MDX – SQL SERVER 2008) Banco de Dados Avançado - Prof.ª Valeria Times Andresson Firmino.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.
Linguagem de definição de dados - SQL
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Programação para Internet Aula 11 SQL (Introdução a linguagem, comandos de modificação: Create, Drop, Alter, Insert, Delete, Update)
Transcrição da apresentação:

Jacques Robin CIn-UFPE Arquiteturas de software e linguagens de consultas para descoberta de conhecimento em BD

Especificação de uma tarefa de descoberta de conhecimento 1. Seleção dos dados relevantes: qual fonte de dados? quais indivíduos ou grupos de indivíduos? quais atributos? quais relações? fácil com consultas SQL ou MDX (MultiDimensional eXpression) 2. Viés de aprendizagem: qualquer método de mineração explora espaço de hipótese potencialmente imenso viés: especificação prévia de um sub-espaço alvo muito menor ex, regras de associação com atributos obrigatórios na premissa ou na conclusão, com número de premissas ou conclusões dado Métodos de mineração: qual tipo de conhecimento (árvore de decisão? regras de classificação? regras de associação?) qual algoritmos de mineração (C4.5? PRISM?)

Especificação de uma tarefa de descoberta de conhecimento 4. Medida de interesse das estruturas de conhecimento mineradas: Medida de legibilidade/interpretabilidade L: t concisão t codificadas diretamente em termos de conceitos padrões da área Medida de confiança/acurácia C: t ex, C(A  B) = | A  B | / | A | Medida de utilidade/aplicabilidade S: t ex, S(A  B) = | A  B | / | DB | Medida de novidade N: t com respeito a outras estrutura já mineradas t com respeito a expectativa codificada como conhecimento prévio Interesse de estrutura I(E) = f( L, C, S, N) Apresenta apenas estruturas de interesse superior a algum limiar L: I(E)  L

Especificação de uma tarefa de descoberta de conhecimento 5. Formato de apresentação: tabelas histogramas, pizzas gráficos 2D, gráficos 3D texto, hipertexto composição hipermídia de vários formatos

Entrada, saída e parâmetros do processo de descoberta de conhecimento Base de dados Conhecimento prévio Viés de aprendizagem Medida de interesse Método de mineração Formato de apresentação Interfaces de entrada Algoritmos de mineração Especificação dos dados relevantes Interfaces de saída Interface de controle Conhecimento descoberto KDSE: Knowledge Discovery Support Environment

Dimensões descritivas da tipologia das arquiteturas de ambientes de KDD * Variedade dos serviços implementados: horizontal: numero de passos suportados no processo de KDD vertical: diversidade das técnicas para cada passos * Grau de integração dos serviços implementados * Abertura da arquitetura: controle: via GUI, via API para software externo, via linguagem de consulta declarativa, via regras declarativas entrada: via arquivo flat, via API para BD relacional, para data mart multidimensional, para BD não convencionais saída: via GUI, via arquivo exportado, via API para BD, via API para software externo código: fonte disponível ? orientado a objetos (linguagem, engenharia de software)? componentes reutilizáveis ?

Integração do KDSE com SGBD e SGBC SGBD SGBC KDSE API Arquivo GUI SGBC Sem Integração Com Integração Solta SGBD SGBC KDSE GUI SGBC API Software externo Integração Apertada SGBD KDSE SGBD KDSESGBC

SGBD relacional Weka Arquivo GUI API Software externo Arquitetura do Weka * Código: fonte disponíveis (GNU license freeware) hierarquia de interfaces e classes 100% Java

Servidor OLAP Arquitetura do DBMiner * Limitações: implementado em C++ código fonte proprietário escondido sem API para comunicação externa interação apenas através do GUI API Algoritmos de mineração API SGBD relacional GUI Interpretador DMQL DBMiner

Arquitetura do Inteligent Miner da IBM Interface do usuário Visualizador Definidor de Dados MineradorResultados Biblioteca de Processamento Kernel minerador Resultados API (load) Resultados API (save) Ferramentas de Exportação Arquivosflat Acesso a dados Ambiente da camada API CLIENTE Meta Dados Base de mining Base de dados Base de dados SERVIDOR

Arquitetura do MATRIKS

Funcionalidades de uma linguagem declarativa de consulta para KDD * Especificar: Dados relevantes: t idealmente baseado em linguagens de consulta de SGBD Tipo de conhecimento a minerar Algoritmo(s) de mineração a usar Conhecimento prévio: t idealmente baseado em linguagem de representação do conhecimento Viés de aprendizagemsobre o espaço de hipótese a explorar t idealmente baseado em linguagem de representação do conhecimento Medidas e limiar de interesse do conhecimento a apresentar Técnica de validação a usar e divisão dos dados entre conjuntos de treinamento e conjuntos de teste: t simples treinar e testar, validação cruzada, leave-one-out, bootstrap Formato da apresentação do conhecimento minerado

Linguagens de consultas declarativas de descoberta de conhecimento * Ainda: próprio a cada KDSE, i.e., não existe padrão ausente da imensa maioria dos KDSE quando presente geralmente limitado a: t um ou dois passos no processo de KDD t um ou dois tipos de conhecimento a minerar t não integrado com SQL ou MDX * Principais: Data Mining Query Language (DMQL) do DBMiner t grande variedade de tipo de conhecimento t integrado com SQL e MDX OLE DB for Data Mining do SQL Server 2000 da Microsoft t apenas 3 tipos de conhecimento t integrado com SQL mas aparentemente não com MDX !? t limitado demais para pegar como padrão de fato

DMQL: especificação dos dados relevantes * use database database_name, | use data warehouse data_warehouse_name * from relation(s)/cube(s) [where condition] * in relevance to att_or_dim_list * order by order_list * group by grouping_list * having condition

DMQL: especificação do tipo de conhecimento a minerar * Caracterização: Mine_Knowledge_Specification ::= mine characteristics [as pattern_name] analyze measure(s) * Discriminação: Mine_Knowledge_Specification ::= mine comparison [as pattern_name] for target_class where target_condition {versus contrast_class_i where contrast_condition_i} analyze measure(s) * Associação: Mine_Knowledge_Specification ::= mine associations [as pattern_name]

DMQL: especificação do tipo de conhecimento a minerar (cont.) * Classificação: Mine_Knowledge_Specification ::= mine classification [as pattern_name] analyze classifying_attribute_or_dimension * Evolução: Mine_Knowledge_Specification ::= mine prediction [as pattern_name] analyze prediction_attribute_or_dimension {set {attribute_or_dimension_i= value_i}}

DMQL: especificação das hierarquias conceituais * Uso de hierarquia: use hierarchy for * Definição de hierarquias: define hierarchy time_hierarchy on date as [date,month quarter,year] define hierarchy age_hierarchy for age on customer as level1: {young, middleAged, senior} < level0: all level2: {20,..., 39} < level1: young level2: {40,..., 59} < level1: middleAged level2: {60,..., 89} < level1: senior define hierarchy age_hierarchy for age on customer as {age_category(1),..., age_category(5)} := cluster(default, age, 5) < all(age) define hierarchy profit_margin_hierarchy on item as level_1: low_profit_margin < level_0: all if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50) and ((price - cost) <= $250)) level_1: high_profit_margin < level_0: all if (price - cost) > $250

DMQL: especificação das medidas de interesse e do formato de apresentação * Medidas de interesse: with threshold = threshold_value exemplos: t with support threshold = 0.05 t with confidence threshold = 0.7 * Formato: display as * Granularidade: Multilevel_Manipulation ::= roll up on attribute_or_dimension | drill down on attribute_or_dimension | add attribute_or_dimension | drop attribute_or_dimension

DMQL: exemplo de consulta use database AllElectronics_db use hierarchy location_hierarchy for B.address mine characteristics as customerPurchasing analyze count% in relevance to C.age, I.type, I.place_made from customer C, item I, purchases P, items_sold S, works_at W, branch where I.item_ID = S.item_ID and S.trans_ID = P.trans_ID and P.cust_ID = C.cust_ID and P.method_paid = ``AmEx'' and P.empl_ID = W.empl_ID and W.branch_ID = B.branch_ID and B.address = ``Canada" and I.price >= 100 with noise threshold = 0.05 display as table

OLE DB for Data Mining