Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.

Slides:



Advertisements
Apresentações semelhantes
Acompanhamento do Sistema
Advertisements

Ana Paula B. Barboza Ivana Xavier Rodrigues
Administração de Sistemas de Informação
Módulo 1: Criando bancos de dados e arquivos de banco de dados
Tecnologia de Programação BD em.Net: Conexão com SQL Server 1º Semestre 2009 > PUCPR > BSI Bruno C. de Paula.
Banco de Dados SQL TRIGGERS (Gatilhos)
Felipe Carvalho – UFES 2009/2
Aplicações práticas da descoberta de conhecimento em BD
Sistema Gerenciador de Banco de Dados SGBD
Mineração de Padrões Arborescentes
Algoritmos para Seleção Simples AULA 16 Profa. Sandra de Amo GBC053 – BCC
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Sugestões de projetos.
Sugestões de projetos.
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Using Concept Hierarchies in Knowledge Discovery
7.1 © 2004 by Pearson Education 7 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo.
RN Seleção Temas Projetos Formação de equipes e procedimentos Equipes de 1 a 3 componentes Equipe precisa deixar clara a participação/responsabilidades.
Inport – Aplicações Web Sandro Luís Baggio Nov/2008.
A área de banco de dados Cristina Paludo Santos –
Banco de Dados Avançado - Prof.ª Valeria Times
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Sistema Recomendador para Comércio Eletrônico
1ª. AULA PRÁTICA.
Laboratório de Programação I Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Design Patterns / Acesso ao banco de dados (java.sql)
Tecnologia da informação e estado
Tecnologia da Informação
Pensando grande para você, pensando grande com você. pw.ETL.
Especialização em Tecnologia da Informação
Capacidades do Data Warehouse
Data Mining: Conceitos e Técnicas
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
Baseado no material do Professor Raul Paradeda
Jacques Robin e Francisco Carvalho CIn-UFPE Tópicos de projetos da disciplina de mineração de dados
Jacques Robin CIn-UFPE Aplicações práticas da descoberta de conhecimento em BD.
Treinamento Fusion Relatórios Fusion ECM Suite
Proposta para DLL de carga CNCT. Sistema de Carga LATTES.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
Avaliação de Desempenho UFABC Pós-graduação em Engenharia da Informação Professor: Carlos Alberto Kamienski ( ) Santo André, Fevereiro.
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
MPS – Aula prática Diagrama de Pacotes / Esteriótipos Web
Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE.
Construir e Consultar o Data Warehouse com SQL Server
SQL Server Comando PIVOT.
Gestão da Tecnologia da Informação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Jacques Robin CIn-UFPE Arquiteturas de software e linguagens de consultas para descoberta de conhecimento em BD.
Fundamentos de Banco de Dados Fundamentos de Banco de Dados Prof. Gale 2º. Semestre 2008.
Mineração de Dados: Introdução
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Descoberta em múltiplos níveis conceituais
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
Classificação de Textos
Prof. Jacques Robin Sala C41 Pesquisa: * Inteligência Artificial  Banco de Dados  * Inteligência Artificial  Sistemas.
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Prof. Renato de Oliveira Bastos
Universidade Federal de Sergipe Departamento de Sistemas de Informação Bruno Cruz Jessica Rodrigo Aragão – ASP.NET MVC 3.
1 Fórmula Visual RM. 2 Prática 05 – Criando uma Fórmula Visual de Processo Fórmula Visual RM Prática 05: criar uma fórmula visual que possa ser.
Programação para Web I AULA 2 BANCO DE DADOS.
Banco de Dados -Aprendendo conceitos -Usando o SQL Conf para:
 Trabalho realizado por:  Francisco de Assis Marinho Lanza;  Simone Martins Rodrigues;  Tânia Moraes Nascimento da Fonseca.
 Se a criança receber um tratamento adequado, a possibilidade de desenvolvimento da capacidade matemática é grande.  Faz-se necessário uma intervenção.
Persistência de dados e padrão DAO
Prática de Banco de Dados Créditos: Prof. Jefferson Silva Adaptações: Prof. Nécio de Lima Veras.
Tarefa Autor: Skyup Informática. Atividade – Tarefa O módulo atividade tarefa tem como principio básico a interação professor-aluno. Os alunos podem apresentar.
Transcrição da apresentação:

Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE

Mineração do CNCT * BD: Cadastro Nacional de Competência em ciência e Tecnologia * Dados: atributos sobre profissionais de C&T no Brasil (demográficos, formação, carreira, produção,...) já selecionados e preparados para aplicar algoritmos de aprendizagem na área ~learning acessível via nsu learning * Tarefa: classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos) prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)

Mineração do CNCT * Objetivo da mineração: descobrir fatores contribuindo a produtividade ou improdutividade dos pesquisadores comparar precisão da classificação obtida com vários métodos de aprendizagem (ID3, ILP, MLP, BN) * Estado do projeto: 2a iteração no processo de KDD informação sobre 1a iteração em: t ~compint/aulas-IAS/kdd-991/primCNCT.ppt t ~compint/aulas-IAS/kdd-991/questCNCT.ppt t ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt 2 modificações em comparação da 1a iteração: t usar agrupamento estatístico (S+) para definir classes alvos de produtividade tamanho comparáveis t ponderar o calculo da produtividade não apenas em função do típo de publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)

Mineração do ProDoc * Mesma tarefa do que Mineração do CNCT * Com BD do ProDoc * Prodoc x CNCT: 1a iteração Dados nem selecionados, nem preparados Atributos usados para classificação a definir Formula do índice de produtividade a definir Mais atributos disponíveis Menos campos nulos Possibilidades de descobrir regras mais interessantes

Data mart de estatísticas da RoboCup * Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file) * Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria * Passos do projeto: 1. Geração dos dados t criar log file fazendo rodar o SoccerServer com time do CIn t ou com times da RoboCup cujo código é disponível na web t ou baixar log files disponíveis na web 2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC) 3. Modelagem multidimensional dos dados e criação do cubo t CREATE do MDX 4. Carga de dados do BD relacional para o cubo OLAP t INSERT do MDX 5. Consultas analíticas t SELECT FROM WHERE do MDX

Data mart de estatísticas de acesso ao CIn * Dados: informações do arquivos de log do servidor web do CIn * Objetivos do OLAP: descobrir padrões de acesso ás páginas do cite do CIn * Passos do projeto: 1. Geração dos dados t usar arquivos log antigos arquivados t gerar durante uns semanas arquivos de log com informação mais rica obtida com configuração especial do servidor web do CIn 2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup