A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.

Apresentações semelhantes


Apresentação em tema: "Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE."— Transcrição da apresentação:

1 Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE

2 Mineração do CNCT * BD: Cadastro Nacional de Competência em ciência e Tecnologia * Dados: atributos sobre profissionais de C&T no Brasil (demográficos, formação, carreira, produção,...) já selecionados e preparados para aplicar algoritmos de aprendizagem na área ~learning acessível via nsu learning * Tarefa: classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos) prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)

3 Mineração do CNCT * Objetivo da mineração: descobrir fatores contribuindo a produtividade ou improdutividade dos pesquisadores comparar precisão da classificação obtida com vários métodos de aprendizagem (ID3, ILP, MLP, BN) * Estado do projeto: 2a iteração no processo de KDD informação sobre 1a iteração em: t ~compint/aulas-IAS/kdd-991/primCNCT.ppt t ~compint/aulas-IAS/kdd-991/questCNCT.ppt t ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt 2 modificações em comparação da 1a iteração: t usar agrupamento estatístico (S+) para definir classes alvos de produtividade tamanho comparáveis t ponderar o calculo da produtividade não apenas em função do típo de publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)

4 Mineração do ProDoc * Mesma tarefa do que Mineração do CNCT * Com BD do ProDoc * Prodoc x CNCT: 1a iteração Dados nem selecionados, nem preparados Atributos usados para classificação a definir Formula do índice de produtividade a definir Mais atributos disponíveis Menos campos nulos Possibilidades de descobrir regras mais interessantes

5 Data mart de estatísticas da RoboCup * Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file) * Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria * Passos do projeto: 1. Geração dos dados t criar log file fazendo rodar o SoccerServer com time do CIn t ou com times da RoboCup cujo código é disponível na web t ou baixar log files disponíveis na web 2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC) 3. Modelagem multidimensional dos dados e criação do cubo t CREATE do MDX 4. Carga de dados do BD relacional para o cubo OLAP t INSERT do MDX 5. Consultas analíticas t SELECT FROM WHERE do MDX

6 Data mart de estatísticas de acesso ao CIn * Dados: informações do arquivos de log do servidor web do CIn * Objetivos do OLAP: descobrir padrões de acesso ás páginas do cite do CIn * Passos do projeto: 1. Geração dos dados t usar arquivos log antigos arquivados t gerar durante uns semanas arquivos de log com informação mais rica obtida com configuração especial do servidor web do CIn 2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup


Carregar ppt "Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE."

Apresentações semelhantes


Anúncios Google