Capítulo 2 Data Preparation for Data Mining

Slides:



Advertisements
Apresentações semelhantes
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
Advertisements

Laboratório WEB Professora: Viviane de Oliveira Souza Gerardi.
Curso: Banco de Dados I Análise de Sistemas PUC Campinas
Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
O Modelo E-R Definição: Características
Funcionalidades de um SGBD
Modelo Entidade-Relacionamento
Treinamento no uso dos recursos SABi/Web Maria Cristina Bürger 2009.
Formato dos Dados % 1. Title: Database for fitting contact lenses
A Teoria da Medida Profª. Ms. Juliany Gonçalves Guimarães
Maurício Edgar Stivanello
Introdução aos Sistemas Gerenciadores de Banco de Dados
Analise e Seleção de Variáveis
Walter de Abreu Cybis Outubro, 2003
A Preparação dos Dados Mineração de Dados.
Profa. Aline Vasconcelos
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
COVARIÁVEIS Revisão de Variáveis Prof. Ivan Balducci FOSJC / Unesp.
Tipologia dos dados de entrada da mineração de dados
O Processo de Preparação de Dados
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
Conceitos Básicos Dado: fato do mundo real que está registrado e possui um significado implícito no contexto de um domínio de aplicação Exemplos: endereço,
Gerenciamento dos Recursos de Dados
FORMAS DE REPRESENTAÇÃO QUE SERVEM PARA DESCREVER AS ESTRUTURAS DAS INFORMAÇÕES CONTIDAS EM UM BD. Modelos de Dados.
Modelagem de Dados Usando o Modelo Entidade-Relacionamento
Prof. Alfredo Parteli Gomes
Quadro síntese – Escolha do teste estatístico mais adequado
Silvane Gonçalves Analista de Sistemas
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
Banco de Dados Aplicado ao Desenvolvimento de Software - BDD
Mineração da Dados.
Introdução ao Aprendizado de Máquina
Usando Microsoft Access 2010
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Prof. Kelly E. Medeiros Bacharel em Sistemas de Informação
Modelo de Dados Relacional
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Sistemas Inteligentes
Data Mining: Conceitos e Técnicas
Preparação dos Dados Marcilio Souto DIMAp/UFRN. Preparação dos Dados ● Compreensão dos dados ● Limpeza – Metadado – Valores Perdidos – Formato de data.
Introdução ao Aprendizado de Máquina
Introdução a Banco de dados
A abordagem de banco de dados para gerenciamento de dados
Objetivos Apresentar de forma breve a Metodologia de Modelagem Orientada a Objetos (OMT). A partir de um modelo de objetos de um sistema de informação.
Jacques Robin e Francisco Carvalho CIn-UFPE Tópicos de projetos da disciplina de mineração de dados
Banco de Dados Aplicado ao Desenvolvimento de Software
BANCO DE DADOS Aula 3 Josino Rodrigues Neto© Fundamentos em Banco de Dados.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE.
Banco de dados 1 Modelagem de Dados Utilizando MER
Software Weka Waikato 2004, Witten & Frank 2000.
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
Profa. Ana Karina Barbosa Abril/2008
Representação Qualitativa e Representação Ordinal
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Modelagem Conceitual descreve a informação que o sistema vai gerenciar.
EXCEL Aula 5. Noções de variáveis Variável Quantitativa: é aquela de natureza numérica, ou seja, apresenta como possíveis realizações (valores) números.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Modelos de dados.
Modelo Relacional Introduzido por Ted Codd, da IBM Research, em Utiliza o conceito de relação matemática. Possui base teórica na teoria dos conjuntos.
Tecnologias e Linguagens para Banco de Dados I Prof. João Ricardo Andrêo 1/6/ :19 1 Respostas: 1. O que é um Sistema Gerenciador de Banco de Dados.
Gestão da Tecnologia da Informação Fundamentos de Sistemas de Banco de Dados Faculdade de Tecnologia Senac Jaraguá do Sul.
Modelagem de Dados Aula 3.
Modelagem de Banco de Dados: Conceitos
DSI – Desenvolvimento de Sistemas Inteligentes
Transcrição da apresentação:

Capítulo 2 Data Preparation for Data Mining Natureza dos Dados Capítulo 2 Data Preparation for Data Mining

Tipologia da fontes de dados para mineração Fontes convencionais preparadas para mineração: Arquivo texto chato padronizado (flat file) Data warehouse ou data mart relacional Data warehouse ou data mart multidimensional Fontes convencionais não preparadas para mineração Arquivos de log BD relacional Fontes não convencionais BD objeto-relacional BD orientado a objetos BD espacial BD temporal BD multimídia BD semi-estruturado Páginas web

Arquivo texto padronizado (flat file) Meta-dados do cabeçote: 1a linha = nome do conceito ou relação a minerar, depois cada linha = tipo e/ou conjunto de valores possíveis de um atributo Dados no resto do arquivo: cada linha = um exemplo ou instância do conceito a aprender  um registro de uma tabela de BD relacional separadas em campos por separadores convencionais cada campo = um atributo ou propriedade da instância  campo de uma tabela de BD relacional

Exemplo de flat file: formato de entrada do Weka @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes rainy, 70, 96, false, yes rainy, 68, 80, false, yes rainy, 65, 70, true, no overcast, 64, 65, true, yes sunny, 72, 95, false, no sunny, 69, 70, false, yes rainy, 75, 80, false, yes sunny, 75, 70, true, yes overcast, 72, 90, true, yes overcast, 81, 75, false, yes rainy, 71, 91, true, no % Arff file for the weather data with some % numeric features @relation weather   @attribute outlook { sunny, overcast, rainy } @attribute temperature numeric @attribute humidity numeric @attribute windy { true, false } @attribute play? { yes, no }

Arquivo texto chato padronizado (flat file) Única entrada de vários ferramentas de mineração Pode ser criado a partir de BD relacional via Inadequado quando se tem naturalmente: muitas relações entre as instancias, ex, famílias relações recursivas entre as instancias, ex, ancestral dependências existenciais entre atributos, ex, casado, cônjuge poucos atributos definidos para todas as instancias ex, númeroDeRodas e númeroDePortas para veículos aninhamento ou hierarquias de valores para muitos atributos, ex, nordeste, RN, Natal ou seja quando o esquema de dados relevantes é não trivial

Tipologia dos atributos 1/3 Binário: Booleano, ex, Male  {True,False} Dicotômico, ex Sex  {Male,Female} Nominal ou categórico ou simbólico: partição finita de valores sem ordem nem medida são apenas = ou  ex, brasileiro, francês, americano

Tipologia dos atributos 2/3 Intervalar: partição finita de valor ordenada com medida m definindo distância d: X,Y, d(X,Y) = |m(X)-m(Y)| sem zero inerente ex, temperatura em grau Celsius Ordinal ou enumerado ou discreto: partição finita de valor ordenada (parcialmente ou totalmente) sem medida são apenas =, , , > ex, fraco, médio, bom, excelente

Tipologia dos atributos 3/3 Fracional ou proporcional: partição com distância zero inerente todos os operadores matemático aplicam-se ex, temperatura em grau Kelvin Contínuo: conjunto infinito de valores ordenadas com medida, isomorfo a R Probabilista: contínuo entre [0,1] apenas operadores probabilistas aplicam-se Complexo: estrutura interna de sub-atributos aninhados criando tipos compostos possivelmente com restrições de valores particulares entre os sub-atributos ex, data, endereço

Tipologia dos atributos Simples Complexos Binárias Dicotômicas Booleanas Qualitativas Nominal Ordinal Quantitativas Intervalar Fracional Discreta Contínua Objeto Data Endereço R [0,1]

Minerar arquivo flat x minerar banco de dados Para mineração como para outras aplicações, BD fornece: gerenciamento de memória segundaria consultas declarativas complexas para: selecionar dados agregar dados reagrupar dados derivar novos dados estender meta-dados segurança de acesso com usuário múltiplos tolerância a falha com tecnologia padronizada e escalável Minerando arquivos flat: aos poucos, necessidade desses serviços reaparece requerendo re-implementação: ad-hoc com tecnologia inapropriada por conta própria Conclusão: API para BD elemento chave na utilidade prática de uma ferramenta de mineração

Exemplo Dados do Vestibular Campo Tipo Descrição INSCRICAO Fracional Inscrição do Vestibular ANO Ano de realização do Concurso SEXO Bin. Dicotômico Sexo: M e F NOME Nominal Nome do candidato  

Dados de Candidatos do Vestibular   DT_NASCIMENTO Complexo Data de nascimento ESTADO Categórico Estado durante o concurso CIDADE Cidade durante o concurso BAIRRO Bairro durante o concurso OPCAO_LINGUA Opção de língua estrangeira: INGLÊS, ESPANHOL e FRANCÊS  

TIPO_PARTICIPACAO Bin. Dicotômico Participação: POR EXPERIÊNCIA ou VALENDO UNIVERSIDADE ? GRUPO Categórico Grupo do curso escolhido: GRUPO 1 a GRUPO 5 CURSO Nome de um dos 75 cursos da UFPE e UFRPE TURNO Turno do curso: INTEGRAL, MATUTINO,NOTURNO e VESPERTINO.