Mineração da Dados.

Slides:



Advertisements
Apresentações semelhantes
Programação em Java Prof. Maurício Braga
Advertisements

Aprendizado de Máquina
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
1 Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.
Data: 10 a 12 de fevereiro de 2009 e
EXERCÍCIOS RESULTADO.
A busca das mulheres para alcançar seu espaço dentro das organizações
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Dispositivos lógicos programáveis (DLP)
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 3.
Estatística Descritiva Aula 02
1 MD - junho/2008 HAC Regressão Tarefa preditiva em que as classes são contínuas Objetivo: predizer um valor numérico para a saída: Consumo de um carro.
Agrupamento (clustering)
1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Exercício 1 Rodar o algoritmo de classificação J4.8 do Weka variando:
Formato dos Dados % 1. Title: Database for fitting contact lenses
Curso de ADMINISTRAÇÃO
Série de Exercícios.
Analise e Seleção de Variáveis
Análise de regressão linear simples: abordagem matricial
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
Árvores.
1 MergeSort Seja uma lista A de n elementos. O algoritmo consiste das seguintes fases Dividir A em 2 sub-listas de tamanho n/2 Conquistar: ordenar cada.
Capítulo 2 Data Preparation for Data Mining
BCC101 – Matemática Discreta
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
Classes e objetos Arrays e Sobrecarga
Classes e objetos Modelagem
© GfK 2012 | Title of presentation | DD. Month
Estatística Descritiva
Aprendizado de Máquina
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
MECÂNICA - DINÂMICA Exercícios Cap. 13, 14 e 17. TC027 - Mecânica Geral III - Dinâmica © 2013 Curotto, C.L. - UFPR 2 Problema
Aproximação da binomial pela normal
Aprendizado de Árvores de Decisão
MECÂNICA - ESTÁTICA Vetores Forças Cap. 2.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.
Introdução ao Aprendizado de Máquina
Vânia Maria Ponte Vidal
Lemas (Sudkamp)  .
Salas de Matemática.
Coordenação Geral de Ensino da Faculdade
Prof. Alaine Guimarães/UEPG Prof. Aurora Pozo/UFPR.
Conceitos de Lógica Digital
Projeto Medindo minha escola.
Sistemas Inteligentes
Aprendizado de Máquina - Introdução
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Preparação dos Dados Marcilio Souto DIMAp/UFRN. Preparação dos Dados ● Compreensão dos dados ● Limpeza – Metadado – Valores Perdidos – Formato de data.
Introdução ao Aprendizado de Máquina
Estatística Aula 9 – 28/02/2011.
Árvores de Decisão: supervisionado, simbólico, não incremental (?)
1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.
Olhe fixamente para a Bruxa Nariguda
Máquina de Turing Universal
Equipe Bárbara Régis Lissa Lourenço Lucas Hakim Ricardo Spada Coordenador: Gabriel Pascutti.
Definições de Esquemas, Restrições básicas e buscas
Lição nº52 e /11/2013 Sumário: Tratamento de Dados: frequências, mediana,gráficos e dados agrupados em classes.
1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE.
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Software Weka Waikato 2004, Witten & Frank 2000.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
DSI – Desenvolvimento de Sistemas Inteligentes
Naïve Bayesian Learning
Transcrição da apresentação:

Mineração da Dados

Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo? Relações, arquivos flats, recursão O que é um atributo? Nominal, ordinal, intervalo Preparando a entrada ARFF, atributos, valores faltando

Terminologia Componentes da entrada: Conceitos: tipos Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância Foco em nominais e numéricos

O que é um conceito? Estilo do aprendizado: Classificação: predição de uma classe discreta Associação: detecção de associação entre características Agrupamento (Clustering): agrupamento de instâncias similares em grupos Predição numérica: predição de um valor numérico Conceito: aquilo que se aprende Descrição do conceito: saída do esquema de aprendizado

Classificação Exemplos de problemas: weather, contact lenses, A tarefa de Classificação é supervisionada Os exemplos são fornecidos com a saída esperada A saída é chamada de classe Mede-se o sucesso em dados não vistos anteriormente, porem conhece se a classe Na pratica o sucesso é medido de forma subjetiva

Associação Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que regras de classificação Assim: restrições são necessárias Cobertura mínima e máxima acuracia

Agrupamento (Clustering) Encontrar grupos de itens que são similares Agrupamento é não supervisionado A classe de um exemplo não é conhecida O sucesso é subjetivo … Iris virginica 1.9 5.1 2.7 5.8 102 101 52 51 2 1 2.5 6.0 3.3 6.3 Iris versicolor 1.5 4.5 3.2 6.4 1.4 4.7 7.0 Iris setosa 0.2 3.0 4.9 3.5 Type Petal width Petal length Sepal width Sepal length

Exemplo de descrição (I) Análise de crédito renda débito + t +: exemplo Agrupamento Exemplo: vector quantization; Métodos

Predição Numerica Uma variante da classificação na qual a classe é numérica (também chamada de regressão) O aprendizado é supervisionado Os exemplos são fornecidos com o valor alvo Medida de sucesso nos dados de teste … 40 False Normal Mild Rainy 55 High Hot Overcast True Sunny 5 Play-time Windy Humidity Temperature Outlook

O que é um exemplo? Instância: tipo especifico de exemplo Algo a ser classificado, associado ou agrupado Individual, exemplo independente do conceito alvo Caracterizado por um conjunto pre-determinado de atributos Entrada do algoritmo de aprendizado: conjunto de instâncias/bases Representados como uma relação simples/arquivo flat

Uma arvore de familia Peter M Peggy F Grace F Ray M = = Steven M Graham M Pam F Ian M Pippa F Brian M = Anna F Nikki F

Arvore da familia representado como um arquivo Ian Pam Female Nikki Anna Ray Grace Male Brian Pippa Peggy Peter Graham Steven ? parent2 Parent1 Gender Name

A relação “Irmão de” Assume-se Closed-world yes Anna Nikki … Yes Pippa Ian Pam Steven No Graham Peter Peggy Sister of? Second person First person No All the rest Yes Anna Nikki Pippa Brian Ian Pam Graham Steven Sister of? Second person First person Assume-se Closed-world

Representação completa numa tabela Ian Ray Peggy Parent2 Female Gender Pam Grace Peter Parent1 Name Male No All the rest Yes Anna Nikki Pippa Brian Graham Steven Sister of? Second person First person If second person’s gender = female and first person’s parent = second person’s parent then sister-of = yes

O que é um atributo? Cada instância é descrita como um predefinido conjunto de características, seus atributos Porém: o numero de atributos pode variar na pratica Possível solução: “valores irrelevantes” Possíveis tipos de atributos: Nominal, ordinal, intervalos

Atributos Nominais Os valores são símbolos diferentes Exemplo: atributo “outlook” da base weather Valores: “sunny”,”overcast”, e “rainy” Não existe relação entre os valores nominais (sem ordem ou medida de distância) Somente testes de igualdade podem ser realizados

Atributos ordinais Impõe uma ordem nos valores Porém: não existe distancia nos valores predefinidos Exemplo: atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool” Note: adição e subtração não tem sentido Exemplo de regra: temperature < hot Þ play = yes A diferença entre atributos nominais e ordinais não sempre é clara

Quantidades Intervalos Os intervalos são ordenados e medidos em unidades fixas e iguais Exemplo 1: atributo “temperature” expresso em graus Fahrenheit Exemplo 2: atributo “year” A diferença entre 2 valores faz sentido A soma ou produto não fazem sentido

Atributos A maior parte dos algoritmos diferenciam 2 : nominal e ordinal Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete” Porém: “enumerated” e “discrete” implicam em uma ordem Caso especial: dicotomia (“boolean” ) Atributos ordinais são chamados de “numeric”, ou “continuous” Porém: “continuous” implica em continuidade matematica

O formato ARFF % % ARFF file for weather data with some numeric features @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes ...

Atributos adicionais ARFF suporta atributos string: Similar a os atributos nominais porém uma lista de valores não é pre-especificada Suporta dados tipo data: Usa o formato ISO-8601 yyyy-MM-dd-THH:mm:ss @attribute description string @attribute today date