Data Mining com a Ferramenta Weka

Slides:

Advertisements

Apresentações semelhantes

1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.

Advertisements

Indução de Árvores de Decisão

Administração de Sistemas de Informação

INTELIGÊNGIA COMPUTACIONAL

Curso: Banco de Dados I Análise de Sistemas PUC Campinas

Mineração de Dados Avaliação de Classificadores

Sistemas de Apoio à Decisão (SAD) Helena Galhardas

Sistema de Arquivos - PROTEÇÃO DE ARQUIVOS

1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.

HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.

Exercício 1 Rodar o algoritmo de classificação J4.8 do Weka variando:

Formato dos Dados % 1. Title: Database for fitting contact lenses

1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (

Redes Neurais Artificiais

Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo

Analise e Seleção de Variáveis

Dicas para a realização do Trabalho1

Capítulo 2 Data Preparation for Data Mining

Mineração de Dados ou Descoberta de conhecimento em BDs

. Capítulo 1 Introdução à Estatística Capítulo 1 Introdução à Estatística Prof. Paulo Renato de Morais ESTATÍSTICA APLICADA.

Jacques Robin, Francisco Carvalho, Flávia Barros

Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.

FACENS – Engenharia da Computação Inteligência Artificial

Rejane Sobrino Pinheiro Tania Guillén de Torres

Paulo J Azevedo Departamento de Informática

INF 1771 – Inteligência Artificial

Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka

INF 1771 – Inteligência Artificial Aula 19 – Bibliotecas e Ferramentas para Aprendizado de Máquina Edirlei Soares de Lima.

Data Mining, Data Warehousing e OLAP

Aula Prática Classificação

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Mineração da Dados.

Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.

Introdução ao Aprendizado de Máquina

Sistema Recomendador para Comércio Eletrônico

Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4.

Objetivos das Atividades de Implementação • Implementar as classes do modelo de projeto em termos de componentes (código fonte ou executável, etc.) •

Sistemas Inteligentes

Redes Bayesianas - Aplicação em Risco Operacional

Data Mining: Conceitos e Técnicas

DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.

Preparação dos Dados Marcilio Souto DIMAp/UFRN. Preparação dos Dados ● Compreensão dos dados ● Limpeza – Metadado – Valores Perdidos – Formato de data.

Introdução ao Aprendizado de Máquina

IA - Prof. Paulemir Campos

Seleção de Atributos Ricardo Prudêncio.

Universidade de Mogi das Cruzes Tec

O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.

Experimentação Algorítmica

WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.

Seleção de atributos Mariana Pinheiro Bento IA368Q.

Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting.

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.

SISTEMAS DE APOIO À DECISÃO - SAD

24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.

Marcus Sampaio DSC/UFCG Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Laboratório 5 Regras. Bases Utilize a base que se encontra no diretório de dados do weka: wheather.nominal.arff Gere regras usando diferentes classificadores.

Capítulo 9: SAD orientado a Modelo

Software Weka Waikato 2004, Witten & Frank 2000.

Universidade Federal do Paraná

HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo.

Classificação de Textos

Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes

FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.

Department of Computer Science, University of Waikato, New Zealand Eibe Frank WEKA: Ferramenta para Aprendizado de Máquina O Explorer Classificação e Regressão.

Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Apresentação da Disciplina Camilo Daleles Rennó

Transcrição da apresentação:

Data Mining com a Ferramenta Weka Diogo Fernando Veiga Pedro de Stege Cecconello

Software Weka Software para data mining/machine learning escrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características: Extenso conjunto de rotinas para pré-processamento, esquemas de aprendizagem, além de métodos de avaliação GUIs (inclusive para visualização dos dados) Ambiente para comparação de algortimos de aprendizagem.

Versões Weka WEKA 3.0: “book version” compatível com a descrição do livro WEKA 3.4: Última versão (utilizada na apresentação) Esquema de versões Linux

Weka trabalha com flat files @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... Flat file in ARFF format

Weka trabalha com flat files @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... Atributo numérico Atributo nominal

Weka: vários ambientes

Explorer: Pre-processing Importação dos dados em vários formatos: ARFF, CSV, C4.5, binary Dados também podem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC) Rotinas de pré-processamento no Weka são chamados de filtros Weka tem filtros para: Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.

Filtros: Redução dos dados Metodos supervisados weka.filters.supervised.instance.* Resample : Faz uma amostragem estratificada com o dataset fornecido. O dataset deve ter um atributo nominal informando a classe. Bias para distribuição das classes na amostra seja uniforme. StratifiedRemoveFolds: Cria um fold estratificado para o cross-validation. SpreadSubsample: Produz uma amostra aleatória dos dados. Este filtro permite definir o máximo spread entre a classe mais rara e a classe mais comum. Por exemplo, 5:1

Filtros: Redução dos dados Metodos não-supervisados weka.filters.unsupervised.instance.* Resample: amostragem aleatória (não estratificada) do dataset Randomize - embaralha conjunto de dados RemoveFolds – Define um fold para o crossvalidation RemovePercentage – Remove uma proporção do dataset RemoveRange - Remove um determinado intervalo de instâncias do dataset.

Filtros: Redução dos Atributos Metodos não-supervisados weka.filters.unsupervised.attribute.* Normalize: valores no intervalo [0,1], exceto o atributo de classe NumericTransform - Aplica uma função matemática qualquer aos valores do atributo (classe Java) ReplaceMissingValues – Preenche com a média (atrib. numerico ) ou a moda (atrib.nominal) Standardize – transformação dos valores para uma RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml)

Filtros: Redução dos Atributos Metodos supervisados weka.filters.supervised.attribute.* AttributeSelection : Permite a combinacao de varios metodos de avaliacao e busca de atributos. Avaliação: ganho de info., PCA e vários outros Busca: best first, greedy, genetic search, exhaustive search, rank search Discretize: Discretiza um intervalo de atributos numericos utilizando a tecnica MDL (Fayyad & Irani's) ou MDL (Kononenko) NominalToBinary: Converte todos os atributos nominais para atributos binários numéricos

Explorer: Attribute Selection Usado para investigar quais atributos (subconjuntos deles) são mais preditivos AttributeSelection em 2 etapas: Um método de busca Um método de avaliação Flexibilidade: (quase) qualquer combinação de busca/avaliação

Weka:Clustering Metódos para variáveis numéricas e nominais: Exemplo k-Means CobWeb Exemplo

Weka: Classificadores Modelos para a previsão de classes (nominal ou númerica): Weka implementa: Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ... “Meta”-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...

Weka: Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações: Apriori; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.

Weka: Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por cor

Weka: Experimentos em conjunto Experimenter: permite a comparação de diferentes estratégias de aprendizagem. Para problemas de classificação e regressão Resultados escritos em um arquivo ou base de dados Opções de avaliação: cross-validation, curva de aprendizagem, hold-out Pode ser executado com diferentes configurações de parâmetros Teste de significância acoplado