Data Mining com a Ferramenta Weka

Slides:



Advertisements
Apresentações semelhantes
1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.
Advertisements

Indução de Árvores de Decisão
Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Curso: Banco de Dados I Análise de Sistemas PUC Campinas
Mineração de Dados Avaliação de Classificadores
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
Sistema de Arquivos - PROTEÇÃO DE ARQUIVOS
1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Exercício 1 Rodar o algoritmo de classificação J4.8 do Weka variando:
Formato dos Dados % 1. Title: Database for fitting contact lenses
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
Redes Neurais Artificiais
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Analise e Seleção de Variáveis
Dicas para a realização do Trabalho1
Capítulo 2 Data Preparation for Data Mining
Mineração de Dados ou Descoberta de conhecimento em BDs
. Capítulo 1 Introdução à Estatística Capítulo 1 Introdução à Estatística Prof. Paulo Renato de Morais ESTATÍSTICA APLICADA.
Jacques Robin, Francisco Carvalho, Flávia Barros
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
FACENS – Engenharia da Computação Inteligência Artificial
Rejane Sobrino Pinheiro Tania Guillén de Torres
Paulo J Azevedo Departamento de Informática
INF 1771 – Inteligência Artificial
Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka
INF 1771 – Inteligência Artificial Aula 19 – Bibliotecas e Ferramentas para Aprendizado de Máquina Edirlei Soares de Lima.
Data Mining, Data Warehousing e OLAP
Aula Prática Classificação
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Mineração da Dados.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Introdução ao Aprendizado de Máquina
Sistema Recomendador para Comércio Eletrônico
Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4.
Objetivos das Atividades de Implementação • Implementar as classes do modelo de projeto em termos de componentes (código fonte ou executável, etc.) •
Sistemas Inteligentes
Redes Bayesianas - Aplicação em Risco Operacional
Data Mining: Conceitos e Técnicas
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Preparação dos Dados Marcilio Souto DIMAp/UFRN. Preparação dos Dados ● Compreensão dos dados ● Limpeza – Metadado – Valores Perdidos – Formato de data.
Introdução ao Aprendizado de Máquina
IA - Prof. Paulemir Campos
Seleção de Atributos Ricardo Prudêncio.
Universidade de Mogi das Cruzes Tec
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Experimentação Algorítmica
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Seleção de atributos Mariana Pinheiro Bento IA368Q.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
SISTEMAS DE APOIO À DECISÃO - SAD
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Marcus Sampaio DSC/UFCG Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Laboratório 5 Regras. Bases Utilize a base que se encontra no diretório de dados do weka: wheather.nominal.arff Gere regras usando diferentes classificadores.
Capítulo 9: SAD orientado a Modelo
Software Weka Waikato 2004, Witten & Frank 2000.
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo.
Classificação de Textos
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Department of Computer Science, University of Waikato, New Zealand Eibe Frank WEKA: Ferramenta para Aprendizado de Máquina O Explorer Classificação e Regressão.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Apresentação da Disciplina Camilo Daleles Rennó
Transcrição da apresentação:

Data Mining com a Ferramenta Weka Diogo Fernando Veiga Pedro de Stege Cecconello

Software Weka Software para data mining/machine learning escrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características: Extenso conjunto de rotinas para pré-processamento, esquemas de aprendizagem, além de métodos de avaliação GUIs (inclusive para visualização dos dados) Ambiente para comparação de algortimos de aprendizagem.

Versões Weka WEKA 3.0: “book version” compatível com a descrição do livro WEKA 3.4: Última versão (utilizada na apresentação) Esquema de versões Linux

Weka trabalha com flat files @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... Flat file in ARFF format

Weka trabalha com flat files @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... Atributo numérico Atributo nominal

Weka: vários ambientes

Explorer: Pre-processing Importação dos dados em vários formatos: ARFF, CSV, C4.5, binary Dados também podem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC) Rotinas de pré-processamento no Weka são chamados de filtros Weka tem filtros para: Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.

Filtros: Redução dos dados Metodos supervisados weka.filters.supervised.instance.* Resample : Faz uma amostragem estratificada com o dataset fornecido. O dataset deve ter um atributo nominal informando a classe. Bias para distribuição das classes na amostra seja uniforme. StratifiedRemoveFolds: Cria um fold estratificado para o cross-validation. SpreadSubsample: Produz uma amostra aleatória dos dados. Este filtro permite definir o máximo spread entre a classe mais rara e a classe mais comum. Por exemplo, 5:1

Filtros: Redução dos dados Metodos não-supervisados weka.filters.unsupervised.instance.* Resample: amostragem aleatória (não estratificada) do dataset Randomize - embaralha conjunto de dados RemoveFolds – Define um fold para o crossvalidation RemovePercentage – Remove uma proporção do dataset RemoveRange - Remove um determinado intervalo de instâncias do dataset.

Filtros: Redução dos Atributos Metodos não-supervisados weka.filters.unsupervised.attribute.* Normalize: valores no intervalo [0,1], exceto o atributo de classe NumericTransform - Aplica uma função matemática qualquer aos valores do atributo (classe Java) ReplaceMissingValues – Preenche com a média (atrib. numerico ) ou a moda (atrib.nominal) Standardize – transformação dos valores para uma RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml)

Filtros: Redução dos Atributos Metodos supervisados weka.filters.supervised.attribute.* AttributeSelection : Permite a combinacao de varios metodos de avaliacao e busca de atributos. Avaliação: ganho de info., PCA e vários outros Busca: best first, greedy, genetic search, exhaustive search, rank search Discretize: Discretiza um intervalo de atributos numericos utilizando a tecnica MDL (Fayyad & Irani's) ou MDL (Kononenko) NominalToBinary: Converte todos os atributos nominais para atributos binários numéricos

Explorer: Attribute Selection Usado para investigar quais atributos (subconjuntos deles) são mais preditivos AttributeSelection em 2 etapas: Um método de busca Um método de avaliação Flexibilidade: (quase) qualquer combinação de busca/avaliação

Weka:Clustering Metódos para variáveis numéricas e nominais: Exemplo k-Means CobWeb Exemplo

Weka: Classificadores Modelos para a previsão de classes (nominal ou númerica): Weka implementa: Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ... “Meta”-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...

Weka: Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações: Apriori; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.

Weka: Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por cor

Weka: Experimentos em conjunto Experimenter: permite a comparação de diferentes estratégias de aprendizagem. Para problemas de classificação e regressão Resultados escritos em um arquivo ou base de dados Opções de avaliação: cross-validation, curva de aprendizagem, hold-out Pode ser executado com diferentes configurações de parâmetros Teste de significância acoplado