Sistemas Inteligentes

Slides:



Advertisements
Apresentações semelhantes
Agenda Introdução Justificativa Objetivo Detecção de Spam
Advertisements

Indução de Árvores de Decisão
Programação em Java Prof. Maurício Braga
28.5 Instruções para instalar o MySQL e o MySQL Conector/J
Exercício 1 Rodar o algoritmo de classificação J4.8 do Weka variando:
Formato dos Dados % 1. Title: Database for fitting contact lenses
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
Classificadores em Dados não Balanceados
2. O Processo de Mineração de Dados
Laboratório 3 Aprendizado Baseado em Instâncias e Naive Bayes
Dicas para a realização do Trabalho1
Capítulo 2 Data Preparation for Data Mining
Weka Universidade de Waikato - Nova Zelândia
Jacques Robin, Francisco Carvalho, Flávia Barros
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Data Mining com a Ferramenta Weka
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Data Mining: Ferramenta JAVA
COMPUTAÇÃO INTELIGENTE NO ESTUDO DE VARIANTES DE HEMOGLOBINA
INF 1771 – Inteligência Artificial
Sistemas Inteligentes
INF 1771 – Inteligência Artificial Aula 19 – Bibliotecas e Ferramentas para Aprendizado de Máquina Edirlei Soares de Lima.
Aula Prática Classificação
Aprendizado de Árvores de Decisão
Banco de Dados Avançado - Prof.ª Valeria Times
Mineração da Dados.
Framework gpnet.
WEKA. Roteiro Introdução Conceitos Exemplos práticos Chamada ao aplicativo.
Introdução ao Aprendizado de Máquina
INF 1771 – Inteligência Artificial
Flora-2 Aula de Laboratório Arquivo do Exemplo  Baixar os arquivos “safari.flr” de ~apln/aulamci em um diretório acessível pelo unix (subpasta no diretório.
Preparação dos Dados Marcilio Souto DIMAp/UFRN. Preparação dos Dados ● Compreensão dos dados ● Limpeza – Metadado – Valores Perdidos – Formato de data.
Introdução ao Aprendizado de Máquina
IA - Prof. Paulemir Campos
MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Marcelo Ladeira, Ph.D Departamento de Ciência da Computação
Árvores de Decisão Valmir Macário.
1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.
1 Árvores de Decisão Marcílio Souto DIMAp/UFRN. 2 Árvores de Decisão – ADs (1/4) zForma mais simples: yLista de perguntas  respostas “sim” ou “não” yHierarquicamente.
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Diagrama de Componentes
Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE.
1 2º Ciclo de Estudos – Mestrado Informática Médica Docente: Inês Dutra Alunos: João Janeiro Luis Martinez Ricardo Casal Disciplina: Sistemas de Apoio.
Capítulo 9 Arquivos JAR.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Jacques Robin CIn-UFPE Arquiteturas de software e linguagens de consultas para descoberta de conhecimento em BD.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Prof. Alexandre Monteiro Recife
Laboratório 5 Regras. Bases Utilize a base que se encontra no diretório de dados do weka: wheather.nominal.arff Gere regras usando diferentes classificadores.
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Software Weka Waikato 2004, Witten & Frank 2000.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG CEAPE-PB Centro de Apoio aos Pequenos EMPREENDIMENTOS – CEAPE-PB, com sede na Cidade de Campina Grande.
Classificação de Textos
Treinamento AJAX Waelson Negreiros Blog:
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Department of Computer Science, University of Waikato, New Zealand Eibe Frank WEKA: Ferramenta para Aprendizado de Máquina O Explorer Classificação e Regressão.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
DSI – Desenvolvimento de Sistemas Inteligentes
Naïve Bayesian Learning
Transcrição da apresentação:

Sistemas Inteligentes WEKA Sistemas Inteligentes jan/2003

Roteiro Introdução Instalando e executando o Weka Construção de classificadores Algoritmos de aprendizagem suportados Formato dos dados Avaliação dos classificadores Estudo de Caso Considerações finais

Introdução Waikato Environment for Knowledge Analysis Universidade de Waikato - Nova Zelândia Coleção de algoritmos para Mineração de Dados. Implementado em Java Open Source Software Link: http://www.cs.waikato.ac.nz/ml/weka/

Instalando o software 1. Crie um diretório ´weka´ dentro de ‘c:\temp’ c:\temp\weka 2.Copiando os arquivos: http://www.cin.ufpe.br/~robocup/weka weka.jar weka.bat 3.Certifique-se de que os dados foram salvos no formato correto.

Executando o software Inicialize o ambiente jdk 1.3 menu: programs\Linguagens\Java\JDK1.3 Entre no diretório ´weka’ que você criou c:\temp\weka Execute o script Weka.bat Escolha a opção: Explorer

Construção dos classificadores Carregar arquivo contendo o conjunto de treinamento; Selecionar algoritmo de aprendizagem; Solicitar o Weka para construir o classificador e avaliar o Classificador.

Formato dos arquivos de entrada Arquivos no formato .arff Local ou URL Tabelas de Banco de Dados via JDBC

Carregando dados de um arquivo .arff Formato Cabeçalho + Dados (uma instância por linha sendo o valor dos atributos separados por vírgula) Exemplo: weather.arff @relation weather % Nome da relação @attribute temperature real % Atributo e tipo @attribute outlook {sunny, overcast, rainy} @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data % Início dos dados 88,sunny,85,FALSE,no 83,overcast,86,FALSE,yes

Selecionando algoritmo de aprendizagem Na guia Classify escolha o classificador (classifier) e set os respectivos parâmetros de treinamento. Classificadores que podem ser criados: decision tree inducers rule learners naive Bayes decision tables locally weighted regression support vector machines ...

Selecionando algoritmo de aprendizagem Selecione a maneira de avaliar o classificador gerado (Test options) . Arquivo de treinamento; Arquivo fornecido contendo o conjunto de teste; Cross-validation sobre o arquivo contendo o conjunto de treinamento; Porcentagem do arquivo contendo o conjunto de treinamento. Pressione Start para construir e avaliar.

Indução de árvores de decisão Dados do tempo: ‘weather.nominal.arff’ Algoritmo Id3: weka.classifiers.Id3 Id3 ------------------ outlook = sunny | humidity = high: no | humidity = normal: yes outlook = overcast: yes outlook = rainy | windy = TRUE: no | windy = FALSE: yes normal high

Indução de árvores de decisão Medidas de desempenho do classificador gerado. Id3: avaliação por Stratified cross-validation === Summary === Correctly Classified Instances 11 78.5714 % Incorrectly Classified Instances 3 21.4286 % === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.889 0.4 0.8 0.889 0.842 yes 0.6 0.111 0.75 0.6 0.667 no === Confusion Matrix === a b <-- classified as 8 1 | a = yes 2 3 | b = no

Indução de árvores de decisão Dados do tempo: ‘weather. arff’ Algoritmo C4.5: weka.classifiers.j48.J48 J48 pruned tree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 <=75 >75

Indução de árvores de decisão Medidas de desempenho do classificador gerado. C4.5: avaliação por Stratified cross-validation === Summary === Correctly Classified Instances 8 57.1429 % Incorrectly Classified Instances 6 42.8571 % === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.778 0.8 0.636 0.778 0.7 yes 0.2 0.222 0.333 0.2 0.25 no === Confusion Matrix === a b <-- classified as 7 2 | a = yes 4 1 | b = no

Classificador Naive Bayes Dados do tempo: ‘weather. arff’ Algoritmo weka.classifiers.NaiveBayesSimple Class yes: P(C) = 0.625 Attribute outlook sunny overcast rainy 0.25 0.4166667 0.3333333 Attribute temperature Mean: 73 Std: 6.164414 Attribute humidity Mean: 79.11 Std: 10.215728 Attribute windy TRUE FALSE 0.36363636 0.63636364 Class no: P(C) = 0.375 Attribute outlook sunny overcast rainy 0.5 0.125 0.375 Attribute temperature Mean: 74.6 Std: 7.8930349 Attribute humidity Mean: 86.2 Std: 9.7313925 Attribute windy TRUE FALSE 0.57142857 0.42857143

Classificador Naive Bayes Medidas de desempenho do classificador gerado. NB: avaliação por Stratified cross-validation === Summary === Correctly Classified Instances 8 57.1429 % Incorrectly Classified Instances 6 42.8571 % === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.778 0.8 0.636 0.778 0.7 yes 0.2 0.222 0.333 0.2 0.25 no === Confusion Matrix === a b <-- classified as 7 2 | a = yes 4 1 | b = no

Estudo de Caso: Categorização de Documentos Representação dos documentos: vetor de freqüência de ocorrência de termos dentro de cada documento(r). vetor binário(b) ou nominal(n) indicando a ausência ou presença de cada termo no documento. Classes: páginas web contendo ou não citações de publicações técnicas e científicas. Arquivo de treinamento: ‘MarianaDatatrn*200.arff’ Arquivo de teste: ‘MarianaDatatst*200.arff’ Monte uma tabela Representação x Erro de Classificação obtido por cada classificador (ID3, C4.5 ou NaiveBayes). Qual dos três classificadores melhor desempenha esta tarefa? Qual a melhor representação dos documentos?

Considerações Finais O classificador Id3 só pode ser usado sobre arquivos de dados com atributos nominais. Se o classificador NaiveBayesSimple não funcionar, tente o classificador NaiveBayes (mais robusto). Para acessar os algoritmos implementados no Weka dentro um programa java veja a sessão 8.4 do ‘tutorial.pdf’. Para informações mais precisas sobre os algoritmos implementados veja ‘Package Documentation.html’ (documentação javadoc do Weka).