Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouMaria de Belem de Sintra Lencastre Alterado mais de 8 anos atrás
1
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco
2
Weka Coleção de Métodos de Aprendizagem de Maquina Implementado em Java Open Source http://www.cs.waikato.ac.nz/ml/weka/ Livro Ian H. WittenIan H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan KaufmannEibe Frank
3
Weka Funcionalidade Escolha de Atributos e Filtros Classificação Arvores de Decisão, Bayesiano Ingênuo, Perceptron, SVM, e muito mais … Agrupamento Seleção de Atributos Visualização
4
Weka Baixar o programa de www.cin.ufpe.br/~igcf/si/ Instalar em c:\temp e rodar... Abrir arquivo no problema de Jogar Tênis /data/weather.arff
5
Weka Formato de entrada (arff) @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes Atributos Instancias
6
Weka Rodar Weka …
7
Weka Design Experimental Como avaliar métodos de classificação? Erro no conjunto de treinamento não é valido Pode ser apenas sinal de overfitting Separar Exemplos para validação e teste Validação – escolha de parâmetros Teste – avaliação dos resultados
8
Validação Cruzada – k-fold X Treino Teste Média Erro e desvio-padrão de desempenho k=3 Quando k = n o dados leave-one-out
9
Matriz de confusão Oferece uma medida da efetividade do modelo de classificação Mostra o número de classificações reais contra as classificações preditas, em cada classe Os resultados são sumarizados em uma matriz de duas dimensões Classes verdadeiras x Classes preditas
10
Matriz de confusão
11
Número de predições corretas: diagonal da matriz Outros elementos correspondem números de erros
12
Matriz de confusão Por simplicidade, sejam duas classes: + e - n = TP + TN + FP + FN
13
Matriz de confusão Várias medidas de desempenho podem ser obtidas da matriz de confusão: Taxa de acerto Sensibilidade ou revocação (recall) Especificidade (precision) F-measure
14
Novos dados Abrir dados soybean Classificação de Doenças de Soja A partir de sintomas das soja 19 classes e 683 instancias
15
Conjunto de dados Problema: Problema: Classificação de câncer a partir do perfil de expressão dos pacientes Classificação de câncer a partir do perfil de expressão dos pacientes http://www.cin.ufpe.br/~igcf/weka_format/ golub-1999-v1.arff http://www.cin.ufpe.br/~igcf/weka_format/ golub-1999-v1.arff Conjunto de dados já foi pré-processado para extrair genes mais informativos Originalmente mais de 10.000 Genes
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.