A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.

Apresentações semelhantes


Apresentação em tema: "Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco."— Transcrição da apresentação:

1 Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco

2 Weka  Coleção de Métodos de Aprendizagem de Maquina Implementado em Java Open Source http://www.cs.waikato.ac.nz/ml/weka/  Livro Ian H. WittenIan H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan KaufmannEibe Frank

3 Weka  Funcionalidade Escolha de Atributos e Filtros Classificação Arvores de Decisão, Bayesiano Ingênuo, Perceptron, SVM, e muito mais … Agrupamento Seleção de Atributos Visualização

4 Weka  Baixar o programa de www.cin.ufpe.br/~igcf/si/  Instalar em c:\temp e rodar...  Abrir arquivo no problema de Jogar Tênis /data/weather.arff

5 Weka Formato de entrada (arff) @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes Atributos Instancias

6 Weka  Rodar Weka …

7 Weka Design Experimental  Como avaliar métodos de classificação?  Erro no conjunto de treinamento não é valido Pode ser apenas sinal de overfitting  Separar Exemplos para validação e teste Validação – escolha de parâmetros Teste – avaliação dos resultados

8 Validação Cruzada – k-fold X Treino Teste Média Erro e desvio-padrão de desempenho k=3 Quando k = n o dados  leave-one-out

9 Matriz de confusão  Oferece uma medida da efetividade do modelo de classificação Mostra o número de classificações reais contra as classificações preditas, em cada classe Os resultados são sumarizados em uma matriz de duas dimensões Classes verdadeiras x Classes preditas

10 Matriz de confusão

11  Número de predições corretas: diagonal da matriz Outros elementos correspondem números de erros

12 Matriz de confusão  Por simplicidade, sejam duas classes: + e - n = TP + TN + FP + FN

13 Matriz de confusão  Várias medidas de desempenho podem ser obtidas da matriz de confusão: Taxa de acerto Sensibilidade ou revocação (recall) Especificidade (precision) F-measure

14 Novos dados  Abrir dados soybean  Classificação de Doenças de Soja A partir de sintomas das soja 19 classes e 683 instancias

15 Conjunto de dados  Problema: Problema: Classificação de câncer a partir do perfil de expressão dos pacientes Classificação de câncer a partir do perfil de expressão dos pacientes  http://www.cin.ufpe.br/~igcf/weka_format/ golub-1999-v1.arff http://www.cin.ufpe.br/~igcf/weka_format/ golub-1999-v1.arff Conjunto de dados já foi pré-processado para extrair genes mais informativos Originalmente mais de 10.000 Genes


Carregar ppt "Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco."

Apresentações semelhantes


Anúncios Google