Software Weka Waikato 2004, Witten & Frank 2000
Ferramenta algoritmos de /public/soft/linux/weka-3-4/ preparação de dados aprendizagem de máquina (mineração) validação de resultados /public/soft/linux/weka-3-4/ Java –jar weka.jar Selecione Explorer copie os arquivos no dir /public/soft/linux/weka-3-4/data$ para sua area
Interface e Funcionalidades
(A) Open File, Open URL, Open DB (B) No botão filter é possível efetuar sucessivas filtragens de atributos e instâncias na base de dados previamente carregada Seleção Discretização Normalização Amostragem
Formato arff (header) % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
Laboratório 1 Abra o arquivo weather.nominal.arff
Perguntas Números de instancias, exemplos, registros?? Atributos ??? Quais os valores que o atributo temperatura pode ter ?? Repita o processo para outra base.
Editando bases Abra a base weather.nominal.arff Clique em Editar Responda Qual é o valor da classe para a instância 8? Algum atributo possui valor não ? Abra a base iris e responda Quantos atributos nominais e numericos a base possui ??
Aplicar filtros Weka possui vários filtros Remover atributos Escolha Choose... Remove ... Save..Name Abra o arquivo weather.nominal.arff Remova todos as instâncias com valor de atributo humidity high Volte aos dados originais
Painel de Visualização Abra a base iris.arff (medidas de flores) Utilize o menu Visualize para selecionar algumas instâncias e remover outras.
Classificação Observe a saida dos diferentes tipos de classificadores. === Classifier model (full training set) === J48 pruned tree ------------------ outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves
Responda Utilizando a base weather Como seria classificada a seguinte instância ??? outlook = sunny, temperature = cool, humidity = high, windy = TRUE
Modo de Testar Use training set: Usa toda a base para teste Cross-validation: Divide a base em folds (disjuntos) Percentage split: Divide a base uma percentagem para treinamento e outra para teste.
Criando bases de teste Escreva uma base de teste e teste com ela Como são classificadas as instâncias ?? Como fica a matriz de confusão ??
Visualize as instâncias Visualize cada instâncias e responda quais foram classificadas erroneamente ???