Data Mining: Ferramenta JAVA

Slides:



Advertisements
Apresentações semelhantes
RCAAP Project João Mendes Moreira, FCCN Berlin 7, Paris, 04/12/2009.
Advertisements

TADs Vector, Lista e Sequência
Chapter Six Pipelining
Indução de Árvores de Decisão
Projeto Maven AcademicNet Grupo DGMR Daniel Isidoro Born Guilherme Amaral Márcio Percilio Roberto Rutz.
Formato dos Dados % 1. Title: Database for fitting contact lenses
Java: Comandos Básicos
1 Java: Tratamento de Exceções Alcides Calsavara.
Classificadores em Dados não Balanceados
Dicas para a realização do Trabalho1
Dúvidas surgidas na aula prática de BCB. 2 Alocação de espaços int m = 3; // THE NUMBER OF ROWS. int n = 5; // THE NUMBER OF COLUMNS. data = new long.
Capítulo 2 Data Preparation for Data Mining
Weka Universidade de Waikato - Nova Zelândia
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
A.4. Trabalhando com elementos de biblioteca STL – Standard Template Libraby Disponibiliza um conjunto de classes templates, provendo algoritmos eficientes.
Ronaldo Celso Messias Correia
Implementando um Montador com LEX e YACC
Técnicas e Projeto de Sistemas André Mesquita Rincon Processo de Software Técnico Subsequente – Módulo III.
SQL Procedural Junho/2006.
Modularização de Código. Modularizar código Construção do algoritmo em um módulo único (Início...Fim/ Program... End) Único arquivo.
Teste Estrutural de Software
Algoritmos com Seleção
Modelando com UML CMP 231 – Sistemas Embarcados
HAND: Height Above the Nearest Drainage
UD de Sorocaba/ Iperó UNIVERSIDADE ESTADUAL PAULISTA Recursos Computacionais Antonio Martins.
Campus de Sorocaba UNIVERSIDADE ESTADUAL PAULISTA Recursos Computacionais Antonio Martins.
Funções de um computador
Gláucia Braga e Silva abril/08
CES-41 COMPILADORES Capítulo IV Complementos de Análise Léxica.
Organização de Sistemas de Computadores
Desempenho A rápida taxa de melhoria na tecnologia de computadores veio em decorrência de dois fatores: avanços na tecnologia utilizada na construção.
Tecnologia para Web JavaScript Enrique Pimentel Leite de Oliveira
Taxonomias Difusas em Tarefas de Mineração (Status do Projeto)
LINGUAGENS DE PROGRAMAÇÃO
Sistemas de Informação Prof. Me. Everton C. Tetila Modelo de dados relacional Banco de Dados I.
Uniform Resource Identifier (URI). Uniform Resource Identifiers Uniform Resource Identifiers (URI) ou Identificador de Recursos Uniforme provê um meio.
SECEX SECRETARIA DE COMÉRCIO EXTERIOR MINISTÉRIO DO DESENVOLVIMENTO, INDUSTRIA E COMÉRCIO EXTERIOR BRAZILIAN EXPORTS STATISTICAL DEPURATION SYSTEM Presentation.
INF 1771 – Inteligência Artificial
Renderização de cenas por traçado de raios na Placa Gráfica Fabiano Segadaes Romeiro Sistemas Gráficos 3D IMPA.
Usando Java no Oracle Por Edson Almeida Junior
INF 1771 – Inteligência Artificial Aula 19 – Bibliotecas e Ferramentas para Aprendizado de Máquina Edirlei Soares de Lima.
Componente de Variação EXEMPLO de APLICAÇÃO com o Programa Minitab valores de RU obtidos no ensaio de microtração Componente de Variação EXEMPLO de APLICAÇÃO.
Tópicos Especiais em Aprendizagem Reinaldo Bianchi Centro Universitário da FEI 2012.
Mineração da Dados.
WEKA. Roteiro Introdução Conceitos Exemplos práticos Chamada ao aplicativo.
Ana Paula de Carvalho1, Anderson A. Ferreira1, 2, Alberto H. F. Laender1, Marcos André Gonçalves1 1 Departamento de Ciência da Computação, Universidade.
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO III – Nº 05.
Sistemas Inteligentes
Information visualization toolkit.  Framework extensível  Criação de Softwares interativos  Free license.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa Ontology Building Process: The Wine Domain João Graça, Márcio.
RT-EXPERT Artis Corp. C calling program RTSUB [rule set subroutine] RTSUB [rule set subroutine] RTSUB [rule set subroutine]... DSL Decision Support Language.
Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.
GRID SD Frequent Pattern Mining Centro de Ciências e Tecnologia da Computação Departamento de Informática Escola de Engenharia Universidade do Minho PORTUGAL.
Prof Afonso Ferreira Miguel
GRID SD Extracção de padrões em bases de dados de grandes dimensões Centro de Ciências e Tecnologia da Computação Departamento de Informática Escola de.
Utilize qualquer Web Service a partir do Progress 4GL
The microarray data analysis
RELATÓRIO CEMEC 06 COMPARAÇÕES INTERNACIONAIS Novembro 2013.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 2: Otimizando a modelagem para documentação Tiago Marçal Ricotta Gerente.
Olhe fixamente para a Bruxa Nariguda
Administração e Exploração Avançada de Bases de Dados Mestrado em Engenharia de Sistemas Braga, 2014.
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Software Weka Waikato 2004, Witten & Frank 2000.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG CEAPE-PB Centro de Apoio aos Pequenos EMPREENDIMENTOS – CEAPE-PB, com sede na Cidade de Campina Grande.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
DSI – Desenvolvimento de Sistemas Inteligentes
Naïve Bayesian Learning
Best Pictures of the Year 2003.
Transcrição da apresentação:

Data Mining: Ferramenta JAVA

JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software.

WEKA: JAVA para Data Mining Os algoritmos podem ser aplicados diretamente a um dataset ou chamados de um programa em Java; O Weka contém ferramentas para o pré-processamento de dados, regras de associação, classificação, regressão, agrupamento, e visualização; Pode ainda ser utilizado para desenvolver novos esquemas de aprendizagem de máquina.

WEKA: JAVA para Data Mining Arquivo “.jar”; Uso em linha de comando; Uso em ambiente de exploração; Uso em ambiente de experimentação; Entrada de dados: arquivo no formato “.arff”

WEKA: JAVA para Data Mining Arquivo .arff: Nome do dataset; Descrição dos atributos e de seus domínios; Apresentação das instâncias. Bases de dados clássicas (UCI): http://archive.ics.uci.edu/ml/

WEKA: JAVA para Data Mining @relation paoeleite @attribute leite {yes, no} @attribute cafe {yes, no} ... @data no, yes, no, yes, yes, no, no yes, no, yes, yes, yes, no, no yes, yes, no, yes, yes, no, no no, no, no, no, yes, no, no

WEKA: JAVA para Data Mining Carga do arquivo; Análise dos atributos e seus valores; Indicação de pré-processamento; Escolha da tarefa de data mining; Escolha do algoritmo a aplicar; Acerto dos parâmetros; Execução; Análise dos resultados de saída.

WEKA: JAVA para Data Mining === Run information === Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 Relation: paoeleite Instances: 9 Attributes: 7 leite cafe cerveja pao manteiga arroz feijao === Associator model (full training set) ===

WEKA: JAVA para Data Mining Apriori ======= Minimum support: 0.6 Minimum metric <confidence>: 0.9 Number of cycles performed: 8 Generated sets of large itemsets: Size of set of large itemsets L(1): 7 Size of set of large itemsets L(2): 12 Size of set of large itemsets L(3): 6

WEKA: JAVA para Data Mining Best rules found: 1. leite=no 7 ==> cerveja=no 7 conf:(1) 2. manteiga=yes 5 ==> arroz=no feijao=no 5 conf:(1) 3. manteiga=yes arroz=no 5 ==> feijao=no 5 conf:(1) 4. manteiga=yes feijao=no 5 ==> arroz=no 5 conf:(1) 5. pao=yes 5 ==> arroz=no feijao=no 5 conf:(1) 6. pao=yes arroz=no 5 ==> feijao=no 5 conf:(1) 7. pao=yes feijao=no 5 ==> arroz=no 5 conf:(1) 8. leite=no feijao=no 5 ==> cerveja=no 5 conf:(1) 9. leite=no arroz=no 5 ==> cerveja=no 5 conf:(1) 10. leite=no cafe=no 5 ==> cerveja=no 5 conf:(1)

WEKA: JAVA para Data Mining Exemplo de classificação (arquivo weather): @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes ...

WEKA: JAVA para Data Mining Carga do arquivo; Análise dos atributos e seus valores; Indicação de pré-processamento; Escolha da tarefa de data mining; Escolha do algoritmo a aplicar; Acerto dos parâmetros; Execução; Análise dos resultados de saída.

WEKA: JAVA para Data Mining === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: weather Instances: 14 Attributes: 5 outlook temperature humidity windy play Test mode: split 66% train, remainder test

WEKA: JAVA para Data Mining === Classifier model (full training set) === J48 pruned tree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Time taken to build model: 0.07 seconds

WEKA: JAVA para Data Mining === Evaluation on test split === === Summary === Correctly Classified Instances 2 40 % Incorrectly Classified Instances 3 60 % Kappa statistic -0.3636 Mean absolute error 0.6 Root mean squared error 0.7746 Relative absolute error 126.9231 % Root relative squared error 157.6801 % Total Number of Instances 5

WEKA: JAVA para Data Mining === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.667 1 0.5 0.667 0.571 yes 0 0.333 0 0 0 no === Confusion Matrix === a b <-- classified as 2 1 | a = yes 2 0 | b = no

Uma aplicação do WEKA Análise de um procedimento de data-mining: Descrição do problema alvo; Objetivos da tarefa, caracterização; Indicativos do pré-processamento; Criação de base de teste; Aplicação do algoritmo selecionado na base; Avaliação dos resultados.

Uso do WEKA Dowloads, tutoriais, documentação, faq’s, how to’s: A partir de http://www.cs.waikato.ac.nz/ml/weka/ Exemplo: tutorial introdutório de Alex K. Seewald: http://alex.seewald.at/WEKA/

Uso do WEKA (No tutorial introdutório de Alex K. Seewald) Appendix A: How to call WEKA from Java …

Uso do WEKA Ou ainda: Weka API: http://weka.sourceforge.net/doc/ …

WEKA: conclusão BOM USO …

Ferramentas de Data Mining Modelo Comparativo: Características relacionadas ao problema: Acesso a fontes heterogêneas de dados; Integração de conjuntos de dados.

Ferramentas de Data Mining Modelo Comparativo: 2) Características relacionadas aos recursos: Facilidade para inclusão de novas operações; Facilidade para inclusão de novos métodos; Recursos para o planejamento de ações; Processamento paralelo e distribuído; Operações e métodos disponíveis.

Ferramentas de Data Mining Modelo Comparativo: 3) Características relacionadas aos resultados: Estruturas para o armazenamento de modelos de conhecimento; Estruturas para o armazenameno de históricos de ações.

Ferramentas de Data Mining Nome Tarefas de KDD Fabricante SPSS Clementine Classificação, regras de associação, sequências, deteção de desvios www.spss.com PolyAnalyst Classificação, regressão, regras de associação, clusterização, sumarização, deteção de desvios www.megaputer.com Weka Classificação, regressão, regras de associação, clusterização, www.cs.waikato.ac.nz Darwin Classificação en.wikipedia.org/wiki/thinking_machines Intelligent Miner Classificação, regras de associação, sequências, clusterização, sumarização www.ibm.com

Ferramentas de Data Mining Nome Tarefas de KDD Fabricante WizRule Sumarização, classificação, deteção de desvios www.wizsoft.com Bramining Classificação, regras de associação, regressão, sumarização www.graal-corp.com.br SAS Interprise Miner www.sas.com Oracle Data Miner Classificação, regressão, associação, clusterização e mineração de textos www.oracle.com

Metodologia para Data Mining Visão Geral: O que fazer ? Levantamento inicial; Definição dos objetivos. 2) Como fazer ? Planejamento de atividades; Execução dos planos de ação; Avaliação dos resultados.

Metodologia para Data Mining Levantamento inicial: Identificação de pessoas e áreas envolvidas; Levantamento de hardware e software; Inventário das bases de dados disponíveis; Verificar a existência de datawarehouses; Analisar significado e relevância de atributos; Esboçar lista de necessidades e expectativas dos usuários; Avaliar a quantidade de dados disponíveis; Identificar e documentar o conhecimento previamente existente e disponível.

Metodologia para Data Mining Definição dos objetivos: Exige forte interação entre o analista de KDD e os especialistas no domínio; Deve-se identificar as expectativas identificadas e validá-las com os especialistas; Em seguida deve-se analisar a tarefa de mineração de dados. Planejamento das Atividades: Identificar os métodos disponíveis; Escolha entre os métodos; Analisar o pré-processamento necessário.

Metodologia para Data Mining Execução dos planos de ação: Execução dos método definido na etapa anterior; Estudos de parâmetros e experimentação; Avaliação dos resultados: Avaliação da correção e demais medidas de performance; Analise dos resultados frente aos objetivos definidos e seu atendimento.

Metodologia para Data Mining Exemplos de aplicação: Telefonia; Franquia de fast-food; Ação social; Educação; Área médica; Área financeira.