Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouDaniela Belmonte Gusmão Alterado mais de 8 anos atrás
1
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com
2
Aula Passada... Data Mining: processo de exploração de grandes quantidades de dados a fim de detectar novos subconjuntos de dados. Compreender o domínio da aplicação Entender as expectativas do usuário final do processo. Criar/selecionar uma coleção de dados para aplicação Transformar os dados (encontrar atributos úteis e interessantes).
3
Aula passada... Tarefas principais: – Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. – Regressão (predição): aprendizado de uma função mapeia um dado em um valor real. – Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem
4
Hoje... A ferramenta WEKA Exemplo prático de Data Mining
5
WEKA Weka é um Software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License). O sistema foi desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelândia. Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico. Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados.
6
WEKA Livro para conhecer melhor a ferramenta
7
Agora mostraremos um exemplo prático de utilização da Weka: – Será realizada a mineração de um classificador! Porém... antes é preciso falar um pouquinho sobre classificação...
8
Classificação Objetivo: a partir de um banco de dados contendo objetos pré- classificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características. Exemplo - Mineração do BD de uma seguradora: – Sexo feminino : “não se envolve em acidente” – Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”. – Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente” O modelo pode ser usado para a empresa prever a classe de um futuro cliente. A classificação é uma tarefa preditiva.
9
Como Minerar Dados? (Técnicas de Data Mining) O conceito de técnica de mineração de dados é diferente do conceito de tarefa. – Cada tarefa de mineração de dados possui um conjunto de técnicas associadas, que representam os algoritmos que podem ser empregados para a sua execução.
10
Como utilizar a WEKA? Primeiro, ter uma base de dados no formato arff. – O formato arff é utilizado como padrão para estruturar as bases de dados manipuladas pela Weka
11
Como utilizar a WEKA? Base de dados WEKA: corresponde a um arquivo texto contendo um conjunto de registros, precedido por um pequeno cabeçalho.
12
Como utilizar a WEKA? Exemplo: weather.arff
13
Como utilizar a WEKA?
15
A base de dados para classificação deve conter: – um ou mais atributos preditivos. – um atributo especial, denominado atributo classe (ou atributo alvo), sempre do tipo discreto. – Exemplo - BD de uma locadora de veículos – A ideia é minerar um modelo que classifique o cliente como “cliente de carro nacional” ou “cliente de carro importado” em função de sua “idade” e “renda”.
16
Classificador Mostraremos agora como minerar um classificador, sobre a base de dados da locadora de veículos, usando a técnica de árvores de decisão. – Domínio da aplicação: Locadora de Veículos – Expectativas do usuário: Redirecionar os clientes para maiores lucros
17
Classificador PASSO 1: antes de começar o processo, precisamos gerar uma versão arff da base que iremos minerar.
18
Classificador PASSO 2: abrir a Weka Explorer (GUI para mineração de dados)
19
Classificador PASSO 3: abrir a base de dados
20
Classificador PASSO 3: abrir a base de dados
21
Classificador
22
Podemos explorar a base de dados antes de minerá-la.
23
Classificador
24
PASSO 4: Seleção da aba “Classify” para a mineração do classificador.
25
Classificador PASSO 5: Escolha do algoritmo de classificação – Dentre as técnicas que podem ser utilizadas, encontram-se: Naïve Bayes Árvores de Decisão (nossa escolha nessa apresentação!) Redes Neurais k-Nearest Neighbor Support Vector Machines.
26
Classificador PASSO 5: Escolha do algoritmo de classificação. – Optamos pelo algoritmo J48 para mineração de árvores de decisão
27
Classificador PASSO 6: Configurar parâmetros e disparar o algoritmo!
28
Classificador
32
Sobre a WEKA Embora seja normalmente utilizada para fins didáticos, possibilita a mineração de bases reais. Muitos papers científicos relatam experiências onde a ferramenta foi aplicada de forma bem sucedida sobre bases de diferentes domínios.
33
Sobre a WEKA Mostramos apenas um exemplo, usando um algoritmo! – A Weka tem dezenas de algoritmos implementados! – E pode minerar regras de associação e clusters de dados, além de classificadores. Outra coisa muito boa é que você pode integrar os algoritmos implementados na Weka nos programas Java criados por você.
34
Projeto para NP2 06/09: Definir o grupo (no máximo 4 pessoas), definir o domínio do problema e a expectativa do usuário final. 27/09: Qual tarefa e qual técnica será utilizada e por quê? 01/11: Criar uma base de dados (com pelo menos 5 atributos preditivos) e imprimir a visualização da árvore. 29/11: Entrega de um relatório escrito com passo a passo do trabalho.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.