A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka Aurora Trinidad Ramirez Pozo Departamento de Informática Universidade.

Apresentações semelhantes


Apresentação em tema: "Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka Aurora Trinidad Ramirez Pozo Departamento de Informática Universidade."— Transcrição da apresentação:

1 Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka Aurora Trinidad Ramirez Pozo Departamento de Informática Universidade Federal do Paraná

2 Motivação W A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento em massa; W Aproveitamento da informação permite ganho de competitividade: conhecimento é poder (e poder = $$!)

3 Conhecimento Dados Informação Conhec. $ Volume Valor agreguem valor aos seus negócios

4 Motivação Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução W Solução: ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados ferramentas de auxílio para as tarefas cognitivas da análise integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão

5 Aplicação W Um problema do mundo dos negócios: entender o perfil dos clientes desenvolvimento de novos produtos; controle de estoque em postos de distribuição; propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; W Quais são meus clientes típicos?

6 Descoberta de Conhecimento em Bancos de Dados W O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados; W O que é um padrão interessante ? (válido, novo, útil e interpretável)

7 Transformar dados em informação e conhecimento úteis para o suporte à decisão, gerenciamento de negócios, controle de produção análise de mercado ao projeto de engenharia e exploração científica

8 KDD x Data Mining W Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; W KDD utiliza algoritmos de data mining para extrair padrões classificados como conhecimento. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;

9 Posicionamento

10 Etapas do Processo W Seleção W Pré-processamento W Transformação W Data mining (aprendizagem) W Interpretação e Avaliação Processo

11 Processo mínimo de descoberta do conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Processo

12 12 Seleção de Dados W Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Processo

13 Processo mínimo Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Processo

14 14 Pré-Processamento W Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. W Reconfiguração dos dados para assegurar formatos consistentes (identificação) –Ex. : sexo = F ou M sexo = M ou H Processo

15 Processo mínimo Redução de dimensionalidade, combinação de atributos; Processo

16 16 Transformação W Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. W Disponibilizar os dados de maneira usável e navegável. Processo

17 Processo mínimo Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida Processo

18 18 Data Mining W É a verdadeira extração dos padrões de comportamento dos dados (exemplos) Processo

19 Processo mínimo Interpretação dos resultados, com possível retorno aos passos anteriores; Processo Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;

20 20 Interpretação e Avaliação W Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Processo

21 Etapas do Processo O processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passos muitas decisões sendo feitas pelo analista ( especialista do domínio dos dados)

22 Técnicas de pré-processamento e transformação de dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem minerados. Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70%).

23 Métodos de mineração de dados W Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; W Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos

24 Tarefas básicas W Previsão Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; É comumente visada em aprendizado de máquina/estatística; Exemplos: classificação e regressão; Métodos

25 Tarefas básicas W Descrição Reportar relações entre as variáveis do modelo de forma simétrica; À princípio, está mais relacionada ao processo de KDD; Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos

26 Exemplo de previsão (I) WUm hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: se a renda é menor que t, então o crédito não deve ser liberado WExemplo: árvores de decisão; indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito Métodos

27 Exemplos WÁreas de aplicações potenciais: Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores leais Exemplos

28 Exemplo de previsão (II) WHiperplano oblíquo: melhor separação: WExemplos: regressão linear; perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

29 Exemplo de previsão (III) WSuperfície não linear: melhor poder de classificação, pior interpretação; WExemplos: perceptrons multicamadas; regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

30 Exemplo de previsão (IV) WMétodos baseado em exemplos; WExemplos: k-vizinhos mais próximos; raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

31 Exemplo de descrição (I) WAgrupamento WExemplo: vector quantization; renda débito t + +: exemplo Análise de crédito Métodos

32 Exemplo de descrição (II) W Regras de associação 98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos; descoberta simétrica de relações, ao contrário de métodos de classificação W qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos

33 WRevisão geral de Aprendizagem: Técnicas CBR

34 Exemplos WÁreas de aplicações potenciais: Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Exemplos

35 WÁreas de aplicações potenciais Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde Exemplos

36 Introdução WExemplo (1) - Fraldas e cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30%. Exemplos

37 WExemplo (2) - Lojas Brasileiras (Info 03/98) Aplicou 1 milhão de dólares em técnicas de data mining Reduziu de produtos para produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: –Roupas de inverno e guarda chuvas encalhadas no nordeste –Batedeiras 110v a venda em SC onde a corrente elétrica é 220v Exemplos

38 WExemplo (3) - Bank of America (Info 3/98) Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos

39 Software Weka Waikato 2004, Witten & Frank 2000

40 Ferramenta algoritmos de preparação de dados aprendizagem de máquina (mineração) validação de resultados /public/soft/linux/weka... Java –jar weka.jar

41 Software Weka Software para data mining/machine learning escrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características: Extenso conjunto de rotinas para pré-processamento, esquemas de aprendizagem, além de métodos de avaliação GUIs (inclusive para visualização dos dados) Ambiente para comparação de algortimos de aprendizagem.

42 Versões Weka WEKA 3.0: book version compatível com a descrição do livro WEKA 3.4: Última versão (utilizada na apresentação) Esquema de versões Linux

43 Weka trabalha com flat age sex { female, chest_pain_type { typ_angina, asympt, non_anginal, cholesterol exercise_induced_angina { no, class { present, 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present...

44 Weka trabalha com flat age sex { female, chest_pain_type { typ_angina, asympt, non_anginal, cholesterol exercise_induced_angina { no, class { present, 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present... Atributo numérico Atributo nominal

45 Weka: vários ambientes

46 Explorer: Pre-processing Importação dos dados em vários formatos: ARFF, CSV, C4.5, binary Dados também podem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC) Rotinas de pré-processamento no Weka são chamados de filtros Weka tem filtros para: Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.

47 Filtros: Redução dos dados Metodos supervisados weka.filters.supervised.instance.* Resample : Faz uma amostragem estratificada com o dataset fornecido. O dataset deve ter um atributo nominal informando a classe. Bias para distribuição das classes na amostra seja uniforme. StratifiedRemoveFolds: Cria um fold estratificado para o cross-validation. SpreadSubsample: Produz uma amostra aleatória dos dados. Este filtro permite definir o máximo spread entre a classe mais rara e a classe mais comum. Por exemplo, 5:1

48 Filtros: Redução dos dados Metodos não-supervisados weka.filters.unsupervised.instance.* Resample: amostragem aleatória (não estratificada) do dataset Randomize - embaralha conjunto de dados RemoveFolds – Define um fold para o crossvalidation RemovePercentage – Remove uma proporção do dataset RemoveRange - Remove um determinado intervalo de instâncias do dataset.

49 Filtros: Redução dos Atributos Metodos não-supervisados weka.filters.unsupervised.attribute.* Normalize: valores no intervalo [0,1], exceto o atributo de classe NumericTransform - Aplica uma função matemática qualquer aos valores do atributo (classe Java) ReplaceMissingValues – Preenche com a média (atrib. numerico ) ou a moda (atrib.nominal) Standardize – transformação dos valores para uma RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml)

50 Filtros: Redução dos Atributos Metodos supervisados weka.filters.supervised.attribute.* AttributeSelection : Permite a combinacao de varios metodos de avaliacao e busca de atributos. Avaliação: ganho de info., PCA e vários outros Busca: best first, greedy, genetic search, exhaustive search, rank search Discretize: Discretiza um intervalo de atributos numericos utilizando a tecnica MDL (Fayyad & Irani's) ou MDL (Kononenko) NominalToBinary: Converte todos os atributos nominais para atributos binários numéricos

51 Explorer: Attribute Selection Usado para investigar quais atributos (subconjuntos deles) são mais preditivos AttributeSelection em 2 etapas: Um método de busca Um método de avaliação Flexibilidade: (quase) qualquer combinação de busca/avaliação

52 Weka:Clustering Metódos para variáveis numéricas e nominais: EM k-Means CobWeb Exemplo

53 Weka: Classificadores Modelos para a previsão de classes (nominal ou númerica): Weka implementa: Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas,... Meta-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning,...

54 Weka: Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações: Apriori; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.

55 Weka: Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por cor

56 Weka: Experimentos em conjunto Experimenter: permite a comparação de diferentes estratégias de aprendizagem. Para problemas de classificação e regressão Resultados escritos em um arquivo ou base de dados Opções de avaliação: cross-validation, curva de aprendizagem, hold-out Pode ser executado com diferentes configurações de parâmetros Teste de significância acoplado


Carregar ppt "Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka Aurora Trinidad Ramirez Pozo Departamento de Informática Universidade."

Apresentações semelhantes


Anúncios Google