A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Técnicas de Mineração de Dados na Agricultura

Apresentações semelhantes


Apresentação em tema: "Técnicas de Mineração de Dados na Agricultura"— Transcrição da apresentação:

1 Técnicas de Mineração de Dados na Agricultura
Equipando a Liderança Cristã Técnicas de Mineração de Dados na Agricultura Palestrante: Raquel Stucchi Boschi

2 Equipando a Liderança Cristã
Índice O problema da explosão de dados. Dados, informação e conhecimento. O que é mineração de dados? Estatística versus mineração de dados. O processo de descoberta de conhecimento em banco de dados (KDD). Uma visão geral das tarefas de mineração. Exemplos de aplicação na agricultura.

3 O Problema da Explosão de Dados
Equipando a Liderança Cristã O Problema da Explosão de Dados Avanços em diversas áreas tecnológicas Crescimento explosivo na capacidade de GERAR, COLETAR E ARMAZENAR dados. Tipos de Dados: Científicos: satélites, sondas, pesquisas... Sociais: censo, estudos de comportamento.... Comerciais e econômicos: transações bancárias, acesso a servidores... Avanços em diversas áreas tecnológicas aumentou e muito a capacidade de GERAR, COLETAR E ARMAZENAR dados. Os dados coletados podem ser científicos, sociais, comerciais e econômicos, ou de outro tipo. O problema com a coleta é que essas dados são normalmente armazenados como registro simples, sem processamento para extração do conhecimento útil, e é esse conhecimento que permite análises mais complexas, sínteses, previsões. A facilidade atual que uma aplicação possui em gerar gigabytes ou terabytes de dados em poucas horas excede e muito a capacidade humana de analisar esses dados, sem a utilização de ferramentas poderosas. Registro Simples!

4 Equipando a Liderança Cristã
O Problema da Explosão de Dados Somos ricos em dados e pobres em informação e conhecimento. Necessidade de desenvolvimento de técnicas para transformar esses dados em conhecimento útil  motivação para mineração de dados! MOTIVAÇÃO PARA MINERAÇÃO DE DADOS

5 Equipando a Liderança Cristã
Dado, Informação e Conhecimento Dados Algo bruto; é a matéria-prima da qual podemos extrair informação. Operações lógicas Informação Dado processado, com significado e contexto bem definido. Conhecimento Interpretações Uso inteligente da informação; é a informação contextualizada e utilizada na prática.

6 Equipando a Liderança Cristã
Dados Faturamento de vendas Região NE = R$300 Região SE= R$1.000 Informação Operações lógicas Estabelecimento  Parâmetro de comparação Meta= R$300 Meta= R$2.000 Interpretações Conhecimento Ações a implementar, as decisões a tomar.

7 O que é mineração de dados?
Equipando a Liderança Cristã O que é mineração de dados? Analista Tarefas de Mineração de Dados Conhecimento Dados

8 O que é mineração de dados?
Equipando a Liderança Cristã O que é mineração de dados? Processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos em grandes volumes de dados, por meio da aplicação de algoritmos específicos (FAYYAD et al., 1996). Padrões podem ser: expressões descrevendo parte dos dados; modelos aplicáveis aos dados.

9 Equipando a Liderança Cristã
O que não é mineração de dados? Processamento de consultas (“query processing”); Sistemas Especialistas; Pequenos programas para análise estatística.

10 Estatística x Mineração
Equipando a Liderança Cristã Estatística x Mineração Estatística Mineração de Dados Número de pontos analisado é pequeno Número de pontos analisado é muito grande É baseada em hipótese (rejeita ou aceita) Atividade exploratória Uma amostra dos dados é suficiente Quanto maior a quantidade de dados, melhor.

11 Qual o maior conjunto de dados que você já analisou?
Fonte:

12 Ferramentas mais utilizadas para Mineração de Dados
% usuários 2010 % usuários 2011 Fonte:

13 Equipando a Liderança Cristã
Exemplo 1 DADOS Registros de venda de automóveis das concessionárias de uma determinada marca em todo o país. CONHECIMENTO DESCOBERTO SE (tipo = pick–up) E (sexo = M) E (idade < 28) ENTÃO (acessórios = completo) (85%) DECISÃO Lançar um novo modelo de pick-up com jogo completo de acessórios e cores atrativas a jovens do sexo masculino.

14 Equipando a Liderança Cristã
Exemplo 2 DADOS Cadastro de 500 mil clientes de uma loja de roupas. CONHECIMENTO DESCOBERTO 7% dos clientes são casados; Faixa etária de 31 a 40 anos; e Pelo menos 2 filhos. ? Campanha de Marketing Importante: inicialmente não foi elaborada uma consulta para identificar clientes com esses perfis. Mineração é uma atividade EXPLORATÓRIA !

15 Principais Fases do Processo de KDD
Dados Selecionar um conjunto de dados para mineração

16 Principais Fases do Processo de KDD
Identificação/Eliminação de ruídos e dados faltantes Dados Pode consumir 60% ou mais do tempo no processo de KDD

17 Principais Fases do Processo de KDD
Identificar atributos relevantes, reduzir variáveis, normalizar valores de atributos, etc. Dados

18 Principais Fases do Processo de KDD
Seleção da tarefa adequada e extração de padrões Dados

19 Principais Fases do Processo de KDD
Visualização, transformação, filtro de padrões redundantes, etc.

20 Característica de padrões interessantes
Equipando a Liderança Cristã Característica de padrões interessantes Novos: os padrões descobertos devem possuir um certo grau de novidade. Úteis: os padrões descobertos devem ter potencial de conduzir a ações com utilidade. Compreensíveis: linguagem compreendida pelos usuários  análise mais profunda. Padrões interessantes representam CONHECIMENTO

21 Equipando a Liderança Cristã
Característica de padrões interessantes Um padrão é interessante quando atende, de forma global, às qualidades desejadas: Validade; Novidade; Utilidade; Simplicidade. Padrões são dependentes do domínio de aplicação e do usuário!! Um padrão também é interessante quando valida uma hipótese que o usuário pretendia confirmar.

22 Tarefas na Mineração de Dados
Tarefas Preditivas Tarefas Descritivas Envolvem aprendizado com um conjunto de dados para posterior predição do atributo definido como meta. Consistem na identificação de padrões inerentes a determinado banco de dados.

23 Tarefas na Mineração de Dados
Tarefas Preditivas Classificação Tarefas Descritivas Associação Clusterização

24 Clusterização Técnica inicial de exploração;
Identificar um conjunto finito de clusters (agrupamentos); Os conjunto devem ser: Mais homogêneo possível dentro de si; Mais heterogêneo possível em relação a outro conjunto. Não é necessário identificar os agrupamentos desejados ou os atributos a serem utilizados

25 Clusterização “Processo para organizar objetos em grupos nos quais seus membros sejam de alguma forma similares”.

26 Equipando a Liderança Cristã
Aplicações Gerais Equipando a Liderança Cristã Reconhecimento de padrões; Análise de dados climáticos; Agrupamento de pacientes com mesmos sintomas; Marketing e business: segmentação de mercado; Web: classificação de documentos; Uso da terra; Seguro.

27 Métodos baseados em particionamento
Equipando a Liderança Cristã Métodos baseados em particionamento K cluster Banco de dados D Registros Semelhantes Muitos padrões nos dados  Difíceis Interpretação A “Clusterização” reduz a complexidade dentro de cada “Cluster”. Algoritmo  K-Means

28 k-means: algoritmo Input: k, D
Output: K centróides e os objetos de cada cluster

29 Escolha Inicial de “Centros de Cluster”
PASSO 1 Seleção “arbitrária” de “K” pontos para serem os “Centros de Cluster” Escolha Inicial de “Centros de Cluster”

30 Associar cada registro ao “Centro de Cluster” mais próximo.
PASSO 2 Associar cada registro ao “Centro de Cluster” mais próximo. Atenção a esse Registro! Associação de cada Registro aos “Centros de Cluster”

31 Novos “Centros de Cluster” após 1a. Iteração
PASSO 3 Calcular os novos “Centros de Cluster” Média das coordenadas de todos os pontos associados a cada “Centro de Cluster” Novos “Centros de Cluster” após 1a. Iteração

32 Associações de Registros aos Novos “Centros de Cluster”
PASSO 4 Associar cada registro aos novos “Centros de Cluster” Associações de Registros aos Novos “Centros de Cluster”

33 k-means: algoritmo PROCESSO ITERATIVO
Passos 2, 3 e 4 são repetidos até que não ocorra mais mudanças no conjunto de registros que compõem cada “Cluster” Dist. intracluster intercluster

34 k-means: algoritmo OBSERVAÇÕES: Normalização dos dados;
Necessidade de especificar k, a priori; Experimentar vários k e avaliar o conjunto de “Clusters” obtido exceto no caso em que se tem alguma razão a priori para definição do k. Melhor conjunto de “Clusters”  padrão inesperado  ações que possam vir a ser um diferencial competitivo. Normalização dos dados  método baseado em distância  unidade afeta as medidas. Necessidade de especificar k, a priori Se k não representa a estrutura natural dos dados Técnica não encontrará bons resultados

35 Classificação Predição de um valor categórico (atributo meta).
Tentativa de definição de modelos, regras. conjunto de exemplos pré-classificados corretamente; posterior classificação de exemplos novos e desconhecidos; Árvore de decisão  técnica mais utilizada!

36 Equipando a Liderança Cristã
Classificação Equipando a Liderança Cristã Dado um conjunto de registros (dataset): Cada registro contém um conjunto de atributos, em que um dos atributos é chamado classe. O conjunto de dados é dividido em 2 subconjuntos: conjunto de treinamento para construir o modelo; conjunto de teste para validar o modelo; Divisão do dataset: conjunto de treinamento (2/3) e conjunto de teste (1/3)

37 Classificação – Conjunto de Exemplos
Atributos Preditivos Atributo Meta Dataset Conjunto de Treinamento (2/3) Conjunto de Teste (1/3)

38 Equipando a Liderança Cristã
Classificação Equipando a Liderança Cristã Passo 1: encontrar um modelo para o atributo classe como uma função dos valores dos outros atributos. algoritmo usado Indução Criação do Modelo Modelo Conjunto de Treinamento Aplicação do Modelo Dedução Conjunto de Teste Passo 2: registros não conhecidos devem ser associados à classe com a maior precisão possível.

39 Exemplo - Árvore de Decisão
nó raiz Aparência ventando umidade Não_vá sol nublado chuva ≤78 ≥78 sim não nó folha Figura 3 - Exemplo de uma árvore de decisão (Monard e Baranauuskas, 2005). nó folha

40 Aplicando o modelo ao conjunto teste
Início da raiz da árvore Conjunto de Teste Aparência ventando umidade Não_vá sol nublado chuva ≤78 ≥78 sim não

41 Aplicando o modelo ao conjunto teste
Aparência Umidade Ventando Viajar? chuva 95 não ? Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade ventando ≤78 sim não ≥78 Não_vá Não_vá

42 Aplicando o modelo ao conjunto teste
Aparência Umidade Ventando Viajar? chuva 95 não ? Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade ventando ≤78 sim não ≥78 Não_vá Não_vá

43 Aplicando o modelo ao conjunto teste
Aparência Umidade Ventando Viajar? chuva 95 não ? Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade ventando ≤78 sim não ≥78 Não_vá Não_vá

44 Aplicando o modelo ao conjunto teste
Aparência Umidade Ventando Viajar? chuva 95 não ? Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade ventando ≤78 sim não ≥78 Não_vá Não_vá

45 Regras de Classificação
Antecedente Consequente SE Aparência = sol E umidade ≤78 ENTÃO Classe = vá Cada regra representa um nó folha

46 Equipando a Liderança Cristã
Classificação: Aplicações Equipando a Liderança Cristã Diagnóstico médico; Classificar transações de cartão de crédito como legítima ou fraudulenta; Avaliar riscos de empréstimos; Classificação de solos; Previsão de tempo, etc.

47 Equipando a Liderança Cristã
Classificação X Clusterização Equipando a Liderança Cristã Aprendizado supervisionado (classificação) Conjunto de treinamento com atributo meta com classe pré-definida; Novas ocorrências são classificadas com base no conjunto de treinamento. Aprendizado não supervisionado (clusterização) Não existe classe pré-definida para nenhum dos atributos; Um conjunto de observações é dado com o propósito de se estabelecer a existência das classes ou clusters.

48 Relevância no Pré-Processamento
Equipando a Liderança Cristã Limpeza dos dados: reduzir os ruídos e valores faltantes (missing). No mundo real, dados são imperfeitos. Derivado do próprio processo que gerou os dados; Derivado do processo de aquisição dos dados; Derivado do processo de transformação; Classes rotuladas incorretamente; Ex: Dados de chuva. Relevância na análise (feature selection) Remover atributos irrelevantes ou redundantes ( ex: CEP).

49 Problemas Prevalência de Classe
Problema com desbalanceamento de classes em conjunto de exemplos Exemplo: distribuição (C1,C2) = (99,75%;0,25%) Classe Majoritária (ou Prevalente) é C1 Classe Minoritária é C2 Classificador que classifique novos exemplos como C1 teria uma precisão de 99,75%. E se a Classe C2 fosse, por exemplo, ocorrência de Geada...

50 Problemas Overfitting
Classificador Indução muito específica  Superajuste dos dados de treinamento Ruído nos dados; Excesso de procura. Bom desempenho no conjunto de treinamento, mas um desempenho ruim em exemplos diferentes.

51 Problemas Poda Técnica para lidar com Overfitting e ruído Pré-Poda
Pós-Poda Conjunto de Teste Conjunto de Treinamento Profundidade da árvore Erro Poda

52 Árvores de decisão: prós e contras
Equipando a Liderança Cristã Vantagens Custo computacional é baixo; Muito rápido para classificar amostras desconhecidas; Fácil de interpretar árvores de tamanho pequeno; Precisão é semelhante a de outros métodos de classificação. Desvantagens “Overfitting”; O modelo nem sempre produz uma boa estimativa com relação à execução da árvore para amostras desconhecidas;

53 Equipando a Liderança Cristã
Associação Equipando a Liderança Cristã Estuda o relacionamento entre itens de dados que ocorrem com uma certa freqüência; É uma tarefa descritiva: identifica padrões em dados históricos; A maioria dos algoritmos para mineração de regras de associação trabalha com banco de dados de transações; Cada transação é composta por uma identificação e uma lista de itens.

54 Associação - Aplicações
Equipando a Liderança Cristã Associação de produtos em um processo de compra; Elaboração de catálogos de produtos; Layout de prateleiras (produtos relacionados tendem a ser colocados perto nas prateleiras); Análise de seqüências de DNA; Análise de Web log (click stream), etc.

55 Equipando a Liderança Cristã
Associação – Conceitos Básicos Equipando a Liderança Cristã A maioria dos algoritmos para mineração de regras de associação trabalha com banco de dados de transações. Cada transação é composta por uma identificação (TID) e uma lista de itens. Banco de Dados de Transações Pão, Leite, Fralda, Cerveja T4 Pão, Leite, Fralda, Coca T5 Leite, Fralda, Cerveja, Coca T3 Pão, Fralda, Cerveja, Ovos T2 Pão, Leite T1 Lista de Itens TID

56 Equipando a Liderança Cristã
Associação – Conceitos Básicos Equipando a Liderança Cristã Considere o banco de dados de transações: Itens:  = {Pão, Leite, Fralda, Cerveja, Ovos, Coca}. Banco de dados: D = {T1, T2, T3, T4, T5}. Exemplo de transação: T3 = {Leite, Fralda, Cerveja, Coca}. Pão, Leite, Fralda, Cerveja T4 Pão, Leite, Fralda, Coca T5 Leite, Fralda, Cerveja, Coca T3 Pão, Fralda, Cerveja, Ovos T2 Pão, Leite T1 Lista de Itens TID

57 Equipando a Liderança Cristã
Associação – Conceitos Básicos Equipando a Liderança Cristã Considere o banco de dados de transações: Uma regra de associação é uma implicação da forma (X  Y), onde X e Y são conjunto de itens e X  Y = Ø. R1: {Cerveja}  {Fralda}. R2: {Cerveja, Pão}  {Leite}. R3: {Leite, Pão}  {Fralda,Coca}. Pão, Leite, Fralda, Cerveja T4 Pão, Leite, Fralda, Coca T5 Leite, Fralda, Cerveja, Coca T3 Pão, Fralda, Cerveja, Ovos T2 Pão, Leite T1 Lista de Itens TID

58 Conjuntos Frequentes (Itemsets)
Equipando a Liderança Cristã Conjunto frequente (Itemset) Coleção de 1 ou mais itens. Ex: {Leite, Pão, Fralda} k-itemset Um conjunto contendo k-itens Suporte Percentual das transações que contém um conjunto frequente. Exemplo: sup({Leite, Pão, Fralda}) = Conjuntos frequentes Conjunto  Suporte ≥ minsup (threshold). Banco de Dados de Transações Pão, Leite, Fralda, Cerveja T4 Pão, Leite, Fralda, Coca T5 Leite, Fralda, Cerveja, Coca T3 Pão, Fralda, Cerveja, Ovos T2 Pão, Leite T1 Lista de Itens TID 2/5

59 Equipando a Liderança Cristã
Regras de Associação Equipando a Liderança Cristã REGRA DE ASSOCIAÇÃO é uma implicação X  Y, onde X e Y são conjuntos de itens ( X  Y =  ) Métricas para Avaliar as Regras: Suporte (s) Fração das transações que contém ambos X e Y. Sup(X  Y) = P(X  Y) = Confiança (c) Mede a frequência de itens Y que aparece nas transações que contêm X. Conf(X  Y) =

60 Equipando a Liderança Cristã
Regras de Associação Equipando a Liderança Cristã Banco de Dados de Transações Pão, Leite, Fralda, Cerveja T4 Pão, Leite, Fralda, Coca T5 Leite, Fralda, Cerveja, Coca T3 Pão, Fralda, Cerveja, Ovos T2 Pão, Leite T1 Lista de Itens TID Exemplo: {Leite, Fralda  Cerveja} Sup = Freq (Leite, Fralda, Cerveja) T 2 5 = Conf = Freq (Leite, Fralda, Cerveja) Freq (Leite, Fralda) 2 3 =

61 Equipando a Liderança Cristã
Mineração de Regras de Associação Equipando a Liderança Cristã Etapas: Geração dos Conjuntos Frequentes Gera todos os conjuntos frequentes cujo suporte  minsup Geração das Regras de Associação Gera regras de alta confiança a partir dos conjuntos frequentes. A geração de todos os conjuntos frequentes é uma tarefa computacionalmente cara!

62 Equipando a Liderança Cristã
Exemplo de Regras Equipando a Liderança Cristã Banco de Dados de Transações Regras: {Cerveja}  {Leite, Fralda} (s=0.4, c=0.67) {Fralda}  {Leite, Cerveja} (s=0.4, c=0.5) {Leite}  {Fralda, Cerveja} (s=0.4, c=0.5) {Leite, Fralda}  {Cerveja} (s=0.4, c=0.67) {Leite, Cerveja}  {Fralda} (s=0.4, c=1.0) {Fralda, Cerveja}  {Leite} (s=0.4, c=0.67) Pão, Leite, Fralda, Cerveja T4 Pão, Leite, Fralda, Coca T5 Leite, Fralda, Cerveja, Coca T3 Pão, Fralda, Cerveja, Ovos T2 Pão, Leite T1 Lista de Itens TID Observações: Todas as regras acima são originadas do mesmo conjunto frequente: {Leite, Fralda, Cerveja} Regras originadas do mesmo conjunto frequente têm o mesmo suporte, mas diferentes valores para confiança.

63 Geração de conjuntos frequentes
Equipando a Liderança Cristã Ex: reticulado gerado para 5 itens Dados d itens, existem 2d possíveis conjuntos frequentes.

64 Exemplos de Aplicação ? W X ? Y Z
Encontre todas as regras que tem “Produto W” como consequente. ? W Alavancar venda de W! Encontre todas as regras que têm “Produto X” como antecedente Se parar de vender “X” quais produtos podem ter as vendas reduzidas? X ? Encontre todas as regras que tem “Produto Y” como antecedente e “Produto Z” como consequente. Identificar os itens adicionais que podem ser vendidos em conjunto com o “Y” a fim de que aumente a chance de vender o “Z” Y Z (Agrawal et al, 1993)

65 Exemplos de Aplicação Regras com Informações de Alta Qualidade e Passíveis de Ação “Quem Compra Fralda às 5as. e 6as. Feiras, compra Cerveja junto” De posse do conhecimento, é relativamente fácil fazer uma pesquisa de campo e encontrar explicações para o conhecimento gerado Ações Estratégicas: Design, Ofertas combinadas Localização de Produtos Complementares, etc. Regras com Informações Triviais “Quem Compra Contratos de Manutenção Caros compra Equipamentos Cruciais para Desempenhar Suas Funções” Conhecimento geralmente conhecido (e óbvio) para quem é familiar com a área de aplicação Frequentemente o conhecimento gerado é consequência de ações anteriores e não necessariamente conhecimento passível de ação

66 Exemplos de Aplicação Regras com Resultados INEXPLICÁVEIS
“Quando uma nova loja de materiais de construção abriu, produtos mais vendidos foram produtos para banheiro” Conhecimento difícil de ser compreendido e que frequentemente sugere a necessidade de uma investigação mais detalhada em busca de explicações para o fato. Produtos foram colocados em lugares estratégicos? Havia algum desconto especial para esses produtos?

67 Inclusão de Itens Virtuais
Importante Quando se utiliza de Técnicas de Associação, na grande maioria das vezes os resultados encontrados são TRIVIAIS ou INEXPLICÁVEIS !!! Inclusão de Itens Virtuais Dias da Semana Dias úteis X Feriados e Finais de Semana Período de Férias X Período de Aulas Promoção X Preço Normal Meses do Ano Período do Mês: Início, Meados ou Fim

68 Aplicações na Agricultura
Exemplos

69 Aplicações na Agricultura
Definição de zonas homogêneas de chuva para estudo de veranicos e fenômenos extremos; Previsão de geadas e deficiência hídrica; Alerta de doenças de culturas agrícolas; Classificação de imagens de satélite para estimativa de produtividade; Previsão de safra;

70 Aplicações na Agricultura
Estimativa da mortalidade de frangos com base em dados do ambiente; Classificação do solo; Modelos de predição da quantidade de água no solo.

71 Obrigada!


Carregar ppt "Técnicas de Mineração de Dados na Agricultura"

Apresentações semelhantes


Anúncios Google