Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouMaria do Pilar Chaplin Palma Alterado mais de 9 anos atrás
1
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura
2
Roteiro Definição Medidas de interesse para classificação Medidas de interesse para associação Medidas de interesse para generalização Medidas de interesse genêricas Conclusão.
3
Descrição “Um importante problema na área de Data Mining, seria o desenvolvimento de eficientes medidas de interesse para criar um ranking dos conhecimentos descobertos” 1/3
4
Definição Problema de KDD: medidas de interesse para ordenar conhecimentos descobertos” Tipicamente inúmeros padrões são gerados,mas poucos são realmente interessantes Medida de interesse: técnicas para ordenar padrões em ordem de interesse decrescente
5
Descrição “Tipicamente o número de padrões gerados é muito grande, mas somente alguns desses padrões são prováveis de possuir algum interesse para o domínio esperado, quando analisamos os dados” 2/3
6
Descrição Para aumentar a utilidade, relevância e o proveito de padrões descobertos, técnicas são requeridas para reduzir o números de padrões que precisam ser considerados. Técnicas que satisfazem esse objetivos são de um modo geral chamadas de MEDIDAS DE INTERESSE. 3/3
7
Base de exemplos Descrição Domínio Atributos
8
Medidas para classificação Piats,, Jnln Knn lknl.
9
Metodo 1 Formula explicação
10
Metodo 1 Exemplo na base
11
Comparação das medidas para classificação
12
Método 1: Função de Regra de Interesse de Piatetsky-Shapiro -Definição: A função de regra de interesse é usada para qualificar a correlação entre atributos em uma simples regra de classificação. 1/2
13
Método 1: Função de Regra de Interesse de Piatetsky-Shapiro -Regra: 2/2 N - Número total de tuplas |X| e |Y| - Número de tuplas que satisfazem as condições X e Y (respectivamente). |X Y| - Número de tuplas que satisfaz X Y. |X||Y|/N – Número de tuplas esperado se X e Y eram independentes.
14
Método 2: Medida J de Smyth e Goodman -Definição: A medida J é a média de informação satisfeita por uma probabilística regra de classificação e é usada para encontrar as melhores regras relacionadas com atributos de valores discretos. 1/2
15
Método 2: Medida J de Smyth e Goodman -Regra: 2/2 -Onde: p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y e x dado y, e o termo entre colchetes é a entropia relativa.
16
Método 3: Regra de Refinamento de Major e Mangano -Definição: É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação. -Consiste em 3 fases: - Identificar potencialmente regras de interesse; - Identificar tecnicamente regras de interesse; - Remover regras que não são verdadeiramente interessantes.
17
Método 4: Medidas de Conjunto de Itens de Agrawal e Srikant -Definição: São usadas para identificar ocorrências freqüentes de regras de associação de conjuntos de itens em grandes bancos de dados. ?????????????????????????
18
Método 5: Templates de Regras de Klemettinen et al. -Definição: São usados para descrever um padrão para aqueles atributos que podem aparecer no lado esquerdo ou direito de uma regra de associação. 1/2
19
Método 5: Templates de Regras de Klemettinen et al. -Regra: 2/2 Onde: Cada A i é um nome de atributo, nome de classe ou uma expressão C+ ou C*, C é o nome da classe. -Templates de Regras podem ser inclusivo ou restritivo.
20
Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro -Definição: Salvamento projetado: é a medida que avalia o impacto financeiro do custo de desvios de alguns valores padronizados ou esperados. 1/2
21
Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro -Regra: 2/2 PS = PI * SP Onde PI é o impacto projetado e SP é o percentual de salvamento. PI = PD * IF Onde PD é a diferença entre a média corrente do custo e o padronizado ou esperado custo de alguns produtos ou serviços e IF é o fator de impacto.
22
Método 7: Medidas I de Hamilton e Fudger -Definição: São usadas para determinar a importância do conhecimento descoberto, presente na forma de relações generalizadas ou resumidas, baseada sob a estrutura do conceito de hierarquias associadas com os atributos na original relação não generalizada. 1/2
23
Método 7: Medidas I de Hamilton e Fudger -Regra: 2/2 Onde: v é um atributo valor, t(v) é o conceito hierárquico associado com o atributo contendo v, e c(t(v)) é a função que retorna 1 se v é non-ANY, non-leaf, e 0 otherwise. ?????????????????????????????
24
Método 8: Interesses de Silbershatz e Tuzhilin -Definição: Determina a extensão em que a crença de um soft é mudada como um resultado de encontro de novas evidências (ex. conhecimento descoberto). 1/2
25
Método 8: Interesses de Silbershatz e Tuzhilin -Regra: 2/2 Onde: é a crença, E é a nova evidência, é a evidência prévia suportada pela crença , p( | ) é a confidência na crença , e p( |E, ) é a nova confidência na crença dada a nova evidência E. -É usado o teorema de Bayes para determinar uma nova confidência,
26
Método 9: Interesses Kamber e Shinghal -Definição: Determina o interesse das regras de classificação baseadas sob necessidade e suficiência. Existem 2 tipos de regras de classificação: discriminante e característico. Uma regra discriminante, e h, onde e é a evidência e h a hipótese, resumem as condições suficientes para distinguir uma classe da outra. 1/2
27
Método 9: Interesses Kamber e Shinghal -Regra Suficiência: 2/2 -Regra Necessidade:
28
Método 10: Credibilidade de Hamilton et al. -Definição: Determina a extensão com a qual uma classificação prover decisões para todos ou quase todos os possíveis valores de atributos de condições, baseados sob evidências adequadamente suportadas. 1/3
29
Método 10: Credibilidade de Hamilton et al. -Regra da Credibilidade: 2/3 Onde: -E é uma classe equivalente -C é uma classificação -Q E (C) é a qualidade da classificação C -I é o número atual de instâncias que suportam a classe equivalente E -M é o número mínimo de instâncias requeridas por um crédito de classificação -mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes equivalentes não suportadas por um número adequado de instâncias.
30
Método 10: Credibilidade de Hamilton et al. -Função de Qualidade: 3/3 Onde: - é o fator de normalização que assegura que Q E (C) seja sempre do intervalo [0,1]. -p(E) é a probabilidade de classes equivalentes E. -p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu. -p(F) é a probabilidade do conceito F. Fator de normalização:
31
Método 11: Distância Métrica de Gago e Bento -Descrição: Mede a distância entre duas regras e é usada para determinar as regras que provêem a mais alta cobertura para os dados mostrados. -Distância Métrica:
32
Método 12: Interesses de Gray e Orlowska 1/2 -Descrição: É usado para avaliar a força das associações entre os conjuntos de itens de transações. Enquanto suporte e confidência tem sido mostrados para serem úteis para caracterizar regras de associação, interesses contém um componente discriminante que dá uma indicação de independência a um antecedente e conseqüente.
33
Método 12: Interesses de Gray e Orlowska 2/2 -Interesse: Onde: -P(X Y) é a confidência -P(X) x P(Y) é o suporte -é o discriminante -k e m são parâmetros para o peso da importância relativa do discriminante e suporte a componentes, respectivamente.
34
Método 13: Interesses de Dong e Li 1/3 -Definição: É usado para avaliar a importância de uma regra de associação considerando ela sem expectativa em termos de outras regras de associação na sua vizinhança. A vizinhança de uma regra de associação consiste de todas as regras de associação em uma dada distância.
35
Método 13: Interesses de Dong e Li 2/3 -Distância Métrica: Onde: -R 1 = X 1 Y 1, R 2 = X 2 Y 2, 1, 2 e 3 são parâmetros de peso da importância relativa para todos os 3 termos - é um operador que denota a diferença simétrica entre X e Y. -Vizinhança – R é usada para definir o interesse de uma regra:
36
Método 13: Interesses de Dong e Li 3/3 -2 tipos de interesses: 1) Confidência inesperada de interesse: 2) Interesse Isolado:
37
Método 14: Peculiaridade de Zhong et al. 1/2 -Descrição: Peculiaridade é usado para determinar a extensão de um objeto de dado que difere de outros objetos de dados similares. Fator de Peculiaridade: Onde: - x i e x j são atributos valores - n é o número de diferença de atributos valores - N (x i,x j ) é a distância conceitual entre x i e x j
38
Conclusão
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.