Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.

Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura

Roteiro  Definição  Medidas de interesse para classificação  Medidas de interesse para associação  Medidas de interesse para generalização  Medidas de interesse genêricas  Conclusão.

Descrição “Um importante problema na área de Data Mining, seria o desenvolvimento de eficientes medidas de interesse para criar um ranking dos conhecimentos descobertos” 1/3

Definição  Problema de KDD: medidas de interesse para ordenar conhecimentos descobertos”  Tipicamente inúmeros padrões são gerados,mas poucos são realmente interessantes  Medida de interesse: técnicas para ordenar padrões em ordem de interesse decrescente

Descrição “Tipicamente o número de padrões gerados é muito grande, mas somente alguns desses padrões são prováveis de possuir algum interesse para o domínio esperado, quando analisamos os dados” 2/3

Descrição Para aumentar a utilidade, relevância e o proveito de padrões descobertos, técnicas são requeridas para reduzir o números de padrões que precisam ser considerados. Técnicas que satisfazem esse objetivos são de um modo geral chamadas de MEDIDAS DE INTERESSE. 3/3

Base de exemplos  Descrição  Domínio  Atributos

Medidas para classificação  Piats,,  Jnln  Knn  lknl.

Metodo 1  Formula  explicação

Metodo 1  Exemplo na base

Comparação das medidas para classificação

Método 1: Função de Regra de Interesse de Piatetsky-Shapiro -Definição: A função de regra de interesse é usada para qualificar a correlação entre atributos em uma simples regra de classificação. 1/2

Método 1: Função de Regra de Interesse de Piatetsky-Shapiro -Regra: 2/2 N - Número total de tuplas |X| e |Y| - Número de tuplas que satisfazem as condições X e Y (respectivamente). |X  Y| - Número de tuplas que satisfaz X  Y. |X||Y|/N – Número de tuplas esperado se X e Y eram independentes.

Método 2: Medida J de Smyth e Goodman -Definição: A medida J é a média de informação satisfeita por uma probabilística regra de classificação e é usada para encontrar as melhores regras relacionadas com atributos de valores discretos. 1/2

Método 2: Medida J de Smyth e Goodman -Regra: 2/2 -Onde: p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y e x dado y, e o termo entre colchetes é a entropia relativa.

Método 3: Regra de Refinamento de Major e Mangano -Definição: É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação. -Consiste em 3 fases: - Identificar potencialmente regras de interesse; - Identificar tecnicamente regras de interesse; - Remover regras que não são verdadeiramente interessantes.

Método 4: Medidas de Conjunto de Itens de Agrawal e Srikant -Definição: São usadas para identificar ocorrências freqüentes de regras de associação de conjuntos de itens em grandes bancos de dados. ?????????????????????????

Método 5: Templates de Regras de Klemettinen et al. -Definição: São usados para descrever um padrão para aqueles atributos que podem aparecer no lado esquerdo ou direito de uma regra de associação. 1/2

Método 5: Templates de Regras de Klemettinen et al. -Regra: 2/2 Onde: Cada A i é um nome de atributo, nome de classe ou uma expressão C+ ou C*, C é o nome da classe. -Templates de Regras podem ser inclusivo ou restritivo.

Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro -Definição: Salvamento projetado: é a medida que avalia o impacto financeiro do custo de desvios de alguns valores padronizados ou esperados. 1/2

Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro -Regra: 2/2 PS = PI * SP Onde PI é o impacto projetado e SP é o percentual de salvamento. PI = PD * IF Onde PD é a diferença entre a média corrente do custo e o padronizado ou esperado custo de alguns produtos ou serviços e IF é o fator de impacto.

Método 7: Medidas I de Hamilton e Fudger -Definição: São usadas para determinar a importância do conhecimento descoberto, presente na forma de relações generalizadas ou resumidas, baseada sob a estrutura do conceito de hierarquias associadas com os atributos na original relação não generalizada. 1/2

Método 7: Medidas I de Hamilton e Fudger -Regra: 2/2 Onde: v é um atributo valor, t(v) é o conceito hierárquico associado com o atributo contendo v, e c(t(v)) é a função que retorna 1 se v é non-ANY, non-leaf, e 0 otherwise. ?????????????????????????????

Método 8: Interesses de Silbershatz e Tuzhilin -Definição: Determina a extensão em que a crença de um soft é mudada como um resultado de encontro de novas evidências (ex. conhecimento descoberto). 1/2

Método 8: Interesses de Silbershatz e Tuzhilin -Regra: 2/2 Onde:  é a crença, E é a nova evidência,  é a evidência prévia suportada pela crença , p(  |  ) é a confidência na crença , e p(  |E,  ) é a nova confidência na crença  dada a nova evidência E. -É usado o teorema de Bayes para determinar uma nova confidência,

Método 9: Interesses Kamber e Shinghal -Definição: Determina o interesse das regras de classificação baseadas sob necessidade e suficiência. Existem 2 tipos de regras de classificação: discriminante e característico. Uma regra discriminante, e  h, onde e é a evidência e h a hipótese, resumem as condições suficientes para distinguir uma classe da outra. 1/2

Método 9: Interesses Kamber e Shinghal -Regra Suficiência: 2/2 -Regra Necessidade:

Método 10: Credibilidade de Hamilton et al. -Definição: Determina a extensão com a qual uma classificação prover decisões para todos ou quase todos os possíveis valores de atributos de condições, baseados sob evidências adequadamente suportadas. 1/3

Método 10: Credibilidade de Hamilton et al. -Regra da Credibilidade: 2/3 Onde: -E é uma classe equivalente -C é uma classificação -Q E (C) é a qualidade da classificação C -I é o número atual de instâncias que suportam a classe equivalente E -M é o número mínimo de instâncias requeridas por um crédito de classificação -mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes equivalentes não suportadas por um número adequado de instâncias.

Método 10: Credibilidade de Hamilton et al. -Função de Qualidade: 3/3 Onde: -  é o fator de normalização que assegura que Q E (C) seja sempre do intervalo [0,1]. -p(E) é a probabilidade de classes equivalentes E. -p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu. -p(F) é a probabilidade do conceito F. Fator de normalização:

Método 11: Distância Métrica de Gago e Bento -Descrição: Mede a distância entre duas regras e é usada para determinar as regras que provêem a mais alta cobertura para os dados mostrados. -Distância Métrica:

Método 12: Interesses de Gray e Orlowska 1/2 -Descrição: É usado para avaliar a força das associações entre os conjuntos de itens de transações. Enquanto suporte e confidência tem sido mostrados para serem úteis para caracterizar regras de associação, interesses contém um componente discriminante que dá uma indicação de independência a um antecedente e conseqüente.

Método 12: Interesses de Gray e Orlowska 2/2 -Interesse: Onde: -P(X  Y) é a confidência -P(X) x P(Y) é o suporte -é o discriminante -k e m são parâmetros para o peso da importância relativa do discriminante e suporte a componentes, respectivamente.

Método 13: Interesses de Dong e Li 1/3 -Definição: É usado para avaliar a importância de uma regra de associação considerando ela sem expectativa em termos de outras regras de associação na sua vizinhança. A vizinhança de uma regra de associação consiste de todas as regras de associação em uma dada distância.

Método 13: Interesses de Dong e Li 2/3 -Distância Métrica: Onde: -R 1 = X 1  Y 1, R 2 = X 2  Y 2,  1,  2 e  3 são parâmetros de peso da importância relativa para todos os 3 termos -  é um operador que denota a diferença simétrica entre X e Y. -Vizinhança – R é usada para definir o interesse de uma regra:

Método 13: Interesses de Dong e Li 3/3 -2 tipos de interesses: 1) Confidência inesperada de interesse: 2) Interesse Isolado:

Método 14: Peculiaridade de Zhong et al. 1/2 -Descrição: Peculiaridade é usado para determinar a extensão de um objeto de dado que difere de outros objetos de dados similares. Fator de Peculiaridade: Onde: - x i e x j são atributos valores - n é o número de diferença de atributos valores - N (x i,x j ) é a distância conceitual entre x i e x j

Conclusão

Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.

Apresentações semelhantes

Apresentação em tema: "Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.

Apresentações semelhantes

Apresentação em tema: "Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback