Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouKevin Pastor Alterado mais de 9 anos atrás
1
Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva
2
24/5/2001 12:00 Introdução Dados podem ser armazenados e resumidos em cubos multidimensionais.(OLAP) Dados podem ser armazenados e resumidos em cubos multidimensionais.(OLAP) Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes. Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes. O processo de descoberta não é automático. Depende da intuição ou hipóteses usadas pelo usuário. O processo de descoberta não é automático. Depende da intuição ou hipóteses usadas pelo usuário. Desvantagens da exploração baseada em hipóteses: Desvantagens da exploração baseada em hipóteses: espaço de busca muito grande agregações de alto nível não indicam anomalias dificuldade mesmo se o espaço for pequeno
3
24/5/2001 12:00 Análise de Outliers Outliers Exceções Outliers Exceções Causa dos Outliers → erro de execução ou medida. Causa dos Outliers → erro de execução ou medida. Exemplo: Inserção default de um valor Falsos Outliers (Ex: salários de executivos) Falsos Outliers (Ex: salários de executivos) Mineração de outliers → consiste na detecção e análise de outliers (complexo e interessante) Mineração de outliers → consiste na detecção e análise de outliers (complexo e interessante)
4
24/5/2001 12:00 Aplicações de Mineração de Outliers 1. Detecção de Fraudes ( cartões de crédito ou telefone) 2. Comportamento de gastos de consumidores ( por classe social ) 3. Em análises médicas ( resultados não esperados de tratamentos )
5
24/5/2001 12:00 Mineração de Outliers Pode ser dividido em 2 subproblemas: Pode ser dividido em 2 subproblemas: 1. Definir quais dados são aberrantes 2. Definir método eficiente para encontrar tais aberrações 3. Aberrante sempre com referência a algum padrão Métodos de detecção: Semi-automático: Visualização Automático Estatística Distância Desvio Observação: Usuário tem que checar se os outliers descobertos são realmente outliers.
6
24/5/2001 12:00 Detecção de Outliers baseada em Estatística Distribuição ou modelo probabilístico ( Ex: distribuição normal ) Distribuição ou modelo probabilístico ( Ex: distribuição normal ) Teste de discordância (TD)→ identifica os outliers com respeito ao modelo escolhido Teste de discordância (TD)→ identifica os outliers com respeito ao modelo escolhido O TD examina 2 hipóteses: O TD examina 2 hipóteses: de trabalho alternativa Um dado ser ou não ser Outlier depende da distribuição escolhida Um dado ser ou não ser Outlier depende da distribuição escolhida
7
24/5/2001 12:00 Detecção de Outliers baseada em Estatística 2 procedimentos para detecção de outliers: 2 procedimentos para detecção de outliers: Procedimentos em blocos Procedimentos consecutivos (sequencial) menos provável é testado mais eficiente Conclusão Testa aberração ao longo de apenas uma única dimensão Dificuldade na escolha de uma distribuição padrão, especialmente com dados desconhecidos
8
24/5/2001 12:00 Um exemplo de detecção de Outliers baseado em estatística O Procedimento abaixo é feito para cada observação x i,onde i=1..n e k = n-1: O Procedimento abaixo é feito para cada observação x i,onde i=1..n e k = n-1: vetor médio da amostra vetor médio da amostra x m = (1/k) Σx i (p/ i de 1 à k) Matriz de covariância Matriz de covariância S = (1/(k-1)) Σ(x i – x m ) (x i – x m )’ Distância de Mahalanobis: Distância de Mahalanobis: D 2 = (x – x m )’S -1 (x – x m ) Distribuição F com p e k-p graus de liberdade Distribuição F com p e k-p graus de liberdade F = ((k – p)k / (k 2 – 1)p) D 2 A partir de F calcula-se o valor de P que será comparado com o nível de significância ά A partir de F calcula-se o valor de P que será comparado com o nível de significância ά Se P < ά, então encontramos um outlier, remove o mesmo e refaz o procedimento acima Se P > ά, está OK
9
24/5/2001 12:00 Exemplo de Detecção de Outliers baseada em Estatística Nível de significância ά=0,05 Nível de significância ά=0,05 Primeiro encontrou as médias e os desvio padrões iguais à: Primeiro encontrou as médias e os desvio padrões iguais à: x1 = 120,6 e s1 = 20,9 x2 = 81,0 e s2 = 21,7 Com n=15, removemos x9 por ter tido o menor valor de P=0,0003 Com n=15, removemos x9 por ter tido o menor valor de P=0,0003 Agora temos n=14 e remove x7 com P=0,0264 Agora temos n=14 e remove x7 com P=0,0264 Agora temos n=13 e não há mais outliers detectados. Agora temos n=13 e não há mais outliers detectados. Neste momento, temos as seguintes médias e desvios: Neste momento, temos as seguintes médias e desvios: x1 = 121,8 e s1 = 20,8 / x2 = 80,5 e s2 = 16,3 Valores corretos: x7=(93,54) e x9=(132,94) Valores corretos: x7=(93,54) e x9=(132,94) Observ123456789101112131415 X1:Sist1541361911251331259380132 10 7 142115114120141 X2:Dias10890548993774350125769674797190
10
24/5/2001 12:00 Detecção de Outliers baseada em Distância Origem → Resolver limitações do estatístico Origem → Resolver limitações do estatístico O que é um outlier baseado em distância? O que é um outlier baseado em distância? um objeto ‘o’ num conjunto de dados ‘S’ é um outlier baseado em distância DB(p,d), se pelo menos uma fração ‘p’ de objetos em ‘S’ se encontram a uma distância maior que ‘d’ de ‘o’ Exemplo com pontos no plano Exemplo com pontos no plano
11
24/5/2001 12:00 Detecção de Outliers baseada em Distância Estatística X Distância Conceito de distância ≠ Testes estatísticos Conceito de distância ≠ Testes estatísticos vantagens: vantagens: evita suposição sobre distribuição dos dados custo computacional menor em muitos casos: outlier baseado em distância outlier estatístico Alguns algoritmos: Index-based Nested-loop Cell-based desvantagens Escolha dos parâmetros ‘p’ e ‘d’.
12
24/5/2001 12:00 Detecção de Outliers baseada em Desvio Nem estatística, nem distância Nem estatística, nem distância Outliers Desvios Outliers Desvios Identifica outliers a partir das características do grupo Identifica outliers a partir das características do grupo 2 técnicas para detecção: 2 técnicas para detecção: Técnica de exceção sequencial Técnica de cubo de dados OLAP
13
24/5/2001 12:00 Técnica de Exceção Sequencial Compara objetos sequencialmente num conjunto (Exemplo: humanos na distinção de objetos) Compara objetos sequencialmente num conjunto (Exemplo: humanos na distinção de objetos) Alguns termos chaves: Alguns termos chaves: Conjunto de Exceções subconjunto mínimo de objetos cuja remoção resulta na maior redução de dissimilaridade Função de dissimilaridade Ex: para dados numéricos variância Ex: para dados categóricos diferença entre proporções de objetos que se casam com padrão simbólico com variáveis livres (aa**b)
14
24/5/2001 12:00 Técnica de Exceção Sequencial Termos Chaves: (Cont.) Termos Chaves: (Cont.) Função de Cardinalidade → N o de objetos Fator de suavização mede redução de dissimilaridade por exclusão de subconjuntos, normalizado pelo número de elementos Conjunto com maior fator de suavização = Conjunto de exceções
15
24/5/2001 12:00 Técnica de Exceção Sequencial Funcionamento da técnica Funcionamento da técnica Pode a ordem dos subconjuntos na sequência afetar o resultado ? Pode a ordem dos subconjuntos na sequência afetar o resultado ?
16
24/5/2001 12:00 Exploração Baseada em Descoberta Modelo usando o cubo de dados Modelo usando o cubo de dados O especialista é vai procurar por anomalias nos dados guiado por indicadores de exceções pré-computados O especialista é vai procurar por anomalias nos dados guiado por indicadores de exceções pré-computados Modelo estatístico usado para computar o valor esperado do dado Modelo estatístico usado para computar o valor esperado do dado Uso de ferramentas OLAP Uso de ferramentas OLAP
17
24/5/2001 12:00 O Cubo de Dados Dimensões Dimensões Hierarquia Hierarquia Operações OLAP Operações OLAP Drill down Roll up Slice
18
24/5/2001 12:00 Definindo Exceções em Cubos Exceções são, intuitivamente, dados que nos surpreendem Exceções são, intuitivamente, dados que nos surpreendem Como medir a ‘surpresa’? Como medir a ‘surpresa’? SelfExp Valor relativo ao seu próprio nível InExp Valor relativo ao drill-down em todos as dimensões PathExp Um InExp relativo a um determinada dimensão
19
24/5/2001 12:00 Exemplo
20
24/5/2001 12:00 Exemplo
21
24/5/2001 12:00 Exemplo
22
24/5/2001 12:00 Exemplo
23
24/5/2001 12:00 Exceções em Cubos: a qual granularidade? Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões) Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões) Uma exceção pode ser considerada uma exceção por um group-by e não ser considerada por outro group-by Uma exceção pode ser considerada uma exceção por um group-by e não ser considerada por outro group-by Exemplo
24
24/5/2001 12:00 Cálculo do Valor Esperado O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-by O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-by Exemplo: Exemplo: ŷ ijk = f(γ, γ i A, γ j B, γ k C, γ ij AB, γ jk BC, γ ik AC ) y ijk é uma exceção se: (y ijk – ŷ ijk )/ ijk > ( = 2.5) Por que o valor de é 2.5? Qual o valor de ijk ?
25
24/5/2001 12:00 Cálculo do Valor Esperado A função f() pode ser das seguintes formas: A função f() pode ser das seguintes formas: Aditiva Multiplicativa Outras mais complexas
26
24/5/2001 12:00 Cálculo do Valor Esperado O valor de ŷ ijk é: O valor de ŷ ijk é: ŷ ijk = Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f() Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f() e (γ + γ i A + γ j B + γ k C + γ ij AB + γ jk BC + γ ik AC )
27
24/5/2001 12:00 Cálculo do Valor de cada γ Primeiro calcula o nível específico Primeiro calcula o nível específico γ = l +...+ Para cada dimensão, suba um nível, calcule o valor de γ como sendo: Para cada dimensão, suba um nível, calcule o valor de γ como sendo: γ ir Ar = l +...+ i r +...+ - γ Para os níveis acima, faça o mesmo, da forma Para os níveis acima, faça o mesmo, da forma γ iris ArAs = l +...+ i r +...+ i s +...+ - γ ir Ar - γ is As - γ
28
24/5/2001 12:00 Exemplificando A,B,C B,CA,BA,C A BC
29
24/5/2001 12:00 Cálculo do valor de ijk A fórmula de ijk é: A fórmula de ijk é: onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança): onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança): ŷ ijk 2 ijk = ( ŷ ijk ) y ijk ŷ ijk ( y ijk - ŷ ijk ) 2 ŷ ijk ( ŷ ijk ) ŷ ijk log ŷ ijk 0
30
24/5/2001 12:00 Estimando os Coeficientes do Modelo (γ) Baseada na média Baseada na média Ex: Formar uma linha de regressão e remover da consideração 10% dos pontos que se encontram mais longe da mesma Baseada em média “emagrecida” Baseada em média “emagrecida” Baseada na mediana Baseada na mediana Mais robusta, pois é melhor na presença de outliers muito grandes Alto custo computacional → muitas vezes impraticável
31
24/5/2001 12:00 Exemplo
32
24/5/2001 12:00 Outros Tipos de Modelo Hierárquico Hierárquico A idéia é calcular o valor esperado baseado na sua posíção e parentes na hierarquia Série de Regressão Temporal Série de Regressão Temporal Baseado na idéia que as células tem um atributo temporal É possível encontrar padrões em períodos
33
24/5/2001 12:00 Outros métodos Valor extremo no conjunto Valor extremo no conjunto Clustering Clustering Clustering multi-dimensional Clustering multi-dimensional Regressão em dimensões contínuas Regressão em dimensões contínuas Efeitos combinados de dimensões categóricas Efeitos combinados de dimensões categóricas
34
24/5/2001 12:00 Referências Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, Morgan Kaufmann Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, Morgan Kaufmann Data Mining: practical machine learning tools and techniques with Java implementations, de Witten, I.H. & Frank, E., 2000, Morgan Kaufmann Data Mining: practical machine learning tools and techniques with Java implementations, de Witten, I.H. & Frank, E., 2000, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.