A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva.

Apresentações semelhantes


Apresentação em tema: "Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva."— Transcrição da apresentação:

1 Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

2 24/5/ :00 Introdução Dados podem ser armazenados e resumidos em cubos multidimensionais.(OLAP) Dados podem ser armazenados e resumidos em cubos multidimensionais.(OLAP) Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes. Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes. O processo de descoberta não é automático. Depende da intuição ou hipóteses usadas pelo usuário. O processo de descoberta não é automático. Depende da intuição ou hipóteses usadas pelo usuário. Desvantagens da exploração baseada em hipóteses: Desvantagens da exploração baseada em hipóteses:  espaço de busca muito grande  agregações de alto nível não indicam anomalias  dificuldade mesmo se o espaço for pequeno

3 24/5/ :00 Análise de Outliers Outliers  Exceções Outliers  Exceções Causa dos Outliers → erro de execução ou medida. Causa dos Outliers → erro de execução ou medida.  Exemplo: Inserção default de um valor Falsos Outliers (Ex: salários de executivos) Falsos Outliers (Ex: salários de executivos) Mineração de outliers → consiste na detecção e análise de outliers (complexo e interessante) Mineração de outliers → consiste na detecção e análise de outliers (complexo e interessante)

4 24/5/ :00 Aplicações de Mineração de Outliers 1. Detecção de Fraudes ( cartões de crédito ou telefone) 2. Comportamento de gastos de consumidores ( por classe social ) 3. Em análises médicas ( resultados não esperados de tratamentos )

5 24/5/ :00 Mineração de Outliers Pode ser dividido em 2 subproblemas: Pode ser dividido em 2 subproblemas: 1. Definir quais dados são aberrantes 2. Definir método eficiente para encontrar tais aberrações 3. Aberrante sempre com referência a algum padrão Métodos de detecção:  Semi-automático:  Visualização  Automático  Estatística  Distância  Desvio Observação:  Usuário tem que checar se os outliers descobertos são realmente outliers.

6 24/5/ :00 Detecção de Outliers baseada em Estatística Distribuição ou modelo probabilístico ( Ex: distribuição normal ) Distribuição ou modelo probabilístico ( Ex: distribuição normal ) Teste de discordância (TD)→ identifica os outliers com respeito ao modelo escolhido Teste de discordância (TD)→ identifica os outliers com respeito ao modelo escolhido O TD examina 2 hipóteses: O TD examina 2 hipóteses:  de trabalho  alternativa Um dado ser ou não ser Outlier depende da distribuição escolhida Um dado ser ou não ser Outlier depende da distribuição escolhida

7 24/5/ :00 Detecção de Outliers baseada em Estatística 2 procedimentos para detecção de outliers: 2 procedimentos para detecção de outliers:  Procedimentos em blocos  Procedimentos consecutivos (sequencial)  menos provável é testado  mais eficiente Conclusão  Testa aberração ao longo de apenas uma única dimensão  Dificuldade na escolha de uma distribuição padrão, especialmente com dados desconhecidos

8 24/5/ :00 Um exemplo de detecção de Outliers baseado em estatística O Procedimento abaixo é feito para cada observação x i,onde i=1..n e k = n-1: O Procedimento abaixo é feito para cada observação x i,onde i=1..n e k = n-1: vetor médio da amostra vetor médio da amostra  x m = (1/k) Σx i (p/ i de 1 à k) Matriz de covariância Matriz de covariância  S = (1/(k-1)) Σ(x i – x m ) (x i – x m )’ Distância de Mahalanobis: Distância de Mahalanobis:  D 2 = (x – x m )’S -1 (x – x m ) Distribuição F com p e k-p graus de liberdade Distribuição F com p e k-p graus de liberdade  F = ((k – p)k / (k 2 – 1)p) D 2 A partir de F calcula-se o valor de P que será comparado com o nível de significância ά A partir de F calcula-se o valor de P que será comparado com o nível de significância ά  Se P < ά, então encontramos um outlier, remove o mesmo e refaz o procedimento acima  Se P > ά, está OK

9 24/5/ :00 Exemplo de Detecção de Outliers baseada em Estatística Nível de significância ά=0,05 Nível de significância ά=0,05 Primeiro encontrou as médias e os desvio padrões iguais à: Primeiro encontrou as médias e os desvio padrões iguais à:  x1 = 120,6 e s1 = 20,9  x2 = 81,0 e s2 = 21,7 Com n=15, removemos x9 por ter tido o menor valor de P=0,0003 Com n=15, removemos x9 por ter tido o menor valor de P=0,0003 Agora temos n=14 e remove x7 com P=0,0264 Agora temos n=14 e remove x7 com P=0,0264 Agora temos n=13 e não há mais outliers detectados. Agora temos n=13 e não há mais outliers detectados. Neste momento, temos as seguintes médias e desvios: Neste momento, temos as seguintes médias e desvios:  x1 = 121,8 e s1 = 20,8 / x2 = 80,5 e s2 = 16,3 Valores corretos: x7=(93,54) e x9=(132,94) Valores corretos: x7=(93,54) e x9=(132,94) Observ X1:Sist X2:Dias

10 24/5/ :00 Detecção de Outliers baseada em Distância Origem → Resolver limitações do estatístico Origem → Resolver limitações do estatístico O que é um outlier baseado em distância? O que é um outlier baseado em distância?  um objeto ‘o’ num conjunto de dados ‘S’  é um outlier baseado em distância DB(p,d),  se pelo menos uma fração ‘p’ de objetos em ‘S’  se encontram a uma distância maior que ‘d’ de ‘o’ Exemplo com pontos no plano Exemplo com pontos no plano

11 24/5/ :00 Detecção de Outliers baseada em Distância Estatística X Distância Conceito de distância ≠ Testes estatísticos Conceito de distância ≠ Testes estatísticos vantagens: vantagens:  evita suposição sobre distribuição dos dados  custo computacional menor  em muitos casos:  outlier baseado em distância  outlier estatístico Alguns algoritmos:  Index-based  Nested-loop  Cell-based desvantagens  Escolha dos parâmetros ‘p’ e ‘d’.

12 24/5/ :00 Detecção de Outliers baseada em Desvio Nem estatística, nem distância Nem estatística, nem distância Outliers  Desvios Outliers  Desvios Identifica outliers a partir das características do grupo Identifica outliers a partir das características do grupo 2 técnicas para detecção: 2 técnicas para detecção:  Técnica de exceção sequencial  Técnica de cubo de dados OLAP

13 24/5/ :00 Técnica de Exceção Sequencial Compara objetos sequencialmente num conjunto (Exemplo: humanos na distinção de objetos) Compara objetos sequencialmente num conjunto (Exemplo: humanos na distinção de objetos) Alguns termos chaves: Alguns termos chaves:  Conjunto de Exceções  subconjunto mínimo de objetos cuja remoção resulta na maior redução de dissimilaridade  Função de dissimilaridade  Ex: para dados numéricos variância  Ex: para dados categóricos diferença entre proporções de objetos que se casam com padrão simbólico com variáveis livres (aa**b)

14 24/5/ :00 Técnica de Exceção Sequencial Termos Chaves: (Cont.) Termos Chaves: (Cont.)  Função de Cardinalidade → N o de objetos  Fator de suavização  mede redução de dissimilaridade por exclusão de subconjuntos, normalizado pelo número de elementos  Conjunto com maior fator de suavização = Conjunto de exceções

15 24/5/ :00 Técnica de Exceção Sequencial Funcionamento da técnica Funcionamento da técnica Pode a ordem dos subconjuntos na sequência afetar o resultado ? Pode a ordem dos subconjuntos na sequência afetar o resultado ?

16 24/5/ :00 Exploração Baseada em Descoberta Modelo usando o cubo de dados Modelo usando o cubo de dados O especialista é vai procurar por anomalias nos dados guiado por indicadores de exceções pré-computados O especialista é vai procurar por anomalias nos dados guiado por indicadores de exceções pré-computados Modelo estatístico usado para computar o valor esperado do dado Modelo estatístico usado para computar o valor esperado do dado Uso de ferramentas OLAP Uso de ferramentas OLAP

17 24/5/ :00 O Cubo de Dados Dimensões Dimensões Hierarquia Hierarquia Operações OLAP Operações OLAP  Drill down  Roll up  Slice

18 24/5/ :00 Definindo Exceções em Cubos Exceções são, intuitivamente, dados que nos surpreendem Exceções são, intuitivamente, dados que nos surpreendem Como medir a ‘surpresa’? Como medir a ‘surpresa’?  SelfExp  Valor relativo ao seu próprio nível  InExp  Valor relativo ao drill-down em todos as dimensões  PathExp  Um InExp relativo a um determinada dimensão

19 24/5/ :00 Exemplo

20 24/5/ :00 Exemplo

21 24/5/ :00 Exemplo

22 24/5/ :00 Exemplo

23 24/5/ :00 Exceções em Cubos: a qual granularidade? Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões) Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões) Uma exceção pode ser considerada uma exceção por um group-by e não ser considerada por outro group-by Uma exceção pode ser considerada uma exceção por um group-by e não ser considerada por outro group-by  Exemplo

24 24/5/ :00 Cálculo do Valor Esperado O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-by O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-by Exemplo: Exemplo:  ŷ ijk = f(γ, γ i A, γ j B, γ k C, γ ij AB, γ jk BC, γ ik AC )  y ijk é uma exceção se:  (y ijk – ŷ ijk )/  ijk > (  = 2.5)  Por que o valor de  é 2.5?  Qual o valor de  ijk ?

25 24/5/ :00 Cálculo do Valor Esperado A função f() pode ser das seguintes formas: A função f() pode ser das seguintes formas:  Aditiva   Multiplicativa   Outras mais complexas

26 24/5/ :00 Cálculo do Valor Esperado O valor de ŷ ijk é: O valor de ŷ ijk é:  ŷ ijk = Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f() Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f() e (γ + γ i A + γ j B + γ k C + γ ij AB + γ jk BC + γ ik AC )

27 24/5/ :00 Cálculo do Valor de cada γ Primeiro calcula o nível específico Primeiro calcula o nível específico  γ = l Para cada dimensão, suba um nível, calcule o valor de γ como sendo: Para cada dimensão, suba um nível, calcule o valor de γ como sendo:  γ ir Ar = l i r γ Para os níveis acima, faça o mesmo, da forma Para os níveis acima, faça o mesmo, da forma  γ iris ArAs = l i r i s γ ir Ar - γ is As - γ

28 24/5/ :00 Exemplificando A,B,C B,CA,BA,C A BC

29 24/5/ :00 Cálculo do valor de  ijk A fórmula de  ijk é: A fórmula de  ijk é:  onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança): onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança):  ŷ ijk  2 ijk = ( ŷ ijk )   y ijk ŷ ijk ( y ijk - ŷ ijk ) 2 ŷ ijk ( ŷ ijk )  ŷ ijk log ŷ ijk  0

30 24/5/ :00 Estimando os Coeficientes do Modelo (γ) Baseada na média Baseada na média  Ex: Formar uma linha de regressão e remover da consideração 10% dos pontos que se encontram mais longe da mesma Baseada em média “emagrecida” Baseada em média “emagrecida” Baseada na mediana Baseada na mediana  Mais robusta, pois é melhor na presença de outliers muito grandes  Alto custo computacional → muitas vezes impraticável

31 24/5/ :00 Exemplo

32 24/5/ :00 Outros Tipos de Modelo Hierárquico Hierárquico  A idéia é calcular o valor esperado baseado na sua posíção e parentes na hierarquia Série de Regressão Temporal Série de Regressão Temporal  Baseado na idéia que as células tem um atributo temporal  É possível encontrar padrões em períodos

33 24/5/ :00 Outros métodos Valor extremo no conjunto Valor extremo no conjunto Clustering Clustering Clustering multi-dimensional Clustering multi-dimensional Regressão em dimensões contínuas Regressão em dimensões contínuas Efeitos combinados de dimensões categóricas Efeitos combinados de dimensões categóricas

34 24/5/ :00 Referências Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, Morgan Kaufmann Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, Morgan Kaufmann Data Mining: practical machine learning tools and techniques with Java implementations, de Witten, I.H. & Frank, E., 2000, Morgan Kaufmann Data Mining: practical machine learning tools and techniques with Java implementations, de Witten, I.H. & Frank, E., 2000, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division


Carregar ppt "Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva."

Apresentações semelhantes


Anúncios Google