Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris.

Slides:



Advertisements
Apresentações semelhantes
Tipos de Indicadores Por Carlos Reis.
Advertisements

Prof. Humberto Pinheiro, Ph.D.
Professor: Eduardo Teles Análise e Desenvolvimento de Sistemas
Gerenciamento de Projetos
Prof Silvio Ribeiro ADMINISTRAÇÃO DE RECURSOS MATERIAIS E PATRIMONIAIS.
Custos ... afinal, o que é isto?
Técnicas de orçamento de capital
Sumário, aula 12 Intervenções do Governo Imposição de um Preço Máximos
Sumário, aula 10 Exercícios sobre elasticidade Elasticidade e despesa
Exercício 4 Numa região hipotética, o mercado da amêijoa é composto por 1000 compradores e 40 vendedores, idênticos. Admita que, diariamente, as quantidades.
1 Controlo e Aprendizagem Aula Teórico-Prática nº 1 Metodologia experimental Planificação das aulas Temas dos trabalhos de grupo Avaliação.
Propagação de Ondas e Antenas
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
Administrando projetos com MS Project – Unidade IX
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Mineração de Dados Introdução.
Auditoria de Segurança da Informação
Gerenciamento da Prevenção à Fraude em Seguros
CEP – Controle Estatístico de Processo
Estatística Aplicada (Aula 5)
1 Novo Instrumento de Comercializacão Opcão Privada Novo Instrumento de Comercializacão Opcão Privada Porto Alegre-RS, 01 de mar;o de 2004.
Modelos de Avaliação: Ações
APRESENTAÇÃO Está prevista a utilização de 6 aulas (6 blocos de 90 minutos) para o ensino do Subtema das Funções Quadráticas. Todas as aulas servirão.
Como comprar o e-CPF Serasa Experian
Jogo Programação da Produção
Impressão de etiquetas
Momentos de Inércia Cap. 10
Inteligência Artificial
Gildo de Almeida Leonel
Resultantes de Sistemas de Forças Cap. 4
Cinemática Plana de um Corpo Rígido Cap. 16
MECÂNICA - DINÂMICA Cinemática de uma Partícula Cap Exercícios.
Object Oriented Software Construction (MEYER, Bertrand)
Anderson Berg Orientador: Prof. Fernando Buarque
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
Cadastro de Docentes e Auxiliares de Educação Infantil
Conhecimento Científico Noutros conhecimentos...
BENCHMARKING.
Salas de Matemática.
Indicadores do Mercado de Meios Eletrônicos de Pagamento Setembro de 2006.
PROBLEMAS DE TRANSPORTE
Entendendo as definições de classe
Inserir crédito para cliente
Modelagem Estatística
Centro de Gravidade e Centróide Cap. 9
Trabalho realizado por: Sandra Leal. 10º3A
EXERCÍCIOS PARA GUARDA-REDES
AULA DE ESTATÍSTICA PROFESSOR RODRIGÃO.
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Grupo A – Azul Claro, Marrom, Laranja
Técnicas e Projeto de Sistemas
SOLVER – EXCEL Prof. Antonio Carlos Coelho
MATRICIAL CONSULTORIA LTDA. PREFEITURA MUNICIPAL DE GARIBALDI 23/10/ : ATENÇÃO Os locais descritos nas planilhas anexas não correspondem ao total.
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Ceça Moraes – Introdução à Programação SI1
1 Workshop de introdução à responsabilidade País, Mês de 20XX A Viagem de Ahmed.
EFD – SPED FISCAL 1. Objetivos: O arquivo Sped Fiscal é uma obrigação fiscal e deve ser gerado mensalmente por alguns estabelecimentos. Esse arquivo deve.
Campus de Caraguatatuba Aula 2: Somatório e Produtório
Rio Verde - Goiás - Brasil
Máquina de Turing Universal
Cinemática Plana de um Corpo Rígido Cap. 16
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Identificando Oportunidades
Aula 11 - Teste de hipóteses, teste de uma proporção
Financeiro – Contas a Receber
GINÁSTICA LABORAL UM NOVO CAMINHO.
Compras – Planejamento de Estoque
Transcrição da apresentação:

Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Roteiro Introdução Outliers Análise do mercado de ações Objetivo Peer Group Analysis Experimentos e Resultados Conclusões e Trabalhos Futuros 2

Introdução A detecção de Outlier é fundamental na questão de mineração de dados, especificamente em detecção de fraudes. Detectar fraudes significa identificar as transferências fraudulentas suspeitas, ordens e outras atividades ilegais contra a empresa. 3

Outliers Outliers tenham sido definidas informalmente como observações em um conjunto de dados que parecem ser inconsistentes com o restante daquele conjunto de dados, ou que se afastem tanto de outras observações, a ponto de despertar suspeitas de que foram geradas por um mecanismo diferente. 4

Outliers A identificação de outliers pode levar à descoberta de conhecimentos úteis e tem uma quantidade de aplicações práticas em áreas tais como: -a detecção de fraude com cartão de crédito; - análise de desempenho de atletas; - análise de irregularidades em votações; - previsão meteorológica (mau tempo), etc. 5

Análise do mercado de ações Fraude no mercado de ações & manipuladores Fraude no mercado de ações normalmente ocorre quando corretores tentam manipular os seus clientes para negociar ações sem respeitar os interesses reais dos seus próprios clientes 6

Análise do mercado de ações Por que a detecção de fraude no mercado de ações é necessária? Vários métodos de detecção de fraudes estão disponíveis nos campos como o cartão de crédito, telecomunicações, detecções intrusão na rede, etc. Mas área de detecção de fraudes no mercado de ações ainda está atrasada. 7

Objetivo Identificar IDs do vendedor cuja quantidade de venda aumenta subitamente. Identificar IDs do vendedor cuja quantidade cai repentinamente. 8

Peer Group Analysis - PGA PGA é um método não-supervisionado para monitoramento do comportamento ao longo do tempo na mineração de dados. PGA foi proposta para a detecção de fraude em cartões de crédito pela Bolton & Hand, em

Peer Group Analysis - PGA Figura1 – Fluxo de Processo PGA 10

Peer Group Analysis - PGA PGA encontra as tendências anômalas nos dados, é razoável caracterizar tais dados de uma forma equilibrada através da colocação de dados nos períodos de tempo fixo. 11

Peer Group Analysis - PGA Após a modelagem de dados adequada torna-se necessário algumas análises estatísticas. Em seguida, a tarefa mais importante do método PGA consiste na identificação de peer group para todas as observações meta/alvo. 12

Peer Group Analysis - PGA Peer grups são resumidas em cada ponto de tempo subseqüente e o objeto meta é então comparada com seus resumos dos peer groups. As contas desviam de seus peer groups são substancialmente mais sinalizado como outliers para uma investigação mais aprofundada. 13

Peer Group Analysis - PGA Estes processos de repetição da identificação do peer group para sinalização da conta, desde que recebido tenha sido bom resultado. 14

Peer Group Analysis - PGA Significado: A abordagem da PGA é diferente na medida em que um perfil é formado com base no comportamento de vários usuários similares, ao passo que as atuais técnicas de detecção outlier, ao longo do tempo incluem perfis de usuário único. 15

Peer Group Analysis - PGA Definição Vamos supor que temos observações em N objetos, onde cada observação é uma seqüência de valores d, representado por um vetor, X i, de comprimento d. O valor de jth da observação ith, X ij, ocorre em um ponto fixo tempo T j. Deixe PG i (T j) = {Alguns subconjunto de observações (X i) que mostram comportamento semelhante ao do Xi em tempo Tj}. Depois GP i (T j) é o peer group do objeto i, em tempo j. 16

Peer Group Analysis - PGA O parâmetro npeer descreve o número de objetos no peer group e controla efetivamente a sensibilidade da PGA. O problema de encontrar um bom número de peers é a fim de encontrar o número correto de vizinhos em uma análise com a vizinhança mais próxima. 17

Peer Group Analysis - PGA Estatísticas Peer Group Deixe S ij ser uma estatística resumindo o comportamento das observações ith (i-ésimo) em um tempo j. Uma vez que temos encontrado o peer group metas/alvos pelas observações X i podemos calcular estatísticas peer group, P ij. Essas serão, geralmente, resumos a partir de valores de S ij para os membros do grupo. 18

Peer Group Analysis - PGA O princípio aqui é que o grupo inicialmente fornece um modelo local, P i1, para S i1, assim caracterizando o comportamento local de X i no momento t 1, e posteriormente irá fornecer modelos, P ij, para S ij, em vez T j, j > 1. Se a nossa observação meta/alvo, S ik, diverge "significativamente" do seu modelo peer group P ik em tempo T k, então nós concluímos que a nossa meta/alvo não estava mais se comportando como seus peers em vez t k. Se o desvio for suficiente grande, então a observação meta/alvo será sinalizada como merecendo investigação. 19

Peer Group Analysis - PGA Para medir o desvio, da observação peer group nós calculamos a sua distância padronizada a partir do modelo peer group, o exemplo que usamos aqui é uma distância padronizada do centróide do peer group baseada em uma estatística-t. O valor do centróide do peer group é dado pela equação: 20

Peer Group Analysis - PGA 21

Experimentos Tabela 1: parâmetros utilizados na configuração experimental 22

Dados experimentais Conjunto de dados consiste de 3 meses a partir de dados reais 01/06/2005 a 31/08/2005 para a quantidade diariamente de ações vendida para cada um dos 143 corretores, que foram recolhidas da bolsa de valores de Bangladesh (Dhaca). O número total transação é de Aqui nós estabelecemos, d = 14 semanas, N = 143. O comprimento de tempo, w = 5, mas variado npeer para assumir valores npeer = 13 e npeer =

Dados experimentais Tabela 2: Transação no mercado de ações 24

Resultados experimentais Para fins de comparação, nos simulamos PGA sobre transações de ações muitas vezes, alterando o número de peers. Os seguintes gráficos ilustram o poder da PGA para detectar anomalias locais nos dados. 25

PGA sobre transações de ações, conta # 132 npeer = 13 npeer = 26 26

PGA sobre transações de ações, conta # 68 npeer = 13 npeer = 26 27

Resultados experimentais Nós também calculamos o desvio da observação meta do seu peer group. Se o desvio for suficientemente grande, então a meta observação será sinalizado como merecedor de uma investigação. Os seguintes resultados mostrados aqui são as distâncias entre o centróide padronizada do peer group baseado em uma estatística-t. 28

Resultados experimentais Tabela 3 - Desvio de Contas Alguns Corretores 29

Conclusões e Trabalhos Futuros Identificar IDs comprador cuja quantidade comprada aumenta subitamente. Identificar IDS vendedor / comprador que de repente começa um grande volume de negócio. Identificar IDs ações se o volume negociado ou quantidade negociada e preço aumenta de uma forma suspeita. 30

FIM 31