Controle de inferência para sistemas de base de dados estatísticos

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Aprendizado de Máquina
Prof. André Laurindo Maitelli DCA-UFRN
2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS, COMPARAÇÕES EMPARELHADAS
ANÁLISE DISCRIMINANTE
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
ESTIMAÇÃO.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Estatística 8 - Distribuições Amostrais
Estatística Aplicada (Aula 4)
Quão difícil é comunicar? Andreia Teixeira 27 de Maio.
Estabilidade e Estacionariedade em Séries Temporais
Estatística Descritiva
ANOVA Prof. Herondino.
Meta - heurísticas Prof. Aurora
CAPÍTULO I- TEORIA DAS PROBABILIDADE
Tópicos Avançados de Base de Dados
K-NN Prof. Dr. Rogério Vargas.
Fundamentos de Análise de Sinais
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA DA AMOSTRA OU DISTRIBUIÇÃO AMOSTRAL DE
Treinamento do Microsoft® Access® 2010
VALORES ESPERADOS.
Exponential Random Graph Models
DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS
DISTRIBUIÇÕES AMOSTRAIS
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Site: Estatística Prof. Edson Nemer Site:
Distribuição T - Student
O que é Estatística, afinal de contas?
Modelos de Dados para Bancos de Dados Móveis
ANÁLISE ESTATÍSTICA II
ANÁLISE ESTATÍSTICA II
Programação Orientada à Objetos
Inferência Estatística
Teste de Hipótese.
Introdução à Estatística
Análise de Incertezas Introdução.
Clique para editar o estilo do título mestre Clique para editar o estilo do subtítulo mestre 1 Seminário: Disciplina: Probabilidade e Inferência Professor:
KNN – K Nearest Neighbor (K Vizinhos mais Próximos)
Noções de Inferência Estatística
Métodos Quantitativos Aplicados a Administração
Aula 11 - Teste de hipóteses, teste de uma proporção
Estatística e Probabilidade
Estatística.
MSCC – Revisão de Probabilidade e Estatística
Regressão e Previsão Numérica.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
ANÁLISE ESTATÍSTICA II
Mineração de Dados: Introdução
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
Professor: WALDEMAR SANTA CRUZ OLIVEIRA JR CONCEITOS BÁSICOS UNIVERSIDADE FEDERAL DE PERNABUCO - UFPE Curso: TURISMO Disciplina: ESTATÍSTICA BÁSICA ET-229.
Modelos Teóricos Contínuos de Probabilidade
Metodologia da Pesquisa em Ensino de Ciências I
Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
ANÁLISE DE DADOS EM BIOLOGIA
Solução Numérica de Equações
GESTÃO E GARANTIA DA QUALIDADE
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
DETEÇÃO E ESTIMAÇÃO Aula 18: Simulação de Monte Carlo – Parte 2.
Autor : Lênin Charqueiro. Pelotas,8 de março de
DETEÇÃO E ESTIMAÇÃO Aula X+1: Simulação de Monte Carlo.
Estatística Aplicada à Adminitração Prof. Alessandro Moura Costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade Camilo Daleles Rennó
Transcrição da apresentação:

Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Roteiro Privacidade em bases de dados Base de dados estatísticas Garantindo a privacidade Perturbando os dados Reconstruindo a distribuição Classificação dos dados em árvore de decisão Conclusão Bibliografia

Privacidade em bases de dados A falta de privacidade na internet e meios de comunicação em geral pode fazer com que os usuários da internet se ponham em uma postura defensiva ao ser questionados em algum tipo de questionários. Registros detalhados de cartão de crédito de um indivíduo podem revelar seu estilo de vida. Isto prejudicaria não só as empresas mas também as pessoas que deixariam de receber os avanços provenientes da mineração de dados.

Privacidade em bases de dados Quem se importa com privacidade?[Cranor] 17% dos usuários como fundamentalistas 56% concordaria em fornecer dados desde que fosse mostrada alguma forma para proteção 27% forneceria dados de qualquer forma Pessoas podem não querer divulgar determinados dados enquanto não se importam com outros! Pessoas podem não ter controle ou mesmo não saber dos dados que são armazenados. Ex. Base de dados com informações medidas através de exames nos pacientes, registro de compras de um cartão de crédito.

A coleta de dados O quem terá acesso às informações que eu irei fornecer? Funcionários maliciosos Venda de informações ou pela empresa, ou por algum de seus funcionários A própria organização Base de dados acessadas por muitos usuários. Como proteger os dados dos registros e possibilitar que possa ser extraída alguma informação dos mesmos? A criação de barreiras legais para prover privacidade pode fazer com que seja necessário novos mecanismos para se atingir privacidade. Meta a ser atingida: Saber a distribuição dos dados e ser capaz de criar relações entre os dados protegendo os registros individuais.

Garantindo a privacidade Formas inibidoras Auditoria dos acessos à base Formas restritivas Controle de acesso as diversas tabelas do banco Ex. Médicos possuem acessos a dados de todos pacientes Aos funcionários é dados acesso somente às somas estatísticas destes dados Formas não-restritivas Agregação de valores Distorção de valores Dissociação dos dados

Duas técnicas serão mostradas Criar uma base de dados que proteja os registros e forneça dados estatísticos, i.e., distribuição dos valores, média, soma, etc. Criar uma base de dados que proteja os registros e não altere nas correlações entre os campos.

Base de dados estatística O objetivo de uma base de dados estatística é prover freqüências, médias, somas e outras estatísticas referente à grupos, pessoas e organizações, protegendo os indivíduos representados na base de dados. Um exemplo de base de dados estatística: Questionário econômico financeiro.

Coletando dados Válido somente para dados numéricos! Foco nos dados que os usuários não querem fornecer

Perturbando os dados Dois métodos para modificação são considerados: Os valores fornecidos devem de alguma forma serem alterados antes que seja feita sua inserção na base. Dois métodos para modificação são considerados: Discretização Distorção de valor: seja xi o campo a ser alterado Uniforme: é somado à xi o valor aleatório r є[-α,+ α], sendo que a distribuição de xi dentro do intervalo é linear. Gaussiana: é somado à xi o valor aleatório r є[-α,+ α], sendo que a distribuição de xi dentro do intervalo é uma gaussiana

Quantificação da privacidade Se o valor original x pode ser estimado com uma confiança de c% implicando que x esteja no intervalo [x1,x2], então a amplitude do intervalo(x2-x1) quantifica a privacidade oferecida com c% de confiança. W = 2α Aumentando o intervalo α aumentamos o nível de privacidade

Intervalo de confiança Distribuição normal Dados concentrados sobre a média: Menor variância – Linha Amarela Dados dados mais dispersos: Maior variância – Linha Azul

Intervalo de confiança Podemos estimar a probabilidade ‘c’ de que um valor esteja entre –z e z

Reconstrução da distribuição original A técnica só é útil se pudermos reconstruir a distribuição dos registros originais a partir dos registros alterados!!! Será reconstruída a distribuição e não os registros individuais. Definições: Valores originais: n valores, x1,x2,...,xn. Amostra aleatória igualmente distribuída: X1,X2,...Xn Variáveis aleatórias para esconder os dados: Y1,Y2,...Yn. Fy é a função de distribuição de X1+Y1,X2+Y2,...Xn+Yn Fx é a função de distribuição original para X. wi = (xi + yi)

Reconstrução da distribuição original Uma vez que conhecemos as distribuições de Yi, e wi e wi = (Yi + Xi), podemos saber a distribuição de Xi através do Teorema de Bayes Teorema de Bayes para probabilidade:

Reconstrução da distribuição original

Reconstrução da distribuição original

Reconstrução da distribuição original Média da função de distribuição para cada Xi: Após a diferenciação: Com uma amostragem suficientemente grande, espera-se que f’x seja bastante aproximado a função real fx.

Reconstrução da distribuição original Portanto, nós conhecemos somente fy, não fx. Assim, usaremos uma distribuição uniforme como estimativa inicial para fºx e refinaremos iterativamente aplicando o seguinte algoritmo:

Critério de parada O critério de parada da iteração é satisfeito quando a distribuição reconstruída é estatisticamente igual à distribuição original. Digamos:

Avaliação Distorção de valor gaussiana:

Avaliação Distorção de valor linear:

A inserção de ruídos na base de dados pode trazer efeitos indesejados[Zahidul] Interferência na variância (Tipo A) Interferências nas correlações entre atributos confidenciais (Tipo B) Interferências nas correlações entre atributos confidenciais e não confidenciais (Tipo C) A seguinte solução propõe uma forma de alterar os dados sem criar as interferências referidas acima. A avaliação é feita sobre árvores de decisão.

Classificação dos dados na árvorede decisão Uma árvore de decisão é um discriminador de classes que recursivamente particiona o conjunto de dados até que cada partição consista inteira ou dominantemente de dados da mesma classe. Cada nó não folha contém um split-point que testa um ou mais atributos e determina como os dados serão particionados.

Classificação dos dados na árvorede decisão Uma árvore de decisão pode ser usada para delinear o perfil de futuros aplicadores classificando-os segundo sua categoria de risco.

Caracterização dos dados utilizados Neste estudo foi utilizado uma base de dados do Wisconsin Breast Cancer (WBC). O conjunto de dados possui 10 atributos numéricos cujo domínio é são os inteiros entre 1 e 10 e um atributo de classe ‘2’ ou ‘4’. O gerador da árvore foi o Quinlan’s C5 nos 349 casos da base de dados do WBC

Árvore gerada com os dados não modificados

Passos para modificar os dados 1 – Adicionar ruído aos atributos influentes (LINAs) de cada folha da árvore através da técnica Leaf Influential Attribute Perturbation Technique(LINAPT). 2 – Adicionar ruído aos atributos não influentes (LIAs) de cada folha da árvore através da técnica (LINAPT). 3 – Adicionar ruídos aos atributos de classe através da técnica Randon Perturbation Technique (RPT).

Definições A técnica considera que todos os atributos são sensíveis para evitar a identificação de algum registro particular. Divide-se os atributos numéricos em dois tipos: LIAs e LINAs Atributos numéricos variam de 1-10 Atributos de classe podem ser 2 ou 4.

Passo 1 Para cada folha da árvore identifica-se os LINAs da folha. Seja A um LINA. A’ = A + ε ε é um ruído discreto com média μ e σ². A distribuição é escolhida de acordo com a aplicação. A’ continua pertencendo ao intervalo definido pelo valor condicional.

Passo 2 Para cada folha da árvore identifica-se os LIAs da folha. Seja B um LIA. B’ = B + ε ε é um ruído discreto com média μ e σ². A distribuição é escolhida de acordo com a aplicação. μ = 0 e σ = 27.6% do atributo do valor em questão.

Passo 3 Para cada folha da árvore identifica-se os campos de classe. Verifica-se se os campos são heterogêneos. Converte-se os n casos que pertencem a minoria para a maioria. Converte-se aleatoriamente n casos da maioria para a minoria. σ = 27.6% do atributo do valor em questão.

Resultados Em 7 dos 15 experimentos realizados as árvores lógicas com dados perturbados foram exatamente iguais à original. Em 5 casos alguns dados diferiram porém a extrutura da árvore não foi alterada.

Resultados Em dois casos a extrutura da árvore foi ligeiramente modificada.

Conclusões É possível manter a privacidade de um banco de dados alterando-se aleatóriamente os campos sem perder dados estatísticos e interrelacionados. Existem ainda muitas outras técnicas. Lattice Model Cell Restriction Random Sample Queries Systematic rounding and systematic ranges Dynamic Databases

Bibliografia [Agrawal] – “Privacy-preserving Data Mining” [Fonseca] – “Curso de estatística” [Denning] – “Inference controls for Statistical Databases” [Crannor] – “Beyond Concern: Undertanding Internet User”