O Processo de Preparação de Dados

O Processo de Preparação de Dados
Prof. Francisco de A. T. de Carvalho CIN / UFPE

A preparação de dados como um processo
O propósito fundamental da preparação de dados é a manipulação e a transformação de dados brutos tal que a informação contida no conjunto de dados torna-se mais facilmente acessível Não existe atualmente ferramentas capazes de realizarem uma preparação automática dos dados Em uma boa preparação de dados existe tanto de arte como de ciência Apesar do envolvimento da arte, não se pode prescindir de técnicas poderosas disponíveis

A preparação de dados como um processo
O ponto de partida para o processo de mineração de dados consiste em dados brutos e em decisões do “garimpeiro” (seleção do problema, possíveis soluções, ferramentas de modelização, etc) Discernimento do Analísta Conjunto de dados de treinamento Conjunto de dados para teste PIE-I PIE-O Seleção do problema Seleção das soluções Seleção das ferramentas de modelização Seleção dos Dados Butos Preparação de Dados

A Preparação dos Dados A preparação de dados deve fornecer pelo menos os 4 componentes seguintes: Um conjunto de dados de treinamento Um conjunto de dados teste Um módulo de entrada PEI-I (Ambiente de Preparação da Informação) Um módulo de saída PEI-O

Estágios da Preparação de Dados
Principais Estágios da Preparação dos Dados Acesso aos Dados Avaliação dos Dados Alargamento e Enriquecimento dos Dados Viés de Amostragem Determinação da Estrutura dos Dados Construção do PIE

Acesso aos Dados Trata-se de localizar os dados. É mais fácil falar do que fazer… Problemas: restrições legais (confidencialidade), políticas, de formato Data Warehouses: cada vez mais se faz mineração a partir de depositório de dados Warning: Viés da estrutura do depositório

Avaliação dos Dados A avaliação dos dados procura verificar se exigências mínimas de qualidade relativas aos dados são preenchidas tendo em vista a modelização dos mesmos Nesse estágio são examinados as fontes dos dados, a quantidade e a qualidade dos mesmos Exemplo de itens avaliados: numero de campos, conteúdo de cada campo, valores mínimo e máximo, número de valores discretos, etc Procura-se também responder a pergunta: a resposta ao problema estudado está potencialmente nesses dados?

Alargamento e Enriquecimento dos Dados Após a avaliação dos dados pode-se concluir que os mesmos não são suficientes para responder ao problema em estudo Pode ser necessário suplementar o conjunto de dados: Adicionar dados de fontes externas (enriquecimento) Construção de novos dados à partir dos dados existentes (alargamento). Ex: razão preço / lucro

População e Amostra População: é um conjunto de indivíduos que satisfazem uma ou mais propriedades. Ex: os carros fiat matriculados em PE em 1999 População: é a coleção de todos os dados potenciais sobre determinado fenômeno Amostra: qualquer subconjunto da população. São os dados efetivamente observados (extraídos)

Amostragem Amostragem é o processo de seleção de uma pequena parcela da população de tal maneira que a mesma reflete precisamente o que acontece na população Para que uma amostra seja representativa da população é necessário que o processo de escolha da mesma seja aleatório Um método de seleção produz amostras aleatórias se ele define claramente a probabilidade de um dado elemento vir a fazer parte da amostra

Tipos de Amostragem Amostragem aleatória simples A população é numerada de 1 a N. Escolhe-se em seguida, na tábua de números aleatórios, n números compreendidos entre 1 e N

Tipos de Amostragem Amostragem Estratificada Esse tipo de amostragem consiste em selecionar os elementos da amostra entre os vários extratos, em número proporcional ao tamanho de cada um dos estratos Estratos são subgrupos disjuntos da população: homens versus mulheres; alunos das escolas X, Y e Z, etc.

Tipos de Amostragem Amostragem por Conglomerados Trata-se de uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, ou conglomerado, de elementos Os elementos de um conglomerado devem ter caraterísticas similares. O número de elementos em um conglomerado deve ser pequeno em relação ao tamanho da população. O número de conglomerados deve ser razoavelmente grande.

Tipos de Amostragem Amostragem Sistemática Uma amostra sistemática de tamanho n é constituída de elementos de ordem K, K + r, K + 2r, ... K é um número escolhido aleatoriamente entre 1 e n e r é o inteiro mais próximo da fração N / n. Ex: Se N=100, n = 6 e K = 3, então N / n ~ 17 e a amostra sera composta pelos elementos 3, 20, 37, 54, 71, 88.

Viés de Amostragem Uma amostra aleatória é uma amostra enviesada. Em estatística supõe-se que de alguma forma os dados são gerados de forma controlada Em mineração, as condições em que os dados foram produzidos é em geral desconhecida e isso dificulta a detecção de viés na amostra

Determinação da Estrutura dos Dados Estrutura diz respeito a maneira como as variáveis se relacionam no conjunto de dados A estrutura tem várias formas: super, macro e micro Superestrutura: refere-se as escolhas e suposições intencionais relativas ao conjunto de dados Ex: o que medir, etc.

Determinação da Estrutura dos Dados Macroestrutura: diz respeito a formatação das variáveis Ex: granularidade (quantidade de detalhes na escala); dia (manhã, tarde e noite) versus dia (em horas) Microestrutura: descreve, de forma simplificada, a maneira como as variáveis se relacionam entre si

Construção do Ambiente de Preparação da Informação (PIE) O principal propósito dessa ferramenta é: proteger as ferramentas de modelização de dados defeituosos expor ao máximo o conteúdo das informações do conjunto de dados as ferramentas de modelização PIE-I: extrai dinamicamente um conjunto de treinamento e transforma-o para ser usado pelas ferramentas de modelização PIE-O: transforma a saída de um modelo (predição) em valores do mundo “real”

Construção do Meio-Ambiente de Preparação da Informação (PIE)
Amostras representativas A inspeção e a modelização exigem pelo menos 3 conjuntos de dados: treinamento, teste e execução Esses conjuntos são usados para avaliar algum parâmetro de interesse Todos esses conjuntos de dados precisam ser representativos É impossível 100% de certeza relativa a representatividade de uma amostra, mas é possível selecionar um nível adequado (95%, 99%)

Conceitos básicos sobre inferência Em muitos modelos, o parâmetro a ser avaliado é a taxa de erro populacional. Esse parâmetro é estimado pela taxa de erro amostral, que é uma variável aleatória, pois varia de amostra para amostra. A estimação da taxa de erro à partir do conjunto de treinamento será enviesada otimisticamente em relação as observações futuras.

Conceitos básicos sobre inferência Para evitar esse tipo de viés, a taxa de erro é estimada a partir do conjunto teste, que não é usado na fase de treinamento. Sendo uma variável aleatória, a taxa de erro amostral apresenta variabilidade (variância). Quanto maior o conjunto teste, menor a variância.

Conceitos básicos sobre inferência A taxa de erro amostral pode ser modelada a partir da distribuição binomial. Uma variável aleatória Y é dita binomial se ela for definida a partir das seguintes condições: Realizam-se n experimentos idênticos e independentes; Em cada experimento, existe apenas 2 resultados mutuamente excludentes: 1 ou 0 A probabilidade de 1 é p e a probabilidade de 0 é q = 1-p e não muda

Conceitos básicos sobre inferência Se Y é definido como o número de vezes em que acontece 1, Y tem distribuição binomial com parâmetros n e p. A distribuição de probabilidade de Y é:

Conceitos básicos sobre inferência O valor esperado de uma variável aleatória Y é definido como A variância de uma variável aleatória Y é definida como O desvio-padrão de uma variável aleatória Y é definido como

Conceitos básicos sobre inferência Se Y é uma variável binomial então

Conceitos básicos sobre inferência Seja o erro amostral definido como: Onde Y é uma variável binomial Então erroS é também uma variável binomial com

Estimação Pontual da Taxa de Erro Populacional A taxa de erro populacional erroD = p é estimada por Diz-se que erros é um estimador não enviesado de erroD pois Entre dois estimadores não enviesados, escolhe-se o de menor variância

Intervalo de Confiança Um intervalo de confiança ao nível 1 -  para um parâmetro populacional p é um intervalo cuja probabilidade de conter p é 1 -  Teorema Central do Limite: Sejam Y1, ..., Yn variáveis aleatórias independentes e identicamente distribuídas com média  e variância 2. Seja, Então, quando n  , independentemente da distribuição dos Yi, tende para uma distribuição normal de média  e desvio

Intervalo de Confiança é o erroS obtêm-se o I.C. ao nível de confiança 1 - 

Estimativa do erro usando reamostragem (cross-validation ou jacknife) Pode-se melhorar a estimativa da taxa de erro dividindo-se o conjunto de aprendizagem em m partes iguais e realizar a aprendizagem sobre uma amostra formada por m-1 partes e avaliar a taxa de erro sobre a parte restante. Isso pode ser feito de m maneiras diferentes e no fim calcular uma taxa de erro média. A validação cruzada (cross-validation) corresponde ao caso em que é excluído do conjunto de aprendizagem apensas um indivíduo de cada vez.

Valores categóricos Categorias em geral são representadas numericamente mesmo se os números não passam de símbolos Problema: como usar categorias em modelos cuja entrada são números Se o conjunto de dados possui variáveis numéricas estas podem ser usadas para a numeração das categorias; senão, deve-se recorrer ao conhecimento especialista Deve-se evitar a numeração arbitrária pois pode-se introduzir com isso padrões inexistentes no mundo real

Normalização A propósito da normalização é minimizar os problemas oriundos do uso de unidades e dispersões distintas entre as variáveis As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição Algumas ferramentas de modelização ou exigem (redes neurais) ou são beneficiadas com a normalização de amplitude

Normalização A normalização distribucional é interessante em várias situações tais como a remoção de distorções de valores aberrantes, obtenção de simetria etc. As transformações mais comuns são: A mais suave é a raiz e a mais forte é a inversa negativa

Valores ausentes e vazios A diferenciação entre valores ausentes e valores inaplicáveis é importante mais ainda não se dispõe de técnicas automáticas para fazer isso. Deve-se faze-lo manualmente Quase todas as ferramentas de modelização dispõem de técnicas para tratar dados ausentes: ignora-los, atribuir um valor fixo aos valores ausentes ou estimar os valores ausentes à partir de outras variáveis Em algumas situações os dados ausentes são altamente informativos e ao serem tratados perde-se essa informação

Series temporais Nesse caso a serie de valores é coletada ao longo do tempo e pode exibir uma tendência A serie de valores é medida em uma das escalas já vistas (nominal até Proporcional), mas eles são apresentados segundo uma ordem temporal O ponto chave desse tipo de dados é a identificação de tendências

Redução das Dimensões O conjunto de dados é representado na forma de uma tabela cujas colunas são as variáveis e cujas linhas são as observações Quanto mais variáveis melhor, em principio, mas pode também Representar um peso excessivo para os algoritmos As técnicas de redução de dimensões (técnicas fatoriais, por exemplo) se propõem a reduzir o número de variáveis com a menor perda possível de informações Essas técnicas são úteis também para tratar a redundância de informações (correlação entre variáveis) e ruído

O Processo de Preparação de Dados

Apresentações semelhantes

Apresentação em tema: "O Processo de Preparação de Dados"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

O Processo de Preparação de Dados

Apresentações semelhantes

Apresentação em tema: "O Processo de Preparação de Dados"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback