A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE.

Apresentações semelhantes


Apresentação em tema: "O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE."— Transcrição da apresentação:

1 O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

2 Não existe atualmente ferramentas capazes de realizarem uma preparação automática dos dados A preparação de dados como um processo Em uma boa preparação de dados existe tanto de arte como de ciência Apesar do envolvimento da arte, não se pode prescindir de técnicas poderosas disponíveis O propósito fundamental da preparação de dados é a manipulação e a transformação de dados brutos tal que a informação contida no conjunto de dados torna-se mais facilmente acessível

3 A preparação de dados como um processo O ponto de partida para o processo de mineração de dados consiste em dados brutos e em decisões do garimpeiro (seleção do problema, possíveis soluções, ferramentas de modelização, etc) Seleção do problema Seleção das soluções Seleção das ferramentas de modelização Seleção dos Dados Butos Preparação de Dados Discernimento do Analísta Conjunto de dados de treinamento Conjunto de dados para teste PIE-I PIE-O

4 A Preparação dos Dados Um módulo de saída PEI-O A preparação de dados deve fornecer pelo menos os 4 componentes seguintes: Um conjunto de dados de treinamento Um conjunto de dados teste Um módulo de entrada PEI-I (Ambiente de Preparação da Informação)

5 Estágios da Preparação de Dados Principais Estágios da Preparação dos Dados Acesso aos Dados Avaliação dos Dados Alargamento e Enriquecimento dos Dados Viés de Amostragem Determinação da Estrutura dos Dados Construção do PIE

6 Estágios da Preparação de Dados Acesso aos Dados Trata-se de localizar os dados. É mais fácil falar do que fazer… Problemas: restrições legais (confidencialidade), políticas, de formato Data Warehouses: cada vez mais se faz mineração a partir de depositório de dados Warning: Viés da estrutura do depositório

7 Estágios da Preparação de Dados Avaliação dos Dados A avaliação dos dados procura verificar se exigências mínimas de qualidade relativas aos dados são preenchidas tendo em vista a modelização dos mesmos Nesse estágio são examinados as fontes dos dados, a quantidade e a qualidade dos mesmos Exemplo de itens avaliados: numero de campos, conteúdo de cada campo, valores mínimo e máximo, número de valores discretos, etc Procura-se também responder a pergunta: a resposta ao problema estudado está potencialmente nesses dados?

8 Estágios da Preparação de Dados Alargamento e Enriquecimento dos Dados Após a avaliação dos dados pode-se concluir que os mesmos não são suficientes para responder ao problema em estudo Pode ser necessário suplementar o conjunto de dados: Adicionar dados de fontes externas (enriquecimento) Construção de novos dados à partir dos dados existentes (alargamento). Ex: razão preço / lucro

9 Estágios da Preparação de Dados População e Amostra População: é um conjunto de indivíduos que satisfazem uma ou mais propriedades. Ex: os carros fiat matriculados em PE em 1999 População: é a coleção de todos os dados potenciais sobre determinado fenômeno Amostra: qualquer subconjunto da população. São os dados efetivamente observados (extraídos)

10 Estágios da Preparação de Dados Amostragem Amostragem é o processo de seleção de uma pequena parcela da população de tal maneira que a mesma reflete precisamente o que acontece na população Para que uma amostra seja representativa da população é necessário que o processo de escolha da mesma seja aleatório Um método de seleção produz amostras aleatórias se ele define claramente a probabilidade de um dado elemento vir a fazer parte da amostra

11 Estágios da Preparação de Dados Tipos de Amostragem Amostragem aleatória simples A população é numerada de 1 a N. Escolhe-se em seguida, na tábua de números aleatórios, n números compreendidos entre 1 e N

12 Estágios da Preparação de Dados Tipos de Amostragem Amostragem Estratificada Esse tipo de amostragem consiste em selecionar os elementos da amostra entre os vários extratos, em número proporcional ao tamanho de cada um dos estratos Estratos são subgrupos disjuntos da população: homens versus mulheres; alunos das escolas X, Y e Z, etc.

13 Estágios da Preparação de Dados Tipos de Amostragem Amostragem por Conglomerados Trata-se de uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, ou conglomerado, de elementos Os elementos de um conglomerado devem ter caraterísticas similares. O número de elementos em um conglomerado deve ser pequeno em relação ao tamanho da população. O número de conglomerados deve ser razoavelmente grande.

14 Estágios da Preparação de Dados Tipos de Amostragem Amostragem Sistemática Uma amostra sistemática de tamanho n é constituída de elementos de ordem K, K + r, K + 2r,... K é um número escolhido aleatoriamente entre 1 e n e r é o inteiro mais próximo da fração N / n. Ex: Se N=100, n = 6 e K = 3, então N / n ~ 17 e a amostra sera composta pelos elementos 3, 20, 37, 54, 71, 88.

15 Viés de Amostragem Uma amostra aleatória é uma amostra enviesada. Em estatística supõe-se que de alguma forma os dados são gerados de forma controlada Em mineração, as condições em que os dados foram produzidos é em geral desconhecida e isso dificulta a detecção de viés na amostra Estágios da Preparação de Dados

16 Determinação da Estrutura dos Dados Estrutura diz respeito a maneira como as variáveis se relacionam no conjunto de dados A estrutura tem várias formas: super, macro e micro Superestrutura: refere-se as escolhas e suposições intencionais relativas ao conjunto de dados Ex: o que medir, etc.

17 Estágios da Preparação de Dados Determinação da Estrutura dos Dados Macroestrutura: diz respeito a formatação das variáveis Ex: granularidade (quantidade de detalhes na escala); dia (manhã, tarde e noite) versus dia (em horas) Microestrutura: descreve, de forma simplificada, a maneira como as variáveis se relacionam entre si

18 Estágios da Preparação de Dados Construção do Ambiente de Preparação da Informação (PIE) O principal propósito dessa ferramenta é: proteger as ferramentas de modelização de dados defeituosos expor ao máximo o conteúdo das informações do conjunto de dados as ferramentas de modelização PIE-I: extrai dinamicamente um conjunto de treinamento e transforma-o para ser usado pelas ferramentas de modelização PIE-O: transforma a saída de um modelo (predição) em valores do mundo real

19 Construção do Meio-Ambiente de Preparação da Informação (PIE) Amostras representativas A inspeção e a modelização exigem pelo menos 3 conjuntos de dados: treinamento, teste e execução Todos esses conjuntos de dados precisam ser representativos É impossível 100% de certeza relativa a representatividade de uma amostra, mas é possível selecionar um nível adequado (95%, 99%) Esses conjuntos são usados para avaliar algum parâmetro de interesse

20 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência Em muitos modelos, o parâmetro a ser avaliado é a taxa de erro populacional. Esse parâmetro é estimado pela taxa de erro amostral, que é uma variável aleatória, pois varia de amostra para amostra. A estimação da taxa de erro à partir do conjunto de treinamento será enviesada otimisticamente em relação as observações futuras.

21 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência Para evitar esse tipo de viés, a taxa de erro é estimada a partir do conjunto teste, que não é usado na fase de treinamento. Sendo uma variável aleatória, a taxa de erro amostral apresenta variabilidade (variância). Quanto maior o conjunto teste, menor a variância.

22 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência A taxa de erro amostral pode ser modelada a partir da distribuição binomial. Uma variável aleatória Y é dita binomial se ela for definida a partir das seguintes condições: Realizam-se n experimentos idênticos e independentes; Em cada experimento, existe apenas 2 resultados mutuamente excludentes: 1 ou 0 A probabilidade de 1 é p e a probabilidade de 0 é q = 1-p e não muda

23 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência Se Y é definido como o número de vezes em que acontece 1, Y tem distribuição binomial com parâmetros n e p. A distribuição de probabilidade de Y é:

24 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência O valor esperado de uma variável aleatória Y é definido como A variância de uma variável aleatória Y é definida como O desvio-padrão de uma variável aleatória Y é definido como

25 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência Se Y é uma variável binomial então

26 Construção do Meio-Ambiente de Preparação da Informação (PIE) Conceitos básicos sobre inferência Seja o erro amostral definido como: Onde Y é uma variável binomial Então erro S é também uma variável binomial com

27 Construção do Meio-Ambiente de Preparação da Informação (PIE) Estimação Pontual da Taxa de Erro Populacional A taxa de erro populacional erro D = p é estimada por Diz-se que erro s é um estimador não enviesado de erro D pois Entre dois estimadores não enviesados, escolhe-se o de menor variância

28 Construção do Meio-Ambiente de Preparação da Informação (PIE) Intervalo de Confiança Um intervalo de confiança ao nível 1 - para um parâmetro populacional p é um intervalo cuja probabilidade de conter p é 1 - Teorema Central do Limite: Sejam Y 1,..., Y n variáveis aleatórias independentes e identicamente distribuídas com média e variância 2. Seja, Então, quando n, independentemente da distribuição dos Y i, tende para uma distribuição normal de média e desvio

29 Construção do Meio-Ambiente de Preparação da Informação (PIE) Intervalo de Confiança é o erro S obtêm-se o I.C. ao nível de confiança 1 -

30 Construção do Meio-Ambiente de Preparação da Informação (PIE) Estimativa do erro usando reamostragem (cross-validation ou jacknife) Pode-se melhorar a estimativa da taxa de erro dividindo-se o conjunto de aprendizagem em m partes iguais e realizar a aprendizagem sobre uma amostra formada por m-1 partes e avaliar a taxa de erro sobre a parte restante. Isso pode ser feito de m maneiras diferentes e no fim calcular uma taxa de erro média. A validação cruzada (cross-validation) corresponde ao caso em que é excluído do conjunto de aprendizagem apensas um indivíduo de cada vez.

31 Construção do Meio-Ambiente de Preparação da Informação (PIE) Valores categóricos Categorias em geral são representadas numericamente mesmo se os números não passam de símbolos Problema: como usar categorias em modelos cuja entrada são números Se o conjunto de dados possui variáveis numéricas estas podem ser usadas para a numeração das categorias; senão, deve-se recorrer ao conhecimento especialista Deve-se evitar a numeração arbitrária pois pode-se introduzir com isso padrões inexistentes no mundo real

32 Construção do Meio-Ambiente de Preparação da Informação (PIE) Normalização A propósito da normalização é minimizar os problemas oriundos do uso de unidades e dispersões distintas entre as variáveis Algumas ferramentas de modelização ou exigem (redes neurais) ou são beneficiadas com a normalização de amplitude As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição

33 Construção do Meio-Ambiente de Preparação da Informação (PIE) Normalização A normalização distribucional é interessante em várias situações tais como a remoção de distorções de valores aberrantes, obtenção de simetria etc. As transformações mais comuns são: A mais suave é a raiz e a mais forte é a inversa negativa

34 Construção do Meio-Ambiente de Preparação da Informação (PIE) Valores ausentes e vazios A diferenciação entre valores ausentes e valores inaplicáveis é importante mais ainda não se dispõe de técnicas automáticas para fazer isso. Deve-se faze-lo manualmente Quase todas as ferramentas de modelização dispõem de técnicas para tratar dados ausentes: ignora-los, atribuir um valor fixo aos valores ausentes ou estimar os valores ausentes à partir de outras variáveis Em algumas situações os dados ausentes são altamente informativos e ao serem tratados perde-se essa informação

35 Construção do Meio-Ambiente de Preparação da Informação (PIE) Series temporais Nesse caso a serie de valores é coletada ao longo do tempo e pode exibir uma tendência A serie de valores é medida em uma das escalas já vistas (nominal até Proporcional), mas eles são apresentados segundo uma ordem temporal O ponto chave desse tipo de dados é a identificação de tendências

36 Redução das Dimensões O conjunto de dados é representado na forma de uma tabela cujas colunas são as variáveis e cujas linhas são as observações Quanto mais variáveis melhor, em principio, mas pode também Representar um peso excessivo para os algoritmos As técnicas de redução de dimensões (técnicas fatoriais, por exemplo) se propõem a reduzir o número de variáveis com a menor perda possível de informações Estágios da Preparação de Dados Essas técnicas são úteis também para tratar a redundância de informações (correlação entre variáveis) e ruído


Carregar ppt "O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE."

Apresentações semelhantes


Anúncios Google