A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)

Apresentações semelhantes


Apresentação em tema: "Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)"— Transcrição da apresentação:

1 Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)

2 Por que o Pre-processamento Dados são problemáticos: Incompletos: faltam valores, faltam certos atributos de interesse, ou contém dados agregados Ruídos: contém erros ou outliers Inconsistente: contém discrepâncias em códigos ou nomes Sem qualidade dos dados – não há resultados Decisoes de qualidade devem ser baseadas em dados de qualidade DW precisa de integração consistente de dados de qualidade

3 Tarefas principais de pre- processamento de dados Limpeza de dados Preencher valores nulos, tratar ruídos, identificar ou remover outliers e resolver inconsistências Integração de Dados Transformação de dados normalização e agregação Redução de dados Discretização dos dados Redução de dados com uma particular importância para dados numéricos

4 Formas de pre-processamento

5 Limpeza de dados Tarefas de limpeza de dados Preencher valores ausentes Suavizar o ruído Identificar valores outliers Identificar inconsistências

6 Valores ausentes Dados não estão disponíveis A ausência de dados pode ser conseqüência de: Mau funcionamento do equipamento Não entrada de dados Inconsistência com outros dados registrados e assim o dado torna-se ausente Certos dados não são considerados importantes Engano na entrada de dados

7 Como lidar com valores ausentes Ignorar a tupla Preencher os valores ausentes manualmente (tedioso) Usar uma constante global para representar o valor ausente. Ex. desconhecido – uma nova classe Usar a média Usar a média por classe Usar o valor mais provável baseada por inferência (fórmula bayesiana ou árvore de decisão)

8 Dados com ruídos Ruído: erro aleatório Valores incorretos devido a: Problemas com instrumentos de entrada de dados Problemas de transmissão de dados Limitação tecnológica Não segui o mesmo padrão Problemas de dados que requerem limpeza de dados Registros duplicados Dados incompletos Dados inconsistentes

9 Como manusear dados com ruídos1/4 Método binning para suavizar os dados É a distribuição dos dados ordenados em caixas tendo como referencia os seus vizinhos Ordenação: Particionamento em caixas Suavizar pela mediana

10 Como manusear dados com ruídos 2/4 Ordernar dados: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Particionar em caixas (bins): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Suavizar pela mediana - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Suavizar pela fronteira - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

11 Como manusear dados com ruídos 3/4 Clusterização: detecção e remoção de valores outliers Os valores são organizados em grupos. Valores isolados são considerados outliers

12 Como manusear dados com ruídos 4/4 Regressão: os dados podem ser suavizados pelo ajustamento a uma função (p.ex. regressão linear) x y = x + 1 X1 Y1

13 Integração de Dados É a fusão de dados a partir de diferentes fontes em uma única fonte consistente Integração de Esquema Integrar metadados de diferentes fontes Problema de identificação das entidades Detectando e resolvendo conflitos de valores de dados Para a mesma entidade valores de atributos de diferentes fontes são diferentes Razoes: representações diferentes, escalas diferentes, ex. temperatura em C ou F / Peso(libras ou em quilos)/ altura (valor numérico ou categórico)

14 Lidando com dados redundantes na integração de dados Dados redundantes aparecem quando há integração de multiplos BDs O mesmo atributo deve ter diferentes nomes Um atributo pode ser um atributo derivado em outra tabela Dados redundantes são detectados por analise correlacional Integração cuidadosa de dados a partir das fontes múltiplas ajudam a reduzir / evitar inconsistencias e melhorar a qualidade e velocidade da mineração

15 Transformação de Dados 1/2 Objetivo: obter os dados em uma forma mais apropriada para a mineração Suavizar – remover ruído dos dados Agregação: sumários de dados (soma, etc) quando construir cubos de dados Generalização: dados primitivos são substituídos por conceitos de ordem superior via uma hierarquia de conceitos. Ex. valores do atributo idade mapeados para jovem, meia- idade

16 Transformação de Dados 2/2 Construção de novos atributos Normalização – minimizar os problemas relacionados ao de unidades e dispersões distintas entre as variáveis As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição

17 Transformação dos dados: Normalização 1/2 Normalização segundo a amplitude Unidades diferentes ou dispersões muito heterogêneas Normalização min-max

18 Transformação dos dados: Normalização 2/2 Normalização segundo a distribuição Interessante em situações como: remoção de distorções de valores outliers, obtenção de simetria, etc.

19 Redução de Dados Razoes: obter uma representação reduzida dos dados muito menor que produz o mesmo resultado analítico Vantagens: Redução do tempo de aprendizagem Interpretação mais fácil dos conceitos aprendidos

20 Redução de Dados Estratégias para a redução de dados Agregação via cubo Redução de dimensão Compressão de dados Discretização

21 Redução de Dados - dimensão Em data mining a supressão de uma coluna (atributo) é muito mais delicada do que a supressão de uma linha (observação) Retirar atributos relevantes ou permanecer com atributos irrelevantes pode implicar na descoberta de padrões de baixa qualidade Necessidade de um estágio de seleção de atributos Uma abordagem para a seleção é a manual, baseada em conhecimento especialista

22 Redução de Dados - dimensão Algumas abordagens automáticas de seleção de variáveis seleção do menor conjunto de atributos Selecionar o menor conjunto de atributos suficiente para dividir o espaço as instancias de tal maneira que a distribuição das classes no novo espaço é tão próxima quanto possível daquela do espaço original Problemas: busca exaustiva e overfitting Algoritmo de construção de árvores de decisão Aplicar esse algoritmo nos dados completos e então selecionar apenas as variáveis presentes na árvore de decisão

23 Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6? Class 1 Class 2 Class 1 Class 2 > Conjunto reduzido de atributos: {A1, A4, A6} Redução de dados – uso de árvores de decisão Altura = 1,70 maiormenor homemmulher homem mulher

24 Redução de Dados Seleção por busca no espaço de atributos Existem 2 d possíveis sub-conjuntos de a partir de d atributos Várias heurísticas para a seleção de variáveis Seleção forward: a busca é iniciada sem atributos e os mesmos são adicionados um. Cada atributo é adicionado isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é incorporado. Eliminação backward: a busca é iniciada com o conjunto completo de atributos e os mesmos são suprimidos um de cada vez. Cada atributo é suprimido isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é finalmente suprimido Combinação da seleção forward com a eliminação backward

25 Compressão de Dados Essas técnicas comprimem os dados originais Dados originais Dados Comprimidos Sem perda Aproximação dos dados originais Com perda

26 Compressão de Dados Extração de Variáveis Objetivo: obter novas variáveis à partir dos atributos iniciais. Em geral as novas variáveis são combinações lineares das variáveis iniciais Limitações: modelo linear (não adequado especialmente para para os métodos de data mining baseados em lógica) Essas técnicas são úteis também para tratar a redundância de informações (correlação entre variáveis) e ruído As técnicas de redução de dimensões se propõem a reduzir o número de variáveis com a menor perda possível de informações

27 Compressão de Dados Extração de Variáveis Métodos não supervisionados: Análise de Componentes Principais (variáveis quantitativas) Análise de Correspondências (variáveis qualitativas) A primeira componente é a combinação linear das variáveis iniciais de maior variância (maximiza a separação entre os indivíduos). A segunda componente é ortogonal a primeira (correlação nula), é também combinação linear das variáveis iniciais e apresenta a segunda maior variância. E assim por diante. Famílias de Métodos Métodos não supervisionados Métodos supervisionados

28 Compressão de Dados Extração de Variáveis X1 X2 Y1 Y2

29 Compressão de Dados Extração de Variáveis Métodos supervisionados Análise Fatorial Discriminante A primeira componente é a combinação linear das variáveis iniciais que melhor separa os grupos entre si, isto é, ela toma valores os mais próximos possíveis para os indivíduos de um mesmo grupo e os mais diferentes para indivíduos de grupos distintos. A segunda componente é a combinação linear das variáveis iniciais ortogonal a primeira (correlação nula) que melhor separa os grupos entre si. E assim por diante.

30 Redução de Casos Redução do volume de dados via representação econômica dos mesmos Métodos paramétricos Supõe que os dados ajustam um modelo, estimam os parâmetros do modelo, armazena apenas os parâmetros e descarrega os dados (exceto os aberrantes) Principais modelos: regressão (simples e multipla) e modelo log-linear Métodos não paramétricos Não assume modelos Famílias principais: histogramas, clustering, amostragem

31 Redução de Casos Regressão e modelos log-linear Regressão linear: os dados são modelados para se ajustarem a uma linha reta Em geral usa o método dos quadrados mínimos para ajustar a linha Regressão múltipla: permite que uma variável resposta seja modelada como uma função linear de um vetor de atributos Modelo Log-linear : aproxima distribuições de probabilidade discretas multidimensionais

32 Redução de Casos Histogramas Particiona os dados em caixas e armazena a frequencia média dos valores Em uma dimensão pode ser construido pela otimização de um critério via programação dinâmica

33 Redução de Casos Clustering Os dados são particionados em clusters e armazena-se apenas a representação do mesmo Pode ser muito eficaz se os dados são agrupados mas não se estão apenas sujos Existem muitas opções de métodos de e algoritmos de agrupamento

34 Redução de Casos Amostragem Permite que os algoritmos de mineração tratem enormes bases de dados pela redução dos casos Tipos de Amostragem: Amostragem aleatória simples com reposição Amostragem aleatória simples sem reposição Amostragem estratificada Amostragem por conglomerado

35 Redução de Casos Amostragem Duas formas básicas de amostragem são interessantes no contexto da mineração de dados: Amostragens incrementais Amostragens seguida de voto

36 Redução de Casos Amostragem incremental O treinamento é realizado em amostras aleatórias cada vez maiores de casos, observar a tendência e parar quando não há mais progresso Um padrão típico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e 100% Critérios para passar para uma outra amostra O erro diminuiu? A complexidade do tratamento aumentou mais do que a queda da taxa de erro? A complexidade da solução atual é aceitável para a interpretação?

37 Redução de Casos Amostragem seguida de voto O mesmo método de mineração é aplicado para diferentes amostras de mesmo tamanho resultando em uma solução para cada amostra Quando um novo caso aparece, cada solução fornece uma resposta. A reposta final é obtida por votação (classificação) ou pela média (regressão) Interesse: quando o método de mineração suporta apenas N casos

38 Discretização e Construção de Hierarquias Interesse: redução do numero de valores. Muito interessante em árvores de decisão Discretização reduz o número de valores de um dado atributo contínuo pela divisão da amplitude do atributo em intervalos. Os rótulos dos intevalos substituem os valores. Hierarquias Conceituais reduz os dados pela substituição de rótulos de nível inferior (como os valores numéricos do atributo idade) por rótulos de nível superior (tais como jovem, meia-idade, etc)

39 Discretização e Construção de Hierarquias Ferramentas Alisamento Histograma Clustering Discretização baseada em entropia Segmentação via particionamento natural

40 Discretização e Construção de Hierarquias Abordagens para a discretização de intervalos: discretização não supervisionada discretização supervisionada Discretização não supervisionada a discretização é realizada sem levar em conta os grupos a que pertencem as instâncias no conjunto de treinamento Discretização supervisionada a discretização é realizada levando em conta os grupos a que pertencem as instâncias no conjunto de treinamento

41 Discretização e Construção de Hierarquias Partição em intervalos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes; intervalos sem nenhuma instancia outras com muitas Partição por efetivos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes Partição em intervalos arbitrários Partição por minimização da variância Técnicas de Discretização não supervisionada

42 Discretização e Construção de Hierarquias Discretização divisiva (top-down) Exemplo: procura recursiva da partição binária que minimiza o ganho de entropia Discretização aglomerativa (bottom-up) Exemplo: isolar cada instancia em um intervalo e em seguida fusionar intervalos segundo um critério estatístico Técnicas de Discretização supervisionada

43 Hierarquias de conceitos para dados categóricos Especificação explícita de uma ordem parcial dos atributos ao nível do esquema pelos usuários e/ou especialistas Especificação de uma porção de hierarquia via agrupamento de dados Especificação do conjunto de atributos, mas não da ordem parcial Especificação de um conjunto de atributos parcialmente

44 Hierarquias de conceitos para dados categóricos Hierarquia conceitual pode ser gerada automaticamente com base no número de valores distintos por atributo. O atributo com o maior número de valores distintos é colocado no nível mais baixo da hierarquia. Pais Estado Cidade Rua 15 valores distintos 65 volores distintos 3567 valores distintos 674,339 valores distintos

45 Resumo Preparação de dados é uma grande tarefa para warehousing e mineração Preparação de dados incluem Limpeza de dados e integração de dados Redução de dados e seleção de características Discretização Muitos métodos estão sendo desenvolvidos mas ainda é uma área bastante ativa


Carregar ppt "Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)"

Apresentações semelhantes


Anúncios Google