Técnicas de Pre-processamento

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Intervalos de Confiança
INTELIGÊNGIA COMPUTACIONAL
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
A CARTOGRAFIA TEMÁTICA E A ESTATÍSTICA
ESTIMAÇÃO.
Material Elaborado pelo Prof. Francisco de A. T. de Carvalho
Mineração de Dados Avaliação de Classificadores
2 de Junho de 2005Conclusão1 Pedro Barahona DI/FCT/UNL Junho 2005.
1 Conclusão DI/FCT/UNL 1º Semestre 2004/ Ciclos de Simulação A técnica usada no exemplo da queda livre pode ser utilizada para trajectórias a duas.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Analise e Seleção de Variáveis
A Preparação dos Dados Mineração de Dados.
Mineração de Dados ou Descoberta de conhecimento em BDs
Reconhecimento de Padrões Seleção de Características
Medida do Tempo de Execução de um Programa
Mineração de Dados Introdução.
O Processo de Preparação de Dados
O Processo de Preparação de Dados
Métodos Quantitativos
Rejane Sobrino Pinheiro Tania Guillén de Torres
Análise Léxica Supondo o trecho de programa abaixo:
Análise de Dados.
INF 1771 – Inteligência Artificial
Sistemas Inteligentes
Estatística Descritiva
Aprendizado de Máquina
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
K-Means / Clustering.
Autoria de Aplicações Hipermídia Daniel Schwabe Departamento de Informática PUC-Rio [ Parte 6 ]
DISTRIBUIÇÕES AMOSTRAIS
Metolodogia de Desenvolvimento de Data Warehouse
Passo 4: Definição do número de classes
Métodos Quantitativos II
Sistema de equações lineares
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Projeto de Banco de Dados
Data Mining: Conceitos e Técnicas
ANÁLISE ESTATÍSTICA II
ANÁLISE ESTATÍSTICA II
Aula 6 - Método não-experimental ou de seleção não-aleatória
Seleção de Atributos Ricardo Prudêncio.
Resolução de sistemas de equações lineares
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Introdução à Estatística
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
BCC 101 – Matemática Discreta I
Busca Combinatorial e Métodos de Heurística
Seleção de atributos Mariana Pinheiro Bento IA368Q.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Recuperação Inteligente de Informação
Regressão e Previsão Numérica.
Regressão.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Definição de Estatística
Classificação de Textos
DISTRIBUIÇÕES DE PROBABILIDADE
Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Análise de Componentes Principais
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Distribuição. de freqüência
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Distribuição de freqüências
Amostragem e tratamento de dados faltantes Prof. Luciana Nunes Amostragem.
Transcrição da apresentação:

Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)

Por que o Pre-processamento Dados são problemáticos: Incompletos: faltam valores, faltam certos atributos de interesse, ou contém dados agregados Ruídos: contém erros ou outliers Inconsistente: contém discrepâncias em códigos ou nomes Sem qualidade dos dados – não há resultados Decisoes de qualidade devem ser baseadas em dados de qualidade DW precisa de integração consistente de dados de qualidade

Tarefas principais de pre-processamento de dados Limpeza de dados Preencher valores nulos, tratar ruídos, identificar ou remover outliers e resolver inconsistências Integração de Dados Transformação de dados normalização e agregação Redução de dados Discretização dos dados Redução de dados com uma particular importância para dados numéricos

Formas de pre-processamento

Limpeza de dados Tarefas de limpeza de dados Preencher valores ausentes Suavizar o ruído Identificar valores outliers Identificar inconsistências

Valores ausentes Dados não estão disponíveis A ausência de dados pode ser conseqüência de: Mau funcionamento do equipamento Não entrada de dados Inconsistência com outros dados registrados e assim o dado torna-se ausente Certos dados não são considerados importantes Engano na entrada de dados

Como lidar com valores ausentes Ignorar a tupla Preencher os valores ausentes manualmente (tedioso) Usar uma constante global para representar o valor ausente. Ex. “desconhecido” – uma nova classe Usar a média Usar a média por classe Usar o valor mais provável baseada por inferência (fórmula bayesiana ou árvore de decisão)

Dados com ruídos Ruído: erro aleatório Valores incorretos devido a: Problemas com instrumentos de entrada de dados Problemas de transmissão de dados Limitação tecnológica Não segui o mesmo padrão Problemas de dados que requerem limpeza de dados Registros duplicados Dados incompletos Dados inconsistentes

Como manusear dados com ruídos 1/4 Método binning para suavizar os dados É a distribuição dos dados ordenados em caixas tendo como referencia os seus vizinhos Ordenação: 1 1 2 3 3 3 4 5 5 7 Particionamento em caixas 112 333 4557 Suavizar pela mediana 111 333 5555

Como manusear dados com ruídos 2/4 Ordernar dados: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Particionar em caixas (bins): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Suavizar pela mediana - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Suavizar pela fronteira - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Como manusear dados com ruídos 3/4 Clusterização: detecção e remoção de valores outliers Os valores são organizados em grupos. Valores isolados são considerados outliers

Como manusear dados com ruídos 4/4 Regressão: os dados podem ser suavizados pelo ajustamento a uma função (p.ex. regressão linear) x y = x + 1 X1 Y1 Y1’

Integração de Dados É a fusão de dados a partir de diferentes fontes em uma única fonte consistente Integração de Esquema Integrar metadados de diferentes fontes Problema de identificação das entidades Detectando e resolvendo conflitos de valores de dados Para a mesma entidade valores de atributos de diferentes fontes são diferentes Razoes: representações diferentes, escalas diferentes, ex. temperatura em C ou F / Peso(libras ou em quilos)/ altura (valor numérico ou categórico)

Lidando com dados redundantes na integração de dados Dados redundantes aparecem quando há integração de multiplos BDs O mesmo atributo deve ter diferentes nomes Um atributo pode ser um atributo derivado em outra tabela Dados redundantes são detectados por analise correlacional Integração cuidadosa de dados a partir das fontes múltiplas ajudam a reduzir / evitar inconsistencias e melhorar a qualidade e velocidade da mineração

Transformação de Dados 1/2 Objetivo: obter os dados em uma forma mais apropriada para a mineração Suavizar – remover ruído dos dados Agregação: sumários de dados (soma, etc) quando construir cubos de dados Generalização: dados primitivos são substituídos por conceitos de ordem superior via uma hierarquia de conceitos. Ex. valores do atributo idade mapeados para jovem, meia-idade

Transformação de Dados 2/2 Construção de novos atributos Normalização – minimizar os problemas relacionados ao de unidades e dispersões distintas entre as variáveis As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição

Transformação dos dados: Normalização 1/2 Normalização segundo a amplitude Unidades diferentes ou dispersões muito heterogêneas Normalização min-max

Transformação dos dados: Normalização 2/2 Normalização segundo a distribuição Interessante em situações como: remoção de distorções de valores outliers, obtenção de simetria, etc. Se você tem dados muito espalhados. A escala logaritmica permite aproximar estes dados. Exemplo: terremotos Para a medicao da intensidade de um terremoto(os dados possuem varias ordens de grandeza- não linear). Você transforma um valor aplicando a funcao logaritma. A mais suave é a raiz e a mais forte é a inversa negativa.

Redução de Dados Razoes: obter uma representação reduzida dos dados muito menor que produz o mesmo resultado analítico Vantagens: Redução do tempo de aprendizagem Interpretação mais fácil dos conceitos aprendidos

Redução de Dados Estratégias para a redução de dados Agregação via cubo Redução de dimensão Compressão de dados Discretização

Redução de Dados - dimensão Em data mining a supressão de uma coluna (atributo) é muito mais delicada do que a supressão de uma linha (observação) Retirar atributos relevantes ou permanecer com atributos irrelevantes pode implicar na descoberta de padrões de baixa qualidade Necessidade de um estágio de seleção de atributos Uma abordagem para a seleção é a manual, baseada em conhecimento especialista

Redução de Dados - dimensão Algumas abordagens automáticas de seleção de variáveis seleção do menor conjunto de atributos Selecionar o menor conjunto de atributos suficiente para dividir o espaço as instancias de tal maneira que a distribuição das classes no novo espaço é tão próxima quanto possível daquela do espaço original Problemas: busca exaustiva e overfitting Algoritmo de construção de árvores de decisão Aplicar esse algoritmo nos dados completos e então selecionar apenas as variáveis presentes na árvore de decisão

Redução de dados – uso de árvores de decisão Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6} Altura = 1,70 A4 ? menor maior A1? A6? mulher homem homem mulher Class 2 Class 2 Class 1 Class 1 Conjunto reduzido de atributos: {A1, A4, A6} >

Redução de Dados Seleção por busca no espaço de atributos Existem 2d possíveis sub-conjuntos de a partir de d atributos Várias heurísticas para a seleção de variáveis Seleção forward: a busca é iniciada sem atributos e os mesmos são adicionados um. Cada atributo é adicionado isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é incorporado. Eliminação backward: a busca é iniciada com o conjunto completo de atributos e os mesmos são suprimidos um de cada vez. Cada atributo é suprimido isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é finalmente suprimido Combinação da seleção forward com a eliminação backward

Compressão de Dados Essas técnicas comprimem os dados originais Dados Comprimidos Sem perda Aproximação dos dados originais Com perda

Compressão de Dados Extração de Variáveis Objetivo: obter novas variáveis à partir dos atributos iniciais. Em geral as novas variáveis são combinações lineares das variáveis iniciais Limitações: modelo linear (não adequado especialmente para para os métodos de data mining baseados em lógica) As técnicas de redução de dimensões se propõem a reduzir o número de variáveis com a menor perda possível de informações Essas técnicas são úteis também para tratar a redundância de informações (correlação entre variáveis) e ruído

Compressão de Dados Extração de Variáveis Famílias de Métodos Métodos não supervisionados Métodos supervisionados Métodos não supervisionados: Análise de Componentes Principais (variáveis quantitativas) Análise de Correspondências (variáveis qualitativas) A primeira componente é a combinação linear das variáveis iniciais de maior variância (maximiza a separação entre os indivíduos). A segunda componente é ortogonal a primeira (correlação nula), é também combinação linear das variáveis iniciais e apresenta a segunda maior variância. E assim por diante.

Compressão de Dados Extração de Variáveis X1 X2 Y1 Y2

Compressão de Dados Extração de Variáveis Métodos supervisionados Análise Fatorial Discriminante A primeira componente é a combinação linear das variáveis iniciais que melhor separa os grupos entre si, isto é, ela toma valores os mais próximos possíveis para os indivíduos de um mesmo grupo e os mais diferentes para indivíduos de grupos distintos. A segunda componente é a combinação linear das variáveis iniciais ortogonal a primeira (correlação nula) que melhor separa os grupos entre si. E assim por diante.

Redução de Casos Métodos paramétricos Métodos não paramétricos Redução do volume de dados via representação econômica dos mesmos Métodos paramétricos Supõe que os dados ajustam um modelo, estimam os parâmetros do modelo, armazena apenas os parâmetros e descarrega os dados (exceto os aberrantes) Principais modelos: regressão (simples e multipla) e modelo log-linear Métodos não paramétricos Não assume modelos Famílias principais: histogramas, clustering, amostragem

Redução de Casos Regressão e modelos log-linear Regressão linear: os dados são modelados para se ajustarem a uma linha reta Em geral usa o método dos quadrados mínimos para ajustar a linha Regressão múltipla: permite que uma variável resposta seja modelada como uma função linear de um vetor de atributos Modelo Log-linear : aproxima distribuições de probabilidade discretas multidimensionais

Redução de Casos Histogramas Particiona os dados em caixas e armazena a frequencia média dos valores Em uma dimensão pode ser construido pela otimização de um critério via programação dinâmica

Redução de Casos Clustering Os dados são particionados em clusters e armazena-se apenas a representação do mesmo Pode ser muito eficaz se os dados são agrupados mas não se estão apenas sujos Existem muitas opções de métodos de e algoritmos de agrupamento

Redução de Casos Amostragem Permite que os algoritmos de mineração tratem enormes bases de dados pela redução dos casos Tipos de Amostragem: Amostragem aleatória simples com reposição Amostragem aleatória simples sem reposição Amostragem estratificada Amostragem por conglomerado

Redução de Casos Amostragem Duas formas básicas de amostragem são interessantes no contexto da mineração de dados: Amostragens incrementais Amostragens seguida de voto

Redução de Casos Amostragem incremental O treinamento é realizado em amostras aleatórias cada vez maiores de casos, observar a tendência e parar quando não há mais progresso Um padrão típico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e 100% Critérios para passar para uma outra amostra O erro diminuiu? A complexidade do tratamento aumentou mais do que a queda da taxa de erro? A complexidade da solução atual é aceitável para a interpretação?

Redução de Casos Amostragem seguida de voto Interesse: quando o método de mineração suporta apenas N casos O mesmo método de mineração é aplicado para diferentes amostras de mesmo tamanho resultando em uma solução para cada amostra Quando um novo caso aparece, cada solução fornece uma resposta. A reposta final é obtida por votação (classificação) ou pela média (regressão)

Discretização e Construção de Hierarquias Interesse: redução do numero de valores. Muito interessante em árvores de decisão Discretização reduz o número de valores de um dado atributo contínuo pela divisão da amplitude do atributo em intervalos. Os rótulos dos intevalos substituem os valores. Hierarquias Conceituais reduz os dados pela substituição de rótulos de nível inferior (como os valores numéricos do atributo idade) por rótulos de nível superior (tais como jovem, meia-idade, etc)

Discretização e Construção de Hierarquias Ferramentas Alisamento Histograma Clustering Discretização baseada em entropia Segmentação via particionamento “natural”

Discretização e Construção de Hierarquias Abordagens para a discretização de intervalos: discretização não supervisionada discretização supervisionada Discretização não supervisionada a discretização é realizada sem levar em conta os grupos a que pertencem as instâncias no conjunto de treinamento Discretização supervisionada a discretização é realizada levando em conta os grupos a que pertencem as instâncias no conjunto de treinamento

Discretização e Construção de Hierarquias Técnicas de Discretização não supervisionada Partição em intervalos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes; intervalos sem nenhuma instancia outras com muitas Partição por efetivos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes Partição em intervalos arbitrários Partição por minimização da variância

Discretização e Construção de Hierarquias Técnicas de Discretização supervisionada Discretização divisiva (top-down) Exemplo: procura recursiva da partição binária que minimiza o ganho de entropia Discretização aglomerativa (bottom-up) Exemplo: isolar cada instancia em um intervalo e em seguida fusionar intervalos segundo um critério estatístico

Hierarquias de conceitos para dados categóricos Especificação explícita de uma ordem parcial dos atributos ao nível do esquema pelos usuários e/ou especialistas Especificação de uma porção de hierarquia via agrupamento de dados Especificação do conjunto de atributos, mas não da ordem parcial Especificação de um conjunto de atributos parcialmente

Hierarquias de conceitos para dados categóricos Hierarquia conceitual pode ser gerada automaticamente com base no número de valores distintos por atributo. O atributo com o maior número de valores distintos é colocado no nível mais baixo da hierarquia. 15 valores distintos Pais Estado 65 volores distintos 3567 valores distintos Cidade 674,339 valores distintos Rua

Resumo Preparação de dados é uma grande tarefa para warehousing e mineração Preparação de dados incluem Limpeza de dados e integração de dados Redução de dados e seleção de características Discretização Muitos métodos estão sendo desenvolvidos mas ainda é uma área bastante ativa