1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.

1 Seleção de Atributos Marcílio Souto DIMAp/UFRN

2 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas Wrapper Filtros

3 Introdução Muitos algoritmos de AM são projetados de modo a selecionar os atributos mais apropriados para a tomada de decisão Algoritmos de indução de árvores de decisão são projetados para: Escolher o atributo mais promissor para particionar o conjunto de dados Nunca selecionar atributos irrelevantes Mais atributos implica em maior poder discriminatório?

4 Atributos irrelevantes Adição de atributos irrelevantes às instâncias de uma base de dados, geralmente, confunde o algoritmo de aprendizado Experimento (exemplo) Indutor de árvores de decisão (C4.5) Base de dados D Adicione às instâncias em D um atributo binário cujos valores sejam gerados aleatoriamente Resultado A acurácia da classificação cai Em geral, de 5% a 10% nos conjuntos de testes

5 Explicação Em algum momento durante a geração das árvores: O atributo irrelevante é escolhido Isto causa erros aleatórios durante o teste Por que o atributo irrelevante é escolhido? Na medida em que a árvore é construída, menos e menos dados estão disponíveis para auxiliar a escolha do atributo Chega a um ponto em que atributos aleatórios parecem bons apenas por acaso A chance disto acontece aumenta com a profundidade da árvore

6 Atributos Irrelevantes x Algoritmos de AM Algoritmos mais afetados Indutores de árvores e regras de decisão Continuamente reduzem a quantidade de dados em que baseiam suas escolhas Indutores baseados em instâncias (e.g., k-NN) Sempre trabalha com vizinhanças locais Leva em consideração apenas algumas poucas instâncias (k) Foi mostrado que para se alcançar um certo nível de desempenho, a quantidade de instâncias necessária cresce exponencialmente com o número de atributos irrelevantes

7 Atributos Irrelevantes x Algoritmos de AM Algoritmo que ignora atributos irrelevantes Naive Bayes Assume que todos os atributos são independentes entre si Suposição correta para atributos irrelevantes Mas não para atributos redundantes O efeito do atributo redundante é multiplicado P(Yes|X)= 0.2*0.35*0.23=0.0161 P(No|X)= 0.1*0.33*0.35=0.0115 P(Yes|X)= 0.2*0.35*0.23*0.23=0.0037 P(No|X)= 0.1*0.33*0.35*0.35=0.0040

8 Seleção de atributos antes do aprendizado Melhora o desempenho preditivo Acelera o processo de aprendizado O processo de seleção de atributos, às vezes, pode ser muito mais custoso que o processo de aprendizado Ou seja, quando somarmos os custos das duas etapas, pode não haver vantagem Produz uma representação mais compacta do conceito a ser aprendido O foco será nos atributos que realmente são importantes para a definição do conceito

9 Métodos de Seleção de Atributos Manual Melhor método se for baseado em um entendimento profundo sobre ambos: O problema de aprendizado O significado de cada atributo Automático Filtros: método usado antes do processo de aprendizado para selecionar o subconjunto de atributos Wrappers: o processo de escolha do subconjunto de atributos está empacotado junto com o algoritmo de aprendizado sendo utilizado

10 Seleção Automática Implica em uma busca no espaço de atributos Quantos subconjuntos há? 2 N, em que N é o número total de atributos Portanto, na maioria dos casos práticos, uma busca exaustiva não é viável Solução: busca heurística

11 Exemplo: Espaço de Atributos

12 Busca Heurística no Espaço de Atributos Busca para Frente (Seleção Forward) A busca é iniciada sem atributos e os mesmos são adicionados um a um Cada atributo é adicionado isoladamente e o conjunto resultante é avaliado segundo um critério O atributo que produz o melhor critério é incorporado

13 Busca Heurística no Espaço de Atributos Busca para trás (Eliminaçao Backward) Similar a Seleção Forward Começa com todo o conjunto de atributos, eliminando um atributo a cada passo Tanto na Seleção Forward quanto na Eliminação Backward, pode-se adicionar um viés por subconjuntos pequenos Por exemplo, pode-se requerer não apenas que a medida de avaliação crescer a cada passo, mas que ela cresça mais que uma determinada constante

14 Busca Heurística no Espaço de Atributos Outros métodos de busca Busca bidirecional Best-first search Beam search Algoritmos genéticos......

15 Abordagens para Seleção de Atributos Filtros O processo de escolha do subconjunto acontece antes do processo de aprendizado Wrapper O processo de escolha do subconjunto de atributos está empacotado junto com o algoritmo de aprendizado sendo utilizado

16 Exemplo: Filtros Uso de uma indutor de árvores de decisão (AD) como filtro para o k-NN 1) Aplique um indutor de AD para todo o conjunto de treinamento 2) Selecione o subconjunto de atributos que aparece na AD 3) Aplique o k-NN a apenas este subconjunto A combinação pode apresenta melhores resultados do que cada método usando individualmente

17 Exemplo: Wrapper Busca para Frente (Seleção Forward) + Naive Bayes (1) Inicialize com o conjunto vazio S={} (2) Resultado_S=0 (2) Para cada atributo s i que não esteja em S Avalie o resultado de (S U s i ): Resultado_ s i (3) Considere o atributo com maior Resultado_ s i SE (Resultado_ s i > Resultado_S) ENTAO (S=S U s i ) & (Resultado_S= Resultado_ s i ) Volte para o Passo (2) SENAO Pare

18 Análise de Componentes Principais - PCA Extração de Características Marcilio Souto DIMAp/UFRN

19 Análise de Componentes Principais (PCA) Dado um conjunto D com n instâncias e p atributos (x 1, x 2,..., x p ), uma transformação linear para um novo conjunto de atributos z 1, z 2,..., z p pode ser calculada como: Componentes Principais (PCs) são tipos específicos de combinações lineares que são escolhidas de tal modo que z p (PCs) tenham as seguintes características z 1 = a 11 x 1 + a 21 x 2 +... + a p1 x p z 2 = a 12 x 1 + a 22 x 2 +... + a p2 x p... z p = a 1p x 1 + a 2p x 2 +... + a pp x p

20 PCA: Características As p componentes principais (PC) são não-correlacionadas (independentes) As PCs são ordenadas de acordo com quantidade da variância dos dados originais que elas contêm (ordem decrescente) A primeira PC explica (contém) a maior porcentagem da variabilidade do conjunto de dados original A segunda PC define a próxima maior parte, e assim por diante Em geral, apenas algumas das primeiras PCs são responsáveis pela maior parte da variabilidade do conjunto de dados O restante das PCs tem uma contribuição insignificante PCA é usada em Aprendizado de Máquina principalmente para a redução de dimensionalidade

21 PCA: Cálculo PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariância (ou correlação) do conjunto de dados A proporção da variância do conjunto de dados originais explicada pela i-ésima PC é igual ao i-ésimo auto-valor divido pela soma de todos os p auto-valores Ou seja, as PCs são ordenadas - decrescente - de acordo com os valores dos auto-valores Quando os valores dos diferentes atributos estão em diferentes escalas, é preferível usar a matriz de correlação em lugar da matriz de covariância

22 Exemplo: PCA

23 Exemplo: PCA Dados Ajustados - Média de 0 e desvio-Padrão de 1

24 Exemplo: PCA Cálculo da Matriz de Correlação Corr = 1,00000,9261 0,92611,0000 Cálculo dos Auto-Valores e Auto-Vetores Auto-Valores = 0,0739 1,9261 Auto-Vetores = -0,7071 0,7071 0,7071 0,7071 Primeira PC = 0,7071 0,7071 Segunda PC = -0,7071 0,7071 1_PC=96,30% 2_PC= 3,70%

25 Exemplo: PCA Auto-Vetores e os Dados

26 PCA - Todas as Componentes D_PCA = A'*D ' 0,70710,70710,88-1,67...-0,99 -0,7071 0,7071 0,58-1,43...-1,19 *

27 PCA - Apenas 1a. PC 0,7071 0,88-1,67...-0,99 0,58-1,43...-1,19 *

28 Análise de Componentes Principais Principais Limitações Assume apenas relações lineares entre os atributos A interpretação dos resultados (e.g., classificador gerado) em termos dos atributos originais pode ficar mais difícil

29 Bibliografia Witten, I. H. and Frank, E. (2005). Data Mining: practical machine learning tools and techniques with Java implementations. Chapter 7 - Transformations: Engineering the input and output. pp. 288-343. Morgan Kaufmann. Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 3 - Introdução. pp. 23-45. Bookman. Smith, L. I. (2002). A tutorial on principal component analysis.

1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.

Apresentações semelhantes

Apresentação em tema: "1 Seleção de Atributos Marcílio Souto DIMAp/UFRN."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.

Apresentações semelhantes

Apresentação em tema: "1 Seleção de Atributos Marcílio Souto DIMAp/UFRN."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback