Seleção de atributos Mariana Pinheiro Bento IA368Q
Introdução Uma técnica de redução de dados Lida com análise de dados complexos Diminuição de grandes quantidades de amostras ou atributos Mantém a integridade dos dados originais
Objetivo Detectar e Remover atributos ou amostras: Irrelevantes De pouca relevâncias Redundantes Ruidosos Diminuir o tempo de processamento
Métodos Para n atributos, existem até 2 possíveis subconjuntos Redução do espaço de busca: escolha ótima local, afim de encontrar a solução ótima global A independência dos atributos é assumida n
Stepwise forward selection Começa com o conjunto reduzido vazio O melhor atributo original é incluído no conjunto reduzido Nas próximas iterações, o melhor atributo do conjunto remanescente é selecionado
Stepwise backward elimination Começa com o conjunto completo Em cada iteração, remove o pior atributo que permanece no conjunto Pode-se fazer a combinação das duas técnicas em cada iteração: selecionando o melhor atributo e removendo o pior do conjunto remanescente
Decision tree induction Originalmente desenvolvido para classificação Gera um fluxograma, em que cada nó o algoritmo calcula o melhor atributo Atributos que não aparecem na árvore são irrelevantes
Critério de parada Varia de método para método Finaliza o processo: threshold na medida usada para determinar o processo de seleção Quantidade de iterações
PCA Procura atributos redundantes Redundância: atributos correlacionados Escolha de dados mais representativos a partir de combinações lineares dos dados originais
PCA Transformada linear ótima Componente principal(vermelha): melhor representa os dados Componente secundária (azul): perpendicular a princial
PCA Calcular a média de cada atributo Subtrair essa média dos dados originais Calcular a matriz de covariância Calcular autovetores e autovalores da matriz de covariância Matriz da transformada de Hotelling: linhas são autovetores arranjados de maneira decrescente de autovalores
PCA O autovetor com o maior autovalor associado, corresponde à componente principal do conjunto de dados usado Expressa os dados de maneira mais significativa