1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.

Slides:



Advertisements
Apresentações semelhantes
AULA 02 PROGRAMAÇÃO LINEAR INTEIRA
Advertisements

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.
Software Básico Silvio Fernandes
Inteligência Artificial
Aprendizado de Máquina
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Matrizes especiais Matriz linha Matriz do tipo 1 x n, ou seja, com uma única linha. Por exemplo, a matriz A =[ ], do tipo 1 x 4. Matriz coluna.
Operações envolvendo imagens
ANÁLISE DISCRIMINANTE
Celso C. Ribeiro Caroline T. Rocha
UNIVERSIDADE LUTERANA DO BRASIL COMUNIDADE EVANGÉLICA LUTERANA SÃO PAULO Reconhecida pela Portaria Ministerial nº 681 de 07/12/89 – DOU de 11/12/89 Campus.
Mineração de Dados Avaliação de Classificadores
1 Domínios Finitos A eficiência das programas em domínios finitos (incluindo booleanos) podem ainda ser melhoradas pelo uso de Algoritmos de Propagação.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
SISTEMAS DE EQUAÇÕES.
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
Analise e Seleção de Variáveis
Análise de regressão linear simples: abordagem matricial
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Estatística Básica Utilizando o Excel
Reconhecimento de Padrões Seleção de Características
Reconhecimento de Padrões PCA David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa de Pós-Graduação em Ciência.
Reconhecimento de Padrões Principal Component Analysis (PCA) Análise dos Componentes Principais David Menotti, Ph.D. Universidade.
Projeto e Análise de Algoritmos
Inteligência Artificial
Provas de Concursos Anteriores
Revisão do conceito de matrizes
Revisão do conceito de vetores
Problemas Numéricos com Representação por Números Reais
Campus de Caraguatatuba
Calculada a solução óptima
Como aplicar leis da lógica
Técnicas Experimentais Aplicadas em Ciência do Solo
Aprendizado de Máquina
Inteligência Artificial
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Resultantes de Sistemas de Forças Cap. 4
Resultantes de Sistemas de Forças Cap. 4
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Celso C. Ribeiro Caroline T. Rocha
Análise Fatorial Factor analysis.
Busca com informação e exploração
Modelagem Estatística
Introdução e Busca Cega
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Computação Gráfica Aula 3 Transformações Geométricas
Seleção de Atributos Ricardo Prudêncio.
Ceça Moraes – Introdução à Programação SI1
1 A COMPUTAÇÃO MODERNA Valdemar W. Setzer Depto. de Ciência da Computação da USP
Campus de Caraguatatuba Aula 2: Somatório e Produtório
Máquina de Turing Universal
NOÇÕES DE PROBABILIDADE
Campus de Caraguatatuba
BCC 101 – Matemática Discreta I
Construção e Análise de Algoritmos
Introdução à Teoria das Probabilidades
Planilha Eletrônica - Excel
Fontes de Erros Aula 1 Introdução; Erros em processos numéricos;
Compras – Planejamento de Estoque
Busca Combinatorial e Métodos de Heurística
Seleção de atributos Mariana Pinheiro Bento IA368Q.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Componentes Principais Camilo Daleles Rennó
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Classificação de Textos
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Análise de Componentes Principais
Seleção de Atributos.
Transcrição da apresentação:

1 Seleção de Atributos Marcílio Souto DIMAp/UFRN

2 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas Wrapper Filtros

3 Introdução Muitos algoritmos de AM são projetados de modo a selecionar os atributos mais apropriados para a tomada de decisão Algoritmos de indução de árvores de decisão são projetados para: Escolher o atributo mais promissor para particionar o conjunto de dados Nunca selecionar atributos irrelevantes Mais atributos implica em maior poder discriminatório?

4 Atributos irrelevantes Adição de atributos irrelevantes às instâncias de uma base de dados, geralmente, confunde o algoritmo de aprendizado Experimento (exemplo) Indutor de árvores de decisão (C4.5) Base de dados D Adicione às instâncias em D um atributo binário cujos valores sejam gerados aleatoriamente Resultado A acurácia da classificação cai Em geral, de 5% a 10% nos conjuntos de testes

5 Explicação Em algum momento durante a geração das árvores: O atributo irrelevante é escolhido Isto causa erros aleatórios durante o teste Por que o atributo irrelevante é escolhido? Na medida em que a árvore é construída, menos e menos dados estão disponíveis para auxiliar a escolha do atributo Chega a um ponto em que atributos aleatórios parecem bons apenas por acaso A chance disto acontece aumenta com a profundidade da árvore

6 Atributos Irrelevantes x Algoritmos de AM Algoritmos mais afetados Indutores de árvores e regras de decisão Continuamente reduzem a quantidade de dados em que baseiam suas escolhas Indutores baseados em instâncias (e.g., k-NN) Sempre trabalha com vizinhanças locais Leva em consideração apenas algumas poucas instâncias (k) Foi mostrado que para se alcançar um certo nível de desempenho, a quantidade de instâncias necessária cresce exponencialmente com o número de atributos irrelevantes

7 Atributos Irrelevantes x Algoritmos de AM Algoritmo que ignora atributos irrelevantes Naive Bayes Assume que todos os atributos são independentes entre si Suposição correta para atributos irrelevantes Mas não para atributos redundantes O efeito do atributo redundante é multiplicado P(Yes|X)= 0.2*0.35*0.23= P(No|X)= 0.1*0.33*0.35= P(Yes|X)= 0.2*0.35*0.23*0.23= P(No|X)= 0.1*0.33*0.35*0.35=0.0040

8 Seleção de atributos antes do aprendizado Melhora o desempenho preditivo Acelera o processo de aprendizado O processo de seleção de atributos, às vezes, pode ser muito mais custoso que o processo de aprendizado Ou seja, quando somarmos os custos das duas etapas, pode não haver vantagem Produz uma representação mais compacta do conceito a ser aprendido O foco será nos atributos que realmente são importantes para a definição do conceito

9 Métodos de Seleção de Atributos Manual Melhor método se for baseado em um entendimento profundo sobre ambos: O problema de aprendizado O significado de cada atributo Automático Filtros: método usado antes do processo de aprendizado para selecionar o subconjunto de atributos Wrappers: o processo de escolha do subconjunto de atributos está empacotado junto com o algoritmo de aprendizado sendo utilizado

10 Seleção Automática Implica em uma busca no espaço de atributos Quantos subconjuntos há? 2 N, em que N é o número total de atributos Portanto, na maioria dos casos práticos, uma busca exaustiva não é viável Solução: busca heurística

11 Exemplo: Espaço de Atributos

12 Busca Heurística no Espaço de Atributos Busca para Frente (Seleção Forward) A busca é iniciada sem atributos e os mesmos são adicionados um a um Cada atributo é adicionado isoladamente e o conjunto resultante é avaliado segundo um critério O atributo que produz o melhor critério é incorporado

13 Busca Heurística no Espaço de Atributos Busca para trás (Eliminaçao Backward) Similar a Seleção Forward Começa com todo o conjunto de atributos, eliminando um atributo a cada passo Tanto na Seleção Forward quanto na Eliminação Backward, pode-se adicionar um viés por subconjuntos pequenos Por exemplo, pode-se requerer não apenas que a medida de avaliação crescer a cada passo, mas que ela cresça mais que uma determinada constante

14 Busca Heurística no Espaço de Atributos Outros métodos de busca Busca bidirecional Best-first search Beam search Algoritmos genéticos......

15 Abordagens para Seleção de Atributos Filtros O processo de escolha do subconjunto acontece antes do processo de aprendizado Wrapper O processo de escolha do subconjunto de atributos está empacotado junto com o algoritmo de aprendizado sendo utilizado

16 Exemplo: Filtros Uso de uma indutor de árvores de decisão (AD) como filtro para o k-NN 1) Aplique um indutor de AD para todo o conjunto de treinamento 2) Selecione o subconjunto de atributos que aparece na AD 3) Aplique o k-NN a apenas este subconjunto A combinação pode apresenta melhores resultados do que cada método usando individualmente

17 Exemplo: Wrapper Busca para Frente (Seleção Forward) + Naive Bayes (1) Inicialize com o conjunto vazio S={} (2) Resultado_S=0 (2) Para cada atributo s i que não esteja em S Avalie o resultado de (S U s i ): Resultado_ s i (3) Considere o atributo com maior Resultado_ s i SE (Resultado_ s i > Resultado_S) ENTAO (S=S U s i ) & (Resultado_S= Resultado_ s i ) Volte para o Passo (2) SENAO Pare

18 Análise de Componentes Principais - PCA Extração de Características Marcilio Souto DIMAp/UFRN

19 Análise de Componentes Principais (PCA) Dado um conjunto D com n instâncias e p atributos (x 1, x 2,..., x p ), uma transformação linear para um novo conjunto de atributos z 1, z 2,..., z p pode ser calculada como: Componentes Principais (PCs) são tipos específicos de combinações lineares que são escolhidas de tal modo que z p (PCs) tenham as seguintes características z 1 = a 11 x 1 + a 21 x a p1 x p z 2 = a 12 x 1 + a 22 x a p2 x p... z p = a 1p x 1 + a 2p x a pp x p

20 PCA: Características As p componentes principais (PC) são não-correlacionadas (independentes) As PCs são ordenadas de acordo com quantidade da variância dos dados originais que elas contêm (ordem decrescente) A primeira PC explica (contém) a maior porcentagem da variabilidade do conjunto de dados original A segunda PC define a próxima maior parte, e assim por diante Em geral, apenas algumas das primeiras PCs são responsáveis pela maior parte da variabilidade do conjunto de dados O restante das PCs tem uma contribuição insignificante PCA é usada em Aprendizado de Máquina principalmente para a redução de dimensionalidade

21 PCA: Cálculo PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariância (ou correlação) do conjunto de dados A proporção da variância do conjunto de dados originais explicada pela i-ésima PC é igual ao i-ésimo auto-valor divido pela soma de todos os p auto-valores Ou seja, as PCs são ordenadas - decrescente - de acordo com os valores dos auto-valores Quando os valores dos diferentes atributos estão em diferentes escalas, é preferível usar a matriz de correlação em lugar da matriz de covariância

22 Exemplo: PCA

23 Exemplo: PCA Dados Ajustados - Média de 0 e desvio-Padrão de 1

24 Exemplo: PCA Cálculo da Matriz de Correlação Corr = 1,00000,9261 0,92611,0000 Cálculo dos Auto-Valores e Auto-Vetores Auto-Valores = 0,0739 1,9261 Auto-Vetores = -0,7071 0,7071 0,7071 0,7071 Primeira PC = 0,7071 0,7071 Segunda PC = -0,7071 0,7071 1_PC=96,30% 2_PC= 3,70%

25 Exemplo: PCA Auto-Vetores e os Dados

26 PCA - Todas as Componentes D_PCA = A'*D ' 0,70710,70710,88-1, ,99 -0,7071 0,7071 0,58-1, ,19 *

27 PCA - Apenas 1a. PC 0,7071 0,88-1, ,99 0,58-1, ,19 *

28 Análise de Componentes Principais Principais Limitações Assume apenas relações lineares entre os atributos A interpretação dos resultados (e.g., classificador gerado) em termos dos atributos originais pode ficar mais difícil

29 Bibliografia Witten, I. H. and Frank, E. (2005). Data Mining: practical machine learning tools and techniques with Java implementations. Chapter 7 - Transformations: Engineering the input and output. pp Morgan Kaufmann. Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 3 - Introdução. pp Bookman. Smith, L. I. (2002). A tutorial on principal component analysis.