Seleção de Atributos Ricardo Prudêncio.

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Agenda Introdução Justificativa Objetivo Detecção de Spam
Inteligência Artificial
VERIFICAÇÃO FORMAL DE BLOCOS COMPLEXOS
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.
OTIMIZAÇÃO DO PROJETO DE REDES URBANAS BASEADO NO PROBLEMA DE STEINER
Mineração de Dados Avaliação de Classificadores
1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquina
Analise e Seleção de Variáveis
GRASP Greedy Randomized Adaptative Search Procedure
Hyper-Heurísticas.
GRASP Greedy Randomized Adaptive Search Procedures
Mário Biague V Oficina: "Como Considerar Variáveis Sociais, Ambientais e Políticas no Planejamento Energético" Análise de portfólio de recursos energéticos.
Mineração de Dados ou Descoberta de conhecimento em BDs
Técnicas de Pre-processamento
SVM Support Vector Machines
Reconhecimento de Padrões Seleção de Características
Reconhecimento de Padrões Computação Evolutiva
Busca Heurística - Informada
Busca Heurística - Informada
Introdução a Teoria da Classificação
Jacques Robin, Francisco Carvalho, Flávia Barros
FACENS – Engenharia da Computação Lógica Computacional II
Classificação e Pesquisa de Dados
Rejane Sobrino Pinheiro Tania Guillén de Torres
Viabilidade Comercial de PP
Buscando Soluções Busca Heurística.
Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Sistemas Inteligentes
Aprendizado de Máquina
Aprendizado de Máquina Aula 8
Aprendizado de Árvores de Decisão
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Tema 4 André Martini Diniz Danilo Elias da Silva
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Cálculo Numérico / Métodos Numéricos
Uso de informação parentes
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizagem de Máquina
Introdução e Busca Cega
Introdução aos Agentes Inteligentes Busca Heurística (Informada)
Aprendizado de Máquina - Introdução
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Busca Combinatorial e Métodos de Heurística
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Seleção de atributos Mariana Pinheiro Bento IA368Q.
1 2º Ciclo de Estudos – Mestrado Informática Médica Docente: Inês Dutra Alunos: João Janeiro Luis Martinez Ricardo Casal Disciplina: Sistemas de Apoio.
Prof. Alexandre Monteiro Recife
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Busca Heurística - Informada
Luana Bezerra Batista Redes Neurais Luana Bezerra Batista
Classificação de Textos
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Análise de Componentes Principais
Transcrição da apresentação:

Seleção de Atributos Ricardo Prudêncio

Introdução A eficiência de uma solução depende em muitos casos do tamanho do problema Dimensão de um problema de aprendizado Número de atributos Número de exemplos de treinamento A dimensão de um problema de aprendizado interfere em muitos casos na: qualidade das respostas (precisão) dos algoritmos e no custo do aprendizado

Precisão X Custo Erro Fronteira de eficiência Erro mínimo Dimensão dos dados (Custo)

Redução de Dimensionalidade Tarefas: Redução do número de atributos Redução do número de exemplos Objetivos Diminuir o custo do aprendizado Aumentar a precisão do algoritmo Gerar modelos compactos mais fáceis de interpretar

Redução de Atributos Em geral, espera-se que todos os atributos sejam relevantes porém nem sempre é possível garantir isso Além disso, alguns atributos são redundantes e assim poderiam ser eliminados Objetivo: Definir conjunto de atributos que sejam relevantes e não-redundantes

Redução de Atributos Abordagens Seleção de atributos: Seleção X Extração de Atributos Seleção de atributos: Escolha de um sub-conjunto de atributos relevantes dentre os atributos disponíveis E.g., Filtros e Wrappers Extração de atributos: Criação de novos atributos a partir da combinação dos atributos existentes E.g., PCA

Redução de Exemplos Conjuntos de treinamento também podem apresentar exemplos irrelevantes e redundantes Abordagens: Seleção de exemplos etiquetados Seleção de exemplos não-etiquetados Aprendizagem Ativa

Redução de Dimensionalidade Atributos Redução de Exemplos Seleção de Atributos Extração de Atributos Seleção de Exemplos Aprendizagem Ativa Aula de hoje

Seleção de Atributos Filtros Wrappers Atributos são ordenados com base em métricas de relevância e redundância Retorna os atributos mais bem orderados Wrappers O desempenho do algoritmo é avaliado para diferentes sub-conjuntos de atributos; O melhor sub-conjunto encontrado é retornado;

Seleção de Atributos – Filtros Descartam atributos irrelevantes antes do processo de aprendizado I.e., independente do algoritmo Caracteristicas gerais dos dados são levadas em consideração para selecionar atributos I.e. dados avaliados com estatísticas descritivas Diferentes métricas podem ser usadas para definir relevância de atributos K atributos mais relevantes são retornados

Seleção de Atributos – Filtros Exemplos de métricas: InfoGain, GainRatio,… e outras métricas usadas para seleção de atributos em árvores de decisão Correlação entre o atributo avaliado e o atributo classe

Seleção de Atributos – Filtros Em geral, filtros de atributos são leves computacionalmente Porém apresenta dificuldades: Nem sempre é fácil definir quantos atributos descartar; Na prática, isso é definido por tentativa-e-erro Não leva em consideração o algoritmo sendo utilizado;

Seleção de Atributos – Filtros (WEKA)

Seleção de Atributos – Filtros (WEKA)

Seleção de Atributos – Filtros (WEKA)

Seleção de Atributos – Wrappers Wrappers realizam, de fato, uma busca no espaço de sub-conjuntos de atributos Busca exaustiva não é realizada na prática São vantajosos em relação aos filtros por considerarem o algoritmo em questão

Seleção de Atributos – Wrappers Forward-Selection Busca se inicia a partir de sub-conjuntos com um atributo Atributos são adicionados progressivamente Backward-Elimination Inicia com o sub-conjunto de todos os atributos; Atributos são removidos progressivamente

Wrappers – Forward-Selection erro = 15% Temp., Outlook Humit., Wind erro = 18% erro = 15% Temp., Outlook Humit. Temp., Outlook Wind. erro = 14% erro = 30% erro = 20% Temp., Outlook Temp., Humit. Temp., Wind. erro = 30% erro = 20% erro = 50% erro = 30% Outlook Temp. Humit. Wind.

Wrappers – Backward-Elimination erro = 15% Temp., Outlook Humit., Wind erro = 18% erro = 15% erro = 17% erro = 20% Temp., Outlook Humit. Temp., Outlook Wind. Temp., Humit Wind. Outlook, Humit Wind. erro = 14% erro = 20% erro = 20% Temp., Outlook Temp., Wind. Outlook, Wind erro = 30% erro = 20% Outlook Temp.

Seleção de Atributos – Wrappers Backward-Elimination Em geral, produz melhores resultados em termos de precisão; Porém é mais pesado computacionalmente Forward-Selecion Tende a produzir sub-conjuntos com menos atributos; É capaz de eliminar melhor atributos redundantes

Seleção de Atributos – Wrappers Tanto Forward-Selection como Backward-Elimination caem em mínimos locais Ambos os algoritmos realizam greedy search Diversos algoritmos de busca e otimização podem ser aplicados E.g., Algoritmos Genéticos

Seleção Atributos – Wrappers (WEKA)

Seleção Atributos – Wrappers (WEKA)

Seleção Atributos – Wrappers (WEKA)

Seleção Atributos – Wrappers (WEKA)

Seleção de Atributos Busca em espaço de atributos é mais pesado computacionalmente que as técnicas de filtros Porém, podemos minimizar esse problema: Utilizando algoritmos de busca mais eficientes (e.g., RankSearch); Utilizando algoritmos mais leves para avaliação dos sub-conjuntos; Combinando com filtros (e.g., usar uma métrica de filtro como medida de avaliação)

Seleção de Atributos RankSearch Ordenar atributos com uma métrica de filtro E.g., InfoGain Avaliar sub-conjuntos, inserindo gradualmente os atributos na ordem gerada erro = 15% Ranking: Temp, Outlook, Wind, Humit. Temp., Outlook Wind, Humit. erro = 15% Temp., Outlook Wind erro = 14% Temp., Outlook erro = 20% Temp.

Seleção de Atributos – RankSearch (WEKA)

Referências A. Blum, P. Langley, Selection of relevant features and examples in machine learning, Artificial Intelligence, 1997. R. Kohavi, GH John, Wrappers for feature subset selection, Artificial Intelligence, 1997. I. Guyon, A. Elisseefi, L. Kaelbling, An Introduction to variable and feature selection, Journal of Machine Learning Research, 2003.