Aprendizado de Máquina

Slides:



Advertisements
Apresentações semelhantes
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Advertisements

Computação Gráfica I Conteúdo: Professor: - Objetos gráficos espaciais
Agenda Introdução Justificativa Objetivo Detecção de Spam
Inteligência Artificial
Aprendizado de Máquina
Inteligência Artificial
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
INTELIGÊNGIA COMPUTACIONAL
Mineração de Dados Avaliação de Classificadores
TEORIA DO CINEMA E DOCUMENTÁRIO
Araken de Medeiros Santos Anne Magály de Paula Canuto
Medidas de Tendência Central DADOS AGRUPADOS
Agrupamento (clustering)
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Inteligência Artificial
Reconhecimento de Padrões Dissimilaridade
Reconhecimento de Padrões Aprendizagem Supervisionada (KNN)
MB751 – Modelos de previsão
Classificação de Imagens IF 133. Por que e para que? Classificar é transformar dados em informação Imagens em mapas Números em rótulos Objetivo primário.
Jacques Robin, Francisco Carvalho, Flávia Barros
FACENS – Engenharia da Computação Inteligência Artificial
Descoberta de Conhecimento:
Metodologia Científica Aula 6
Programação Baseada em Objectos Desenho de TAD
Classes e objetos Modelagem
Tecnologia em Marketing, Logística e Recursos Humanos
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizado de Máquina
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
Aprendizado de Máquina
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
Inteligência Competitiva na Venda
Inteligência Artificial
Alexandre Xavier Falcão & David Menotti
ME623 Planejamento e Pesquisa
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Resultantes de Sistemas de Forças Cap. 4
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
K-NN Prof. Dr. Rogério Vargas.
O Plano "Não basta destruir o que sobra;
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizado de Máquina
INF 1771 – Inteligência Artificial
Aprendizado de Máquina - Introdução
XXXIII ENEGEP Um modelo de regressão linear para obtenção do limite de controle do gráfico de Z Roberto Campos Leoni Departamento de Produção, Universidade.
Redes Neuronais/Neurais/ Conexionistas Introdução
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Seleção de Atributos Ricardo Prudêncio.
1 A COMPUTAÇÃO MODERNA Valdemar W. Setzer Depto. de Ciência da Computação da USP
Resolução de sistemas de equações lineares
Introdução à Aprendizagem Estatística Prof. Dr. Hemerson Pistori INOVISAO – Pesquisa, Desenvolvimento e Inovação em Visão Computacional Universidade Católica.
Rio Verde - Goiás - Brasil
Medidas de Dispersão Aula 8.
Locus Localização Eudes Cavalcanti.
Uma Introdução a SVM Support Vector Machines
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Márcio Leal de Melo Dahia1 Aprendizado baseado em instâncias.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Classificação de Textos
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
Laboratório de Classificação Supervisionada Laboratório de Geoprocessamento do Departamento de Engenharia de Transportes da EPUSP setembro de 2011.
INF 1771 – Inteligência Artificial
Transcrição da apresentação:

Aprendizado de Máquina Aula 11 http://www.ic.uff.br/~bianca/aa/

Tópicos Introdução – Cap. 1 (16/03) Classificação Indutiva – Cap. 2 (23/03) Árvores de Decisão – Cap. 3 (30/03) Ensembles - Artigo (13/04) Avaliação Experimental – Cap. 5 (20/04) Aprendizado de Regras – Cap. 10 (27/04) Redes Neurais – Cap. 4 (04/05) Teoria do Aprendizado – Cap. 7 (11/05) Máquinas de Vetor de Suporte – Artigo (18/05) Aprendizado Bayesiano – Cap. 6 e novo cap. online (25/05) Aprendizado Baseado em Instâncias – Cap. 8 (01/05) Classificação de Textos – Artigo (08/06) Aprendizado Não-Supervisionado – Artigo (15/06) Aula 11 - 01/06/2010

Aprendizado baseado em instâncias Ao contrário das outras abordagens, não ocorre a construção de um modelo de classificação explícito. Novos exemplos são classificados com base na comparação direta e similaridade aos exemplos de treinamento. Treinamento pode ser fácil, apenas memorizar exemplos. Teste pode ser caro pois requer comparação com todos os exemplos de treinamento. Também conhecido como: Aprendizado baseado em casos Aprendizado baseado em exemplos Vizinho mais próximo (“Nearest Neighbor” = kNN) Aprendizado baseado em memorização Aprendizado “lazy” Aula 11 - 01/06/2010

Medidas de Similaridade/Distância Métodos baseados em instância precisam de uma função para determinar a similaridade ou distância entre duas instâncias. Para atributos contínuos, distância euclidiana é a mais utilizada: onde ap(x) é o valor do p-ésimo atributo da instância x. Para atributos discretos, a distância é 0 se eles tem o mesmo valor e 1 se eles são diferentes. Para compensar as diferenças de unidade entre os atributos contínuos, temos que normalizá-los para ficar no intervalo [0,1]. Aula 11 - 01/06/2010

Outras Medidas de Distância Distância de Mahalanobis Métrica que faz uma normalização em relação à variância. Similaridade de Cosseno Cosseno do ângulo entre os vetores. Usado para classificação de textos e outros dados de alta dimensão. Correlação de Pearson Coeficiente de correlação usado em estatística. Muito usado em bioinformática. Distância de edição Usado para medir distância entre strings. Usado em classificação de textos e bioinformática. Aula 11 - 01/06/2010

K-Vizinhos Mais Próximos Calcular a distância entre o exemplo de teste e cada exemplo de treinamento. Escolher os k vizinhos mais próximos e classificar a instância de teste com a classe mais frequente entre os vizinhos mais próximos. Usar mais de um vizinho reduz a vulnerabilidade a ruídos. Porém um número muito grande de vizinhos pode incluir “vizinhos” distantes. Melhor valor de k depende dos dados. Normalmente usamos k ímpar pra evitar empates. Aula 11 - 01/06/2010

Exemplo: 5-NN Aula 11 - 01/06/2010

Função de Classificação Implícita Embora não seja necessário calculá-la, a regra de classificação implicitamente usada é baseada em regiões do espaço de atributos, ao redor de cada exemplo de treinamento. Para 1-NN com distância euclidiana, o diagrama de Voronoi mostra como o espaço é dividido: Aula 11 - 01/06/2010

Indexação Eficiente Uma busca linear para encontrar os vizinhos mais próximos não é eficiente para bases grandes. Estruturas de indexação podem ser usadas para acelerar a busca. Para distância euclidiana, uma estrutura chamada kd-tree pode ser usada para encontrar os vizinhos mais próximos em tempo O(log n). Nós testam valores dos atributos e folhas terminam nos vizinhos mais próximos. Outras estruturas podem ser utilizadas para outras medidas de distância Índice invertido para texto. Aula 11 - 01/06/2010

Variações do k-NN Pode ser usado para estimar o valor de uma função real (regressão) se tirarmos a média dos valores dos k vizinhos mais próximos. Todos os exemplos de treinamento podem ser usados para classificar uma instância se cada um votar com peso proporcional ao inverso da sua distância ao exemplo de teste. Aula 11 - 01/06/2010

Relevância dos Atributos Medidas de distância dão peso igual a todos os atributos mesmo que eles não sejam úteis para classificação. Problemático quando muitos atributos são irrelevantes. Métodos baseados em instância favorecem a similaridade global e não a simplicidade do conceito. Para simplicidade, necessário fazer uma seleção de atributos prévia. Podemos dar peso aos atributos de acordo com uma medida de relevância, por exemplo ganho de informação. + Training Data – Test Instance ?? Aula 11 - 01/06/2010

Regras e Instâncias no Aprendizado Humano Experimentos psicológicos mostram que culturas diferentes têm diferentes viéses no aprendizado. “Ocidentais” favorecem regras simples (cabo reto) e classificam o objeto alvo no grupo 2. “Orientais” favorecem similaridade global e classificam o objeto alvo no grupo1. Aula 11 - 01/06/2010

Outros comentários Podemos reduzir a base de dados a um conjunto pequeno de exemplos representativos. Análogos aos vetores de suporte no SVM. K-NN condensado Podemos criar classificadores “híbridos”. Usando gaussianas em redes neurais e SVMs estamos levando em consideração a vizinhança quando criamos os classificadores. Pode ser facilmente adaptado pra outros tipos de dados além de vetores (como grafos e strings). O cálculo da similaridade também será complexo, dependendo do tipo de objeto. Pode ser usado pra outras tarefas de IA além de classificação. Planejamento baseado em casos. Raciocínio baseado em casos. Aula 11 - 01/06/2010

k-NN Condensado Algoritmo incremental: Adicionar instância se necessário Aula 11 - 01/06/2010