Aprendizado de Máquina

Slides:

Advertisements

Apresentações semelhantes

Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.

Advertisements

Computação Gráfica I Conteúdo: Professor: - Objetos gráficos espaciais

Agenda Introdução Justificativa Objetivo Detecção de Spam

Inteligência Artificial

Aprendizado de Máquina

Inteligência Artificial

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:

INTELIGÊNGIA COMPUTACIONAL

Mineração de Dados Avaliação de Classificadores

TEORIA DO CINEMA E DOCUMENTÁRIO

Araken de Medeiros Santos Anne Magály de Paula Canuto

Medidas de Tendência Central DADOS AGRUPADOS

Agrupamento (clustering)

PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO

Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo

Inteligência Artificial

Reconhecimento de Padrões Dissimilaridade

Reconhecimento de Padrões Aprendizagem Supervisionada (KNN)

MB751 – Modelos de previsão

Classificação de Imagens IF 133. Por que e para que? Classificar é transformar dados em informação Imagens em mapas Números em rótulos Objetivo primário.

Jacques Robin, Francisco Carvalho, Flávia Barros

FACENS – Engenharia da Computação Inteligência Artificial

Descoberta de Conhecimento:

Metodologia Científica Aula 6

Programação Baseada em Objectos Desenho de TAD

Classes e objetos Modelagem

Tecnologia em Marketing, Logística e Recursos Humanos

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

Aprendizado de Máquina

Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.

Aprendizado de Máquina

Aprendizado de Máquina Aula 13

Aprendizado de Máquina Aula 8

Inteligência Competitiva na Venda

Inteligência Artificial

Alexandre Xavier Falcão & David Menotti

ME623 Planejamento e Pesquisa

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Resultantes de Sistemas de Forças Cap. 4

Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.

K-NN Prof. Dr. Rogério Vargas.

O Plano "Não basta destruir o que sobra;

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

Aprendizado de Máquina

INF 1771 – Inteligência Artificial

Aprendizado de Máquina - Introdução

XXXIII ENEGEP Um modelo de regressão linear para obtenção do limite de controle do gráfico de Z Roberto Campos Leoni Departamento de Produção, Universidade.

Redes Neuronais/Neurais/ Conexionistas Introdução

CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.

Seleção de Atributos Ricardo Prudêncio.

1 A COMPUTAÇÃO MODERNA Valdemar W. Setzer Depto. de Ciência da Computação da USP

Resolução de sistemas de equações lineares

Introdução à Aprendizagem Estatística Prof. Dr. Hemerson Pistori INOVISAO – Pesquisa, Desenvolvimento e Inovação em Visão Computacional Universidade Católica.

Rio Verde - Goiás - Brasil

Medidas de Dispersão Aula 8.

Locus Localização Eudes Cavalcanti.

Uma Introdução a SVM Support Vector Machines

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.

Márcio Leal de Melo Dahia1 Aprendizado baseado em instâncias.

Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.

Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.

Classificação de Textos

Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção

Laboratório de Classificação Supervisionada Laboratório de Geoprocessamento do Departamento de Engenharia de Transportes da EPUSP setembro de 2011.

INF 1771 – Inteligência Artificial

Transcrição da apresentação:

Aprendizado de Máquina Aula 11 http://www.ic.uff.br/~bianca/aa/

Tópicos Introdução – Cap. 1 (16/03) Classificação Indutiva – Cap. 2 (23/03) Árvores de Decisão – Cap. 3 (30/03) Ensembles - Artigo (13/04) Avaliação Experimental – Cap. 5 (20/04) Aprendizado de Regras – Cap. 10 (27/04) Redes Neurais – Cap. 4 (04/05) Teoria do Aprendizado – Cap. 7 (11/05) Máquinas de Vetor de Suporte – Artigo (18/05) Aprendizado Bayesiano – Cap. 6 e novo cap. online (25/05) Aprendizado Baseado em Instâncias – Cap. 8 (01/05) Classificação de Textos – Artigo (08/06) Aprendizado Não-Supervisionado – Artigo (15/06) Aula 11 - 01/06/2010

Aprendizado baseado em instâncias Ao contrário das outras abordagens, não ocorre a construção de um modelo de classificação explícito. Novos exemplos são classificados com base na comparação direta e similaridade aos exemplos de treinamento. Treinamento pode ser fácil, apenas memorizar exemplos. Teste pode ser caro pois requer comparação com todos os exemplos de treinamento. Também conhecido como: Aprendizado baseado em casos Aprendizado baseado em exemplos Vizinho mais próximo (“Nearest Neighbor” = kNN) Aprendizado baseado em memorização Aprendizado “lazy” Aula 11 - 01/06/2010

Medidas de Similaridade/Distância Métodos baseados em instância precisam de uma função para determinar a similaridade ou distância entre duas instâncias. Para atributos contínuos, distância euclidiana é a mais utilizada: onde ap(x) é o valor do p-ésimo atributo da instância x. Para atributos discretos, a distância é 0 se eles tem o mesmo valor e 1 se eles são diferentes. Para compensar as diferenças de unidade entre os atributos contínuos, temos que normalizá-los para ficar no intervalo [0,1]. Aula 11 - 01/06/2010

Outras Medidas de Distância Distância de Mahalanobis Métrica que faz uma normalização em relação à variância. Similaridade de Cosseno Cosseno do ângulo entre os vetores. Usado para classificação de textos e outros dados de alta dimensão. Correlação de Pearson Coeficiente de correlação usado em estatística. Muito usado em bioinformática. Distância de edição Usado para medir distância entre strings. Usado em classificação de textos e bioinformática. Aula 11 - 01/06/2010

K-Vizinhos Mais Próximos Calcular a distância entre o exemplo de teste e cada exemplo de treinamento. Escolher os k vizinhos mais próximos e classificar a instância de teste com a classe mais frequente entre os vizinhos mais próximos. Usar mais de um vizinho reduz a vulnerabilidade a ruídos. Porém um número muito grande de vizinhos pode incluir “vizinhos” distantes. Melhor valor de k depende dos dados. Normalmente usamos k ímpar pra evitar empates. Aula 11 - 01/06/2010

Exemplo: 5-NN Aula 11 - 01/06/2010

Função de Classificação Implícita Embora não seja necessário calculá-la, a regra de classificação implicitamente usada é baseada em regiões do espaço de atributos, ao redor de cada exemplo de treinamento. Para 1-NN com distância euclidiana, o diagrama de Voronoi mostra como o espaço é dividido: Aula 11 - 01/06/2010

Indexação Eficiente Uma busca linear para encontrar os vizinhos mais próximos não é eficiente para bases grandes. Estruturas de indexação podem ser usadas para acelerar a busca. Para distância euclidiana, uma estrutura chamada kd-tree pode ser usada para encontrar os vizinhos mais próximos em tempo O(log n). Nós testam valores dos atributos e folhas terminam nos vizinhos mais próximos. Outras estruturas podem ser utilizadas para outras medidas de distância Índice invertido para texto. Aula 11 - 01/06/2010

Variações do k-NN Pode ser usado para estimar o valor de uma função real (regressão) se tirarmos a média dos valores dos k vizinhos mais próximos. Todos os exemplos de treinamento podem ser usados para classificar uma instância se cada um votar com peso proporcional ao inverso da sua distância ao exemplo de teste. Aula 11 - 01/06/2010

Relevância dos Atributos Medidas de distância dão peso igual a todos os atributos mesmo que eles não sejam úteis para classificação. Problemático quando muitos atributos são irrelevantes. Métodos baseados em instância favorecem a similaridade global e não a simplicidade do conceito. Para simplicidade, necessário fazer uma seleção de atributos prévia. Podemos dar peso aos atributos de acordo com uma medida de relevância, por exemplo ganho de informação. + Training Data – Test Instance ?? Aula 11 - 01/06/2010

Regras e Instâncias no Aprendizado Humano Experimentos psicológicos mostram que culturas diferentes têm diferentes viéses no aprendizado. “Ocidentais” favorecem regras simples (cabo reto) e classificam o objeto alvo no grupo 2. “Orientais” favorecem similaridade global e classificam o objeto alvo no grupo1. Aula 11 - 01/06/2010

Outros comentários Podemos reduzir a base de dados a um conjunto pequeno de exemplos representativos. Análogos aos vetores de suporte no SVM. K-NN condensado Podemos criar classificadores “híbridos”. Usando gaussianas em redes neurais e SVMs estamos levando em consideração a vizinhança quando criamos os classificadores. Pode ser facilmente adaptado pra outros tipos de dados além de vetores (como grafos e strings). O cálculo da similaridade também será complexo, dependendo do tipo de objeto. Pode ser usado pra outras tarefas de IA além de classificação. Planejamento baseado em casos. Raciocínio baseado em casos. Aula 11 - 01/06/2010

k-NN Condensado Algoritmo incremental: Adicionar instância se necessário Aula 11 - 01/06/2010