Combined Regression and Ranking

Slides:



Advertisements
Apresentações semelhantes
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Advertisements

Aprendizado de Máquina
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS ESTRUTURAS DE DADOS AVANÇADAS Aula /08/2011 Professor Leomir J. Borba-
AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquina
Um Modelo de Reputação Baseado em Testemunhos
Classificadores em Dados não Balanceados
Ontologia para Sistemas Configurarionais Urbanos
Reconhecimento de Padrões Seleção de Características
A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003.
Reconhecimento de Padrões Combinando Classificadores
Support Vector Machines (SVM)
Análise Tópica de Links para busca na Web Lucas Augusto Scotta Merlo
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Interoperabilidade semântica no domínio de Engenharia de Software
1 Felipe L. SeverinoPDP Enhancing Grids for Massively Multiplayer Online Computer Games Felipe L. Severino Programação com Objetos Distribuídos paralela.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Tao Qin, Tie-Yan Liu, Jun Xu, Hang Li
Aprendizado de Máquina
Autores: Jean Suellen Silva de Almeida Victor Hugo Cunha de Melo
Aprendizado de Máquina Aula 8
Link Mining Víctor Medeiros.
Aprendizagem de Máquina - Agrupamento
Predição de Relacionamentos
Aprendizado Baseado em Instâncias – Algoritmo k-NN
DATA MINING (MINERAÇÃO DE DADOS)
Aluno: Rodolfo A. L. Costa Orientador: Prof. Frederico G. Guimarães
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Journal New Research Music – 2012 Citado por 3 artigos Alex Amorim Dutra Jason Weston, Samy Bengio, and Philippe Hamel Google, USA.
Uma análise da ação da idade em processos de reconhecimento de faces baseados em PCA Daniel da Silva Diogo Lara
Milene Selbach Silveira
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
APLICANDO O PROCESSO DIRIGIDO POR RESPONSABILIDADES PARA A CRIAÇÃO DE UM SUBFRAMEWORK PARA VALIDAÇÃO SINTÁTICA DE FÓRMULAS Autores: Rafael Hornung Simone.
Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.
Seleção de Atributos Ricardo Prudêncio.
1 Contributos para uma Boa Apresentação Luis M. Correia Instituto Superior Técnico / INOV-INESC Universidade Técnica de Lisboa, Portugal (2001/06/22, revisto.
Campus de Caraguatatuba Licenciatura em Matemática Semestre de 2013
Support Vector Machine - SVM
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA
Reconhecimento e Verificação de Assinaturas
CMP 167– Programação com Objetos Distribuídos Prof. Cláudio Geyer
Filtragem Colaborativa
Classificação de conteúdo em blogs Evelin Amorim e Vitor Dantas Aprendizado de Máquina Depto. de Informática PUC-Rio.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Uma Introdução a SVM Support Vector Machines
Um Sistema Peer-to- Peer para Armazenamento Distribuído de Arquivos Daniel Mauricio Sthor Lauro Luis Costa Lucas Nascimento Ferreira Departamento de Informática.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Aprendizagem Automática Uma Introdução Cristina Mota Instituto Superior Técnico L2F Inesc-ID New York University.
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
Value type-based smart proxies: a concept for adaptable distributed applications Markus Aleksy, Ralf Gitzel ACM International Conference Proceeding Series;
Classificação Probabilística com TBL Cícero Nogueira dos Santos Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática.
Mineração de Grafos e Predição de Links
Reconhecimento Facial usando SVM
Classificação de Textos
Correferências Pronominais na 3ª Pessoa do Singular INF2915 Prof.: Ruy Milidiu Guylerme Velasco, Roberta Claudino, Thiago Ribeiro.
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Ordenação Professor Paulo Gomide 27 de outubro de 2015.
MO 622 – Tarefa 4 Grupo PRI: Igor José Ferreira de Freitas Pedro Almeida Ricardo Caceffo Considere o desenvolvimento de uma aplicação.
1 Memória Auditiva: implicações para o modelo de interação (limites no tamanho de menus para navegação baseada na interação por voz) Grupo GJN MO622 –
PREDIÇÃO DE CONSUMO DE ENERGIA LEONARDO QUATRIN CAMPAGNOLO LILIAN MENDES CUNHA RAFAEL DE PINHO ANDRÉ.
Um Estudo Comparativo de Soluções para o Reconhecimento de Faces Grupo: Leandro Soriano Marcolino Moisés Lisboa Rodrigues Raquel Lara dos Santos Visão.
Transcrição da apresentação:

Combined Regression and Ranking D. Sculley Google, Inc. Pittsburgh, PA USA SIGKDD – Qualis 2012 A1 Alex Amorim Dutra

Sumário Introdução CRR Regressão Classificação Classificação X Regressão Funções de Perda Algoritmo Métricas Resultados Conclusões

CRR – Combined Regression and Rating Uma abordagem pointwise e pairwise. Combinação de regressão e rating (classificação). Mostra resultados eficientes tanto quanto aos métodos só de regressão e só de classificação.

Regressão Exemplo de uma regressão linear.

Classificação Atribuir um valor K a uma nova instância.

Vantagens Eventos raros ou distribuições distorcidas, a combinação pode realmente melhorar a acurácia. Esta combinação protege contra o perda de um aprendizado que funciona bem em um conjunto de métricas, mas mal em outro. Em questões de eficiencia muitas vezes comporta-se como somente uma das abordagens.

Classificação X Regressão O melhor método de regressão é suficiente? Não. Um modelo quase perfeito de regressão pode render arbitrariamente um mau classificador. Exemplo: Maioria de itens de uma determinada classe.

Classificação X Regressão Um classificador perfeito pode dar pobres estimativas de regressão. Distribuições de cauda longa são um outro exemplo importante.

Resumo da Ideia Principal Função objetivo combinando o que otimiza valores de regressão e classificação simultaneamente. Conjunto de dados tuplas (x, y, q), cada tupla contem um vetor característico x.

Métodos de regressão supervisionados Aprender um modelo que prediz o valor de y’ para uma feature, usando uma função de predição f(w, x) com menor valor de perda l(y, y’).

Métodos de classificação supervisionados Aprender um modelo para um menor valor de perda para dados previamente desconhecidos, usando uma função de predição f(w, x). Um método simples e que apresenta bons resultados RankSVM.

Funções de Perda Duas funções de perda utilizadas Squared Loss l(y, y′) = (y − y′)^2 Logistic Loss l(y, y′) = y log y′ + (1 − y) log(1 − y′). Combinação – a = 1 problema de regressão.

Algoritmo Disponível em: http://code.google.com/p/sofia-ml

Eficiência computacional Estado da arte O(|D| log |D|) - Pairwise. Inviável para uma base de dados com um grande número de elementos, |D|elevado. Contrução de P de forma explicita [21]. Algoritmo é eficiente utilizando Stochastic gradient descent. Algorithm 1 gives a method for efficiently solving the CRR optimization problem using stochastic gradient de- scent. Stochastic gradient descent methods have proven to be extremely practical for massive data sets, reducing training times by several orders of magnitude over more sophisticated optimization methods [3, 23].

Métricas Mean Average Precision (MAP) [18] Mean Squared Error AUC Loss – Valores {0, 1} 1 − AUC, onde AUC é: the area under the ROC curve [4]. Mean Average Precision (MAP) [18]

Resultados RCV1 – Benchmark corpus for text mining [17]. Predizer se determinados itens correspondem aos seus respectivos tópicos. 40 tópicos selecionados de 103, relevância binária. Usando 1,000,000 stochastic gradient descent passos, treinamento completo em 3 segundos para todos os métodos em um laptop de 2.4 GHz.

Resultados

Resultados

Resulados - Letor

Resultados Melhor nas duas métricas para16 dos 40 tópicos. Em outros 19 tópicos, CRR melhor para pelo menos uma uma métrica e diferencá absoluta menor ou igual a 0,001. Nunca é pior do que 0,004 (diferença absoluta) de em qualquer métrica para qualquer tópico.

Conclusões O uso de stochastic gradient descent faz o algoritmo ser fácil de implementar e eficiente para ser usado em grandes conjuntos de dados. Dado um grande conjunto de dados envolvendo eventos que possuem cauda longa o CRR pode ser aplicado. A abordagem pairwise empregada é simples e eficiente, no entanto, list-wise para mapear diretamente NDCG pode produzir um benefício adicional.

Referências [1] G. Aggarwal, A. Goel, and R. Motwani. Truthful auctions for pricing search keywords. In EC ’06: Proceedings of the 7th ACM conference on Electronic commerce, 2006. C. M. Bishop. Pattern Recognition and Machine Learning. Springer-Verlag New York, Inc., 2006. C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton, and G. Hullender. Learning to rank using gradient descent. In ICML ’05: Proceedings of the 22nd international conference on Machine learning, 2005. D. Chakrabarti, D. Agarwal, and V. Josifovski. Contextual advertising by combining relevance with click feedback. In WWW ’08: Proceeding of the 17th international conference on World Wide W T. Joachims. Training linear svms in linear time. In KDD ’06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, 2006. T. Joachims. Optimizing search engines using clickthrough data. In KDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 2002.eb, 2008

Dúvidas?