Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouRenato Belmonte Carrilho Alterado mais de 8 anos atrás
1
Recomendação de videos com RSVD Bruno de F. Melo e Souza Gustavo Soares Souza PUC-RJ/INF2915 – Aprendizado de Máquina I Rio de Janeiro, 2 de dezembro de 2008
2
Motivação “In 2002 20% of Amazon’s sales resulted from personalized recommendations.” Linden, Greg
3
Desafio Prever o quanto um usuário irá gostar ou desgostar de um conjunto de elementos Video On Demand Filtragem colaborativa User-based
4
Problema A w q A ij = w[i] * q[j] Aij varia de 1 a 5 A é uma matriz esparsa USER VIDEO
5
Corpus Não existia um pronto… Logs dos servidores IP Data/Hora Sistema Operacional Versão do browser Midia id Tamanho do request Tipo do request 25% de novos visitantes/dia Usuários não são obrigados a dar um rating Construção difícil …
6
Corpus Como identificar um usuário? IP do usuário (IP + Versão do Browser + Sistema Operacional) Cookie que identifica o usuário Feedback implícito vs. explícito Usuários: 236.095 Videos com rating: 22.830 A = 5,4B Ratings: ~326k em Out/2008 < 2 ratings por usuário
7
Corpus Quantidade de vídeos (x) que tiveram y ratings Quantidade de usuários (x) que deram y ratings
8
Corpus Rating médio dos usuários Variância média por perfil de rating
9
RSVD - Funk, Simon chute inicial para w e q X =[x 1,…, x n ]//exemplos E = ij c ij.(x ij - w i.q j ) 2 D w i E = - j 2.c ij.(x ij - w i.q j ).q j D q j E = - i 2.c ij.(x ij - w i.q j ).w i w i w i + . j (x ij - w i.q j ).q j q j q j + . i (x ij - w i.q j ).w i Metodologia & Ferramentas
10
erro = VR - VP Ex.: VR = 2, VP = 1.5 Erro = (2 - 1,5) 2 = 0.25 Métrica de avaliação: RMSE Implementado em python
11
Resultados Não foram muito bons… Num. Var. LatentesRMSETempo (min) 14,500,13 104,101,37 203,844,18 303,698,49 403,5713,12 503,4719,11 603,3826,34 703,3035,51 803,2445,48 903,1858,02 1003,1369,79 1103,1083,43 1203,0699,22 1303,03118,07 1403,00133,49 1502,97157,31
12
Resultados - Treino & Teste Aumento do tempo de treinamento e redução do RMSE em função da quantidade de variáveis latentes utilizadas
13
Comparativo: Netflix E se tivéssemos um bom dataset?
14
Corpus: Netflix Dataset Videos: 17.771 Usuários: 480.189 Ratings: 1 a 5 A = 8.5 Bilhões A
15
Resultados: Netflix Resultados obtidos foram melhores daqueles com o dataset gerado Num. Var. LatentesRMSETempo (min) 11,652713,7 401,137356 801,1368700 1201,13591050
16
Conclusão Construir um dataset de treino e teste é um processo difícil A visualização de um video está intimamente ligada ao tempo Método não admite atualizações incrementais
17
Trabalhos futuros Identificação do usuário por cookie Filtragem do dataset Incluir fator de regularização Metodologia diferente para usuários e vídeos com poucos dados para correlação Estender o método para outros tipos de informações consumidas pelos usuários
18
Trabalhos futuros Testar diferentes abordagens de filtragem colaborativa para o problema de recomendação: Content-based Item-based Markov random walks Combinação dessas heurísticas
19
Referências 1. SVD. Wikipedia 2. Paterek, Arkadiusz. Improving regularized singular value decomposition for collaborative filtering 3. Funk, Simon. Netflix Update: Try this at home 4. Ali, K. and Stam, W. TiVo: Making show Recommendations Using a Distributed Collaborative Filtering Architecture 5. Baluja, S., Seth, R., Sivakumar, D., Jing, Y., Yagnik, J., Kumar, S., Ravichandran, D. and Aly, M. Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.