Recomendação de hashtags para o Twitter

Slides:



Advertisements
Apresentações semelhantes
IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho
Advertisements

CALENDÁRIO DE APLICAÇÃO DA VACINA ANTI-RÁBICA HUMANA
Programa das Aulas 20/09/05 - Apresentação da disciplina
Aprendizado de Máquina
Algoritmos para Geração de Variáveis Aleatórias
Introdução a Engenharia de Software de Sistemas Multi-Agentes
REUNIÃO NACIONAL DE MULHERES DIRETORAS DA FORÇA SINCAL.
Amintas engenharia.
Palestras, oficinas e outras atividades
Celso C. Ribeiro Caroline T. Rocha
25 Maneiras de Valorizar as Pessoas
Sílabo: Introdução à Ciência da Computação (SCC0121)
APRESENTAÇÃO DA DISCIPLINA Prof. Esp. Mick Lennon Machado
NUTRIÇÃO NOS CICLOS DA VIDA
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 9.
Ludwig Krippahl, 2008 Programação para as Ciências Experimentais 2007/8 Teórica 11.
Múltiplos Os múltiplos de um número inteiro obtêm-se multiplicando esse número por 0, 1, 2, 3, 4, 5, 6, ... Exemplos: M5= {0, 5, 10, 15, 20,
UNIVERSIDADE FEDERAL DE SANTA MARIA Disciplina:
Recomendação de hashtags para o Twitter
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
VILA SOLANGE
Programação Cabeças Automáticas 3M
Bruno Tardiole Kuehne Orientador: Prof. Dr. Marcos José Santana
Sistema de dois componentes - condensado
Auditoria de Segurança da Informação
Linguagens de Programação
Ernesto F. F. Ramírez e Saide J. Calil
Classes e objetos Modelagem
CFES Sul semestre 2011/01 ENCONTRO REGIONAL 03 e 04/ 03 Reunião CM
Provas de Concursos Anteriores
Contagem de Pessoas por Vídeo Usando Câmeras em Posição Zenital
Monitoria GDI Aula Prática
© GfK 2012 | Title of presentation | DD. Month
Você Usa Perfumes?. Você Usa Perfumes? CONVIDE SEUS AMIGOS PARA PARTICIPAR!!!
José Roberto Blaschek Gerência do Escopo José Roberto Blaschek.
Aprendizado de Máquina Aula 13
(CESPE/ Técnico Judiciário do TRT 17ª Região/ES) O Superior Tribunal de Justiça entende que o candidato aprovado em concurso público dentro do limite.
Aprendizado de Máquina Aula 8
Comunicação Social Criação e Produção de Sites
Inteligência Artificial
Anderson Berg Orientador: Prof. Fernando Buarque
Salas de Matemática.
Exponential Random Graph Models
PROBLEMAS DE TRANSPORTE
CIÊNCIA DA COMPUTAÇÃO ENGENHARIA DE SOFTWARE Aula 1
Análise Fatorial Factor analysis.
01 - Vezes que visitou o Rio de Janeiro Média ponderada: 1,82 vezes Base filtro: não mora no Grande Rio de Janeiro (254 entrevistas)
Modelagem Estatística
Associação Cedro do Líbano de Proteção à Infância
O Plano "Não basta destruir o que sobra;
Núcleo de Mídia – Comercial Ranking Nacional de Circulação - Domingos Evolução Mês* 3,38% 2,20% 1,39% 1,13% -4,84% 0,49% -6,16% -0,07% -0,71% 0,27% 0,43%
Progressão Geométrica Matrizes Questão nº01  Na P.G., a posição do termo é...
IF696 - Integração de Dados e DW
 - PSF Grupo: abc, agsj, fcac.
Técnicas de amostragem
Cronograma de Atividades
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Grupo A – Azul Claro, Marrom, Laranja
1/27 IV Encontro Sul Fluminense de Educação Matemática - ESFEM 16 e 17 de dezembro de 2005 Antonio.
ANÁLISE ESTATÍSTICA II
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
01. Conceitos Básicos e definições
50 cm 70 cm CARGA E DESCARGA Início MODELO 01
Marca do evento Calendário de reuniões e encontros para o ano de 2011 Calendário 2011.
Rio Verde - Goiás - Brasil
Inferência Estatística
CALENDÁRIO 2013 MÓDULO II.
Modelagem Estatística
PROJETO DE AUTOMAÇÃO RESIDÊNCIAL
GINÁSTICA LABORAL UM NOVO CAMINHO.
Transcrição da apresentação:

Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

Twitter Criado em 2006 Rede social, microblogging Textos de até 140 caracteres (tweets) Atualização via site, RSS ou SMS Serviço gratuito

Hashtags Conjunto de caracteres iniciado por “#” Utilizadas para “categorizar” um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags Grupos de usuários interrelacionando-se isoladamente uns dos outros

Objetivo do trabalho Descobrir uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento “Convergência” das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

Metodologia Estudo de algoritmo para detecção de tópicos Preparação base de tweets para aplicação de algoritmo e análise posterior Criação modelo de representação de tópicos Criação de técnica para escolha de hashtags para recomendação Testes e análise finais

Cronograma 25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10   25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10 30/10 05/11 06/11 12/11 13/11 19/11 20/11 26/11 27/11 02/12 Estudo LDA Preparação base tweets Aplicação LDA Modelo de representação de tópicos Recomendação de hashtags Testes e análise

Cronograma   25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10 30/10 05/11 06/11 12/11 13/11 19/11 20/11 26/11 27/11 02/12 Estudo LDA Preparação base tweets x Aplicação LDA Modelo de representação de tópicos Recomendação de hashtags Testes e análise

Base de tweets Extraída em 2009 Music Monday Michael Jackson 828591 13833801 NULL NULL <d>2007-03-27 20:21:14</d> <s>web</s> <t>Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)</t> LuckyPhil 40 68 232 36000 0 0 <n>Phillip Welch</n> <ud>2007-03-09 10:00:51</ud> <t>Sydney</t> <l>iPhone: -33.789539,151.125092</l> Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music Monday Michael Jackson Gripe suína 834414 110230 294172 3030 595 2367 831384 (67,4%) 109635 (8,9%) 291805 (23,7%)

Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation) Detecção de tópicos em coleções de documentos não rotulados Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades Iterativo: associa inicialmente de maneira aleatória tópicos  documentos/palavras e melhora a solução atual Convergência

Detecção de tópicos Processo de criação de um documento w em um corpus D: Escolher N ~ Poisson(ξ) Escolher θ ~ Dir(α) Para cada uma das N palavras wn Escolher um tópico zn ~ Multinomial(θ) Escolher uma palavra wn com p(wn|zn, β), uma probabilidade multinomial condicionada ao tópico zn

Detecção de tópicos ? Documento X Tweet X

Detecção de tópicos Distribuição de termos por tópico Distribuição de tópicos por documentos (hashtags) Documento X #hashtag

Detecção de tópicos Parâmetros: Stoplist: lista de stopwords número de tópicos: definido com base em testes número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

… … Modelagem de tópicos Modelo de tópicos: Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1 t2 t3 tn tópico 1 tópico 2 tópico 3 tópico m         … …

Similaridade de tópicos Para cada token, é somada sua distribuição de probabilidade sobre tópicos Normalização t1 t2 t3 ∑ tópico 1 tópico 2 tópico 3 tópico m  x1  y1    z1  x2  y2    z2  x3  y3    z3  ∑xn   ∑yn     ∑zn … …

Similaridade de tópicos Normalização Valores entre 0 e 1 Valores a serem selecionados muito próximos Aspectos de linguagem podem definir hashtag a ser escolhida: Tamanho da hashtag Presença de determinados caracteres

Testes Validação cruzada LDA utilizando 80% da base 20% restantes utilizados para testar o treino realizado Treino Teste 20% 20% 20% 20% 20%

Testes Resultado esperado: % de recomendação de hashtags que, no mínimo pertençam ao mesmo tópico das hashtags contidas no tweet Trabalhos futuros terão como objetivo recomendação da hashtag exata

Próximos passos… Melhoria do desempenho do LDA Estimativa de parâmetros internos Consideração maior de aspectos linguísticos Idioma (?)

Obrigado