A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recomendação de hashtags para o Twitter

Apresentações semelhantes


Apresentação em tema: "Recomendação de hashtags para o Twitter"— Transcrição da apresentação:

1 Recomendação de hashtags para o Twitter
Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

2 Twitter Criado em 2006 Rede social, microblogging
Textos de até 140 caracteres (tweets) Atualização via site, RSS ou SMS Serviço gratuito

3 Hashtags Conjunto de caracteres iniciado por “#”
Utilizadas para “categorizar” um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags Grupos de usuários interrelacionando-se isoladamente uns dos outros

4 Objetivo do trabalho Descobrir uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento “Convergência” das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

5 Metodologia Estudo de algoritmo para detecção de tópicos
Preparação base de tweets para aplicação de algoritmo e análise posterior Criação modelo de representação de tópicos Criação de técnica para escolha de hashtags para recomendação Testes e análise finais

6 Cronograma 25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10
25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10 30/10 05/11 06/11 12/11 13/11 19/11 20/11 26/11 27/11 02/12 Estudo LDA Preparação base tweets Aplicação LDA Modelo de representação de tópicos Recomendação de hashtags Testes e análise

7 Cronograma 25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10 30/10 05/11 06/11 12/11 13/11 19/11 20/11 26/11 27/11 02/12 Estudo LDA Preparação base tweets x Aplicação LDA Modelo de representação de tópicos Recomendação de hashtags Testes e análise

8 Base de tweets Extraída em 2009 Music Monday Michael Jackson
NULL NULL <d> :21:14</d> <s>web</s> <t>Quote of the day: &lt;Amish&gt; Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)</t> LuckyPhil <n>Phillip Welch</n> <ud> :00:51</ud> <t>Sydney</t> <l>iPhone: , </l> Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music Monday Michael Jackson Gripe suína 834414 110230 294172 3030 595 2367 (67,4%) (8,9%) (23,7%)

9 Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation)
Detecção de tópicos em coleções de documentos não rotulados Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades Iterativo: associa inicialmente de maneira aleatória tópicos  documentos/palavras e melhora a solução atual Convergência

10 Detecção de tópicos Processo de criação de um documento w em um corpus D: Escolher N ~ Poisson(ξ) Escolher θ ~ Dir(α) Para cada uma das N palavras wn Escolher um tópico zn ~ Multinomial(θ) Escolher uma palavra wn com p(wn|zn, β), uma probabilidade multinomial condicionada ao tópico zn

11 Detecção de tópicos ? Documento X Tweet X

12 Detecção de tópicos Distribuição de termos por tópico
Distribuição de tópicos por documentos (hashtags) Documento X #hashtag

13 Detecção de tópicos Parâmetros: Stoplist: lista de stopwords
número de tópicos: definido com base em testes número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

14 … … Modelagem de tópicos Modelo de tópicos:
Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1 t2 t3 tn tópico 1 tópico 2 tópico 3 tópico m

15 Similaridade de tópicos
Para cada token, é somada sua distribuição de probabilidade sobre tópicos Normalização t1 t2 t3 tópico 1 tópico 2 tópico 3 tópico m  x1  y1  z1  x2  y2  z2  x3  y3  z3  ∑xn   ∑yn   ∑zn

16 Similaridade de tópicos
Normalização Valores entre 0 e 1 Valores a serem selecionados muito próximos Aspectos de linguagem podem definir hashtag a ser escolhida: Tamanho da hashtag Presença de determinados caracteres

17 Testes Validação cruzada LDA utilizando 80% da base
20% restantes utilizados para testar o treino realizado Treino Teste 20% 20% 20% 20% 20%

18 Testes Resultado esperado:
% de recomendação de hashtags que, no mínimo pertençam ao mesmo tópico das hashtags contidas no tweet Trabalhos futuros terão como objetivo recomendação da hashtag exata

19 Próximos passos… Melhoria do desempenho do LDA
Estimativa de parâmetros internos Consideração maior de aspectos linguísticos Idioma (?)

20 Obrigado


Carregar ppt "Recomendação de hashtags para o Twitter"

Apresentações semelhantes


Anúncios Google