A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recomendação de hashtags para o Twitter

Apresentações semelhantes


Apresentação em tema: "Recomendação de hashtags para o Twitter"— Transcrição da apresentação:

1 Recomendação de hashtags para o Twitter
Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

2 Twitter Criado em 2006 Rede social, microblogging
Textos de até 140 caracteres (tweets) Serviço gratuito 14/set/2010: 175 milhões de usuários

3 Hashtags Conjunto de caracteres iniciado por “#”
Utilizadas para “categorizar” um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags Grupos de usuários interrelacionando-se isoladamente uns dos outros

4 POC I Criar uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento “Convergência” das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

5 Objetivo do trabalho Melhorar o desempenho da metodologia desenvolvida em POC I Resultados não foram satisfatórios

6 Metodologia Revisão do código-fonte
Novos métodos para cálculo de similaridade Tipo diferente de similaridade Parametrização diferente do LDA (α e β) Testes: 5-fold cross-validation

7 Base de tweets Extraída em 2009 Music Monday Michael Jackson
NULL NULL <d> :21:14</d> <s>web</s> <t>Quote of the day: &lt;Amish&gt; Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)</t> LuckyPhil <n>Phillip Welch</n> <ud> :00:51</ud> <t>Sydney</t> <l>iPhone: , </l> Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music Monday Michael Jackson Gripe suína 834414 110230 294172 3030 595 2367 (67,4%) (8,9%) (23,7%)

8 Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation)
Detecção de tópicos em coleções de documentos não rotulados Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades Iterativo: associa inicialmente de maneira aleatória tópicos  documentos/palavras e melhora a solução atual Convergência

9 Detecção de tópicos Processo de criação de um documento w em um corpus D: Escolher N ~ Poisson(ξ) Escolher θ ~ Dir(α) Para cada uma das N palavras wn Escolher um tópico zn ~ Multinomial(θ) Escolher uma palavra wn com p(wn|zn, β), uma probabilidade multinomial condicionada ao tópico zn

10 Detecção de tópicos ? Documento X Tweet X

11 Detecção de tópicos Distribuição de tópicos por termos
Distribuição de tópicos por documentos (tweets) Documento X #hashtag

12 Detecção de tópicos Parâmetros: Stoplist: lista de stopwords
número de tópicos número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

13 … … Modelagem de tópicos Modelo de tópicos:
Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1 t2 t3 tn tópico 1 tópico 2 tópico 3 tópico m

14 Similaridade de tópicos
Para cada token, é somada sua distribuição de probabilidade sobre tópicos Normalização t1 t2 t3 tópico 1 tópico 2 tópico 3 tópico m  x1  y1  z1  x2  y2  z2  x3  y3  z3  ∑xn   ∑yn   ∑zn

15 Similaridade de tópicos
Novo cálculo de similaridade Distância euclidiana Distância cosseno h1 h2 h3 tweet tópico 1 tópico 2 tópico 3 tópico m  x1  y1  z1  x2  y2  z2  x3  y3  z3  ∑xn   ∑yn   ∑zn ~ ~

16 Testes Validação cruzada LDA utilizando 80% da base
20% restantes utilizados para testar o treino realizado Treino Teste 20% 20% 20% 20% 20%

17 Testes Verificar as hashtags mais recomendadas para cada grupo de tweets (Michael Jackson, Music Monday e gripe suína) Analisar a similaridade entre hashtags recomendadas e as hashtags originais

18 Obrigado


Carregar ppt "Recomendação de hashtags para o Twitter"

Apresentações semelhantes


Anúncios Google