A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira.

Apresentações semelhantes


Apresentação em tema: "Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira."— Transcrição da apresentação:

1 Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

2 Twitter Criado em 2006 Rede social, microblogging Textos de até 140 caracteres (tweets) Serviço gratuito 14/set/2010: 175 milhões de usuários

3 Hashtags Conjunto de caracteres iniciado por # Utilizadas para categorizar um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags – Grupos de usuários interrelacionando-se isoladamente uns dos outros

4 POC I Criar uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento Convergência das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

5 Objetivo do trabalho Melhorar o desempenho da metodologia desenvolvida em POC I – Resultados não foram satisfatórios

6 Metodologia Revisão do código-fonte Novos métodos para cálculo de similaridade – Tipo diferente de similaridade Parametrização diferente do LDA (α e β) Testes: 5-fold cross-validation

7 Base de tweets Extraída em NULL NULL :21:14 web Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) LuckyPhil Phillip Welch :00:51 Sydney iPhone: , Quote of the day: Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Quote of the day: Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music MondayMichael JacksonGripe suína (67,4%) (8,9%) (23,7%)

8 Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation) – Detecção de tópicos em coleções de documentos não rotulados – Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades – Iterativo: associa inicialmente de maneira aleatória tópicos documentos/palavras e melhora a solução atual Convergência

9 Detecção de tópicos Processo de criação de um documento w em um corpus D: – Escolher N ~ Poisson(ξ) – Escolher θ ~ Dir(α) – Para cada uma das N palavras w n Escolher um tópico z n ~ Multinomial(θ) Escolher uma palavra w n com p(w n |z n, β), uma probabilidade multinomial condicionada ao tópico z n

10 Detecção de tópicos Documento XTweet X?

11 Detecção de tópicos Distribuição de tópicos por termos Distribuição de tópicos por documentos (tweets) Documento X#hashtag

12 Detecção de tópicos Parâmetros: número de tópicos número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

13 Modelagem de tópicos Modelo de tópicos: Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1t2t3tn … tópico 1 tópico 2 tópico 3 tópico m …

14 Similaridade de tópicos Para cada token, é somada sua distribuição de probabilidade sobre tópicos x1 y1 z1 x2 y2 z2 x3 y3 z3 xn yn zn t1t2t3 … tópico 1 tópico 2 tópico 3 tópico m … Normalização

15 Similaridade de tópicos Novo cálculo de similaridade – Distância euclidiana – Distância cosseno x1 y1 z1 x2 y2 z2 x3 y3 z3 xn yn zn h1h2h3tweet ~ tópico 1 tópico 2 tópico 3 tópico m … ~

16 Testes Validação cruzada LDA utilizando 80% da base 20% restantes utilizados para testar o treino realizado 20%20%20%20%20%20%20%20%20%20% TreinoTeste

17 Testes Verificar as hashtags mais recomendadas para cada grupo de tweets (Michael Jackson, Music Monday e gripe suína) Analisar a similaridade entre hashtags recomendadas e as hashtags originais

18 Obrigado


Carregar ppt "Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira."

Apresentações semelhantes


Anúncios Google