A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira.

Apresentações semelhantes


Apresentação em tema: "Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira."— Transcrição da apresentação:

1 Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

2 Twitter Criado em 2006 Rede social, microblogging Textos de até 140 caracteres (tweets) Atualização via site, RSS ou SMS Serviço gratuito

3 Hashtags Conjunto de caracteres iniciado por # Utilizadas para categorizar um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags – Grupos de usuários interrelacionando-se isoladamente uns dos outros

4 Objetivo do trabalho Descobrir uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento Convergência das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

5 Metodologia Estudo de algoritmo para detecção de tópicos Preparação base de tweets para aplicação de algoritmo e análise posterior Criação modelo de representação de tópicos Criação de técnica para escolha de hashtags para recomendação Testes e análise finais

6 Cronograma 25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10 30/10 05/11 06/11 12/11 13/11 19/11 20/11 26/11 27/11 02/12 Estudo LDA Preparação base tweets Aplicação LDA Modelo de representação de tópicos Recomendação de hashtags Testes e análise

7 Cronograma 25/09 01/10 02/10 08/10 09/10 15/10 16/10 22/10 23/10 29/10 30/10 05/11 06/11 12/11 13/11 19/11 20/11 26/11 27/11 02/12 Estudo LDA Preparação base tweets xx Aplicação LDA Modelo de representação de tópicos Recomendação de hashtags Testes e análise

8 Base de tweets Extraída em NULL NULL :21:14 web Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) LuckyPhil Phillip Welch :00:51 Sydney iPhone: , Quote of the day: Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Quote of the day: Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music MondayMichael JacksonGripe suína (67,4%) (8,9%) (23,7%)

9 Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation) – Detecção de tópicos em coleções de documentos não rotulados – Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades – Iterativo: associa inicialmente de maneira aleatória tópicos documentos/palavras e melhora a solução atual Convergência

10 Detecção de tópicos Processo de criação de um documento w em um corpus D: – Escolher N ~ Poisson(ξ) – Escolher θ ~ Dir(α) – Para cada uma das N palavras w n Escolher um tópico z n ~ Multinomial(θ) Escolher uma palavra w n com p(w n |z n, β), uma probabilidade multinomial condicionada ao tópico z n

11 Detecção de tópicos Documento XTweet X?

12 Detecção de tópicos Distribuição de termos por tópico Distribuição de tópicos por documentos (hashtags) Documento X#hashtag

13 Detecção de tópicos Parâmetros: número de tópicos: definido com base em testes número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

14 Modelagem de tópicos Modelo de tópicos: Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1t2t3tn … tópico 1 tópico 2 tópico 3 tópico m …

15 Similaridade de tópicos Para cada token, é somada sua distribuição de probabilidade sobre tópicos x1 y1 z1 x2 y2 z2 x3 y3 z3 xn yn zn t1t2t3 … tópico 1 tópico 2 tópico 3 tópico m … Normalização

16 Similaridade de tópicos Normalização Valores entre 0 e 1 Valores a serem selecionados muito próximos Aspectos de linguagem podem definir hashtag a ser escolhida: Tamanho da hashtag Presença de determinados caracteres

17 Testes Validação cruzada LDA utilizando 80% da base 20% restantes utilizados para testar o treino realizado 20%20%20%20%20%20%20%20%20%20% TreinoTeste

18 Testes Resultado esperado: % de recomendação de hashtags que, no mínimo pertençam ao mesmo tópico das hashtags contidas no tweet Trabalhos futuros terão como objetivo recomendação da hashtag exata

19 Próximos passos… Melhoria do desempenho do LDA Estimativa de parâmetros internos Consideração maior de aspectos linguísticos Idioma (?)

20 Obrigado


Carregar ppt "Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira."

Apresentações semelhantes


Anúncios Google