Recomendação de hashtags para o Twitter

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Aprendizado de Máquina
Algoritmos para Geração de Variáveis Aleatórias
Amintas engenharia.
Celso C. Ribeiro Caroline T. Rocha
O PROBLEMA DE LOCALIZAÇÃO
Mineração de Dados Avaliação de Classificadores
Adriano Kaminski Sanches
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 5.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 9.
Ludwig Krippahl, 2009 Programação para as Ciências Experimentais 2008/9 Teórica 4.
Ludwig Krippahl, 2008 Programação para as Ciências Experimentais 2007/8 Teórica 11.
1 Controlo e Aprendizagem Aula Teórico-Prática nº 23 CIÊNCIAS DO DESPORTO E EDUCAÇÃO ESPECIAL E REABILITAÇÃO Aula Teórico-Prática nº 23 CIÊNCIAS DO DESPORTO.
Uma das tarefas descritivas da
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO
Programação Linear Método Simplex
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Algoritmos para Seleção Simples
Considerações Iniciais
Recomendação de hashtags para o Twitter
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
Projeto: CPG Alunos Especiais
Estatística Aula 01 Prof. Marllus Gustavo Ferreira Passos das Neves
Otimização de Funções Contínuas via Algoritmos Genéticos
Transformações Geométricas
MGattass Rotações e Quatérnios. MGattass Objetos compostos hierarquicamente.
Transformações Geométricas Coordenadas Homogêneas e Rotações.
Bruno Tardiole Kuehne Orientador: Prof. Dr. Marcos José Santana
FACENS – Engenharia da Computação Inteligência Artificial
CONCEITOS INICIAIS DE CONFIABILIDADE
Ernesto F. F. Ramírez e Saide J. Calil
Jackson D. N. Mourão Pietrângelo V. Ferronato
Anderson Berg Orientador: Prof. Fernando Buarque
Classes e objetos Modelagem
INF 1771 – Inteligência Artificial
Contagem de Pessoas por Vídeo Usando Câmeras em Posição Zenital
Sistemas Digitais Aula 11.
Introdução a Engenharia de Software
Semana 03: Comandos de desvio de fluxo. Expressões lógicas.
Aprendizado de Máquina
Inteligência Artificial
Tópicos em Gestão de Serviços – Regressão Linear
Alexandre Xavier Falcão & David Menotti
E Ellís Carvalho Luiz Afonso
Anderson Berg Orientador: Prof. Fernando Buarque
Avaliação da Viabilidade Econômico-Financeira em Projetos
Exponential Random Graph Models
Medidas de posição  Estudando as distribuições de  frequência,  percebe-se que existe uma  posição de  concentração dos valores, que podem estar mais concentrados no início, no meio ou no 
DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS
Intervalos de confiança simultâneos (Método de Bonferroni)
DISTRIBUIÇÕES AMOSTRAIS
Modelagem Estatística
Pesquisa Operacional: Método Simplex – Duas Fases
Semana 03 Comandos de desvio de fluxo. Expressões lógicas.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Estatística Inferencial (cap. 7 Martins)
Identificação de Voz Marcelo Lucena André Palhares.
GESTÃO DE RISCOS Master in Project Management FMU 2014
KNN – K Nearest Neighbor (K Vizinhos mais Próximos)
APLICAÇÃO DA TECNOLOGIA COMPUTACIONAL NO PROCESSO DE ENSINO E APRENDIZAGEM DA MATEMÁTICA ESCOLAR: análise de sua contribuição Aluna: Daiely Aparecida de.
CALENDÁRIO 2013 MÓDULO II.
Teste de Software Conceitos iniciais.
Noções de Inferência Estatística
Resoluções de equações Métodos iterativos
Modelagem Estatística
Recuperação Inteligente de Informação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.
KDD E MINERAÇÃO DE DADOS
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Transcrição da apresentação:

Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

Twitter Criado em 2006 Rede social, microblogging Textos de até 140 caracteres (tweets) Serviço gratuito 14/set/2010: 175 milhões de usuários

Hashtags Conjunto de caracteres iniciado por “#” Utilizadas para “categorizar” um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags Grupos de usuários interrelacionando-se isoladamente uns dos outros

POC I Criar uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento “Convergência” das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

Objetivo do trabalho Melhorar o desempenho da metodologia desenvolvida em POC I Resultados não foram satisfatórios

Metodologia Revisão do código-fonte Novos métodos para cálculo de similaridade Tipo diferente de similaridade Parametrização diferente do LDA (α e β) Testes: 5-fold cross-validation

Base de tweets Extraída em 2009 Music Monday Michael Jackson 828591 13833801 NULL NULL <d>2007-03-27 20:21:14</d> <s>web</s> <t>Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)</t> LuckyPhil 40 68 232 36000 0 0 <n>Phillip Welch</n> <ud>2007-03-09 10:00:51</ud> <t>Sydney</t> <l>iPhone: -33.789539,151.125092</l> Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music Monday Michael Jackson Gripe suína 834414 110230 294172 3030 595 2367 831384 (67,4%) 109635 (8,9%) 291805 (23,7%)

Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation) Detecção de tópicos em coleções de documentos não rotulados Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades Iterativo: associa inicialmente de maneira aleatória tópicos  documentos/palavras e melhora a solução atual Convergência

Detecção de tópicos Processo de criação de um documento w em um corpus D: Escolher N ~ Poisson(ξ) Escolher θ ~ Dir(α) Para cada uma das N palavras wn Escolher um tópico zn ~ Multinomial(θ) Escolher uma palavra wn com p(wn|zn, β), uma probabilidade multinomial condicionada ao tópico zn

Detecção de tópicos ? Documento X Tweet X

Detecção de tópicos Distribuição de tópicos por termos Distribuição de tópicos por documentos (tweets) Documento X #hashtag

Detecção de tópicos Parâmetros: Stoplist: lista de stopwords número de tópicos número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

… … Modelagem de tópicos Modelo de tópicos: Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1 t2 t3 tn tópico 1 tópico 2 tópico 3 tópico m         … …

Similaridade de tópicos Para cada token, é somada sua distribuição de probabilidade sobre tópicos Normalização t1 t2 t3 ∑ tópico 1 tópico 2 tópico 3 tópico m  x1  y1    z1  x2  y2    z2  x3  y3    z3  ∑xn   ∑yn     ∑zn … …

Similaridade de tópicos Novo cálculo de similaridade Distância euclidiana Distância cosseno h1 h2 h3 tweet tópico 1 tópico 2 tópico 3 tópico m  x1  y1    z1  x2  y2    z2  x3  y3    z3  ∑xn   ∑yn     ∑zn ~ ~ …

Testes Validação cruzada LDA utilizando 80% da base 20% restantes utilizados para testar o treino realizado Treino Teste 20% 20% 20% 20% 20%

Testes Verificar as hashtags mais recomendadas para cada grupo de tweets (Michael Jackson, Music Monday e gripe suína) Analisar a similaridade entre hashtags recomendadas e as hashtags originais

Obrigado