Recomendação de hashtags para o Twitter

Slides:

Advertisements

Apresentações semelhantes

Medidas de Avaliação de Sistemas de Recuperação de Informação

Advertisements

Aprendizado de Máquina

Algoritmos para Geração de Variáveis Aleatórias

Amintas engenharia.

Celso C. Ribeiro Caroline T. Rocha

O PROBLEMA DE LOCALIZAÇÃO

Mineração de Dados Avaliação de Classificadores

Adriano Kaminski Sanches

Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 5.

Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 9.

Ludwig Krippahl, 2009 Programação para as Ciências Experimentais 2008/9 Teórica 4.

Ludwig Krippahl, 2008 Programação para as Ciências Experimentais 2007/8 Teórica 11.

1 Controlo e Aprendizagem Aula Teórico-Prática nº 23 CIÊNCIAS DO DESPORTO E EDUCAÇÃO ESPECIAL E REABILITAÇÃO Aula Teórico-Prática nº 23 CIÊNCIAS DO DESPORTO.

Uma das tarefas descritivas da

PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO

Programação Linear Método Simplex

Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo

Algoritmos para Seleção Simples

Considerações Iniciais

Recomendação de hashtags para o Twitter

Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ

Projeto: CPG Alunos Especiais

Estatística Aula 01 Prof. Marllus Gustavo Ferreira Passos das Neves

Otimização de Funções Contínuas via Algoritmos Genéticos

Transformações Geométricas

MGattass Rotações e Quatérnios. MGattass Objetos compostos hierarquicamente.

Transformações Geométricas Coordenadas Homogêneas e Rotações.

Bruno Tardiole Kuehne Orientador: Prof. Dr. Marcos José Santana

FACENS – Engenharia da Computação Inteligência Artificial

CONCEITOS INICIAIS DE CONFIABILIDADE

Ernesto F. F. Ramírez e Saide J. Calil

Jackson D. N. Mourão Pietrângelo V. Ferronato

Anderson Berg Orientador: Prof. Fernando Buarque

Classes e objetos Modelagem

INF 1771 – Inteligência Artificial

Contagem de Pessoas por Vídeo Usando Câmeras em Posição Zenital

Sistemas Digitais Aula 11.

Introdução a Engenharia de Software

Semana 03: Comandos de desvio de fluxo. Expressões lógicas.

Aprendizado de Máquina

Inteligência Artificial

Tópicos em Gestão de Serviços – Regressão Linear

Alexandre Xavier Falcão & David Menotti

E Ellís Carvalho Luiz Afonso

Anderson Berg Orientador: Prof. Fernando Buarque

Avaliação da Viabilidade Econômico-Financeira em Projetos

Exponential Random Graph Models

Medidas de posição Estudando as distribuições de frequência, percebe-se que existe uma posição de concentração dos valores, que podem estar mais concentrados no início, no meio ou no

DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS

Intervalos de confiança simultâneos (Método de Bonferroni)

DISTRIBUIÇÕES AMOSTRAIS

Modelagem Estatística

Pesquisa Operacional: Método Simplex – Duas Fases

Semana 03 Comandos de desvio de fluxo. Expressões lógicas.

CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.

Estatística Inferencial (cap. 7 Martins)

Identificação de Voz Marcelo Lucena André Palhares.

GESTÃO DE RISCOS Master in Project Management FMU 2014

KNN – K Nearest Neighbor (K Vizinhos mais Próximos)

APLICAÇÃO DA TECNOLOGIA COMPUTACIONAL NO PROCESSO DE ENSINO E APRENDIZAGEM DA MATEMÁTICA ESCOLAR: análise de sua contribuição Aluna: Daiely Aparecida de.

CALENDÁRIO 2013 MÓDULO II.

Teste de Software Conceitos iniciais.

Noções de Inferência Estatística

Resoluções de equações Métodos iterativos

Modelagem Estatística

Recuperação Inteligente de Informação

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.

KDD E MINERAÇÃO DE DADOS

Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.

Transcrição da apresentação:

Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

Twitter Criado em 2006 Rede social, microblogging Textos de até 140 caracteres (tweets) Serviço gratuito 14/set/2010: 175 milhões de usuários

Hashtags Conjunto de caracteres iniciado por “#” Utilizadas para “categorizar” um tweet Um determinado acontecimento/assunto pode ser citado utilizando diversas tags Grupos de usuários interrelacionando-se isoladamente uns dos outros

POC I Criar uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento “Convergência” das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

Objetivo do trabalho Melhorar o desempenho da metodologia desenvolvida em POC I Resultados não foram satisfatórios

Metodologia Revisão do código-fonte Novos métodos para cálculo de similaridade Tipo diferente de similaridade Parametrização diferente do LDA (α e β) Testes: 5-fold cross-validation

Base de tweets Extraída em 2009 Music Monday Michael Jackson 828591 13833801 NULL NULL <d>2007-03-27 20:21:14</d> <s>web</s> <t>Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)</t> LuckyPhil 40 68 232 36000 0 0 <n>Phillip Welch</n> <ud>2007-03-09 10:00:51</ud> <t>Sydney</t> <l>iPhone: -33.789539,151.125092</l> Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5) Music Monday Michael Jackson Gripe suína 834414 110230 294172 3030 595 2367 831384 (67,4%) 109635 (8,9%) 291805 (23,7%)

Detecção de tópicos Algoritmo LDA (Latent Dirichlet Allocation) Detecção de tópicos em coleções de documentos não rotulados Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades Iterativo: associa inicialmente de maneira aleatória tópicos  documentos/palavras e melhora a solução atual Convergência

Detecção de tópicos Processo de criação de um documento w em um corpus D: Escolher N ~ Poisson(ξ) Escolher θ ~ Dir(α) Para cada uma das N palavras wn Escolher um tópico zn ~ Multinomial(θ) Escolher uma palavra wn com p(wn|zn, β), uma probabilidade multinomial condicionada ao tópico zn

Detecção de tópicos ? Documento X Tweet X

Detecção de tópicos Distribuição de tópicos por termos Distribuição de tópicos por documentos (tweets) Documento X #hashtag

Detecção de tópicos Parâmetros: Stoplist: lista de stopwords número de tópicos número de iterações α = 50/(número de tópicos) β = 0,01 Stoplist: lista de stopwords

… … Modelagem de tópicos Modelo de tópicos: Obtido diretamente a partir da execução do LDA Distribuição de probabilidade de tópicos por token t1 t2 t3 tn tópico 1 tópico 2 tópico 3 tópico m … …

Similaridade de tópicos Para cada token, é somada sua distribuição de probabilidade sobre tópicos Normalização t1 t2 t3 ∑ tópico 1 tópico 2 tópico 3 tópico m x1 y1 z1 x2 y2 z2 x3 y3 z3 ∑xn ∑yn ∑zn … …

Similaridade de tópicos Novo cálculo de similaridade Distância euclidiana Distância cosseno h1 h2 h3 tweet tópico 1 tópico 2 tópico 3 tópico m x1 y1 z1 x2 y2 z2 x3 y3 z3 ∑xn ∑yn ∑zn ~ ~ …

Testes Validação cruzada LDA utilizando 80% da base 20% restantes utilizados para testar o treino realizado Treino Teste 20% 20% 20% 20% 20%

Testes Verificar as hashtags mais recomendadas para cada grupo de tweets (Michael Jackson, Music Monday e gripe suína) Analisar a similaridade entre hashtags recomendadas e as hashtags originais

Obrigado