A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –

Apresentações semelhantes


Apresentação em tema: "Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –"— Transcrição da apresentação:

1 Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima – adsl@usp.br

2 Porque analisar as relações sociais em blogs? Na verdade, o que ganhamos com isso?

3 Podemos descobrir... ◦ Se estão falando mal de um produto ◦ Como um governo é avaliado na internet ◦ Quais são os blogs mais influentes sobre um assunto específico? ◦ Quais são os blogs que poderiam se tornar parceiros? ◦...

4 Roteiro Elementos de um modelo de análise social em blogs Mas como classificar um blog? ◦ Ontologias ◦ Técnicas de IA Implementando um classificador ◦ Classificação baysesiana inocente ◦ Arquitetura do classificador ◦ Experimentos realizados Conclusões Trabalhos futuros

5 Elementos de um modelo de análise social em blogs Indexação de acordo com o problema ◦ Crawlers personalizados  Grafos com a semântica dos nós e arestas representando relacionamentos sociais Classificação de dados ◦ Ontologias sobre o domínio do problema ◦ Técnicas de classificação Análise dos dados ◦ Algoritmos de busca em grafos ◦ Agentes Autônomos

6 Analisando... Quais são os blogs mais influentes de uma área? ◦ Como determinar o “grau de influência”? ◦ Como classificar um blog?

7 Mas como classificar um blog? Quais são as áreas? ◦ Ontologias para defini-las! Classificar os posts de acordo com a ontologia Utilizando técnicas de IA  Classificação bayesiana inocente  Base de regras  Redes Neurais

8 Ontologia Vocabulário comum que permite o compartilhamento de conhecimento sobre um determinado domínio [Noy & McGuinness, 2001] Representa ◦ classes ◦ propriedades ◦ atributos ◦ instâncias

9 Um exemplo Domínio ◦ Mercado de consoles (jogos eletrônicos) Classes ◦ Nintendo, Sony e Microsoft Propriedades  Concorrentes, parceiras Atributos  Vendas, data de lançamento Instâncias ◦ Wii, DS, PlayStation, PSP, XBox360

10 Técnicas de classificação TécnicaContrasPrós Classificação baysesiana  Base de treinamento  Precisão  Facilidade de implementação Base de regras  Definição das regras  Facilidade de implementação Redes neurais  Base de treinamento  Parâmetros de entrada  Precisão

11 Classificação baysesiana inocente Idéia básica [Manning et al, 2008] 1.Aprender quais os termos mais comuns em textos de cada classe  Necessita um conjunto de treinamento 2.Criar um dicionário de probabilidades  Dado um termo qual a chance dele aparecer em um texto de cada uma das classes?  Termo  matriz de probabilidades 3.Computar a classe de um texto somando as probabilidades de cada palavra

12 Classificação baysesiana inocente Probabilidade de um termo aparecer em um documento dada uma classe: Nos documentos da classe c ◦ Número de ocorrências do termo dividido pelo número termos de todos os documentos

13 Arquitetura do classificador Posts Crawler Cache Local Indexador Dicionário de Termos P(t | e) Classificador Ontologia

14 Aplicando a técnica Definição do Experimento ◦ Foco na área de games  Ontologia (classes)  Nintendo, Sony, Microsoft ◦ Blogs do Twitter  Menos dados para tratar, facilidade na indexação  Tudo cabe na memória!  Maior dificuldade na classificação  Quanto menos palavras mais difícil de se classificar um post

15 Aplicando a técnica Dados indexados pelo Crawler ◦ 15 blogs, 5 blogs de cada classe ◦ Aproximadamente 200 posts indexados de cada blog ◦ 3000 posts aproximadamente Conjunto de Treinamento ◦ 100 posts indexados de cada blog ◦ 1500 posts aproximadamente Conjunto de Testes ◦ 100 posts indexados de cada um ◦ 1500 posts aproximadamente

16 Resultados ClassePostsAcerto s Porcentagem Nintendo49346494% Sony48935172% Microsoft49447596% Total1476129087%

17 Análise dos resultados Ótima tacha de acerto para as classes Nintendo e Microsoft Porém, uma tacha muito abaixo da média para classe Sony ◦ Dificuldade de diferenciação entre Sony e Microsoft ◦ Qualidade dods dados indexados  Os posts nem sempre estão relacionados com a plataforma

18 Análise dos resultados Sony x Microsoft Sony x Microsoft ◦ Há uma intersecção entre as classes Nintendo SonyMS “New Lost Planet 2 Multiplayer Demo coming to #PlayStation Network and Xbox Live http://bit.ly/d3RsmN” PlayStati0nNews

19 Análise dos resultados Qualidade do dados indexados ◦ Os posts nem sempre estão relacionados com a plataforma “So Not Loving the Weather Right Now!” PLAYSTATIONTEAM

20 Dificuldades encontradas Quantidade de dados ◦ 3000 posts com aproximadamente 500kb de texto ◦ Muito pouco quando comparado com as bases atuais [Manning et al, 2008]  Reuters Corpus Volume 1 (RCV1)  Mais de 800 mill documentos  U.S. National Institute of Standards and Technology (NIST)  Mais de 25 milhões de documentos

21 Dificuldades encontradas Limitações da API do Twitter ◦ No máximo os 200 posts mais recentes podem ser extraídos Falta de experiência do uso de técnicas de recuperação de informação Falta de tempo para classificar manualmente o conjunto de testes

22 Conclusões aysesiana pode obter bons resultados desde que A classificação baysesiana pode obter bons resultados desde que ◦ O conjunto de treinamento seja grande e coerente ◦ As classes tenham uma pequena intersecção Para a implementar o classificador Para a implementar o classificador ◦ Muito tempo dedicado as tarefas auxiliares ◦ Muito tempo dedicado a análise e ajuste dos dados

23 Conclusões Legado para teste Legado para teste ◦ Teórico  Primeiro passo da criação de um modelo de análise dos relacionamentos sociais ◦ Prático (implementado)  Crawler para o Twitter  Indexador de dados com diversos conceitos de Recuperação de Informação  Tokenização, normalização, stopwords, etc.  Classificador bayesiano genérico

24 Trabalhos futuros Integração do classificador com o grafo de influências Maior detalhamento da ontologia Conjuntos de testes mais robustos Estudos de novas técnicas de classificação Análise em blogs e não apenas em microblogs Avaliação de como ele pode ser aplicado em modelo genérico de análises sociais em Blogs

25 Referências [Manning et al, 2008] C. D. Manning, P. Raghavan and H Schütze. Introduction to Information Retrieval. Hardback (ISBN- 13: 9780521865715). Published: July 2008. [Noy & McGuinness, 2001] Noy, N. F., D. L. McGuinness. Ontology Development 101: A Guide to Creating Your First Ontology.

26 Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima – adsl@usp.br


Carregar ppt "Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –"

Apresentações semelhantes


Anúncios Google