Juliano Rabelo jcbr@cin.ufpe.br Mineração de Opiniões Juliano Rabelo jcbr@cin.ufpe.br.

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Portfólio de Matemática 3ºTrimestre
Introdução a Informática
INFERÊNCIA DESCRITIVA
FUNÇÕES DA LINGUAGEM.
Indexação Automática de Documentos
Roteiro de Elaboração WEBQUEST.
Diagrama de fluxo de dados (DFD)
Sérgio Elias Vieira Cury
MÉTODO CIENTÍFICO.
Reconhecimento de Padrões Seleção de Características
Reconhecimento de Padrões Dissimilaridade
Introdução a Teoria da Classificação
Processo Desenvolvimento de Software Tradicional
INTERPRETAÇÃO DE TEXTOS
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Engenharia de Requisitos Requisito – sistema Caso de uso - usuário
Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos
TOMADA DE DECISÃO E RACIONALIDADE ADEQUAR OS MEIOS AOS FINS DESEJADOS
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Avaliação de Desempenho
TEXTO ARGUMENTATIVO REVISÃO.
POR QUE É IMPORTANTE SABER GRAMÁTICA?
Análise e Projeto de Sistemas
ALFABETIZAÇÃO Joselaine S. de Castro.
10 dicas para uma boa escrita Falar é fácil, escrever também!
Mineração da Web Recuperação de Informação
Recuperação de Informação Clássica
CURSO TECNICO EM ADMINISTRAÇÃO
A abordagem de banco de dados para gerenciamento de dados
Documentação de Software
CESUSC CURSO DE ADMINISTRAÇÃO
Banco de Dados Aplicado ao Desenvolvimento de Software
Zuleika de Felice Murrie
Profª. Elizangela M. F. da Silva Responsável: Carlos Alberto da Silva.
Estimativas de Custos e Orçamentação
Filtragem Colaborativa
Construção de Itens de Avaliação de Impacto em Profundidade
Ferramentas apresentadas
Escola Básica 2,3 de S.Torcato Ano Letivo
Plano de Aula Análise Qualitativa Características Métodos e Técnicas
Trabalho de Engenharia de Software II
Centro de Informática Universidade Federal de Pernambuco Engenharia de Requisitos Paulo Ramos Jaelson Castro.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Desenvolvimento de Software Dirigido a Modelos
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Técnicas de Coleta de Dados
Classificação de Textos
Webquest Matemática EMEF GUIDO ARNOLDO LERMEN CICLOS DE FORMAÇÃO
Prof. Gabriela LottaPMCS Apresentação da disciplina e introdução Problemas Metodológicos em Ciências Sociais.
Profa. Reane Franco Goulart. É uma representação de engenharia de algo que vai ser construído. Para a engenharia de software o projeto foca em quatro.
FUNÇÕES DA LINGUAGEM.
Pesquisa de Mercado Aula 2 18/08/2010
Vamos fazer juntos um Mapa Mental?
Projeto de Banco de Dados
PROVA BRASIL 2015.
Comunicação e Redação Empresarial
Centro de Educação Superior a Distância do Estado do Rio de Janeiro
Marketing de Relacionamento
Sistemas Aplicativos para Usuários Finais USABILIDADE DE SOFTWARE.
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
TÉCNICAS DE ESTIMATIVAS
Gerenciamento de riscos
Laboratório de Mídias Sociais
Vamos fazer juntos um Mapa Mental? Atividade presencial em grupo IAVM – junho/julho de 2009.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Revisado por Phil Daro, USA Common Core Standards Análise da Base Nacional Comum Curricular de Matemática.
Transcrição da apresentação:

Juliano Rabelo jcbr@cin.ufpe.br Mineração de Opiniões Juliano Rabelo jcbr@cin.ufpe.br

Introdução Dois tipos de informação na web Fatos e opiniões Engenhos de busca são dirigidos a fatos Fatos são bem representados por palavras-chave Já opiniões... O que as pessoas acham do novo celular da Motorola? Estratégia de ordenação dos resultados não apropriada para busca de opiniões

Introdução Boca-a-boca na web Sites de review, fóruns, grupos de discussão, blogs, etc Experiências pessoais e opiniões sobre tudo Informação valiosa em escala global Objetivo: minerar opiniões no conteúdo gerado por usuários Problema complexo Com várias aplicações práticas

Introdução “(1) Sábado passado eu comprei um celular Nokia e minha namorada comprou um Motorola. (2) Quando chegamos em casa nos ligamos. (3) A voz dela não estava tão limpa no meu celular, achei pior que no meu antigo aparelho. (4) Já a câmera é boa. (5) Minha namorada gostou bastante do celular dela. (6) Eu queria um celular com boa qualidade de voz, (7) então minha compra foi muito frustrante. (8) Acabei devolvendo o celular ontem.”

Introdução – Aplicações Empresas: benchmarking de produtos e serviços e pesquisas de mercado Atualmente feitos através de pesquisas de opinião “manuais” Indivíduos: buscam opiniões de outras pessoas Ex: ao comprar produtos Propaganda dirigida Anúncios apropriados para as opiniões emitidas Busca de opiniões Engenho de busca genérico para opiniões

Introdução Três tipos de opinião Direta: “Essa câmera é muito boa” Subjetiva Indireta: “O fone quebrou depois de dois dias” Objetiva Comparação: “Essa câmera é melhor do que aquela” Subjetiva ou objetiva Comparativa!

Busca de Opiniões Antes de tomar uma decisão, consultam-se outras pessoas Atualmente isso não pode ser feito na web Opiniões: “celulares Motorola” Comparações: “celulares Motorola x Nokia”

Consultas de Opinião Típicas O que alguém pensa sobre algo Eg, qual a opinião de Lula sobre privatizar a Petrobras? Um fato = vários fatos IR usual resolve com o uso de queries adequadas Achar opiniões negativas e positivas sobre algo Opiniões de usuários sobre um produto Opiniões sobre um tema político Um fato != vários fatos Algum tipo de agregação/sumarização é necessário Como as opiniões sobre algo variam ao longo do tempo Comparações

Roteiro Mineração de opiniões: abstração Mineração de opiniões Por documento Por sentença Por característica Sentenças comparativas e extração de relação Conclusão

Mineração de opiniões: abstração Componentes de uma opinião Emissor, objeto e opinião Objeto: produto, evento, organização, evento ou tópico Hierarquia de componentes, subcomponentes e atributos Opinião sobre cada componente ou atributo Característica

Modelo de uma review Objeto O representado por um conjunto de características F = {f1, f2, ..., fn} Cada fi pode ser expressa através de um conjunto Wi de palavras ou frases (sinônimos) Modelo: um emissor j comenta sobre um subconjunto Sj F de O Para cada fk, o emissor: Escolhe uma palavra ou frase de Wk Expressa uma opinião positiva, negativa ou neutra

Tarefas No nível de documento: classificação de sentimento de documentos (reviews) Classes: positiva, negativa e neutra Assume que cada documento foca num único objeto e contém opiniões de um único emissor No nível de sentença Tarefa 1: identificar sentenças subjetivas Tarefa 2: classificar sentimento de sentenças Assume que cada sentença contém uma única opinião

Tarefas No nível de característica Tarefa 1: identificar características que foram comentadas por um emissor Tarefa 2: classificar as opiniões Tarefa 3: agrupar características sinônimas Identificar emissores é importante, mas normalmente mais simples Tarefa em comum: produzir um sumário baseado em características

Palavras Opinativas Palavras e frases opinativas Positivas: bonita, ótima, excelente Negativas: ruim, péssimo, horrível, custa o olho da cara Três formas de construir uma lista Manualmente (esforço único) Através de corpus Através de dicionários Importante Palavras dependentes de contexto (eg: grande) e independentes de contexto (eg: ótimo) Ironia e sarcasmo dificultam a classificação

Corpus Duas linhas principais: Baseadas em padrões sintáticos ou de co-ocorrência em corpora grandes Uso de restrições ou convenções sobre conectivos “Esse carro é bonito e espaçoso”

Dicionário Normalmente usam o WordNet Partem de um conjunto-semente pequeno Buscam sinônimos e antônimos no WordNet Pode ser necessária inspeção manual Desvantagem Não encontram palavras dependentes de contexto SentiWordNet

Roteiro Mineração de opiniões: abstração Mineração de opiniões Por documento Por sentença Por característica Sentenças comparativas e extração de relação Conclusão

Mineração por Documento Classificar documentos de acordo com sentimentos expressos por emissores Positivo, negativo e neutro O é uma característica Busca-se a opinião sobre O em cada documento Parecido com classificação de texto baseada em tópicos Mas palavras “opinativas” são mais importantes que palavras de tópico

Mineração por Documento Várias abordagens N-gramas, POS taggers, etc Combinam a polaridade das palavras “opinativas” Sentimento geral é dado de acordo com essa combinação Granularidade inadequada para muitas aplicações

Roteiro Mineração de opiniões: abstração Mineração de opiniões Por documento Por sentença Por característica Sentenças comparativas e extração de relação Conclusão

Mineração por Sentença Primeira tarefa: identificar sentenças “opinativas” Todas as técnicas usam aprendizagem de máquina Rilloff e Wiebe: Bootstrapping Parte de um conjunto manual de indicadores de subjetividade Aprendem padrões sintáticos de sentenças opinativas

Mineração por Sentença Ainda pouco detalhada para muitas aplicações Não encontra o que o emissor gostou e não gostou Sentimento negativo sobre um objeto não indica que o emissor não gostou de nada e vice-versa

Roteiro Mineração de opiniões: abstração Mineração de opiniões Por documento Por sentença Por característica Sentenças comparativas e extração de relação Conclusão

Mineração de opiniões baseada em características Objetivo: achar as características e as opiniões acerca delas Potencialmente muitas características, fontes, emissores, etc Sumarização dos resultados é essencial

Tarefas – Relembrando Tarefa 1: identificar características Tarefa 2: classificar as opiniões Tarefa 3: agrupar característica sinônimas Produzir um sumário baseado em características

Extração de características Normalmente cada segmento de sentença contém uma característica Segmentos separados por vírgula, ponto, ponto-e-vírgula, “e”, “mas”, etc “as fotos são muito boas” Característica explícita: foto “pequena o suficiente para caber no bolso” Característica implícita: tamanho Extração baseada em frequência

Extração baseada em frequência Características frequentes: comentadas por muitos emissores Emissores diferentes se expressam de formas diferentes Quando características de objetos são discutidas, o vocabulário converge Características principais

Extração de características infrequentes Como encontrá-las? A mesma palavra opinativa pode ser usada para descrever características diferentes “As fotos ficam realmente excelentes” “O software da câmera é excelente”

Classificação de opiniões Para cada característica, identificar o sentimento expresso Quase todas as abordagens usam palavras e frases opinativas Observando contexto conforme apropriado

Agregação de opiniões Dada uma sentença s que contém opinião sobre f Identificar as palavras opinativas e somar suas orientações (+1, -1, 0) A orientação da opinião sobre f é dada pelo resultado Pequenas variações ponderando o orientação pela distância de cada palavra opinativa a f

Identificar sinônimos Primeiras tentativas usando apenas WordNet Abordagens mais sofisticadas baseadas em medidas de similaridade Similaridade de string, sinônimos e distâncias calculadas através do WordNet Desvantagem: requer que uma taxonomia de características seja dada

Sumarização Construção de um sumário estruturado Alternativas Votação Selecionar opiniões-chave (de acordo com emissor, assunto ou característica, por exemplo) Identificar pontos de desacordo e de consenso Estabelecer níveis de autoridade entre os autores

Sumarização Textual Característica 1: “foto” Positivas: 12 ... Negativas: 2 Característica 2: “tamanho”

Sumarização Gráfico Sumário para câmera A Foto Bateria Zoom Tamanho Peso Comparativo entre câmeras A e B

Roteiro Mineração de opiniões: abstração Mineração de opiniões Por documento Por sentença Por característica Sentenças comparativas e extração de relação Conclusão

Extração de comparativos Dois tipos de opiniões Direta: “Esse carro é ruim” Comparação: “X é tão bom quanto Y” Usam diferentes construções Tarefas Identificar sentenças comparativas Extrair delas relações comparativas

Perspectiva linguística Sentenças comparativas usam termos como “mais”, “menos”, “tanto quanto”, etc Limitações Cobertura reduzida “A Intel está muito à frente da AMD” Não comparativos com palavras comparativas “No contexto de velocidade, mais rápido significa melhor”

Comparativos mensuráveis Mensurável não igual Expressões como melhor, à frente, etc “o visor da câmera A é melhor que o de B” Mensurável igual Expressões como igual, equivale, ambos, etc “câmeras A e B são ambas muito boas” Superlativo Expressões como a melhor, a maior, etc “a câmera A é a mais barata do mercado”

Comparativos não mensuráveis Sentenças que comparam características entre objetos mas não as mensuram. Implicam: Objeto A é similar/diferente do B em relação a algumas características Objeto A tem f1, objeto B tem f2 (f1 e f2 são equivalentes) Objeto A tem f e B não tem

Roteiro Mineração de opiniões: abstração Mineração de opiniões Por documento Por sentença Por característica Sentenças comparativas e extração de relação Conclusão

Conclusão Três tipos de avaliação Problemas complexos e desafiadores Opiniões diretas e indiretas Em nível de documento, sentença e característica Sumário estruturado de vários documentos Comparações Identificação de sentenças comparativas Extração de relações Problemas complexos e desafiadores Técnicas atuais ainda incipientes Aplicações comerciais estão surgindo Inclusive em Recife

Juliano Rabelo jcbr@cin.ufpe.br Mineração de Opiniões Juliano Rabelo jcbr@cin.ufpe.br