Operações sobre o Texto

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo de Redes de Crenças
Modelo Probabilístico
Operações sobre as Consultas
Prof. Leonardo Queiroga
O modelo morfossintático -
Linguagem de Montagem Visão geral.
Indexação Automática de Documentos
Especificação de Consultas
Propriedades de Documentos
Recuperação de Imagens
Análise Estruturada Moderna
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
Linguagens Formais e Autômatos
Redação de textos técnicos recomendações
Reconhecimento de Padrões Dissimilaridade
Introdução a Teoria da Classificação
A FAST APRIORI implementation
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
INTERPRETAÇÃO DE TEXTOS
3. Sintaxe e Semântica.
Métodos De Pesquisa Na Internet
A implementação de avaliação formativa na sala de aula
PLANO DAS CLASSES DE PALAVRAS
TUTORIAL. Acervo digital de obras de referência (dicionários e enciclopédias) com acesso ao texto completo e busca textual. Contempla diversas áreas do.
Inteligência Artificial
ALEXANDRA ALINE VERA.
Dicas para pesquisas no Google
TUTORIAL. Acervo de 47 jornais especialmente selecionados pela British Library para melhor representar o século XIX. Inclui jornais nacionais e regionais.
O DICIONÁRIO É UM PRECIOSO INSTRUMENTO
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação Clássica
Construindo tesauros Prof. José Antonio M. Nascimento.
Recuperação de Informação
1. Aprenda o básico sobre o Google
Vocabulários Controlados
Equipe NTM/Santos. SITES DE BUSCA São sites que atuam como robôs na busca de páginas que contém as informações que você procura a partir de palavras chave.
Classificacao de Texto Projeto Spam Filter
Tutorial: Cadastro.
Como elaborar um trabalho de pesquisa
Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Recuperação 1.
Equipe: Osias Carneiro, Anderson Soares, André Araújo
Apresentação de Resumos -NBR 6028
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Métodos Formais.
Nomeação de arquivos – Cap 4.1.1
Mas para que serve um analisador sintático? Verificar se a estrutura gramatical do programa está correta Escrito de outra forma: O texto segue as regras.
11/12 de Maio de 2004Caracteres e cadeias1 Caracteres e Cadeias (“Strings”) Pedro Barahona DI/FCT/UNL Maio 2004.
Recuperação Inteligente de Informação
Professor Esp. Diego André Sant’Ana Disciplina: Sistemas Operacionais II Sistemas de Arquivos- Tipo de arquivos – Cap
COMPILADORES 04 Prof. Marcos.
Resumo.
PREPARAÇÃO PARA DESENVOLVIMENTO DE TRABALHO ACADÊMICO Adaptado de Tutoriais do Programa de Capacitação da BU/UFSC Tatiana Rossi Bibliotecária – CRB 14/1186.
MORFOLOGIA SINTAXE SEMÂNTICA.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Modelo e Normas para Elaboração de Trabalhos Científicos
Etapas de uma sequência didática
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
Introdução ao estudo da Morfossintaxe
Indexação e Resumos: teoria e prática
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
María Pinto Molina “Hacia um modelo de representación documental: la técnica de resumir”
Transcrição da apresentação:

Operações sobre o Texto Eveline Alonso Veloso PUC-MINAS

Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 7.

Motivação Nem todas as palavras são igualmente significantes; para representar a semântica de um documento. Substantivos são as palavras mais representativas do conteúdo de um documento; “carregam” mais significado. O pré-processamento dos documentos da coleção é realizado; com o objetivo de determinar os termos que serão utilizados como termos de indexação.

Indexação do Texto Completo dos Documentos Representar documentos utilizando como termos de indexação todos os seus termos; promove uma representação imprecisa da semântica dos documentos da coleção. Há termos que não possuem um significado muito forte; não sendo muito representativos do conteúdo do documento; artigos, preposições, conjunções, etc. A utilização então de todas as palavras da coleção para indexar seus documentos; gera muito “ruído” na tarefa de recuperar informação.

Pré-processamento dos Documentos da Coleção Maneira de reduzir esse “ruído”: reduzir o conjunto de palavras que podem ser utilizadas para indexar os documentos da coleção. Pré-processamento dos documentos da coleção; pode ser visto como um processo para controlar e selecionar o vocabulário utilizado para indexar os documentos.

Potencial Prejuízo do Pré-processamento dos Documentos Normalmente não é do conhecimento dos usuários dos sistemas de recuperação de informação; a realização desse pré-processamento nos documentos da coleção. Como resultado, um usuário pode ficar surpreso com alguns dos documentos retornados; e com a ausência de outros que ele esperava.

Conclusão As transformações realizadas sobre o texto original dos documentos; potencialmente podem melhorar o processo de recuperação de informação; mas podem também tornar mais difícil para o usuário interpretar a tarefa de recuperação. Por causa disso, algumas máquinas de busca estão optando por indexar o texto completo de seus documentos; apesar do índice ter mais “ruído”; a tarefa de recuperação de informação é mais simples e intuitiva para o usuário.

Transformações Análise léxica do texto; Eliminação de stopwords; com o objetivo de identificar candidatos a termos de indexação; tratando dígitos, hífens, sinais de pontuação, acentuação, caracteres especiais e letras maiúsculas e minúsculas. Eliminação de stopwords; com o objetivo de retirar palavras que possuem um baixo valor de discriminação para o processo de recuperação de informação.

Transformações Radicalização; Seleção de termos de indexação; com o objetivo de remover sufixos e prefixos; e permitir a recuperação de documentos contendo variações sintáticas dos termos da consulta. Seleção de termos de indexação; determinando quais palavras poderão ser utilizadas para indexar os documentos da coleção. Essa escolha está relacionada com a natureza sintática da palavra; substantivos geralmente “carregam” mais semântica do que adjetivos e advérbios.

Análise Léxica do Texto Identificação das palavras candidatas a termos de indexação; tratando dígitos, hífens, sinais de pontuação, acentuação, caracteres especiais e letras maiúsculas e minúsculas.

Conversão de Letras Maiúsculas em Minúsculas ou Vice-versa Considerar se a palavra está escrita em letras maiúsculas ou minúsculas; não é importante para a identificação dos termos de indexação; nem para aspectos de recuperação de informação. Normalmente, durante a análise léxica, todas as palavras identificadas; são convertidas para letras maiúsculas ou minúsculas.

Eliminação de Sinais de Pontuação Em geral, os sinais de pontuação são totalmente removidos; durante a análise léxica do texto dos documentos da coleção.

Eliminação de Sinais de Pontuação No entanto, há contextos em que esses sinais podem ser importantes. Exemplo: sistema de recuperação de informação para a área médica; códigos CID como J30.2

Eliminação de Caracteres Especiais Em geral, também são eliminados durante a análise léxica do texto dos documentos da coleção; e desconsiderados caso apareçam na consulta do usuário.

Eliminação de Caracteres Especiais No entanto, há contextos em que os caracteres especiais podem ser importantes. Exemplo: e-mails. Assim, muitos sistemas de recuperação de informação estão optando por dar um tratamento diferente dependendo do caracter especial; e do local onde ele aparece; no termo identificado; e na consulta do usuário.

Eliminação de Hífens Eliminar os hífens, separando os termos das palavras que foram escritas utilizando-os; considerando então mais de um termo de indexação; pode ser útil devido a inconsistências de uso; a mesma palavra escrita com e sem hífen em documentos diferentes. No entanto, existem palavras que são realmente escritas com hífen e sua separação em mais de um termo de indexação pode prejudicar o processo de recuperação de informação; interpretando incorretamente a necessidade de informação do usuário.

Eliminação de Hífens Uma solução parece ser: separar os termos das palavras que foram escritas utilizando-se hífens; considerando então mais de um termo de indexação; durante a indexação do documento. caso o usuário especifique sua consulta utilizando hífens; os hífens são desconsiderados; permitindo recuperar tanto documentos onde a palavra aparece com hífen quanto documentos em que ela aparece sem hífen. mas a consulta é processada como uma consulta por frase exata; recuperando apenas documentos onde os termos especificados aparecem próximos e na ordem indicada.

Eliminação de Dígitos Dígitos não são geralmente bons termos de indexação; porque sem estarem inseridos e associados a um contexto bem-definido; são muito vagos. Por isso, muitas vezes, opta-se por eliminar dígitos do conjunto de termos de indexação. No entanto, associados a palavras, ou seja, inseridos em um determinado contexto, podem ser muito importantes. Exemplo: datas como 7 de setembro de 1822.

Eliminação de Acentuação Eliminar os acentos; pode ser útil devido a inconsistências de uso; a mesma palavra escrita com e sem acento em documentos diferentes. No entanto, na língua portuguesa, existem palavras com significados completamente diferentes; mas que são escritas com as mesmas letras; diferenciando-se apenas pela presença ou ausência do acento. Nesse caso, a eliminação da acentuação pode causar uma interpretação incorreta da necessidade de informação do usuário.

Eliminação de Stopwords Palavras que são muito freqüentes em muitos dos documentos da coleção; não são bons discriminadores dos documentos relevantes para uma consulta. Por isso, são pouco úteis para objetivos de recuperação de informação. Essas palavras são conhecidas como stopwords: artigos, preposições, conjunções. Verbos e advérbios muito comuns também podem ser incluídos na lista de stopwords: são, está, é, etc.

Eliminação de Stopwords Em geral, as stopwords são eliminadas durante o processo de indexação dos documentos. Benefícios da eliminação de stopwords: redução do tamanho do índice da coleção; aumento da velocidade de processamento da consulta. No entanto, esse procedimento pode prejudicar o processo de recuperação de informação; especialmente para consultas por frase exata.

Eliminação de Stopwords

Eliminação de Stopwords Uma solução para esse problema tem sido: desconsiderar as stopwords em consultas que não são por frase exata; o que diminui o número de termos de indexação e de ocorrências a serem considerados; diminuindo também o tempo de processamento da consulta. mas considerá-las em consultas por frase exata; cerca de apenas 10% das consultas submetidas às máquinas de busca disponíveis na Web.

Radicalização – Stemming Freqüentemente, o usuário especifica uma palavra em uma consulta; mas apenas uma variação sintática dessa palavra está presente em um documento relevante. Esse problema pode ser resolvido com a substituição de palavras pelos seus respectivos radicais; a porção de uma palavra que resta; após a remoção de prefixos e sufixos.

Radicalização – Stemming A radicalização é útil para melhorar o processo de recuperação de informação porque reduz variantes que apresentam a mesma raiz; e são relacionadas a um conceito comum. Exemplo: a palavra no singular, no plural, na forma do verbo correspondente, o verbo no gerúndio ou em algum tempo verbal são reduzidos ao mesmo radical. A literatura da área ainda é controversa em relação aos benefícios da radicalização.

Seleção de Termos de Indexação Pode-se utilizar todas as palavras de um texto; para representá-lo. Pode-se também utilizar uma estratégia mais abstrata; em que nem todas as palavras são usadas como termos de indexação. Isso significa que o conjunto de termos de indexação deve ser controlado e selecionado; essa seleção pode ser feita por um especialista ou automaticamente.

Seleção de Termos de Indexação Substantivos “carregam” mais semântica do que verbos, adjetivos e advérbios. Uma estratégia para selecionar automaticamente os termos de indexação; é selecionar apenas os substantivos que aparecem na coleção. Além disso, como é comum combinarmos dois ou mais substantivos para denotar um único conceito; como sistemas de informação; podemos também agrupar substantivos que aparecem próximos no texto em um único termo de indexação; que representa um único conceito.