Extração da Informação

Extração da Informação
Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Índice Motivação Introdução Processo de extração da informação
Abordagens para um sistema de EI Desafios Conclusão

Motivação Problema: Documentos na Web Web-service -> Banco de Dados
Por que se estudar sistemas de extração? Sabe-se que com o crescimento da web, há o contínuo crescimento da quantidade de documento digitalizado, sendo esses em sua maioria em forma textual, apresentando conteúdo semi-estruturado ou desustrurado. Então, como extrair o conteúdo correto desses documentos? Considerando o imenso volume de informação disponível nesses repositórios digitais, é de grande interesse a construção de sistemas capazes de selecionar automaticamente apenas os dados de interesse de um usuário, facilitando assim o acesso e a manipulação dessas informações. Há também o caso de como transimitir os dados entre web-services e as bases de dados existentes. Como definir um template para essas interfaces. São dois pontos que exemplificam a necessidade de extrair contéudos específicos e representar ao usuário.

Motivação O que se quer? Resposta aos usuários Resumos de textos
Preencher Base de dados Mineração de dados Ao se pensar em utilizar sistemas de extração o que se deseja: responder a consultas de usuários gerar resumos do texto original; preencher bancos de dados; preencher bases de conhecimento; mineração de dados; sumarizar textos; analisando documentos não estruturados e tentando extrair as corretas informações deles. Para se conseguir atingir isso, é necessário o processo da Extração da Informação.

Introdução O que é EI? Identificar dados relevantes presentes nos documentos sem estruturação precisa. Conversão para estruturas tabular Exibição dos dados de forma legível Mas o que consiste em EI? A Extração de Informação (EI) tem por objetivo extrair, de documentos textuais, apenas os dados relevantes ao usuário [Kushmerick & Thomas 2003]. Ou seja, trata o procedimento de dados relevantes em uma coleção de documentos; Sistemas de EI identificam trechos dos documentos que preenchem corretamente campos de um formulário de saída que determina os dados a serem extraídos. Os dados a serem exrtaídos são previamente definidos em um template (formulário). E cada entrada do formulário é tida como um slot.

Sistema de Extração de Informação
Introdução Sistema de Extração de Informação Sistema de Extração de Informação Aqui tem um esquema que ilustra um pouco melhor o processo da extração da informação. Conforme dito anteriormente,Um sistema de EI tem por objetivo identificar trechos dos documentos que preenchem corretamente campos (slots) de um dado formulário (template) de saída, que determinam as informações que devem ser extraídas. Os dados a serem extraídos são previamente definidos em um template (formulário). De um documento, vamos utilizar algum mecanismo de sistema de extração, vamos obter a resposta a um template (as informações a serem extraídas são previamente conhecidas) e então, com essas informações em mãos poderemos exibir ao usuário, armazenar em servidores ou bases de dados/conhecimento. Agora vamos ter uma idéia num exemplo real como seria:

Introdução EI Classificação Clusterização Segmentação Associação
Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation Cluster A Cluster B Cluster C Um exemplo mais real: Alana Brito – Fernando Rodrigues – Josias Barbosa /05/2010

Introdução História JASPER (1980s)
Sistema para finanças MUC-Message Understanding Conference [final da década de 80] Internet/Web [década de 90] Agora um pouco do histórico da Extração da informação: quando foi que mais ou menos esse tipo de sistema passou a ser utilizado. Um dos primeiros sistemas comercial utilizando a extração da informação foi datado da década de 1980 e foi o JASPER, que era um sistema de finanças desenvolvidos pelos integrantes do Grupo da Carnegie Melon uma universidade dos EUA. Com o objetivo de proporcionar notícias financeiras em tempo real para os operadores financeiros. Depois, mais pro final da década de 80, EI passou a ser usada em Conferências/Competições MUC (Messaage Understanding Conference). Essas conferências eram financiadas pela DARPA (Agência de Defesa dos EUA) que desejavam utilizar da extração da informação para automatizar tarefas rotineiras realizadas pelos analistas do governo, como a digitalização de jornais por possíveis ligação ao terrorismo. Consistia numa espécie de competição onde eram avaliadas as métricas de precisão do resultado da extração da informação. E a partir da década de 90, com o surgimento e crescimento da WEB, se fez necessário ainda mais de sistemas capazes de extrair informação, devido ao grande aumento de documentos textuais nos repositórios digitais. Information extraction dates back to the late 1970s in the early days of NLP.[1] An early commercial system from the mid 1980s was JASPER built for Reuters by the Carnegie Group with the aim of providing real-time financial news to financial traders.[2] Beginning in 1987, IE was spurred by a series of Message Understanding Conferences. MUC is a competition-based conference that focused on the following domains: MUC-1 (1987), MUC-2 (1989): Naval operations messages. MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries. MUC-5 (1993): Joint ventures and microelectronics domain. MUC-6 (1995): News articles on management changes. MUC-7 (1998): Satellite launch reports. Considerable support came from DARPA, the US defense agency, who wished to automate mundane tasks performed by government analysts, such as scanning newspapers for possible links to terrorism. The Message Understanding Conferences (MUC) were initiated and financed by DARPA (Defense Advanced Research Projects Agency) to encourage the development of new and better methods of information extraction.The character of this competition—many concurrent research teams competing against one another—required the development of standards for evaluation, e.g. the adoption of metrics like precision and recall.

EI x Processamento de Linguagem Natural(PLN)
Completa análise dos documentos Complexidade algorítmica alta Extração de Informação Interesse em partes especificas do texto Menor esforço computacional Fazendo agora um breve comparativo entre o Processamento de Linguagem Natural e a Extração de Informação: Processamento de Linguagem natural: Consite da conversão de liguagem humana para representação mais formal. Requer a completa análise dos documentos, apresentando uma complexeidade algorítrmica alta e se tornando inviável para grandes volumes textuais. - Inviável para grandes volumes textuais Extração de Informação preocupada mais com partes específicas do textos, consistindo num menor esforço computacional. Alana Brito – Fernando Rodrigues – Josias Barbosa /05/2010

Mineração na web

Recuperação de informação x EI
Recuperação de documentos relevantes ao usuário baseando-se em cálculos estatísticos sobre os termos que ocorrem no documento. Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras. Extração de Informação Extrai informações relevantes baseando-se no provável domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do domínio Busca derivar conhecimento de documentos recuperados segundo a forma como o documento está estruturado e representado. Sistemas de RI podem ser vistos como "colheitadeiras" que devolvem material útil de um vasto campo de material bruto. Com uma grande quantidade de informação potencialmente úteis em mãos. Um sistema de EI pode, então, transformar o material bruto refinado e reduzindo-o à idéia do texto original.

Processo de extração de informação
Trata o problema de extração de dados relevantes a partir de uma coleção de documentos. Os dados a serem extraídos são previamente definidos em um template (formulário) Na maioria dos sistemas de EI o usuário define templates de extração, ou seja, modelos estruturados a serem preenchidos a partir do artigo original pelo processo de extração. A representação da informação em modelos tem a vantagem de ser altamente estruturada Tabelas com campos pré-definidos ou templates Criação Dos slots Documento com tags

individual Documento Reconhecimento de entidades Análise Léxica e Morfológica Análise de relacionamentos e contexto Análise Sintática Integração Com base nos slots criados, o texto é analisado pelo analisador léxico preenchendo esses slots ?Etapa de integração? com base nesses termos correlacionados ele ve a semantica e faz uma inferência Análise semântica Inferência Informação estruturada e contexto

Abordagens para um Sistema de EI
Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens: Engenharia de conhecimento Treinamento automático As abordagens são diferenciadas pela forma com que as regras são definidas Alana Brito – Fernando Rodrigues – Josias Barbosa /05/2010

Engenharia de conhecimento
Construção de regras é feita manualmente. Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras. Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai se trabalhar. Precisão nos resultados é maior. O tempo de desenvolvimento é maior Alana Brito – Fernando Rodrigues – Josias Barbosa /05/2010

Treinamento automático
Utiliza algoritmos de Inteligência Artificial Algoritmo de treino Uma quantidade de documentos é utilizada no treinamento e geração das regras Treinamento do sistema para novos textos Interação com o usuário pode ser feita Aprende regras com a interação com o usuário Tempo menor de desenvolvimento Menor precisão nos resultados Nenhuma das abordagens é superior a outra, pois a extração depende de muitas variáveis, e muitas vezes variáveis externas. Logo não podemos apontar nenhuma abordagem como completa

Abordagens para um Sistema de EI
Processamento de Linguagem Natural – PLN Wrappers

Processamento de Linguagem Natural - PLN
Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos

Visão Geral Nível Morfológico: estudo da constituição das palavras em elementos básicos; Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença; Nível Semântico: determinação do significado e inter- relacionamento semântico das palavras; Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças; Nível Pragmático: Visa determinar o objetivo do uso da língua This level focuses on analyzing the words in a sentence so as to uncover the grammatical structure of the sentence. This requires both a grammar and a parser. The output of this level of processing is a (possibly delinearized) representation of the sentence that reveals the structural dependency relationships between the words. There are various grammars that can be utilized, and which will, in turn, impact the choice of a parser. Not all NLP applications require a full parse of sentences, therefore the remaining challenges in parsing of prepositional phrase attachment and conjunction scoping no longer stymie those applications for which phrasal and clausal dependencies are sufficient. Syntax conveys meaning in most languages because order and dependency contribute to meaning. For example the two sentences: ‘The dog chased the cat.’ and ‘The cat chased the dog.’ differ only in terms of syntax, yet convey quite different meanings

Nível Morfológico A análise Morfológica determina:
O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras eats  eat + s verbo, singular, 3rd pers dog  dog nome, singular This level deals with the componential nature of words, which are composed of morphemes – the smallest units of meaning. For example, the word preregistration can be morphologically analyzed into three separate morphemes: the prefix pre, the root registra, and the suffix tion. Since the meaning of each morpheme remains the same across words, humans can break down an unknown word into its constituent morphemes in order to understand its meaning. Similarly, an NLP system can recognize the meaning conveyed by each morpheme in order to gain and represent meaning. For example, adding the suffix –ed to a verb, conveys that the action of the verb took place in the past. This is a key piece of meaning, and in fact, is frequently only evidenced in a text by the use of the -ed morpheme.

Nível Sintático A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica Tem como saída a representação da sentença que representa as dependências entre palavras As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes ‘The dog chased the cat.’ ‘The cat chased the dog.’ Syntactic This level focuses on analyzing the words in a sentence so as to uncover the grammatical structure of the sentence. This requires both a grammar and a parser. The output of this level of processing is a (possibly delinearized) representation of the sentence that reveals the structural dependency relationships between the words. There are various grammars that can be utilized, and which will, in turn, impact the choice of a parser. Not all NLP applications require a full parse of sentences, therefore the remaining challenges in parsing of prepositional phrase attachment and conjunction scoping no longer stymie those applications for which phrasal and clausal dependencies are sufficient. Syntax conveys meaning in most languages because order and dependency contribute to meaning. For example the two sentences: ‘The dog chased the cat.’ and ‘The cat chased the dog.’ differ only in terms of syntax, yet convey quite different meanings

Nível Semântico Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença Desambigüidade semântica A cabeça une-se ao tronco pelo pescoço Ele é o cabeça da rebelião Sabrina tem boa cabeça Semantic This is the level at which most people think meaning is determined, however, as we can see in the above defining of the levels, it is all the levels that contribute to meaning. Semantic processing determines the possible meanings of a sentence by focusing on the interactions among word-level meanings in the sentence. This level of processing can include the semantic disambiguation of words with multiple senses; in an analogous way to how syntactic disambiguation of words that can function as multiple parts-of-speech is accomplished at the syntactic level. Semantic disambiguation permits one and only one sense of polysemous words to be selected and included in the semantic representation of the sentence. For example, amongst other meanings, ‘file’ as a noun can mean either a folder for storing papers, or a tool to shape one’s fingernails, or a line of individuals in a queue. If information from the rest of the sentence were required for the disambiguation, the semantic, not the lexical level, would do the disambiguation. A wide range of methods can be implemented to accomplish the disambiguation, some which require information as to the frequency with which each sense occurs in a particular corpus of interest, or in general usage, some which require consideration of the local context, and others which utilize pragmatic knowledge of the domain of the document.

Nível Discursivo Analisa textos maiores que sentenças
Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios Discourse While syntax and semantics work with sentence-length units, the discourse level of NLP works with units of text longer than a sentence. That is, it does not interpret multisentence texts as just concatenated sentences, each of which can be interpreted singly. Rather, discourse focuses on the properties of the text as a whole that convey meaning by making connections between component sentences. Several types of discourse processing can occur at this level, two of the most common being anaphora resolution and discourse/text structure recognition. Anaphora resolution is the replacing of words such as pronouns, which are semantically vacant, with the appropriate entity to which they refer (30). Discourse/text structure recognition determines the functions of sentences in the text, which, in turn, adds to the meaningful representation of the text. For example, newspaper articles can be deconstructed into discourse components such as: Lead, Main Story, Previous Events, Evaluation, Attributed Quotes, and Expectation

Nível Pragmático Foca no significado que vai além do contexto do texto
Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução. This level is concerned with the purposeful use of language in situations and utilizes context over and above the contents of the text for understanding The goal is to explain how extra meaning is read into texts without actually being encoded in them. This requires much world knowledge, including the understanding of intentions, plans, and goals. Some NLP applications may utilize knowledge bases and inferencing modules. For example, the following two sentences require resolution of the anaphoric term ‘they’, but this resolution requires pragmatic or world knowledge. The city councilors refused the demonstrators a permit because they feared violence. The city councilors refused the demonstrators a permit because they advocated revolution.

Wrappers Maior desenvolvimento da WEB nos anos 90.
Necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos da WEB. Extraem a informação de documentos e a exportam como parte de uma estrutura de dados. A partir dos anos 1990

Wrappers Textos são principalmente:
Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida, permitem a ocorrência de variações na ordem dos dados. Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.

Técnicas de Extração Autômatos finitos Casamento de padrões
Classificadores de texto Modelos de Markov escondidos (HMM)

Autômatos Finitos Bons para textos estruturados.
Definidos manualmente ou aprendidos automaticamente. Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais (categorização) Transducers

Casamento de Padrões Textos estruturados, semi-estruturados e livres.
Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. ER mais intuitivas do que autômatos.

Classificadores de Texto
Textos semi-estruturados Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Modelos de Markov Escondidos (HMM)
Textos livres e semi-estruturados. Verifica a ocorrência de padrões em sequência no texto de entrada. Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Construção de wrappers
Automática Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. Semi-automática Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. Manual Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

Desafios Técnicas de Extração “Dividir pra Conquistar”
Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem A partir dos anos 1990

Conteúdo preciso, claro Padrões Ontologia
Desafios Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia

Aplicações de EI Filtragem de Fóruns Monitoramento da WEB
Controle de Conteúdo Assunto do Dialogo Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Conclusões Extrair Informação é preciso
WEB é um pandemônio de informações Soluções inteligentes

Dúvidas

Referências MANFREDINI, V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc pdf

Referências Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR aoNaWeb.pdf

Referências www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt
ewFile/413/409 MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn

Extração da Informação

Apresentações semelhantes

Apresentação em tema: "Extração da Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Extração da Informação

Apresentações semelhantes

Apresentação em tema: "Extração da Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback