A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Extração de Informação

Apresentações semelhantes


Apresentação em tema: "Extração de Informação"— Transcrição da apresentação:

1 Extração de Informação
Edilson Leite da Silva Menandro Ribeiro Santana Wendell Campos Veras [els3, mrs2,

2 Classificação de Sistemas de EI Considerações Finais
Roteiro Introdução Conceitos Básicos Classificação de Sistemas de EI Considerações Finais Aplicações Recuperação Inteligente de Informação – CIN – UFPE –

3 Introdução

4 Questões importantes:
Motivação Problemas Maior parte da informação está em forma de texto livre Questões importantes: Como localizar informação relevante? Como extrair a informação relevante? Como gerar BDs ou bases de conhecimento automaticamente? Com o crescimento do número de fontes de informação textuais on-line, muitos estudos tentam dar à manipulação em documentos o mesmo poder dos SGBDs. A Internet cresce exponencialmente, sendo que a maior parte dessa informação está em forma de texto livre. Com isso, é obtida uma imensa quantidade de dados, onde muitos são irrelevantes. Recuperação Inteligente de Informação – CIN – UFPE –

5 Extração de Informação (EI)
Extração de Informação pode ajudar... Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99] Blah blah blah trecho relevante blah blah blah Dentre os estudos que visam solucionar esses problemas e responder esses questionametnos, destaca-se a Extração de Informação (EI). Ela pode ser considerada “uma forma de processamento superficial de documento que envolve popular um banco de dados com valores extraídos automaticamente a partir de documentos”. Tais sistemas têm por objetivo identificar trechos em um documento de entrada que possam preencher corretamente os campos (slots) em um formulário (template) de saída. Assim, um sistema de EI não é obrigado a interpretar todo o documento que está sendo processado, mas apenas as partes que lhe convém. Recuperação Inteligente de Informação – CIN – UFPE –

6 Sistema de Extração de Informação
Por exemplo, temos várias páginas de pesquisadores contendo grande parte da sua vida acadêmica. Dessas informações apenas algumas são relevantes no nosso contexto. Um sistema de EI recebe como entrada essas páginas de pesquisadores e identifica/extrai todas as informações necessárias ao preenchimento do template. Recuperação Inteligente de Informação – CIN – UFPE –

7 Extração de Informação (EI)
Os dados a serem extraídos são previamente definidos em um template (formulário) Os dados extraídos podem ser diretamente apresentados na tela ser usados para preencher um BD ou uma BC Sistema p/ EI BD Item1: Item2: Item3: Item4: Item5: Template BC Para que a extração seja realizada é necessário definir previamente quais as informações são relevantes, isto é, quais informações farão parte do template (formulário) a ser preenchido pelo sistema. Após esse preenchimento, os dados podem ser apresentados ao usuário através de uma tela ou podem preencher um banco de dados ou uma base de conhecimento. Recuperação Inteligente de Informação – CIN – UFPE –

8 Extração de Informação (EI)
Técnica pode ser aplicada a diferentes tipos de textos: Artigos de Jornais Web pages Artigos Científicos Mensagens de Newsgroup Classificados Anotações Médicas O processo de extração de informação pode ser aplicado em diferentes tipos de textos, dentre os quais podemos destacar: Artigos de Jornais, Web pages, Artigos Científicos, Mensagens de Newsgroup, Classificados e Anotações Médicas. Recuperação Inteligente de Informação – CIN – UFPE –

9 Extração de Informação (EI)
História Década de 60 Processamento de Linguagem Natural Década de 90 MUC - Message Understanding Conference Após década de 90 … Internet Wrappers (extratores) Os trabalhos sobre EI tiveram seu início em meados dos anos 60, através de projetos orientados a Processamento de Linguagem Natural (ou PLN). As pesquisas de extração de informação realmente só sofreram um grande impulso no final de 1980, com a criação das conferências MUC (Message Understanding Conferences), patrocinadas pela agência de defesa dos Estados Unidos, a DARPA. Tais conferências tinham o intuito de avaliar e promover o avanço tecnológico em EI, contribuindo dessa forma para a formalização da tarefa de extração de informação e das métricas utilizadas na avaliação de desempenho. Até então não havia sido possível analisarem-se quantitativamente os sistemas existentes sobre uma mesma coleção de textos e um mesmo critério de avaliação. A partir de 1990, com o crescimento da Internet, tornou-se mais evidente os denominados documentos Web. Esses documentos se diferenciaram dos tradicionalmente usados em EI por apresentarem freqüentes mudanças nos conteúdos dos documentos, grandes volumes de informações em fontes independentes e de textos estruturados e semi-estruturados em estruturas agramaticais/pobres gramaticalmente etc. Assim, a tradicional técnica de PLN, que exigia uma rica estrutura gramatical e um elevado tempo de processamento, tornou-se inadequada (ou mesmo inviável). Isso motivou a criação de um novo grupo de sistemas de EI, denominados Wrappers, que serão abordados mais adiante. Recuperação Inteligente de Informação – CIN – UFPE –

10 EI vs. Recuperação de Informação
Entrega documentos para o usuário Extração de Informação: Entrega fatos para o usuário/aplicações A extração de informação é uma técnica de processamento de texto complementar a Recuperação de Informação (RI), o que a torna bastante importante na manipulação de documentos. Contudo, esta técnica se diferencia da extração de informação pelo fato de obter documentos relevantes e não informações a partir de uma coleção de documentos. Na RI o usuário fica responsável por encontrar as informações relevantes nos documentos selecionados, enquanto na EI esse processo é automatizado. Além disso, a RI existe basicamente desde o tempo das bases de dados de documentos, enquanto a EI, apenas há poucas décadas. Recuperação Inteligente de Informação – CIN – UFPE –

11 Línguagem Natural é difícil de tratar automaticamente
Por que EI é difícil? Línguagem Natural é difícil de tratar automaticamente é muito flexível várias formas para expressar uma única informação Frodo Baggins succeeds Bilbo Baggins as chairperson of Bank of America. Bank of America named Frodo Baggins as its new chair-person after Bilbo Baggins. Bilbo Baggins was succeeded by Frodo Baggins as chair-person of Bank of America. Recuperação Inteligente de Informação – CIN – UFPE –

12 Conceitos Básicos

13 Formato pré-definido e rígido
Texto Estruturado Formato pré-definido e rígido Facilita a extração através de regras simples Baseadas na ordem de apresentação Rótulo das informações O texto estruturado possui um formato predefinido e rígido, lembrando a estrutura de tabelas, sendo normalmente criado a partir de um banco de dados. Essas características permitem que as informações contidas nos documentos sejam facilmente extraídas através de regras relativamente simples, geralmente, baseadas na ordem de apresentação e/ou nos delimitadores que rotulam essas informações Recuperação Inteligente de Informação – CIN – UFPE –

14 Texto extraído do Tempo Agora (UOL)
Texto Estruturado Previsão do Tempo Texto extraído do Tempo Agora (UOL) Neste exemplo, temos a previsão do tempo, fornecida pelo site “Tempo Agora”. É possível observar que as informações estão estruturadas no formato de uma tabela. Dessa forma, estão descritas explicitamente as informações de tempo, temperatura, umidade, etc. para cada um dos dias da semana. Recuperação Inteligente de Informação – CIN – UFPE –

15 Exemplo de um documento em XML
Texto Estruturado Exemplo de um documento em XML Neste exemplo, temos um documento XML representando um genérico. Cada uma das informações relevantes está marcada com uma TAG que a identifica. Por exemplo, <de> marca o remetente da mensagem, <para> marca o destinatário, <data> marca a data de envio, etc. Todo o texto está rotulado seguindo uma estruturação pré-definida. Recuperação Inteligente de Informação – CIN – UFPE –

16 Texto Não-Estruturado
Sentenças escritas em alguma linguagem natural Requer pré-processamento linguístico Análise sintática e semântica As informações contidas em um texto livre são escritas na forma de sentenças em alguma linguagem natural e, desse modo, não possuem a mesma estrutura regular presente em um texto estruturado. Tendo em vista a ausência de características de formatação, os textos não-estruturados exigem passos adicionais para que a extração de informações seja possível. De uma maneira geral, um pré-processamento lingüístico é requerido para a análise sintática e semântica das palavras contidas no documento. A partir desse pré-processamento, são identificados padrões de relacionamentos sintáticos e/ou semânticos entre as palavras para a composição das regras de extração. Padrões de relacionamentos sintáticos e/ou semânticos Recuperação Inteligente de Informação – CIN – UFPE –

17 Texto Não-Estruturado
Exemplos: artigos de jornais e revistas textos literários cartas, etc Enquadram-se nesse gênero, artigos de jornais e revistas, textos literários, cartas, etc. Neste exemplo, temos um resumo sobre a vida acadêmica de um pesquisador na plataforma Lattes. Recuperação Inteligente de Informação – CIN – UFPE –

18 Texto Semi-Estruturado
Formatação não segue regras rígidas Ex: Estilo telegráfico Algum grau de estruturação Campos ausentes Variações de layout Variação na ordem de apresentação dos dados Os textos semi-estruturados encontram-se numa posição intermediária entre esses dois extremos, o não-estruturado e o estruturado, apresentando, muitas vezes, uma linguagem agramatical. Isso significa que a gramática da linguagem natural não é rigidamente respeitada, podendo ser escrita em estilo telegráfico, redigindo as palavras de maneira abreviada. Além disso, os textos não possuem uma formatação tão rigorosa quanta a formatação dos textos estruturados, aceitando, por exemplo, variação do layout e da ordem de apresentação dos dados. Recuperação Inteligente de Informação – CIN – UFPE –

19 Texto Semi-Estruturado
Texto semi-estruturado contendo referências bibliográficas Retirado de [1] A seguir, é apresentado um exemplo para esse tipo de documento, descrevendo em HTML a ocorrência de duas referências bibliográficas. Analisando essas referências, é possível perceber que ambas apresentam abreviações como vol., pp. e ed. em substituição a palavras como volume, páginas e editora; e que certas informações estão presentes ou repetidas em uma das referências e ausentes na outra como ocorre com as páginas. Além disso, os estilos de formatação existentes no documento, apesar de não constituírem uma linguagem natural, podem auxiliar na demarcação de informações como no caso dos títulos da obras, que são apresentados em negrito. Recuperação Inteligente de Informação – CIN – UFPE –

20 Tipos de Texto Perspectivas
Comunidade de Inteligência Artificial (PIA) Estruturados Semi-estruturados Não-estruturados (texto livres) Comunidade de Banco de Dados (PBD) Um critério de fundamental importância para a escolha da técnica utilizada por um sistema de EI é o tipo do texto a partir do qual os dados serão extraídos. Esse critério pode ser observado de acordo com dois pontos de vista: perspectiva da comunidade de inteligência artificial (PIA) e perspectiva da comunidade de banco de dados (PBD). De acordo com a PIA, existem três classes de conteúdo de documentos: textos estruturados, textos semi-estruturados ou textos livres, esse último, também,denominado não-estruturado. Por outro lado, a PBD divide tudo em duas classes de documentos: os que contêm dados semi-estruturados e os que contêm textos semi-estruturados. Recuperação Inteligente de Informação – CIN – UFPE –

21 Tipos de Texto PIA PBD Estruturados Semi-estruturados Não-estruturados
A diferença entre essas duas perspectivas se dá pelo intervalo de abrangência de cada uma de suas classes, pois na prática elas qualificam o mesmo universo de coisas. Por exemplo, a classe PBD de textos semi-estruturados engloba as classes PIA de textos semi-estruturados e livres; o mesmo ocorre entre as classes PBD de dados semi-estruturados e a classe PIA de texto estruturado. Adotamos a classificação proposta pela Perspectiva da Comunidade de Inteligência Artificial (PIA), devido a mesma ser a mais solidificada na literatura. Estruturados Semi-estruturados Não-estruturados Recuperação Inteligente de Informação – CIN – UFPE –

22 Obtenção das informações e relacionamentos
Tipo de Extração Obtenção das informações e relacionamentos Single-slot Multi-slot Forma de obtenção de informações complexas Top-down Bottom-up Além dos tipos de documentos de entrada, uma outra característica importante é a forma como as informações são extraídas e utilizadas na construção dos formulários (template) de saída. Temos duas classificações referentes a esse assunto. A primeira se preocupa com a obtenção das informações e de seus relacionamentos (extração single-slot e multi-slot) e a segunda com a maneira como as informações complexas são obtidas, isto é, se refere a reestruturação das informações (extração top-down e bottom-up). Recuperação Inteligente de Informação – CIN – UFPE –

23 Obtenção das informações e relacionamentos
Single-Slot Isola as informações em campos (slots) separados, não relacionados entre si. Cidade Universitária. excelente 3 - qts suíte, varandão, sala 2 ambientes, dependências, nascente, garagem, guarita, R$ 750,00. novo 2 qts, sala, varanda, garagem, R$ 500,00. Próximo Bompreço A extração single-slot isola as informações em campos (slots) separados, não relacionados entre si. Temos como exemplo um anúncio semi-estruturado, contendo informações sobre aluguéis de apartamentos. Nesse exemplo é possível perceber-se a existência de mais de um evento (event) de ambientes disponíveis para locação, ou seja, de mais de um conjunto de informações inter-relacionadas descrevendo imóveis distintos: um ambiente de três quartos por R$ 750,00 e um outro de dois quartos por R$500,00, ambos no bairro Cidade Universitária. Como se pode observar, não é possível identificar no formulário single-slot quais preços estão relacionados a quais quartos e/ou bairros. Isso acontece quando mais de uma ocorrência dos campos definidos no formulário de saída (ex.: bairro, quartos, preço) existe no documento de entrada. Nos domínios em que as relações entre os campos de um evento devem ser estabelecidas, a abordagem singleslot torna-se um problema. Para esses casos, é indicada a utilização de técnicas de extração multi-slot. Bairro: Cidade Universitária Quartos: 3 Quartos: 2 Preço: R$ 750,00 Preço: R$ 500,00 Recuperação Inteligente de Informação – CIN – UFPE –

24 Obtenção das informações e relacionamentos
Multi-Slot Agrupa informações relacionadas em estruturas de múltiplos campos. Cidade Universitária. excelente 3 - qts suíte, varandão, sala 2 ambientes, dependências, nascente, garagem, guarita, R$ 750,00. novo 2 qts, sala, varanda, garagem, R$ 500,00. Próximo Bompreço A extração multi-slot agrupa informações relacionadas em estruturas de múltiplos campos. Isso permite a identificação exata dos relacionamentos entre os campos. Utilizando o mesmo exemplo anterior, é possível identificar quais bairros, quantidade de quartos e preços estão relacionados entre si. Bairro: Cidade Universitária Quartos: 3 Preço: R$ 750,00 Bairro: Cidade Universitária Quartos: 2 Preço: R$ 500,00 Recuperação Inteligente de Informação – CIN – UFPE –

25 Reestruturação de informações complexas
Top-down Identificação de objetos complexos no texto. Extração das informações mais simples contidas nesses objetos. Bottom-up Identificação de todas as informações mais simples contidas no documento. Agrupamentos dessas informações em estruturas mais complexas. A abordagem top-down é relativamente fácil, resumindo-se a identificação de objetos complexos no texto, isolando-os para, posteriormente, extraírem-se as informações mais simples contidas nos mesmos. A abordagem bottom-up, por outro lado, identifica primeiramente todas as informações mais simples contidas no documento para em seguida agrupá-las em estruturas mais complexas, por isso é considerada mais difícil do que a top-down. Recuperação Inteligente de Informação – CIN – UFPE –

26 Problemas de Extração de Informação
Campos ausentes Campos presentes em um documento e ausente em outro. Campos multivalorados Campos relacionados a vários valores. Múltiplas ordens de campos Variação da ordem em que campos e delimitadores aparecem em documentos do mesmo domínio. Ainda não existe um processo de extração que obtenha perfeitamente todas as informações desejadas, contidas nos documentos de um determinado domínio. Dessa forma, faz-se necessário um estudo sobre os tipos de problemas comumente encontrados na extração de informações, bem como sobre as métricas utilizadas para a comparação dos processos e sistemas existentes. Inicialmente, abordaremos os problemas na extração de informações e em seguida as métricas. Campos ausentes: Campos podem estar presentes em determinados textos de entrada e ausentes em outros. A ausência de delimitadores dos respectivos campos poderá fazer que o processo de EI não funcione como o esperado para o restante do documento. Por exemplo, em um documento de dissertação, o mês de publicação pode vir no texto antes do ano de publicação, enquanto, em outro documento desse mesmo domínio, tal campo pode não estar presente. Campos multivalorados: Além do relacionamento um-para-um entre um campo no formulário de saída e seu respectivo valor do documento de entrada, podem ocorrer casos em que um campo está relacionado a vários valores. Essa situação difere-se do conceito de multi-slot, pois trata de uma estrutura de múltiplos campos e sim de um campo com múltiplos valores em uma mesma estrutura de saída. Múltiplas ordens de campos: A ordem em que campos e delimitadores são apresentados pode não ser fixa e variar entre textos de entrada de um mesmo domínio. Na capa de dissertações e teses, a ordem em que os campos título, nome da universidade e autor aparecem no texto não é uniforme entre os documentos desse domínio. Delimitadores disjuntivos: Um campo pode apresentar delimitadores diferentes em um mesmo documento multi-slot e/ou distintos documentos. Por exemplo, o nome do autor de um documento pode ser precedido pelo delimitador “Autor:” em um determinado texto, pelo delimitador “Autor(a):” em um outro, ou ainda pelo tratamento “Sr.” em um terceiro documento. Recuperação Inteligente de Informação – CIN – UFPE –

27 Problemas de Extração de Informação
Delimitadores disjuntivos Um mesmo campo pode apresentar vários delimitadores diferentes. Delimitadores ausentes Campos podem não ter delimitadores. Exceções e erros tipográficos Erros de escrita podem inviabilizar a extração devido a variações. Delimitadores ausentes: Alguns campos podem não possuir delimitadores. Por exemplo, em um curso acadêmico, o nome da disciplina e o ano em que a mesma foi ministrada podem aparecer em um texto da seguinte maneira “RII2008”. Exceções e erros tipográficos: Textos do mundo real normalmente contêm erros que podem inviabilizar a extração. Alguns delimitadores e/ou campos podem conter pequenas variações que terminam por inviabilizar a extração em todo o documento de entrada. Por exemplo, um campo contendo o valor “Univeridade Federal de Pernambuco” poderia inviabilizar sua extração pela existência de um erro ortográfico ocorrido na primeira palavra desse campo. Delimitadores seqüenciais: Campos podem ser identificados por delimitadores consecutivos e não colineares, em que a abordagem de delimitadores únicos para cada campo torna-se menos eficiente. Por exemplo, a localização de um campo autor utilizando delimitador seqüencial poderia, por exemplo, começar procurando por “<H1>”, em seguida ignorar todos caracteres até encontrar “<BR/>” e, posteriormente, realizar o mesmo procedimento até localizar “by”. Dado organizado hierarquicamente: A extração de informações contidas em um documento pode ser realizada em vários níveis: em uma etapa macro poderiam ser extraídos a capa e os capítulos do texto; enquanto em uma etapa mais específica as informações do título e autor poderiam ser extraídas a partir da capa; e os títulos, subtítulos e suas numerações, a partir dos capítulos. Recuperação Inteligente de Informação – CIN – UFPE –

28 Informações extraídas X Informações desejadas
Métricas de Avaliação Informações extraídas X Informações desejadas A eficiência de um sistema de EI depende das informações que foram extraídas e da qualidade destas. Para que uma instância de um campo do formulário de saída possa ser considerada sem falhas, a mesma deve estar associada à informação correta no texto de entrada. Quando isso ocorre, a instância é denominada positiva verdadeira (true positive), caso contrário, chama-se positiva falsa (false positive), ou seja, não existe uma associação no texto de entrada. Também há os casos conhecidos como negativa falsa (false negative), em que uma informação existe no texto de entrada, mas não é preenchida no template de saída. Recuperação Inteligente de Informação – CIN – UFPE –

29 Métricas de Avaliação Precisão Cobertura F-Measure
A partir desses conceitos, é possível definir as métricas comumente utilizadas em extração de informação, as quais de uma maneira geral são herdadas da área de Recuperação de Informação (RI). As principais métricas são a precisão (precision) e a cobertura (recall). Precisão é a porcentagem de informações relevantes obtidas como resultado de uma operação, sobre todas as informações obtidas nessa operação. Cobertura é a porcentagem de informações relevantes obtidas como resultado de uma operação, sobre o conjunto total de documentos relevantes existentes no universo amostral, quer tenham sido ou não obtidos como resultado da operação. Ambas as medidas podem ser expressas pelas seguintes fórmulas. Contudo, essas duas medidas são inversas entre si, fazendo que o aumento da Precisão, diminua o valor da Cobertura. Assim, é sugerida também a aplicação de uma outra unidade de medida, chamada F-Measure, definida nesta fórmula, onde beta é o parâmetro utilizado para definir o peso entre a Precisão e a Cobertura, normalmente, usado com o valor 1. Recuperação Inteligente de Informação – CIN – UFPE –

30 Classificação de Sistemas de EI

31 Tipos de Sistemas para EI
Baseados em PLN Extrair informações de textos em linguagem natural (livre) Padrões lingüísticos Wrappers Principalmente para textos estruturados e semi-estruturados Formatação do texto, marcadores, freqüência estatística das palavras Construção Manual X Aprendizagem Recuperação Inteligente de Informação – CIN – UFPE –

32 Processamento de Linguagem Natural
Processo de extração Extração de fatos (unidades de informação) Através da análise local do texto Integração e combinação de fatos Produção de fatos maiores ou novos fatos Estruturação de fatos relevantes Padrão de saída O processo de extração pode ser realizado em três etapas principais: 1. O sistema extrai fatos (unidades de informação) do texto de um documento através da análise local do texto. 2. O sistema integra e combina esses fatos produzindo fatos maiores ou novos fatos. 3. Os fatos considerados relevantes ao domínio são estruturados para o padrão de saída. Recuperação Inteligente de Informação – CIN – UFPE –

33 Processamento de Linguagem Natural
Arquitetura A arquitetura definida por Grishman (Grishman, 1997) identifica seis módulos principais dos sistemas de EI baseados em PLN: processador léxixo, reconhecimento de nomes, analisador sintático/semântico, padrões de extração, analisador do discurso, intregração e preenchimento de templates. Recuperação Inteligente de Informação – CIN – UFPE –

34 Processador Léxico Separação dos termos (tokenization) pelo reconhecimento de espaços em branco e sinais de pontuação que delimitam o texto; Análise léxica e morfológica dos termos para determinar suas possíveis classes (substantivo, verbo, etc.) e outras características (masculino, feminino); É comum o uso de autômatos finitos para o reconhecimento das informações Recuperação Inteligente de Informação – CIN – UFPE –

35 Reconhecimento de Nomes
Identifica nomes próprios; Itens que têm estrutura interna como da data e hora; Nomes são identificados por expressões regulares expressos em função das classes morfossintáticas (part-of-speech) e características sintáticas e ortográficas (letras maiúsculas) presentes nos termos. Recuperação Inteligente de Informação – CIN – UFPE –

36 Analisador Sintático/Semântico
Recebe uma seqüência de itens léxicos e tenta construir uma estrutura sintática junto com alguma semântica; Identifica os segmentos de texto e para cada um associa alguma característica que podem ser combinadas na fase seguinte. Recuperação Inteligente de Informação – CIN – UFPE –

37 Padrões de Extração Consiste na indução de um conjunto de regras de extração para o domínio tratado; Esses padrões baseiam-se em restrições sintáticas e semânticas aplicadas as sentenças. Recuperação Inteligente de Informação – CIN – UFPE –

38 Analisador do Discurso
Relaciona diferentes elementos do texto; Análise de frases nominais, reconhece apostos e outros grupos nominais complexos; Resolução de conferência, identifica quando uma frase nominal se refere a outra já citada; Descoberta de relacionamento entre as partes do texto, para estruturar palavras do texto em uma rede associativa. Recuperação Inteligente de Informação – CIN – UFPE –

39 Interpretação e Preenchimento de Templates
As informações são combinadas Os templates são preenchidos com as informações relevantes ao domínio Recuperação Inteligente de Informação – CIN – UFPE –

40 Wrappers Construção Manual Baseada em engenharia do conhecimento
Construção manual de regras de extração Padrões de extração são descobertos por especialistas após examinarem o corpus de treinamento Vantagens Boa performance dos Sistemas Desvantagens Processo de desenvolvimento trabalhoso Escalabilidade Especialista pode não estar disponível Recuperação Inteligente de Informação – CIN – UFPE –

41 Wrappers Construção Automática Aprendizagem de máquina Vantagens
Aprender sistemas de EI a partir de um conjunto de treinamento Vantagens Mais fácil marcar um corpus do que criar regras de extração Menor esforço do especialista Escalabilidade Desvantagens Esforço de marcação do corpus de treinamento Recuperação Inteligente de Informação – CIN – UFPE –

42 Wrappers Técnicas de Extração Autômatos Finitos Casamento de Padrões
Classificação de Textos Modelos de Markov Escondidos As técnicas de extração definem como o sistema realiza o processo de extração da informação. Temos quatro técnicas para a construção de wrappers: Autômatos Finitos Casamento de Padrões Classificação de Textos Modelos de Markov Escondidos Recuperação Inteligente de Informação – CIN – UFPE –

43 Autômatos Finitos Regras de extração na forma de autômatos finitos
Definidos por: (1) estados que “aceitam” os símbolos do texto que preenchem algum campo do formulário de saída, (2) os estados que apenas consomem os símbolos irrelevantes encontrados no texto, e (3) os símbolos que provocam as transições de estado Textos estruturados e semi-estruturados Delimitadores, ordem dos elementos Recuperação Inteligente de Informação – CIN – UFPE –

44 Autômatos finitos Exemplo
Recuperação Inteligente de Informação – CIN – UFPE –

45 Casamento de Padrões Aprendem regras na forma de expressões regulares Expressões regulares que “casam” com o texto para extrair as informações Textos livres, estruturados e semi-estruturados Delimitadores, padrões regulares (Ex. data, CEP)

46 Casamento de Padrões Padrão :: * (Digit) ‘ BR’ * ‘$’ (Number)
Formulário:: Aluguel {Quartos $1} {Preço $2} Capitol Hill – 1 br twnhme. fplc D/W W/D. Undrgrnd pkg incl $ BR, upper flr of turn of ctry HOME. incl gar, grt N. Hill loc $995. (206) <br> <i> <font size=-2>(This ad last ran on 08/03/97.) </font> </i> <hr>

47 Classificação de Textos
Dividem o texto de entrada em fragmentos candidatos a preencher algum campo do formulário de saída. Classificam os fragmentos com base em suas características posição número de palavras presença de palavras específicas letras capitalizadas Textos semi-estruturados Recuperação Inteligente de Informação – CIN – UFPE –

48 Wrappers - Classificação de Textos
Classificam fragmentos do documento para determinar que campo do formulário eles devem preencher Classificador outros empresa nome cargo endereco telefone Desvantagem Classificação local independente para cada fragmento

49 Modelos de Markov Escondidos (HMM)
Um HMM é um autômato finito probabilístico que classifica seqüências de entrada Processo de classificação Retorna a seqüência de campos com maior probabilidade para uma sequencia de fragmentos de entrada Vantagem Realizar uma classificação ótima para a seqüência completa de entrada. Um estado oculto é criado para cada campo de saída, e os símbolos emitidos pelos estados ocultos são definidos como os tokens do documento (i.e., palavras, números, pontuação, etc) Determinar os estados ocultos associados a cada um desses símbolos, ou seja, que campo de saída cada token deverá preencher.

50 Modelos de Markov Escondidos (HMM)
Exemplo:

51 Classificação de Textos Modelos de Markov Escondidos
Exemplos Autômatos Finitos Stalker WIEN SoftMealy Casamento de Padrões Whisk Rapier Classificação de Textos SRV Modelos de Markov Escondidos DATAMOLD Recuperação Inteligente de Informação – CIN – UFPE –

52 Resumo dos tipos de documentos e técnicas de extração
Nesse seminário, foram apresentados vários assuntos sobre extração de informação, desde conceitos básicos, como tipos de extração, de documentos e métricas; até a identificação e exemplificação de técnicas de wrappers e de PLN. Através desse estudo, foi possível perceber a complexidade envolvida nessa área, devido à variedade de abordagens de utilização e técnicas existentes. Um resumo dos diferentes tipos de documentos e técnicas de extração pode ser visto na Tabela deste slide. Recuperação Inteligente de Informação – CIN – UFPE –

53 Considerações Finais

54 Extração de Informação em Documentos
Aplicações Extração de Informação em Documentos Conteúdo Análise Estrutural Análise Semântica 54

55 Extração de Informação na WEB
Aplicações Extração de Informação na WEB Filtragem de Fóruns Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning. 55

56 Extração de Informações Estratégicas
Aplicações Extração de Informações Estratégicas Business Intelligence Análise de Mercado Melhoria de Processos Gerenciamento Eletrônico de Documentos Empresa brasileira que oferece soluções na área de BI 56

57 Extração de Informações Estratégicas
Aplicações Extração de Informações Estratégicas Análises de Arquivos de LOG Logs de Erro Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados. 57

58 Referências Bibliográficas
[1] Cabral, Davi Medeiros. Um Framework para Extração de Informações: Uma Abordagem Baseada em XML. Dissertação de Mestrado – UFPE (Cin), Recife, 2005. [2] ÁLVARES, Alberto Cáceres. Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. Dissertação de Mestrado – USP (ICMC), São Carlos, 2007. [3] SILVA, Eduardo F.A; BARROS, Flávia A; PRODÊNCIO, Ricardo B. C. Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. [4] SILVA, Eduardo Fraga do Amaral. Sistema de extração de informação em referências bibliográficas baseadas em aprendizagem de máquina. Dissertação de Mestrado – UFPE (CIn), Recife, 2004. Recuperação Inteligente de Informação – CIN – UFPE –


Carregar ppt "Extração de Informação"

Apresentações semelhantes


Anúncios Google