A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Extração de Informação

Apresentações semelhantes


Apresentação em tema: "Extração de Informação"— Transcrição da apresentação:

1 Extração de Informação
Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

2 Roteiro Introdução Motivação Um pouco de História Processo de Extração
Conceitos Wrappers Aplicações Referências

3 Motivação O volume de informação vem aumentado consideravelmente, principalmente com o advento da internet. Como conseguir extrair informação relevante de tantos artefatos digitais?

4 Motivação O Problema: Documentos em sua maioria não estruturados ou semi-estruturados. (Internet - WEB) Migração de dados entre interfaces diferentes. (WebServices – Banco de Dados)

5 Motivação O que queremos: responder a consultas de usuários
gerar resumos do texto original preencher bancos de dados preencher bases de conhecimento mineração de dados sumarizar textos ...

6 Processo de Extração Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99] Os dados a serem extraídos são previamente definidos em um template (formulário) Sistema p/ EI BD Item1: Item2: Item3: Item4: Item5: Template BC

7 Um pouco de História MUC-Message Understanding Conference [final da década de 80] Uso de técnicas de PLN (Processamento de Linguagem Natural) Internet/Web [década de 90] Desenvolvimento de wrappers

8 Conceitos Sistemas baseados em PLN Wrappers
Processamento de Linguagem Natural. Criados para extrair informação a partir de textos livres (sem estruturação). Wrappers Crescimento da Web a partir dos anos 1990. Incapacidade dos sistemas anteriores para extrair informações de seus textos, motivou a criação de sistemas específicos para esse domínio.

9 Conceitos Quadro Comparativo Wrappers Sistemas de EI baseados em PLN
Motivação Principalmente, extrair informações das diversas fontes na Web. Extrair informações de textos em linguagem natural. Tipos de texto Geralmente estruturados e semi-estruturados, mas também textos livres, em alguns casos. Apenas texto livre. Padrões usados para extração Informações de formatação do texto, marcadores presentes nos documentos, freqüência estatística das palavras e, em alguns casos, PLN. Padrões lingüísticos baseados em PLN (uso intenso de PLN).

10 Conceitos Tipos de Texto
Estruturado - segue um formato predefinido e rígido.

11 Conceitos Tipos de Texto
Não estruturado (Livre) - Não apresentam nenhuma estrutura regular e as informações apresentam-se como sentenças livres, escritas em alguma língua natural.

12 Conceitos Tipos de Texto
Semi-estruturado - Não possuem uma formatação rígida, permitindo, por exemplo, a ocorrência de variações na ordem dos dados. Em geral, não respeitam rigidamente a gramática da língua natural, e podem possuir muitas palavras abreviadas.

13 Conceitos Tipos de Wrappers
Singleshot - são aqueles que extraem do documento de entrada apenas dados isolados, ou seja, eles não são capazes de ligar uma instância de um campo (slot) do formulário de saída a uma instância de outro campo. Multishot - são aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles são capazes de ligar as instancias de diferentes campos.

14 Conceitos Tipos de Wrappers – Exemplo:

15 Sistemas baseados em PLN
Precisam de um pré-processamento lingüístico para a realização da extração Classes sintáticas e semânticas das palavras Algumas vezes é impossível fazer este pré-processamento (Informal Domains) Web!

16 Wrappers A princípio não eram capazes de tratar textos livres
Recentemente, tornaram-se mais poderosos fazem uso das informações de formatação e também das características lingüísticas

17 Wrappers Técnicas para extração de informação
preencherFormulario(documento) = fomularioPreenchido Determinam as regras de extração Autômatos finitos, casamento de padrões, classificadores de texto e modelos de Markov escondidos

18 Wrappers – Autômatos finitos
Definição (S, Σ,T,s0,F) S é um conjunto finito de estados Σ é um alfabeto finito de símbolos de entrada T é a função de transição (T : S × Σ -> S) s0  S é o estado inicial F S é o conjunto de estados finais Excelentes em textos estruturados Podem ser definidos manualmente ou ser aprendidos automaticamente

19 Wrappers – Autômatos finitos
Tipos Acceptors: apenas um estado inicial, resposta é sim ou não Filtragem e existência do dado Recognizers: um ou mais estados finais. Categorização! Transducers: geram um conjunto de símbolos de saída para a entrada

20 Wrappers – Autômatos finitos
Exemplo

21 Wrappers – Autômatos finitos
Devemos definir Os estados que deverão “aceitar” os símbolos a serem extraídos para preencher o formulário de saída Os estados que irão apenas consumir os símbolos irrelevantes encontrados no documento Os símbolos do documento de entrada que provocaram a transição de um estado para outro

22 Wrappers – Casamento de padrões
Padrões podem ser descritos através de expressões regulares ou em uma linguagem específica ao sistema de EI O processo de extração se dá quando se realiza o casamento dos padrões definidos com o texto de entrada

23 Wrappers – Casamento de padrões
Trata textos estruturados, semi-estruturados e livres Expressões regulares são mais intuitivas do que autômatos Realizam extração multi-slot

24 Wrappers - Classificação
Classifica(fragmentoTexto) = [escore campo 1, ..., escore campo n] Limitações: Criação dos fragmentos Classificam cada fragmento de forma independente => ótima localmente, mas nada garante que seja ótima também globalmente

25 Wrappers - Classificação

26 Wrappers – Modelos de Markov escondidos
Exploram a ocorrência dos padrões em seqüência no texto de entrada para classificá-los de uma só vez Maximiza a probabilidade de acerto para todo o conjunto de padrões

27 Wrappers – Modelos de Markov escondidos
Modelos de Markov - definição Conjunto de estados S Probabilidade a priori (s) para os estados s  S Probabilidade de transição Pr[s’/s] do estado s  S para o estado s’  S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]

28 Wrappers – Modelos de Markov escondidos
Estados ocultos É possível observar os símbolos (estados visíveis) emitidos pelos estados escondidos A cada estado oculto, é associada uma das classes a serem extraídas Cada estado oculto emite tokens de acordo com a probabilidade de pertencer à classe associada ao estado Criado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados

29 Wrappers – Modelos de Markov escondidos

30 Aplicações de RI Extração de Informação em Documentos Palavras-chave
Indexação Catalogação Empresa do Rio de Janeiro com mais de 12 anos de experiência em Gerenciamento Eletrônico de Documentos.

31 Aplicações de RI Extração de Informação em Documentos Conteúdo
Análise Estrutural Análise Semântica Empresa portuguesa responsável por 3,4% do PIB de Portugal.

32 Aplicações de RI Extração de Informação em Documentos
Análise do Código Fonte de Aplicações Uso de Padrões Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens.

33 Aplicações de RI Extração de Informação na WEB Filtragem de Fóruns
Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

34 Aplicações de RI Extração de Informação na WEB Monitoramento da WEB
Busca por Hackers Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes.

35 Aplicações de RI Extração de Informações Estratégicas
Business Intelligence Análise de Mercado Melhoria de Processos Empresa brasileira que oferece soluções na área de BI.

36 Aplicações de RI Extração de Informações Estratégicas
Análises Biológicas de Dados Regiões Codificantes (DNA) Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet.

37 Aplicações de RI Extração de Informações Estratégicas
Análises de Arquivos de LOG Logs de Erro Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados.

38 Aplicações de RI Extração de Informações Estratégicas
Análises de Imagens Geologia Climatologia Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens.


Carregar ppt "Extração de Informação"

Apresentações semelhantes


Anúncios Google