Extração de Informação

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

FAPE - Curso de Ciência da Computação
Introdução à Programação: uma Abordagem Funcional PD I – Engenharia Elétrica Prof.ª Claudia Boeres 2008/2.
Extração de Informação
Engenharia de Software
INTELIGÊNGIA COMPUTACIONAL
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Propriedades de Documentos
Conceitos Gerais relacionados a Recuperação de Informação
Deyvisson, Rafael M.P., Renato, Robson C.F., Rodolfo
Análise Léxica (Parte 2)
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO - UFES CENTRO DE CIÊNCIAS AGRÁRIAS - CCA DISCIPLINA DE INFORMÁTICA - ENG05207 Aula 09 –a Banco de dados Profs: Dr.
Apresentação da Monografia
Interfaces Conversacionais
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
Teoria da Computação BCC 244
Introdução a Teoria da Classificação
ARTIGO CIENTÍFICO.
Linguagem de Prog. e Programas
O Surgimento dos Sistemas de Bioinformática
Construção de Compiladores
Administração de Sistemas de Informação Banco de Dados
Correio Eletrônico (Outlook Express) Mestrando em Computação
Informática Teórica Engenharia da Computação
Extração da Informação
Classificação/Clusterização
Extração da Informação
Práticas Investigativas
Gramáticas Livres de Contexto
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Gerenciamento de Dados
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação
Tutorial de pesquisa.
Construindo tesauros Prof. José Antonio M. Nascimento.
Autómatos de Pilha. UM NOVO MODELO PARA OS AUTÓMATOS FINITOS As linguagens regulares são aceites por autómatos finitos. E as linguagens não regulares?
Recuperação de Informação
Professor: Márcio Amador
Analise sintática aula-07-analise-sintática.pdf.
Síntese de voz utilizando avatares GPVoz Gabriel de Albuquerque Styve Stallone.
Introdução a Banco de Dados Aula 04
Inteligência Artificial Web Semântica
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Teste.
Autoria WEB Prof. Thiago Nogueira Tolentino Barbosa
Mas para que serve um analisador sintático? Verificar se a estrutura gramatical do programa está correta Escrito de outra forma: O texto segue as regras.
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Nº Pedro José de Oliveira Sessão Controlo Tese 2º Semestre 2007/2008 Orientador – João Rocha.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Extração de Informação
Classificação de Texto
Mineração de Dados: Introdução
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.
Tesauro, Taxonomia e Ontologia: uma evolução?
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Classificação de Textos
SISTEMAS DE INFORMAÇÃO
Linguagens Orientadas a Eventos
O que é a Inteligência Artificial?
Plano de Ensino Conceitos e Características Tipos de Banco de Dados
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Curso de verão Data Mining Web Mining. O que é Web Mining?  Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações.
Disciplina: LINGUAGENS FORMAIS, AUTÔMATOS E COMPUTABILIDADE
Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Modificado por Flávia Barros.
Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.
Informação documentária Profa. Giovana Deliberali Maimone.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Transcrição da apresentação:

Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Roteiro Introdução Motivação Um pouco de História Processo de Extração Conceitos Wrappers Aplicações Referências

Motivação O volume de informação vem aumentado consideravelmente, principalmente com o advento da internet. Como conseguir extrair informação relevante de tantos artefatos digitais?

Motivação O Problema: Documentos em sua maioria não estruturados ou semi-estruturados. (Internet - WEB) Migração de dados entre interfaces diferentes. (WebServices – Banco de Dados)

Motivação O que queremos: responder a consultas de usuários gerar resumos do texto original preencher bancos de dados preencher bases de conhecimento mineração de dados sumarizar textos ...

Processo de Extração Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99] Os dados a serem extraídos são previamente definidos em um template (formulário) Sistema p/ EI BD Item1: Item2: Item3: Item4: Item5: Template BC

Um pouco de História MUC-Message Understanding Conference [final da década de 80] Uso de técnicas de PLN (Processamento de Linguagem Natural) Internet/Web [década de 90] Desenvolvimento de wrappers

Conceitos Sistemas baseados em PLN Wrappers Processamento de Linguagem Natural. Criados para extrair informação a partir de textos livres (sem estruturação). Wrappers Crescimento da Web a partir dos anos 1990. Incapacidade dos sistemas anteriores para extrair informações de seus textos, motivou a criação de sistemas específicos para esse domínio.

Conceitos Quadro Comparativo Wrappers Sistemas de EI baseados em PLN Motivação Principalmente, extrair informações das diversas fontes na Web. Extrair informações de textos em linguagem natural. Tipos de texto Geralmente estruturados e semi-estruturados, mas também textos livres, em alguns casos. Apenas texto livre. Padrões usados para extração Informações de formatação do texto, marcadores presentes nos documentos, freqüência estatística das palavras e, em alguns casos, PLN. Padrões lingüísticos baseados em PLN (uso intenso de PLN).

Conceitos Tipos de Texto Estruturado - segue um formato predefinido e rígido.

Conceitos Tipos de Texto Não estruturado (Livre) - Não apresentam nenhuma estrutura regular e as informações apresentam-se como sentenças livres, escritas em alguma língua natural.

Conceitos Tipos de Texto Semi-estruturado - Não possuem uma formatação rígida, permitindo, por exemplo, a ocorrência de variações na ordem dos dados. Em geral, não respeitam rigidamente a gramática da língua natural, e podem possuir muitas palavras abreviadas.

Conceitos Tipos de Wrappers Singleshot - são aqueles que extraem do documento de entrada apenas dados isolados, ou seja, eles não são capazes de ligar uma instância de um campo (slot) do formulário de saída a uma instância de outro campo. Multishot - são aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles são capazes de ligar as instancias de diferentes campos.

Conceitos Tipos de Wrappers – Exemplo:

Sistemas baseados em PLN Precisam de um pré-processamento lingüístico para a realização da extração Classes sintáticas e semânticas das palavras Algumas vezes é impossível fazer este pré-processamento (Informal Domains) Web!

Wrappers A princípio não eram capazes de tratar textos livres Recentemente, tornaram-se mais poderosos fazem uso das informações de formatação e também das características lingüísticas

Wrappers Técnicas para extração de informação preencherFormulario(documento) = fomularioPreenchido Determinam as regras de extração Autômatos finitos, casamento de padrões, classificadores de texto e modelos de Markov escondidos

Wrappers – Autômatos finitos Definição (S, Σ,T,s0,F) S é um conjunto finito de estados Σ é um alfabeto finito de símbolos de entrada T é a função de transição (T : S × Σ -> S) s0  S é o estado inicial F S é o conjunto de estados finais Excelentes em textos estruturados Podem ser definidos manualmente ou ser aprendidos automaticamente

Wrappers – Autômatos finitos Tipos Acceptors: apenas um estado inicial, resposta é sim ou não Filtragem e existência do dado Recognizers: um ou mais estados finais. Categorização! Transducers: geram um conjunto de símbolos de saída para a entrada

Wrappers – Autômatos finitos Exemplo

Wrappers – Autômatos finitos Devemos definir Os estados que deverão “aceitar” os símbolos a serem extraídos para preencher o formulário de saída Os estados que irão apenas consumir os símbolos irrelevantes encontrados no documento Os símbolos do documento de entrada que provocaram a transição de um estado para outro

Wrappers – Casamento de padrões Padrões podem ser descritos através de expressões regulares ou em uma linguagem específica ao sistema de EI O processo de extração se dá quando se realiza o casamento dos padrões definidos com o texto de entrada

Wrappers – Casamento de padrões Trata textos estruturados, semi-estruturados e livres Expressões regulares são mais intuitivas do que autômatos Realizam extração multi-slot

Wrappers - Classificação Classifica(fragmentoTexto) = [escore campo 1, ..., escore campo n] Limitações: Criação dos fragmentos Classificam cada fragmento de forma independente => ótima localmente, mas nada garante que seja ótima também globalmente

Wrappers - Classificação

Wrappers – Modelos de Markov escondidos Exploram a ocorrência dos padrões em seqüência no texto de entrada para classificá-los de uma só vez Maximiza a probabilidade de acerto para todo o conjunto de padrões

Wrappers – Modelos de Markov escondidos Modelos de Markov - definição Conjunto de estados S Probabilidade a priori (s) para os estados s  S Probabilidade de transição Pr[s’/s] do estado s  S para o estado s’  S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]

Wrappers – Modelos de Markov escondidos Estados ocultos É possível observar os símbolos (estados visíveis) emitidos pelos estados escondidos A cada estado oculto, é associada uma das classes a serem extraídas Cada estado oculto emite tokens de acordo com a probabilidade de pertencer à classe associada ao estado Criado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados

Wrappers – Modelos de Markov escondidos

Aplicações de RI Extração de Informação em Documentos Palavras-chave Indexação Catalogação Empresa do Rio de Janeiro com mais de 12 anos de experiência em Gerenciamento Eletrônico de Documentos.

Aplicações de RI Extração de Informação em Documentos Conteúdo Análise Estrutural Análise Semântica Empresa portuguesa responsável por 3,4% do PIB de Portugal.

Aplicações de RI Extração de Informação em Documentos Análise do Código Fonte de Aplicações Uso de Padrões Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens.

Aplicações de RI Extração de Informação na WEB Filtragem de Fóruns Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

Aplicações de RI Extração de Informação na WEB Monitoramento da WEB Busca por Hackers Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes.

Aplicações de RI Extração de Informações Estratégicas Business Intelligence Análise de Mercado Melhoria de Processos Empresa brasileira que oferece soluções na área de BI.

Aplicações de RI Extração de Informações Estratégicas Análises Biológicas de Dados Regiões Codificantes (DNA) Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet.

Aplicações de RI Extração de Informações Estratégicas Análises de Arquivos de LOG Logs de Erro Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados.

Aplicações de RI Extração de Informações Estratégicas Análises de Imagens Geologia Climatologia Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens.