Extração de Informações

Slides:



Advertisements
Apresentações semelhantes
IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho
Advertisements

1 ANÁLISE E PROJETO NO PROCESSO DE DESENVOLVIMENTO DE SOFTWARE PROCESSO: CONCEITO MODELOS DE PROCESSO PROCESSO UNIFICADO HISTÓRIA CARACTERÍSTICAS AS QUATRO.
UNICAMP Universidade Estadual de Campinas Centro Superior de Educação Tecnológica Divisão de Telecomunicações Propagação de Ondas e Antenas Prof.Dr. Leonardo.
INFORMAÇÕES COMPLEMENTARES
Palestras, oficinas e outras atividades
A busca das mulheres para alcançar seu espaço dentro das organizações
Material pedagógico Multiplicar x 5 Clica!
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Operadores e Funções do LINGO
14/10/09 Uma animação possui: Início; Passo; Fim; 1.
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
ANÁLISE DE SOFTWARES APLICÁVEIS A UNIDADES E SERVIÇOS DE INFORMAÇÃO
Copyright (c) 2003 by Valery Sklyarov and Iouliia Skliarova: DETUA, IEETA, Aveiro University, Portugal.
1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 3.
Software Básico Silvio Fernandes
Excel Profa. Cristina M. Nunes.
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
Curso de ADMINISTRAÇÃO
PERSPECTIVA CONCEITUAL
1 MODELAGEM COM A UML (UNIFIED MODELING LANGUAGE) BREVE HISTÓRICO CARACTERÍSTICAS CONCEITOS DE PROGRAMAÇÃO ORIENTADA A OBJETOS MODELAGEM DE ANÁLISE E DE.
EXPRESSÕES ARITMÉTICAS
EXPRESSÕES ARITMÉTICAS
Estatística Básica Utilizando o Excel
April 05 Prof. Ismael H. F. Santos - 1 Modulo II CheckStyle Professor Ismael H F Santos –
Dissertação de Mestrado Michel Alain Quintana Truyenque
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
Estudo de Caso 1: UNIX e LINUX
FUNÇÃO MODULAR.
Aula 4 Nomes, Vinculações, Tipos e Escopos
O que é 5(S)? ? 5(S) É a prática de hábitos que permitem mudanças nas relações... É a base de qualquer programa de qualidade. 1.
Questionário de Avaliação Institucional
Instruções aos autores: conteúdo e importância para a
Classes e objetos P. O. O. Prof. Grace.
Técnica de Contagem.
Provas de Concursos Anteriores
Cadastro de produto Posto de Combustível.
Timken Store Brasil Denis Guimarães.
Módulo Financeiro Centro de Custo.
MECÂNICA - ESTÁTICA Cabos Cap. 7.
MECÂNICA - DINÂMICA Exercícios Cap. 13, 14 e 17. TC027 - Mecânica Geral III - Dinâmica © 2013 Curotto, C.L. - UFPR 2 Problema
MECÂNICA - ESTÁTICA Vetores Forças Cap. 2.
Oferta e Demanda A Curva de Oferta
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
Estruturas de Dados com Jogos
Estruturas de Dados com Jogos
Taxonomia Profa. Lillian Alvares,
Coordenação Geral de Ensino da Faculdade
Plataforma Brasil – Submissão de pesquisa
Revisão Prova 2 Métodos de Acesso – Parte 2 AULA 21 Profa. Sandra de Amo GBC053 – BCC.
EXERCÍCIOS PARA GUARDA-REDES
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Recuperação de Informação
BPM BUSINESS PROCESS MANAGEMENT Projecto em Informática e Gestão de Empresas Lisboa, 20 de Junho de 2006.
MATRICIAL CONSULTORIA LTDA. PREFEITURA MUNICIPAL DE GARIBALDI 23/10/ : ATENÇÃO Os locais descritos nas planilhas anexas não correspondem ao total.
Redes Neuronais/Neurais/ Conexionistas Introdução
Trigonometria 19/11/2009.
1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.
Banco de Dados Parte 04 Ceça. Ceça Moraes 2 Conteúdo  Os três níveis da arquitetura  Mapeamentos  Arquitetura cliente-servidor.
Olhe fixamente para a Bruxa Nariguda
Máquina de Turing Universal
3ª PESQUISA DE REMUNERAÇÃO
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Planilha Eletrônica - Excel
PROJETO DE AUTOMAÇÃO RESIDÊNCIAL
Classificação de Textos
Transcrição da apresentação:

Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho

WEB Crescente números de textos digitalizados: intranets, bibliotecas digitais, CD-Rom, ...

Extração de Informações Trata o problema de extração de dados a partir de uma coleção de documentos. Apenas informações relevantes

IR x IE IR (Information Retrieval) IE (Information Extraction) recuperação de páginas (documentos) ex. nosso projeto IE (Information Extraction) recuperar dados dentro de documentos deadlines, locais e assuntos em páginas de “call for papers”

Contexto Documentos Classificação Extração de Informação Dados

Histórico Linguistic String Project (60) FRUMP - newswire (79) DARPA - Grupos de Pesquisa (80) MUC - Message Understanding Conference (80)

Tipos de Texto Estruturados Não estruturados Semi-estruturados Ex. tabelas, listas, XML, ... Não estruturados Ex. Fichas médicas, artigos, reportagens, ... Semi-estruturados Ex. Referencias bibliográficas, anuncios, ...

Texto Estruturados <html><title> Some Country Codes </title> <body><b>Some Country Codes</b><p> <b>Congo</b><i>242</i><BR> <b>Egypt</b><i>20</i><BR> <b>Brazil</b><i>55</i><BR> </body></html> Some Country Codes Congo 242 Egypt 20 Brazil 55

Texto Não Estruturados C. Vicent Protho, diretor executivo do deste fabricante de chips, foi nomeado ao posto adicional de presidente , sucedendo John W. Smith, que renunciou o cargo em vista de outros interesses. Evento Pessoa Entrando: C. Vicent Protho Pessoa Saindo: John W. Smith Cargo: Presidente

Texto Semi-estruturados VDO/TRC/ALG - Casa Pau Amarelo c/ 3 qts, 2sls, copa, coz, 3wcs, muro alto. Terreno medindo 936m2, area construída 248.69m2. R$50 mil. Fones: 436.1648

XML Será XML amplamente usado na WEB? Tags SGML Semântica no texto. Arquivo DTD Será XML amplamente usado na WEB?

XML Documento XML Documento DTT <!doctype CodigoTelefonico SYSTEM ”http:/www.di.ufpe.br/ias/codtel.dtt> <pais>Congo</pais><codigo>242</codigo> <pais>Egypt</pais><codigo>20</codigo> <pais>Brazil</pais><codigo>55</codigo> Documento XML <!element CodigoTelefonico (Pais, Codigo)> <!element Pais (#PCDATA)> <!element Codigo (#PCDATA)> Documento DTT

Wrappers PLN Técnicas de IE Textos estruturados Aplicações Web Ex. html, wml, xml, .. Textos não-estruturados Técnicas simplificadas de PLN

PLN Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

PLN - Tokenização Segmentação das Palavras Divisão em segmentos (estruturas) Pre-processamento ignorar partes do texto Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

PLN - Análise Léxica Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Classificação Morfológica (artigo, verbo, substantivo). Reconhecimento de nomes próprios, empresas, datas, ... Etiquetagem automática Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

PLN - Análise Sintática Tokenização Análise Léxica /Morfológica Construção arvore sintática Grupos Nominais Grupos Verbais Análise sintática parcial Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

PLN - Construção de Padrões Dicionário de padrões de Extração Específico ao Domínio Automática X Manual eficiência, portabilidade, treinamento, alterações ad hoc Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

PLN - Construção de Padrões O parlamento foi bombardeado pela Guerrilha. A guerrilha bombardeou o parlamento Exemplo: ALVO - foi bombardeado pela - GRUPO grupo-nominal(ALV,cabeca(alvo-fisico)) grupo-nominal(GRP,cabeca(GRP)) grupo- verbal(VG,tipo(passivo),cabeca(bombardeado) sujeito(ALV,VG) objeto(GRP,VG) -> EventoBonbardeamento(alvo(AVL),agente(GRUPO)) Regras:

PLN - Análise de Discurso Relações entre sentenças do texto. Correferência Ligações entre palavras. Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

PLN - Preenchimento dos Templates Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Preenches os dados em templates especificados pela aplicação. Objetos ou tabelas Construção de Regras de Extração Análise de Discurso Preenchimento de Templates

Avaliação do Sistema Corpus Etiquetado Cobertura X Precisão F-Measure Taxa Mínima de 90% FMeasure = (2 * Cobertura * Precisão) (Cobertura + Precisão)

Problemas - PLN Adequação de Teorias Custo de Etiquetagem Técnicas automáticas Custo de Produção Seis especialistas mês

PLN X Homem Homem Tipster X Máquina 38 paginas de regras Artigos de 10 paginas Homem Máquina X 60% a 80% 50% 30 minutos 20 horas

Wrappers Ferramenta usada para extrair dados de textos estruturados ou com algum tipo de estrutura Usada para permitir acesso integrado a base de dados heterogêneas Não usa conhecimento lingüístico Identifica padrões no documento

Tarefas & Construção 3 Tarefas Construção Abordagem Recuperar/ler documento Extrair informações Estruturar os dados (ex. BD) Construção Depende do problema a ser resolvido Abordagem Manual Semi-automática automática

Construção Manual Regras escritas manualmente em uma linguagem de programação

Construção Manual Prós Contra Maior precisão Técnica simples Tempo e esforço de desenvolvimento Habilidade para definição das regras Mudança no código caso a estrutura dos documentos seja alterada

COIN (Context Interchange) Utiliza wrappers para permitir acesso integrado a fontes de dados heterogêneas A intenção é construir wrappers com interfaces genéricas Proporcionar facilidade de reuso de código

Projetista/Otimizador Arquitetura consulta Resultados Interpretador Executor Casamento de padrões Acesso à rede Projetista/Otimizador Interpretador Especificações Documentos Web

ProdExt Extração de dados sobre produção técnica. Ex. Autor, Título, Local, Data, ... Textos semi-estruturados Arquitetura Híbrida

ProdExt - PLN Análise Léxica Dicionários Identificação de nomes de lugares, datas, veículos, nomes próprios (desejável) Dicionários Veiculo de publicação, editora

ProdExt - Wrappers Regras com peso Ex. Regra para Título Autor, Título, Veiculo de Produção, ... Ex. Regra para Título Se cadeia tem sinal de hifem ou dois pontos: ENTÃO incrementa a chance de ser Título( 0.25) e incrementa a chance de ser Veículo( 0.2) e incrementa a chance de ser Local( 0.1) e incrementa a chance de ser Editora( 0.015)

Construção semi-automática Uso de uma ferramenta no desenvolvimento Especificado de maneira interativa e com uso de exemplos O usuário delimita trechos que interessam

Construção semi-automática Com base nos trechos selecionados, a ferramenta define um padrão sintático O resultado é um conjunto de dados estruturados de acordo com o modelo criado pela ferramenta

Construção semi-automática Prós: Torna mais rápido e fácil o desenvolvimento Contras: Caso a estrutura do documento seja modificado o wrapper tem que ser refeito

NoDoSe Ferramenta para estruturar e extrair dados de forma semi-automática Tanto o processo de estruturação quanto o de extração ocorre interativamente

O processo Especificar como os dados devem ser modelados: A estrutura é constituída de um conjunto de nós Cada nó é descrito por uma lista de atributos onde cada atributo tem a forma: <nome, valor> Decompor o documento em regiões: As regiões são mapeadas em nós Definir o formato de saída: Relatórios, BD etc.

Construção Automática Utiliza indução para encontrar padrões a partir de um conjunto de exemplos O processo de aprendizagem pode gerar várias hipóteses para um mesmo dado A solução é ajustar o algoritmo de aprendizagem para obedecer alguns critérios

Construção Automática Três aspectos a considerar em relação ao processo de aprendizagem: Aprendizagem o corre de maneira incremental ou o corpus é definido antecipadamente Em que linguagem(ou formalismo) será descrito o corpus e as hipóteses O algoritmo terá abordagem top-down ou bottom-up

Construção Automática Prós: Não requer nenhum esforço humano Contras: As regras dependem do dos exemplos de treinamento Caso a estrutura dos documentos seja alterada torna-se necessário selecionar um novo corpus e repetir o processo de aprendizagem

ShopBot Agente de compras para comércio eletrônico Realiza consultas em lojas on-line e extrai e resume informações de interesse Duas fases de atuação: Aprendizado Analisa páginas utilizando técnicas de aprendizagem Comparação Encontra o melhor preço de um produto específico

Análise Procura-se padrões no código do documento HTML Cria uma seqüência de registros separadas por tags visualmente perceptíveis como: <HR>, <P>, <BR>, <LI> Gera uma assinatura para cada registro através da remoção de tags HTML.

Análise Página de entrada: <html> <title>CD’s</title> <body> <B>Preços</B><P> <B>Pixies</B> <I>23,00</I><br> <B>The Cure</B> <I>22,00</I><br> <B>Suede</B> <I>22,00</I><br> </body> < /html>

Análise Assinatura: <html> <title>texto</title> <body> <B>texto</B><P> <B>texto</B> <I>texto</I><br> </body> </html> A primeira e a última linha representam, cada uma, apenas 1/5 das assinaturas, enquanto as outras, idênticas, representam 3/5 O shopBot descarta então, a primeira e a última linha

Avaliação de Wrappers O modo de avaliação não é padrão Podem ser usados: Tempo de processamento em relação ao volumes de dados; Taxa de erros; Custo e eficácia no processo de aprendizagem; F-measure, etc.

Bibliográfia Rodrigues Nunes C.C. ProdExt: Um Wrapper para Extração de Produção Técnica e Científica de Páginas Eletrônicas. Dissertação de Mestrado, UFPE, 2000. Cowie J., Lehnert W.. Information extraction. Comunications of the ACM, 39(1):80-91, January 1996. Maruyama H., Tamura K., Uramoto N. XML and Java.Addison-Wesle, 1998