A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

Apresentações semelhantes


Apresentação em tema: "1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho."— Transcrição da apresentação:

1 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho

2 2 Crescente números de textos digitalizados: intranets, bibliotecas digitais, CD-Rom,... Crescente números de textos digitalizados: intranets, bibliotecas digitais, CD-Rom,... WEB

3 3 Trata o problema de extração de dados a partir de uma coleção de documentos.Trata o problema de extração de dados a partir de uma coleção de documentos. Apenas informações relevantesApenas informações relevantes Extração de Informações

4 4 IR x IE IR (Information Retrieval) –recuperação de páginas (documentos) –ex. nosso projeto IE (Information Extraction) –recuperar dados dentro de documentos –deadlines, locais e assuntos em páginas de call for papers

5 5 Contexto Documentos Dados Classificação Extração de Informação

6 6 Histórico Linguistic String Project (60) FRUMP - newswire (79) DARPA - Grupos de Pesquisa (80) MUC - Message Understanding Conference (80)

7 7 Tipos de Texto Estruturados –Ex. tabelas, listas, XML,... Não estruturados –Ex. Fichas médicas, artigos, reportagens,... Semi-estruturados –Ex. Referencias bibliográficas, anuncios,...

8 8 Texto Estruturados Some Country Codes Congo 242 Egypt 20 Brazil 55 Some Country Codes Congo 242 Egypt 20 Brazil 55

9 9 Texto Não Estruturados Evento –Pessoa Entrando: C. Vicent Protho –Pessoa Saindo: John W. Smith –Cargo: Presidente C. Vicent Protho, diretor executivo do deste fabricante de chips, foi nomeado ao posto adicional de presidente, sucedendo John W. Smith, que renunciou o cargo em vista de outros interesses.

10 10 Texto Semi-estruturados VDO/TRC/ALG - Casa Pau Amarelo c/ 3 qts, 2sls, copa, coz, 3wcs, muro alto. Terreno medindo 936m2, area construída m2. R$50 mil. Fones:

11 11 XML Tags SGML Semântica no texto. Arquivo DTD Será XML amplamente usado na WEB?

12 12 XML Congo 242 Egypt 20 Brazil 55 Documento XML Documento DTT

13 13 Técnicas de IE Wrappers PLN Textos não-estruturados Técnicas simplificadas de PLN Textos estruturados Aplicações Web Ex. html, wml, xml,..

14 14 PLN Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Preenchimento de Templates Análise de Discurso Tokenização

15 15 PLN - Tokenização Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates Segmentação das Palavras Divisão em segmentos (estruturas) Pre-processamento – ignorar partes do texto

16 16 PLN - Análise Léxica Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates Classificação Morfológica (artigo, verbo, substantivo). Reconhecimento de nomes próprios, empresas, datas,... Etiquetagem automática

17 17 PLN - Análise Sintática Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates Construção arvore sintática Grupos Nominais Grupos Verbais Análise sintática parcial

18 18 PLN - Construção de Padrões Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates Dicionário de padrões de Extração Específico ao Domínio Automática X Manual eficiência, portabilidade, treinamento, alterações ad hoc

19 19 PLN - Construção de Padrões O parlamento foi bombardeado pela Guerrilha. A guerrilha bombardeou o parlamento ALVO - foi bombardeado pela - GRUPO grupo-nominal(ALV,cabeca(alvo-fisico)) grupo-nominal(GRP,cabeca(GRP)) grupo- verbal(VG,tipo(passivo),cabeca(bombardeado) sujeito(ALV,VG) objeto(GRP,VG) -> E ventoBonbardeamento(alvo(AVL),agente(GRUPO)) Exemplo : Regras :

20 20 PLN - Análise de Discurso Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates Relações entre sentenças do texto. Correferência Ligações entre palavras.

21 21 PLN - Preenchimento dos Templates Tokenização Análise Léxica /Morfológica Análise Sintática /Semântica Construção de Regras de Extração Análise de Discurso Preenchimento de Templates Preenches os dados em templates especificados pela aplicação. Objetos ou tabelas

22 22 Avaliação do Sistema Corpus Etiquetado Cobertura X Precisão F-Measure Taxa Mínima de 90% FMeasure = (2 * Cobertura * Precisão) (Cobertura + Precisão)

23 23 Problemas - PLN Adequação de Teorias Custo de Etiquetagem –Técnicas automáticas Custo de Produção –Seis especialistas mês

24 24 PLN X Homem Tipster –38 paginas de regras –Artigos de 10 paginas Homem Máquina X 60% a 80%50% 30 minutos20 horas

25 25 Wrappers Ferramenta usada para extrair dados de textos estruturados ou com algum tipo de estrutura Usada para permitir acesso integrado a base de dados heterogêneas Não usa conhecimento lingüístico Identifica padrões no documento

26 26 Tarefas & Construção 3 Tarefas –Recuperar/ler documento –Extrair informações –Estruturar os dados (ex. BD) Construção –Depende do problema a ser resolvido Abordagem –Manual –Semi-automática –automática

27 27 Construção Manual Regras escritas manualmente em uma linguagem de programação

28 28 Construção Manual Prós –Maior precisão –Técnica simples Contra –Tempo e esforço de desenvolvimento –Habilidade para definição das regras –Mudança no código caso a estrutura dos documentos seja alterada

29 29 COIN (Context Interchange) Utiliza wrappers para permitir acesso integrado a fontes de dados heterogêneas A intenção é construir wrappers com interfaces genéricas Proporcionar facilidade de reuso de código

30 30 Arquitetura Interpretador Projetista/Otimizador Interpretador Executor Casamento de padrões Acesso à rede Especificações Documentos Web consulta Resultados

31 31 ProdExt Extração de dados sobre produção técnica. –Ex. Autor, Título, Local, Data,... Textos semi-estruturados Arquitetura Híbrida

32 32 ProdExt - PLN Análise Léxica –Identificação de nomes de lugares, datas, veículos, nomes próprios (desejável) Dicionários –Veiculo de publicação, editora

33 33 ProdExt - Wrappers Regras com peso –Autor, Título, Veiculo de Produção,... Ex. Regra para Título Se cadeia tem sinal de hifem ou dois pontos: ENTÃO incrementa a chance de ser Título( 0.25) e incrementa a chance de ser Veículo( 0.2) e incrementa a chance de ser Local( 0.1) e incrementa a chance de ser Editora( 0.015)

34 34 Construção semi-automática Uso de uma ferramenta no desenvolvimento Especificado de maneira interativa e com uso de exemplos O usuário delimita trechos que interessam

35 35 Construção semi-automática Com base nos trechos selecionados, a ferramenta define um padrão sintático O resultado é um conjunto de dados estruturados de acordo com o modelo criado pela ferramenta

36 36 Construção semi-automática Prós: –Torna mais rápido e fácil o desenvolvimento Contras: –Caso a estrutura do documento seja modificado o wrapper tem que ser refeito

37 37 NoDoSe Ferramenta para estruturar e extrair dados de forma semi-automática Tanto o processo de estruturação quanto o de extração ocorre interativamente

38 38 O processo Especificar como os dados devem ser modelados: –A estrutura é constituída de um conjunto de nós –Cada nó é descrito por uma lista de atributos onde cada atributo tem a forma: Decompor o documento em regiões: –As regiões são mapeadas em nós Definir o formato de saída: –Relatórios, BD etc.

39 39 Construção Automática Utiliza indução para encontrar padrões a partir de um conjunto de exemplos O processo de aprendizagem pode gerar várias hipóteses para um mesmo dado A solução é ajustar o algoritmo de aprendizagem para obedecer alguns critérios

40 40 Construção Automática Três aspectos a considerar em relação ao processo de aprendizagem: –Aprendizagem o corre de maneira incremental ou o corpus é definido antecipadamente –Em que linguagem(ou formalismo) será descrito o corpus e as hipóteses –O algoritmo terá abordagem top-down ou bottom-up

41 41 Construção Automática Prós: –Não requer nenhum esforço humano Contras: –As regras dependem do dos exemplos de treinamento –Caso a estrutura dos documentos seja alterada torna-se necessário selecionar um novo corpus e repetir o processo de aprendizagem

42 42 ShopBot Agente de compras para comércio eletrônico Realiza consultas em lojas on-line e extrai e resume informações de interesse Duas fases de atuação: –Aprendizado Analisa páginas utilizando técnicas de aprendizagem –Comparação Encontra o melhor preço de um produto específico

43 43 Análise Procura-se padrões no código do documento HTML Cria uma seqüência de registros separadas por tags visualmente perceptíveis como: –,,, Gera uma assinatura para cada registro através da remoção de tags HTML.

44 44 Análise Página de entrada: CDs Preços Pixies 23,00 The Cure 22,00 Suede 22,00

45 45 Análise Assinatura: texto texto A primeira e a última linha representam, cada uma, apenas 1/5 das assinaturas, enquanto as outras, idênticas, representam 3/5 O shopBot descarta então, a primeira e a última linha

46 46 Avaliação de Wrappers O modo de avaliação não é padrão Podem ser usados: –Tempo de processamento em relação ao volumes de dados; –Taxa de erros; –Custo e eficácia no processo de aprendizagem; –F-measure, etc.

47 47 Bibliográfia Rodrigues Nunes C.C. ProdExt: Um Wrapper para Extração de Produção Técnica e Científica de Páginas Eletrônicas. Dissertação de Mestrado, UFPE, Cowie J., Lehnert W.. Information extraction. Comunications of the ACM, 39(1):80-91, January Maruyama H., Tamura K., Uramoto N. XML and Java.Addison-Wesle, 1998


Carregar ppt "1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho."

Apresentações semelhantes


Anúncios Google