A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Extração da Informação

Apresentações semelhantes


Apresentação em tema: "Extração da Informação"— Transcrição da apresentação:

1 Extração da Informação
Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

2 Roteiro Motivação Processo de extração da informação
Abordagens para um sistema de EI Aplicações Conclusão

3 Motivação Crescimento desordenado da internet:
Em Dez/2012 o site InternetArchive afirmou que a internet possuia 10PetaBytes Em 2015 estudos prevêm 966ExaBytes (1,000,000,000,000,000,000bytes) Oportunidade de extrair informações da rede Problemas Documentos na maioria das vezes: não-estruturas ou semi-estruturados Migração de dados entre interfaces distintas: Web-service -> Banco de Dados

4 Motivação Com Extração de Informações é possível:
Gerar resumos de textos Minerar Dados Preencher Base de Dados Sumarizar Textos

5 Introdução O que é EI? Encontra informações em documentos não estruturados ou semi-estruturados Conversão para estruturas de tabelas WebServices Banco de Dados Exibição dos dados de forma legível

6 Sistema de Extração de Informação
Introdução Sistema de Extração de Informação Sistema de Extração de Informação

7 Processo de extração de informação

8 Introdução História JASPER (1980s)
Sistema para finanças MUC-Message Understanding Conference [final da década de 80] Internet/Web [década de 90]

9 Recuperação de Informação
Recuperação de informação trata documentos relevantes, levando em conta os termos que aparecem no documento Análise sintática do documento

10 Extração de Informação
Busca mais direta nos textos. Pesquisa direcionada em partes específicas do texto Possui custo computacional mais baixo, menor esforço

11 Extração de Informação
Extração de informação é uma tarefa na área de Recuperação da Informação As informações são extraídas baseando-se no prévio conhecimento do documento Procura encontrar informações e derivar conhecimento de documentos recuperados através da estrutura de sua representação

12 Mineração na web

13 Processo de extração de informação
individual Documento Reconhecimento de entidades Análise Léxica e Morfológica Análise de relacionamentos e contexto Análise Sintática Integração Análise semântica Inferência Informação estruturada e contexto

14 Sistema de EI A Implementação de sistemas de Extração de Informação distinguem-se entre duas abordagens: Engenharia de conhecimento Treinamento automático As abordagens são diferenciadas pela forma com que as regras são definidas

15 Engenharia de conhecimento
Regras são elaboradas manualmente Para isso é necessário que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras Sistemas mais precisos Mais tempo para desenvolvê-lo

16 Treinamento automático
Algoritmos de Inteligência Artificial para treinar o sistema Documentos são utilizados no treinamento e na geração das regras Usuários podem interagir O algoritmo aprende regras com a interação com o usuário Tempo menor de desenvolvimento Menor precisão nos resultados

17 Abordagens para um Sistema de EI
Wrappers Processamento de Linguagem Natural – PLN

18 Wrappers Módulo que extrai a informação de documentos e a exporta como parte de uma estrutura de dados Avanço da WEB, necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos

19 Wrappers Textos estão Estruturados Semi-estruturados Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras

20 Construção de wrappers
Automática Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. Semi-automática Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. Manual Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

21 Processamento de Linguagem Natural - PLN
Textos estão Semi-Estruturados (pouca estrutura) Sem estrutura PLN trabalha com língua e suas nuances para descobrir dados relevantes a serem extraídos

22 Visão Geral Nível Morfológico Nível Sintático Nível Semântico
Nível Discursivo Nível Pragmático

23 Nível Morfológico A análise Morfológica determina: Radical + Sufixo
Classe da Palavra Conjugação Pessoa Eat+s Verbo Singular 3ª Pessoa Dog+s Substantivo Plural

24 Nível Sintático A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica Tem como saída a representação da sentença que representa as dependências entre palavras As sentenças de exemplo apenas diferem na sintaxe e apresentam significados diferentes

25 Nível Semântico Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença Sem ambiguidade semântica A cabeça une-se ao tronco pelo pescoço Ele é o cabeça da rebelião Sabrina tem boa cabeça

26 Nível Discursivo Analisa textos maiores que sentenças
Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam Reconhecimento de estrutura de texto: em um revistas temos; artigos de capa, opiniões, eventos passados, anúncios

27 Nível Pragmático Foca no significado que vai além do contexto do texto
Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

28 Técnicas de Extração Autômatos finitos Casamento de padrões
Classificadores de texto Modelos de Markov escondidos (HMM)

29 Autômatos Finitos Bons para textos estruturados.
Definidos manualmente ou aprendidos automaticamente. Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais (categorização) Transducers

30 Casamento de Padrões Textos estruturados, semi-estruturados e livres.
Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. ER mais intuitivas do que autômatos.

31 Classificadores de Texto
Textos semi-estruturados Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

32 Modelos de Markov Escondidos (HMM)
Textos livres e semi-estruturados. Verifica a ocorrência de padrões em sequência no texto de entrada. Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. Maximiza a probabilidade de acerto para o conjunto todo de padrões.

33 Aplicações de Extração de Informação
Ubibus UbibusAnalysis TG de vgl2 do Cin UFPE Extrator de Dados Contextuais - responsável por buscar nas redes sociais informações sobre ocorrências de trânsito no Recife o Ubibus, um sistema de transporte público inteligente, ubíquo e sensível ao contexto [Vieira et al. 2011]

34 Aplicações de Extração de Informação
Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo Monitoramento da WEB Buscar por Hackers Busca por Terroristas

35 Aplicações de Extração de Informação
DEWI É uma ferramenta baseada na Web que permite aos usuários encontrar e extrair as variáveis ​​de conjuntos de dados selecionados dentro da ciência social, a coleta de dados numéricos “The Stanford University Libraries”. Ele está disponível para uso pela comunidade de Stanford para investigação e instrução. O Sistema DEWI foi inspirado no Codebook Eletrônico (BCE) para Windows que foi desenvolvido por Dennis Carroll no Centro Nacional para Estatísticas da Educação (ENC).

36 Aplicações de Extração de Informação
Software aplicado em várias áreas: A seguir, histórias de sucesso de clientes para extração de dados Web

37 Aplicações de Extração de Informação

38 Aplicações de Extração de Informação

39 Aplicações de Extração de Informação

40 Aplicações de Extração de Informação

41 Aplicações de Extração de Informação

42 Aplicações de Extração de Informação

43 Aplicações de Extração de Informação

44 Conclusões Extrair Informação é preciso
WEB é um pandemônio de informações Soluções inteligentes

45 Dúvidas

46 Referências MANFREDINI, V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi- Estruturados ion Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc yclopedia.pdf

47 Referências Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR ais/MineracaoNaWeb.pdf

48 Referências www.cin.ufpe.br/~if796/2006- 1/ExtracaoInformacao.ppt
xt/article/viewFile/413/409 MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn  www.cin.ufpe.br/~tg/2000-2/tmlm.doc


Carregar ppt "Extração da Informação"

Apresentações semelhantes


Anúncios Google