Extração da Informação

Slides:



Advertisements
Apresentações semelhantes
Patrícia da Silva Campelo Costa, Eliseo Berni Reategui
Advertisements

Introdução a Algoritmos
Metodologia de testes Nome: Gustavo G. Quintão
Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Propriedades de Documentos
Profa. MS.Sandra Regina Costa Antico Setembro/2010
Apresentação da Monografia
Interação Homem-Máquina
Interfaces Conversacionais
Sistema Web para Departamentos
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Projetos de Programação em Lógica
-- PNOTA -- Uma Aplicação para Correção Assistida de Questões Discursivas Filipe Wall Mutz.
Alunos: Benedito Jr, Douglas Bertol, Robson Costa
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Interfaces gráficas e Interfaces Web
I have a dream…. Belinda Maia.
University of Minho, Portugal
Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.
Inteligência Artificial
Universidade Federal de Santa Catarina Centro de Ciências da Informação Curso de Biblioteconomia Acadêmicas: Cláudia Zambelli Mezalira Elis Regina Mocellin.
Extração da Informação
Aula prática - análise contextual
Dinâmica do Papel Profª Elaine C. M. Kozuki Ciências 9º ano do F II.
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
INTERFACE HOMEM-MÁQUINA
Gerenciamento de Dados
Introdução a Programação
Área de Pesquisa: Redes de Computadores
Treinamento para Professores
Semântica de Linguagens de Programação
Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação
Profa. Reane Franco Goulart
Observatório - EPT NÚCLEO DE TECNOLOGIA. Função: Gerar soluções estratégicas através da aplicação e desenvolvimento de ferramentas de TI. A coordenação.
Recuperação de Informação
Professor: Márcio Amador
Web de Dados Bruno Dutra – Roteiro Contexto Definição Princípios Estrutura e Componentes Benefícios X Desafios Aplicações Conclusão.
Arquitetura de Desenvolvimento Web MVC vs. Three Tiers
Classificacao de Texto Projeto Spam Filter
Prof. Dr. Vinicius Ponte Machado
Banco de Dados Aplicado ao Desenvolvimento de Software
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
WIE PUCPR1 Um Experimento com Agentes de Software para Monitorar a Colaboração em Aulas Virtuais Patrícia Augustin Jaques Orientador: Prof. Dr.
Dados abertos interligados
AMBIENTE VIRTUAL DE APRENDIZAGEM
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Ferramentas de Manipulação de Ontologias (Protégé)
Semântica de Linguagens de Programação
Extração de Informação
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.
Extração de Informação
Tesauro, Taxonomia e Ontologia: uma evolução?
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
SISTEMAS DE INFORMAÇÃO
O que é a Inteligência Artificial?
Inteligência artificial (IA)
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Curso de verão Data Mining Web Mining. O que é Web Mining?  Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações.
Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Modificado por Flávia Barros.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Síntese do Negócio ONTOWEB. Ontoweb – Nova Geração de Ferramenta de Busca Possui comportamento inteligente que auxilia o usuário a organizar e compartilhar.
Transcrição da apresentação:

Extração da Informação Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Roteiro Motivação Processo de extração da informação Abordagens para um sistema de EI Aplicações Conclusão

Motivação Crescimento desordenado da internet: Em Dez/2012 o site InternetArchive afirmou que a internet possuia 10PetaBytes Em 2015 estudos prevêm 966ExaBytes (1,000,000,000,000,000,000bytes) Oportunidade de extrair informações da rede Problemas Documentos na maioria das vezes: não-estruturas ou semi-estruturados Migração de dados entre interfaces distintas: Web-service -> Banco de Dados

Motivação Com Extração de Informações é possível: Gerar resumos de textos Minerar Dados Preencher Base de Dados Sumarizar Textos

Introdução O que é EI? Encontra informações em documentos não estruturados ou semi-estruturados Conversão para estruturas de tabelas WebServices Banco de Dados Exibição dos dados de forma legível

Sistema de Extração de Informação Introdução Sistema de Extração de Informação Sistema de Extração de Informação

Processo de extração de informação

Introdução História JASPER (1980s) Sistema para finanças MUC-Message Understanding Conference [final da década de 80] Internet/Web [década de 90]

Recuperação de Informação Recuperação de informação trata documentos relevantes, levando em conta os termos que aparecem no documento Análise sintática do documento

Extração de Informação Busca mais direta nos textos. Pesquisa direcionada em partes específicas do texto Possui custo computacional mais baixo, menor esforço

Extração de Informação Extração de informação é uma tarefa na área de Recuperação da Informação As informações são extraídas baseando-se no prévio conhecimento do documento Procura encontrar informações e derivar conhecimento de documentos recuperados através da estrutura de sua representação

Mineração na web

Processo de extração de informação individual Documento Reconhecimento de entidades Análise Léxica e Morfológica Análise de relacionamentos e contexto Análise Sintática Integração Análise semântica Inferência Informação estruturada e contexto

Sistema de EI A Implementação de sistemas de Extração de Informação distinguem-se entre duas abordagens: Engenharia de conhecimento Treinamento automático As abordagens são diferenciadas pela forma com que as regras são definidas

Engenharia de conhecimento Regras são elaboradas manualmente Para isso é necessário que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras Sistemas mais precisos Mais tempo para desenvolvê-lo

Treinamento automático Algoritmos de Inteligência Artificial para treinar o sistema Documentos são utilizados no treinamento e na geração das regras Usuários podem interagir O algoritmo aprende regras com a interação com o usuário Tempo menor de desenvolvimento Menor precisão nos resultados

Abordagens para um Sistema de EI Wrappers Processamento de Linguagem Natural – PLN

Wrappers Módulo que extrai a informação de documentos e a exporta como parte de uma estrutura de dados Avanço da WEB, necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos

Wrappers Textos estão Estruturados Semi-estruturados Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras

Construção de wrappers Automática Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. Semi-automática Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. Manual Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

Processamento de Linguagem Natural - PLN Textos estão Semi-Estruturados (pouca estrutura) Sem estrutura PLN trabalha com língua e suas nuances para descobrir dados relevantes a serem extraídos

Visão Geral Nível Morfológico Nível Sintático Nível Semântico Nível Discursivo Nível Pragmático

Nível Morfológico A análise Morfológica determina: Radical + Sufixo Classe da Palavra Conjugação Pessoa Eat+s Verbo Singular 3ª Pessoa Dog+s Substantivo Plural ----------

Nível Sintático A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica Tem como saída a representação da sentença que representa as dependências entre palavras As sentenças de exemplo apenas diferem na sintaxe e apresentam significados diferentes

Nível Semântico Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença Sem ambiguidade semântica A cabeça une-se ao tronco pelo pescoço Ele é o cabeça da rebelião Sabrina tem boa cabeça

Nível Discursivo Analisa textos maiores que sentenças Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam Reconhecimento de estrutura de texto: em um revistas temos; artigos de capa, opiniões, eventos passados, anúncios

Nível Pragmático Foca no significado que vai além do contexto do texto Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

Técnicas de Extração Autômatos finitos Casamento de padrões Classificadores de texto Modelos de Markov escondidos (HMM)

Autômatos Finitos Bons para textos estruturados. Definidos manualmente ou aprendidos automaticamente. Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais (categorização) Transducers

Casamento de Padrões Textos estruturados, semi-estruturados e livres. Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. ER mais intuitivas do que autômatos.

Classificadores de Texto Textos semi-estruturados Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Modelos de Markov Escondidos (HMM) Textos livres e semi-estruturados. Verifica a ocorrência de padrões em sequência no texto de entrada. Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Aplicações de Extração de Informação Ubibus UbibusAnalysis TG de vgl2 do Cin UFPE Extrator de Dados Contextuais - responsável por buscar nas redes sociais informações sobre ocorrências de trânsito no Recife o Ubibus, um sistema de transporte público inteligente, ubíquo e sensível ao contexto [Vieira et al. 2011]

Aplicações de Extração de Informação Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Aplicações de Extração de Informação DEWI É uma ferramenta baseada na Web que permite aos usuários encontrar e extrair as variáveis ​​de conjuntos de dados selecionados dentro da ciência social, a coleta de dados numéricos “The Stanford University Libraries”. Ele está disponível para uso pela comunidade de Stanford para investigação e instrução. O Sistema DEWI foi inspirado no Codebook Eletrônico (BCE) para Windows que foi desenvolvido por Dennis Carroll no Centro Nacional para Estatísticas da Educação (ENC).

Aplicações de Extração de Informação Software aplicado em várias áreas: A seguir, histórias de sucesso de clientes para extração de dados Web

Aplicações de Extração de Informação

Aplicações de Extração de Informação

Aplicações de Extração de Informação

Aplicações de Extração de Informação

Aplicações de Extração de Informação

Aplicações de Extração de Informação

Aplicações de Extração de Informação

Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes

Dúvidas

Referências MANFREDINI, V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi- Estruturados http://en.wikipedia.org/wiki/Information_extract ion Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Enc yclopedia.pdf

Referências Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR http://143.54.31.10/reic/edicoes/2003e2/tutori ais/MineracaoNaWeb.pdf

Referências www.cin.ufpe.br/~if796/2006- 1/ExtracaoInformacao.ppt http://sare.unianhanguera.edu.br/index.php/rce xt/article/viewFile/413/409 MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc