Extração de Informação Equipe: Domingos Sávio Raoni Franco Roberto Costa Ronaldo Marques Revisada por Flavia Barros Jul/2007.

Slides:



Advertisements
Apresentações semelhantes
O é Google Summer of Code ? Quais são os objetivos do progama? Como é o trabalho no GsoC? Calendário Google Summer of Code Bolsas de Estudo Projetos Participantes.
Advertisements

Pesquisa Avançada, Tutorial de Estilo Orientado
Extração de Informação
Introdução à Ciência da Computação Linguagens de Programação.
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
1 / 38 AVALIAÇÃO DE UM PROCESSO E SOFTWARE PARA A PRODUÇÃO DE CONTEÚDOS DE ENSINO Foz do Iguaçu, 02 de Setembro de Luciete Basto de Andrade Albuquerque.
Laboratório de Informática Introdução à Linguagem HTML
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Infra-Estrutura de TI: Hardware e Software
Engenharia de Software
Software Básico Silvio Fernandes
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
Interfaces Conversacionais
DNS Introdução.
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Dissertação de Mestrado Michel Alain Quintana Truyenque
Universidade Federal de Minas Gerais Escola de Ciência da Informação Introdução à Informática Prof. David Menoti Sílvia Aparecida Moreira Guilherme Pacheco.
Metodologia Científica Aula 6
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Carlos Alberto de Freitas Pereira Júnior
Classes e objetos Modelagem
Administração de Sistemas de Informação Banco de Dados
OSA - Operação de Software e Aplicativos
Profa. Reane Franco Goulart
Impressão de etiquetas
Engineering Village 2 Ana Luisa Maia. 2 Treinamento (Roteiro) Apresentação – Empresa – Interface – Bases de dados – Busca na interface (Easy Search, Quick.
Comunicação Social Criação e Produção de Sites
Inteligência Artificial
CFE CEGI BE BEL – Literacia Verbal
Extração da Informação
Cap 4 – Métricas do Processo e Projeto de Software
Engenharia Civil e Ambiente ANÁLISE ESTRUTURAL, 5 de Dezembro / 33 ANÁLISE ESTRUTURAL ENGENHARIA CIVIL E AMBIENTE.
Introdução ao Desenvolvimento Web
Universidade São Marcos Curso: Gestão de Negócios Internacionais
Cícero Nogueira dos Santos Ruy Luiz Milidiú
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Momentos de Hu e Zernike para o Reconhecimento de Linguagem de Sinais
Registro de Oportunidade
Extranet GRD – Guia de Remessa de Documentos
Área de Pesquisa: Redes de Computadores
MapReduce Conceitos e Aplicações
Módulo: Gerenciamento de Incidentes e
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
 - PSF Grupo: abc, agsj, fcac.
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Projeto de Banco de Dados
ENGA78 – Síntese de Circuitos Digitais
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Seja bem-vindo!. SUMÁRIO Cadastro do projeto pedagógico Cadastro.
Agenda - Aula 2 Introdução (Computador Digital) Processadores
Recuperação de Informação
1 Contributos para uma Boa Apresentação Luis M. Correia Instituto Superior Técnico / INOV-INESC Universidade Técnica de Lisboa, Portugal (2001/06/22, revisto.
MÓDULO 4 Como usar PubMed
Máquina de Turing Universal
FORMATANDO O TRABALHO NO WORD 2007
Arquitetura de Desenvolvimento Web MVC vs. Three Tiers
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Planilha Eletrônica - Excel
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação
Inteligência Artificial Web Semântica
Nº Pedro José de Oliveira Sessão Controlo Tese 2º Semestre 2007/2008 Orientador – João Rocha.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Extração de Informação
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Extração de Informação
Classificação de Textos
TÉCNICAS DE ESTIMATIVAS
Extração de Informação
Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Modificado por Flávia Barros.
Transcrição da apresentação:

Extração de Informação Equipe: Domingos Sávio Raoni Franco Roberto Costa Ronaldo Marques Revisada por Flavia Barros Jul/2007

Roteiro Motivação História Processo de Extração Wrappers Aplicações Referências

Problemas Internet Crescimento exponencial Maior parte da informação está em forma de texto livre Documentos não estruturados ou semi- estruturados Migração de dados entre diferentes interfaces

Algumas questões Como localizar informação relevante? Como extrair a informação relevante? Como gerar BDs ou bases de conhecimento automaticamente? Extração de Informação pode ajudar... Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99] Blah blah blah trecho relevante blah blah blah

Extração de Informação (EI) Os dados a serem extraídos são previamente definidos em um template (formulário) Os dados extraídos podem ser diretamente apresentados na tela ser usados para preencher um BD ou uma BC Sistema p/ EI BD Item1: Item2: Item3: Item4: Item5: Template BC

Extração de Informação A base estruturada resultante pode ser usada para: Procurar ou analisar dados utilizando linguagens de queries de BDs Mineração de Dados Geração de sumários possivelmente em outra língua Construção de índices para a coleção de documentos fonte

Extração de Informação Domínio específico ex: Domínio de Businness O significado do que é “relevante” é pré-definido ex: ciclo de vida de companhias:  Ações: juntar, separar, comprar  Companhias envolvidas e seus papéis  Capital envolvido Dados obscuros e objetivos do escritor não são considerados

Processo de Extração Técnica pode ser aplicada a diferentes tipos de textos: Artigos de Jornais Web pages Artigos Científicos Mensagens de Newsgroup Classified ads Anotações Médicas

Exemplo: Ataque Terrorista

História da EI Início (fim da década de 80) MUC-Message Understanding Conference Processamento de Linguagem Natural Década de 90… Internet Wrappers (extratores)

EI versus outras áreas relacionadas EI vs. Recuperação de Informação EI vs. Compreensão Completa do Texto

EI vs. Recuperação de Informação RI: Dada uma consulta do usuário, um sistema de RI seleciona um subconjunto de documentos relevantes de um conjunto maior Depois, o usuário procura as informações que ele necessita no subconjunto selecionado EI extrai informações relevantes de documentos RI e EI são tecnologias complementares

EI vs. Recuperação de Informação Recuperação de Informação: Entrega documentos para o usuário Extração de Informação: Entrega fatos para o usuário/aplicacões

EI vs. Compreensão Completa do Texto CCT entendimento do texto inteiro respresentação alvo deve acomodar a complexidade da língua necessita reconhecer aspectos estilísticos EI somente uma parte do texto é relevante representação alvo rígida estilo e cor do texto é irrelevante

Por que EI é difícil? Língua Natural é difícil de tratar automaticamnete é muito flexível várias formas para expressar uma única informação Frodo Baggins succeeds Bilbo Baggins as chairperson of Bank of America. Bank of America named Frodo Baggins as its new chair-person after Bilbo Baggins. Bilbo Baggins was succeeded by Frodo Baggins as chair-person of Bank of America. …

Por que EI é difícil? Língua natural é ambígua mesma sentença podendo ter significados diferentes Sam, Frodo’s partner, a CMU student, … Língua natural é dinâmica New words are constantly introduced into the language: ecotourist, lol Established words gain new senses: to google, to message

19 Subject: US-TN-SOFTWARE PROGRAMMER Date: 17 Nov :37:29 GMT Organization: Reference.Com Posting Service Message-ID: SOFTWARE PROGRAMMER Position available for Software Programmer experienced in generating software for PC-Based Voice Mail systems. Experienced in C Programming. Must be familiar with communicating with and controlling voice cards; preferable Dialogic, however, experience with others such as Rhetorix and Natural Microsystems is okay. Prefer 5 years or more experience with PC Based Voice Mail, but will consider as little as 2 years. Need to find a Senior level person who can come on board and pick up code with very little training. Present Operating System is DOS. May go to OS-2 or UNIX in future. Please reply to: Kim Anderson AdNET (901) fax Subject: US-TN-SOFTWARE PROGRAMMER Date: 17 Nov :37:29 GMT Organization: Reference.Com Posting Service Message-ID: SOFTWARE PROGRAMMER Position available for Software Programmer experienced in generating software for PC-Based Voice Mail systems. Experienced in C Programming. Must be familiar with communicating with and controlling voice cards; preferable Dialogic, however, experience with others such as Rhetorix and Natural Microsystems is okay. Prefer 5 years or more experience with PC Based Voice Mail, but will consider as little as 2 years. Need to find a Senior level person who can come on board and pick up code with very little training. Present Operating System is DOS. May go to OS-2 or UNIX in future. Please reply to: Kim Anderson AdNET (901) fax Sample Job Posting

20 Extracted Job Template computer_science_job id: title: SOFTWARE PROGRAMMER salary: company: recruiter: state: TN city: country: US language: C platform: PC \ DOS \ OS-2 \ UNIX application: area: Voice Mail req_years_experience: 2 desired_years_experience: 5 req_degree: desired_degree: post_date: 17 Nov 1996

21 Amazon Book Description …. The Age of Spiritual Machines : When Computers Exceed Human Intelligence by <a href="/exec/obidos/search-handle-url/index=books&field-author= Kurzweil%2C%20Ray/ "> Ray Kurzweil <img src=" width=90 height=140 align=left border=0> List Price: $14.95 Our Price: $11.96 You Save: $2.99 (20%) …. The Age of Spiritual Machines : When Computers Exceed Human Intelligence by <a href="/exec/obidos/search-handle-url/index=books&field-author= Kurzweil%2C%20Ray/ "> Ray Kurzweil <img src=" width=90 height=140 align=left border=0> List Price: $14.95 Our Price: $11.96 You Save: $2.99 (20%) …

22 Extracted Book Template Title: The Age of Spiritual Machines : When Computers Exceed Human Intelligence Author: Ray Kurzweil List-Price: $14.95 Price: $11.96 :

Tipos de texto Estruturado Formato pre-definido e rígido Não-Estruturado Livre Sentenças em alguma linguagem natural Semi-estruturado Formatação não segue regras rígidas Algum grau de estruturação campos ausentes variações na ordem dos dados

Tipos de texto Estruturado Não-Estruturado Semi-estruturado Some Country Codes Congo 242 Egypt 20 Spain 34 Belize 501 Uno 97, 4p., Ar, Dir, VE, Som, Prata Gol 16V, ano 94, Ar, 2 portas, Al. Corsa 92, c/ 2 portas, Alarme, Rodas Estudantes caras-pintadas protestaram, ontem, no Centro de São Paulo exigindo o impeachment do prefeito Celso Pitta, acusado de corrupção por sua ex-mulher.

Tipos de Sistemas para EI Baseados em PLN Extrair informações de textos em linguagem natural (livre) Padrões lingüísticos Wrappers Principalmente para textos estruturados e semi-estruturados Formatação do texto, marcadores, freqüência estatística das palavras Construção Manual X Aprendizagem

Construção manual de Wrappers Baseada em engenharia do conhecimento Construção manual de regras de extração Padrões de extração são descobertos por especialistas após examinarem o corpus de treinamento Vantagem Boa performance dos Sistemas Desvantagens Processo de desenvolvimento trabalhoso Escalabilidade Especialista pode não estar disponível

Construção Automática de Wrappers Aprendizagem de máquina Aprender sistemas de EI a partir de um conjunto de treinamento Vantagens Mais fácil marcar um corpus do que criar regras de extração Menor esforço do especialista Escalabilidade Desvantagens Esforço de marcação do corpus de treinamento

Natural Language Processing Capazes de lidar com as irregularidades das línguas naturais Técnicas. Part-of-speech (POS) tagging Mark each word as a noun, verb, preposition, etc. Syntactic parsing Identify phrases: NP, VP, PP Semantic word categories KILL: kill, murder, assassinate, strangle, suffocate

Wrappers - Técnicas de Extração Definem como o sistema realiza o processo de extração da informação Técnicas Autômatos Finitos Casamento de Padrões Classificação de Textos Modelos de Markov Escondidos

Wrappers – Autômatos Finitos Regras de extração na forma de autômatos finitos Definidos por: (1) estados que “aceitam” os símbolos do texto que preenchem algum campo do formulário de saída, (2) os estados que apenas consomem os símbolos irrelevantes encontrados no texto, e (3) os símbolos que provocam as transições de estado Textos estruturados e semi-estruturados Delimitadores, ordem dos elementos

Wrappers – Autômatos finitos Exemplo

Wrappers - Casamento de Padrões Aprendem regras na forma de expressões regulares. Expressões regulares que “casam” com o texto para extrair as informações Textos livres, estruturados e semi-estruturados Delimitadores, padrões regulares (Ex. data, CEP)

Wrappers - Casamento de Padrões Padrão :: * (Digit) ‘ BR’ * ‘$’ (Number) Formulário:: Aluguel {Quartos $1} {Preço $2} Capitol Hill – 1 br twnhme. fplc D/W W/D. Undrgrnd pkg incl $ BR, upper flr of turn of ctry HOME. incl gar, grt N. Hill loc $995. (206) (This ad last ran on 08/03/97.)

Wrappers - Classificação de textos Dividem o texto de entrada em fragmentos candidatos a preencher algum campo do formulário de saída. Classificam os fragmentos com base em suas características posição número de palavras presença de palavras específicas letras capitalizadas

Wrappers - Classificação de textos Desvantagem Classificação local independente para cada fragmento (desvantagem) Textos semi-estruturados

Classificação de Textos Classificam fragmentos do documento para determinar que campo do formulário eles devem preencher Classificador outros empresa outros nome cargo endereco telefone

Wrappers - Modelos de Markov Escondidos (HMM) Um HMM é um autômato finito probabilístico que consiste em: (1) Um conjunto de estados ocultos S; (2) Uma probabilidade de transição Pr[s’/s] entre os estados ocultos s E S e s’ E S; (3) Um conjunto de símbolos T emitidos pelos estados ocultos; (4) Uma distribuição de probabilidade Pr[t/s] de emissão de cada símbolo t E T para cada estado escondido s E S. Processo de classificação Retorna a seqüência de estados ocultos com maior probabilidade de ter emitido cada seqüência de símbolos de entrada.

Wrappers - Modelos de Markov Escondidos (HMM) Vantagem Realizar uma classificação ótima para a seqüência completa de entrada. Desvantagem Não é capaz de fazer uso de múltiplas características dos Tokens (por exemplo, formatação, tamanho e posição),

Desenvolvimento Teórico Um “modelo” HMM é definido por: y 1 y 2 y 3 y 4 a 12 a 13 a 21 a 23 a 31 a 23 a 11 a 22 a 33 b 11 b 31 b 21 b 32 b 12 b 22 b 33 b 13 b 23 b 14 b 24 b 34  O número de estados não-visíveis.  A matriz de transição de estados.  O número de observações ou estados visíveis.  A matriz de probabilidade de emissão de estados visíveis.

Exemplo Ilustrativo Lago L 1 Lago L 2 P 1  L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 P 2  L 2, L 1, L 2, L 1, L 1, L 2, L 1, L 1, L 2, L 2 P 3  L 1, L 1, L 1, L 2, L 1, L 2, L 1, L 2, L 2, L 2 P X  L 1, L 2, L 2, L 2, L 1, L 2, L 1, L 1, L 2, L 1 Deseja-se identificar este pato!!

Exemplo Ilustrativo P 1  L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 4 transições que saem de L 1 2 transições vão para L 1 2 transições vão para L 2 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L2 Assume-se que a probabilidade de se visitar um lago depende de que lago foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Exemplo Ilustrativo P 1  L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L2 5 transições que saem de L 2 1 transição vai para L 1 4 transições vão para L 2 Assume-se que a probabilidade de se visitar um lago depende de que lago foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Exemplo Ilustrativo P 1  L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L transições que saem de L 2 1 transição vai para L 1 4 transições vão para L 2 Assume-se que a probabilidade de se visitar um lago depende de que lago foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Exemplo Ilustrativo L2L2 0.5 L1L1 L2L2 L1L1 Saída ChegadaA1A L2L L1L1 L2L2 L1L1 Saída ChegadaA2A2 0.5 L2L L1L1 L2L2 L1L1 Saída ChegadaA3A3

Exemplo Ilustrativo Conclusões: Probabilidade de P X ter sido gerado pelo Pato 1: P X  L 1, L 2, L 2, L 2, L 1, L 2, L 1, L 1, L 2, L 1 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L x 0.8 x 0.8 x 0.2 x 0.5 x 0.2 x 0.5 x 0.5 x 0.2 =

Exemplo Ilustrativo Conclusões: Probabilidade de P X ter sido gerado pelo Pato 2: P X  L 1, L 2, L 2, L 2, L 1, L 2, L 1, L 1, L 2, L 1 A2A2 Chegada Saída L1L1 L2L2 L1L L2L x 0.75 x 0.75 x 0.25 x 0.6 x 0.25 x 0.4 x 0.6 x 0.25 =

Exemplo Ilustrativo Conclusões: Probabilidade de P X ter sido gerado pelo Pato 3: P X  L 1, L 2, L 2, L 2, L 1, L 2, L 1, L 1, L 2, L 1 A3A3 Chegada Saída L1L1 L2L2 L1L L2L x 0.5 x 0.5 x 0.6 x 0.5 x 0.6 x 0.4 x 0.5 x 0.6 = Comparando as probabilidades, conclui-se que o mais provável é que o pato desconhecido seja o Pato 3!

Aplicações

Extração de Informação em Documentos Conteúdo Análise Estrutural Análise Semântica Empresa portuguesa responsável por 3,4% do PIB de Portugal. Aplicações

Extração de Informação em Documentos Análise do Código Fonte de Aplicações Uso de Padrões Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens. Aplicações

Extração de Informação na WEB Filtragem de Fóruns Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

Extração de Informação na WEB Monitoramento da WEB Busca por Hackers Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes. Aplicações

Extração de Informação na WEB Monitoramento de opiniões espontâneas da WEB Análises qualitativas e quantitativas dos dados recolhidos Informação estruturada de cada post, a partir de cada serviço cadastrado. Empresa brasileira com 3 anos de mercado.

Extração de Informações Estratégicas Business Intelligence Análise de Mercado Melhoria de Processos Empresa brasileira que oferece soluções na área de BI. Aplicações

Extração de Informações Estratégicas Análises Biológicas de Dados Regiões Codificantes (DNA) Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet. Aplicações

Extração de Informações Estratégicas Análises de Arquivos de LOG Logs de Erro Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados. Aplicações

Extração de Informações Estratégicas Análises de Imagens Geologia Climatologia Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens. Aplicações de RI

Referências Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. Eduardo F.A. Silva, Flávia A. Barros & Ricardo B. C. Prudêncio Negócios Integrados - PT Sistemas de informação - ATSolutions - Techne - Datacraft - NBCI - Semiotic Systems - E.life -