Extração de Informação

Extração de Informação
André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb Extração de Informação

Roteiro Motivação Onde tudo começou Processo de Extração Wrappers
Aplicações Referências

Motivação O que é informação?
Bem dinâmico com valor associado Curiosidade, busca por informação, busca por conhecimento O diferencial do ser humano Consultar um dos pilares da gestão de conhecimento Informaçao é dado com valor associado. Dados

Busca por informação como necessidade empresarial
Aspecto chave das empresas mecanismos para facilitar busca de informação Acesso eficiente às informações maior produtividade e novas oportunidades

Motivação Gestão Portal de Informações Consciência Conhecimento
Informação Dados

Motivação A Internet Gigantesca base de documentos em crescimento acelerado Como obter informações relevantes em bases textuais? Extração de informação

Onde tudo começou... MUC - Message Understanding Conference
Abordagem de EI utilizando processamento de linguagem natural Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular MUC - Message Understanding Conference Duração: 1987 a 1998. Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular. Ex: Atividades terroristas nas Américas. Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas. Avaliação baseada em preenchimento de gabaritos (templates) Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias. Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome. Identificação de coreferência: ligar as várias menções da mesma entidade.

MUC Aplicações: MUC-1 (1987), MUC-2 (1989): Naval operations messages.
MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries. MUC-5 (1993): Joint ventures and microelectronics domain. MUC-6 (1995): News articles on management changes. MUC-7 (1998): Satellite launch reports.

Processo de Extração Extrair, de documentos textuais, apenas os dados relevantes ao usuário Utilização de um template Sistema de EI BD Item1: Item2: Item3: Item4: Item5: Template BC Documento Sistemas de EI identificam trechos dos documentos que preenchem corretamente campos de um formulário de saída que determina os dados a serem extraídos Para transformar infomações não-estruturadas em um corpus de documentos

Processo de Extração Pode ser dividido em 5 tarefas: Segmentação
Classificação Associação Normalização Deduplicação

Processo de Extração - Segmentação
Processo de segmentar o texto de entrada em tokens cada token (segmento) deve corresponder a um campo do template de saída i.e., cada token deve preencher um campo do template

Processo de Extração - Classificação
Determina qual campo do template de saída corresponde a cada segmento do texto de entrada A relação deve ser de um para um É importante salientar que os processos de segmentação e classificação, em geral, acontecem simultaneamente

Processo de Extração - Associação
Determina quais segmentos (tokens) estão relacionados a um mesmo fato Supondo um texto que descreva vários cursos universitários Um mesmo curso pode ser descrito por mais de um parágrafo A extração precisa determinar quais segmentos de quais parágrafos se referem ao mesmo curso

Processo de Extração - Normalização
Permite que as informações sejam armazenadas segundo um padrão pré-estabelecido O horário de um curso pode ser representado como 2pm-4pm ou como 4-6pm, por exemplo Neste caso, o processo de normalização poderia transformar os dois formatos para 14h00-16h00 e 16h00-18h00, respectivamente

Processo de Extração - Deduplicação
Elimina informações redundantes do banco de dados com os templates de saída Um curso pode ser ministrado em mais um departamento e, por isso, ter sua descrição em mais de uma página web Sem o processo de deduplicação, o banco terá informações redundantes

EI vs RI Recuperação de Informação Extração de Informação
Estuda formas de armazenar e recuperar documentos de forma rápida e automática Extração de Informação Objetiva obter informações específicas a partir de um documento EI e RI são tecnologias complementares RI Dada uma consulta, retorna um subconjunto de documentos relevantes de um conjunto maior Depois o usuário procura no subconjunto selecionado as informações que necessita

EI vs RI Recuperação de Informação: Extração de Informação:
Entrega documentos para o usuário Extração de Informação: Entrega fatos para o usuário/aplicações EI descarta toda a parte do documento que não é relevante para o registro do fato EI é usada para em contextos específicos, enquanto RI é mais geral

EI vs Compreensão Completa do Texto
CCT EI Entendimento do texto inteiro Somente uma parte do texto é relevante Representação alvo complexa Representação alvo rígida Necessita reconhecer aspectos estilísticos Estilo e cor do texto é irrelevante

Porque EI é difícil? Linguagem Natural é difícil de tratar automaticamente... Flexível Frodo Baggins succeeds Bilbo Baggins as chairperson of Bank of America. Bank of America named Frodo Baggins as its new chair-person after Bilbo Baggins. Ambígua Sam, Frodo’s partner, a CMU student, … Dinâmica Novas palavras: ecotourist, lol Novos significados: to google, to message

Projeto do Sistema de Extração
Grande influência do tipo de texto: Estruturados Semi-estruturados Livres Texto estruturado: segue um formato rígido (e.g., páginas HTML geradas a partir de bancos de dados) - o que possibilita que a informação seja extraída usando regras baseadas em delimitadores e/ou na ocorrência de termos. Textos livres: contêm, basicamente, sentenças em alguma língua natural - inviabiliza a extração com base apenas em formatação. Textos semi-estruturados: apresentam algum grau de estruturação (e.g., referências bibliográficas) - Apresentam irregularidades, como campos ausentes ou com valor nulo, variações na ordem dos dados, e ausências de delimitadores entre as informações a serem extraídas. Abordagens: PLN Engenharia do conhecimento Aprendizagem automático

Sistemas de EI Baseados em PLN Wrappers Manual Automático

PLN Sistemas baseados em PLN são capazes de lidar com as irregularidades das línguas naturais Técnicas: Part-of-speech (POS) tagging Mark each word as a noun, verb, preposition, etc. Semantic word categories KILL: kill, murder, assassinate, strangle, suffocate SEI baseados em PLN são interessantes por causa da grande quantidade de textos escritos em linguagem natural O grande problema deste tipo de sistema é que ele deve lidar com toda a complexidade da linguagem humana Esses sistemas precisam efetuar processamento de linguagem a fim de reconhecer palavras, analisar e compreender frases Esta área de pesquisa foi alavancada pelo MUC Syntactic parsing Identify phrases: NP, VP, PP

Baseada em engenharia do conhecimento
Construção de regras de extração Padrões de extração descobertos por investigação e exame do corpus de treinamento Vantagens Boa performance dos sistemas Desvantagens Processo de desenvolvimento trabalhoso Escalabilidade Necessidade de um especialista Requerem uma grande quantidade de trabalho manual e a existência de bons especialistas. Não são facilmente adaptáveis a novos domínios.

Baseado em aprendizagem de máquina
Aprender sistemas de EI a partir de um conjunto de treinamento Vantagens Mais fácil marcar um corpus do que criar regras de extração Menor esforço do especialista Escalabilidade Desvantagens Esforço de marcação do corpus de treinamento Adaptação mais rápida e eficiente dos sistemas para novos domínios de aplicação.

Wrappers - técnicas de extração
Autômatos Finitos Pattern matching Classificação de Textos Modelos de Markov Escondidos (HMM)

Textos estruturados e semi-estruturados Algoritmos específicos para EI
Definidos por: (1) estados que “aceitam” os símbolos do texto que preenchem algum campo do formulário de saída; (2) estados que apenas consomem os símbolos irrelevantes encontrados no texto; (3) símbolos que provocam as transições de estado. Textos estruturados e semi-estruturados Delimitadores, ordem dos elementos Algoritmos específicos para EI WIEN, SoftMealy, STALKER

Wrappers - autômatos finitos

Textos livres, estruturados e semi
Utiliza expressões regulares que “casam” com o texto para extrair as informações Textos livres, estruturados e semi Delimitadores, padrões regulares Ex. data, CEP Algoritmos específicos para EI WHISK, Rapier

Wrappers - pattern matching

Tarefa de EI -> tarefa de classificação
Textos semi-estruturados O documento é inicialmente dividido em fragmentos candidatos a preencher algum campo do formulário de saída. Em seguida, um algoritmo de aprendizagem determina a que campo do formulário cada fragmento corresponde. A maior limitação desses sistemas é realizarem uma classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento.

Classificadores Vantagens Desvantagens
Convencionais: KNN, Naive Bayes, Redes Bayesianas Específicos: SRV Vantagens Podem utilizar várias características de cada fragmento Ex. tamanho, posição, formatação, presença de palavras Desvantagens Classificação local

Classificam seqüências de padrões
Classes representadas pelos estados do HMM Retorna a seqüência de estados com maior probabilidade de ter emitido cada seqüência de símbolos de entrada. Textos livres e semi-estruturados autor veículo S título data 0,2 0,8 0,5 0,1 HMM outros

Wrappers - modelo de markov escondido
Site L1 Site L2 P1  L1, L2, L2, L1, L1, L1, L2, L2, L2, L2 Deseja-se identificar este usuário!! P2  L2, L1, L2, L1, L1, L2, L1, L1, L2, L2 P3  L1, L1, L1, L2, L1, L2, L1, L2, L2, L2 PX  L1, L2, L2, L2, L1, L2, L1, L1, L2, L1

P1  L1, L2, L2, L1, L1, L1, L2, L2, L2, L2 4 transições que saem de L1 2 transições vão para L1 2 transições vão para L2 Assume-se que a probabilidade de se visitar um site depende do site que foi visitado no dia anterior, caracterizando uma Cadeia de Markov. A1 Chegada Saída L1 L2 0.5

P1  L1, L2, L2, L1, L1, L1, L2, L2, L2, L2 5 transições que saem de L2 1 transição vai para L1 4 transições vão para L2 A1 Chegada Saída L1 L2 0.5 0.2 0.8 Assume-se que a probabilidade de se visitar um site depende de que site foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

Chegada Saída L1 L2 0.5 0.2 0.8 A2 Chegada Saída L1 L2 0.4 0.6 0.25 0.75 A3 Chegada Saída L1 L2 0.4 0.6 0.5

Vantagens Realizam uma classificação ótima para a seqüência completa de entrada Desvantagens Limitação: utilizam apenas um atributo por padrão a ser classificado

Baseada em uma técnica de Spell-Checker
Quebra os tokens em n-gramas (n=3) Ex. “cavalo” -> “cav”, “ava”, “val”, “alo” Conjunto de treinamento tokens com a classe correspondente Persiste o treinamento Classifica exemplos de entrada através de uma distribuição de probabilidade Vantagens: precisão Desvantagens: classificação local

Aplicações Extração de Informação em BD Query Manager (QM)
Ferramenta Web Agiliza consulta e EI dos BD’s de empresas Facilita construção de relatórios Localizada no RJ, é especializada em soluções e-learning.

Aplicações Extração de Informação em Documentos
Análise do Código Fonte de Aplicações Uso de Padrões Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens.

Aplicações Extração de Informação na WEB Filtragem de Fóruns
Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

Aplicações Extração de Informação na WEB Monitoramento da WEB
Busca por Hackers Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes.

Aplicações Extração de Informação na WEB
Monitoramento de opiniões espontâneas na WEB Análises qualitativas e quantitativas dos dados recolhidos Informação estruturada de cada post, a partir de cada serviço cadastrado. Empresa brasileira com:

Aplicações Extração de Informações Estratégicas Business Intelligence
Análise de Mercado Melhoria de Processos Empresa brasileira que oferece soluções na área de BI.

Aplicações Extração de Informações Estratégicas
Análises Biológicas de Dados Regiões Codificantes (DNA) Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet.

Aplicações Extração de Informações Estratégicas
Análises de Arquivos de LOG Logs de Erro Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados.

Aplicações Extração de Informações Estratégicas Análises de Imagens
Geologia Climatologia Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens.

Referências Revista Espaço Acadêmico - Wikipedia - Negócios Integrados - PT Sistemas de informação - ATSolutions - Techne - Datacraft - NBCI - Semiotic Systems - E.Life - Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. Eduardo F.A. Silva, Flávia A. Barros & Ricardo B. C. Prudêncio

Dúvidas

Extração de Informação

Apresentações semelhantes

Apresentação em tema: "Extração de Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Extração de Informação

Apresentações semelhantes

Apresentação em tema: "Extração de Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback