Extração da Informação

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Agenda Introdução Justificativa Objetivo Detecção de Spam
INTELIGÊNGIA COMPUTACIONAL
Propriedades de Documentos
Apresentação da Monografia
Interfaces Conversacionais
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Introdução a Teoria da Classificação
-- PNOTA -- Uma Aplicação para Correção Assistida de Questões Discursivas Filipe Wall Mutz.
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos
I have a dream…. Belinda Maia.
University of Minho, Portugal
Explicitando informações de ajuda para a construção de sítios de e-GOV
Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.
Monitoria de Introdução à Computação
Localização de fonte sonora utilizando microfones
Extração da Informação
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Aula prática - análise contextual
Engineering Village. Engineering Village – A Plataforma Desenvolvida pela Engineering Information (Ei), líder em fornecer informações.
C&L: Um Ambiente para Edição e Visualização de Cenários e Léxicos
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
INTERFACE HOMEM-MÁQUINA
Introdução a Programação
Área de Pesquisa: Redes de Computadores
Introdução à Classificação de Texto
Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação
INTERFACE HOMEM-MÁQUINA
Recuperação de Informação
Professor: Márcio Amador
ALGORITMOS Intensivo Janeiro e Fevereiro de 2011
Web de Dados Bruno Dutra – Roteiro Contexto Definição Princípios Estrutura e Componentes Benefícios X Desafios Aplicações Conclusão.
Arquitetura de Desenvolvimento Web MVC vs. Three Tiers
Classificacao de Texto Projeto Spam Filter
Banco de Dados Aplicado ao Desenvolvimento de Software
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
Inteligência Artificial Web Semântica
WIE PUCPR1 Um Experimento com Agentes de Software para Monitorar a Colaboração em Aulas Virtuais Patrícia Augustin Jaques Orientador: Prof. Dr.
Dados abertos interligados
Centro de Informática Universidade Federal de Pernambuco Engenharia de Requisitos Paulo Ramos Jaelson Castro.
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Nº Pedro José de Oliveira Sessão Controlo Tese 2º Semestre 2007/2008 Orientador – João Rocha.
Ferramentas de Manipulação de Ontologias (Protégé)
Semântica de Linguagens de Programação
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Extração de Informação
Classificação de Texto
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.
Extração de Informação
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
SISTEMAS DE INFORMAÇÃO
Rodrigo Cristiano Silva Introdução A HTML 5 foi idealizada por um grupo de “freethinkers” que estavam cansados do padrão oficial da.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Módulo I – Softwares: Linguagens de Programação Prof.: Rogério Morais.
Modelos de dados.
Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Modificado por Flávia Barros.
Texto e Linguagens Multimédia e Propriedades Bibliotecas Digitais Engenharia Biomédica Universidade do Minho Instructor: Joaquim Macedo Baseada em apresentações.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Transcrição da apresentação:

Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Índice Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão

Motivação Problema: Documentos na Web Web-service -> Banco de Dados Por que se estudar sistemas de extração? Sabe-se que com o crescimento da web, há o contínuo crescimento da quantidade de documento digitalizado, sendo esses em sua maioria em forma textual, apresentando conteúdo semi-estruturado ou desustrurado. Então, como extrair o conteúdo correto desses documentos? Considerando o imenso volume de informação disponível nesses repositórios digitais, é de grande interesse a construção de sistemas capazes de selecionar automaticamente apenas os dados de interesse de um usuário, facilitando assim o acesso e a manipulação dessas informações. Há também o caso de como transimitir os dados entre web-services e as bases de dados existentes. Como definir um template para essas interfaces. São dois pontos que exemplificam a necessidade de extrair contéudos específicos e representar ao usuário.

Motivação O que se quer? Resposta aos usuários Resumos de textos Preencher Base de dados Mineração de dados Ao se pensar em utilizar sistemas de extração o que se deseja: responder a consultas de usuários gerar resumos do texto original; preencher bancos de dados; preencher bases de conhecimento; mineração de dados; sumarizar textos; analisando documentos não estruturados e tentando extrair as corretas informações deles. Para se conseguir atingir isso, é necessário o processo da Extração da Informação.

Introdução O que é EI? Identificar dados relevantes presentes nos documentos sem estruturação precisa. Conversão para estruturas tabular Exibição dos dados de forma legível Mas o que consiste em EI? A Extração de Informação (EI) tem por objetivo extrair, de documentos textuais, apenas os dados relevantes ao usuário [Kushmerick & Thomas 2003]. Ou seja, trata o procedimento de dados relevantes em uma coleção de documentos; Sistemas de EI identificam trechos dos documentos que preenchem corretamente campos de um formulário de saída que determina os dados a serem extraídos. Os dados a serem exrtaídos são previamente definidos em um template (formulário). E cada entrada do formulário é tida como um slot.

Sistema de Extração de Informação Introdução Sistema de Extração de Informação Sistema de Extração de Informação Aqui tem um esquema que ilustra um pouco melhor o processo da extração da informação. Conforme dito anteriormente,Um sistema de EI tem por objetivo identificar trechos dos documentos que preenchem corretamente campos (slots) de um dado formulário (template) de saída, que determinam as informações que devem ser extraídas. Os dados a serem extraídos são previamente definidos em um template (formulário). De um documento, vamos utilizar algum mecanismo de sistema de extração, vamos obter a resposta a um template (as informações a serem extraídas são previamente conhecidas) e então, com essas informações em mãos poderemos exibir ao usuário, armazenar em servidores ou bases de dados/conhecimento. Agora vamos ter uma idéia num exemplo real como seria:

Introdução EI Classificação Clusterização Segmentação Associação Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation Microsoft Corporation CEO Bill Gates Microsoft Gates Bill Veghte VP Richard Stallman founder Free Software Foundation Cluster A Cluster B Cluster C Um exemplo mais real: Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Introdução História JASPER (1980s) Sistema para finanças MUC-Message Understanding Conference [final da década de 80] Internet/Web [década de 90] Agora um pouco do histórico da Extração da informação: quando foi que mais ou menos esse tipo de sistema passou a ser utilizado. Um dos primeiros sistemas comercial utilizando a extração da informação foi datado da década de 1980 e foi o JASPER, que era um sistema de finanças desenvolvidos pelos integrantes do Grupo da Carnegie Melon uma universidade dos EUA. Com o objetivo de proporcionar notícias financeiras em tempo real para os operadores financeiros. Depois, mais pro final da década de 80, EI passou a ser usada em Conferências/Competições MUC (Messaage Understanding Conference). Essas conferências eram financiadas pela DARPA (Agência de Defesa dos EUA) que desejavam utilizar da extração da informação para automatizar tarefas rotineiras realizadas pelos analistas do governo, como a digitalização de jornais por possíveis ligação ao terrorismo. Consistia numa espécie de competição onde eram avaliadas as métricas de precisão do resultado da extração da informação. E a partir da década de 90, com o surgimento e crescimento da WEB, se fez necessário ainda mais de sistemas capazes de extrair informação, devido ao grande aumento de documentos textuais nos repositórios digitais. Information extraction dates back to the late 1970s in the early days of NLP.[1] An early commercial system from the mid 1980s was JASPER built for Reuters by the Carnegie Group with the aim of providing real-time financial news to financial traders.[2] Beginning in 1987, IE was spurred by a series of Message Understanding Conferences. MUC is a competition-based conference that focused on the following domains: MUC-1 (1987), MUC-2 (1989): Naval operations messages. MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries. MUC-5 (1993): Joint ventures and microelectronics domain. MUC-6 (1995): News articles on management changes. MUC-7 (1998): Satellite launch reports. Considerable support came from DARPA, the US defense agency, who wished to automate mundane tasks performed by government analysts, such as scanning newspapers for possible links to terrorism. The Message Understanding Conferences (MUC) were initiated and financed by DARPA (Defense Advanced Research Projects Agency) to encourage the development of new and better methods of information extraction.The character of this competition—many concurrent research teams competing against one another—required the development of standards for evaluation, e.g. the adoption of metrics like precision and recall.

EI x Processamento de Linguagem Natural(PLN) Completa análise dos documentos Complexidade algorítmica alta Extração de Informação Interesse em partes especificas do texto Menor esforço computacional Fazendo agora um breve comparativo entre o Processamento de Linguagem Natural e a Extração de Informação: Processamento de Linguagem natural: Consite da conversão de liguagem humana para representação mais formal. Requer a completa análise dos documentos, apresentando uma complexeidade algorítrmica alta e se tornando inviável para grandes volumes textuais. - Inviável para grandes volumes textuais Extração de Informação preocupada mais com partes específicas do textos, consistindo num menor esforço computacional. Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Mineração na web

Recuperação de informação x EI Recuperação de documentos relevantes ao usuário baseando-se em cálculos estatísticos sobre os termos que ocorrem no documento. Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras. Extração de Informação Extrai informações relevantes baseando-se no provável domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do domínio Busca derivar conhecimento de documentos recuperados segundo a forma como o documento está estruturado e representado. Sistemas de RI podem ser vistos como "colheitadeiras" que devolvem material útil de um vasto campo de material bruto. Com uma grande quantidade de informação potencialmente úteis em mãos. Um sistema de EI pode, então, transformar o material bruto refinado e reduzindo-o à idéia do texto original.

Processo de extração de informação Trata o problema de extração de dados relevantes a partir de uma coleção de documentos. Os dados a serem extraídos são previamente definidos em um template (formulário) Na maioria dos sistemas de EI o usuário define templates de extração, ou seja, modelos estruturados a serem preenchidos a partir do artigo original pelo processo de extração. A representação da informação em modelos tem a vantagem de ser altamente estruturada Tabelas com campos pré-definidos ou templates Criação Dos slots Documento com tags

Processo de extração de informação

Processo de extração de informação individual Documento Reconhecimento de entidades Análise Léxica e Morfológica Análise de relacionamentos e contexto Análise Sintática Integração Com base nos slots criados, o texto é analisado pelo analisador léxico preenchendo esses slots ?Etapa de integração? com base nesses termos correlacionados ele ve a semantica e faz uma inferência Análise semântica Inferência Informação estruturada e contexto

Abordagens para um Sistema de EI Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens: Engenharia de conhecimento Treinamento automático As abordagens são diferenciadas pela forma com que as regras são definidas Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Engenharia de conhecimento Construção de regras é feita manualmente. Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras. Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai se trabalhar. Precisão nos resultados é maior. O tempo de desenvolvimento é maior Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Treinamento automático Utiliza algoritmos de Inteligência Artificial Algoritmo de treino Uma quantidade de documentos é utilizada no treinamento e geração das regras Treinamento do sistema para novos textos Interação com o usuário pode ser feita Aprende regras com a interação com o usuário Tempo menor de desenvolvimento Menor precisão nos resultados Nenhuma das abordagens é superior a outra, pois a extração depende de muitas variáveis, e muitas vezes variáveis externas. Logo não podemos apontar nenhuma abordagem como completa

Abordagens para um Sistema de EI Processamento de Linguagem Natural – PLN Wrappers

Processamento de Linguagem Natural - PLN Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos

Visão Geral Nível Morfológico: estudo da constituição das palavras em elementos básicos; Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença; Nível Semântico: determinação do significado e inter- relacionamento semântico das palavras; Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças; Nível Pragmático: Visa determinar o objetivo do uso da língua This level focuses on analyzing the words in a sentence so as to uncover the grammatical structure of the sentence. This requires both a grammar and a parser. The output of this level of processing is a (possibly delinearized) representation of the sentence that reveals the structural dependency relationships between the words. There are various grammars that can be utilized, and which will, in turn, impact the choice of a parser. Not all NLP applications require a full parse of sentences, therefore the remaining challenges in parsing of prepositional phrase attachment and conjunction scoping no longer stymie those applications for which phrasal and clausal dependencies are sufficient. Syntax conveys meaning in most languages because order and dependency contribute to meaning. For example the two sentences: ‘The dog chased the cat.’ and ‘The cat chased the dog.’ differ only in terms of syntax, yet convey quite different meanings

Nível Morfológico A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras eats  eat + s verbo, singular, 3rd pers dog  dog nome, singular This level deals with the componential nature of words, which are composed of morphemes – the smallest units of meaning. For example, the word preregistration can be morphologically analyzed into three separate morphemes: the prefix pre, the root registra, and the suffix tion. Since the meaning of each morpheme remains the same across words, humans can break down an unknown word into its constituent morphemes in order to understand its meaning. Similarly, an NLP system can recognize the meaning conveyed by each morpheme in order to gain and represent meaning. For example, adding the suffix –ed to a verb, conveys that the action of the verb took place in the past. This is a key piece of meaning, and in fact, is frequently only evidenced in a text by the use of the -ed morpheme.

Nível Sintático A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica Tem como saída a representação da sentença que representa as dependências entre palavras As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes ‘The dog chased the cat.’ ‘The cat chased the dog.’ Syntactic This level focuses on analyzing the words in a sentence so as to uncover the grammatical structure of the sentence. This requires both a grammar and a parser. The output of this level of processing is a (possibly delinearized) representation of the sentence that reveals the structural dependency relationships between the words. There are various grammars that can be utilized, and which will, in turn, impact the choice of a parser. Not all NLP applications require a full parse of sentences, therefore the remaining challenges in parsing of prepositional phrase attachment and conjunction scoping no longer stymie those applications for which phrasal and clausal dependencies are sufficient. Syntax conveys meaning in most languages because order and dependency contribute to meaning. For example the two sentences: ‘The dog chased the cat.’ and ‘The cat chased the dog.’ differ only in terms of syntax, yet convey quite different meanings

Nível Semântico Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença Desambigüidade semântica A cabeça une-se ao tronco pelo pescoço Ele é o cabeça da rebelião Sabrina tem boa cabeça Semantic This is the level at which most people think meaning is determined, however, as we can see in the above defining of the levels, it is all the levels that contribute to meaning. Semantic processing determines the possible meanings of a sentence by focusing on the interactions among word-level meanings in the sentence. This level of processing can include the semantic disambiguation of words with multiple senses; in an analogous way to how syntactic disambiguation of words that can function as multiple parts-of-speech is accomplished at the syntactic level. Semantic disambiguation permits one and only one sense of polysemous words to be selected and included in the semantic representation of the sentence. For example, amongst other meanings, ‘file’ as a noun can mean either a folder for storing papers, or a tool to shape one’s fingernails, or a line of individuals in a queue. If information from the rest of the sentence were required for the disambiguation, the semantic, not the lexical level, would do the disambiguation. A wide range of methods can be implemented to accomplish the disambiguation, some which require information as to the frequency with which each sense occurs in a particular corpus of interest, or in general usage, some which require consideration of the local context, and others which utilize pragmatic knowledge of the domain of the document.

Nível Discursivo Analisa textos maiores que sentenças Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios Discourse While syntax and semantics work with sentence-length units, the discourse level of NLP works with units of text longer than a sentence. That is, it does not interpret multisentence texts as just concatenated sentences, each of which can be interpreted singly. Rather, discourse focuses on the properties of the text as a whole that convey meaning by making connections between component sentences. Several types of discourse processing can occur at this level, two of the most common being anaphora resolution and discourse/text structure recognition. Anaphora resolution is the replacing of words such as pronouns, which are semantically vacant, with the appropriate entity to which they refer (30). Discourse/text structure recognition determines the functions of sentences in the text, which, in turn, adds to the meaningful representation of the text. For example, newspaper articles can be deconstructed into discourse components such as: Lead, Main Story, Previous Events, Evaluation, Attributed Quotes, and Expectation

Nível Pragmático Foca no significado que vai além do contexto do texto Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução. This level is concerned with the purposeful use of language in situations and utilizes context over and above the contents of the text for understanding The goal is to explain how extra meaning is read into texts without actually being encoded in them. This requires much world knowledge, including the understanding of intentions, plans, and goals. Some NLP applications may utilize knowledge bases and inferencing modules. For example, the following two sentences require resolution of the anaphoric term ‘they’, but this resolution requires pragmatic or world knowledge. The city councilors refused the demonstrators a permit because they feared violence. The city councilors refused the demonstrators a permit because they advocated revolution.

Wrappers Maior desenvolvimento da WEB nos anos 90. Necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos da WEB. Extraem a informação de documentos e a exportam como parte de uma estrutura de dados. A partir dos anos 1990

Wrappers Textos são principalmente: Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida, permitem a ocorrência de variações na ordem dos dados. Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.

Técnicas de Extração Autômatos finitos Casamento de padrões Classificadores de texto Modelos de Markov escondidos (HMM)

Autômatos Finitos Bons para textos estruturados. Definidos manualmente ou aprendidos automaticamente. Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais (categorização) Transducers

Casamento de Padrões Textos estruturados, semi-estruturados e livres. Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. ER mais intuitivas do que autômatos.

Classificadores de Texto Textos semi-estruturados Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Modelos de Markov Escondidos (HMM) Textos livres e semi-estruturados. Verifica a ocorrência de padrões em sequência no texto de entrada. Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Construção de wrappers Automática Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. Semi-automática Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. Manual Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

Desafios Técnicas de Extração “Dividir pra Conquistar” Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem A partir dos anos 1990

Conteúdo preciso, claro Padrões Ontologia Desafios Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia

Aplicações de EI Filtragem de Fóruns Monitoramento da WEB Controle de Conteúdo Assunto do Dialogo Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes

Dúvidas

Referências MANFREDINI, V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados http://en.wikipedia.org/wiki/Information_extraction Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia. pdf

Referências Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR http://143.54.31.10/reic/edicoes/2003e2/tutoriais/Minerac aoNaWeb.pdf

Referências www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt http://sare.unianhanguera.edu.br/index.php/rcext/article/vi ewFile/413/409 MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc