Seminário IN1099 Information Retrieval & Text Mining

Seminário IN1099 Information Retrieval & Text Mining
Luciano de Souza Cabral CIn-UFPE

Roteiro Introdução Motivação Recuperação de Informação
Mineração de Textos Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining Conclusão Referências

+ Introdução Crescimento das coleções de textos digitais
(bibliotecas digitais, Internet, Intranets, ...) + Crescimento exponencial da World Wide Web Novas técnicas de recuperação de informações (IR)

Motivação “Estamos morrendo ignorantes num mar de informações.” (Desconhecido) O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.

Recuperação da Informação
Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação. Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.

Conceito de Recuperação da Informação
A Recuperação da Informação trata dos aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]

Modelos de Recuperação da Informação
Eficiência de um sistema depende principalmente do modelo que o mesmo utiliza: Modelos quantitativos Modelos dinâmicos Linguagem natural Ambiente Web - Web Semântica

Abordagens de RI Busca automática baseada em palavra-chave
Técnicas de Indexação Manual e Automática Técnicas de Classificação Conceitos importantes “ranking” “stemming” “tesaurus”

Critérios utilizados em RI
Revocação Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes Precisão Mede o sucesso da filtragem: número de documentos relevantes recuperados em relação ao total de documentos recuperados Cobertura: volume de informações disponíveis Formato de saída Tempo de resposta Atualidade

Problemas de RI Ausência Contexto Problemas Lingüísticos
Necessidade de Intervenção Humana

Extração do Conhecimento
[Cabral & Siebra, 06] Por definição, “A extração de conhecimento em bases de dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].

Extração do Conhecimento
[Cabral & Siebra, 06] Etapas do processo Preparação de Dados Objetivos Mineração Interpretação Necessidade Conhecimento Usuário Analista * Adaptado de [TERRA, 2000].

Mineração de Dados Data Mining
“...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia] Aplica-se dados categóricos e numéricos. Restrito a bases de dados relacionais e variações.

Mineração de Dados Text Mining
“...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia] Aplica-se a textos. Abrange textos em formato livre ou semi-estruturados.

Data Mining versus Text Mining
[Cabral & Siebra, 06] Mineração de Dados Mineração de Textos Objeto de investigação Dados categóricos e numéricos. Textos. Estrutura de objeto Bases de dados relacionais. Textos em formato livre. Objetivo Prever resultados de situações futuras. Recuperar informações relevantes, purificar o significado, categorizar o resultado. Métodos Conhecimento de máquina: SKAT, DT, NN, GA, MBR, MBA. Indexação, processamento especial de redes neurais, lingüística, ontologias. Tamanho atual de mercado analistas em grandes e médias companhias. de trabalhadores corporativos e usuários individuais. Maturidade Ampla implementação desde 1994. Ampla implementação iniciada em 2000. * Adaptado de [WOHL, 1998].

Abordagens e Áreas envolvidas
[Freitas, 07] Computacional Aprendizagem de máquina; Lógica Fuzzy; Estatística; Recuperação da Informação. Simbólica Processamento de Linguagem Natural; Raciocínio baseado em casos e simbólico Ambas abordagens podem ser combinadas.

Abordagens da Mineração de Texto Prós e Contras
[Freitas, 07] Computacional Bom para maioria das tarefas; De implementação rápida, baseada em aprendizagem; Não recomendado para argumentação e dedução de informações. Baseado em Conhecimento Melhor no tratamento de contextos Ontologias! Combina melhor com técnicas PLN Pergunta-Resposta Análise e Argumentação Textual Extração de Informação Pouquíssimo utilizado na articulação de conceitos Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)

KDT - Knowledge Discovery from Texts
Técnicas KDT Extração de Informação Categorização de textos Análise das características Análise lingüística Sumarização de textos Associação entre textos Clustering (Agrupamento)

Ontologias Definições
“Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998]; “Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].

Vantagens Discussões na área de Mineração de Textos é se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual. Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário. Entretanto é notório que algum tipo de intervenção humana é necessária e útil.

Tendências Necessidade de integrar cada vez mais as abordagens de BD, HM e RI com ontologias Busca de maior “semântica” associada às informações Abordagens apresentam funcionalidades complementares Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer Crescente necessidade de uso de Taxonomias e Ontologias

Aplicações de RI com Ontologias
OntoSeek M&M MASTER-Web AGATHE* KIM Platform WSMO Studio ambiente para modelagem de SWS OWLIM repositório semântico de escala industrial Wsmo4j API e referências para construção de SWS PROTON um pequeno construtor/editor de ontologias de propósito geral. ORDI um framework para representação de ontologias e integração de dados via middleware.

OntoSeek [Guarino et al., 99]
Desenvolvido para recuperar informações de páginas-amarelas e catálogo de produtos. Ontologia na interface do usuário; Trata ambiguidade, polisemia, sinonímia e relações parte todo usando WordNet [Miller, 95]

M&M M&M query system, por Natasha Noy.
Apresenta conceitos de RI como sistema de Pergunta- Resposta sobre o domínio de Microbiologia. Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo. Performance muito boa.

Master-WEB [Freitas & Bittencourt, 2003] Multi-Agent System for Text Extraction, Retrieval and classification over the WEB. Testes com ontologias de domínios diferentes, com resultados expressivos. Sem grandes alterações no projeto.

KIM Platform Plataforma de Gerenciamento de Informação e Conhecimento.
Indexa, Armazena, Recupera, Consulta, análise de linha de tempo das anotações semânticas.

Evolução: Recursos na Web
Futuro: Web Semântica Não apenas informações e aplicativos, mas recursos em geral!

O que é Web Semântica? É uma extensão da Web atual que visa dar significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]

Web Semântica: Visão da W3C
“A Web Semântica é uma visão: é a idéia de se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]

XML e a Web Semântica Convergência de diversas tendências
Uso de padrões Busca de flexibilidade, conviver com heterogeneidade Maior automatização Melhoria dos mecanismos de busca Melhoria dos descritores associados aos recursos Maior suporte à integração de recursos Serviços Web + Ontologias

Conclusões A Recuperação da Informação sozinha apresenta alguns problemas não triviais de serem tratados. A utilização de Mineração de Textos combinada com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado. Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados. Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.

Referências TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio. São Paulo: Negócio Editora, 2000. TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em: < Acesso em: 30/09/2007. MICTHELL, Tom. Machine Learning, McGraw Hill, 1997. WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA: 1998. STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2, 1998. LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos. INTEXT: Porto Alegre, Dezembro, 2004. CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006. FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007. WIKIPEDIA. Wikipédia. A enciclopédia livre. < RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press W3C, World Wide Web Consortium, Semantic Web Activity Statement. < Acesso em: 30/09/2007. GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3), , (May 1999). KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and Retrieval Extended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005. POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information Extraction and Retrieval. Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp , Cambridge University Press.

Seminário IN1099 Information Retrieval & Text Mining

Apresentações semelhantes

Apresentação em tema: "Seminário IN1099 Information Retrieval & Text Mining"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Seminário IN1099 Information Retrieval & Text Mining

Apresentações semelhantes

Apresentação em tema: "Seminário IN1099 Information Retrieval & Text Mining"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback