Ferramentas de Mineração de Informação Não Estruturada

Slides:



Advertisements
Apresentações semelhantes
Sistemas de Informação
Advertisements

Recuperação de Informação
Administração de Sistemas de Informação
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
Support.ebsco.com Tutorial do Meu EBSCOhost Tutorial.
Especificação de Consultas
Propriedades de Documentos
Conceitos Gerais relacionados a Recuperação de Informação
Maurício Edgar Stivanello
Apresentação da Monografia
FACULDADE DOS GUARARAPES
Gerência de Banco de Dados 1
Introdução aos Sistemas Gerenciadores de Banco de Dados
Sistema para Gerenciamento de Redes Baseado em Agentes Móveis
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Teoria da Classificação
Agentes na Web Márcio David de Magalhães Santos Departamento de Informática UFPE Recife, 1 de junho de 1999.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Internet: conceitos básicos
Bruno Augusto Vivas e Pôssas
University of Minho, Portugal
Administração de Sistemas de Informação Banco de Dados
Sistemas de Informação e Gestão
Aula 7 – A Internet e a nova estrutura de TI
Classificação/Clusterização
Paulo Sérgio Salla Sá Orientação: Prof. Dr. Dilvan de Abreu Moreira
IFSul – Campus Venâncio Aires
Gerenciamento de Dados
Nova solução CRM da Riosoft
Gerência de Banco de Dados 1
Tecnologia da Informação
MapReduce Conceitos e Aplicações
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação
Data Mining: Conceitos e Técnicas
Recuperação de Informação
Vânia Maria P. Vidal, José Maria Monteiro, Luís Eufrasio T. Neto
Professor: Márcio Amador
MÓDULO 4 Como usar PubMed
Tópicos Avançados de Redes de Computadores Prof. Fabiano Sabha.
A abordagem de banco de dados para gerenciamento de dados
Curso Técnico em Informática DISCIPLINA: Implementação a Banco de Dados PROFESSOR: Flávio Barbosa PARACATU /MG.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
Introdução a Banco de Dados Aula 04
Integração de Ferramentas CASE
Como Melhorar a Tomada de Decisão
Ferramentas de Manipulação de Ontologias (Protégé)
ACS Publications Visão geral do programa de publicação de periódicos da ACS.
Introdução a WEB SEMÂNTICA Prof. Dr. Fernando Gauthier INE/UFSC.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Banco de Dados e Internet
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Extração de Informação
Tesauro, Taxonomia e Ontologia: uma evolução?
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Gestão do Conhecimento e da Informação
Prof. Jacques Robin Sala C41 Pesquisa: * Inteligência Artificial  Banco de Dados  * Inteligência Artificial  Sistemas.
Projeto de Banco de Dados
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Modelos de dados.
Laboratório de Mídias Sociais
Arleys Pereira Nunes de Castro - Mestrando : Modelagem computacional (SENAI-MCTI) Especialista : Sistema distribuídos
Apresentação TI Alunos: Isadora Bernardo, Lucas Medeiros, Marcela Muniz e Renata Coutinho.
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Modelagem de Banco de Dados: Conceitos
Transcrição da apresentação:

Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Roteiro O que é Text Mining e Web Mining? Motivação e Paradigmas Ferramentas IBM’s Intelligent Miner for Text AltaVista Discovery Agentware SemioMap TextAnalyst Cambio KPS Comparação da ferramentas Conclusão sobre estado da arte Referências

Mining e mining: don’t believe the hype! Crucial distinguir: Formato da informação ASCII, MLs, DBs, KBs Assunto da informação Web visits, sales data, sport statistics Localização da informação Internet, Intranet, stand-alone computer Text Mining e Web Mining ainda: Muito ambíguos Usados de forma inapropriadas

Mining e mining: don’t believe the hype! Descoberta de conhecimento a partir de dados completamente estruturados (BD) Data mining, Web visit mining (SOBRE a Web) Intelligent Miner for Data, DBminer, PRIM a partir de dados semi-estruturados (HTML, XML, SGML) Web page mining (NA web) KPS a partir de dados não estruturados (ASCII) Text Mining Intelligent Miner for Text, Agentware, TextAnalyst

Mining e mining: don’t believe the hype! Recuperação de informação a partir de dados completamente estruturados (BD) SQL a partir de dados semi-estruturados (HTML, XML, SGML) AltaVista, eXcite, Bright! a partir de dados não estruturados (ASCII) RI clássica, pré-Web (ex, Smart por Salton) Extração de informação estruturar informação semi ou não estruturada em BD

Mining e mining: don’t believe the hype! Text Mining Análogo a data mining Descobre relacionamentos em dados. Diferente de data mining Trabalha com informações armazenadas numa coleção de dados não estruturados (textos) Utiliza duas tecnologias ferramenta de busca na Internet metodologia de análise de texto “Pode se dizer que representa uma nova geração de ferramentas de busca na Internet”

Mining e mining: don’t believe the hype! Web Page Mining Refere ao processo de busca e extração de dados “escondidos” numa página Web Web Visit Mining Descobre relacionamentos significantes e tendências através da integração e análise de informação do tráfego da Web (Internet/intranet) e dos dados tradicionais do negócio. Serve para analisar investimentos online de uma empresa, num esforço para maximizar o retorno

Web Visit Mining

Mining e mining: don’t believe the hype! ASCII ASCII+ esquema Text mining Aprendizagem IR KB True Web Mining Data Mining Usuário SQL DB Wrappers Info extraction Web search ML

O que é text mining e web mining? Information retrieval Web visit mining Web searching Semi-structured data query Data Mining Text mining Information Extraction Web page mining Wrappers

Motivação Estatística sobre crescimento da Web 80% dos dados numa empresa não são estruturados (ex. documentos, manuais, E-mail, apresentações, na Web) Informação on-line cada vez: mais numerosa mais universalmente acessível menos estruturada Web potencialmente formidável fonte de dados para mineração de dados e KDD Desafios: não apenas integrar aprendizagem+DB mais também IR, NLP, linguagens de mark-up, agents, wrappers,

Web -> Conhecimento: qual caminho? ASCII IR ML Web search ASCII+DB esquema Info extraction Usuário SQL DB Data Mining True Web Mining KB botar ferramentas a apresentar no arcos corretos + termos da transparencia de batatoide

Aplicações específicas Qualquer aplicação de KDD sem DB e com informação textual Mais especificamente: bibliotecas digitais gerência de emails gerência de documentos help desk automático pesquisa de mercado agrupamento inteligente de informações de mercado Exemplos comerciais:

Ferramentas

IBM’s Intelligent Miner for Text Ferramenta de Text Mining online (web mining) Funcionalidades: Extrai padrões de atributos semânticos a partir de texto (extração de informação) Organiza documentos por assunto (agrupamento conceitual) Encontra temas predominantes numa coleção de documentos (um passo da sumarização automática) Busca por documentos relevantes (recuperação de informação) Possui ferramentas de análise de texto e ferramenta de busca

IBM’s Intelligent Miner for Text Examina numa página Web os links para outras páginas Máquina de busca. Permite a construção de sist. de recuperação de informação avançado Aplicativo para construção de serviços de busca Web Reconhece itens significativos no texto. Ex. nomes de pessoas, empresas, lugares, datas, etc. Usa características e estatísticas extraídas do texto para executar uma tarefa. Baseada num esquema de categorias predefinidas. Extrai sentenças de um documento criando um sumário (em ASCII ou HTML) Divide um conjunto de documentos em grupos. Metodologias: Agrup. Relacional e agrup. Hierárquico.

Feature Extraction - Nomes <HTML> <TITLE>Local Education Outreach </TITLE><BODY> At IBM Corp., they take seriously the responsibility to help schools achieve the goal articulatedby President Clinton and the National Governors Associationthat ... Together with Learning Inc. of Somers, New York,IBM is starting ... At the IBM Thomas J. Watson Research Center in WestchesterCounty, Dr. James J. Smith manages the Local Education OutreachProgram, and organizes activities for students and teachers fromschool districts in the area, including New York City. Smithalso co-ordinates IBM's participation in the National Scienceand Technology Week. NSTW is an annual event sponsored byThe National Science Foundation to foster public understandingof science and technology. </BODY> </HTML>

Feature Extraction - Nomes <IMZ ID>demo.txt</IMZ ID> <IMZ TITLE>Local Education Outreach</IMZ TITLE> <IMZ CONTENT> NC 3 IBM ORG NC 1 IBM Thomas J. Watson Research Center in Westchester County ORG NC 2 James J. Smith PERSON NC 1 Learning ORG NC 1 Local Education Outreach Program ORG NC 1 National Governors Association ORG NC 2 National Science and Technology Week ORG NC 1 National Science Foundation ORG NC 1 New York City PLACE NC 1 President Clinton PERSON NC 1 Somers , New York PLACE? </IMZ CONTENT>

IBM’s Intelligent Miner for Text O que utilizar para realizar essas tarefas? Atribuir documentos a categorias predefinidas Dividir documentos em grupos não predefinidos Prover um visão de uma grande coleção de documentos Identificar similaridades escondidas em documentos Identificar características de documentos Pesquisa por texto Pesquisa através da Intranet Pesquisa rápida na Web Marketing Busca com categorias Tratamento de e-mails Indexação seletiva de páginas Web

AltaVista Discovery Assistente de pesquisa que habilita aos usuários encontrar informação indiferente de sua localização Funcionalidades: Sumariza documentos Encontra páginas similares as já encontradas Encontra todas páginas referenciadas por um página Encontra mais documentos a partir de um site de interesse Provê indexação automática de todas páginas acessadas pelo usuário

AltaVista Discovery

Agentware Text mining online Composto de três elementos: Knowledge Server Knowledge Update Knowledge Builder

Agentware Knowledge Server Categorização automática e precisa eliminando a necessidade de processamento manual.

Agentware Knowledge Update Monitora centenas de sites da Internet e Intranet, novos documentos e repositórios internos de documentos. Cria um relatório personalizado destes conteúdos

Agentware Knowledge Builder Permite as empresas customizar os produtos de Autonomy a fim de atender suas necessidades individuais. São APIs (Application Programming Interfaces).

TextAnalyst Sistema de busca semântica de informação e Text Mining (análise de texto) Implementa uma rede semâtica para processamento de textos escritos em linguagem natural. Destinado para operação interativa com documentos já reunidos (offline)

Tarefas de TextAnalyst Identificação dos principais conceitos de textos bem como relações semânticas entre estes conceitos, com avaliação da importância destas relações Criação de bases de conhecimento expressadas em linguagem natural para criação de hipertext e sistemas especialistas Criação automática de uma estrutura hierárquica de tópicos Criação de uma rede semântica ajustada do texto investigado Indexação automática de textos com a criação de hipertext Busca semântica por informações no texto (palavras chaves) Abstração automática de textos

TextAnalyst

SemioMap Produzido pela Semio Corporation SemioMap extrai todas frases relevantes a partir de coleção de textos Facilita a exploração de conceitos numa grande coleção de documentos sem ter de examiná-los manualmente SemioMap podem processar diversos tipos de documentos: ASCII, HTML, Microsoft Word, WordPerfect, e outros Não tem interface com a Internet

SemioMap SemioMap constrói uma estrutura conceitual de coleções de textos dinâmicos, usando análise lingüística a fim de identificar relacionamentos de conceitos em documentos diferentes. Aplicações Ferramentas de Busca Sistemas de gerenciamento de documentos Groupware Visualização

SemioMap Como ele trabalha? Software de extração léxica lê automaticamente grandes bases de textos não estruturados e extrai tadas frases relevantes a partir da coleção de textos. Agrupamento de Informação Identifica os relacionamentos entre estas frases. Constrói uma “rede léxica” Visualização gráfica Mapa gráfico permitindo aos usuários navegar rapidamente através de frases chaves e relacionamentos dentro de um texto

Arquitetura do SemioMap

Cambio Examina documentos e extrai dados significativos para um arquivo de banco de dados Documentos podem ser arquivos ASCII, páginas Web, emails Metodologia utilizada: Particionamento Reconhecimento de padrões Tags para atribuição de elementos de dados no documento analisado

Cambio Ferramenta offline e não totalmente automática Pode trabalhar em conjunto com um webcrawler Não tem funções de análise semântica Pode representar o nível de entrada de um sistema de Text Mining Apresenta uma boa interface

Conclusões Ranking em termos de complexidade de tecnologia Falta de maior clareza na explicação de como as ferramentas trabalham Todas ferramentas são recentes (menos de cinco anos) O que se vende e se pesquisa agora como text mining: é integração de recuperação de informação, extração de informação e gerenciamento de informação semi-estruturada tem quase nada a ver com data mining: não envolve aprendizagem seu produto final é texto ou templates e não conhecimento + - Intelligent Miner for Text Agentware SemioMap TextAnalyst AltaVista Discovery Cambio

Referências Online Text Mining http://allen.comm.virginia.edu/jtl5t/index.htm