A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Apresentação da Monografia Text Mining Extraindo conhecimentos utilizando essa tecnologia COS831 – Gestão do Conhecimento Professor : Jano Moreira de Souza.

Apresentações semelhantes


Apresentação em tema: "Apresentação da Monografia Text Mining Extraindo conhecimentos utilizando essa tecnologia COS831 – Gestão do Conhecimento Professor : Jano Moreira de Souza."— Transcrição da apresentação:

1 Apresentação da Monografia Text Mining Extraindo conhecimentos utilizando essa tecnologia COS831 – Gestão do Conhecimento Professor : Jano Moreira de Souza Felipe Gentil Leite

2 Roteiro Introdução O que é Text Mining? –Diferenças entre data mining e text mining Aplicação do Text Mining –Duas formas de utilizar text mining Três ferramentas de Text Mining Estudo de caso Problemas em aberto Conclusão

3 Introdução Relacionamento empresa-cliente Quantidade de informações em documentos não estruturados Internet

4 Text Mining As 3 formas possíveis da informação Definição do text mining (KDT) Objetivos da tecnologia –Novos conhecimentos –Relações não-triviais –Categorização de documentos

5 Diferenças entre Text Mining e Data Mining Primeiro decide-se pelo processo de Knowledge Discovery, depois escolhe a tecnologia de acordo com os dados. Evolução da tecnologia de data mining com a criação do código de barra Text mining é mais complexo Utilização da ferramenta de data mining em processos de text mining Qualidade dos dados de entrada

6 Aplicação da Tecnologia Gestão de Documentos Utilizando regras pré-estabelecidas

7 Gestão de documentos Objetivo Duas entradas –Coleção de documentos –Hierarquia de conceitos Estatísticas Identificar padrões de distribuição

8 Utilizando regras pré-estabelecidas (1) Processo divido em duas fases 1a. Fase –Entrada: documentos em texto livre –Processo semi-automático Estabelecimento das regras –Pontos positivos e negativos para minimizar os problemas de linguagem natural

9 Continuando … –Todas as regras são testadas na frase Se frase tiver todas as regras (+) e nenhuma (-), existe um conceito –Extração de conceitos –Armazenamento da freqüência –Saída: forma semi-estruturada Grafo acíclico

10 Utilizando regras pré-estabelecidas (2) 2a. Fase –Entrada : forma semi-estruturada –Processo automático –Grau de certeza –Resultados X Y, sendo X um ou mais conceitos e Y apenas um conceito

11 Ferramentas (1) TextAnalyst –A ferramenta mais utilizada (Pfizer e 3M) –Identifica conceitos e relações semânticas –Criação de base de conhecimento –Estatísticas –Objetos COM

12 Ferramentas (2) Intelligent Miner for Text –Desenvolvido pela IBM –Gestão de documentos –Plataformas Windows, AIX ou Solaris –Máquina robusta –Disponibiliza APIs para C++

13 Ferramentas (3) SemioMap –Resumo do documento em questão de minutos –Criação de uma estrutura conceitual para identificar os relacionamento entre os documentos –Documentos Word, PowerPoint, PDF, HTML, etc.

14 Ferramentas (4) SemioMap (Cont…) –Gráfico Tridimensional Navegação no gráfico Visualização dos conceitos e relações Novas relações Novas áreas a serem exploradas

15 Estudo de caso (1) Departamento de imprensa da biblioteca de Ciências e Medicina da Universidade de Stanford, EUA Dados atuais (maior repositório de documentos da área) –12,5 milhões de artigos –335 jornais –84 milhões de acessos por semana –6 terabytes de documentos armazenados

16 Estudo de caso (2) Início das operações: Janeiro de 1995 Em junho de 2001… –1 milhão de artigos –Pesquisa estava ruim –Foi resolvido adotar pesquisa baseada em palavras-chaves –SemioMap versão 4

17 Estudo de caso (3) Conseguir manter a performance mesmo aumentando o volume de 1 para 12 milhões de artigos 22 mil categorias 300 mil conceitos Versão 5-Beta foi testada nesse projeto Descoberta de novos conceitos (+) Projeto de implantar um sistema de gestão de conhecimento

18 Problemas em aberto Diferentes idiomas –Algoritmos complexos –Idiomas asiáticos Linguagem natural –Homonímias, metáforas, etc… Qualidade do texto –Erros ortográficos Acrônimos

19 Conclusão Deve ser implantado junto com um sistema de gestão de conhecimento Não há a necessidade de um especialista para produzir conhecimento Como data mining, é necessário um especialista para estabelecer as regras Problemas –Compreensão da linguagem natural –Ferramenta nacional


Carregar ppt "Apresentação da Monografia Text Mining Extraindo conhecimentos utilizando essa tecnologia COS831 – Gestão do Conhecimento Professor : Jano Moreira de Souza."

Apresentações semelhantes


Anúncios Google