Apresentação da Monografia

Slides:



Advertisements
Apresentações semelhantes
Sistemas de Informação
Advertisements

Administração de Sistemas de Informação
INTRODUÇÃO À CIÊNCIA DA COMPUTAÇÃO Prof. Diogo Souza.
Gestão de Projectos Multimédia
Intranet.
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Indexação Automática de Documentos
Propriedades de Documentos
Felipe Carvalho – UFES 2009/2
1. Análise do Problema 2. Definição de dados
Universidade de Aveiro: Programa Aveiro-Norte / Departamento de Matemática Yazaki Saltano de Portugal, C.E.A. Lda. Departamento de Matemática, Universidade.
Sistema Gerenciador de Banco de Dados SGBD
Interfaces Conversacionais
Gestão de TI com Software Livre em Instituições de Ensino Fórum Permanente de Conhecimento e Tecnologia da Informação 14 de abril de 2005 Rubens Queiroz.
Mineração de Dados ou Descoberta de conhecimento em BDs
Sistema Web para Departamentos
Ferramentas de Mineração de Informação Não Estruturada
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
Felipe Dias Maria Fernanda
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Implementação de uma Ferramenta de Busca de Documentos Eletrônicos
IX Congresso Brasileiro de Informática em Saúde CBIS'2004 UNIFESP Ricardo S. Santos Departamento de Informática em Saúde Universidade Federal de São Paulo.
Márcio Geovani Jasinski
OpenOffice = ferramentas de produtividade essenciais no dia-a-dia.
Utilitário gráfico: Microsoft PowerPoint
A Enfermagem na Era da Informática
Aula 1 Minicurso: Astah Ministrantes: André Martins; Camila Brondani;
Link Mining Víctor Medeiros.
Sistemas Inteligentes Ontologia e Protegé
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Programação Avançada Prof. Natalia Castro Fernandes
Comunicação Inclusiva Acessibilidade e Programação Web
Sistema Recomendador para Comércio Eletrônico
A Coordenação de Portais da STIC/UFRJ "Eu não me envergonho de corrigir os meus erros e mudar as minhas opiniões, porque não me envergonho de raciocinar.
TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO
Utilitário Gráfico Microsoft PowerPoint
Metolodogia de Desenvolvimento de Data Warehouse
Gerenciamento de Dados
Sociedade da Informação: Ambiente de TI nas Organizações
Introdução a Programação
Tarefa 02 Visual Studio 2005 Visual C# Programa Hello World.
Título do projeto Equipe Local Data.
Utilitário Gráfico: Microsoft PowerPoint
Recuperação de Informação
Professor: Márcio Amador
Vocabulários Controlados
Luiz Antonio Torres, Maio/2014
Formação em Access: Formação em PHP; Formação em Primavera; Formação em Redes; Cronograma de Formação; Orçamento de Formação; Ficha de Inscrição; Folheto.
Analise Semântica aula-10-analise-semântica.pdf.
Projeto Arte, Ciência e Tecnologia
Ferramentas apresentadas
© 2000 Paulo Adeodato Avaliação de Desempenho de Sistemas A Arte da Apresentação de Dados Paulo Adeodato Departamento de Informática Universidade Federal.
A MATEMÁTICA E AS PROFISSÕES
INE5644 – Data Mining Profa Vania Bogorny
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Indexação Automática e Etiquetadores parte do discurso (POS tagger)
Mineração de Dados: Introdução
UML e a Ferramenta Astah
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
1 Linguagens de Programação Pedro Lopes 2010/2011.
Banco de Dados Universidade do Estado de Santa Catarina
Gestão do Conhecimento e da Informação
Rodrigo Cristiano Silva Introdução A HTML 5 foi idealizada por um grupo de “freethinkers” que estavam cansados do padrão oficial da.
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
O que é Fluxograma? Conceito e definição da palavra
1 Projeto Piloto Conclusão em Agenda Projeto Piloto –Descrição –Execução da aplicação –Implementação de requisitos funcionais e não- funcionais.
Informação Nos últimos 30 anos do século XX, foram produzidas mais informações do que nos cinco mil anos anteriores. Nos últimos 30 anos do século XX,
2-Jun-16TIC – 10ºAno – 2006/2007 Criação e manipulação de tabelas no MS Access Criação de tabelas Antes de se criar a estrutura de uma tabela, deve ter-se.
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Transcrição da apresentação:

Apresentação da Monografia Text Mining Extraindo conhecimentos utilizando essa tecnologia COS831 – Gestão do Conhecimento Professor : Jano Moreira de Souza Felipe Gentil Leite

Roteiro Introdução O que é Text Mining? Aplicação do Text Mining Diferenças entre data mining e text mining Aplicação do Text Mining Duas formas de utilizar text mining Três ferramentas de Text Mining Estudo de caso Problemas em aberto Conclusão

Introdução Relacionamento empresa-cliente Quantidade de informações em documentos não estruturados Internet

Text Mining As 3 formas possíveis da informação Definição do text mining (KDT) Objetivos da tecnologia Novos conhecimentos Relações não-triviais Categorização de documentos

Diferenças entre Text Mining e Data Mining Primeiro decide-se pelo processo de Knowledge Discovery, depois escolhe a tecnologia de acordo com os dados. Evolução da tecnologia de data mining com a criação do código de barra Text mining é mais complexo Utilização da ferramenta de data mining em processos de text mining Qualidade dos dados de entrada

Aplicação da Tecnologia Gestão de Documentos Utilizando regras pré-estabelecidas

Gestão de documentos Objetivo Duas entradas Estatísticas Coleção de documentos Hierarquia de conceitos Estatísticas Identificar padrões de distribuição

Utilizando regras pré-estabelecidas (1) Processo divido em duas fases 1a. Fase Entrada: documentos em texto livre Processo semi-automático Estabelecimento das regras Pontos positivos e negativos para minimizar os problemas de linguagem natural

Continuando… Todas as regras são testadas na frase Se frase tiver todas as regras (+) e nenhuma (-), existe um conceito Extração de conceitos Armazenamento da freqüência Saída: forma semi-estruturada Grafo acíclico

Utilizando regras pré-estabelecidas (2) 2a. Fase Entrada : forma semi-estruturada Processo automático Grau de certeza Resultados X  Y, sendo X um ou mais conceitos e Y apenas um conceito

Ferramentas (1) TextAnalyst A ferramenta mais utilizada (Pfizer e 3M) Identifica conceitos e relações semânticas Criação de base de conhecimento Estatísticas Objetos COM

Ferramentas (2) Intelligent Miner for Text Desenvolvido pela IBM Gestão de documentos Plataformas Windows, AIX ou Solaris Máquina robusta Disponibiliza API’s para C++

Ferramentas (3) SemioMap Resumo do documento em questão de minutos Criação de uma estrutura conceitual para identificar os relacionamento entre os documentos Documentos Word, PowerPoint, PDF, HTML, etc.

Ferramentas (4) SemioMap (Cont…) Gráfico Tridimensional Navegação no gráfico Visualização dos conceitos e relações Novas relações Novas áreas a serem exploradas

Estudo de caso (1) Departamento de imprensa da biblioteca de Ciências e Medicina da Universidade de Stanford, EUA Dados atuais (maior repositório de documentos da área) 12,5 milhões de artigos 335 jornais 84 milhões de acessos por semana 6 terabytes de documentos armazenados

Estudo de caso (2) Início das operações: Janeiro de 1995 Em junho de 2001… 1 milhão de artigos Pesquisa estava ruim Foi resolvido adotar pesquisa baseada em palavras-chaves SemioMap versão 4

Estudo de caso (3) Conseguir manter a performance mesmo aumentando o volume de 1 para 12 milhões de artigos 22 mil categorias 300 mil conceitos Versão 5-Beta foi testada nesse projeto Descoberta de novos conceitos (+) Projeto de implantar um sistema de gestão de conhecimento

Problemas em aberto Diferentes idiomas Linguagem natural Algoritmos complexos Idiomas asiáticos Linguagem natural Homonímias, metáforas, etc… Qualidade do texto Erros ortográficos Acrônimos

Conclusão Deve ser implantado junto com um sistema de gestão de conhecimento Não há a necessidade de um especialista para produzir conhecimento Como data mining, é necessário um especialista para estabelecer as regras Problemas Compreensão da linguagem natural Ferramenta nacional