Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado.

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Título do Trabalho (Arial 54)
Unidades de Ensino da Microsoft
organização de cartões
Indexação Automática de Documentos
Especificação de Consultas
Modelos de Recuperação de Informação
Engenharia de Software
Sérgio Elias Vieira Cury
Redação de textos técnicos recomendações
Introdução a Teoria da Classificação
Descoberta de Conhecimento:
Bruno Augusto Vivas e Pôssas
Construção de Compiladores
Docente: Edson Alencar Silva
Organização de Trabalhos no Word
Métodos De Pesquisa Na Internet
Metodologia Científica Divulgação de resultados
Ferramentas para Avaliação de Software
Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.
Prof. Wellington D. Previero
Inteligência Artificial
Comunicação Inclusiva Acessibilidade e Programação Web
Disciplina: Prática Profissional II
FONTES DE INFORMAÇÃO SOCIOLÓGICA CONCEPÇÃO DA PESQUISA NA INTERNET Fontes utilizadas Blattmann, Ursula (1998), "Curso sobre como pesquisar na internet".
Estrutura de dados, pseudocódigo
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Área de Pesquisa: Redes de Computadores
BEM VINDO À BIBLIOTECA PROCURA INFORMAÇÕES SOBRE UM TEMA OU UM AUTOR? PRETENDE CIRCUNSCREVER-SE AO OBJECTO DA INVESTIGAÇÃO, APRECIANDO A SUA AMPLITUDE,
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Título do projeto Equipe Local Data.
Construindo tesauros Prof. José Antonio M. Nascimento.
Recuperação de Informação
Algoritmo e Programação
Como escrever um artigo
Vocabulários Controlados
Programação I Laboratório I
ALGORITMOS Intensivo Janeiro e Fevereiro de 2011
1 - Introdução à Modelagem Matemática
Classificacao de Texto Projeto Spam Filter
Documentação de Software
Aula 7 – Planejamento do Levantamento
GOOGLE DOCS 3º ATIVIDADE FORMULÁRIOS TUTORIAL GOOGLE DOCS.
Elaboração da pesquisa científica: 4 fases
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Laboratório de Programação
Novas tecnologias para o ensino e recursos online Escolha, utilização e configuração de um blogue Vera Monteiro Aveiro, 6 de.
Recuperação Inteligente de Informação
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
REGISTRO DE ESTUDO DE CASO Pesquisa diagnóstica:
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Norma 3GPP TS V6.0.0 ( ). Codificador AMR de 8 débitos diferentes desde 4.75 a 12.2 kbit/s. Incorpora: codificador de voz de débitos múltiplos;
Classificação de Textos
ANOTAÇÕES e DIÁRIO DE CAMPO
Comunicação e Redação Empresarial
Metodologia da Pesquisa em Ensino de Ciências I
Avaliação de Interfaces Esta apresentação foi baseada no livro Design de Interação ( Preece, Rogers & Sharp) e no Tutorial sobre o livro “Design e avaliação.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Guia de pesquisa para resolução de problemas de informação Biblioteca da Escola Secundária 2, 3 Oliveira Júnior Guia de pesquisa para resolução de problemas.
Aula sobre Ciência, método, pesquisa Profa. Lílian Moreira.
PREPARAÇÃO DE UM ARTIGO CIENTÍFICO
Avaliação de interface Usabilidade. O processo de avaliação de uma interface não deve ser avaliado como uma fase única dentro do processo de design de.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
1 factor de impacto de revistas científicas 23 de Abril 2008 Biblioteca da UA.
PRODUÇÃO E CRÍTICA DO TEXTO ACADÊMICO ARTES VISUAIS 2016.
Técnicas de Avaliação de Interfaces Prof. Jorge Cavalcanti.
Transcrição da apresentação:

Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Problema Trabalho relacionado de Chen e Lynch Comunidades abordadas no estudo Overview das Técnicas usadas Equação de pesos de co-ocorrêcia Resultados Avaliação do Thesaurus Gerado

Aluno: Jorge Machado RI Problema e Motivação Comunidade da Genética –Biologia Molecular Constante entrada de novos termos –Information overload –Vocabulário muito extenso Grande discrepância entre investigadores novos e experientes –Dificuldades a fazer queires aos sistemas Termos iguais para descrever o mesmo

Aluno: Jorge Machado RI Problema e Motivação Estudo completo do genoma dos Vermes Ciência nova sem vocabulários controlados –Necessidade de criação de um vocabulário

Aluno: Jorge Machado RI Exemplos de Vocabulários Listas de problemas de automóveis Comportamentos de portadores de cartões de crédito Padrões de erros em linhas de aviação Padrões de Fraudes Fiscais Problemas Clínicos

Aluno: Jorge Machado RI O que é então um Thesaurus Thesaurus é um nome para definir uma linguagem controlada de indexação dividida por categorias de conhecimento É usada por cientistas para indexar e posteriormente pesquisar em bases de informação através de termos co- relacionados

Aluno: Jorge Machado RI Requisitos para criação de um Thesaurus Colecção de documentos completa Uma boa função de co-ocurrência Pesquisa com feedback

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Memória Humana] Como medir proximidade de ideias??? Carro e Roda??? São Próximas?? –De que ponto de vista?? Caixa e DVD??? –Ponto de vista do DVD –Ponto de vista da caixa

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Algoritmo do Coseno] Consegue medir este tipo de relação? …? Não

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [ Algoritmo do Coseno] Dado um vector de documentos i E dois termos j e k Apenas consegue medir a frequência com que aparecem juntos.

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Tabela de presenças para o Coseno] Documentos com Tj Documentos com Tk ComunsCoseno ~0, 7 121

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Cluster Assimétrico] Tendo em conta o principio de relação de memória humana Documentos com Tj Documentos com Tk ComunsAssimétrico ,5 1211

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Cluster Assimétrico de Chen e Lynch]

Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Mais Algoritmos de Pesos] Fórmula de Medelyan e Witten

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores Filtragem de Termos Indexação Cluster Analisys

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Filtragem de Termos] Colecção Researchers –4714 docs > 2709 nomes Colecção Gene > 1520 Genes Métodos experimentais > 37 métodos Subject Descriptors 1048 termos –Foram usadas todas as entradas do indice de assuntos do livro The Worm Book –Lista criada por outro investigador da area M. Edgley Total de 5314 termos

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Filtragem de Termos: exemplos]

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Indexação automática] Fazem uso dos procedimentos de Salton (1989) –Identificação de Palavras (ignorar pontuação e Maiúsculas/Minúsculas) –StopWords (1000) –Stemming (30 regras para sufixos) –Formação de Frases

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Indexação automática: frases] Utilização de termos adjacentes para criação de novos termos Exemplo “DAUER LARVA FORMATION” –Criadas: DAUER, LARVA e FORMATION DAUER LARVA LARVA FORMATION DAUER LARVA FORMATION

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Fase mais complexa Atribuição de Pesos aos clusters de co- ocorrência. –Baseada no Modelo de espaço vectorial Ideia é estender o conceito de Chen e Lynch usando TF.IDF em vez da presença booleana

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso para um termo J num documento I A diferença é o wj que é a norma do termo –Exemplo de “Information Retrieval” –Wj = 2

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Extensão do cálculo do tf.idf já por sua vez estendido para dois termos Min {tf ij e tf ik } Numero de documentos em que Aparecem juntos

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis: Função de Peso Final]

Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis:Factor] Termos que apareciam em muitos sítios Termos muito genéricos obtém um w. factor mais baixo

Aluno: Jorge Machado RI Resultados 1,708,551 termos co-ocurrentes.

Aluno: Jorge Machado RI Resultados 1,708,551 termos co-ocurrentes.

Aluno: Jorge Machado RI Resultados [Melhoramentos] Aplicados cortes aos Pares. –Escolhidos apenas os 100 primeiros links Redução para 709,659 –Aplicados os Thresholds de co-ocurrência Redução para 7829 conceitos

Aluno: Jorge Machado RI Resultados [Links]

Aluno: Jorge Machado RI Resultados [Multiplas Fontes vs Uma fonte] Foi criado novo thesaurus separando as fontes –Redução do tempo de processamento uma vez que é O(n 2 )

Aluno: Jorge Machado RI Avaliação do Thesaurus [Perguntas chave] Vai ajudar a encontrar termos relevantes e melhorar a precision e o recall? Qual o melhor thesaurus kb1 ou kb2? Quais as novas características e quais as melhorias necessárias?

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências] Testadores –Pessoa 1 - gestor de laboratório –Pessoa 2 - estudante de doutoramento –Pessoa 3 e 4 – novatos, estudante de mestrado e o outro um sénior mas não graduado.

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências] 1º Passo dar à pessoa um termo seleccionado. –Escolhidos 16 termos a partir de genes, investigadores, assuntos, etc. Por investigadores experientes –Era pedido aos Sujeitos para escreverem uma lista de termos que se lembrassem e que fossem relevantes Incluindo, genes, métodos, investigadores, etc. –Fornecida a lista e pedido de marcação dos relevantes, muito relevantes e irrelevantes Misturados os termos relacionados quer do Kb1 e Kb2 e colocados por ordem de importância. Lista de 48 –Alteração aos escritos, apagando

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências:resultados] Os sujeitos escreveram comentários que foram analisados posteriormente Experiência durou de 1,5 h a 2,5 h

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências] Quadro exemplo de selecção de termos relacionados com Ward, Samuel, o director do laboratório no Arizona

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Interface]

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística] Para assinalar termos mais relevantes –contados os termos gerados marcados como relevantes e muito relevantes –Contados os termos gerados pelos sujeitos

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística, resultados] Na generalidade –8479 termos gerados pelo kb1 –8312 termos gerados pelo kb2 –6177 termos gerados pelos sujeitos Experts geraram mais que os novatos –Após uso de ferramenta estatística para medir variâncias chegou-se à conclusão que não houve grandes diferenças entre KB1 e KB2

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística, resultados]

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística, cálculo] Calculo de Precisão e Recall

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Precisão e Recall, cálculo] Total de conceitos relevantes –Inicialmente gerados –Marcados como relevantes durante toda a navegação –Escritos pelos sujeitos

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Recall, resultados]

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Precisão: resultados] Fraca do lado dos thesaurusPrincipal motivo o ruído dos termos muito genéricos

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Conclusões] os thesaurus tem um melhor recall e uma pior precisão. Devem ser usados para consulta e nunca para substituição automática de termos. A junção dos dois mundos (Humanos + Thesaurus) trás benefícios à investigação. –Curiosidade - Humanos conseguem ter um recall histórico muito mais apurado devido ao uso de memória.

Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Avaliação Subjectiva] Problemas relacionados com: Stemming, StopWording e Criação de frases A maioria resultante de erros de OCR Variantes de nome Autores altamente importantes relativamente a certos temas foram excluídos pelo threshold Termos genéricos demais como FACT Sugeridos sinónimos Em certos pontos parece que os termos mais relevantes foram apontados primeiro

Aluno: Jorge Machado RI Conclusões e trabalho futuro Resultados bons Retirar o stemming e as frases Criar nova lista de stopwords aplicada à area Padronização dos nomes dos autores Actualização incremental do thesaurus Fazer o mesmo noutras comunidades Incluir a coordenada Tempo Consultas múltiplas de thesaurus para novatos e para especialistas

Aluno: Jorge Machado RI QUESTÕES ???????????