Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado
Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Problema Trabalho relacionado de Chen e Lynch Comunidades abordadas no estudo Overview das Técnicas usadas Equação de pesos de co-ocorrêcia Resultados Avaliação do Thesaurus Gerado
Aluno: Jorge Machado RI Problema e Motivação Comunidade da Genética –Biologia Molecular Constante entrada de novos termos –Information overload –Vocabulário muito extenso Grande discrepância entre investigadores novos e experientes –Dificuldades a fazer queires aos sistemas Termos iguais para descrever o mesmo
Aluno: Jorge Machado RI Problema e Motivação Estudo completo do genoma dos Vermes Ciência nova sem vocabulários controlados –Necessidade de criação de um vocabulário
Aluno: Jorge Machado RI Exemplos de Vocabulários Listas de problemas de automóveis Comportamentos de portadores de cartões de crédito Padrões de erros em linhas de aviação Padrões de Fraudes Fiscais Problemas Clínicos
Aluno: Jorge Machado RI O que é então um Thesaurus Thesaurus é um nome para definir uma linguagem controlada de indexação dividida por categorias de conhecimento É usada por cientistas para indexar e posteriormente pesquisar em bases de informação através de termos co- relacionados
Aluno: Jorge Machado RI Requisitos para criação de um Thesaurus Colecção de documentos completa Uma boa função de co-ocurrência Pesquisa com feedback
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Memória Humana] Como medir proximidade de ideias??? Carro e Roda??? São Próximas?? –De que ponto de vista?? Caixa e DVD??? –Ponto de vista do DVD –Ponto de vista da caixa
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Algoritmo do Coseno] Consegue medir este tipo de relação? …? Não
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [ Algoritmo do Coseno] Dado um vector de documentos i E dois termos j e k Apenas consegue medir a frequência com que aparecem juntos.
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Tabela de presenças para o Coseno] Documentos com Tj Documentos com Tk ComunsCoseno ~0, 7 121
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Cluster Assimétrico] Tendo em conta o principio de relação de memória humana Documentos com Tj Documentos com Tk ComunsAssimétrico ,5 1211
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Cluster Assimétrico de Chen e Lynch]
Aluno: Jorge Machado RI Trabalho relacionado de Chen e Lynch [Mais Algoritmos de Pesos] Fórmula de Medelyan e Witten
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores Filtragem de Termos Indexação Cluster Analisys
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Filtragem de Termos] Colecção Researchers –4714 docs > 2709 nomes Colecção Gene > 1520 Genes Métodos experimentais > 37 métodos Subject Descriptors 1048 termos –Foram usadas todas as entradas do indice de assuntos do livro The Worm Book –Lista criada por outro investigador da area M. Edgley Total de 5314 termos
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Filtragem de Termos: exemplos]
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Indexação automática] Fazem uso dos procedimentos de Salton (1989) –Identificação de Palavras (ignorar pontuação e Maiúsculas/Minúsculas) –StopWords (1000) –Stemming (30 regras para sufixos) –Formação de Frases
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Indexação automática: frases] Utilização de termos adjacentes para criação de novos termos Exemplo “DAUER LARVA FORMATION” –Criadas: DAUER, LARVA e FORMATION DAUER LARVA LARVA FORMATION DAUER LARVA FORMATION
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Fase mais complexa Atribuição de Pesos aos clusters de co- ocorrência. –Baseada no Modelo de espaço vectorial Ideia é estender o conceito de Chen e Lynch usando TF.IDF em vez da presença booleana
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso para um termo J num documento I A diferença é o wj que é a norma do termo –Exemplo de “Information Retrieval” –Wj = 2
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis] Extensão do cálculo do tf.idf já por sua vez estendido para dois termos Min {tf ij e tf ik } Numero de documentos em que Aparecem juntos
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis: Função de Peso Final]
Aluno: Jorge Machado RI Técnicas Utilizadas pelos autores [Cluster Analysis:Factor] Termos que apareciam em muitos sítios Termos muito genéricos obtém um w. factor mais baixo
Aluno: Jorge Machado RI Resultados 1,708,551 termos co-ocurrentes.
Aluno: Jorge Machado RI Resultados 1,708,551 termos co-ocurrentes.
Aluno: Jorge Machado RI Resultados [Melhoramentos] Aplicados cortes aos Pares. –Escolhidos apenas os 100 primeiros links Redução para 709,659 –Aplicados os Thresholds de co-ocurrência Redução para 7829 conceitos
Aluno: Jorge Machado RI Resultados [Links]
Aluno: Jorge Machado RI Resultados [Multiplas Fontes vs Uma fonte] Foi criado novo thesaurus separando as fontes –Redução do tempo de processamento uma vez que é O(n 2 )
Aluno: Jorge Machado RI Avaliação do Thesaurus [Perguntas chave] Vai ajudar a encontrar termos relevantes e melhorar a precision e o recall? Qual o melhor thesaurus kb1 ou kb2? Quais as novas características e quais as melhorias necessárias?
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências] Testadores –Pessoa 1 - gestor de laboratório –Pessoa 2 - estudante de doutoramento –Pessoa 3 e 4 – novatos, estudante de mestrado e o outro um sénior mas não graduado.
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências] 1º Passo dar à pessoa um termo seleccionado. –Escolhidos 16 termos a partir de genes, investigadores, assuntos, etc. Por investigadores experientes –Era pedido aos Sujeitos para escreverem uma lista de termos que se lembrassem e que fossem relevantes Incluindo, genes, métodos, investigadores, etc. –Fornecida a lista e pedido de marcação dos relevantes, muito relevantes e irrelevantes Misturados os termos relacionados quer do Kb1 e Kb2 e colocados por ordem de importância. Lista de 48 –Alteração aos escritos, apagando
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências:resultados] Os sujeitos escreveram comentários que foram analisados posteriormente Experiência durou de 1,5 h a 2,5 h
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências] Quadro exemplo de selecção de termos relacionados com Ward, Samuel, o director do laboratório no Arizona
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Interface]
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística] Para assinalar termos mais relevantes –contados os termos gerados marcados como relevantes e muito relevantes –Contados os termos gerados pelos sujeitos
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística, resultados] Na generalidade –8479 termos gerados pelo kb1 –8312 termos gerados pelo kb2 –6177 termos gerados pelos sujeitos Experts geraram mais que os novatos –Após uso de ferramenta estatística para medir variâncias chegou-se à conclusão que não houve grandes diferenças entre KB1 e KB2
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística, resultados]
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Estatística, cálculo] Calculo de Precisão e Recall
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Precisão e Recall, cálculo] Total de conceitos relevantes –Inicialmente gerados –Marcados como relevantes durante toda a navegação –Escritos pelos sujeitos
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Recall, resultados]
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Precisão: resultados] Fraca do lado dos thesaurusPrincipal motivo o ruído dos termos muito genéricos
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Conclusões] os thesaurus tem um melhor recall e uma pior precisão. Devem ser usados para consulta e nunca para substituição automática de termos. A junção dos dois mundos (Humanos + Thesaurus) trás benefícios à investigação. –Curiosidade - Humanos conseguem ter um recall histórico muito mais apurado devido ao uso de memória.
Aluno: Jorge Machado RI Avaliação do Thesaurus [Experiências: Avaliação Subjectiva] Problemas relacionados com: Stemming, StopWording e Criação de frases A maioria resultante de erros de OCR Variantes de nome Autores altamente importantes relativamente a certos temas foram excluídos pelo threshold Termos genéricos demais como FACT Sugeridos sinónimos Em certos pontos parece que os termos mais relevantes foram apontados primeiro
Aluno: Jorge Machado RI Conclusões e trabalho futuro Resultados bons Retirar o stemming e as frases Criar nova lista de stopwords aplicada à area Padronização dos nomes dos autores Actualização incremental do thesaurus Fazer o mesmo noutras comunidades Incluir a coordenada Tempo Consultas múltiplas de thesaurus para novatos e para especialistas
Aluno: Jorge Machado RI QUESTÕES ???????????