A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado.

Apresentações semelhantes


Apresentação em tema: "Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado."— Transcrição da apresentação:

1 Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

2 Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Problema Trabalho relacionado de Chen e Lynch Comunidades abordadas no estudo Overview das Técnicas usadas Equação de pesos de co-ocorrêcia Resultados Avaliação do Thesaurus Gerado

3 Aluno: Jorge Machado RI - 2007 Problema e Motivação Comunidade da Genética –Biologia Molecular Constante entrada de novos termos –Information overload –Vocabulário muito extenso Grande discrepância entre investigadores novos e experientes –Dificuldades a fazer queires aos sistemas Termos iguais para descrever o mesmo

4 Aluno: Jorge Machado RI - 2007 Problema e Motivação Estudo completo do genoma dos Vermes Ciência nova sem vocabulários controlados –Necessidade de criação de um vocabulário

5 Aluno: Jorge Machado RI - 2007 Exemplos de Vocabulários Listas de problemas de automóveis Comportamentos de portadores de cartões de crédito Padrões de erros em linhas de aviação Padrões de Fraudes Fiscais Problemas Clínicos

6 Aluno: Jorge Machado RI - 2007 O que é então um Thesaurus Thesaurus é um nome para definir uma linguagem controlada de indexação dividida por categorias de conhecimento É usada por cientistas para indexar e posteriormente pesquisar em bases de informação através de termos co- relacionados

7 Aluno: Jorge Machado RI - 2007 Requisitos para criação de um Thesaurus Colecção de documentos completa Uma boa função de co-ocurrência Pesquisa com feedback

8 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [Memória Humana] Como medir proximidade de ideias??? Carro e Roda??? São Próximas?? –De que ponto de vista?? Caixa e DVD??? –Ponto de vista do DVD –Ponto de vista da caixa

9 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [Algoritmo do Coseno] Consegue medir este tipo de relação? …? Não

10 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [ Algoritmo do Coseno] Dado um vector de documentos i E dois termos j e k Apenas consegue medir a frequência com que aparecem juntos.

11 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [Tabela de presenças para o Coseno] Documentos com Tj Documentos com Tk ComunsCoseno 1111 2221 211~0, 7 121

12 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [Cluster Assimétrico] Tendo em conta o principio de relação de memória humana Documentos com Tj Documentos com Tk ComunsAssimétrico 1111 2221 2110,5 1211

13 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [Cluster Assimétrico de Chen e Lynch]

14 Aluno: Jorge Machado RI - 2007 Trabalho relacionado de Chen e Lynch [Mais Algoritmos de Pesos] Fórmula de Medelyan e Witten

15 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores Filtragem de Termos Indexação Cluster Analisys

16 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Filtragem de Termos] Colecção Researchers –4714 docs > 2709 nomes Colecção Gene > 1520 Genes Métodos experimentais > 37 métodos Subject Descriptors 1048 termos –Foram usadas todas as entradas do indice de assuntos do livro The Worm Book –Lista criada por outro investigador da area M. Edgley Total de 5314 termos

17 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Filtragem de Termos: exemplos]

18 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Indexação automática] Fazem uso dos procedimentos de Salton (1989) –Identificação de Palavras (ignorar pontuação e Maiúsculas/Minúsculas) –StopWords (1000) –Stemming (30 regras para sufixos) –Formação de Frases

19 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Indexação automática: frases] Utilização de termos adjacentes para criação de novos termos Exemplo “DAUER LARVA FORMATION” –Criadas: DAUER, LARVA e FORMATION DAUER LARVA LARVA FORMATION DAUER LARVA FORMATION

20 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis] Fase mais complexa Atribuição de Pesos aos clusters de co- ocorrência. –Baseada no Modelo de espaço vectorial Ideia é estender o conceito de Chen e Lynch usando TF.IDF em vez da presença booleana

21 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico

22 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico

23 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso para um termo J num documento I A diferença é o wj que é a norma do termo –Exemplo de “Information Retrieval” –Wj = 2

24 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis] Função de peso do Cluster (Antes)Cluster Assimétrico

25 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis] Extensão do cálculo do tf.idf já por sua vez estendido para dois termos Min {tf ij e tf ik } Numero de documentos em que Aparecem juntos

26 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis: Função de Peso Final]

27 Aluno: Jorge Machado RI - 2007 Técnicas Utilizadas pelos autores [Cluster Analysis:Factor] Termos que apareciam em muitos sítios Termos muito genéricos obtém um w. factor mais baixo

28 Aluno: Jorge Machado RI - 2007 Resultados 1,708,551 termos co-ocurrentes.

29 Aluno: Jorge Machado RI - 2007 Resultados 1,708,551 termos co-ocurrentes.

30 Aluno: Jorge Machado RI - 2007 Resultados [Melhoramentos] Aplicados cortes aos Pares. –Escolhidos apenas os 100 primeiros links Redução para 709,659 –Aplicados os Thresholds de co-ocurrência Redução para 7829 conceitos

31 Aluno: Jorge Machado RI - 2007 Resultados [Links]

32 Aluno: Jorge Machado RI - 2007 Resultados [Multiplas Fontes vs Uma fonte] Foi criado novo thesaurus separando as fontes –Redução do tempo de processamento uma vez que é O(n 2 )

33 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Perguntas chave] Vai ajudar a encontrar termos relevantes e melhorar a precision e o recall? Qual o melhor thesaurus kb1 ou kb2? Quais as novas características e quais as melhorias necessárias?

34 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências] Testadores –Pessoa 1 - gestor de laboratório –Pessoa 2 - estudante de doutoramento –Pessoa 3 e 4 – novatos, estudante de mestrado e o outro um sénior mas não graduado.

35 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências] 1º Passo dar à pessoa um termo seleccionado. –Escolhidos 16 termos a partir de genes, investigadores, assuntos, etc. Por investigadores experientes –Era pedido aos Sujeitos para escreverem uma lista de termos que se lembrassem e que fossem relevantes Incluindo, genes, métodos, investigadores, etc. –Fornecida a lista e pedido de marcação dos relevantes, muito relevantes e irrelevantes Misturados os termos relacionados quer do Kb1 e Kb2 e colocados por ordem de importância. Lista de 48 –Alteração aos escritos, apagando

36 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências:resultados] Os sujeitos escreveram comentários que foram analisados posteriormente Experiência durou de 1,5 h a 2,5 h

37 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências] Quadro exemplo de selecção de termos relacionados com Ward, Samuel, o director do laboratório no Arizona

38 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Interface]

39 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Estatística] Para assinalar termos mais relevantes –contados os termos gerados marcados como relevantes e muito relevantes –Contados os termos gerados pelos sujeitos

40 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Estatística, resultados] Na generalidade –8479 termos gerados pelo kb1 –8312 termos gerados pelo kb2 –6177 termos gerados pelos sujeitos Experts geraram mais que os novatos –Após uso de ferramenta estatística para medir variâncias chegou-se à conclusão que não houve grandes diferenças entre KB1 e KB2

41 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Estatística, resultados]

42 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Estatística, cálculo] Calculo de Precisão e Recall

43 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Precisão e Recall, cálculo] Total de conceitos relevantes –Inicialmente gerados –Marcados como relevantes durante toda a navegação –Escritos pelos sujeitos

44 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Recall, resultados]

45 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Precisão: resultados] Fraca do lado dos thesaurusPrincipal motivo o ruído dos termos muito genéricos

46 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Conclusões] os thesaurus tem um melhor recall e uma pior precisão. Devem ser usados para consulta e nunca para substituição automática de termos. A junção dos dois mundos (Humanos + Thesaurus) trás benefícios à investigação. –Curiosidade - Humanos conseguem ter um recall histórico muito mais apurado devido ao uso de memória.

47 Aluno: Jorge Machado RI - 2007 Avaliação do Thesaurus [Experiências: Avaliação Subjectiva] Problemas relacionados com: Stemming, StopWording e Criação de frases A maioria resultante de erros de OCR Variantes de nome Autores altamente importantes relativamente a certos temas foram excluídos pelo threshold Termos genéricos demais como FACT Sugeridos sinónimos Em certos pontos parece que os termos mais relevantes foram apontados primeiro

48 Aluno: Jorge Machado RI - 2007 Conclusões e trabalho futuro Resultados bons Retirar o stemming e as frases Criar nova lista de stopwords aplicada à area Padronização dos nomes dos autores Actualização incremental do thesaurus Fazer o mesmo noutras comunidades Incluir a coordenada Tempo Consultas múltiplas de thesaurus para novatos e para especialistas

49 Aluno: Jorge Machado RI - 2007 QUESTÕES ???????????


Carregar ppt "Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado."

Apresentações semelhantes


Anúncios Google