Segmentador, normalizador ortográfico, heurística de disambiguação Vocabulário de subwords Palavra(s) originais (palavra por palavra) Palavra(s) segmentadas Sistema Atual
segmentador Vocabulário de subwords tabela de normalização ortográfica Parâmetros (linguagem, critérios para disambi-guação ) Palavra(s) originais Palavra(s) segmentadas Abordagem Simples
Segmentador (integrado com Tokenizer e Tesauro) Vocabulário de subwords tabela de normalização ortográfica Parâmetros (linguagem, critérios para disambi-guação, expansão das relações de similaridade e das hierarquias) Texto original Seqüência de Identificadores Abordagem Complexa Tesauro de subwords
Normalized Documents System Architecture Token iz- ing Acronym Lexicon: maps Acronyms to corresponding words/phrases Pre- proces- sing {gastr} {stomach} {estomag} {ventric} {chamber} {hepat} {hepar} {liver} Subword Lexicon: list of morphemes with attributes (type, language, etc.) Seg- men- ting Documents Query Similarity not transitive, reflexive Subword Thesaurus: groupsequivalent morphemes, links similar groups BJJK AABG HHKB AHHF FBFJ Nor- mali- zing Query Expan- sion Normalized Query Common Free Text Indexing and Retrieval System Relevant Documents
Documentos normalizados Token iz- ing Acronym Lexicon: maps Acronyms to corresponding words/phrases {gastr} {stomach} {estomag} {ventric} {chamber} {hepat} {hepar} {liver} Subword Lexicon: list of morphemes with attributes (type, language, etc.) Seg- men- ting Documentos (inglês, português, espanhol) Expressões de Busca Similarity not transitive, reflexive Subword Thesaurus: groupsequivalent morphemes, links similar groups BJJK AABG HHKB AHHF FBFJ Nor- mali- zing Query Expan- sion Normalized Query Common Free Text Indexing and Retrieval System Relevant Documents
Documentos normalizados Motor de busca convencional Documentos originais (inglês, português, espanhol) Expressão de Busca Expressão Normalizada Documentos Relevantes Repositório de Subwords {GESTAC, GESTANT, GRAVID, PRENH, PREGNAN} pregnan = {OPHTALM, EYE, OLHO OFTALM,} eye = Repositório de Nomes {DICLOFENAC, DICLOFENACO, VOLTAREN, CATAFLAM} diclo = {ALZHEIMER} alzh = Repositório de Acrônimos ECG = elektr + heart + graph T3 = three + jod + thyronin T4 = thyroxin APA = anti+peroxid+enzym+ antibody APA = america+psycholog+ associat Regras de compo- sição morfo- lógica Segmentador