Segmentador, normalizador ortográfico, heurística de disambiguação Vocabulário de subwords Palavra(s) originais (palavra por palavra) Palavra(s) segmentadas.

Slides:



Advertisements
Apresentações semelhantes
Object Query Language - OQL
Advertisements

Especificação de Consultas
Linguística Documentária Marilda Lopes Ginez de Lara 2011
Objectivos Objectivos
1 FEUPXML Anotação de Documentos Elementos, Atributos, Entidades, Comentários, Declarações e Instruções de Processamento.
Modelo Objecto Modelo Objecto ODMG objecto: primitiva base
1 Querying Across Languages: A Dictionary-Based Approach to Multilingual Information Retrieval Trabalho executado por: Antónia Aguiar Eugénia Almeida Karen.
Gerenciamento Baseado em Políticas
Eletrônica Digital Funções e Portas Lógicas
Introdução a circuitos lógicos
NORMALIZAÇÃO DE TRABALHO CIENTÍFICO
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Teoria da Classificação
PROGRAMAÇÃO MODULAR (com uso de subprogramas)
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
PROGRAMAÇÃO ou LINGUAGEM C?
Jacques Robin CIn-UFPE
Dissertações e Teses-PROPAD
Seminário de Tradução – FLUP 8 de Fevereiro de 2007
Cefet/ RJ Centro Federal de Educação Tecnológica Celso Suckow da Fonseca Curso: Ensino de Línguas Estrangeiras Disciplina: Metodologia do ensino.
Como iniciar uma pesquisa
A Linguagem HTML.
João Lucas de Oliveira Torres
Tesauros José Antonio M. Nascimento.
Linguagem de Expressão (EL)
Inteligência Artificial
Conceitos de Lógica Digital
ARTIGOS CIENTÍFICOS ABNT NBR 6022 / 2003
Pesquisa Científica na Internet
Bags n Servem para armazenar a repetição de elementos n Tal qual conjuntos, a ordem dos elementos não importa n Por isso, também recebem a designação de.
Linguagem Funcional 2 Linguagem Funcional 2 - LF2 Estende LF1 com funções de alta ordem Uma função passa a ser um valor O contexto inclui um único componente:
Pesquisa em bases de dados na área da saúde
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
TEORIA DO CONCEITO A Teoria do Conceito possibilitou bases mais sólidas para o entendimento do que consideramos conceito para fins de representação/recuperação.
Recuperação de Informação
Vocabulários Controlados
Técnicas de Representação de Conhecimento Diversas.
Inglês Técnico TERMOS E EXPRESSÕES UTILIZADAS EM PROGRAMAÇÃO DE COMPUTADORES E ATIVIDADES RELACIONADAS A INFORMÁTICA ________________________________________________.
The MORPHOSAURUS Medical Subword Lexicon: Lexicographic and Semantic Aspects Stefan Schulz 12, Kornél Markó 14, Percy Nohama 23, Roosewelt Leite de Andrade.
Introdução à programaçao em PERL Levi Lúcio, Vasco Amaral, Programação em PERL, FCA-Editora de Informática.
Luciana Danielli Acesso às Fontes de Informação em Saúde através da Web - Portal da BIREME
Introdução a Perl Tema 3B Pablo Gamallo Otero
Scirus. A base de dados multidisciplinar Scirus apresenta documentos em texto completo disponibilizados em repositórios institucionais de diversas universidades,
Projetos Grandes MO801/MC912. Roteiro Componentes Configurações Instanciação múltipla Instanciação condicional Atenção: Os exemplos são cumulativos.
Linguagem XML Criando um documento XML válido
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
AWL WORDS.
Semântica em Integração de Dados – Ontologia Contextual
XML – Extensible Markup Language [Introdução] Renata Pontin de Mattos Fortes SCE-225 Hipermídia 2°Semestre 2003 Material elaborado por Lisandra Cazassa.
7. Mineração de Texto ("Text Mining")
Infra-Estrutura de Software
A Linguagem Formal de Especificação VDM-SL
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
PDDL: uma linguagem padrão para especificação de problemas e heurísticas de planejamento Jacques Robin CIn-UFPE.
Semântica de Linguagens de Programação
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
Internet Pesquisa de informação Internet Pesquisa de informação.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
LEVEL 1: APRESENTAÇÃO DO CURSO ABORDAGEM: Desenvolvimento da competência comunicativa (leitura, oralidade e escrita) com ênfase em estratégias de aprendizagem.
TRABALHOS ACADÊMICOS.
Visualização de Informação EMAp - FGV Setembro, 2015 Mestrado em Modelagem Matemática da Informação Prof. Asla Medeiros e Sá Walter Dominguez
Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.
Aluno: Jorge Machado RI Syntactic Clustering of the Web Jorge Machado Recuperação de Informação Prof. Pável Calado.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Indexação: o uso do Vocabulário de Controle Externo do TCU (VCE) ISC/CEDOC Serviço de Gestão do Conhecimento Junho/2016 Beatriz Pinheiro de Melo Gomes.
Unidade 1 – Portas Lógicas Básicas – NOR, NAND, XOR e XNOR.
Transcrição da apresentação:

Segmentador, normalizador ortográfico, heurística de disambiguação Vocabulário de subwords Palavra(s) originais (palavra por palavra) Palavra(s) segmentadas Sistema Atual

segmentador Vocabulário de subwords tabela de normalização ortográfica Parâmetros (linguagem, critérios para disambi-guação ) Palavra(s) originais Palavra(s) segmentadas Abordagem Simples

Segmentador (integrado com Tokenizer e Tesauro) Vocabulário de subwords tabela de normalização ortográfica Parâmetros (linguagem, critérios para disambi-guação, expansão das relações de similaridade e das hierarquias) Texto original Seqüência de Identificadores Abordagem Complexa Tesauro de subwords

Normalized Documents System Architecture Token iz- ing Acronym Lexicon: maps Acronyms to corresponding words/phrases Pre- proces- sing {gastr} {stomach} {estomag} {ventric} {chamber} {hepat} {hepar} {liver} Subword Lexicon: list of morphemes with attributes (type, language, etc.) Seg- men- ting Documents Query Similarity not transitive, reflexive Subword Thesaurus: groupsequivalent morphemes, links similar groups BJJK AABG HHKB AHHF FBFJ Nor- mali- zing Query Expan- sion Normalized Query Common Free Text Indexing and Retrieval System Relevant Documents

Documentos normalizados Token iz- ing Acronym Lexicon: maps Acronyms to corresponding words/phrases {gastr} {stomach} {estomag} {ventric} {chamber} {hepat} {hepar} {liver} Subword Lexicon: list of morphemes with attributes (type, language, etc.) Seg- men- ting Documentos (inglês, português, espanhol) Expressões de Busca Similarity not transitive, reflexive Subword Thesaurus: groupsequivalent morphemes, links similar groups BJJK AABG HHKB AHHF FBFJ Nor- mali- zing Query Expan- sion Normalized Query Common Free Text Indexing and Retrieval System Relevant Documents

Documentos normalizados Motor de busca convencional Documentos originais (inglês, português, espanhol) Expressão de Busca Expressão Normalizada Documentos Relevantes Repositório de Subwords {GESTAC, GESTANT, GRAVID, PRENH, PREGNAN} pregnan = {OPHTALM, EYE, OLHO OFTALM,} eye = Repositório de Nomes {DICLOFENAC, DICLOFENACO, VOLTAREN, CATAFLAM} diclo = {ALZHEIMER} alzh = Repositório de Acrônimos ECG = elektr + heart + graph T3 = three + jod + thyronin T4 = thyroxin APA = anti+peroxid+enzym+ antibody APA = america+psycholog+ associat Regras de compo- sição morfo- lógica Segmentador