INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita.

INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita Federal Análise de Risco e Inteligência Artificial (HARPIA) Bruno Paleo Cinara Ghedini Joubert de Castro Lima Jorge Jambeiro Filho Antonella Lanna Carlos H. C. Ribeiro

Ambigüidades e redundâncias em cadastros governamentais
Pessoas físicas e jurídicas nacionais são identificadas frente a órgãos do governo através de identificadores distintos: SRF → CPF e CNPJ INSS → PIS Justiça eleitoral → Número do título de eleitor SSPs → Número da carteira de identidade A necessidade de integração entre estes órgãos vem crescendo.

Identificação de intervenientes estrangeiros
Não existe identificador único global A identificação precisa ser feita a partir de atributos como: Nome Endereço Produtos usuais Etc.

Necessidade de identificação dos intervenientes estrangeiros
A correta identificação de um interveniente estrangeiro é necessária para que: seu comportamento possa ser caracterizado. suas relações com outros intervenientes nacionais ou estrangeiros possam ser mapeadas. Atividades inidôneas que sejam ou não da responsabilidade do interveniente estrangeiro podem ser reveladas.

Identificação de intervenientes estrangeiros
A identificação precisa ser feita a partir de atributos como: Nome Endereço Produtos usuais Etc. Estes atributos envolvem cadeias de caracteres sujeitas a: Diferentes responsáveis pela entrada dos dados Diferentes línguas Erros tipográficos Abreviaturas Traduções Trocas de ordem e omissão de palavras

Distância entre cadeias de caracteres
Pré-processamento Unificação de abreviações comuns, como Ltda., Ltd, etc., para cada língua. Distância de edição de Levenshtein Número mínimo de operações de inserção, remoção e substituição de caracteres requerido para transformar uma cadeia em outra. Generalizações Normalização pelo tamanho das cadeias. Pesos diferenciados para as operações. Trocas de ordem

Testes Separamos os testes de acordo com o país de origem dos intervenientes estrangeiros. O NOME de cada interveniente aparece várias vezes no banco de dados. Ele foi registrado por pessoas físicas e jurídicas potencialmente distintas. Para todos os pares de nomes possíveis, o sistema calcula a distância de edição normalizada entre os nomes dos intervenientes. Variamos o ponto de corte na distância para considerar dois nomes equivalente. Selecionamos os melhores pontos de corte para cada país separadamente.

Curvas de precisão X recuperação
Sem pré-processamento Com pré-processamento

Resultados Para todos os países testados conseguimos pontos de corte para os quais a precisão é maior que 90% e a recuperação é maior que 80%. Para alguns países conseguimos uma precisão de 96% e recuperação de 97%. A maior parte dos erros observados pode ser atribuída a troca de ordem e supressão de palavras. O efeito destas trocas e supressões é mais grave para idiomas com palavras longas, como o Alemão. O pré-processamento é benéfico em alguns casos, mas prejudicial em outros.

Conclusão Os resultados são satisfatórios para uma abordagem inicial.
Características dos idiomas fazem o resultado variar significativamente de um país para outro. A troca de ordem e a supressão de palavras precisam ser abordadas cuidadosamente.

INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita.

Apresentações semelhantes

Apresentação em tema: "INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita.

Apresentações semelhantes

Apresentação em tema: "INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback