A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita.

Apresentações semelhantes


Apresentação em tema: "INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita."— Transcrição da apresentação:

1 INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita Federal Análise de Risco e Inteligência Artificial (HARPIA) Bruno Paleo                   Cinara Ghedini              Joubert de Castro Lima Jorge Jambeiro Filho          Antonella Lanna            Carlos H. C. Ribeiro

2 Ambigüidades e redundâncias em cadastros governamentais
Pessoas físicas e jurídicas nacionais são identificadas frente a órgãos do governo através de identificadores distintos: SRF → CPF e CNPJ INSS → PIS Justiça eleitoral → Número do título de eleitor SSPs → Número da carteira de identidade A necessidade de integração entre estes órgãos vem crescendo.

3 Identificação de intervenientes estrangeiros
Não existe identificador único global A identificação precisa ser feita a partir de atributos como: Nome Endereço Produtos usuais Etc.

4 Necessidade de identificação dos intervenientes estrangeiros
A correta identificação de um interveniente estrangeiro é necessária para que: seu comportamento possa ser caracterizado. suas relações com outros intervenientes nacionais ou estrangeiros possam ser mapeadas. Atividades inidôneas que sejam ou não da responsabilidade do interveniente estrangeiro podem ser reveladas.

5 Identificação de intervenientes estrangeiros
A identificação precisa ser feita a partir de atributos como: Nome Endereço Produtos usuais Etc. Estes atributos envolvem cadeias de caracteres sujeitas a: Diferentes responsáveis pela entrada dos dados Diferentes línguas Erros tipográficos Abreviaturas Traduções Trocas de ordem e omissão de palavras

6 Distância entre cadeias de caracteres
Pré-processamento Unificação de abreviações comuns, como Ltda., Ltd, etc., para cada língua. Distância de edição de Levenshtein Número mínimo de operações de inserção, remoção e substituição de caracteres requerido para transformar uma cadeia em outra. Generalizações Normalização pelo tamanho das cadeias. Pesos diferenciados para as operações. Trocas de ordem

7 Testes Separamos os testes de acordo com o país de origem dos intervenientes estrangeiros. O NOME de cada interveniente aparece várias vezes no banco de dados. Ele foi registrado por pessoas físicas e jurídicas potencialmente distintas. Para todos os pares de nomes possíveis, o sistema calcula a distância de edição normalizada entre os nomes dos intervenientes. Variamos o ponto de corte na distância para considerar dois nomes equivalente. Selecionamos os melhores pontos de corte para cada país separadamente.

8 Curvas de precisão X recuperação
Sem pré-processamento Com pré-processamento

9 Resultados Para todos os países testados conseguimos pontos de corte para os quais a precisão é maior que 90% e a recuperação é maior que 80%. Para alguns países conseguimos uma precisão de 96% e recuperação de 97%. A maior parte dos erros observados pode ser atribuída a troca de ordem e supressão de palavras. O efeito destas trocas e supressões é mais grave para idiomas com palavras longas, como o Alemão. O pré-processamento é benéfico em alguns casos, mas prejudicial em outros.

10 Conclusão Os resultados são satisfatórios para uma abordagem inicial.
Características dos idiomas fazem o resultado variar significativamente de um país para outro. A troca de ordem e a supressão de palavras precisam ser abordadas cuidadosamente.


Carregar ppt "INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita."

Apresentações semelhantes


Anúncios Google