Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouIsabela D’Souza Alterado mais de 10 anos atrás
1
INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita Federal Análise de Risco e Inteligência Artificial (HARPIA) Bruno Paleo Cinara Ghedini Joubert de Castro Lima Jorge Jambeiro Filho Antonella Lanna Carlos H. C. Ribeiro
2
Ambigüidades e redundâncias em cadastros governamentais
Pessoas físicas e jurídicas nacionais são identificadas frente a órgãos do governo através de identificadores distintos: SRF → CPF e CNPJ INSS → PIS Justiça eleitoral → Número do título de eleitor SSPs → Número da carteira de identidade A necessidade de integração entre estes órgãos vem crescendo.
3
Identificação de intervenientes estrangeiros
Não existe identificador único global A identificação precisa ser feita a partir de atributos como: Nome Endereço Produtos usuais Etc.
4
Necessidade de identificação dos intervenientes estrangeiros
A correta identificação de um interveniente estrangeiro é necessária para que: seu comportamento possa ser caracterizado. suas relações com outros intervenientes nacionais ou estrangeiros possam ser mapeadas. Atividades inidôneas que sejam ou não da responsabilidade do interveniente estrangeiro podem ser reveladas.
5
Identificação de intervenientes estrangeiros
A identificação precisa ser feita a partir de atributos como: Nome Endereço Produtos usuais Etc. Estes atributos envolvem cadeias de caracteres sujeitas a: Diferentes responsáveis pela entrada dos dados Diferentes línguas Erros tipográficos Abreviaturas Traduções Trocas de ordem e omissão de palavras
6
Distância entre cadeias de caracteres
Pré-processamento Unificação de abreviações comuns, como Ltda., Ltd, etc., para cada língua. Distância de edição de Levenshtein Número mínimo de operações de inserção, remoção e substituição de caracteres requerido para transformar uma cadeia em outra. Generalizações Normalização pelo tamanho das cadeias. Pesos diferenciados para as operações. Trocas de ordem
7
Testes Separamos os testes de acordo com o país de origem dos intervenientes estrangeiros. O NOME de cada interveniente aparece várias vezes no banco de dados. Ele foi registrado por pessoas físicas e jurídicas potencialmente distintas. Para todos os pares de nomes possíveis, o sistema calcula a distância de edição normalizada entre os nomes dos intervenientes. Variamos o ponto de corte na distância para considerar dois nomes equivalente. Selecionamos os melhores pontos de corte para cada país separadamente.
8
Curvas de precisão X recuperação
Sem pré-processamento Com pré-processamento
9
Resultados Para todos os países testados conseguimos pontos de corte para os quais a precisão é maior que 90% e a recuperação é maior que 80%. Para alguns países conseguimos uma precisão de 96% e recuperação de 97%. A maior parte dos erros observados pode ser atribuída a troca de ordem e supressão de palavras. O efeito destas trocas e supressões é mais grave para idiomas com palavras longas, como o Alemão. O pré-processamento é benéfico em alguns casos, mas prejudicial em outros.
10
Conclusão Os resultados são satisfatórios para uma abordagem inicial.
Características dos idiomas fazem o resultado variar significativamente de um país para outro. A troca de ordem e a supressão de palavras precisam ser abordadas cuidadosamente.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.