A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita.

Apresentações semelhantes


Apresentação em tema: "INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita."— Transcrição da apresentação:

1 INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita Federal Análise de Risco e Inteligência Artificial (HARPIA) Bruno Paleo Cinara Ghedini Joubert de Castro Lima Jorge Jambeiro Filho Antonella Lanna Carlos H. C. Ribeiro

2 Ambigüidades e redundâncias em cadastros governamentais Pessoas físicas e jurídicas nacionais são identificadas frente a órgãos do governo através de identificadores distintos: Pessoas físicas e jurídicas nacionais são identificadas frente a órgãos do governo através de identificadores distintos: –SRF CPF e CNPJ –INSS PIS –Justiça eleitoral Número do título de eleitor –SSPs Número da carteira de identidade A necessidade de integração entre estes órgãos vem crescendo. A necessidade de integração entre estes órgãos vem crescendo.

3 Identificação de intervenientes estrangeiros Não existe identificador único global Não existe identificador único global A identificação precisa ser feita a partir de atributos como: A identificação precisa ser feita a partir de atributos como: –Nome –Endereço –Produtos usuais –Etc.

4 Necessidade de identificação dos intervenientes estrangeiros A correta identificação de um interveniente estrangeiro é necessária para que: A correta identificação de um interveniente estrangeiro é necessária para que: –seu comportamento possa ser caracterizado. –suas relações com outros intervenientes nacionais ou estrangeiros possam ser mapeadas. Atividades inidôneas que sejam ou não da responsabilidade do interveniente estrangeiro podem ser reveladas. Atividades inidôneas que sejam ou não da responsabilidade do interveniente estrangeiro podem ser reveladas.

5 Identificação de intervenientes estrangeiros A identificação precisa ser feita a partir de atributos como: A identificação precisa ser feita a partir de atributos como: –Nome –Endereço –Produtos usuais –Etc. Estes atributos envolvem cadeias de caracteres sujeitas a: Estes atributos envolvem cadeias de caracteres sujeitas a: –Diferentes responsáveis pela entrada dos dados –Diferentes línguas –Erros tipográficos –Abreviaturas –Traduções –Trocas de ordem e omissão de palavras

6 Distância entre cadeias de caracteres Pré-processamento Pré-processamento –Unificação de abreviações comuns, como Ltda., Ltd, etc., para cada língua. Distância de edição de Levenshtein Distância de edição de Levenshtein –Número mínimo de operações de inserção, remoção e substituição de caracteres requerido para transformar uma cadeia em outra. Generalizações Generalizações –Normalização pelo tamanho das cadeias. –Pesos diferenciados para as operações. –Trocas de ordem

7 Testes Separamos os testes de acordo com o país de origem dos intervenientes estrangeiros. Separamos os testes de acordo com o país de origem dos intervenientes estrangeiros. O NOME de cada interveniente aparece várias vezes no banco de dados. O NOME de cada interveniente aparece várias vezes no banco de dados. Ele foi registrado por pessoas físicas e jurídicas potencialmente distintas. Ele foi registrado por pessoas físicas e jurídicas potencialmente distintas. Para todos os pares de nomes possíveis, o sistema calcula a distância de edição normalizada entre os nomes dos intervenientes. Para todos os pares de nomes possíveis, o sistema calcula a distância de edição normalizada entre os nomes dos intervenientes. Variamos o ponto de corte na distância para considerar dois nomes equivalente. Variamos o ponto de corte na distância para considerar dois nomes equivalente. Selecionamos os melhores pontos de corte para cada país separadamente. Selecionamos os melhores pontos de corte para cada país separadamente.

8 Curvas de precisão X recuperação Sem pré-processamentoCom pré-processamento Recuperação Precisão

9 Resultados Para todos os países testados conseguimos pontos de corte para os quais a precisão é maior que 90% e a recuperação é maior que 80%. Para todos os países testados conseguimos pontos de corte para os quais a precisão é maior que 90% e a recuperação é maior que 80%. Para alguns países conseguimos uma precisão de 96% e recuperação de 97%. Para alguns países conseguimos uma precisão de 96% e recuperação de 97%. A maior parte dos erros observados pode ser atribuída a troca de ordem e supressão de palavras. A maior parte dos erros observados pode ser atribuída a troca de ordem e supressão de palavras. O efeito destas trocas e supressões é mais grave para idiomas com palavras longas, como o Alemão. O efeito destas trocas e supressões é mais grave para idiomas com palavras longas, como o Alemão. O pré-processamento é benéfico em alguns casos, mas prejudicial em outros. O pré-processamento é benéfico em alguns casos, mas prejudicial em outros.

10 Conclusão Os resultados são satisfatórios para uma abordagem inicial. Os resultados são satisfatórios para uma abordagem inicial. Características dos idiomas fazem o resultado variar significativamente de um país para outro. Características dos idiomas fazem o resultado variar significativamente de um país para outro. A troca de ordem e a supressão de palavras precisam ser abordadas cuidadosamente. A troca de ordem e a supressão de palavras precisam ser abordadas cuidadosamente.


Carregar ppt "INTELIGÊNCIA COMPUTACIONAL APLICADA AO TRATAMENTO DE AMBIGÜIDADES E REDUNDÂNCIAS NA BASE DE DADOS DE INTERVENIENTES ESTRANGEIROS Secretaria da Receita."

Apresentações semelhantes


Anúncios Google