Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouDiogo Vasques Alterado mais de 10 anos atrás
1
CRC 98 - 9 e 10 de Novembro de 1998 Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de InformáticaDep. de Eng. Informática Escola Sup. Tecnologia de ViseuUniversidade de Coimbra E-mail: jcampos@di.estv.ipv.ptE-mail: edmundo@dei.uc.pt
2
CRC 98 - 9 e 10 de Novembro de 1998 Sumário Abordagem tradicional Abordagem baseada em agentes Arquitectura do sistema Concepção do sistema Implementação Experiências Resultados Conclusões e trabalho futuro
3
CRC 98 - 9 e 10 de Novembro de 1998 Abordagem tradicional Spam: e-mail não solicitado e fraudulento Programas anti-spam: baseado em regras Regras: verificação do subject, from, etc. Os programas anti-spam: são eficazes, mas... requerem demasiado empenho do utilizador
4
CRC 98 - 9 e 10 de Novembro de 1998 Abordagem baseada em agentes O que é um agente? Entidade autónoma Entidade semi-inteligente O agente: analisa mensagens e extrai padrões classifica mensagens e elimina as indesejadas Vantagem: Não requer configuração (regras)
5
CRC 98 - 9 e 10 de Novembro de 1998 Arquitectura do sistema SMTP POP3 Mailbox 1 Agente Anti-Spam Perfil 1 Cliente email Mailbox N... Perfil N servidor remoto máquina local
6
CRC 98 - 9 e 10 de Novembro de 1998 Representação do conhecimento Mensagens e perfil mapeados em vectores proximidade entre mensagem e perfil perfil mensagem
7
CRC 98 - 9 e 10 de Novembro de 1998 Mensagens/Perfil Vectores TEXTO TERMOS VECTORES VECTOR PERFIL EXTRACÇÃO DE PALAVRAS RELEVANTES ATRIBUIÇÃO DE PESOS HEADERS
8
CRC 98 - 9 e 10 de Novembro de 1998 Cálculo dos pesos Pressuposto: os termos mais frequentes são os mais relevantes em quet é um termo D é o documento em análise
9
CRC 98 - 9 e 10 de Novembro de 1998 Filtragem de mensagens Cálculo da semelhança entre mensagem e perfil A semelhança entre vectores é dada pelo produto escalar Os vectores devem estar normalizados
10
CRC 98 - 9 e 10 de Novembro de 1998 Selecção das mensagens spam Pela definição de produto escalar = arcos ( S(mensagem, perfil) ) Mensagens boas: deve tender para 90º Mensagens spam: deve tender para 0º Selecção: utilização de threshold (do-it)
11
CRC 98 - 9 e 10 de Novembro de 1998 Aprendizagem Perfil inicial vazio Perfil é enriquecido ao longo do tempo em que P é o perfil M é a mensagens f é o feedback (positivo ou negativo) é a sensibilidade da aprendizagem
12
CRC 98 - 9 e 10 de Novembro de 1998 Implementação Agente desenvolvido em PERL Campos considerados: texto com peso 25% subject com peso 75% Threshold do-it colocado a 20% ( =72º)
13
CRC 98 - 9 e 10 de Novembro de 1998 Experiências Mensagens em quatro categorias
14
CRC 98 - 9 e 10 de Novembro de 1998 Treino do agente Treino: 29 mensagens indesejadas O agente errou nas 2 primeiras mensagens da GeoCities nunca classificou mal uma mensagem pessoal
15
CRC 98 - 9 e 10 de Novembro de 1998 Resultados O agente gerou um perfil com 2226 termos Top 20:
16
CRC 98 - 9 e 10 de Novembro de 1998 Resultados Classificação das mensagens boas
17
CRC 98 - 9 e 10 de Novembro de 1998 Resultados Classificação das mensagens indesejadas
18
CRC 98 - 9 e 10 de Novembro de 1998 Conclusões e trabalho futuro Conclusões: O threshold do-it mostrou ser adequado O mecanismo de aprendizagem, apesar de simples, atingiu os objectivos O cálculo dos pesos demonstrou ser adequado Trabalho futuro: Testar outras alternativas ao cálculo dos pesos Aumentar o número de experiências Testar vários perfis diferentes
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.