A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CRC 98 - 9 e 10 de Novembro de 1998 Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de InformáticaDep. de Eng.

Apresentações semelhantes


Apresentação em tema: "CRC 98 - 9 e 10 de Novembro de 1998 Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de InformáticaDep. de Eng."— Transcrição da apresentação:

1 CRC e 10 de Novembro de 1998 Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de InformáticaDep. de Eng. Informática Escola Sup. Tecnologia de ViseuUniversidade de Coimbra

2 CRC e 10 de Novembro de 1998 Sumário Abordagem tradicional Abordagem baseada em agentes Arquitectura do sistema Concepção do sistema Implementação Experiências Resultados Conclusões e trabalho futuro

3 CRC e 10 de Novembro de 1998 Abordagem tradicional Spam: não solicitado e fraudulento Programas anti-spam: baseado em regras Regras: verificação do subject, from, etc. Os programas anti-spam: são eficazes, mas... requerem demasiado empenho do utilizador

4 CRC e 10 de Novembro de 1998 Abordagem baseada em agentes O que é um agente? Entidade autónoma Entidade semi-inteligente O agente: analisa mensagens e extrai padrões classifica mensagens e elimina as indesejadas Vantagem: Não requer configuração (regras)

5 CRC e 10 de Novembro de 1998 Arquitectura do sistema SMTP POP3 Mailbox 1 Agente Anti-Spam Perfil 1 Cliente Mailbox N... Perfil N servidor remoto máquina local

6 CRC e 10 de Novembro de 1998 Representação do conhecimento Mensagens e perfil mapeados em vectores proximidade entre mensagem e perfil perfil mensagem

7 CRC e 10 de Novembro de 1998 Mensagens/Perfil Vectores TEXTO TERMOS VECTORES VECTOR PERFIL EXTRACÇÃO DE PALAVRAS RELEVANTES ATRIBUIÇÃO DE PESOS HEADERS

8 CRC e 10 de Novembro de 1998 Cálculo dos pesos Pressuposto: os termos mais frequentes são os mais relevantes em quet é um termo D é o documento em análise

9 CRC e 10 de Novembro de 1998 Filtragem de mensagens Cálculo da semelhança entre mensagem e perfil A semelhança entre vectores é dada pelo produto escalar Os vectores devem estar normalizados

10 CRC e 10 de Novembro de 1998 Selecção das mensagens spam Pela definição de produto escalar = arcos ( S(mensagem, perfil) ) Mensagens boas: deve tender para 90º Mensagens spam: deve tender para 0º Selecção: utilização de threshold (do-it)

11 CRC e 10 de Novembro de 1998 Aprendizagem Perfil inicial vazio Perfil é enriquecido ao longo do tempo em que P é o perfil M é a mensagens f é o feedback (positivo ou negativo) é a sensibilidade da aprendizagem

12 CRC e 10 de Novembro de 1998 Implementação Agente desenvolvido em PERL Campos considerados: texto com peso 25% subject com peso 75% Threshold do-it colocado a 20% ( =72º)

13 CRC e 10 de Novembro de 1998 Experiências Mensagens em quatro categorias

14 CRC e 10 de Novembro de 1998 Treino do agente Treino: 29 mensagens indesejadas O agente errou nas 2 primeiras mensagens da GeoCities nunca classificou mal uma mensagem pessoal

15 CRC e 10 de Novembro de 1998 Resultados O agente gerou um perfil com 2226 termos Top 20:

16 CRC e 10 de Novembro de 1998 Resultados Classificação das mensagens boas

17 CRC e 10 de Novembro de 1998 Resultados Classificação das mensagens indesejadas

18 CRC e 10 de Novembro de 1998 Conclusões e trabalho futuro Conclusões: O threshold do-it mostrou ser adequado O mecanismo de aprendizagem, apesar de simples, atingiu os objectivos O cálculo dos pesos demonstrou ser adequado Trabalho futuro: Testar outras alternativas ao cálculo dos pesos Aumentar o número de experiências Testar vários perfis diferentes


Carregar ppt "CRC 98 - 9 e 10 de Novembro de 1998 Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de InformáticaDep. de Eng."

Apresentações semelhantes


Anúncios Google