Agenda Introdução Justificativa Objetivo Detecção de Spam

Slides:



Advertisements
Apresentações semelhantes
Desafios em Implementar um Sistema Sensível ao Contexto (Challenges in Implementing a Context-Aware System) Autor: M. Satyanarayanan Alunos: Márcio de.
Advertisements

INTELIGÊNGIA COMPUTACIONAL
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Redes Neurais Artificiais (RNA): Aprendizado
Aprendizado por Reforço: Uma Aplicação do Aprendizado Q
As organizações vistas como cérebros
Araken de Medeiros Santos Anne Magály de Paula Canuto
Inteligência Artificial Alex F. V. Machado. Tecnologia de Processamento da Informação que envolve processos de raciocínio, aprendizado e percepção. Winston.
Aprendizado de Máquina
Mecanismo de Proteção (Prevenção e Detecção)
Redes Neurais Artificiais
MODELO DE REFERÊNCIA OSI
Modelagem e simulação de sistemas
Jacques Robin, Francisco Carvalho, Flávia Barros
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Avaliação de Sistemas Operacionais
Inteligência Artificial
FACENS – Engenharia da Computação Inteligência Artificial
FACENS – Engenharia da Computação Inteligência Artificial
Inteligência Artificial
Polliana Corrêa Morais (bolsista); Leandro Osmar Werle (colaborador/
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Sistema de Antispam, Antivirus, e Filtro de Conteúdo.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizado de Máquina
Sistemas de Detecção de Intrusão
Redes Neurais Prof. Alex F. V. Machado.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizagem de Máquina
Modelos de Maturidade de Processos de Software
Tópicos especiais em controle inteligente e distribuído Professor: Jorge Dantas de Melo Rafael Marrocos Magalhães.
DSC/CCT/UFCG Projeto de Redes Neurais Apresentação Parcial do Projeto Universidade Federal de Campina Grande Unidade Acadêmica de Sistemas e Computação.
Marcílio C. P. de Souto DIMAp/UFRN
Redes Neuronais/Neurais/ Conexionistas Introdução
1.4 – Sistemas de Detecção de Intrusão Conceitos; Arquitetura; Técnicas; Classificações;
Redes Neurais Artificiais
Extração de Regras de RNA Wilian Soares Lacerda Fevereiro de 2003.
SVMSharp – Uma implementação didática de uma SVM
Sistemas Baseados em Aprendizado (Aprendizado de Máquina)
RNA – Radial Basis Function
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
(OU) Hardware da Rede Implementacao da rede
Redes Neurais Artificiais. Introdução RNA são modelos matemáticos que se assemelham às estruturas neurais biológicas Capacidade computacional adquirida.
José Reinaldo Lemes Júnior Orientador: Prof. Wilian Soares Lacerda.
MATA59 - Redes de Computadores I
Prof. Anne Magály de Paula Canuto
Universidade Federal de Lavras Departamento de Ciência da Computação
Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Redes Neurais Treinamento de MLP. Treinamento Divisão das entradas Parâmetros de treinamento –350 iterações –Nº de nós da camada interna (26, 46, 92)
Sistemas Especialistas Probabilísticos -SEP Sílvia Modesto Nassar Departamento de Informática e de Estatística - INE Centro Tecnológico.
Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.
Luana Bezerra Batista Redes Neurais Luana Bezerra Batista
Classificação de Textos
Introdução à Inteligência Artificial Prof. Cláudio M. N. A. Pereira.
Inteligência Artificial
Redes Neurais Artificiais Prof. Júlio Cesar Nievola PPGIA – PUCPR Especialização em Inteligência Computacional.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
TÉCNICAS DE ESTIMATIVAS
IDS (Intrusion Detection System) Sistemas de Detecção de Intrusão
Objetivo Este projeto destina-se ao estudo e à elaboração de modelos neurais artificiais, com o auxílio do programa Matlab. O objetivo principal deste.
Transcrição da apresentação:

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Agenda Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão

Introdução O spam pode ser definido como o envio abusivo e não solicitado de mensagens de correio eletrônico causa um grande desperdício de recursos Custo: consome tempo de processamento e espaço de armazenamento Fraude: facilita o uso de fraude Destituição do e-mail normal

Justificativa Quando o spam é recebido em pequenas quantidades, pode causar aborrecimento aos destinatários Para o recebimento de grandes quantidades de e-mail, o spam consome tempo e dificulta a descoberta de mensagens legítimas. Freqüentemente possui conteúdo de linguagem pornográfica,que ofende a muitos destinatários.

Justificativa Uma solução é a utilização de filtro de spam Automáticos Semi-automáticos Amplamente utilizados por ISP´s(provedores) O problema em utilizar esses filtros é que não se consegue obter 100% de precisão na taxa de detecção de spam Com isso vários métodos têm sido propostos para a implementação de filtros de spam

Justificativa O maior interesse tem sido no uso de técnicas de aprendizado de máquina. Naive Bayes Árvores de Decisão Redes Neurais Sistemas Nebulosos (Fuzzy) Support Vector Machine – SVM Sistemas Imunológicos Artificiais

Justificativa Como conceito básico e comum a estes métodos é que os classificadores utilizam treinamento supervisionado de dados, realizado manualmente, que resulta em um melhor desempenho. Precisava-se comparar técnicas para definir qual tem o melhor desempenho

Objetivo O objetivo do trabalho estudado foi realizar uma análise comparativa do desempenho de diversas técnicas de Aprendizado de Máquina para uso em filtros de detecção de spam baseados em conteúdo As técnicas escolhidas foram: Neuro-Fuzzy, Redes Neurais utilizando Perceptron e MLP.

Detecção de Spam - Fatores Fatores que contribuem para envio de spam Facilidade no envio de e-mail: alguns programas permitem enviar centenas de mensagens de e-mail e adquirir, milhares de contas válidas Endereços são de fácil obtenção: A maior parte das técnicas para filtragem de e-mail indesejado envolve filtros de mensagens baseadas no endereço do remetente

Detecção de Spam - Técnicas Utilização de Filtros: As soluções automáticas removem o e-mail suspeito, enquanto que soluções semi-automáticas deixam que o usuário detecte Medidas de contra ataque: Usuários podem responder às mensagens de spam para bombardear Treinamento de Usuários: Uma das soluções existentes está relacionada ao gerenciamento de spam e treinamento de usuários sobre as opções existentes

Detecção de Spam - Filtros Definidos pelos usuários: permitem a criação de regras pelos usuários Cabeçalhos: analisam os cabeçalhos para detectar se são falsificados ou não Conteúdo: tipo de filtro mais comum, verificam a ocorrência de palavras no corpo do e-mail. E o problema do image spam?

Técnicas de Inteligência Redes Neurais As Redes Neurais além fornecem um caminho mais fácil para modelar relações complexas, também oferecem adaptabilidade e habilidade de aprendizagem implícita. O fato das Redes Neurais funcionarem bem para Classificação de Textos implica em confiança para a aplicação em filtros de spam.

Técnicas de Inteligência Redes Neurais A propriedade mais importante das redes neurais é a habilidade de aprender de seu ambiente e com isso melhorar seu desempenho. Isso é feito através de um processo iterativo de ajustes aplicado a seus pesos: o treinamento. Aprendizado supervisionado, não supervisionado e híbrido

Técnicas de Inteligência Neuro-Fuzzy Fuzzy: (sistema de lógica nebulosa) é uma generalização da teoria dos conjuntos clássica e visa implementar uma forma de pensamento humano na máquina. Porém tem o problema da adaptabilidade. Já as Redes Neurais são eficientes para a detecção de padrões, entretanto não são boas para explicar como estes padrões são alcançados. A limitação destas técnicas impulsionou a criação de sistemas neuro-fuzzy

Resultados Foram realizadas comparações com diferentes algoritmos: Neuro-Fuzzy com taxa ótima de aprendizado Redes Neurais utilizando Perceptron Redes Neurais utilizando MLP. A ferramenta utilizada nesta comparação entre esses algoritmos foi o Matlab.

Resultados Foi utilizado como base de dados um repositório de aprendizado de maquina da Universidade da Califórnia Irvine Utilizou-se a mesma quantidade de padrões de treinamento (3500 padrões, 76%) e de validação (1101 padrões, 24% do total). Foram processados utilizando a base de dados completa e Com a mesma configuração, após a seleção dos atributos de maior relevância

Resultados Os resultados foram analisados de acordo com: os valores das taxas de acertos; falsos positivos; e falsos negativos.

Resultados Neuro-Fuzzy O treinamento Neuro-Fuzzy após a aplicação dos coeficientes da correlação, os algoritmos foram processados novamente pela variação do número de funções de pertinência.

Neuro-Fuzzy (Sem correlação)

Neuro-Fuzzy (com correlação)

Neuro-Fuzzy (com X sem correlação)

Resultados Perceptron Simples Para esta técnica foram feitos dois experimentos Também se considerou a base completa e a base reduzida de acordo com a análise de correlação Observou-se a diminuição do tempo de treinamento em função da diminuição do número de neurônios de entrada da rede

Perceptron Simples(sem correlação)

Perceptron Simples(com correlação)

Perceptron (com X sem correlação)

Resultados MPL A observação dos resultados obtidos pelo treinamento da rede MLP, mostra que a aplicação dos coeficientes de correlação acarretou em um aumento dos valores dos falsos positivos de uma média de 3,96% para uma média de 4,29%.

MPL (sem correlação)

MPL (com correlação)

MPL (com X sem correlação)

Análise Comparativa

Conclusão Dificuldade com a implementação dos algoritmos propostos Descoberta do comportamento destes algoritmos Várias execuções dos algoritmos, para diferentes definições dos parâmetros Foram executados no mínimo seis vezes O trabalho foi facilitado pelas implementações de redes neurais do Matlab

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam ?