Detectando Usuários Maliciosos em Interações via Vídeos no YouTube

Slides:



Advertisements
Apresentações semelhantes
SISTEMAS DE SUPORTE À DECISÃO
Advertisements

Processamento de Imagens Biométricas
Agenda Introdução Justificativa Objetivo Detecção de Spam
Aprendizado de Máquina
Elaboração de Instrumentos Objetivos Critérios
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Adélia Barros Testes de Software Adélia Barros
O ambiente organizacional
Aplicações Estatísticas na Área de Inteligência de Mercado
PROJETO: PARCERIA FEDERASUL E PUCRS
Modelagem de Software Orientado a Objetos
CARACTERIZAÇÃO E IMPLEMENTAÇÃO DE MECANISMOS DE RESILIÊNCIA A ATAQUES Alex Borges Outubro de
Tutor: Profº Carlos Roberto das Virgens
Copyright © 2008, Intel Corporation. Todos os direitos reservados. Intel, logotipo da Intel, Iniciativa Intel Educação e o Programa Intel Educar são marcas.
Avaliação de Brindes Agosto /2001.
7º Encontro de Coordenação do PNAFM Comunidade Temática Geoprocessamento 7 a 11 de Maio de 2007 São Luís / Maranhão CONCLUSÕES.
11. Gerenciamento de riscos do projeto
Segmentação de mercado
INTRODUÇÃO A INFORMÁTICA
“ TODA A ESCOLA PODE FAZER A DIFERENÇA”
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Mineração de Dados Introdução.
Sistemas Operacionais Planejamento de Experimento
Avaliação de Desempenho Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Marcos José
Avaliação de Desempenho
Sistemas Distribuídos Walfredo Cirne & Fubica Brasileiro Aula 5: Modelos de Sistemas Distribuídos.
Questões Resolvidas - A.C.-10/08/05
1 - Lafayette B. Melo – Análise e Projeto de Sistemas para a Internet – Noções de Engenharia de Software COINFO – CEFET-PB Noções de Engenharia de Software.
Aplicação de Programas de Qualidade em Serviços de Informação
Alex Sandro Souza de Oliveira BOA TARDE 10/04/2010.
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Pontifícia Universidade Católica de Minas Gerais – PUC Minas Departamento de Administração Campus: Coração Eucarístico Tópicos Especiais I - Estratégias.
QUEM SOMOS. QUEM SOMOS VISÃO 360 GRAUS Integração e unificação da comunicação. Website Hotsite Redes Sociais Mobile FOCO NOS RESULTADOS.
INF 1771 – Inteligência Artificial
Planejamento de marketing de [nome do produto]
Pesquisa de mercado e comportamento
Apresentação executiva.
Sistemas Operacionais Aula 4
Portal Corporativo: Conceitos e Características
Os Temas da Microeconomia
Universidade São Marcos Curso: Gestão de Negócios Internacionais
PMBOK 5ª Edição Capítulo 11
IEEE Std IEEE Melhores Práticas para Especificações de Requisitos de Software (ERS)
PLANO INTEGRADO DE AÇÕES ESTRATÉGICAS de eliminação da hanseníase, filariose e oncocercose como problema de saúde pública, tracoma como causa de cegueira.
Alexandre Boteguim Diogo Olivares Túllio Iazetta.
Mesa dos Presidentes Gestão do Conhecimento. O conhecimento é uma organização sobre fatos e ideias, que podem ser tácitos (aprendizados no dia-a-dia)
Redes de Transporte Aéreo João Victor Wanderley Ramos Rafael Barbosa Gonçalves {jvwr, cin.ufpe.br Tópicos Avançados em Inteligência Artificial.
O Mapa da Mina. •Ter uma comunicação digital •Popularizar o evento •Incentivar o empreendedorismo •Valorizar o município e mão de obra da região • Atingir.
SAD - 2. Processo Decisório - Etapas
INF 1771 – Inteligência Artificial
Redes Bayesianas - Aplicação em Risco Operacional
TI em Foco Grupo: Tiago Albuquerque, Werbert Sena.
Universidade Federal de Pernambuco Centro de Informática Aluno: Erica Sousa – Orientador: Paulo Maciel – Modelagem de.
Avaliação integrada e Somativa em TD&E
1) A série ISO 9000 é um conjunto de normas:
UniCNPL UniCNPL Universidade Corporativa da Confederação Nacional das Profissões Liberais.
Avaliação de Desempenho Simulação
Marketing Essencial 2a. Edição
Tutor Inteligente  Problemas:  Conteúdos para o aprendiz estudar sozinho.  Aprendizes com dificuldades de estudarem e aprenderem sozinhos.  Abandono.
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
METODOLOGIA, MÉTODOS E FERRAMENTAS
Sub-rede 4 Manejo integrado dos recursos pesqueiros na várzea amazônica. Estudo comparativo de duas regiões: Médio Amazonas e Purus. Temas Transversais.
On Topology Construction in Layered P2P Live Streaming Networks Construção de topologia em redes P2P baseadas em camadas para streaming ao vivo Runzhi.
Mecanismo de sugestão e processo de caracterização de redes sociais
Águas de São Pedro 1º Cidade 100% Digital e Inteligente
FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Profª. Vanilde Manfredi
Abordagem Sistemática Guilherme Amaral Avelino Avaliação e Controle de Sistemas de Informação.
Facebook, Twitter, Instagram e Youtube Certamente, você já ouviu falar de alguma destas redes sociais e, por algum motivo, faz parte de pelo menos uma.
Questionário (Básico) Autor: Skyup Informática. Atividade - Questionário O módulo permite criar uma série de questões, que deverão ser respondida pelos.
Internet - Intranet - Extranet Internet Rede pública mundial Padrões e protocolos multiplataforma Intranet Rede privada, corporativa Mesmos protocolos.
Transcrição da apresentação:

Detectando Usuários Maliciosos em Interações via Vídeos no YouTube Fabrício Benevenuto, Tiago Rodrigues, Virgílio Almeida, Jussara Almeida, Marcos Gonçalves Universidade Federal de Minas Gerais - XIV Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 08) 26-29/Outubro/2008 - Vila Velha - ES - Brasil

Motivações Vídeo é uma nova tendência de acordo com a ComScore, em maio de 2008, os americanos assistiram 12 bilhões de vídeos on-line 74 % da audiência total da Internet nos EUA assistiram a vídeos on-line parte do sucesso dos vídeos na Web é devido à mudança do papel do usuário que passou a criar e disponibilizar conteúdo Vários novos serviços na Web 2.0 oferecem funções baseadas em vídeos revisões e opiniões de produtos, debates políticos, vídeo conferência, web TV, vídeo blog, propagandas, vídeos respostas abre oportunidades para diferentes tipos de ações oportunistas e maliciosas dos usuários

Definições Vídeo Resposta Maior rede social de compartilhamento de vídeos do mundo Vídeo Resposta permite uma interação entre os usuários através de vídeos um vídeo só pode ser resposta para um único outro vídeo em determinado momento

Definições Vídeo Poluído Usuários Poluidores vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido Usuários Poluidores são aqueles que agem maliciosamente na tentativa de divulgar conteúdo Promotor de vídeos promover o tópico: em geral vários vídeos respostas postados automaticamente Spammer promover o vídeo resposta: propagandas, pornografia, etc

Exemplos de Spammers Pornografia Propaganda Poluição

Exemplos de Promotores Promoção

Organização do Trabalho Criação de uma coleção de testes com spammers, promotores de vídeos e usuários legítimos desafio: subjetividade para definição de vídeo poluído Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimos foco na detecção do usuário poluidor e não do vídeo poluído Propomos um mecanismo de detecção de usuários poluidores baseado nos atributos identificados Simulação para verificar viabilidade e efetividade de uma possível aplicação do mecanismo num sistema real

Coleta dos Dados Objetivo: coletar usuários que participam de interações através de vídeos respostas Abordagem: coletar um componente fracamente conectado inteiro segue as duas direções: vídeos respostas e vídeos respondidos essencial para o cálculo de diversas métricas de redes sociais

Arquitetura do Coletor Clientes coletam dados do YouTube Servidor coordena clientes para evitar coletas redundantes Sementes: 100 usuários donos dos vídeos mais respondidos do YouTube Foram coletadas informações de 701.950 vídeos respostas e 381.616 vídeos respondidos, exaustando um componente inteiro de 264.460 usuários em 7 dias (de 11 a 18 de janeiro de 2008)

Coleção de Testes Total: 855 usuários 641 legítimos 157 spammers Usuários com diferentes níveis de atividades 400 usuários selecionados aleatoriamente das 4 regiões do gráfico ao lado Busca manual por poluidores busca por suspeitos na lista dos vídeos mais respondidos do YouTube 155 usuários suspeitos encontrados 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos Reduzir algum possível viés introduzido pela estratégia 2 Total: 855 usuários 641 legítimos 157 spammers 31 promotores de vídeos 26 suspensos

Características dos Usuários Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados Legítimos representam um meio termo Vídeos exibidos, em média, mais de 100 vezes: 97% dos usuários legítimos 90% dos spammers 4% dos promotores de vídeos

Características dos Usuários Possuem mais que 10 amigos: 75% dos usuários legítimos 49% dos spammers 7% dos promotores de vídeos Usuários legítimos possuem um UserRank mais alto do que spammers que, por sua vez, possuem UserRank mais alto do que promotores de vídeos

Detecção de Poluidores Mecanismo de detecção de poluidores Abordagem de aprendizagem de máquina (inteligência artificial) para classificação dos usuários Algoritmo utilizado: SVM (Support Vector Machine) Algoritmo de classificação bastante conhecido por seu desempenho competitivo com o estado da arte Atributos (60 no total) Usuários número de vídeos, amigos, vídeos assistidos, vídeos adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia Vídeos média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas e todos os vídeos alvos duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos Redes Sociais coeficiente de agrupamento, UserRank, betweeness, reciprocidade e assortatividade

Detecção de Poluidores libSVM, que permite buscar pelos melhores parâmetros Validação cruzada 5-fold Com 95% de confiança, nenhum resultado difere da média em mais de 6% TESTE TREINO

Simulação Demonstrar a aplicabilidade do mecanismo de detecção proposto e prover respostas iniciais para as seguintes questões: Quantos spammers e quantos promotores de vídeos podem afetar o sistema? Qual o impacto de se remover automaticamente a poluição (vídeos poluídos) detectados pelo nosso mecanismo de classificação? Entidades: usuários, vídeos respostas, vídeos respondidos, e uma relação de postagem (ação de enviar um vídeo resposta a um vídeo respondido) Spammers e legítimos escolhem vídeo respondido para cada postagem, promotores postam todos os vídeos respostas a um único alvo Parâmetros e distribuição de dados baseadas na coleção de testes Métrica: nível de poluição (PL) Captura não só a porcentagem de vídeos poluídos em cada classe, mas considera também o ranking em termos do número de vídeos respostas recebidos pelo vídeo respondido

Simulação Todos os resultados são uma média de 30 execuções Pequena porcentagem de spammers não afeta muito o sistema Poluição continua alta após remoção para grandes frações de spammers PL causado por promotores é alto mesmo para pequenas proporções Pequena fração não detectada (3,23%) é suficiente para poluir o sistema

Conclusão Abordamos o problema de detecção de usuários poluidores num sistema de compartilhamento de vídeos Criação da coleção de testes Caracterização de aspectos que podem ser úteis para diferenciar usuários poluidores Simulação para avaliar diferentes cenários e efetividade de uma possível aplicação do mecanismo de detecção proposto Nosso mecanismo de detecção é capaz de identificar corretamente 97% dos promotores de vídeos e 54% dos spammers, errando apenas 5,4% dos usuários legítimos

Perguntas??? tiagorm@dcc.ufmg.br fabricio@dcc.ufmg.br virgilio@dcc.ufmg.br jussara@dcc.ufmg.br mgoncalv@dcc.ufmg.br