Hui Han, Lee Giles, Hongyuan Zha, Cheng Li, Kostas Tsioutsiouliklis

Slides:



Advertisements
Apresentações semelhantes
Agenda Introdução Justificativa Objetivo Detecção de Spam
Advertisements

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Procedimentos Metodológicos Resultados e Discussões
INTRODUÇÃO À LÓGICA DIGITAL
Lógica Fuzzy Aplicada a Sistemas de Diagnóstico
Introdução a Sistemas Fuzzy no Matlab e uso do Simulink
Software Básico Silvio Fernandes
Aprendizado de Máquina
Redes Neurais Artificiais
SVM Support Vector Machines
Reconhecimento de Padrões Classificadores Lineares
Reconhecimento de Padrões Segmentação
Medida do Tempo de Execução de um Programa
Reconhecimento de Padrões Seleção de Características
Reconhecimento de Padrões Receiver Operating Characteristics (ROC)
Reconhecimento de Padrões EigenFaces
Maximização de Funções usando Simulated Annealing
Reconhecimento de Padrões Teoria da Decisão Bayesiana David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa.
Reconhecimento de Padrões Teoria da Decisão Bayesiana
Medida do Tempo de Execução de um Programa
Reconhecimento de Padrões Dissimilaridade
Problema da Mochila Inteira (Bounded Knapsack)
Reconhecimento de Padrões Aprendizagem Supervisionada (KNN)
Iana Alexandra Alves Rufino
. Capítulo 1 Introdução à Estatística Capítulo 1 Introdução à Estatística Prof. Paulo Renato de Morais ESTATÍSTICA APLICADA.
Jacques Robin, Francisco Carvalho, Flávia Barros
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Descoberta de Conhecimento:
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Conhecimento, Inovação Tecnológica, Saúde e Sustentabilidade: O que vamos fazer com as novas invenções? 26/03/2017 Modelo de Pôster para Apresentação do.
INF 1771 – Inteligência Artificial
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
Trabalho de Conclusão de Curso – TCC
Paradoxo de Monty Hall.
Nome: Rafael Baeta Orientador: Dr. David Menotti
Aprendizado de Máquina
Inteligência Artificial
Finding and Evaluating Community Structure in Networks
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Impressão vocal Alunos: Daniel de Carvalho Cayres Pinto
Apresentação Monografia I
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Momentos de Hu e Zernike para o Reconhecimento de Linguagem de Sinais
Rosana Santos OLIVEIRA1; Sandro Sampaio ALBUQUERQUE2
Portal.periodicos.CAPES ASSOCIATION FOR COMPUTING MACHINERY Portal.periodicos.CAPES ASSOCIATION FOR COMPUTING MACHINERY.
Área de Pesquisa: Redes de Computadores
Leandro Costa MIRANDA1; Ronaldo Bruno LEAL2
Numerar todos e o último é o professor n vai depender de cada grupo
Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.
Como escrever um artigo
Support Vector Machine - SVM
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
SVMSharp – Uma implementação didática de uma SVM
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Uma Introdução a SVM Support Vector Machines
SEMANA DE CIÊNCIA E TECNOLOGIA 2014 TÍTULO: Subtítulo
MSCC - Introdução Baseado no capítulo 1 do livro Performance Evalution of Computer and Communication Systems, de Jean-Yves Le Boudec (EPFL)
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Classificação Probabilística com TBL Cícero Nogueira dos Santos Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática.
Reconhecimento Facial usando SVM
Introdução à modelagem orientada a objetos
Classificação de Textos
Correferências Pronominais na 3ª Pessoa do Singular INF2915 Prof.: Ruy Milidiu Guylerme Velasco, Roberta Claudino, Thiago Ribeiro.
Projeto de Banco de Dados
Victoria J. Hodge and Jim Austin Dept. of Computer Science, University of York, A Survey of Outlier Detection Methodologies (2004). Artificial Intelligence.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Métodos Probabilísticos
Fernando NogueiraAnálise de Decisão1. Fernando NogueiraAnálise de Decisão2 Introdução A Análise de Decisão envolve o uso de processos racionais para selecionar.
Transcrição da apresentação:

Hui Han, Lee Giles, Hongyuan Zha, Cheng Li, Kostas Tsioutsiouliklis Two Supervised Learning Approaches for Name Disambiguation in Author Citations Hui Han, Lee Giles, Hongyuan Zha, Cheng Li, Kostas Tsioutsiouliklis ACM/IEEE-CS Joint Conference on Digital libraries - 184 Citações

INTRODUÇÃO Abordagem Supervisionada. Mixed Citation. “D. Pereira” may refer to “Denilson Pereira” or “David Pereira”, two different people. Split Citation . “Denilson Alves Pereira” may appear under different name abbreviations, such as “Denilson Pereira”, “D. Pereira”, or “D. A. Pereira”.

INTRODUÇÃO Conversão dos nomes para um formato canônico; Ex. Luciano Vilas Boas Espiridião: “L. Espiridião” Trabalhos similares: “Citation Mathching” e “Name Authority”; Métodos baseados em similaridade funcionam melhor com strings do que tokens; Usa apenas informação de coautoria, titulo e veículo de publicação.

ABORDAGENS Naive Bayes Model (NB) - Generative Model Utiliza apenas exemplos s positivos para treino; Modelo Probabilístico; Permite a combinação de modelos diferentes; Facilmente extensível; Support Vector Machine (SVM) - Discriminative Model Utiliza exemplos positivos e negativos para treinamento; Baseado em alguma funções de distância; Necessários ajustar pesos diferentes para diferente atributos;

EM MAIS DETALHES NB Estima a probabilidade de um dado autor ter produzido a nova citação ‘C’; Para uma nova citação o desambiguador procura na base de dados uma entrada “canônica” com probabilidade máxima de produzir o a citação; SVN Nessa abordagem cada autor é uma classe e a nova citação é classificada para a classe mais próxima conforme algum critério de distância; As “features” que compõem o espaço de características são os coautores, titulo e veículo de publicação

Problema de Monty Hall O problema de Monty Hall, também conhecido por paradoxo de Monty Hall ou problema do Silvio Santos é um problema matemático eparadoxo que surgiu a partir de um concurso televisivo dos Estados Unidos chamado Let’s Make a Deal, exibido na década de 1970. O jogo consiste no seguinte: Monty Hall (o apresentador) apresentava 3 portas aos concorrentes, sabendo que atrás de uma delas está um carro (prêmio bom) e que as outras têm prêmios de pouco valor. Na 1ª etapa o concorrente escolhe uma porta (que ainda não é aberta); De seguida Monty abre uma das outras duas portas que o concorrente não escolheu, sabendo à partida que o carro não se encontra aí; Agora com duas portas apenas para escolher — pois uma delas já se viu, na 2ª etapa, que não tinha o prêmio — e sabendo que o carro está atrás de uma delas, o concorrente tem que se decidir se permanece com a porta que escolheu no início do jogo e abre-a ou se muda para a outra porta que ainda está fechada para então a abrir.

Problema de Monty Hall

Visão geral dos Modelos NB j∈ [1, 3] and k ∈ [0,K(j)] K(j) is the total number of elements in attribute Aj

Visão geral dos Modelos SVM

Visão geral dos Modelos SVM

EXPERIMENTOS 15 “J. ANDERSON” 11 “J. SMITH”

EXPERIMENTOS DBLP

EXPERIMENTOS Para cada abordagem (NB e SVM) foram realizados 10 experimentos com os conjuntos aleatoriamente divididos para cada experimento. As abordagens utilizam atributos isolados e combinação destes. Hybrid I – Para NB igual combinação de probabilidades. Para SVM usa o mesmo espaço de característica para os atributos. Hybrid II – Apenas para o modelo NB. Coautoria apenas quando uma relação de coautoria existe entre um co-autor na citação de teste e uma entrada de nome candidata no banco de dados de citação.

Resultados e Discussões Primeira Base de testes Diferentes atributos apresentam diferentes contribuições para desambiguação NB captura melhor padrões de coautoria Hybrid II possui melhor performance média; SVM supera ligeiramente NB

Resultados e Discussões Segunda Base de testes As duas abordagens alcançam desempenho pior devido principalmente à menor qualidade dos dados desses conjuntos de dados DBLP. A abordagem de NB supera significativamente a abordagem SVM ao usar informações de coautoria sozinho e os dois regimes híbridos. Usando as informações coautoria apenas o desempenho é significativamente melhor do que usar título/veículo e palavras- chave apenas. O "Hybrid II" tem um desempenho melhor (73,3% de precisão, média) do que o "Hybrid I" (69,1% de precisão média).

Resultados e Discussões Segunda Base de testes

Resultados e Discussões Tamanho da base de Treino

CONCLUSÕES Estuda e compara 2 abordagem para o problema; Tanto NB quanto SVM apresentam vantagens; A precisão pode chegar a 90% usando um modelo Hibrido O Modelo NB pode facilmente ser extentido para incorporar mais atributos O Modelo SVM pode ser melhorado atuando sobre a função de distância e os pesos dos atributos

QUESTIONS???

Creditos Apresentação realizada na disciplina: Reconhecimento de Padrões em 23/10/2012 Professor: David Menotti Estudante: Luciano Vilas Boas Espiridião Mestrando em Ciência da Computação Departamento de Computação – DECOM Instituto de Ciências Exatas e Biológicas – ICEB Universidade Federal de Ouro Preto – UFOP