CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.

Slides:



Advertisements
Apresentações semelhantes
IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho
Advertisements

1 ANÁLISE E PROJETO NO PROCESSO DE DESENVOLVIMENTO DE SOFTWARE PROCESSO: CONCEITO MODELOS DE PROCESSO PROCESSO UNIFICADO HISTÓRIA CARACTERÍSTICAS AS QUATRO.
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Inversor Trifásicos com Três Pernas
Robson de Carvalho Soares
Material pedagógico Multiplicar x 5 Clica!
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Operadores e Funções do LINGO
14/10/09 Uma animação possui: Início; Passo; Fim; 1.
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Copyright (c) 2003 by Valery Sklyarov and Iouliia Skliarova: DETUA, IEETA, Aveiro University, Portugal.
1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.
Sumário Bem ou serviço compósito = dinheiro Exercícios 2 Exercícios 3.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 9.
Ludwig Krippahl, 2008 Programação para as Ciências Experimentais 2007/8 Teórica 11.
Excel Profa. Cristina M. Nunes.
Agrupamento (clustering)
Análise de regressão linear simples: abordagem matricial
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
Arquivos Seqüenciais Inhaúma Neves Ferraz
EXPRESSÕES ARITMÉTICAS
EXPRESSÕES ARITMÉTICAS
Rodrigo Geraldo Ribeiro Denis Pinto Pinheiro Camila Leles Rezende
FUNÇÃO MODULAR.
Técnica de Contagem.
Provas de Concursos Anteriores
INF 1771 – Inteligência Artificial
Como aplicar leis da lógica
MECÂNICA - ESTÁTICA Cabos Cap. 7.
Aprendizado de Máquina Aula 8
MECÂNICA - DINÂMICA Exercícios Cap. 13, 14 e 17. TC027 - Mecânica Geral III - Dinâmica © 2013 Curotto, C.L. - UFPR 2 Problema
Inteligência Artificial
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Resultantes de Sistemas de Forças Cap. 4
Cinemática Plana de um Corpo Rígido Cap. 16
Resultantes de Sistemas de Forças Cap. 4
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
Estruturas de Dados com Jogos
Estruturas de Dados com Jogos
Estruturas de Dados com Jogos
Lemas (Sudkamp)  .
Taxonomia Profa. Lillian Alvares,
Coordenação Geral de Ensino da Faculdade
Modelagem Estatística
EXERCÍCIOS PARA GUARDA-REDES
Mineração da Web Recuperação de Informação
Técnicas de Modelagem para Aplicações em Computação Gráfica
1 2 Observa ilustração. Cria um texto. Observa ilustração.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Computação Gráfica Aula 3 Transformações Geométricas
MATRICIAL CONSULTORIA LTDA. PREFEITURA MUNICIPAL DE GARIBALDI 23/10/ : ATENÇÃO Os locais descritos nas planilhas anexas não correspondem ao total.
1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.
Curso: Cerimonial, Protocolo e Eventos
Olhe fixamente para a Bruxa Nariguda
Máquina de Turing Universal
Caminhos da Cana Relatório e show de imagens Marcos Fava Neves Prof. FEA/USP Ribeirão Preto Purdue University (2013)
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Medidas de tendência central e de dispersão
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Recuperação Inteligente de Informação
Classificação de Textos
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Transcrição da apresentação:

CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto

CIn-UFPE 2 Roteiro da Aula Definição Geral Clustering de texto Redução da dimensionalidade Cluster não-hierárquico Cluster hierárquico Avaliação do agrupamento Ensemble de agrupamentos

CIn-UFPE 3 Agrupamento de Objetos Clustering Objetivos Particionar exemplos não classificados em subconjuntos disjuntos (clusters), de modo que  Exemplos em um mesmo cluster são muito similares  Exemplos em clusters diferentes são muito diferentes Descobrir novas categorias de maneira não- supervisionada  i.e., sem conhecer as de categorias previamente

CIn-UFPE 4. Exemplo de Clustering

CIn-UFPE 5 Clustering de Texto Técnicas convencionais de Clustering têm sido diretamente aplicadas a texto, tipicamente representando os textos como vetores de pesos com TF/IDF usando a medida de similaridade do co-seno. Algumas aplicações: Durante a recuperação, adicionar outros documentos no mesmo cluster para melhorar a cobertura Organizar os resultados da busca em clusters, para melhorar a organização da apresentação dos resultados ao usuário  E.g., folders do Vivisimo Criação automática de taxonomias hierarquizadas de documentos para browsing  e.g., Yahoo & DMOZ

CIn-UFPE 6

7

8

9 Representação dos documentos (e.g. lista de termos) Redução da dimensionalidade Seleção ou extração de características Clustering Textos Corpus Textos Cluster A Textos Cluster B Textos Cluster C Etiquetagem Agrupamento de textos

CIn-UFPE 10 Redução da dimensionalidade

CIn-UFPE 11 O objetivo é manter as características relevantes e eliminar características irrelevantes e redundantes. Seleção de características

CIn-UFPE 12 Document Frequency: seleciona termos mais frequentes da base Term Frequency Variance: seleciona termos onde valor de TF apresenta maior variação Seleção de características

CIn-UFPE 13 Term Strength: probabilidade de um termo ocorrer em um documento dado que ocorre em um documento similar Seleção supervisionada:  (1) Aplica algoritmo de clustering e considera clusters como labels de classes;  (2) Usa Information Gain, Chi-Square, etc... para selecionar atributos Seleção de características

CIn-UFPE 14 Seleção de características

CIn-UFPE 15 Seleção de características com wrappers

CIn-UFPE 16 Clustering Não-Hierárquico O número de clusters desejados deve ser informado Parâmetro = K Algoritmo Geral: Escolhe aleatoriamente k instancias (documentos) como sementes, uma para cada cluster Constrói os clusters iniciais com base nessas sementes  Medindo a similaridade entre vetores Iterações  realoca instancias em clusters diferentes, a fim de melhorar o clustering geral  Para quando nenhum cluster é mais modificado, ou quando atinge um número fixo de iterações

CIn-UFPE 17 Algoritmo K-Means Assume que instâncias são vetores de valores reais (não-binários) Cria clusters baseado em centróides (centros de gravidade), ou média dos pontos em um cluster, c: A Realocação de instâncias a outros clusters é baseada na distância entre o vetor que representante a instância e o centróide atual do cluster

CIn-UFPE 18 Algoritmo K-Means Medidas de Distância Distância Euclidiana (L 2 norma): L 1 norma: Similaridade com co-seno (transformada em uma distancia subtraindo-a de 1):

CIn-UFPE 19 Algoritmo K-Means Seja d a distância medida entre instâncias Selecione aleatoriamente k instâncias {s 1, s 2,… s k } como sementes Até o processo convergir (ou outro critério de parada for satisfeito), faça: Para cada instância xi  Aloque xi no cluster cj tal que d (xi, sj) é mínima.  Atualize as sementes como sendo os centróides de cada cluster Para cada cluster cj sj =  (cj)

CIn-UFPE 20 Exemplo do K Means (K=2) Pegue as semenstes Realoque clusters Compute centróides x x Realoque clusters x x x x Compute centróides Realoque clusters Convergiu!

CIn-UFPE 21 Algoritmo K-Means Escolha das Sementes Resultados podem variar com a escolha aleatória das sementes Algumas sementes podem resultar em taxas baixas de convergência Ou convergência para clusters sub-optimais Devemos selecionar sementes com base em uma heurística ou usando resultados de outro método

CIn-UFPE22 Clustering Hierárquico

CIn-UFPE 23 Clustering Hierárquico Constrói uma árvore (taxonomia hierárquica - dendograma) a partir de um conjunto de exemplos não etiquetados Aplicações recursivas de um algoritmo de clustering padrão podem produzir um clustering hierárquico animal vertebrado peixe reptil anfíbio mamífero helmito inseto crustáceo invertebrado

CIn-UFPE 24 Clustering Hierárquico Aglomerativo vs. Divisivo Métodos Aglomerativos (bottom-up) Iniciam com cada exemplo sendo um cluster e Iterativamente combinam os clusters para formar cluster maiores Métodos Divisivos (particionais, top-down) Inicialmente, separam todos os exemplos em clusters.

CIn-UFPE 25 Clustering Hierárquico Aglomerativo Algoritmo: Inicia com cada instância em um clusters separado Até restar apenas um cluster  Repetidamente, une os dois clusters ci and cj que são mais semelhantes, criando um cluster ci  cj  Utiliza uma função para determinar a similaridade entre duas instâncias/clusters E.g., Co-seno entre vetores de documentos O histórico das junções forma uma árvore binária (ou hierarquia).

CIn-UFPE 26 Clustering Hierárquico Aglomerativo Similaridade entre Clusters Como computar a similaridade entre dois clusters (sim(x,y)) que podem conter mais de uma instância? Três possibilidades: Single Link: Similaridade entre os dois membros mais similares Complete Link: Similaridade entre os dois membros menos similares Group Average: Similaridade média entre todos os membros do cluster

CIn-UFPE 27 Clustering Hierárquico Aglomerativo Single Link Similaridade entre os dois membros mais similares: Pode resultar em clusters longos e finos, devido ao efeito “cadeia” Isso é apropriado em alguns casos, como por exemplo clustering islands.

CIn-UFPE 28 Clustering Hierárquico Aglomerativo Exemplo de Single Link

CIn-UFPE 29 Clustering Hierárquico Aglomerativo Complete Link Similaridade entre os dois membros menos similares: Cria clusters mais densos e esféricos, que são, em geral, preferíveis

CIn-UFPE 30 Clustering Hierárquico Aglomerativo Exemplo de Complete Link

CIn-UFPE 31 Clustering Hierárquico Aglomerativo Similaridade entre Clusters Depois de unir c i e c j, a similaridade entre o cluster resultante e outro cluster qualquer c k pode ser dada por: Single Link: Complete Link:

CIn-UFPE 32 Clustering Hierárquico Aglomerativo Similaridade Group Average entre Clusters Mede a similaridade entre dois clusters com base na similaridade média entre todos os pares com o cluster que foi unido “Compromisso” entre single e complete link.

CIn-UFPE 33 Clustering Hierárquico Aglomerativo Similaridade Group Average entre Clusters Assume co-seno como função de similaridade e vetores normalizados Sempre mantém a soma dos vetores em cada cluster Compute similaridade entre clusters em tempo constante:

CIn-UFPE 34 Clustering Hierárquico Divisivo Aplicação de k-Means de forma interativa Inicialmente, divida todos os objetos em dois clusters usando k-Means Aplique k-Means nos clusters formados para gerar subclusters Repita até atingir critério de parada

CIn-UFPE 35 Algoritmos Incrementais  A cada novo objeto, atualiza a estrutura de grupos sem precisar reiniciar o processo de clustering  Ideal em contextos onde os documentos são recebidos de forma constante e a uma taxa alta  Exemplos de algoritmos: Single-Pass, COBWEB, Redes ART,...

CIn-UFPE 36 Critérios de avaliação

CIn-UFPE 37 Critério de similaridade geral

CIn-UFPE 38 Matrizes de dispersão

CIn-UFPE 39 Matrizes de dispersão

CIn-UFPE 40 Traços das matrizes de dispersão

CIn-UFPE 41 Critérios externos

CIn-UFPE 42 Critérios externos

CIn-UFPE 43 Critérios externos

CIn-UFPE 44 Ensemble de agrupamentos

CIn-UFPE 45 Ensemble de agrupamentos

CIn-UFPE 46 Ensemble de agrupamentos

CIn-UFPE 47 Tendências Características linguísticas para representação de textos. Seleção de agrupamentos para realização de ensemble. Algoritmos incrementais. Melhora da precisão e custo computacional dos algoritmos. Construção de critérios para seleção de parâmetros no algoritmo. Etiquetagem de agrupamentos.