Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouEsther Rita Alterado mais de 9 anos atrás
1
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs
2
Roteiro Introdução Construção de classificadores Aplicações Algoritmos Relevance Feedback (Rocchio) K-Nearest Neighbors Template Matching Avaliação de Classificadores K-Fold Cross Validation Curva ROC Referências
3
Classificação Definição Classificar um documento de acordo com classes previamente definidas Objetivos Organizar documentos Facilitar sua busca automática Facilitar sua visualização
4
Classificação Documentos Classe 1 Classe 2 Classe 3
5
Clustering X Classificação Clustering Criar grupos de documentos Classes geradas automaticamente Classificação Definir a que grupo pertence um documento Classes pré-definidas
6
Construção de Classificadores Classificação Manual Realizada por um especialista Construção Manual do Classificador Regras escritas manualmente Construção Automática do Classificador Algoritmos de aprendizagem automática
7
Construção Automática Conjunto de Treinamento Treinamento do algoritmo Conjunto de Validação Ajuste do sistema Conjunto de Teste Avaliação do desempenho do sistema
8
Construção Automática Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Representação Final Indução Conhecimento Adicional Categorização
9
Aplicações Sites Recomendação Emails Filtro de Spam Base de documentos RSS Feed’s Reconhecimento de Assinatura Reconhecimento de voz
10
Atributos Categóricos Nomes ou rótulos Verde, casado, muito, baixo, pequeno Operações Igualdade, diferença Numéricos Número Inteiros, Reais Operações Igualdade, diferença, adição, subtração...
11
Distâncias Diversas maneiras de calcular Euclidiana, Manhattan, Quadrática, Co-seno... Problemas Atributos Categóricos Um atributo numérico pode ter um peso excessivo em relação aos demais
12
Algoritmos Relevance Feedback (Rocchio) K-Nearrest Neighbor (k-NN) Template Matching
13
Relevance Feedback (Rocchio) Adaptação para Categorização de Texto Modelo Vetorial Utilizando vetores ponderados do TF/IDF Para cada categoria cria um vetor de “protótipo”, somando todos os vetores dos documentos desta categoria Similaridade por Cosseno
14
Relevance Feedback (Rocchio) Classe 1 Classe 2
15
Relevance Feedback (Rocchio) Protótipo: Classe 1 Protótipo: Classe 2
16
k-NN Processo de aprendizagem baseado em instâncias Classificação baseado nos k vizinhos mais próximos Simplesmente armazena os exemplos de treinamento Se utiliza de todos os atributos disponíveis
17
k-NN Para 1-NN classifica como + Para 5-NN classifica como -
18
k-NN
19
Ponderar o peso de cada vizinho de acordo com a distância Robusto a ruído Maior efetividade quando há uma grande quantidade de dados de treinamento
20
k-NN Desvantagens O custo de classificação de novos padrões pode ser alto Considera todos os atributos, quando apenas alguns deles podem ser importantes
21
Template Matching Utiliza um conjunto de templates para definir qual mais se aproxima de uma nova entrada Aplicações Reconhecimento de assinatura, voz, faces, etc. Bioinformática Estimação de Movimento
22
Template Matching
24
Avaliação de Classificadores É necessário ter métricas para avaliar a eficácia de um classificador Como dividir o conjunto de exemplos em treinamento, validação e testes
25
K-Fold Cross Validation O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e validação Iterativo A parte selecionada para testes é trocada até que todas tenham sido escolhidas
26
K-Fold Cross Validation Example Set
27
K-Fold Cross Validation Análise Estatística Hipótese Nula Hipótese Alternativa Nível de confiabilidade - Significância Utiliza-se após a aplicação do K-Fold Cross Validation
28
Curva ROC Reciever Operating Characteristics Curva ROC é um método para visualização e comparação da performance de classificadores Não é afetado pelo desbalanceamento das classes nos exemplos
29
Curva ROC
31
Área sob a curva Comparação de dois algoritmos
32
Curva ROC Desvantagens Problemas com mais de duas classes Separar em várias Curvas ROC Problema de desbalanceamento Cálculo das Áreas Associar pesos a cada classe Não é possível visualizar as áreas calculadas
33
Referências Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006. Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina Slide de Flávia Barros: Mineração da Web
34
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.