A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Apresentações semelhantes


Apresentação em tema: "Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs."— Transcrição da apresentação:

1 Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

2 Roteiro Introdução Construção de classificadores Aplicações Algoritmos Relevance Feedback (Rocchio) K-Nearest Neighbors Template Matching Avaliação de Classificadores K-Fold Cross Validation Curva ROC Referências

3 Classificação Definição Classificar um documento de acordo com classes previamente definidas Objetivos Organizar documentos Facilitar sua busca automática Facilitar sua visualização

4 Classificação Documentos Classe 1 Classe 2 Classe 3

5 Clustering X Classificação Clustering Criar grupos de documentos Classes geradas automaticamente Classificação Definir a que grupo pertence um documento Classes pré-definidas

6 Construção de Classificadores Classificação Manual Realizada por um especialista Construção Manual do Classificador Regras escritas manualmente Construção Automática do Classificador Algoritmos de aprendizagem automática

7 Construção Automática Conjunto de Treinamento Treinamento do algoritmo Conjunto de Validação Ajuste do sistema Conjunto de Teste Avaliação do desempenho do sistema

8 Construção Automática Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Representação Final Indução Conhecimento Adicional Categorização

9 Aplicações Sites Recomendação Emails Filtro de Spam Base de documentos RSS Feed’s Reconhecimento de Assinatura Reconhecimento de voz

10 Atributos Categóricos Nomes ou rótulos Verde, casado, muito, baixo, pequeno Operações Igualdade, diferença Numéricos Número Inteiros, Reais Operações Igualdade, diferença, adição, subtração...

11 Distâncias Diversas maneiras de calcular Euclidiana, Manhattan, Quadrática, Co-seno... Problemas Atributos Categóricos Um atributo numérico pode ter um peso excessivo em relação aos demais

12 Algoritmos Relevance Feedback (Rocchio) K-Nearrest Neighbor (k-NN) Template Matching

13 Relevance Feedback (Rocchio) Adaptação para Categorização de Texto Modelo Vetorial Utilizando vetores ponderados do TF/IDF Para cada categoria cria um vetor de “protótipo”, somando todos os vetores dos documentos desta categoria Similaridade por Cosseno

14 Relevance Feedback (Rocchio) Classe 1 Classe 2

15 Relevance Feedback (Rocchio) Protótipo: Classe 1 Protótipo: Classe 2

16 k-NN Processo de aprendizagem baseado em instâncias Classificação baseado nos k vizinhos mais próximos Simplesmente armazena os exemplos de treinamento Se utiliza de todos os atributos disponíveis

17 k-NN Para 1-NN classifica como + Para 5-NN classifica como -

18 k-NN

19 Ponderar o peso de cada vizinho de acordo com a distância Robusto a ruído Maior efetividade quando há uma grande quantidade de dados de treinamento

20 k-NN Desvantagens O custo de classificação de novos padrões pode ser alto Considera todos os atributos, quando apenas alguns deles podem ser importantes

21 Template Matching Utiliza um conjunto de templates para definir qual mais se aproxima de uma nova entrada Aplicações Reconhecimento de assinatura, voz, faces, etc. Bioinformática Estimação de Movimento

22 Template Matching

23

24 Avaliação de Classificadores É necessário ter métricas para avaliar a eficácia de um classificador Como dividir o conjunto de exemplos em treinamento, validação e testes

25 K-Fold Cross Validation O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e validação Iterativo A parte selecionada para testes é trocada até que todas tenham sido escolhidas

26 K-Fold Cross Validation Example Set

27 K-Fold Cross Validation Análise Estatística Hipótese Nula Hipótese Alternativa Nível de confiabilidade - Significância Utiliza-se após a aplicação do K-Fold Cross Validation

28 Curva ROC Reciever Operating Characteristics Curva ROC é um método para visualização e comparação da performance de classificadores Não é afetado pelo desbalanceamento das classes nos exemplos

29 Curva ROC

30

31 Área sob a curva Comparação de dois algoritmos

32 Curva ROC Desvantagens Problemas com mais de duas classes Separar em várias Curvas ROC Problema de desbalanceamento Cálculo das Áreas Associar pesos a cada classe Não é possível visualizar as áreas calculadas

33 Referências Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006. Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina Slide de Flávia Barros: Mineração da Web

34 Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs


Carregar ppt "Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs."

Apresentações semelhantes


Anúncios Google