A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estudo de Benefícios e Custos de Algoritmos para Seleção de Características Eduardo Mendel do Nascimento Estefhan Dazzi Wandekokem.

Apresentações semelhantes


Apresentação em tema: "Estudo de Benefícios e Custos de Algoritmos para Seleção de Características Eduardo Mendel do Nascimento Estefhan Dazzi Wandekokem."— Transcrição da apresentação:

1 Estudo de Benefícios e Custos de Algoritmos para Seleção de Características
Eduardo Mendel do Nascimento Estefhan Dazzi Wandekokem

2 Classificação (1)‏ Descoberta automatizada de padrões de semelhança entre dados, dando à máquina a capacidade de associar um padrão, na forma de um vetor multidimensal, a uma dentre algumas classes distintas pré-definidas. Base de treino: especialistas humanos introduzem conhecimento no sistema com o uso de um conjunto de dados rotulados (base de treino). Uma observação do ambiente (um padrão) é mapeado matematicamente como uma variável multidimensional contínua ou discreta (uma característica), assim padrões são representados como pontos (rotulados ou não) no espaço de características.

3 Classificação (2)‏ À medida os padrões rotulados são introduzidos, regiões distintas do espaço de características passam a se associar mais fortemente a uma classe do que a outra. O processo de classificação então consiste na criação de um mapeamento entre cada região do espaço de características e a classe à qual essa região está associada. Espera-se uma generalização eficiente, a fim de se minimizar o erro de classificação em novos e desconhecidos dados apresentados ao classificador (base de teste).

4 Classificador Support Vector Machine (1)‏
Num problema de classificação com duas classes, espera-se que os padrões pertencentes a cada uma das classes residam em regiões distintas e separáveis. Um problema é linearmente separável se é possível a construção de um hiperplano separador que separa integralmente os exemplos de cada classe. Num espaço de características com dimensão D, esse hiperplano será a equação de um plano no espaço D-1, por exemplo uma reta em duas dimensões.

5 Classificador Support Vector Machine (2)‏

6 Classificador Support Vector Machine (3)‏
A separabilidade linear no espaço de características só ocorre em casos triviais, e uma alternativa para contornar sua ausência é o uso de mapeamento matemático. As variáveis dimensionais podem ser combinadas matematicamente ou simplesmente replicadas a fim de gerar novas variáveis de um novo espaço, numa nova configuração de pontos. Classificador SVM: usa um mapeamento fixado pelo usuário para mapear cada dado analisado, e usando os dados de treino, constrói um hiperplano separador com margem de separação máxima, usado então para classificar exemplos desconhecidos. Exemplos errados são penalizados.

7 Classificador Support Vector Machine (4)‏

8 Classificador Support Vector Machine (3)‏
A separabilidade linear no espaço de características só ocorre em casos triviais, e uma alternativa para contornar sua ausência é o uso de mapeamento matemático. As variáveis dimensionais podem ser combinadas matematicamente ou simplesmente replicadas a fim de gerar novas variáveis de um novo espaço, numa nova configuração de pontos. Classificador SVM: usa um mapeamento fixado pelo usuário para mapear cada dado analisado, e usando os dados de treino, constrói um hiperplano separador com margem de separação máxima, usado então para classificar exemplos desconhecidos. Exemplos errados são penalizados.

9 Processo de avaliação Na validação independente, há bases distintas denominadas de treino (usada para ajustar os parâmetros do modelo do classificador) e de teste (usada para medir o desempenho do classificador). Muitas vezes, deseja-se saber o desempenho baseado numa única base, usada portanto para treinar e validar. A validação cruzada possibilita a obtenção desse valor de qualidade. Inicialmente, a base é dividida aleatoriamente em um número pré-especificado de sub-bases com iguais quantidades de elementos. Então, cada um desses conjuntos é usado como base de teste, sendo a base de treino correspondente formada pela união dos conjuntos remanescentes. Ao final, cada dado da base estará associado a uma classe, e é possível tomar, por exemplo, a taxa de acerto nessa base.

10 Análise ROC No gráfico ROC o eixo x representa a taxa de falso positivo (fpr) e o eixo y a taxa de verdadeiro positivo (tpr)‏

11 Análise ROC Cada ponto no gráfico representa um classificador

12 Análise ROC Curva ROC Métrica: AUC (area under curve)
Valor de score associado a cada exemplo Probabilidade a posteriori da classe positiva Dado um threshold, o classificador pode usar o score para determina a qual classe o exemplo pertence

13 Análise ROC

14 Análise ROC

15 Seleção de Características (1)‏
A geração das características que descrevem um padrão pode ser um processo computacional baseado numa observação menos abstrata do ambiente, por exemplo, o mapeamento que ocorre entre uma imagem observada e as características usadas para descrevê-la. Seleção de características é uma etapa anterior ao processo de treinamento do classificador que tem como objetivo retirar algumas características que são irrelevantes ou danosas ao processo de classificação. Dessa forma, busca-se por um conjunto ótimo de características que maximiza o desempenho do classificador.

16 Seleção de Características (2)‏
Busca exaustiva é inviável já que a quantidade de subconjuntos diferentes com K características, tomado de um conjunto total composto por N, resulta em C(N,K) subconjuntos distintos. Dessa forma, devem ser usadas heurísticas a fim de explorar o espaço de busca, visualizado como composto por um número de dimensões igual ao total de características, cada dimensão dessas consistindo numa variável binária que indica o uso ou não dessa característica. Best Features (BF) avalia individualmente cada característica, utilizando-a para treinar completamente um classificador, e a qualidade da característica vem desse desempenho. Útil para análise inicial, mas não considera inter-dependências entre as características.

17 Sequential Forward Selection (SFS)‏
Heurística gulosa de seleção, com um caráter sequencial e unidirecional. SFS inicia o conjunto das características selecionadas como composto somente por aquela determinada como a melhor por BF. Então, a cada etapa, determina qual das características ainda não selecionadas deve ser acrescentada ao conjunto, e assim acrescenta uma a uma até que a quantidade final de selecionadas seja alcançada. Na determinação de qual característica deve ser incluída, o algoritmo avalia o desempenho de cada classificador construído com o uso de um conjunto de características igual ao atualmente selecionado acrescido de cada característica não-selecionada em teste, de forma que a selecionada seja aquela que maximizar o desempenho.

18 Sequential Forward Floating Selection (SFFS) (1)‏
Evolução natural do SFS. Espera-se melhorar a busca possibilitando a remoção de uma característica anteriormente escolhida para fazer parte do conjunto das selecionadas. Para cada conjunto de características obtido com a exclusão de cada uma das características selecionadas, a qualidade pode ser estimada via o treino de um classificador e sua avaliação por validação cruzada. Se a qualidade de classificação aumentar em relação ao conjunto original (com a característica incluída), ela é uma potencial candidata a ser excluída. A característica excluída será então aquela que possibilitar o maior ganho com sua remoção.

19 Sequential Forward Floating Selection (SFFS) (2)‏
O processo de remoção de características prossegue, enquanto houver ganho de qualidade com a remoção de alguma característica. Quando não houver esse ganho, ocorre então a inclusão de uma única característica ao conjunto das selecionadas, e novamente cada característica desse conjunto é investigada a fim de se determinar se alguma deve ser removida. Deve existir um mecanimo para evitar loops de inclusão e posterior exclusão das mesmas características.

20 Estudo da Detecção de Desalinhamento (1)‏
Base de dados reais obtida de motobombas em operação. 945 dados com 70 características, distribuição de classe aproximadamente 50%/50%. O desalinhamento refere-se a problemas no acoplamento entre o eixo do motor e o eixo da bomba, ocorrendo quando esses eixos estão orientados paralelamente e não coincidem (desalinhamento paralelo), ou quando não estão orientados paralelamente e coincidem (desalinhamento angular). Assinatura característica de alta vibração nas freqüências das harmônicas 1x, 2x e 3x, nas direções radiais e axial. Características extraídas: energia (RMS) em bandas de frequência específicas do sinal de vibração da máquina, obtido de um acelerômetro.

21 Estudo da Detecção de Desalinhamento (2)‏

22 Estudo do Elemento Emissor de Sonar (1)‏
Base de dados obtida da Internet. 208 dados com 60 características, distribuição de classe aproximadamente 50%/50%. A tarefa consiste em treinar um classificador para discriminar entre sinais de sonar emitidos de um cilindro metálico daqueles emitidos de uma rocha. Características extraídas: energia (RMS) em bandas de frequência específicas do sinal sonoro.

23 Dúvidas?


Carregar ppt "Estudo de Benefícios e Custos de Algoritmos para Seleção de Características Eduardo Mendel do Nascimento Estefhan Dazzi Wandekokem."

Apresentações semelhantes


Anúncios Google