A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.

Apresentações semelhantes


Apresentação em tema: "FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor."— Transcrição da apresentação:

1 FEATURE SELECTION

2 Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor do sistema de classificação é geralmente muito grande  Necessidade de reduzir o número de atributos a um mínimo suficiente  Complexidade Computacional  Duas características : individual x combinada  Grande número de parâmetros dos classificadores

3 Preprocessing  Outlier Removal  Um outlier é definido como um ponto que está muito longe da média da variável aleatória correspondente  Normalização dos dados  Normalizar os atributos de modo que seus valores fiquem dentro de um intervalo similar  Dados desconhecidos  Tornar o número de dados válidos os mesmos para todos os atributos Descartar Substituir

4 Seleção de atributos a partir de Testes de Hipótese  Testar cada atributo individualmente  Sua capacidade discriminatória para o problema em questão Descartar facilmente más escolhas Utilizar as técnicas mais elaboradas  x : variável aleatória representando um atributo. Verificaremos se seus valores para classes diferentes se diferem significativamente  H I : Os valores se diferem significativamente  Ho: Os valores não se diferem significativamente

5 Seleção de atributos a partir de Testes de Hipótese  Iremos calcular a diferença pl - p2 entre as médias dos valores de um atributo em duas classes.  Se xi, i = 1,2,..., N, são os valores de um atributo na classe  1 e possuem média µ 1.  De maneira correspondente, temos µ 2 para a classe  2.  Assuma que a variância dos valores do atributo nas duas classes é igual a  1 ² =   ² =  ².  Para tomar a decisão baseados na proximidade dos valores das duas médias, iremos realizar um teste de hipótese:

6 Exemplo de Aplicação Exemplo de valores de duas classes:  Esse atributo possui informações suficientes?  Iremos testar quando os valores do atributo nas duas classes diferem de maneira significativa.  O nível de significância é p = 0.05.  Em seguida temos:  Para N = 10 nós temos:  Retirados da tabela...

7

8 Exemplo de Aplicação  D = [-xp, xp] = [-3.2, 3.2]  Visto que 4.25 reside fora do intervalo D, decidimos a favor de HI; isto é, o valor das médias diferem significantemente no nível 0.05.  Logo, o atributo é selecionado.

9 The Receiver Operating Characteristics CROC Curve  Análise de informações sobre a sobreposição de duas classes.  Essa decisãoé associada a um erro de probabilidade, a, por obter uma decisão errada em relação à classe   (a probabilidade de uma decisão correta é 1 – a) e corresponde à área sombreada na curva.

10 The Receiver Operating Characteristics CROC Curve  Quanto menor a sobreposição das classes, maior a área entre a curva e a linha reta.

11 Medidas de Separação de Classes  Alguns atributos possuem dependência ou influência sobre os valores de outros.  Os métodos de discriminação de atributos não levam em conta as co-relações entre atributos.  Classificação acaba sendo influenciada pela aparente falta de relação entre atributos.  Como medir a efetividade da discriminação dos vetores de atributos.

12 Divergência  Regra de Bayes.  Dadas duas classes   e   e um vetor de características x, selecionamos   se:  Logo, a razão pode nos mostrar informações úteis a respeito da capacidade disriminatória associada ao vetor x.  Para classes completamente sobrepostas essa razão é igual a zero.

13 Divergência  Já que x pode assumir diferentes valores…  A soma d 12 = D 12 + D 21 é conhecida como divergência.  As medidas de separação das classes , em relação ao vetor x.

14 Divergência  Para um problema com várias classes a divergência é calculada para cada par de classes,  i e  j.  Assumindo que as funções de densidade são Gaussianas N(  i, ∑ i ) e N(  j, ∑ j ) respectivamente, o cálculo da divergência pode ser simplificado:  Se as matrizes de covariância das duas distribuições Gaussianas são iguais, então ∑ i = ∑ j = ∑ e

15 Divergência  Não é possível, para distribuições mais gerais, uma relação direta da divergência com o erro bayesiano.  Dependências específicas do valor da divergência entre os vetores médios pode levar a resultados equivocados.  Para evitar isso, uma variação da divergência foi criada, é chamada de divergência transformada:

16 Limite de Chernoff  O mínimo erro de classificação alcançado pelo classificador de Bayes para duas classes  1 e  2 é:  Um limite superior pode ser derivado baseado na igualdade:  Combinando as duas expressões chegamos à expressão conhecida como Limite de Chernoff.

17  O limite mínimo pode ser calculado minimizando E CB em relação a s. Uma forma especial desse limite é encontrada para s = ½ :  Para as distribuições gaussianas N(  i, ∑ i ) e N(  j, ∑ j ) e após alguns cálculos, obtemos:  O termo B é conhecido como Distância de Bhattacharyya e é usado como uma medida de separação de classes. e corresponde ao Limite de Chernoff otimizado quando ∑ i = ∑ j Distância de Bhattacharyya

18 Scatter Matrices  Isso é bruxaria! 

19 Seleção de Subconjuntos de Características  Após definir os critérios, temos que selecionar um subconjunto de l atributos.  Scalar Feature Selection  Adotar qualquer critério de medida de separabilidade de classes.  O valor do critério C(k) é computado para cada atributo, k =1, 2,..., m.  Os atributos são ordenados em ordem decrescente de valores do C(k).  Os l melhores valores são selecionados para formar o feature vector.

20 Seleção de Subconjuntos de Características  Scalar Feature Selection  Divergência unidimensional é um critério para computar o C(k).  Esse critério é executado para todos pares de classes.  Para cada um dos atributos, o C(k) correspondente é igual a: que é o menor divergence value de todas as classes


Carregar ppt "FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor."

Apresentações semelhantes


Anúncios Google