A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

MODELO FATORIAL ORTOGONAL X é linearmente dependente de poucas variáveis não-observáveis F 1, F 2,..., F m, chamadas FATORES COMUNS e de p fontes adicionais.

Apresentações semelhantes


Apresentação em tema: "MODELO FATORIAL ORTOGONAL X é linearmente dependente de poucas variáveis não-observáveis F 1, F 2,..., F m, chamadas FATORES COMUNS e de p fontes adicionais."— Transcrição da apresentação:

1 MODELO FATORIAL ORTOGONAL X é linearmente dependente de poucas variáveis não-observáveis F 1, F 2,..., F m, chamadas FATORES COMUNS e de p fontes adicionais de variação 1, 2,..., p, chamadas erros ou FATORES ESPECÍFICOS.

2 MODELO FATORIAL ORTOGONAL: suposições adicionais Assumimos que: Essas suposições constituem o modelo de análise fatorial ortogonal (ANFAT).

3 ESTRUTURA DE COVARIÂNCIA NO MODELO FATORIAL ORTOGONAL

4 MODELO FATORIAL ORTOGONAL COMUNALIDADE - porção da variância da j - ésima variável contribuída pelos m fatores comuns. Variância Específica (uniquenesses) - porção de Var( X j )= σ jj devida ao fator específico.

5 Métodos de Estimação – usando o R Componentes Principais – usando a função prcomp (não exige suposições quanto à distribuição geradora das observações). Máxima-verossimilhança –usando a função factanal (pressupõe normalidade).

6 Função de verossimilhança sob normalidade A f.v. depende de L e através de LL T +. O modelo ainda não está bem definido devido à multiplicidade de escolhas para L. É desejável impor condição de unicidade: deve ser uma matriz diagonal.

7 Teste para a verificação do número de fatores Sob o método da máxima-verossimilhança é possível realizar um teste para verificar o número m de fatores adequados ao modelo. Trata-se de um teste assintótico usando a estatística da razão de verossimilhança com correção de Bartlett.

8 Teste para a verificação do número de fatores Quando a matriz não apresenta qualquer estrutura especial, seu estima- dor de máxima-verossimilhança é dado pela matriz S n =(n-1)S/n, tal que o máximo assumido pela verossimilhança é proporcional a Sob H 0, está restrita à forma Nesse caso o máximo da verossimilhança é dado por

9 Teste para a verificação do número de fatores Usando resultados apropriados, e chamando a estatística do teste da razão de verossimilhança, temos Bartlett mostrou que a aproximação de Qui-quadrado para a distribuição amostral de -2 ln pode ser melhorada pela inclusão de um fator de correção.

10 Teste para a verificação do número de fatores Usando a correção de Bartlett, rejeitaremos a hipóstese nula se:

11 Exemplo: Medidas físicas Voltemos a trabalhar com a base de dados referente a 8 medidas físicas de 305 meninas de 7 a 17 anos, tais como, altura, peso, tórax, ante-braço, braço, entre outras, no R: Harman23.cor. Será que as relações entre essas 8 medidas podem ser explicadas por poucos fatores comuns subjacentes?

12 Exemplo: Medidas Físicas height arm.span forearm lower.leg weight bitro.diameter chest.girth chest.width height arm.span forearm lower.leg weight bitro.diameter chest.girth chest.width data(Harman23.cor) no pacote stats. Harman.FA=factanal(factors=4,covmat=Harman23.cor)

13 Exemplo: Medidas Físicas Uniquenesses: height arm.span forearm lower.leg weight bitro.diameter chest.girth chest.width Loadings: F1 F2 F3 F4 height arm.span forearm lower.leg weight bitro.diameter chest.girth chest.width F1 F2 F3 F4 SS loadings Proportion Var Cumulative Var Test of the hypothesis that 4 factors are sufficient. The chi square statistic is 4.63 on 2 degrees of freedom. The p-value is

14 Rotação dos fatores Como já vimos, todas as cargas dos fatores obtidas a partir das cargas iniciais por uma transformação ortogonal têm as mesmas propriedades em reproduzir a matriz de covariância (ou correlação). Da álgebra matricial, sabemos que uma transformação ortogonal corresponde a uma rotação (ou reflexão) dos eixos coordenados. Por esta razão, uma transformação ortogonal das cargas dos fatores, e a transformação conseqüente dos fatores, é chamada de rotação dos fatores. Como as cargas originais dos fatores podem não ser facilmente interpretáveis, uma prática comum é rotacioná-las até que uma estrutura de cargas mais simples seja atingida.

15 Rotação dos fatores O ideal é buscar por um padrão de cargas tal que cada variável tenha cargas altas em um único fator e tenha cargas pequenas ou moderadas nos demais fatores. Porém nem sempre é possível chegar a essa estrutura simples. Vamos nos concentrar em métodos analíticos e gráficos para a determinação de uma rotação ortogonal para uma estrutura mais simples.

16 Rotação dos fatores Quando m=2 ou os fatores comuns são considerados dois de cada vez, a transformação para uma estrutura mais simples pode freqüentemente ser determinada graficamente. Os fatores comuns não correlacionados são olhados como vetores unitários no plano Cartesiano cujos eixos coordenados correspondem a cada um dos dois fatores. Um gráfico dos pares das cargas dos dois fatores produz p pontos, cada ponto correspondendo a uma variável Os eixos coordenados podem, então, ser visualizados rotacionando-os de um ângulo.

17 Rotação de fatores As novas cargas, são determinadas pelas relações

18 Rotação de fatores Nesse caso, aglomerações de variáveis são freqüentemente aparentes a olho nu e essas aglomerações permitem-nos identificar os fatores comuns, sem ter que inspecionar as magnitudes das cargas. Por outro lado, quando m>2, orientações não são facilmente visualizadas e as magnitudes das cargas rotacionadas devem ser verificadas para encontrar uma interpretação útil dos dados originais. A escolha de uma matriz ortogonal Q que satisfaz uma medida analítica de estrutura simples será considerada.

19 Rotação de fatores: método varimax Kaiser (1953) sugeriu uma medida analítica de estrutura simples conhecida como critério varimax. Efetivamente, maximizar V corresponde a espalhar os quadrados das cargas de cada fator o máximo possível. Portanto, espera-se encontrar grupos de coeficientes grandes e coeficientes desprezíveis em qualquer coluna da matriz de cargas rotacionadas.

20 Rotação de fatores: método varimax – usando o R. No R a função factanal ajusta o modelo fatorial ortogonal usando máxima-verossimilhança e o critério de rotação varimax. factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA, subset, na.action, start = NULL, scores = c("none", "regression", "Bartlett"), rotation = "varimax", control = NULL,...) Argumentos x - Uma fórmula ou uma matriz de números. factors - O número de fatores a serem ajustados. data - O conjunto de dados em análise, usado somente se x é uma fórmula.

21 Rotação de fatores: método varimax – usando o R. covmat - Uma matriz de covariância, ou uma lista de covariância como a saída de cov.wt. É claro que, matrizes de correlação são matrizes de covariância. cov.wt n.obs - O número de observações, usado se covmat é uma matriz de covariância. subset - Uma especificação dos casos a serem usados, se x é usada como uma matriz ou fórmula. na.action - A na.action a ser usada se x é usado como uma fórmula. (Lembre: que atitude tomar em caso de dados não disponíveis.) start - NULL ou uma matriz de valores iniciais, cada coluna fornecendo um conjunto inicial de uniquenesses.

22 Rotação de fatores: método varimax – usando o R. scores - Tipo de escores a serem produzidos, se necessários. O default é none, " regression " fornece os escores pelo método da regressão e " Bartlett, pelo método dos mínimos quadrados ponderados. rotation - "none" ou o nome de uma função a ser usada para rotacionar os fatores: ela será chamada tendo como primeiro argumento a matriz de cargas, e deverá retornar uma lista com as cargas componentes fornecidas pelas cargas rotacionadas, ou apenas as cargas rotacionadas. control - Uma lista de valores de controle: nstart – o número de valores iniciais a serem tentados se start = NULL. Default 1. trace (lógica T ou F). Vai querer todas as informações na saída? Default FALSE. lower O lomite inferior para uniquenesses durante a otimização. Tem que ser > 0. Default opt Uma lista de valores de controle a serem passados como argumentos de controle ótimos. rotate - uma lista de argumentos adicionais para a função de rotação.

23 Loadings: Factor1 Factor2 Factor3 Factor4 height arm.span forearm lower.leg weight bitro.diameter chest.girth chest.width Factor1 Factor2 Factor3 Factor4 SS loadings Proportion Var Cumulative Var $rotmat [,1] [,2] [,3] [,4] [1,] e e e e-05 [2,] e e e e-05 [3,] e e e e-05 [4,] e e e e+00 No R o defaul é fornecer as cargas do método varimax. A seguir temos a saída da função Harman.FAV=varimax(Harman.FA$loadings), também disponível.

24 Análise dos resultados Percebe-se que a matriz de rotação resultante é quase a identidade. De fato, o R apresenta as cargas do método varimax de rotação como default. Ou seja, na saída ele já tenta facilitar a interpretação dos fatores.

25 Factor1varimaxFactor2varimaxFactor3varimaxFactor4varimax height 0,879 0,2770,278-0,115 arm.span 0,937 0,194 0,277 forearm 0,875 0,1910,192 lower.leg 0,887 0,2090,210,135 -0,188 weight 0,2460,2450,882 0,111 -0,109 bitro.diameter 0,1870,1860,8220,823 chest.girth 0,117 0,729 0,526 chest.width 0,263 0,6440,6450,141 Factor1varimaxFactor2varimaxFactor3varimaxFactor4varimax SS loadings ,323 0,165 Proportion Var 0,4230,4220,3240,3250,04 0,021 Cumulative Var 0,4230,4220,747 0,787 0,808 As pequenas diferenças em valores devem se justificar por conta do método de busca da solução que é iterativo e envolve muitos arredondamentos.

26 Rotação ortogonal Existem outros métodos de rotação ortogonal. Método quartimax – minimiza o número de fatores necessários para explicar uma variável. Método equimax – é um compromisso entre os métodos varimax e quartimax. O método varimax é o mais popular.

27 Rotação dos fatores: Rotações oblíquas Rotações ortogonais são apropriadas para um modelo fatorial no qual os fatores são supostos não correlacionados. Muitos pesquisadores em Ciências Sociais porém consideram rotações oblíquas (não ortogonais), bem como, rotações ortogonais. As primeiras são sugeridas após olhar as cargas estimadas e não partir dos postulados básicos do modelo. Apesar disso, uma rotação oblíqua pode ser útil. Se olhamos os m fatores comuns como eixos coordenados, o ponto com as coordenadas das cargas da j -ésima variável sobre os m fatores comuns representa a posição dessa variável no espaço fatorial. Supondo que as variáveis são agrupadas em conglomerados não sobrepostos, uma rotação ortogonal para uma estrutura mais simples corresponde a uma rotação rígida dos eixos coordenados tal que os eixos, após a rotação, passam tão próximos dos conglomerados quanto possível.

28 Rotação dos fatores: Rotações oblíquas Uma rotação oblíqua para simplificar a estrutura das cargas corresponde a uma rotação não rígida do sistema de coordenadas tal que os eixos rotacionados (não mais ortogonais dois a dois) passam (próximos) dos conglomerados. Uma rotação oblíqua busca expressar cada variável em termos de um número mínimo de fatores, preferivelmente um único fator.

29 Rotação dos fatores: Rotações oblíquas Para rotações oblíquas, o método mais popular é o método promax que tem a vantagem de ser rápido e conceitualmente simples. O método busca ajustar uma matriz alvo que tem uma estrutura simples. Como um exemplo, use o R para obter a rotação promax no exemplo com os dados Harman23.cor.

30 Método promax: usando o R Faça Harman.FAP=promax(Harman.FA$loadings) Também é possível via: Harman.FAP2=factanal(factors=4,covmat=Harman23.cor,rotation=promax)

31 Loadings: Factor1Factor2Factor3Factor4 height0,8610,140 arm.span1,026-0,130 0,385 forearm0,918 0,177 lower.leg0,898 -0,110 weight 0,912 -0,103 bitro.diameter 0,904 chest.girth 0,5600,553 chest.width0,1270,566 0,167 Factor1Factor2Factor3Factor4 SS ,3440,232 Proportion0,4330,290,0430,029 Cumulative0,4330,7230,7660,795 $rotmat [,1][,2][,3][,4] [1,]1,1002-0,2408-0,05760,1019 [2,]-0,30881,1093-0,0018-0,0157 [3,]0,1450-0,41601,06530,0105 [4,]0,1740-0,36000,09801,0558

32 Factor1promaxFactor2promaxFactor3promaxFactor4promax height 0,8790,8610,2770,14 -0,115 arm.span 0,9371,0260,194-0,13 0,2770,385 forearm 0,8750,9180,191 0,177 lower.leg 0,8870,8980,209 0,135 -0,188-0,11 weight 0,246 0,8820,9120,111 -0,109-0,103 bitro.diameter 0,187 0,8220,904 chest.girth 0,117 0,7290,560,5260,553 chest.width 0,2630,1270,6440,566 0,1410,167 Factor1promaxFactor2promaxFactor3promaxFactor4promax SS loadings ,3230,3440,1650,232 Proportion Var 0,4230,4330,3240,290,040,0430,0210,029 Cumulative Var 0,4230,4330,7470,7230,7870,7660,8080,795

33 Escores dos fatores Na análise fatorial o interesse está geralmente centrado nos parâmetros do modelo fatorial. Porém, os valores estimados dos fatores comuns, chamados escores dos fatores, podem também ser requeridos. Essas quantidades são geralmente usadas para propósitos de diagnóstico bem como entradas para análises subsequentes.

34 Escores dos fatores Escores dos fatores não são estimativas de parâmetros no sentido usual. Em vez disso, eles são estimativas dos valores não observados do vetor de fatores F i, i=1,2,...,n. Os escores O problema de estimação aqui é mais complicado pelo fato das quantidades não observadas f i e i superarem em número os x i observados.

35 Escores dos fatores Para superar essa dificuldade, propõe-se algumas abordagens para o problema de estimação dos valores dos fatores. Aqui vamos trabalhar com duas abordagens: Primeiro: Tratar as cargas estimadas dos fatores e as variâncias específicas estimadas como se fossem os valores verdadeiros dos parâmetros correspondentes. Segundo: Incluir transformações lineares dos dados originais, talvez centradas ou padronizadas. Comumente, as cargas rotacionadas estimadas em vez das cargas estimadas são usadas para calcular os escores dos fatores. As fórmulas computacionais, que serão trabalhadas aqui, não mudam quando as cargas rotacionadas são substituídas por cargas não rotacionadas e não faremos diferença entre elas.

36 Método dos mínimos quadrados ponderados Suponha primeiro que o vetor de média μ, a matriz de cargas dos fatores L, e as variâncias específicas em são conhecidos para o modelo fatorial X- μ=LF+. Além disso, olhe os fatores específicos T =[ 1, 2,..., p ] como erros. Como Var( j )= j, j=1,2,...,p, e não precisam ser iguais, Bartlett sugeriu usar mínimos quadrados ponderados para estimar os valores dos fatores comuns. A soma de quadrados dos erros ponderados pela recíproca de suas variâncias é:

37 Método dos mínimos quadrados ponderados Bartlett propôs escolher as estimativas de modo a minimizar a soma de quadrados dos erros ponderada pelas variâncias. A solução é dada por: Motivados por essa expressão, tomamos as estimativas como os verdadeiros valores e obtemos os escores dos fatores para o j -ésimo caso como

38 Método dos mínimos quadrados ponderados Quando as estimativas de L e são obtidas pelo método da máxima-verossimilhança, essas estimativas devem satisfazer a condição de unicidade: deve ser uma matriz diagonal. Os escores dos fatores gerados por esse método têm vetor de médias nulo e covariâncias amostrais nulas. Se as cargas rotacionadas são usadas no lugar das cargas originais, os escores dos fatores subseqüentes serão dados por:

39 Escores dos fatores obtidos por mínimos quadrados ponderados a partir das estimativas de máxima-verossimilhança

40 Método de regressão

41 Comparação dos dois métodos Uma medida de concordância entre os escores dos fatores gerados pelos dois métodos é fornecida pelo coeficiente de correlação entre escores de um mesmo fator. Entre os dois métodos apresentados, nenhum deles é recomendado como uniformemente superior.

42 Exemplo: Dados sobre porcentagens de empregados nos diferentes setores nos países europeus. Como não dispomos dos dados originais do exemplo das medidas físicas, vamos trabalhar com outro conjunto de dados. Trata-se da distribuição percentual de empregados por setor de atividade em países europeus. Notação: AGR – agricultura, florestal e pesca, MIN – mineração e exploração de pedreiras, FAB – fabricação, FEA – fornecimento de energia e água, COM – construção, SER – serviços, FIN – finanças, SSP – serviços sociais e pessoais, TC – transportes e comunicações.

43 Exemplo: Dados sobre porcentagens de empregados nos diferentes setores nos países europeus. Os dados estão em ftindústria.txt, os nomes dos países estão em paises.txt. ft=read.table(http://im.ufrj.br/~flavia/mad484/ftindustria.txt, header=T)http://im.ufrj.br/~flavia/mad484/ftindustria.txt paises=read.table(http://im.ufrj.br/~flavia/mad484/paises.txt") row.names(ft)=t(paises) ft.FACP=prcomp(ft, center = TRUE, scale = TRUE)

44

45 Quantos fatores considerar? Pela análise da saída das componentes principais ficamos entre 3 (71%), 4 (83%) ou 5 (91%) fatores. É possível ver que a primeira componente principal constrasta os setores agricultura e mineração com os demais setores. round(ft.FACP$rotation[,1],digits=3) AGR MIN FAB FE COM SER FIN SSP TC

46 Quantos fatores considerar? Já a segunda componente principal contrasta principalmente Fabricação, Transportes e Comunicação com Serviços, Finanças e Construção. round(ft.FACP$rotation[,2],digits=3) AGR MIN FAB FE CON SER FIN SSP TC

47

48 Método da Máxima verossimilhança R=cor(ft) ft.FAMV=factanal(factors=4,covmat=R) Uniquenesses: AGR MIN FAB FE COM SER FIN SSP TC Factor1 Factor2 Factor3 Factor4 SS loadings Proportion Var Cumulative Var The degrees of freedom for the model is 6 and the fit was 8.047

49 Método da máxima verossimilhança CargasFator 1Fator 2Fator 3Fator 4 AGR-0,807-0,247-0,5280,056 MIN-0,094-0,873-0,096-0,463 FAB0,0560,940-0,079-0,318 FEA0,2020,4110,213-0,028 COM0,0090,0410,6270,061 SER0,2180,1500,7790,387 FIN-0,013-0,0620,4230,558 SSP0,9470,1000,0720,287 TC0,6130,089-0,098-0,372

50 Perspectivas e estratégias na Análise Fatorial 1. Realize uma análise fatorial via CPs. Esse método é particularmente apropriado como um primeiro passo na análise dos dados. (Não é exigido que S ou R sejam não-singulares.) (a) Investigue observações suspeitas construindo o gráfico de escores dos fatores. Também calcule os escores padronizados de cada observação e as distâncias quadradas. (b) Tente uma rotação varimax. 2. Realize uma análise fatorial via máxima-verossimilhança incluindo rotação varimax.

51 Perspectivas e estratégias na Análise Fatorial 3. Compare as soluções obtidas. (a) Os grupos de cargas são semelhantes? (b) Construa o gráfico dos escores dos fatores obtidos por CPs versus os obtidos por máxima-verossimilhança. 4. Repita os primeiros três passos para outros números de fatores comuns m. Os fatores extras contribuem necessariamente para a compreensão e interpretação dos dados? 5. Para grandes conjuntos de dados, divida-os em duas metades e realize uma análise fatorial sobre cada parte. Compare as duas soluções entre si e com as soluções obtidas via conjunto de dados completo para verificar estabilidade da solução.


Carregar ppt "MODELO FATORIAL ORTOGONAL X é linearmente dependente de poucas variáveis não-observáveis F 1, F 2,..., F m, chamadas FATORES COMUNS e de p fontes adicionais."

Apresentações semelhantes


Anúncios Google