A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ANÁLISE MULTIVARIADA DE DADOS

Apresentações semelhantes


Apresentação em tema: "ANÁLISE MULTIVARIADA DE DADOS"— Transcrição da apresentação:

1 ANÁLISE MULTIVARIADA DE DADOS
Conceitos e Aplicações Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services

2 Conteúdo Análise de Agrupamentos Análise de Componentes Principais
Análise de Fatores Análise Discriminante Multivariate Statistical Process Control - MSPC

3 ANÁLISE EXPLORATÓRIA DE DADOS
Análise de Agrupamentos Conceitos e Aplicações Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services

4 Definição Análise de Agrupamento é uma técnica multivariada cuja finalidade é agregar objetos (OTU’s – Unidades de Objetos Taxonômicos) com base nas características que eles possuem. O resultado são grupos que exibem máxima homogeneidade de objetos dentro de grupos e, ao mesmo tempo, máxima heterogeneidade entre os grupos.

5 Conceitos Básicos Consumo (em R$) Tempo (em dias)

6 Conceitos Básicos Alguns pontos relevantes que devemos observar em análise de agrupamentos são: A análise de agrupamentos não faz distinção entre variáveis dependentes e independentes, no entanto pode examinar relações de interdependência entre todo o conjunto de variáveis. O objetivo principal de análise de agrupamentos é classificar objetos em grupos relativamente homogêneos, a partir das variáveis consideradas importantes para a análise; Os objetos em um grupo são relativamente semelhantes em termos dessas variáveis e diferentes de objetos de outros grupos; A mais forte aplicação desta técnica tem sido em Pesquisa de Marketing, principalmente, Segmentação de Mercado.

7 Fase 1 Estágios para o Processo de Análise de Agrupamento
Problema de pesquisa Selecionar objetivo: Descrição taxonômica Simplificação de dados Revelar relações Selecionar variáveis de agrupamento Fase 1 O uso mais tradicional da análise de agrupamentos tem sido para fins exploratórios e para a formação de uma taxonomia – uma classificação de objetos baseada na experiência. A análise de agrupamento consegue uma perspectiva simplificada das observações. Assim, em vez de ver todas as observações como únicas, elas podem ser vistas como membros de um agrupamento e definidas por suas características gerais. Com os agrupamentos definidos e a estrutura dos dados representada nos agrupamentos, o pesquisador tem um meio de revelar relações entre as observações, o que talvez não fosse possível com as observações individuais.

8 Fase 2 Estágios para o Processo de Análise de Agrupamento
Questões do Problema de Pesquisa As observações Atípicas podem ser observadas? Os dados devem ser padronizados? Em sua busca pela estrutura, a análise de agrupamentos é muito sensível à inclusão de variáveis irrelevantes (como nos casos de Multicolinearidade), bem como à presença de outliers (objetos atípicos). Os outliers podem representar: Observações “absurdas” que não representam a população geral; Uma sub-amostra de grupos reais na população que provoca uma sub-representação dos grupos na amostra. Fase 2 Imagine o seguinte exemplo: Uma empresa deseja conhecer o perfil de seus consumidores. Para tanto, elabora uma pesquisa na qual é feito o levantamento de dados de uma grande amostra. A análise dos dados gera algumas dúvidas: os consumidores têm um perfil homogêneo, em relação às características levantadas? Se o perfil não for homogêneo, é possível identificar grupos homogêneos? Quantos grupos existem?

9 Fase 2 Padronizando os dados
Imagine a situação descrita na tabela ao lado. Foram medidas 3 características de 8 clientes e queremos avaliar uma forma de agrupar estes clientes e encontrar aquelas que acompanham um comportamento semelhante. Percentual de Importância Salário Médio Consumo Cliente 1 10,85 1.500,80 149,35 Cliente 2 14,13 1.496,07 187,99 Cliente 3 8,62 1.448,79 130,97 Cliente 4 23,04 1.277,33 424,87 Cliente 5 16,04 1.204,02 214,36 Cliente 6 43,74 1.190,94 1.139,52 Cliente 7 25,39 1.292,91 358,39 Cliente 8 42,86 1.590,66 721,90 Média 23,08 1.375,19 415,92 Desvio Padrão 13,69 152,05 351,62 Fase 2

10 Fase 2 Padronizando os dados
O primeiro passo da análise é definir um critério para a formação dos grupos. Um critério que parece ser razoável é considerar a proximidade entre os pontos. Pontos próximos, então, representariam regiões com comportamentos semelhantes no que se refere às variáveis do gráfico, ou seja, regiões que podem fazer parte de um mesmo grupo. Fase 2

11 Fase 2 Padronizando os dados
Note que as distâncias no sentido vertical são muito maiores do que no sentido horizontal, o que reflete o fato da variabilidade da variável X2 ser muito maior do que a de X1. Em termos, práticos, a variável X1 contribuiu muito pouco para a definição dos grupos. E se quiséssemos dar igual importância às duas variáveis? Fase 2

12 Fase 2 Padronizando os dados
Uma maneira popular de tratar com isso é usar variáveis padronizadas. Ou seja, subtraímos a média do grupo de cada valor e dividimos pelo desvio padrão: Isso garante que as duas variáveis estão sendo consideradas com importâncias equivalentes. Observe agora os novos grupos. Fase 2

13 Fase 2 Estágios para o Processo de Análise de Agrupamento
Selecionar uma medida de similaridade As variáveis de agrupamento são métricas ou não-métricas? Dados Métricos Fase 2 Dados não-métricos Associação de Similaridade Emparelhamento de coeficientes O foco é o padrão ou a proximidade? Proximidade: Medidas de Distância para Similaridade Distância Euclidiana Distância City-block Distância de Mahalanobis Opções de padronização Padronização de variáveis Padronização por observações Padrão: Medidas de Correlação para Similaridade Coeficiente de Correlação

14 Fase 3 Estágios para o Processo de Análise de Agrupamento Suposições
A amostra é representativa da população? A multicolinearidade é substancial o suficiente para afetar os resultados? Fase 3 Raramente a pesquisa considera o censo da população para usar na análise de agrupamentos. O pesquisador deve perceber que a análise de agrupamentos é apenas tão boa quanto a representatividade da amostra. Portanto, todos os esforços devem ser feitos para garantir que a amostra é representativa e que os resultados são generalizáveis para a população de interesse. O efeito de multicolinearidade (grau em que uma variável pode ser explicada pelas outras variáveis na análise) sobre a análise de agrupamento é um processo de ponderação não visível, mas que afeta a análise. O caminho é identificar a multicolinearidade e reduzir a quantidade de variáveis.

15 Fase 4 Estágios para o Processo de Análise de Agrupamento Sim
Seleção de um algoritmo de agrupamento Usar um método hierárquico, não hierárquico ou uma combinação dos dois? Fase 4 Métodos Hierárquicos Métodos de ligação disponíveis: Ligação Individual Ligação Completa Ligação Média Método de Ward Método Centróide Métodos não-Hierárquicos Métodos de ligação disponíveis: Referência seqüencial Referência Paralela Otimização Seleção de pontos sementes Combinação Usar um método hierárquico para especificar pontos sementes de agrupamento para um método não-hierárquico. Quantos agrupamentos são formados Examinar aumentos no coeficiente de aglomeração Examinar dendrograma e gráficos verticais Considerações conceituais Reespecificação de análise de agrupamento Algumas observações foram eliminadas, tais como: Atípicas ou Elementos de pequenos agrupamentos? Sim

16 Fase 5 Fase 6 Estágios para o Processo de Análise de Agrupamento
Interpretação dos agrupamentos Examinar os centróides de agrupamentos Nomear agrupamentos com base em variáveis de agrupamentos Fase 5 Validação e caracterização dos agrupamentos Validação com variáveis de resultado selecionados Caracterização com variáveis descritivas adicionais Fase 6 Dada a natureza um tanto subjetiva da análise de agrupamentos na seleção de uma solução “ótima”, o pesquisador deve ter muito cuidado na validação e na garantia de significância prática da solução final. O estágio de interpretação envolve o exame de cada agrupamento em termos da variável estatística de agrupamento para nomear ou designar um rótulo que descreva precisamente a natureza dos agregados.

17 Resumo dos Estágios Escolha do critério de parecença
Definição do número de grupos Formação dos grupos Validação do agrupamento Interpretação dos grupos Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos grupos. É comum, então, que cada grupo seja uma amostra aleatória de alguma subpopulação e aplicar técnicas inferenciais para compará-las. O número de grupos pode ser definido a priori, através de algum conhecimento que se tenha sobre os dados, conveniência de análise ou ainda pode ser definido a posteriori com base nos resultados da análise. Ao final do processo de formação de grupos é importante caracterizar os grupos formados. O uso de estatísticas descritivas é recomendado para esta fase da análise. Nesse primeiro instante devemos avaliar se as variáveis devem ou não ser padronizadas e o critério que será utilizado na determinação dos grupos. Aqui definimos o algoritmo que será utilizado na identificação dos grupos: Métodos hierárquicos e Métodos de Partição

18 Medidas disponíveis na
Medidas de Parecença As medidas de parecença têm um papel central nos algoritmos de agrupamentos. Através delas são definidos critérios para avaliar se dois pontos estão próximos, e portanto podem fazer parte de um mesmo grupo, ou não. Há dois tipos de medidas de parecença: medidas de similaridade (quanto maior o valor, maior a semelhança entre os objetos) e medidas de dissimilaridade (quanto maior o valor, mais diferentes são os objetos.) Medidas disponíveis na Solução STATISTICA

19 Medidas de Parecença As distâncias são as medidas de dissimilaridade mais utilizadas no estudo de bancos de dados com variáveis quantitativas. 1. Distância Euclidiana. Distância de City-block (Manhattan). Distância de Chebychev. Esta é provavelmente o tipo de distância mais comumente escolhido. Os resultados deste procedimentos são semelhantes à distância Euclidiana, com a vantagem de que grandes diferenças são reprimidas por não se elevar os resultados ao quadrado. Esta medida de distância deve ser apropriada em casos quando se quer definir dois objetos como “diferentes” se eles são diferentes a qualquer uma das dimensões.

20 Medidas de Parecença As medidas que o STATISTICA usa são todas medidas de dissimilaridades. Além das que vimos, existem outras 3, são elas: 1. Distância Potencial. Percentual de Dissemelhança. Medida de Correlação Inversa Algumas vezes tem-se o interesse em ponderar progressivamente (crescente ou decrescente) objetos que são muito diferentes quando alocados em certas dimensões. Esta medida é particularmente útil se os dados para as dimensões incluídas na análise são categóricas em natureza. A medida de correlação é uma medida de similaridade. O STATISTICA usa rPearson como medida de dissimilaridade.

21 Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formação dos agrupamentos pode ser classificada em duas grandes famílias de métodos: hierárquicos e de partição. Métodos Hierárquicos Aglomerativos Para esses métodos os agrupamentos são formados a partir de uma matriz de parecença; Queremos identificar os objetos que mais se parecem; Agrupamos esses objetos e os consideramos como um único objeto; Definimos uma nova matriz de parecença.

22 Algoritmos de Agrupamentos
Os procedimentos hierárquicos envolvem a construção de uma hierarquia de uma estrutura do tipo árvore. Existem basicamente dois tipos de procedimentos hierárquicos de agrupamento: Aglomerativos e Divisivos. Métodos Hierárquicos Aglomerativos Usando o STATISTICA O STATISTICA traz uma série de métodos implementados: Vamos enumerar pelos menos 5 mé-todos aqui: Método do vizinho mais próximo; Método do vizinho mais longe; Método das médias das distâncias; Método da centróide; Método de Ward.

23 Algoritmos de Agrupamentos
Método do vizinho mais próximo (Single Linkage) a distância entre os grupos é definida como sendo a distância entre os elementos mais próximos (menor distância) dos dois grupos

24 Algoritmos de Agrupamentos
Método do vizinho mais longe (Complete Linkage) a distância entre dois grupos é definida como sendo a distância entre os indivíduos mais distantes dos dois grupos (distância máxima).

25 Algoritmos de Agrupamentos
Método do centróide Este método define a coordenada de cada grupo como sendo a média das coordenadas de seus objetos. Uma vez obtida essa coordenada, denominada centróide, a distância entre os grupos é obtida através do cálculo das distâncias entre os centróides.

26 Algoritmos de Agrupamentos
Método de Ward O método de Ward busca unir objetos que tornem os agrupamentos formados os mais homogêneos possível. A medida de homogeneidade utilizada baseia-se na partição da soma de quadrados total de uma análise de variância. Observe abaixo: O Método de Ward, é atraente por basear-se numa medida com forte apelo estatístico e por gerar grupos que, assim como os do método do vizinho mais longe, possuem alta homogeneidade interna.

27 Exemplo Faremos agora uma aplicação. Imagine que após aplicar 3 testes de desempenho em atividades gerenciais em 6 indivíduos, queiramos agrupá-los de modo a preservar a homogeneidade interna dos grupos. Vejamos, primeiramente como ficam os procedimentos e cálculos no Excel.

28 Exemplo A matriz padronizada possui os seguintes valores:

29 Exemplo A seguir construímos a matriz de semelhança, e com ela construímos o Dendrograma. Vamos usar a distância euclidiana que nos dá um coeficiente de dissimilaridade.

30 Exemplo Vamos usar um dos métodos de agrupamento disponível no STATISTICA: Unweighted pair-group average. Com esse método rearranjamos a matriz fenética de distâncias. d(Ann,Jen),Ais = média (d(Ann,Ais);d(Ron,Ais)) = média (3,00;3,10) = 3,05 d(Ann,Jen),Ern = média (d(Ann,Ern);d(Jen,Ern)) = média (2,22;2,64) = 2,43 d(Ann,Jenn),Rob = média (d(Ann,Jen);d(Jen,Rob)) = média (2,08;2,79) = 2,44 d(Ann,Jenn),Ron = média (d;(Ann,Ron);d(Jen,Ron)) = média (2,30;2,59) = 2,45 Temos um novo grupo: Aislan Rick Souza e Ernest Shering.

31 Exemplo Mais uma vez, procuramos um novo agrupamento. E calculamos os valores das distâncias na matriz fenética. Observe o resultado: d(Ais,Ern),Rob = média (dAis;dErn,Rob) = média (2,70; 1,88) = 2,29 d(Ais,Ern),(Ann,Jen) = média (dAis(Ann,Jen);dErn(Ann, Jen)) = média (3,05;2,43) = 2,74 d(Ais,Ern),Ron = média (dAis,Ron;dErn,Ron) = média (3,02; 3,00) = 3,01 Temos um novo grupo: Robert Shaid e Ronald Marker.

32 Exemplo Já encontramos 3 grupos, mas ainda queremos prosseguir na análise e observar quanto temos distância até se obter um único grupo. Observe, novamente, a matriz fenética: d(Rob,Ron),(Ais,Ern) = média (dRob, (Ais,Ern),(Ais,Ern); dRon,(Ais,Ern)) = = média (2,29;3,01) = 2,65 d(Rob,Ron),(Ann,Jen) = média (dRob,(Ann,Jenn); dRon,(Ann,Jen)) = = média (2,44;2,45) = 2,45 Agora temos dois grupos: Robert Shaid, Ronald Marker, Anne Antonelli e Jeniffer Fischer; e o outro grupo temos Aislan Rick Souza e Ernest Shering.

33 Por fim, temos a última matriz:
Exemplo Por fim, temos a última matriz: d(Rob,Ron),(Ann,Jen) = média(d(Rob,Ron);d(Ann,Jen)) = média (2,74;2,65) = 2,695 Obviamente, não é necessário todo esse desenvolvimento para chegar a alguma conclusão sobre grupos. Podemos observar esses resultados em um gráfico 2D: o Dendograma ou Fenograma!

34 Exemplo O Dendograma

35 No STATISTICA O primeiro passo é padronizar os dados. Basta selecionar as variáveis de interesse na análise e com o botão direito do mouse sobre a seleção optar por Fill/Standardize Block e, em seguida, Standardize Columns.

36 No STATISTICA Em Statistics busque o módulo Multivariate Exploratory Techniques e, na seqüência, opte por Cluster Analysis.

37 No STATISTICA O que queremos nesse primeiro momento é descobrir e avaliar alguns agrupamentos entre os casos observados, considerando que as 3 variáveis envolvidas são importantes para classificar os casos. Vamos explorar usando a opção Joining (tree clustering). Na aba Advanced observamos diversas opções. Clique em Variables e insira todas as variáveis. Em Cluster, opte por Cases. Em Amalgamation, Unweighted pair-group average (para média).

38 No STATISTICA Na opção Input File existem duas maneiras para entrar com uma base de dados: Raw Data ou Distance Matrix. Por vezes, algum procedimento hierárquico ou medida de distância não está implementada num procedimento automático. É possível, então, entrar com a matriz de distância e avaliar os grupos. As informações que esta matriz deve ter são: Medidas de distância; Média, Desvio Padrão e Número de Casos; Tipo de Matriz: 1 – Matriz de Correlação; 2 – Matriz de Similaridade; 3 – Matriz de Dissimilaridade; 4 – Matriz de Variância e Covariância.

39 No STATISTICA

40 No STATISTICA Na aba Advanced encontramos as opções que nos interessam para explorar possíveis agrupamentos entre os casos. Clique em Horizontal hierarchical tree plot ou Vertical icicle plot (os resultados são iguais). As opções Amalgamation schedule e Graph of amalgamation schedule mostram o histórico dos agrupamentos, remontando desde o menor grupo até o grupo total. Clique nessas duas opções e veja os resultados.

41 O Algoritmo do Método das K-médias
Suponha que uma vez analisado o quadro anterior, queremos estabelecer apenas 2 grupos. Podemos usar um algoritmo de formação de grupos chamado K-médias. O procedimento consiste em: Uma partição inicial é gerada tomando dois objetos chamados de sementes; Tomamos os objetos mais próximos de uma e de outra semente e calculamos a variação interna e externa (como no método de Ward); Buscamos partições melhores investigando as distâncias de cada objeto aos centróides de cada grupo.

42 O Algoritmo do Método das K-médias
Suponha que tomamos Aislan e Jeniffer como sementes para nossa partição inicial. Então as distâncias entre os demais objetos são: Note que a variação total é de 5,974, deste valor 43,76% (2,614) da variação pertence ao Grupo 1 e 56,24% (3,360) pertence ao Grupo 2. É possível que exista uma partição melhor que esta, então precisamos avaliar isso usando o método dos centróides.

43 O Algoritmo do Método das K-médias
Note que nossa escolha de Robert e Ronald para sementes da partição nos conduziu a um membro deslocado: Jeniffer. Isso significa que em relação ao centróide de cada grupo, Jeniffer está mais próxima ao grupo 1 do que ao grupo 2, visto que Jeniffer e Anne tem semelhanças. Porém, ao compararmos Jeniffer com Ronald e Robert, ela é mais semelhante a Robert do que a Ronald.

44 O Algoritmo do Método das K-médias
Note que nossa escolha para sementes da partição nos conduziu a um resultado inferior ao que temos agora em termos de otimização da variância. Com os grupos anteriores tínhamos uma variância em 5,974, agora a variância diminuiu para 4,294. Uma redução de 30%, aproximadamente.

45 No STATISTICA No STATISTICA temos a opção para definir a quantidade de grupos em Number of clusters. Quando temos uma quantidade grande de dados podemos inserir um número de iterações mais adequado em Number of iterations. Clique em Analysis of variance.

46 No STATISTICA Com essa opção de análise, observamos quanto de variabilidade dentro (deve ser a menor possível em bons agrupamentos) e variabilidade entre (deve ser a maior possível em bons agrupamentos). Clique em Members of each cluster & distances para conhecer os membros de cada grupo.

47 No STATISTICA

48 Exercício Abra o arquivo Países.sta e avalie algum tipo de agrupamento entre os 36 países disponíveis para análise.

49 ANÁLISE EXPLORATÓRIA DE DADOS
Análise de Componentes Principais Conceitos e Aplicações Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services

50 Definição Análise de Componentes Principais (ACP) é uma técnica estatística que transforma linearmente um conjunto de p variáveis em um novo conjunto com um número menor (k) de variáveis não-correlacionadas, que explica uma parcela substancial das informações do conjunto original. Também será útil quando desejamos confirmar um modelo de agrupamento avaliado com a técnica de Análise de Agrupamentos (ao lado vemos os grupos vistos anteriormente)

51 Motivação No menu Help, opte por Open Examples, na pasta Datasets busque o arquivo Economic Indicators. O arquivo consta de informações econômicas (Imposto, PNB, Inflação e Dívida) de 40 países. Vamos estudar o relacionamento entre as variáveis usando a Análise de Correlações. Depois faremos uma Análise de Agrupamentos e, logo em seguida, uma Análise de Componentes Principais.

52 Motivação Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices. Insira todas as variáveis em One variable list e clique em Summary Correlation matrix. Depois clique na opção Scatterplot matrix.

53 Motivação Vamos avaliar os resultados: O que há de peculiar entre as variáveis? Qual a estrutura de relação entre elas?

54 Motivação

55 Motivação Agora, para finalizar essa motivação, vamos à técnica de Análise de Componentes Principais. No menu Statistics, opte por Multivariate Exploratory Techiniques e Principal Components & Classification Analysis.

56 Motivação Na aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente. Podemos desejar usar apenas algumas observações, então usamos Active cases variable.

57 Motivação Para observar o comportamento das variáveis podemos avaliar um gráfico de scaterplot. Clique em Plot var. factor coordinates, 2D. Em seguida, na aba Cases clique em Plot cases factor coordinates, 2D.

58 Motivação

59 Motivação

60 Principais Objetivos da Análise
As p variáveis originais (X1, , Xp) são transformadas em p variáveis (Y1, , Yp), denominadas componentes principais, de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados, Y2 explica a segunda maior parcela e assim por diante. Portanto, podemos afirmar que os principais objetivos de ACP são: Descrição e entendimento da estrutura de correlação das variáveis Obtenção de combinações interpretáveis das variáveis Componentes Principais Confirma grupos da Análise de Agrupamentos Redução da dimensionalidade dos dados

61 Algumas Considerações Importantes
O intuito da análise é resumir o padrão de correlação entre as variáveis e muitas vezes é possível chegar a conjuntos não correlacionados de variáveis, de modo que surge alguns agrupamentos; Algebricamente, as componentes principais são combinações lineares das variáveis originais; Geometricamente, as componentes principais são as coordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação do sistema de eixos original, na direção da máxima variabilidade dos dados; A análise de componentes principais depende somente da matriz de covariância ou a de correlação. Não exige qualquer suposição sobre a forma da distribuição multivariada dessas variáveis; Se a normalidade existe, a análise é engrandecida, se não ela ainda vale a pena.

62 Como Obter as Componentes Principais
Suponha que estamos observando 3 variáveis que refletem a motivação, preferência e habilidades intelectuais de um grupo de pessoas. No entanto, queremos saber se é possível ter respostas adequadas quando trabalhamos apenas duas variáveis.

63 Como Obter as Componentes Principais
Seja x o vetor das p variáveis originais xT = (X1, , Xp), com Cov(x) = Σ. Considere p combinações lineares de X1, , Xp Y1 = l1Tx = l11X1 + l12X l1pXp Y2 = l2Tx = l21X1 + l22X l2pXp : Yp = lpTx = lp1X1 + lp2X lppXp Então Var(Yi) = liT Var(x) li = liT Σ li e Cov(Yi, Yj) = Cov(liTx, ljTx) = liTΣlj. As componentes principais são as combinações lineares Y1, , Yp não correlacionadas, cujas variâncias são as maiores possíveis.

64 liTli = 1 Cov(liTx, ljTx) = 0,
Como Obter as Componentes Principais A i-ésima componente principal é a combinação linear liTx que maximiza Var(liTx) sujeita às restrições liTli = 1 Cov(liTx, ljTx) = 0, para qualquer j < i. Essas restrições garantem que a soma das variâncias das variáveis originais seja igual à soma das variâncias das componentes principais e que estas sejam não correlacionadas.

65 Como Obter as Componentes Principais
Seja Σ a matriz de covariância associada ao vetor de variáveis aleatórias x. Sejam (λ1, α1), , (λp, αp) os autovalores e os autovetores ortogonais padronizados, associados a Σ, ordenados de modo que λ1 ≥ λ2 ≥ ≥ λp ≥ 0. A i-ésima componente principal é dada por Yi = αiTx = αi1X1 + αi2X αipXp, i = 1, 2, . . ., p. Com esta escolha, Var(Yi) = αiT Σ αi = λi , i = 1, 2, , p Cov(Yi, Yj) = αiT Σ αj = 0, i ≠ j Autovalores de Σ distintos, implica em autovetores ortogonais. Se nem todos são distintos, pode-se escolhê-los ortogonais As componentes principais são não correlacionadas e têm variâncias iguais aos autovalores de Σ. A magnitude de αij mede a importância da j-ésima variável para a i-ésima componente principal

66 Aplicação Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors (Autovalores e Autovetores).

67 Aplicação

68 Aplicação Os autovetores nos dão os coeficientes das equações lineares abaixo: CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt CP1 é responsável por 94,31% da informação original e CP2 é responsável por 3,11% da informação original. Essas duas componentes juntas nos fornecem 97,42% de informação.

69 Propriedades das Componentes Principais
É importante observar quanto da variabilidade total é explicada por cada componente principal. Para encontrar essa medida, basta calcular; Componentes Principais também podem ser obtidas a partir das variáveis padronizadas, ou seja, a partir da matriz de correlação; As componentes principais derivadas da matriz de covariância Σ são, em geral, diferentes das componentes principais derivadas da matriz de correlação ρ; Se os dados seguem uma distribuição Normal Multivariada, os autovalores de Σ são distintos e a análise de componentes principais é feita com base no Estimador de Máxima Verossimilhança da matriz de covariância.

70 Padronizando os dados Quando as variáveis são medidas em escalas
diferentes, é mais natural usar as variáveis padronizadas; Se o objetivo é agrupar indivíduos, de modo que uma análise de agrupamentos segue a análise de componentes principais; Se o objetivo é construir índices (muito comum nas áreas de Economia e Biologia), a análise estatística termina com a obtenção das componentes principais

71 Quantidade de Componentes a Escolher
Critério de Kaiser (1958) Matriz de Covariância Manter na análise as componentes principais correspondentes aos autovalores maiores do que a média dos autovalores. Matriz de Correlação Manter as componentes principais que forem maiores ou iguais a 1. Reter o número de componentes principais que acumulem pelo menos certa Porcentagem da variabilidade total dos dados, digamos 70%. Reter as componentes principais que acumulem pelo menos uma certa porcentagem da variabilidade de cada uma das variáveis originais, digamos 50%.

72 Quantidade de Componentes a Escolher

73 o critério adotado,deve-se sempre fazer
Quantidade de Componentes a Escolher Qualquer que seja o critério adotado,deve-se sempre fazer uso do bom senso e avaliar se alguma componente principal com contribuição importante está sendo descartada.

74 Como Interpretar as Componentes Principais?
A interpretação é feita com base nas correlações entre as variáveis originais e as componentes principais, e nos coeficientes dados pelas combinações lineares que levam às componentes principais; As correlações são medidas das contribuições individuais de cada variável e não consideram a contribuição multivariada das demais variáveis; A primeira componente principal pode ser interpretada como uma média entre as variáveis com maior coeficiente na combinação linear

75 Contribuições Podemos medir o grau de relação que existe entre as variáveis e as componentes principais com a opção Factor & variable correlations. E podemos também medir a contribuição de cada variável para a construção de uma componente principal usando a opção Contributions of variables.

76 Contribuições

77 Análise de Classificação
Podemos avaliar um modelo de agrupamento usando a técnica de componentes principais, basta clicar nas opções Factor coordinates of cases e Plot case factor coordinates, 2D. Um modelo de Scores pode ser exibido com as opções Factor scores e Factor scores Coefficients

78 Análise de Classificação

79 Exercício Abra o arquivo Países.sta e confirme o agrupamento entre os 36 países na técnica de Cluster Analysis.

80 ANÁLISE EXPLORATÓRIA DE DADOS
Análise de Fatores Conceitos e Aplicações Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services

81 Conteúdo Definição e Conceitos Aplicação
Estágios para o Processo de Análise de Fatores Exemplo Exercícios

82 Definição e Conceitos Análise Fatorial é um nome genérico dado a uma classe de métodos estatísticos multivariados cujo propósito principal é definir a estrutura subjacente em uma matriz de dados. Assim, têm-se os seguintes pontos: Abordar o problema de analisar a estrutura das inter-relações (correlações) entre um grande número de variáveis, definindo um conjunto de dimensões latentes comuns, chamadas de fatores; Identificar as dimensões separadas da estrutura e então determinar o grau em que cada variável é explicada por cada dimensão; Resumir e reduzir os dados em dimensões latentes interpretáveis e compreensíveis usando escores para cada dimensão e, conseqüentemente, substituir as variáveis originais.

83 Definição e Conceitos Os modelos de análise fatorial buscam explicar o comportamento das variáveis observadas em relação ao comportamento de um conjunto de variáveis não observadas (variáveis latentes ou fatores). Desta forma, sejam Um modelo de análise fatorial é dado por:

84 Definição e Conceitos Traduzindo para notação de matriz, temos:
Cargas Fatoriais Podemos interpretar as cargas fatoriais como: Observe que os fatores são ortogonais, ou seja a covariância entre fatores é igual a zero. Portanto,

85 Definição e Conceitos Vamos estudar a variância das variáveis observadas. Para Xi temos: o resultado disso é: Portanto, temos dois importantes conceitos: Comunalidade. Parcela da variância de Xi que é explicada pelos fatores comuns. Especificidade. Parcela de variância de Xi que não é explicada pelos fatores Pode-se usar a proporção de variabilidade explicada:

86 Definição e Conceitos Se definimos a variabilidade total das variáveis originais como sendo: temos, então que Representa a parcela da variabilidade total que é explicada pelo conjunto de fatores. Conseqüentemente, é a proporção da variabilidade total dos dados que é explicada pelo conjunto de fatores comuns.

87 Aplicação Imagine a matriz de correlação para nove elementos da imagem de uma loja: Política de devolução Pessoal Disponibilidade de produto Serviço interno Diversidade de itens para cada produto Nível de Preço Atmosfera da loja Diversidade de produtos Qualidade de produto A questão que se pode levantar é: Estes elementos todos são separados no que se refere às suas propriedades de avaliação ou eles se ‘agrupam’ em algumas áreas mais gerais de avaliação?

88 Aplicação

89 Aplicação Experiência Interna Oferta de Produtos Valor

90 Fase 1 Etapas do Processo de Análise Fatorial
Planejamento da Análise Fatorial O propósito geral de técnicas de análise fatorial é encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas com uma perda mínima de informação. Objetivo Fase 1 É importante definir com critério as variáveis que farão parte da pesquisa com Análise Fatorial, definir as propriedades de medidas e tipos de variáveis envolvidas. Quanto maior for o número de variáveis, maior será o tamanho da amostra. Variáveis Algumas cuidados importantes em Análise de Fatores dizem respeito ao tamanho da amostra: Dificilmente um pesquisador realiza uma Análise Fatorial com menos que 50 observações; Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100; Alguns estudiosos propõem um mínimo de 20 observações vezes o número de variáveis a serem estudadas. Quando se lida com amostras menores, o pesquisador sempre deve interpretar qualquer descoberta com precaução. Tamanho da Amostra

91 Etapas do Processo de Análise Fatorial
Abra o arquivo Hatco.sta na pasta Treinamento / BDs / STATISTICA /.

92 Fase 2 Etapas do Processo de Análise Fatorial
Suposições da Análise Fatorial É importante falar sobre as pressuposições para a Análise de Fatores. As suposições críticas na análise fatorial são mais conceituais do que estatísticas: Desvios da normalidade, da homocedasticidade e da linearidade aplicam-se apenas no nível em que elas diminuem as correlações observadas; Segundo pesquisadores, se a normalidade existe, a análise é engrandecida, senão ela ainda vale a pena; Um pouco de multicolinearidade é desejável, pois o objetivo é identificar conjuntos de variáveis inter-relacionados. O pesquisador deve garantir que a matriz de dados tenha correlações suficientes para justificar a aplicação da análise fatorial. Deve haver um número substancial de correlações maiores que 0,30, caso contrário a Análise Fatorial é inapropriada. Fase 2

93 Fase 3 Etapas do Processo de Análise Fatorial
Determinação de Fatores e Avaliação do Ajuste Geral Uma vez especificadas as variáveis e preparada a matriz de correlações, podemos aplicar a análise fatorial para identificar a estrutura latente de relações. A questão agora é que modelo escolher: Componentes Principais ou Análise de Fatores? O modelo de componentes principais é apropriado quando: a preocupação principal é a previsão; ou o número mínimo de fatores para explicar uma quantidade suficiente da variância total das variáveis originais; o conhecimento sobre a variância específica e do erro são pequenas. O modelo fatorial comum é requerido quando: o objetivo é identificar as dimensões latentes representadas nas variáveis originais; o pesquisador tem pouco conhecimento sobre a quantia de variância específica e do erro e, portanto, deseja eliminar essa variância. Fase 3

94 Fase 3 Etapas do Processo de Análise Fatorial
Determinação de Fatores e Avaliação do Ajuste Geral Vale à pena considerar alguns pontos críticos sobre Análise de Fatores: Distintos escores fatoriais podem ser calculados a partir dos resultados do modelo fatorial para qualquer respondente – indeterminância fatorial; Em Análise de Componentes Principais a solução é única para cada respondente; Por vezes, as comunalidades, usadas para representar a variância compartilhada, não são estimáveis ou podem ser inválidas (valores maiores que 1 e menores que 0), exigindo eliminar a variável da análise; Na maioria das aplicações, tanto ACP e AF chegam a resultados essencialmente idênticos se o número de variáveis exceder 30, ou se as comunalidades excederem 0,60 para a maioria das variáveis Quando houver dúvida sobre os pressupostos de ACP, então AF deve ser aplicada para avaliar sua representação da estrutura. Fase 3

95 Fase 3 Etapas do Processo de Análise Fatorial
Critérios para o número de fatores a extrair Critério da raiz latente: Apenas fatores que têm autovalores maiores que 1 são considerados significantes, os demais são descartados; esse critério é mais confiável quando o número de variáveis está entre 20 e 50. Critério a priori: O pesquisador simplesmente já sabe quantos fatores extrair antes de empreender a análise. Critério de percentagem de variância: O objetivo é garantir significância para os fatores que acumulem um percentual acumulado satisfatório da variância total nas variáveis originais. Critério do teste scree: Esse teste é usado para identificar o número ótimo de fatores que podem ser extraídos antes que a quantia de variância única comece a dominar a estrutura de variância comum. Fase 3

96 Fase 4 Etapas do Processo de Análise Fatorial
Interpretação dos Fatores Cargas fatoriais: A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator; As cargas fatoriais são a correlação de cada variável com o fator, elas são significantes quando seus valores excedem 0,70; Cargas maiores fazem a variável ser representativa no fator. Rotação de fatores: Fase 4 Rotação Fatorial Ortogonal e Oblíqua Fator 2 Fator 2_Ort Quartimax. Concentra-se em rotacionar o fator inicial de modo que uma variável tenha carga alta em um fator e cargas tão baixas nos demais; Varimax. Este método, por outro lado, busca concentrar cargas altas e baixas em cada fator, isso maximiza a variância Equamax. É uma espécie de acordo entre os dois métodos acima. 1,0 V1 Fator 2_Obl V2 0,50 Fator 1 -1,0 -0,50 0,50 V3 1,0 V4 -0,50 Fator 1_Obl V5 Fator 1_Ort -1,0

97 Fase 3 Fase 4 Seleção de um método fatorial
A variância total ou apenas a variância comum é analisada Variância Total Extrair fatores com Análise de Componentes Variância Comum Extrair fatores com Análise de fatores comuns Especificação da matriz fatorial Determinar o número de fatores a serem mantidos Fase 4 Seleção de um método rotacional Os fatores devem ser correlacionados (oblíquos) ou não correlacionados (ortogonais)? Método ortogonal Varimax, Equimax, Quartimax Método oblíquo Oblimin, Promax, Ortoblíquo Interpretação da matriz fatorial rotacionada É possível encontrar cargas fatoriais significantes? É possível nomear os fatores? As comunalidades são suficientes Não Reespecificação do modelo fatorial As variáveis foram eliminadas? Deseja mudar o número de fatores? Deseja outro tipo de rotação? Sim

98 Exemplo Vamos usar uma base de dados da Hatco para avaliar a existência de agrupamentos de percepções que clientes têm com respeito à empresa. As variáveis que nos interessam são: X1 a X4, X6 e X7. O tamanho da amostra é de 100 observações, resultando em 14 casos para cada variável, um valor aceitável.

99 Exemplo: Medidas de Correlação
Suposições de Normalidade, Linearidade, Homocedasticidade... afetam as correlações e se estas não são significantes, então a perda é considerável nos resultados da Análise Fatorial. Sendo assim, é preciso avaliar a grandeza e significância das correlações. Estas correlações são significantes ao nível de 5%. Note que 8 das 15 correlações são significantes. Isso é adequado.

100 Exemplo: Decidindo Quantos Fatores Usar
O passo seguinte é selecionar o número de componentes a serem mantidos para análise posterior. Podemos usar os autovalores para fazer essa seleção, tomando o teste da raiz latente em que os autovalores devem assumir resultados superiores a 1. Portanto, temos 3 fatores com essa característica e que respondem por 83,24% da variabilidade nas variáveis originais.

101 Exemplo: O Gráfico para o Teste da Raiz Latente

102 Exemplo: Cargas Fatoriais e Cumunalidades
Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA que ele deve escolher 2 fatores com autovalores maior que 1. Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading.

103 Exemplo: Cargas Fatoriais e Cumunalidades
O fator 1 é o que explica a porção maior da variabilidade e o fator 2 é o que explica ligeiramente menos; 2,51 é a porção de variabilidade total explicada pelo Fator 1, isso corresponde a 41,89% de explicação; 1,74 é a porção de variabilidade total explicada pelo Fator 2 que corresponde a 28,99% de explicação; A significância das cargas fatoriais foram aquelas com valores superiores a 0,70.

104 Exemplo: Aplicando Rotação Varimax
A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores. Desta forma temos 39,50% em lugar dos 41,89% para o Fator 1; temos 31,40% em lugar dos 28,99% para o Fator 2.

105 Exemplo: Aplicando Rotação Varimax

106 Exemplo: Aplicando Rotação Varimax

107 Exemplo: Aplicando Rotação Varimax
Avaliem a base de dados Países.sta vista anteriormente, usando Análise de Fatores

108 ANÁLISE EXPLORATÓRIA DE DADOS
Análise Discriminante Conceitos e Aplicações Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services

109 Conteúdo Definição e Conceitos
Estágios para o Processo de Análise Discriminante Exemplo no STATISTICA

110 Definição A análise discriminante envolve determinar uma variável estatística que é a combinação linear de duas ou mais variáveis independentes que discriminarão melhor entre grupos definidos a priori. A discriminação é conseguida estabelecendo-se os pesos da variável estatística para cada variável para maximizar a variância entre grupos relativa à variância dentro dos grupos. A B A B Função Discriminante Função Discriminante

111 Definição A combinação linear para uma análise discriminante, também conhecida como a função discriminante, é determinada de uma equação que assume a seguinte forma: onde zjk = escore Z discriminante da função discriminante j para o objeto k a = intercepto wi = peso discriminante para a variável independente i xik = objeto k na variável Xi.

112 Exemplo Uma empresa está interessada em investigar se um de seus novos produtos será comercialmente bem-sucedido. Isso conduz a uma pesquisa com consumidores que comprariam ou não o novo produto. Estudamos, então, as 3 características descritas no quadro abaixo: Note que a característica Durabilidade discrimina bem os dois grupos. Já a característica Estilo tem uma diferença entre médias de grupo igual a 0,2. No entanto, isso não caracteriza uma má discriminação. É preciso avaliar a dispersão e os escores discriminantes.

113 Exemplo X1 Durabilidade X2 Desempenho X3 Estilo 8 10 5 2 1 4 3 9 7 6 1

114 Exemplo Usando apenas a variável X1 obtemos um percentual de classificação correta de 90%, visto que o item 5 não foi alocado corretamente. Quando inserimos a variável X2, obtemos 100% de acerto na Função 2. Mas com a análise discriminante, estamos interessados não só em agrupar, como também maximizar variabilidade entre grupos.

115 Exemplo

116 Exemplo Faremos um procedimento passo a passo. O método é o Forward stepwise.

117 Exemplo O função discriminante:

118 Exemplo A Matriz de Classificação e a Classificação dos Casos estão demonstradas nas tabelas a seguir.

119 Estágios do Processo de Análise Discriminante
À medida que conceituamos os procedimentos da análise faremos um exemplo para nos familiarizarmos com o STATISTICA. Abra o arquivo Hatco.sta. Em Vars, opte por clicar em All Specs. Veja o significado de cada variável.

120 Estágios do Processo de Análise Discriminante
Objetivo da Pesquisa: Determinar se existem diferenças estatisticamente significantes entre os perfis de escore médio em um conjunto de variáveis para dois (ou mais) grupos definidos a priori; Determinar quais das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos dois ou mais grupos; Estabelecer procedimentos para classificar objetos em grupos, com base em seus escores em um conjunto de variáveis independentes; Estabelecer o número e a composição das dimensões de discriminação entre grupos formados a partir do conjunto de variáveis independentes.

121 Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante: Seleção de Variáveis Dependente e Independentes: O pesquisador deve se concentrar na variável dependente primeiro. O número de grupos pode ser dois ou mais, mas devem ser mutuamente excludentes e cobrir todos os casos. Tamanho da amostra: A Análise Discriminante é muito sensível ao tamanho da amostra e o número de variáveis preditoras Alguns estudos sugerem um número de 20 observações para cada preditora. Divisão da Amostra: É muito comum um estudo de validação do modelo, usando recursos de divisão da amostra (crossvalidation); este procedimento consiste em dividir a amostra em duas partes: 1. Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).

122 Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante Vamos observar os dados em termos de média e desvio-padrão, considerando o tamanho amostral.

123 Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante Crie uma nova variável na tabela em que o valor geral é 1 para todos os casos. Ela aparece ao lado como NewVar e será uma variável auxiliar para contagem de casos.

124 Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante A variável X11 avalia duas abordagens quanto à compra de produtos e serviços: 1 – Análise de Valor Total: avalia cada aspecto de compra, incluindo cada tanto o produto quanto o serviço que é comprado; 0 – Especificação de Compra: define-se todas as características de produto e serviço desejados e o vendedor, então, faz uma oferta para preencher as especificações. Já a variável Grupo define uma parte das observações que será usado para análise (assume valor 0) e a parte das observações que será usada para validar (assume valor 1) o modelo discriminante. Usamos 60 observações para análise e 40 para validação.

125 Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante

126 Estágios do Processo de Análise Discriminante
Suposições da Análise Discriminante: Uma suposição chave é a de normalidade multivariada para as variáveis independentes. Existem evidências da sensibilidade da análise discriminante a violações dessas suposições; Outra questão é a matriz de covariância que é desconhecida, no entanto deve ser igual para todo grupo; matrizes desiguais afetam negativamente o processo de classificação; Também é preciso ter cuidado com a Multicolinearidade.

127 Estágios do Processo de Análise Discriminante
Estimação do Modelo Discriminante: Método Computacional Estimação Simultânea: envolve a computação da função discriminante, de modo que todas as variáveis independentes são consideradas juntas; Estimação Stepwise: envolve a inclusão das variáveis independentes na função discriminante, uma por vez, com base em seu poder discriminatório. Significância Estatística As medidas de lambda de Wilks, traço de Hotelling e critério de Pillai avaliam a significância estatística do poder discriminatório da função discriminante; A maior raiz característica de Roy avalia apenas a primeira função discriminante; Se um método stepwise é empregado para estimar a função discriminante, as medidas D2 de Mahalanobis são mais adequadas

128 Exemplo no STATISTICA

129 Exemplo no STATISTICA Escolha a opção Tradicional discriminant analysis. A outra opção é usada quando temos variáveis independentes categóricas. Escolha as variáveis para análise em Variables: X11 é Dependente e de X1 a X7, são as Independentes.

130 Exemplo no STATISTICA Habilite a opção Foward stepwise para o procedimento computacional Vamos usar a opção Cross validation para avaliar a função discriminante para esses dados.

131 Exemplo no STATISTICA

132 Exemplo no STATISTICA Esta tabela nos dá o entendimento das variáveis que entram na Análise Discriminante.

133 Exemplo no STATISTICA Note que a variável X7 é a que apresenta maior poder discriminante e foi escolhida primeiro. Em seguida aparece X3 e depois X1 disputa com X5 com valores muito próximos. Após a seleção das 3 variáveis, as 4 restantes não contribuem para discriminar os grupos.

134 Exemplo no STATISTICA Avaliação do Ajuste Geral:
Cálculo de Escores Z discriminantes Avaliação de Diferenças de Grupos Um caminho para avaliar o ajuste geral do modelo é determinar a magnitude de diferenças entre membros de cada grupo em termos dos escores Z discriminantes. Podemos fazer isso usando a comparação dos centróides dos grupos, o escore Z discriminante média para todos os membros dos grupos. Avaliação da Precisão Preditiva de Pertinência de Grupo O uso de matriz de classificação nos informa o valor razão de sucesso (um percentual de classificação correta); O escore de corte que é o critério em relação ao qual o escore discriminante de cada objeto é comparado para determinar em qual grupo o objeto deve ser classificado.

135 Exemplo no STATISTICA O que desejamos, desde o início, é maximizar a distância entre as médias populacionais e minimizar a variância. Uma medida de distância usada é o D2 de Mahalanobis. Clique nas opções Class squared Mahalanobis distances, Class means for canonical variables e Tests of significance of distances.

136 Exemplo no STATISTICA Observações com escores discriminantes menores que ZCorte se classificam no grupo de Análise de Valor Total ( 1 ). E os escores com valores maiores, se classificam no grupo Especificação de Compra ( 0 ).

137 Exemplo no STATISTICA

138 Exemplo no STATISTICA

139 Exemplo no STATISTICA Interpretação dos Resultados:
Pesos Discriminantes A interpretação de pesos discriminantes é análoga à interpretação de pesos beta em análise de regressão e está, portanto, sujeita às mesmas críticas. É a função discriminante com pesos padronizados.

140 Exemplo no STATISTICA Interpretação dos Resultados:
Cargas Discriminantes As cargas discriminantes medem a correlação linear simples entre cada variável independente e a função discriminante. As cargas são consideradas mais válidas do que os pesos como um meio de interpretação do poder discriminatório de variáveis independentes por causa de sua natureza correlacional.

141 Exemplo no STATISTICA Interpretação dos Resultados:
A Diferença entre os Grupos Associado a cada função discriminante encontramos um raiz característica (autovalor); O teste Lambda de Wilk avalia a diferença entre os grupos (0 e 1); A estatística Qui-Quadrado revela se a diferença entre os grupos é significante; O R canônico pode ser interpretado elevando-se o seu valor ao quadrado, então dizemos que o modelo discriminante explica certa porcentagem (66,9%) da variância na variável dependente.

142 Exemplo no STATISTICA Coeficientes da Função de Classificação
Resultados da Classificação

143 Aplicação em Processo Multivariado
Multivariate Statistical Process Control Aplicação em Processo Multivariado Josias Jônatas Data Mining Consultant StatSoft South America Consulting Services

144 Controle Estatístico do Processo
fornece ferramentas para detecção de falhas em condições operacionais; os dados, em tais operações, devem ser apresentados em bateladas; as ferramentas analíticas operam em universo univariado; assume que o processo está sob controle quando suas ocorrências estão dentro de intervalos especificados; existem diversos testes que avaliam a estabilidade do processo e a sua capacidade; permite avaliar processos com distribuição não-normal – processos anormais incorrem em perdas da qualidade.

145 Regras de avaliação do Processo
Pontos Fundamentais em CEP Origem dos dados Limites de controle Regras de avaliação do Processo Análise on-line Detecção de outliers

146 Controle Estatístico do Processo Multivariado
fornece ferramentas para detecção de falhas em condições operacionais no tempo e por lote; monitora o processo considerando o grau de correlação existente entre variáveis; as ferramentas analíticas operam em universo multivariado; testes multivariados avaliam a estabilidade do processo; cartas de controle multivariadas avaliam o processo off-line e on-line.

147 Avaliamos cada variável no tempo;
LSC para Diâmetro Interno de Pistão LIC para Diâmetro Interno de Pistão LSC para Diâmetro Externo de Pistão LIC para Diâmetro Externo de Pistão Usando MSPC: Avaliamos cada variável no tempo; Avaliamos o conjunto de variáveis, dado que a relação entre elas existe; Avaliamos cada lote para determinar sucesso na detecção de um processo irregular.

148 Controle Estatístico do Processo Multivariado
Tempo i Variáveis . Lotes 1 2 k 2 . j

149 Time-wise Mult-way Principal Components Analysis
Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso desta técnica multivariada. Os dados vem de um processo industrial que mede a polimerização de um reator por lote.

150 Time-wise Mult-way Principal Components Analysis
Descrição do problema: Para cada batelada tomamos 100 leituras de 10 variáveis observadas; Tomamos 55 bateladas: 47 bateladas alcançaram sucesso, ou seja, a qualidade do polímero é aceitável: 1-37, 39, 41, 43, 44, 47 e 49; 4 bateladas estão próximas do limite de tolerância: 38, 45, 46 e 49; 8 bateladas não obtiveram sucesso: 40, 42 e 50-55; Dividimos essas bateladas em 2 arquivos: 30 com sucesso estão em NormalBatches.sta e 25 (com sucesso, sem sucesso e próximo dos limites) foram misturadas em BatchesForDeployment.sta.

151 Time-wise Mult-way Principal Components Analysis
Objetivos da análise: Aplicar TMPCA em NormalBatches.sta para construir um modelo de referência que descreva a evolução de bons lotes; Usar este modelo para identificar bateladas futuras como lotes com Sucesso ou sem Sucesso usando os dados de BatchesForDeployment.sta.

152 Time-wise Mult-way Principal Components Analysis

153 Time-wise Mult-way Principal Components Analysis
Podemos explorar o comportamento do Processo com PCA e modelar com PLS, usando o tempo ou os lotes. Este módulo suporta a entrada tanto de variáveis contínuas como de variáveis discretas que assumam um comportamento dicotômico (variável dummy), assumindo valores 0 e 1.

154 Time-wise Mult-way Principal Components Analysis
Escolha as variáveis como no quadro a seguir.

155 Time-wise Mult-way Principal Components Analysis
Nonlinear Iterative Partial Least Squares, NIPALS é o algoritmo responsável por encontrar o conjunto mais adequado de Componentes Principais e também por descrever um modelo de estrutura latente nos dados (PLS). Nesta janela, selecionamos o método para determinar o número de componentes. O método de Cross Validation é indicado, visto que fará uma busca iterativa do melhor número de componentes.

156 Time-wise Mult-way Principal Components Analysis
Uma importante característica do STATISTICA TMPCA é sua funcionalidade de pré-processamento que nos habilita a a padronizar os dados para construir um modelo melhor. A opção default é Unit standard deviations, ela calcular um único desvio padrão para padronizar todos os lotes. Esse procedimento é requerido sempre que executamos uma PCA. Podemos criar um procedimento de substituição de Missing Data. E quando trabalhamos com grandes bases de dados, podemos informar ao STATISTICA que a base é de certa ordem em MB.

157 Time-wise Mult-way Principal Components Analysis

158 Time-wise Mult-way Principal Components Analysis
Uma avaliação primária é concernente às componentes geradas pela iteração. Na opção Summary na aba Quick, vemos uma tabela que avalia o R2 das componentes com os casos selecionados aleatoriamente para treinamento do modelo por Cross Validation. A parte dos casos que não foi usada no modelo tem o seu índice em Q2. Foram geradas 14 componentes, visto que 10 componentes foram avaliadas com casos para treinamento e 10 com casos para teste.

159 Time-wise Mult-way Principal Components Analysis

160 Time-wise Mult-way Principal Components Analysis

161 Time-wise Mult-way Principal Components Analysis

162 Time-wise Mult-way Principal Components Analysis

163 Time-wise Mult-way Principal Components Analysis

164 Time-wise Mult-way Principal Components Analysis
Agora o alvo é encontrar possíveis outliers. Podemos detectar outliers a partir de seus x-scores, visto que o uso de Componentes Principais transformou os valores originais em outra escala. Usamos, então, a distribuição amostral multivariada T2-Hotelling. Para ao i-ésima observação temos: tik é o escore da i-ésima observação para o k-ésimo componente; sik é o desvio padrão estimado de tk; C é o número de componentes.

165 Time-wise Mult-way Principal Components Analysis
Outras medidas para diagnóstico: O T2-Hotelling não é suficiente para predizer outliers, especialmente se inserimos observações que não foram usadas para treinar o modelo. Uma quantidade melhor é o Erro Quadrático da Predição (SPE – Square of the predictions error). Para o i-ésimo elemento temos o SPE definido ao lado. Podemos usar ainda os resíduos para detectar outliers com a técnica distância do modelo (D-To-Model). Tome a i-ésima observação e veja ao lado. xij é um elemento da matriz X_Barra; xij é um elemento da matriz de escores das Componentes Principais ^ M é o número de variáveis originais; xij é o número de componentes

166 Time-wise Mult-way Principal Components Analysis

167 Time-wise Mult-way Principal Components Analysis

168 Time-wise Mult-way Principal Components Analysis
Os valores são considerados outliers se excedem o limite calculado de 0,496 calculado pela solução.

169 Time-wise Mult-way Principal Components Analysis

170 Time-wise Mult-way Principal Components Analysis
O gráfico abaixo exprime o fato de que as bateladas não sofrem desvios da normalidade quando avaliamos as 10 variáveis juntas. A elipse representa o limite correlacionado para esta variáveis.

171 Time-wise Mult-way Principal Components Analysis

172 Time-wise Mult-way Principal Components Analysis
Podemos ainda avaliar a importância de cada variável para algum componente. O gráfico abaixo, por exemplo, se refere ao primeiro componente e, note, a primeira variável é a que mais influencia.

173 Time-wise Mult-way Principal Components Analysis

174 Time-wise Mult-way Principal Components Analysis
Para avaliar a trajetória dos pontos ao longo do tempo, usamos a opção Trajectory.

175 Time-wise Mult-way Principal Components Analysis
Agora vamos avaliar uma nova batelada contida no arquivo Batches For Deployment, no Help do STATISTICA, usando o procedimento de MSPC Deployment. Gere o PMML script do como ao lado.

176 Time-wise Mult-way Principal Components Analysis

177 Time-wise Mult-way Principal Components Analysis
Cancele a janela ao lado até retornar à janela inicial. Abra o arquivo que será avaliado (use Open Data) e siga os passos.

178 Time-wise Mult-way Principal Components Analysis
Busque o script do PMML salvo em lugar conhecido e seguro. Use a opção Load models do STATISTICA MSPC. Assim que inserir o script, as opções na aba Results estarão habilitadas para uso. Clique em Summary.

179 Time-wise Mult-way Principal Components Analysis
Avalie novamente os resultados anteriores para esse novo conjunto de bateladas. Observe que essas bateladas estão fora de especificação e, portanto, a qualidade dos polímeros não é satisfatória.

180 Time-wise Mult-way Principal Components Analysis

181 Fim da Aula StatSoft South America Deptº. de Projetos e Consultoria
Josias Jônatas – Consultor Data Miner Deptº. de Treinamentos e Suporte Andréia Santiago – Gerente de Treinamentos Fone: Fax:


Carregar ppt "ANÁLISE MULTIVARIADA DE DADOS"

Apresentações semelhantes


Anúncios Google