A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Técnicas Multivariadas

Apresentações semelhantes


Apresentação em tema: "Técnicas Multivariadas"— Transcrição da apresentação:

1 Técnicas Multivariadas
Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi

2 Técnicas Multivariadas
Tópicos abrangidos: Análise Discriminante Análise de Cluster Análise de Correspondência

3 Análise Discriminante
Técnicas Multivariadas Análise Discriminante Objetivo Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas. Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas. Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença. Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas.

4 Análise Discriminante
Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa; Hitler criou as medidas perfeitas de um ariano puro; Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas.

5 Análise Discriminante
Exemplos: Área de crédito: dado o cadastro de clientes, estabelecer um critério para empréstimo. (Credit Score); Área de negócios: criar uma regra, a partir de um banco de dados sobre a previsão de insolvência de empresas; Área de negócios: regra para prever a troca de fornecedores por parte dos clientes; Policial: através das imagens de satélite ser capaz de reconhecer se uma plantação é de maconha. Policial: construir um critério para ajudar a PM de nossa cidade a identificar os locais de maior risco em relação à criminalidade.

6 Análise Discriminante
Grupos Casos X1 X2 ... Xp 1 X111 X112 X11p 2 X211 X212 X21p n1 Xn1,11 Xn1,12 Xn1,1p X121 X222 X12p n2 Xn221 Xn2,22 Xn2,2p m X1m1 X1m2 X1mp .... nm Xnm,m1 Xnm,m2 Xnm,mp

7 Análise Discriminante
Avaliação de um novo produto Grupo Sujeito Durabilidade Desempenho Estilo 1 8 9 6 2 7 5 3 10 4

8 Análise Discriminante
Curso de Multivariada\NOVPRODU.STA

9 Análise de Cluster Objetivo
Dado um conjunto de n objetos observados através de p variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas. O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão. Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos.

10 Análise de Cluster A forma de agir da Análise de Cluster difere das demais técnicas por trabalhar unicamente com o conceito de distância entre os sujeitos. A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística. Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo. Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação.

11 Análise de Cluster Algorítmos de agrupamento:
Como fazer para colocar no mesmo grupos os casos? Método Hierárquico Método aglomerativo – começa só com ele Método divisivo – começa com todos os casos Dendrograma – árvore que mostra os casos se agrupando Algorítmos: single linkage, average linkage e complete linkage Ward

12 Análise de Cluster Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. Método de Referencia Seqüencial Método da Referencia Paralela Método da Otimização

13 Análise de Cluster Número de Agrupamentos: quantos grupos formar?
Não existem regras que possam ser recomendadas para todos os casos. Existe a regra estatística, que a distância entre os agrupamentos são claramente determinados a partir de um teste de hipóteses; Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma.

14 Análise de Cluster STATISTICA.lnk

15 Análise de Correspondências
Objetivo Analisar tabelas de dupla-entrada ou de múltiplas entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas; Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico.

16 Análise de Correspondências
Exemplo: Consideremos as vendas de três produtos A, B e C para pessoas de três faixas etárias. Venda de produto Faixa etária A B C Total 18 – 35 20 60 36 – 55 40 10 90 56 ou + 70 80 100 220

17 Análise de Correspondências
Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y; Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária; Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado.

18 Análise de Correspondências
Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações. Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores. Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas.

19 Análise de Correspondências
Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula:

20 Análise de Correspondências
Venda de produto Faixa etária A B C Total 18 – 35 21,8 0,15 -0,15 10,9 7,58 27,3 1,94 -1,94 60 9,67 36 – 55 32,7 1,62 6,4 2,47 -2,47 40,9 0,02 -0,02 90 4,11 56 ou + 25,4 1,17 -1,17 12,7 0,58 -0,58 31,8 2,10 70 3,85 80 2,94 40 10,63 100 4,06 220 17,63

21 Análise de Correspondências

22 Análise de Correspondências
A partir da construção de uma estrutura de relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos. A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios. A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico.

23 Bibliografia Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005 Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998. Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997. Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. Lopez, C.P. Métodos Estadísticos Avanzados com SPSS. Thomson, 2005.

24 Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias. Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na MegaSena (mas se ganharem não se esqueçam da minha comissão)


Carregar ppt "Técnicas Multivariadas"

Apresentações semelhantes


Anúncios Google