A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

Apresentações semelhantes


Apresentação em tema: "Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi."— Transcrição da apresentação:

1 djoi@power.ufscar.br1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi

2 djoi@power.ufscar.br 2 Técnicas Multivariadas Tópicos abrangidos :  Análise Discriminante  Análise de Cluster  Análise de Correspondência

3 djoi@power.ufscar.br 3 Análise Discriminante Objetivo  Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas.  Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas.  Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença.  Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas.

4 djoi@power.ufscar.br 4 Análise Discriminante Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa; Hitler criou as medidas perfeitas de um ariano puro; Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas.

5 djoi@power.ufscar.br 5 Análise Discriminante Exemplos:  Área de crédito: dado o cadastro de clientes, estabelecer um critério para empréstimo. (Credit Score);  Área de negócios: criar uma regra, a partir de um banco de dados sobre a previsão de insolvência de empresas;  Área de negócios: regra para prever a troca de fornecedores por parte dos clientes;  Policial: através das imagens de satélite ser capaz de reconhecer se uma plantação é de maconha.  Policial: construir um critério para ajudar a PM de nossa cidade a identificar os locais de maior risco em relação à criminalidade.

6 djoi@power.ufscar.br 6 Análise Discriminante GruposCasosX1X1 X2X2...XpXp 11X 111 X 112...X 11p 12X 211 X 212...X 21p... 1n1n1 X n1,11 X n1,12...X n1,1p 21X 121 X 222...X 12p... 2n2n2 X n221 X n2,22...X n2,2p... m1X 1m1 X 1m2...X 1mp.......... mnmnm X nm,m1 X nm,m2...X nm,mp

7 djoi@power.ufscar.br 7 Análise Discriminante Avaliação de um novo produto GrupoSujeitoDurabilidadeDesempenhoEstilo 11896 12675 131063 14944 15482 26547 27372 28455 29243 2 222

8 djoi@power.ufscar.br 8 Análise Discriminante Curso de Multivariada\NOVPRODU.STA

9 djoi@power.ufscar.br 9 Análise de Cluster Objetivo  Dado um conjunto de n objetos observados através de p variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas.  O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão.  Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos.

10 djoi@power.ufscar.br 10 Análise de Cluster A forma de agir da Análise de Cluster difere das demais técnicas por trabalhar unicamente com o conceito de distância entre os sujeitos. A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística. Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo. Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação.

11 djoi@power.ufscar.br 11 Análise de Cluster Algorítmos de agrupamento:  Como fazer para colocar no mesmo grupos os casos?  Método Hierárquico Método aglomerativo – começa só com ele Método divisivo – começa com todos os casos Dendrograma – árvore que mostra os casos se agrupando Algorítmos:  single linkage, average linkage e complete linkage  Ward

12 djoi@power.ufscar.br 12 Análise de Cluster  Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. Método de Referencia Seqüencial Método da Referencia Paralela Método da Otimização

13 djoi@power.ufscar.br 13 Análise de Cluster  Número de Agrupamentos: quantos grupos formar? Não existem regras que possam ser recomendadas para todos os casos. Existe a regra estatística, que a distância entre os agrupamentos são claramente determinados a partir de um teste de hipóteses; Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma.

14 djoi@power.ufscar.br 14 Análise de Cluster STATISTICA.lnk

15 djoi@power.ufscar.br 15 Análise de Correspondências Objetivo  Analisar tabelas de dupla-entrada ou de múltiplas entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas;  Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico.

16 djoi@power.ufscar.br 16 Análise de Correspondências Exemplo:  Consideremos as vendas de três produtos A, B e C para pessoas de três faixas etárias. Venda de produto Faixa etáriaABCTotal 18 – 3520 60 36 – 5540104090 56 ou +20104070 Total8040100220

17 djoi@power.ufscar.br 17 Análise de Correspondências Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y; Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária; Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado.

18 djoi@power.ufscar.br 18 Análise de Correspondências Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações. Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores. Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas.

19 djoi@power.ufscar.br 19 Análise de Correspondências Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula:

20 djoi@power.ufscar.br 20 Análise de Correspondências Venda de produto Faixa etáriaABCTotal 18 – 35 21,8 0,15 -0,15 10,9 7,58 27,3 1,94 -1,94 60 9,67 36 – 55 32,7 1,62 6,4 2,47 -2,47 40,9 0,02 -0,02 90 4,11 56 ou + 25,4 1,17 -1,17 12,7 0,58 -0,58 31,8 2,10 70 3,85 Total 80 2,94 40 10,63 100 4,06 220 17,63

21 djoi@power.ufscar.br 21 Análise de Correspondências

22 djoi@power.ufscar.br 22 Análise de Correspondências A partir da construção de uma estrutura de relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos. A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios. A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico.

23 djoi@power.ufscar.br 23 Bibliografia Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005 Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998. Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997. Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. Lopez, C.P. Métodos Estadísticos Avanzados com SPSS. Thomson, 2005.

24 djoi@power.ufscar.br 24 Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias. Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na MegaSena (mas se ganharem não se esqueçam da minha comissão)


Carregar ppt "Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi."

Apresentações semelhantes


Anúncios Google