A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi.

Apresentações semelhantes


Apresentação em tema: "Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi."— Transcrição da apresentação:

1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi

2 2 Técnicas Multivariadas Tópicos abrangidos :  Análise Discriminante  Análise de Cluster  Análise de Correspondência

3 3 Análise Discriminante Objetivo  Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas.  Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas.  Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença.  Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas.

4 4 Análise Discriminante Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa; Hitler criou as medidas perfeitas de um ariano puro; Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas.

5 5 Análise Discriminante Exemplos:  Área de crédito: dado o cadastro de clientes, estabelecer um critério para empréstimo. (Credit Score);  Área de negócios: criar uma regra, a partir de um banco de dados sobre a previsão de insolvência de empresas;  Área de negócios: regra para prever a troca de fornecedores por parte dos clientes;  Policial: através das imagens de satélite ser capaz de reconhecer se uma plantação é de maconha.  Policial: construir um critério para ajudar a PM de nossa cidade a identificar os locais de maior risco em relação à criminalidade.

6 6 Análise Discriminante GruposCasosX1X1 X2X2...XpXp 11X 111 X X 11p 12X 211 X X 21p... 1n1n1 X n1,11 X n1,12...X n1,1p 21X 121 X X 12p... 2n2n2 X n221 X n2,22...X n2,2p... m1X 1m1 X 1m2...X 1mp mnmnm X nm,m1 X nm,m2...X nm,mp

7 7 Análise Discriminante Avaliação de um novo produto GrupoSujeitoDurabilidadeDesempenhoEstilo

8 8 Análise Discriminante Curso de Multivariada\NOVPRODU.STA

9 9 Análise de Cluster Objetivo  Dado um conjunto de n objetos observados através de p variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas.  O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão.  Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos.

10 10 Análise de Cluster A forma de agir da Análise de Cluster difere das demais técnicas por trabalhar unicamente com o conceito de distância entre os sujeitos. A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística. Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo. Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação.

11 11 Análise de Cluster Algorítmos de agrupamento:  Como fazer para colocar no mesmo grupos os casos?  Método Hierárquico Método aglomerativo – começa só com ele Método divisivo – começa com todos os casos Dendrograma – árvore que mostra os casos se agrupando Algorítmos:  single linkage, average linkage e complete linkage  Ward

12 12 Análise de Cluster  Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. Método de Referencia Seqüencial Método da Referencia Paralela Método da Otimização

13 13 Análise de Cluster  Número de Agrupamentos: quantos grupos formar? Não existem regras que possam ser recomendadas para todos os casos. Existe a regra estatística, que a distância entre os agrupamentos são claramente determinados a partir de um teste de hipóteses; Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma.

14 14 Análise de Cluster STATISTICA.lnk

15 15 Análise de Correspondências Objetivo  Analisar tabelas de dupla-entrada ou de múltiplas entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas;  Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico.

16 16 Análise de Correspondências Exemplo:  Consideremos as vendas de três produtos A, B e C para pessoas de três faixas etárias. Venda de produto Faixa etáriaABCTotal 18 – – ou Total

17 17 Análise de Correspondências Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y; Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária; Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado.

18 18 Análise de Correspondências Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações. Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores. Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas.

19 19 Análise de Correspondências Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula:

20 20 Análise de Correspondências Venda de produto Faixa etáriaABCTotal 18 – 35 21,8 0,15 -0,15 10,9 7,58 27,3 1,94 -1, ,67 36 – 55 32,7 1,62 6,4 2,47 -2,47 40,9 0,02 -0, ,11 56 ou + 25,4 1,17 -1,17 12,7 0,58 -0,58 31,8 2, ,85 Total 80 2, , , ,63

21 21 Análise de Correspondências

22 22 Análise de Correspondências A partir da construção de uma estrutura de relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos. A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios. A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico.

23 23 Bibliografia Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005 Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, Manual do Statistica, Vol III: Statistics II. StatSoft, Lopez, C.P. Métodos Estadísticos Avanzados com SPSS. Thomson, 2005.

24 24 Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias. Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na MegaSena (mas se ganharem não se esqueçam da minha comissão)


Carregar ppt "Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi."

Apresentações semelhantes


Anúncios Google