A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.

Apresentações semelhantes


Apresentação em tema: "Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração."— Transcrição da apresentação:

1 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração “Caracterização e Aplicação da Diversidade Biológica” Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Dr. Fernando Frei

2 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Medidas de similaridade A escolha do coeficiente de similaridade depende da escala de mensuração da variável. Assim, o tratamento dado às variáveis de escalas intervalares é diferente das variáveis nominais Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

3 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Suponhamos n objetos a serem agrupados: seres humanos, animais, palavras, regiões etc. A entrada dos dados é representada por uma matriz composta por n linhas e p colunas (nxp), onde n representa os objetos e p as medidas das variáveis analisadas. A definição da matriz de dados brutos (nxp) é o primeiro passo para a obtenção da matriz de similaridades nxn, onde a intersecção de linha e coluna mostra a similaridade de dois objetos Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

4 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Consideram-se dois tipos de similaridades: Similaridade: Mede quão semelhante são dois objetos Maior valor – Maior a Similaridade Dissimilaridade: Mede quão diferentes são dois objetos. Menor valor – Maior Similaridade Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

5 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Variáveis de Escalas Contínuas Medidas podem ser organizadas em uma matriz de dados brutos (nxp) onde as n linhas correspondem aos objetos e as p colunas às variáveis. Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. SujeitoPesoAlturaCC 1 CQ 2 Coles 3 TG 4 170,3177,081,479,0190,480,0 265,9160,083,681,5170,569,0 366,0166,877,478,0169,696,0 492,5178,990,290,6169,793,0 556,0164,375,081,0177,077,0... 7658,0159,075,492,0199,083,0

6 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas O coeficiente mais utilizado para dois objetos i e j fixados, para este tipo de escala é a distância euclidiana, que fornece a dissimilaridade, dada por : Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 9,20Reg04 13,20Reg03 8,70Reg02 12,45Reg01 DiamCopaRegião Exemplo 1 Matriz de dados Brutos Uma única variável!

7 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. RegiãoDiamCopa Reg0112,45 Reg028,70 Reg0313,20 Reg049,20 Proximity Matrix Case Euclidean Distance Reg01Reg02Reg03Reg04 Reg01.0003.750.7503.250 Reg023.750.0004.500.500 Reg03.7504.500.0004.000 Reg043.250.5004.000.000 This is a dissimilarity matrix

8 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. RegiãoDimCopaAltura Reg0112,4522,88 Reg028,7013,00 Reg0313,2025,11 Reg049,2015,70 Exemplo 1 Matriz de dados Brutos Duas variáveis Proximity Matrix Case Euclidean Distance Reg01Reg02Reg03Reg04 Reg01.00010.5682.3537.881 Reg0210.568.00012.9192.746 Reg032.35312.919.00010.225 Reg047.8812.74610.225.000 This is a dissimilarity matrix

9 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Outra distância conhecida é a city block ou Manhattan definida por: Outras distâncias podem ser construídas a partir da distância euclidiana onde cada variável recebe um peso W, de acordo com sua importância Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

10 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Cuidados com as medidas! Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. A padronização evita que as unidades escolhidas para mensurar as variáveis, possam afetar a similaridade entre os objetos. Assim, as variáveis contribuem de forma mais igualitária para a similaridade entre os objetos. Por exemplo, se a amplitude dos valores de um atributo é muito maior que a amplitude de um segundo atributo, então este primeiro atributo irá contribuir com um peso maior para a similaridade entre os objetos.

11 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Padronização Z Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. e representam a média e desvio padrão dos valores da variável f. Desta maneira todas as variáveis padronizadas deixarão de ter unidade. e representam a média e desvio padrão dos valores da variável f. Desta maneira todas as variáveis padronizadas deixarão de ter unidade. e representam a média e desvio padrão dos valores da variável f. Desta maneira todas as variáveis padronizadas deixarão de ter unidade. e representam a média e desvio padrão dos valores da variável f. Desta maneira todas as variáveis padronizadas deixarão de ter unidade.

12 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. % Crianças% de Adultos % de Residências MunicípiosPopulaçãoVacinadaAlfabetizadoscom àgua A35000879085 B11000869285 C30000506137 Exemplo Observe que na tabela abaixo, os municípios A e B são semelhantes quanto as três últimas variáveis, mas apresentam uma distância muito grande em relação às suas populações. Sem a padronização, a variável população vai influenciar e muito no resultado da matriz de distância

13 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Exemplo Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. % Crianças% de Adultos % de Residências MunicípiosPopulaçãoVacinadaAlfabetizadoscom Água A35000879085 B11000869285 C30000506137 1  ) 2  ) Municípios Matriz Distância NÃO PADRONIZADA ABC A.0576000005.025004514.0 B576000005.0.0361004561.0 C25004514.0361004561.0.0 Municípios Matriz Distância Padronizada ABC A.0003.6089.031 B3.608.00011.361 C9.03111.361.000 Observe que a distância entre a cidade A e B é muito grande sem padronização. A variável “população” está inflacionando o resultado da distância.

14 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Variáveis de Escalas Nominais Variáveis Binárias Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Ao procedermos a análise dessas variáveis é usual apresentar as duas categorias exaustivas e mutuamente exclusivas com os códigos 1 para presença do atributo e 0 para a ausência. objeto j 10 objeto i 1aba+b 0cdc+d a+cb+dp Na tabela 2x2, a é o número de variáveis iguais a 1 para ambos os objetos, analogamente b é o número de variáveis f para qual =1 e =o, e a assim por diante. a+b+c+d=p representa o número total de variáveis.

15 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas As variáveis binárias podem ser enumeradas como simétricas e não simétricas: Variáveis binárias simétricas, as quais não possuem preferência na codificação (caso da variável sexo), o resultado não sofre alterações quando os códigos são modificados, assim a e d tem a mesma função. Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O mais conhecido coeficiente de similaridade para variáveis binárias simétricas é o simple matching, o qual fornece a proporção de pares similares: Quanto mais próximo de 1, maior a similaridade

16 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas O outro tipo de variável binária é a assimétrica, cuja codificação usa o número 1 para indicar a presença do atributo e 0 para a ausência. I ndivíduos com códigos 1-1 indicam semelhança, mas indivíduos 0-0 não indicam necessariamente semelhança. Para os casos onde os pares 0-0 não indicam similaridade usam-se coeficientes apropriados, como segue: Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. (coeficiente de Jaccard)

17 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Paciente S1S2S3...S30 1101...1 2001 0 3110 0 4111 1 5000 0 46010...0 objeto 3 10 objeto 1 110a+b 010c+d a+cb+dp Exemplo: Análise para S1 e S2 apenas Proximity Matrix Case Jaccard Measure 123 11.000.000.500 2.0001.000.000 3.500.0001.000

18 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Variáveis com mensurações diferentes Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O procedimento indicado nesta situação é a utilização do coeficiente de Gower, que pode ser aplicado para qualquer tipo de mensuração, definido como:


Carregar ppt "Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração."

Apresentações semelhantes


Anúncios Google