A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise.

Apresentações semelhantes


Apresentação em tema: "Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise."— Transcrição da apresentação:

1 Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise de Agrupamento

2 Análise de Agrupamento (Cluster Analysis) A Análise de Agrupamento inclui técnicas ou métodos que visam o particionamento de uma população heterogênea em grupos mais homogêneos. Este processo é feito sem a pré-determinação de classes, ou seja, os elementos da população são agrupados de acordo com alguma métrica que descreve o grau de similaridade ou dissimilaridade entre estes elementos. Os grupos (ou clusters) são formados de modo a obter-se a maior homogeneidade dentro dos grupos e a maior heterogeneidade entre eles. Basicamente há 2 tipos de métodos: a) Hierárquicos b) Não-Hierárquicos ou por Particionamento 2

3 Medidas de Distância Grande parte dos métodos de agrupamento se baseiam em medidas de similaridade ou de dissimilaridade entre os elementos a serem agrupados. Em geral, a dissimilaridade é traduzida por uma métrica que representa uma distância. Sendo i, j e w elementos de uma população, uma métrica será uma distância desde que: a) d(i, j)  0 b) d(i, i) = 0 c) d(i, j) = d(j, i) (simetria) d) d(i, j)  d(i, w) + d(w, j) (desigualdade triangular) Supondo que n elementos sejam avaliadas segundo m variáveis diferentes (atributos), podemos representar o conjunto de valores observados por um matriz, onde cada elemento x ij representa o valor da i -ésima amostra para a j -ésima variável. Exemplo 2D: X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 3

4 Medidas de Distância Distância Euclidiana Distância de Manhattan (Quarteirão) Distância de Minkowski sendo p  1 Distância de Chebychev i j i j i j 4

5 Normalização das Variáveis A medida de distância é afetada pela escala das variáveis e portanto deve-se normalizá-las antes do cálculo da medida de distância A normalização pode ser feita de diversas maneiras: a)transformar os valores em ordem (rank) 5 X1X1 X2X2 0,72519,06 0,8748,88 0,5674,58 0,27112,38 0,30619,10 0,4468,08 0,39712,82 0,13313,56 0,58713,64 0,4267,82 X'1X'1 X'2X'2 99 104 71 25 3 63 46 17 88 52

6 Normalização das Variáveis A medida de distância é afetada pela escala das variáveis e portanto deve-se normalizá-las antes do cálculo da medida de distância A normalização pode ser feita de diversas maneiras: b)normalizar entre 0 e 1 6 X1X1 X2X2 0,72519,06 0,8748,88 0,5674,58 0,27112,38 0,30619,10 0,4468,08 0,39712,82 0,13313,56 0,58713,64 0,4267,82 X'1X'1 X'2X'2 0,81,0 0,3 0,60,0 0,20,5 0,21,0 0,40,2 0,40,6 0,00,6 0,40,2

7 Normalização das Variáveis A medida de distância é afetada pela escala das variáveis e portanto deve-se normalizá-las antes do cálculo da medida de distância A normalização pode ser feita de diversas maneiras: c)dividir pelo valor máximo 7 X1X1 X2X2 0,72519,06 0,8748,88 0,5674,58 0,27112,38 0,30619,10 0,4468,08 0,39712,82 0,13313,56 0,58713,64 0,4267,82 X'1X'1 X'2X'2 0,81,0 0,5 0,60,2 0,30,6 0,41,0 0,50,4 0,50,7 0,20,7 0,50,4

8 Normalização das Variáveis A medida de distância é afetada pela escala das variáveis e portanto deve-se normalizá-las antes do cálculo da medida de distância A normalização pode ser feita de diversas maneiras: d)padronizar, subtraindo-se a média e dividindo-se pelo desvio padrão 8 X1X1 X2X2 0,72519,06 0,8748,88 0,5674,58 0,27112,38 0,30619,10 0,4468,08 0,39712,82 0,13313,56 0,58713,64 0,4267,82 X'1X'1 X'2X'2 1,11,5 1,8-0,7 0,4-1,6 -0,90,1 -0,81,5 -0,1-0,8 -0,30,2 -1,50,3 0,50,3 -0,2-0,9

9 Agrupamento Hierárquico Este método produz um gráfico de saída chamado dendrograma ou diagrama de árvore que representa a estrutura hierárquica do agrupamento. O dendrograma pode ser construído por aglomeração (mais comum) ou por divisão Para definir o número de grupos, escolhe-se um valor de corte (subjetivo), em função do objetivo da análise distância 4 grupos 3 grupos 9

10 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Há 3 métodos de aglomeração: a)Métodos de ligação (simples, completo, média, mediana) b)Métodos de centróide (pode ter problema de inversão no dendrograma) c)Métodos de Ward (baseia-se na minimização dos erros quadráticos) Se A, B e C são 3 grupos, então A será unido a B se: distância inversão 10

11 ABCDEFG B0,336 C0,3100,215 D0,5310,3130,224 E0,5200,2100,4120,424 F0,3700,4180,2060,3350,618 G0,8410,5610,5410,3200,5590,640 H0,4270,7560,6580,8710,9470,5731,191 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 dist(A,CF) = mín{dist(A,C),dist(A,F)} dist(B,CF) = mín{dist(B,C),dist(B,F)}... 11

12 ABCFDEG B0,336 CF0,3100,215 D0,5310,3130,224 E0,5200,2100,4120,424 G0,8410,5610,5410,3200,559 H0,4270,7560,5730,8710,9471,191 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 12

13 ABECFDG BE0,336 CF0,3100,215 D0,5310,3130,224 G0,8410,5590,5410,320 H0,4270,7560,5730,8711,191 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 13

14 ABCEFDG 0,310 D0,5310,224 G0,8410,5410,320 H0,4270,5730,8711,191 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 14

15 ABCDEFG 0,310 G0,8410,320 H0,4270,5731,191 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 15

16 ABCDEFG G0,320 H0,4271,191 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 16

17 ABCDEFG H0,427 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 17

18 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ABCDEFG B0,336 C0,3100,215 D0,5310,3130,224 E0,5200,2100,4120,424 F0,3700,4180,2060,3350,618 G0,8410,5610,5410,3200,5590,640 H0,4270,7560,6580,8710,9470,5731,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 dist(A,CF) = máx{dist(A,C),dist(A,F)} dist(B,CF) = máx{dist(B,C),dist(B,F)}... 18

19 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ABCFDEG B0,336 CF0,3700,418 D0,5310,3130,335 E0,5200,2100,6180,424 G0,8410,5610,6400,3200,559 H0,4270,7560,6580,8710,9471,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 19

20 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ABECFDG BE0,520 CF0,3700,618 D0,5310,4240,335 G0,8410,5610,6400,320 H0,4270,9470,6580,8711,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 20

21 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ABECFDG BE0,520 CF0,3700,618 DG0,8410,5610,640 H0,4270,9470,6581,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 21

22 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ACFBEDG BE0,618 DG0,8410,561 H0,6580,9471,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 22

23 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ACFBDEG 0,841 H0,6581,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 23

24 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) ACFH BDEG1,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 24

25 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (média) ABCDEFG B0,336 C0,3100,215 D0,5310,3130,224 E0,5200,2100,4120,424 F0,3700,4180,2060,3350,618 G0,8410,5610,5410,3200,5590,640 H0,4270,7560,6580,8710,9470,5731,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 dist(A,CF) = média{dist(A,C),dist(A,F)} dist(B,CF) = média{dist(B,C),dist(B,F)}... 25

26 Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (média) ABCDEFG B0,336 C0,3100,215 D0,5310,3130,224 E0,5200,2100,4120,424 F0,3700,4180,2060,3350,618 G0,8410,5610,5410,3200,5590,640 H0,4270,7560,6580,8710,9470,5731,191 Distância Euclidiana X1X1 X2X2 A0,580,80 B0,310,60 C0,50 D0,400,30 E0,100,60 F0,700,45 G0,200,05 H0,980,95 26

27 Método Hierárquico por Aglomeração no R >x1<-c(0.58,0.31,0.5,0.4,0.1,0.7,0.2,0.98) >x2<-c(0.8,0.6,0.5,0.3,0.6,0.45,0.05,0.95) >x<-cbind(x1,x2) >rownames(x)<-c("A","B","C","D","E","F","G","H") >d<-dist(x,method="euclidian") >fit<-hclust(d,method="single") >plot(fit) 27

28 Método Hierárquico por Aglomeração no R 28

29 Método Hierárquico por Aglomeração no R 29

30 Método Hierárquico por Aglomeração no R 30

31 Método por Particionamento A idéia básica deste método é agrupar-se os elementos em K grupos, onde K é previamente definido. De modo geral, o método inicia-se escolhendo-se uma partição inicial dos elementos e, em seguida, por um processo iterativo, os elementos são redistribuídos nos grupos observando-se a máxima similaridade (ou mínima distância) até obter-se a melhor partição possível. Como a escolha do número K é arbitrária, nem todos K grupos são necessariamente representativos e, por isso, aplica-se o método várias vezes para diferentes valores de K, escolhendo os resultados que apresentem melhor a interpretação dos grupos Quando comparado com o método hierárquico, o método por particionamento é mais rápido e simples pois não é necessário recalcular a cada iteração a matriz de distâncias entre os elementos. Os métodos por particionamento mais conhecidos são o k-médias (k-mean) e o k-medóides * (k-medoid) 31 *Medóide: é o elemento representativo de um grupo cuja dissimilaridade média para todos os demais elementos é mínima

32 K-médias Algoritmo Básico do Método K-Médias: a)Padronize cada variável b)Determine o número de agrupamentos desejado k c)Divida os elementos aleatoriamente em k grupos d)Calcule os centróides de cada grupo (em geral através da posição média) e)Para cada elemento, calcule a distância euclidiana em relação ao centróide de cada grupo f)Redefina os grupos de acordo com a distância mínima g)Repita os procedimentos de d a f até que os centróides não mudem de posição OBS: no item c, outros critérios podem ser utilizados no momento de definir os k grupos iniciais no item e, outras distâncias podem ser utilizadas no item g, quando o número de elementos é muito grande, pode-se definir um outro critério de parada (por exemplo, menos de 1% dos elementos mudaram de grupo entre duas iterações) em geral, testa-se vários valores de k, escolhendo-se aquele que minimiza a variância intra-grupos e maximiza a variância entre grupos 32

33 K-médias Exemplo 2D: k = 4, distância euclidiana X1X1 X2X2 10,080,29 20,090,23 30,110,15 40,100,53 50,130,19 60,130,25 70,130,58 80,150,46 90,170,55 100,180,32 110,230,03 120,230,60 130,240,43 140,250,52 150,320,57 160,340,28 170,380,45 180,390,15 190,410,52 200,410,31 210,450,21 220,490,35 230,530,09 33

34 K-médias Exemplo 2D: k = 4, distância euclidiana X1X1 X2X2 10,080,29 20,090,23 30,110,15 40,100,53 50,130,19 60,130,25 70,130,58 80,150,46 90,170,55 100,180,32 110,230,03 120,230,60 130,240,43 140,250,52 150,320,57 160,340,28 170,380,45 180,390,15 190,410,52 200,410,31 210,450,21 220,490,35 230,530,09 34

35 K-médias Exemplo 2D: k = 4, distância euclidiana X1X1 X2X2 10,080,29 20,090,23 30,110,15 40,100,53 50,130,19 60,130,25 70,130,58 80,150,46 90,170,55 100,180,32 110,230,03 120,230,60 130,240,43 140,250,52 150,320,57 160,340,28 170,380,45 180,390,15 190,410,52 200,410,31 210,450,21 220,490,35 230,530,09 1 a iteração 35

36 K-médias Exemplo 2D: k = 4, distância euclidiana X1X1 X2X2 10,080,29 20,090,23 30,110,15 40,100,53 50,130,19 60,130,25 70,130,58 80,150,46 90,170,55 100,180,32 110,230,03 120,230,60 130,240,43 140,250,52 150,320,57 160,340,28 170,380,45 180,390,15 190,410,52 200,410,31 210,450,21 220,490,35 230,530,09 2 a iteração 36

37 K-médias Exemplo 2D: k = 4, distância euclidiana X1X1 X2X2 10,080,29 20,090,23 30,110,15 40,100,53 50,130,19 60,130,25 70,130,58 80,150,46 90,170,55 100,180,32 110,230,03 120,230,60 130,240,43 140,250,52 150,320,57 160,340,28 170,380,45 180,390,15 190,410,52 200,410,31 210,450,21 220,490,35 230,530,09 3 a iteração 37

38 K-médias Exemplo 2D: k = 4, distância euclidiana X1X1 X2X2 10,080,29 20,090,23 30,110,15 40,100,53 50,130,19 60,130,25 70,130,58 80,150,46 90,170,55 100,180,32 110,230,03 120,230,60 130,240,43 140,250,52 150,320,57 160,340,28 170,380,45 180,390,15 190,410,52 200,410,31 210,450,21 220,490,35 230,530,09 FIM 38

39 K-médias no R > x1<-c(0.08,0.09,0.11,0.10,0.13,0.13,0.13,0.15,0.17,0.18,0.23,0.23,0.24,0.25,0.32,0.34,0.38,0.39,0.41,0.41,0.45,0.49,0.53) > x2<-c(0.29,0.23,0.15,0.53,0.19,0.25,0.58,0.46,0.55,0.32,0.03,0.6,0.43,0.52,0.57,0.28,0.45,0.15,0.52,0.31,0.21,0.35,0.09) > x<-cbind(x1,x2) > fit<-kmeans(x,4) > plot(x,col=fit$cluster) 39


Carregar ppt "Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise."

Apresentações semelhantes


Anúncios Google