Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Agrupamento Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/

Slides:



Advertisements
Apresentações semelhantes
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Advertisements

Paulo Sérgio Rodrigues PEL205
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
ANÁLISE DISCRIMINANTE
Agrupamento (clustering)
Método K-medóides Algoritmos PAM e CLARA
Análise de Clusters – Introdução Método K-means
ANÁLISE DE AGRUPAMENTO
Iana Alexandra Alves Rufino
Quantização de cores em Imagens: o caso do K-means
INF 1771 – Inteligência Artificial
Alexandre Xavier Falcão & David Menotti
Notação: População: i M XiT é o total do cluster i;
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Finding and Evaluating Community Structure in Networks
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Caracterização de consumos
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Inferência Estatística Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Intervalo de Confiança Camilo Daleles Rennó
K-Means / Clustering.
1ª. AULA PRÁTICA.
Clustering Estudo de métodos computacionais para encontrar os grupos naturais existentes nos dados. Processo também conhecido por Segmentação ou por Aprendizagem.
ESTATÍSTICA DECRITIVA
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Capítulo 10 - Estatística 10.1 Introdução:
Aula 6 - Método não-experimental ou de seleção não-aleatória
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de Agrupamentos
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Intervalo de Confiança Camilo Daleles Rennó
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de padrões de uso em grades computacionais oportunistas
Sistemas de Recomendação – Filtragem Colaborativa
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Componentes Principais Camilo Daleles Rennó
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Técnicas de Reamostragem Camilo Daleles Rennó
Recuperação Inteligente de Informação
Validação de Agrupamentos
Medidas de Dispersão O que é dispersão?
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Variáveis Aleatórias Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Inferência Estatística Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Distribuições Contínuas Camilo Daleles Rennó
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
Medidas Estatísticas.
Separatrizes Quartis Decis Percentis TIPOS:
PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA
Noções de Estatística - I
Metodologia da Pesquisa em Ensino de Ciências I
Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
AULA 6 Planejamento Experimental
Avaliação de empresas por múltiplos aplicados em empresas agrupadas com análise de cluster Autores CLOVIS GRIMALDO COUTO JÚNIOR FERNANDO CAIO GALDI Acadêmicos.
Regressão Linear Simples
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Estatística Aplicada à Administração Prof. Alessandro Moura costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Universidade Federal do Pará – Ciências Exatas e Naturais – Bacharelado em Estatística – Estatística Aplicada – Análise Discriminante Universidade Federal.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Abordagem comparativa
Laboratório de Classificação Supervisionada Laboratório de Geoprocessamento do Departamento de Engenharia de Transportes da EPUSP setembro de 2011.
Profª Juliana Schivani MEDIDAS.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade Camilo Daleles Rennó
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Análise de Agrupamento Camilo Daleles Rennó
Transcrição da apresentação:

Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Análise de Agrupamento Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/

Análise de Agrupamento (Cluster Analysis) A Análise de Agrupamento inclui técnicas ou métodos que visam o particionamento de uma população heterogênea em grupos mais homogêneos. Este processo é feito sem a pré-determinação de classes, ou seja, os elementos da população são agrupados de acordo com alguma métrica que descreve o grau de similaridade ou dissimilaridade entre estes elementos. Os grupos (ou clusters) são formados de modo a obter-se a maior homogeneidade dentro dos grupos e a maior heterogeneidade entre eles. Basicamente há 2 tipos de métodos: a) Hierárquicos b) Não-Hierárquicos ou por Particionamento

Medidas de Distância Grande parte dos métodos de agrupamento se baseiam em medidas de similaridade ou dissimilaridade entre os elementos a serem agrupados. Em geral, a dissimilaridade é traduzida por uma métrica que representa uma distância. Sendo i, j e w elementos de uma população, uma métrica será uma distância desde que: d(i, j)  0 d(i, i) = 0 d(i, j) = d(j, i) (simetria) d(i, j)  d(i, w) + d(w, j) (desigualdade triangular) Supondo que n elementos sejam avaliadas segundo m variáveis diferentes (atributos), podemos representar o conjunto de valores observados por um matriz, onde cada elemento xij representa o valor da i-ésima amostra para a j-ésima variável. Exemplo 2D: X1 X2 A 0,58 0,80 B 0,31 0,60 C 0,50 D 0,40 0,30 E 0,10 F 0,70 0,45 G 0,20 0,05 H 0,98 0,95

Medidas de Distância Distância Euclidiana j i Distância de Manhattan j Distância de Minkowski sendo p  1 Distância de Chebychev i j

Normalização das Variáveis A medida de distância é afetada pela escala das variáveis e portanto deve-se normalizá-las antes do cálculo da medida de distância A normalização pode ser feita de diversas maneiras: transformar os valores em ordem (rank) normalizar entre 0 e 1 dividir pelo valor máximo padronizar, subtraindo-se a média e dividindo-se pelo desvio padrão

Agrupamento Hierárquico Este método produz um gráfico de saída chamado dendograma ou diagrama de árvore que representa a estrutura hierárquica do agrupamento. distância 3 grupos 4 grupos O dendograma pode ser construído por aglomeração (mais comum) ou por divisão Para definir o número de grupos, escolhe-se um valor de corte (subjetivo), em função do objetivo da análise

Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Há 3 métodos de aglomeração: Métodos de ligação (simples, completo, média, mediana) Métodos de centróide (pode ter problema de inversão no dendograma) Métodos de Ward (baseia-se nos erros quadráticos) distância (ver Aula20_AH)

Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (simples - vizinho mais próximo) Distância Euclidiana X1 X2 A 0,58 0,80 B 0,31 0,60 C 0,50 D 0,40 0,30 E 0,10 F 0,70 0,45 G 0,20 0,05 H 0,98 0,95 A B C D E F G 0,336   0,310 0,215 0,531 0,313 0,224 0,520 0,210 0,412 0,424 0,370 0,418 0,206 0,335 0,618 0,841 0,561 0,541 0,320 0,559 0,640 H 0,427 0,756 0,658 0,871 0,947 0,573 1,191

Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (completo - vizinho mais distante) Distância Euclidiana X1 X2 A 0,58 0,80 B 0,31 0,60 C 0,50 D 0,40 0,30 E 0,10 F 0,70 0,45 G 0,20 0,05 H 0,98 0,95 A B C D E F G 0,336   0,310 0,215 0,531 0,313 0,224 0,520 0,210 0,412 0,424 0,370 0,418 0,206 0,335 0,618 0,841 0,561 0,541 0,320 0,559 0,640 H 0,427 0,756 0,658 0,871 0,947 0,573 1,191

Método Hierárquico por Aglomeração No método hierárquico por aglomeração, definem-se tantos grupos quantos elementos (cada elemento representa um grupo) e a cada passo, um grupo ou elemento é ligado a outro de acordo com sua similaridade, até o último passo, onde é formado um grupo único com todos os elementos. Métodos de ligação (média) Distância Euclidiana X1 X2 A 0,58 0,80 B 0,31 0,60 C 0,50 D 0,40 0,30 E 0,10 F 0,70 0,45 G 0,20 0,05 H 0,98 0,95 A B C D E F G 0,336   0,310 0,215 0,531 0,313 0,224 0,520 0,210 0,412 0,424 0,370 0,418 0,206 0,335 0,618 0,841 0,561 0,541 0,320 0,559 0,640 H 0,427 0,756 0,658 0,871 0,947 0,573 1,191

Método por Particionamento A idéia básica deste método é agrupar-se os elementos em K grupos, onde K é previamente definido. De modo geral, o método inicia-se escolhendo-se uma partição inicial dos elementos e, em seguida, por um processo iterativo, os elementos são redistribuídos nos grupos observando-se a máxima similaridade (ou mínima distância) até obter-se a melhor partição possível. Como nem todos valores de K apresentam grupos satisfatórios, sendo assim, aplica-se o método várias vezes para diferentes valores de K, escolhendo os resultados que apresentem melhor interpretação dos grupos Quando comparado com o método hierárquico, o método por particionamento é mais rápido e simples pois não é necessário recalcular a cada iteração a matriz de distâncias entre os elementos. Os métodos por particionamento mais conhecidos são o k-médias (k-mean) e o k-medóides (k-medoid)

K-médias Algoritmo Básico do Método K-Médias: Padronize cada variável Determine o número de agrupamentos desejado k Divida os elementos aleatoriamente em k grupos Calcule os centróides de cada grupo Para cada elemento, calcule a distância euclidiana em relação ao centróide de cada grupo Redefina os grupos de acordo com a distância mínima Repita os procedimentos de d a f até que os centróides não mudem de posição OBS: no item c, outros critérios podem ser utilizados no momento de definir os k grupos iniciais no item e, outras distâncias podem ser utilizadas no item g, quando o número de elementos é muito grande, pode-se definir um outro critério de parada (por exemplo, menos de 1% dos elementos mudaram de grupo entre duas iterações) em geral, testa-se vários valores de k, escolhendo-se aquele que minimiza a variância intra-grupos e maximiza a variância entre grupos (ver Aula20_Kmedias)

K-médias Exemplo 2D: k = 4, distância euclidiana X1 X2 1 0,08 0,29 2 0,09 0,23 3 0,11 0,15 4 0,10 0,53 5 0,13 0,19 6 0,25 7 0,58 8 0,46 9 0,17 0,55 10 0,18 0,32 11 0,03 12 0,60 13 0,24 0,43 14 0,52 15 0,57 16 0,34 0,28 17 0,38 0,45 18 0,39 19 0,41 20 0,31 21 0,21 22 0,49 0,35 23

K-médias Exemplo 2D: k = 4, distância euclidiana X1 X2 1 0,08 0,29 2 0,09 0,23 3 0,11 0,15 4 0,10 0,53 5 0,13 0,19 6 0,25 7 0,58 8 0,46 9 0,17 0,55 10 0,18 0,32 11 0,03 12 0,60 13 0,24 0,43 14 0,52 15 0,57 16 0,34 0,28 17 0,38 0,45 18 0,39 19 0,41 20 0,31 21 0,21 22 0,49 0,35 23

K-médias Exemplo 2D: k = 4, distância euclidiana 1a iteração X1 X2 1 0,08 0,29 2 0,09 0,23 3 0,11 0,15 4 0,10 0,53 5 0,13 0,19 6 0,25 7 0,58 8 0,46 9 0,17 0,55 10 0,18 0,32 11 0,03 12 0,60 13 0,24 0,43 14 0,52 15 0,57 16 0,34 0,28 17 0,38 0,45 18 0,39 19 0,41 20 0,31 21 0,21 22 0,49 0,35 23 1a iteração

K-médias Exemplo 2D: k = 4, distância euclidiana 2a iteração X1 X2 1 0,08 0,29 2 0,09 0,23 3 0,11 0,15 4 0,10 0,53 5 0,13 0,19 6 0,25 7 0,58 8 0,46 9 0,17 0,55 10 0,18 0,32 11 0,03 12 0,60 13 0,24 0,43 14 0,52 15 0,57 16 0,34 0,28 17 0,38 0,45 18 0,39 19 0,41 20 0,31 21 0,21 22 0,49 0,35 23 2a iteração

K-médias Exemplo 2D: k = 4, distância euclidiana 3a iteração X1 X2 1 0,08 0,29 2 0,09 0,23 3 0,11 0,15 4 0,10 0,53 5 0,13 0,19 6 0,25 7 0,58 8 0,46 9 0,17 0,55 10 0,18 0,32 11 0,03 12 0,60 13 0,24 0,43 14 0,52 15 0,57 16 0,34 0,28 17 0,38 0,45 18 0,39 19 0,41 20 0,31 21 0,21 22 0,49 0,35 23 3a iteração

K-médias Exemplo 2D: k = 4, distância euclidiana FIM X1 X2 1 0,08 0,29 0,09 0,23 3 0,11 0,15 4 0,10 0,53 5 0,13 0,19 6 0,25 7 0,58 8 0,46 9 0,17 0,55 10 0,18 0,32 11 0,03 12 0,60 13 0,24 0,43 14 0,52 15 0,57 16 0,34 0,28 17 0,38 0,45 18 0,39 19 0,41 20 0,31 21 0,21 22 0,49 0,35 23 FIM