Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.

Slides:



Advertisements
Apresentações semelhantes
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
Advertisements

Amintas engenharia.
Linguagem de Programação IX Métodos de Ordenação
ANÁLISE DISCRIMINANTE
ANÁLISE DISCRIMINANTE
Métodos para representação de estruturas hierárquicas
Algoritmos.
Introdução à Programação Lógica
GRASP Greedy Randomized Adaptative Search Procedure
ANÁLISE DE AGRUPAMENTO
Reconhecimento de Padrões Segmentação
Reconhecimento de Padrões Seleção de Características
Reconhecimento de Padrões EigenFaces
Medida do Tempo de Execução de um Programa
Reconhecimento de Padrões Dissimilaridade
Reconhecimento de Padrões Aprendizagem Supervisionada (KNN)
Iana Alexandra Alves Rufino
Quantização de cores em Imagens: o caso do K-means
Inteligência Artificial
Inteligência Artificial
MEDIDAS DE DISPERSÃO Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados. A necessidade de uma medida de variação.
WAR STORY Stripping Triangulations Luciana Oliveira e Silva
Agrupamento de padrões Métodos hierárquicos
INF 1771 – Inteligência Artificial
INICIAR SAIR Módulo: Geotecnia Versão
List Ranking. List Ranking (1) Seja L uma lista representada por um vetor s tal que s[i] é o nó sucessor de i na lista L, para u, o último elemento da.
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Caracterização de consumos
Linguagem de Programação II Parte IX
1ª. AULA PRÁTICA.
Procedimento: sucessão encadeada de atos que objetivam a prática de um ato final.
DISTRIBUIÇÕES AMOSTRAIS
Redes Neurais Prof. Alex F. V. Machado.
ESTATÍSTICA DECRITIVA
Métodos Quantitativos II
Universidade Católica de Pelotas Mestrado em Ciência da Computação
Área de Pesquisa: Redes de Computadores
Etapa Estatística Planejamento Análise Estatística Efeito de sequência
Sistema de equações lineares
1 - Equações Diferenciais Ordinárias
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de Agrupamentos
Fontes de Erros Aula 1 Introdução; Erros em processos numéricos;
Sobre o uso de métodos estatísticos auxiliares nos estágios iniciais de seleção dos programas de melhoramento de plantas Luiz Alexandre Peternelli Área.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
FUNDAMENTOS DE CIÊNCIAS HUMANAS
E statística A plicada à P esquisa de M ercado Reni Berezin Outubro 2005.
Validação de Agrupamentos
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Mecanismo de sugestão e processo de caracterização de redes sociais
CURSO DE RELAÇÕES INTERNACIONAIS
Marketing Administração de Marketing Kotler e Keller
INTRODUÇÃO AOS MÉTODOS NUMÉRICOS Professor: Dr. Edwin B. Mitacc Meza
INFERÊNCIA ESTATÍSTICA PROPORÇÃO POPULACIONAL p
Metodologia da Pesquisa em Ensino de Ciências I
Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.
Conceitos de amostragem
MÉTODOS DE ENSINO EM CIÊNCIA BIOLOGICA.
AULA 6 Planejamento Experimental
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
Carlos Freire 2014 Marketing Administração de Marketing Kotler e Keller.
PESQUISA DE MARKETING 2  Execução  Análise Prof. Dr. Fauze Najib Mattar.
Estatística Aplicada à Administração Prof. Alessandro Moura costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Laboratório de Classificação Supervisionada Laboratório de Geoprocessamento do Departamento de Engenharia de Transportes da EPUSP setembro de 2011.
Transcrição da apresentação:

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração “Caracterização e Aplicação da Diversidade Biológica” Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Número de Grupos Uma das maiores dificuldades da Análise de Agrupamentos é a determinação do número de grupos. Outra questão importante é a estabilidade dos objetos em seus grupos.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 1. Procedimento para a determinação do número de grupos através do DENDOGRAMA - técnicas hierárquicas A estratégia é “cortar” o dendograma em alguns pontos observando o número de grupos e o tamanho do intervalo do coeficiente de similaridade/dissimilaridade. Deve-se escolher o intervalo de maior tamanho, entre os diversos cortes (Romesburg, 1984).

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 2. Procedimento para a determinação do número de grupos através de PARADA - técnicas hierárquicas O procedimento chamado de “parada” (apresentado nos softwares pelo indicativo de Amalgamation), consiste em examinar alguma medida de similaridade ou distância entre os grupos a cada passo sucessivo. A solução final é dada quando a medida escolhida apresenta um salto abrupto entre algum passo.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O cálculo para se obter, por exemplo, a coluna nível de distância, nada mais é do o menor resultado da distância euclidiana para compor cada uma das matrizes de distância do método escolhido, neste caso a Distância Média

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Resultado pata SPSS v 19.0

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 3. Procedimento para a determinação do número de grupos através da Aplicação de vários Algoritmos - técnicas hierárquicas A aplicação de vários métodos Hierárquicos Aglomerativos como Vizinho mais Distante, Distância Média e Método de Ward, por exemplo, pode gerar uma resolução satisfatória, baseada na estrutura resultante da maior parte dos métodos (Bussab, et al., 1990).

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 4. Procedimento para a determinação do número de grupos através da Aplicação Índices Internos - técnicas hierárquicas O índice de Calinski-Harabasz (CH) compara a homogeneidade interna e o isolamento externo dos grupos. Também conhecido por Pseudo F, faz a comparação entre a soma da distância quadrática dentro dos grupos e compara com a soma da distância quadrática entre os grupos. O índice de Calinski e Harabasz (CH) deve ser calculado para diferentes números de grupos (k). O número de grupos mais indicado será aquele que originar o maior valor de CH.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Onde n é o número de objetos e K é o número de grupos. Calinski-Harabasz (CH) é o centro do grupo i (média dos pontos do grupo) é o centro de toda a base de dados (média das médias) é o j-ésimo ponto do grupo i.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. A idéia básica é a mesma na ANOVA Comparar a variabilidade Entre os grupos Entre os grupos com a variabilidade Dentro dos grupos Se a variabilidade for grande Entre Grupos e pequena Dentro dos grupos, uma boa estrutura foi obtida.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. S( i ) O índice de Silhueta – S( i ) define a qualidade dos agrupamentos com base na proximidade entre os objetos de um determinado grupo e na proximidade desses objetos ao grupo mais próximo O resultado de s(i) varia entre -1 e 1. Quanto mais próximo de 1 melhor a alocação do objeto no grupo, porém quanto mais próximo de -1, pior a alocação, dado que o objeto está, em média, mais próximo dos elementos do grupo vizinho. Para a obtenção do índice de Silhueta devem-se utilizar os grupos obtidos mediante a aplicação de algum dos algoritmos de agrupamento e da matriz de distância entre os objetos.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O processo para obtenção de s( i ) pode ser descrito da seguinte forma: Considere os agrupamentos específicos A, B e C. Para qualquer objeto i alocado ao grupo denotado por A (figura 1), teremos a(i) = média da distância de i para todos os demais objetos de A. d(i,C) = Média da distância de i para todos os objetos de C. Após computar todos os d(i,C) para A  C selecionaremos o menor valor e denotamos por: b(i) = mínimo d(i,C). Figura 1.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Figura 1. O grupo B, como na figura 1, para o qual esse mínimo é atingido, isto é, d(i,B) = b(i), denominamos de vizinho do objeto i. Desta forma, pode-se observar que o grupo B seria a melhor escolha, caso o objeto i não fosse alocado no grupo A. Desta forma teremos o grupo vizinho de cada um dos objetos, e o procedimento é válido quando temos mais que um agrupamento. O valor de S( i ) é obtido da seguinte forma:

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O valor do índice de Silhueta pode ser expresso em termos de fórmula por: O resultado de s(i) varia entre -1 e 1. Quanto mais próximo de 1 melhor a alocação do objeto no grupo, porém quanto mais próximo de -1, pior a alocação, dado que o objeto está, em média, mais próximo dos elementos do grupo vizinho.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Para cada grupo pode-se obter o valor do índice de Silhueta mediante o cálculo da média dos valores de silhueta para cada objeto pertencente ao grupo. Onde k é o grupo especificado. O valor de S k é analisado da mesma maneira que cada um dos s i.

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Procedimento: Seleciona-se uma grande amostra, a maior possível, e aplica-se a esta amostra a Análise de Agrupamentos, observando a estrutura “natural” obtida. Os demais objetos serão alocados nos grupos formados, através de uma outra técnica, como por exemplo a Análise de Classificação. O problema deste procedimento surge quando a amostra selecionada não representa bem a estrutura dos dados, e assim, os demais objetos não se enquadram convenientemente nos grupos (Romesburg, 1984). Amostras Grandes