A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.

Apresentações semelhantes


Apresentação em tema: "Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração."— Transcrição da apresentação:

1 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração “Caracterização e Aplicação da Diversidade Biológica” Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Dr. Fernando Frei

2 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Número de Grupos Uma das maiores dificuldades da Análise de Agrupamentos é a determinação do número de grupos. Outra questão importante é a estabilidade dos objetos em seus grupos.

3 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 1. Procedimento para a determinação do número de grupos através do DENDOGRAMA - técnicas hierárquicas A estratégia é “cortar” o dendograma em alguns pontos observando o número de grupos e o tamanho do intervalo do coeficiente de similaridade/dissimilaridade. Deve-se escolher o intervalo de maior tamanho, entre os diversos cortes (Romesburg, 1984).

4 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

5 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 2. Procedimento para a determinação do número de grupos através de PARADA - técnicas hierárquicas O procedimento chamado de “parada” (apresentado nos softwares pelo indicativo de Amalgamation), consiste em examinar alguma medida de similaridade ou distância entre os grupos a cada passo sucessivo. A solução final é dada quando a medida escolhida apresenta um salto abrupto entre algum passo.

6 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O cálculo para se obter, por exemplo, a coluna nível de distância, nada mais é do o menor resultado da distância euclidiana para compor cada uma das matrizes de distância do método escolhido, neste caso a Distância Média

7 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Resultado pata SPSS v 19.0

8 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 3. Procedimento para a determinação do número de grupos através da Aplicação de vários Algoritmos - técnicas hierárquicas A aplicação de vários métodos Hierárquicos Aglomerativos como Vizinho mais Distante, Distância Média e Método de Ward, por exemplo, pode gerar uma resolução satisfatória, baseada na estrutura resultante da maior parte dos métodos (Bussab, et al., 1990).

9 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. 4. Procedimento para a determinação do número de grupos através da Aplicação Índices Internos - técnicas hierárquicas O índice de Calinski-Harabasz (CH) compara a homogeneidade interna e o isolamento externo dos grupos. Também conhecido por Pseudo F, faz a comparação entre a soma da distância quadrática dentro dos grupos e compara com a soma da distância quadrática entre os grupos. O índice de Calinski e Harabasz (CH) deve ser calculado para diferentes números de grupos (k). O número de grupos mais indicado será aquele que originar o maior valor de CH.

10 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Onde n é o número de objetos e K é o número de grupos. Calinski-Harabasz (CH) é o centro do grupo i (média dos pontos do grupo) é o centro de toda a base de dados (média das médias) é o j-ésimo ponto do grupo i.

11 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

12 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. A idéia básica é a mesma na ANOVA Comparar a variabilidade Entre os grupos Entre os grupos com a variabilidade Dentro dos grupos Se a variabilidade for grande Entre Grupos e pequena Dentro dos grupos, uma boa estrutura foi obtida.

13 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. S( i ) O índice de Silhueta – S( i ) define a qualidade dos agrupamentos com base na proximidade entre os objetos de um determinado grupo e na proximidade desses objetos ao grupo mais próximo O resultado de s(i) varia entre -1 e 1. Quanto mais próximo de 1 melhor a alocação do objeto no grupo, porém quanto mais próximo de -1, pior a alocação, dado que o objeto está, em média, mais próximo dos elementos do grupo vizinho. Para a obtenção do índice de Silhueta devem-se utilizar os grupos obtidos mediante a aplicação de algum dos algoritmos de agrupamento e da matriz de distância entre os objetos.

14 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O processo para obtenção de s( i ) pode ser descrito da seguinte forma: Considere os agrupamentos específicos A, B e C. Para qualquer objeto i alocado ao grupo denotado por A (figura 1), teremos a(i) = média da distância de i para todos os demais objetos de A. d(i,C) = Média da distância de i para todos os objetos de C. Após computar todos os d(i,C) para A  C selecionaremos o menor valor e denotamos por: b(i) = mínimo d(i,C). Figura 1.

15 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Figura 1. O grupo B, como na figura 1, para o qual esse mínimo é atingido, isto é, d(i,B) = b(i), denominamos de vizinho do objeto i. Desta forma, pode-se observar que o grupo B seria a melhor escolha, caso o objeto i não fosse alocado no grupo A. Desta forma teremos o grupo vizinho de cada um dos objetos, e o procedimento é válido quando temos mais que um agrupamento. O valor de S( i ) é obtido da seguinte forma:

16 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O valor do índice de Silhueta pode ser expresso em termos de fórmula por: O resultado de s(i) varia entre -1 e 1. Quanto mais próximo de 1 melhor a alocação do objeto no grupo, porém quanto mais próximo de -1, pior a alocação, dado que o objeto está, em média, mais próximo dos elementos do grupo vizinho.

17 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Para cada grupo pode-se obter o valor do índice de Silhueta mediante o cálculo da média dos valores de silhueta para cada objeto pertencente ao grupo. Onde k é o grupo especificado. O valor de S k é analisado da mesma maneira que cada um dos s i.

18 Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Dr. Fernando Frei Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Procedimento: Seleciona-se uma grande amostra, a maior possível, e aplica-se a esta amostra a Análise de Agrupamentos, observando a estrutura “natural” obtida. Os demais objetos serão alocados nos grupos formados, através de uma outra técnica, como por exemplo a Análise de Classificação. O problema deste procedimento surge quando a amostra selecionada não representa bem a estrutura dos dados, e assim, os demais objetos não se enquadram convenientemente nos grupos (Romesburg, 1984). Amostras Grandes


Carregar ppt "Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração."

Apresentações semelhantes


Anúncios Google