Volume 22 - Novembro de 2017
Editores: Giovanni Torello e Walmor J. Piccinini

 

Janeiro de 2009 - Vol.14 - Nº 1

COLUNA PSIQUIATRIA CONTEMPORÂNEA

PSIQUIATRIA E ESTATÍSTICA. PARTE II: FUNDAMENTOS DA ANÁLISE DE CLUSTERS (CLASSIFICAÇÃO NUMÉRICA)

Fernando Portela Câmara, MD, PhD
Prof. Adjunto IMPPG-UFRJ

Em um artigo anterior (Câmara, 2008) introduzimos o método estatístico da análise de cluster para psiquiatras. No presente artigo, concluímos o assunto dando uma visão geral dos aspectos técnicos, e no próximo número desta revista introduziremos o método da análise fatorial.

A análise de clusters (AC) é uma técnica multivariada que utiliza algoritmos para reunir em aglomerados ou clusters dados relacionados entre si, através de medidas e suas relações de proximidades (ou similaridade) e separando tais grupos segundo suas distâncias (ou dissimilaridades). É um método taxonômico estatístico.

Este tipo de procedimento não é um teste estatístico, pois não parte de uma hipótese a priori, e se ela existe deve ser ignorada. De fato, a análise de cluster situa-se na fase onde nossa pesquisa ainda é exploratória e buscamos compreender como nossos dados se agrupam, e então estabelecer uma hipótese plausível, ou simplesmente usar os resultados como uma orientação para o curso do experimento. Entretanto, ela é essencialmente uma técnica classificatória e como tal tem seu maior uso.

Em psiquiatria, a AC permite agrupar sintomas de uma doença mental num mesmo grupo caracterizando uma entidade mórbida; identificar grupos de pacientes que respondem melhor a determinadas classes de medicamentos; classificar subtipos sindrômicos; identificar traços característicos de personalidades dentro de um teste; e muitas outras aplicações a cargo da criatividade e gênio do pesquisador.

Há dois métodos gerais de AC: 1. por agrupamento hierárquico, e 2. por agrupamento não hierárquico. Vejamos resumidamente como elas se fundamentam.

 

1. Agrupamento (clustering) hierárquico

 

Este método agrupa objetos em grupos cada vez maiores segundo o aumento da dissimilaridade (distância) entre eles. Isto resulta em uma “árvore hierárquica” (algo semelhante a uma árvore genealógica ou filogenética) ou dendograma.

Um dendograma é um meio prático de sumarizar um padrão de agrupamento. Este começa com todos os indivíduos separados (“folhas”) fundindo-se progressivamente em pares (folhas, ramos, galhos, tronco) até chegar a uma única raiz. A ordem dos indivíduos mostrada no dendograma e a ordem na qual os grupos entram no agrupamento. A figura abaixo ilustra um dendograma formado a partir de 10 itens formados por um conjunto de medidas cada.

 

 

Observando a figura, vemos que os objeto inicialmente estão posicionados como extremidades da árvore (medidas individuais). Então, vamos “relaxando” nosso critério, baixando nosso limiar de decisão a cada etapa de modo a unir cada vez mais objetos num mesmo grupo (cluster) pelas proximidades de suas distâncias ou “similaridades”. Chamamos a isso amalgamação. Os objetos mais similares vão se agrupando primeiro e os menos similares no final, até todos eles estarem ligados. Os dados mostram, então, uma clara “estrutura”, ou seja, aglomeração (clusters) de objetos similares formando ramos distinto na árvore hierárquica, podendo agora serem interpretados. Em outras palavras, dada uma amostra de N casos (ex.: características de indivíduos, propriedades de objetos, etc) caracterizados por P atributos (variáveis), a análise de cluster dividirá os N casos em n aglomerados.

A dissimilaridade é medida em distância. Quanto mais distantes os objetos entre si, mais dissimilares eles são, e sua associação vai ficando mais “fraca”. O modo mais simples de computar as distâncias entre objetos num espaço multidimensional (várias variáveis) é calcular suas distâncias Euclideanas, a medida geométrica mais simples. Os objetos similares fiam próximos num espaço bi- ou tridimensional, denotando seu agrupamento; porém, estas distâncias podem não ser Euclidianas, pois, algum outro tipo de medida derivada da distância pode ser mais útil em determinadas situações. Isto não afetará o algoritmo do dendograma. A tabela 1 mostra as distancias mais comuns usadas em AC.

 

Tabela 1: Alguns tipos de distância usadas em análise de cluster para variáveis intervalares e categóricas (não estão citadas  medidas para variáveis binárias)

 

Tipo de distância

Fórmula

Observações

Euclideana

D(x, y)={Σi(xi-yi)2}1/2

Usa dados brutos. Não é afetada por adição, mas por mudança de escala.

Euclideana quadrada

D(x, y)=Σi((xi-yi)2

Quando se quer colocar maior peso nos objetos que estão mais separados.

City-block (Manhattan)

D(x, y)=Σi|xi-yi|

Semelhante à distância Euclidiana simples.

Percentagem de discordância

D(x, y) =número de Σi(xi≠yi)/i

Útil se os dados incluídos na análise são categóricos (ou nominais) por natureza.

À medida que os objetos se distanciam, os que compartilham posições muito próximas formam clusters determinados por um método para agrupá-los hierarquicamente. Isto constitui na regra de amalgamação ou ligação. A tabela 2 mostra os algoritmos de amalgamação mais comumente usados.

 

Tabela 2: regras de amalgamação (algoritmos de agrupamentos)

 

Regra

Utilidade

Ligação simples

Distância entre os clusters é determinada por dois objetos mais próximos nos diferentes clusters. Tende a enfileirar objetos para formar clusters, originando longas cadeias.

Ligação completa

A distância é determinada entre clusters pela maior distância entre dois objetos em clusters diferentes. Funciona bem nos casos onde os objetos formam naturalmente “moitas”.

Média par-grupo não ponderal

A distância entre dois clusters é calculada como a distância média entre todos os pares de objetos nos dois diferentes clusters. Muito eficiente quando os objetos formam naturalmente “moitas”, ou ainda com clusters em cadeia elongadas.

Média par-grupo ponderal

Idêntico ao anterior, só que o tamanho dos clusters são usados como peso. Útil quando se suspeita que os tamanhos dos clusters sejam bem diferentes.

Centróide par-grupo não ponderal

Centróide de um cluster é o ponto médio (ou “centro de gravidade”) o espaço multidimensional definido por dimensões. A distância ente dois clusters é definida como a diferença entre dois centróides.

Centróide par-grupo ponderal

Idêntico ao anterior, exceto que um peso é associado no cômputo em função do número de objetos contidos em cada cluster diferente.

Método de Ward

Difere dos métodos anteriores porque usa uma abordagem de análise de variância para avaliar as distâncias entre clusters. Isto é, minimiza a soma dos quadrados de qualquer dois clusters (hipotéticos) que possam ser formados em cada etapa. Método muito eficiente, porém, tende a criar clusters de pequeno tamanho.

 

 

1. Agrupamento não hierárquico (k-means clustering)

 

Este método é muito diferente dos anteriores e baseia-se numa hipótese formulada previamente (o que não ocorre com o método anterior) sobre o número (k) de clusters nos casos ou variáveis.

Ele é utilizado quando o pesquisador tem fortes indícios sobre o número de clusters no seu objeto de pesquisa ou então tem bom palpite. O método baseia-se na quantificação desse palpite, portanto, numa hipótese.

O teste é uma espécie de “análise de variância reversa”, partindo de k clusters randômicos e então movendo os objetos com o objetivo de minimizar a variabilidade dentro dos clusters ao mesmo tempo que a maximiza entre eles. O algoritmo dará a significância da análise de variância realizada, confirmando ou rejeitando a hipótese do pesquisador.

 

Referencia:

 

Câmara, FP. Psiquiatria e estatística. Parte I: Uso da análise de cluster na identificação e classificação de doenças, Psychiatry On-Line Brazil, novembro, 2008, acessada em 24.01.09 no link

http://www.polbr.med.br/ano08/cpc1108.php#1


TOP