Volume 14 - 2009 Editores: Giovanni Torello e Walmor J. Piccinini |
Janeiro de 2009 - Vol.14 - Nº 1 COLUNA PSIQUIATRIA CONTEMPORÂNEA PSIQUIATRIA E ESTATÍSTICA. PARTE II: FUNDAMENTOS DA ANÁLISE DE CLUSTERS (CLASSIFICAÇÃO NUMÉRICA) Fernando Portela Câmara, MD, PhD Em um artigo anterior (Câmara, 2008) introduzimos o método estatístico da análise de cluster para psiquiatras. No presente artigo, concluímos o assunto dando uma visão geral dos aspectos técnicos, e no próximo número desta revista introduziremos o método da análise fatorial. A análise de clusters (AC) é uma técnica multivariada que utiliza algoritmos para reunir em aglomerados ou clusters dados relacionados entre si, através de medidas e suas relações de proximidades (ou similaridade) e separando tais grupos segundo suas distâncias (ou dissimilaridades). É um método taxonômico estatístico. Este tipo de procedimento não é um teste estatístico, pois não parte de uma hipótese a priori, e se ela existe deve ser ignorada. De fato, a análise de cluster situa-se na fase onde nossa pesquisa ainda é exploratória e buscamos compreender como nossos dados se agrupam, e então estabelecer uma hipótese plausível, ou simplesmente usar os resultados como uma orientação para o curso do experimento. Entretanto, ela é essencialmente uma técnica classificatória e como tal tem seu maior uso. Em psiquiatria, a AC permite agrupar sintomas de uma doença mental num mesmo grupo caracterizando uma entidade mórbida; identificar grupos de pacientes que respondem melhor a determinadas classes de medicamentos; classificar subtipos sindrômicos; identificar traços característicos de personalidades dentro de um teste; e muitas outras aplicações a cargo da criatividade e gênio do pesquisador. Há dois métodos gerais de AC: 1. por agrupamento hierárquico, e 2. por agrupamento não hierárquico. Vejamos resumidamente como elas se fundamentam.
1. Agrupamento (clustering) hierárquico
Este método agrupa objetos em grupos cada vez maiores segundo o aumento da dissimilaridade (distância) entre eles. Isto resulta em uma “árvore hierárquica” (algo semelhante a uma árvore genealógica ou filogenética) ou dendograma. Um dendograma é um meio prático de sumarizar um padrão de agrupamento. Este começa com todos os indivíduos separados (“folhas”) fundindo-se progressivamente em pares (folhas, ramos, galhos, tronco) até chegar a uma única raiz. A ordem dos indivíduos mostrada no dendograma e a ordem na qual os grupos entram no agrupamento. A figura abaixo ilustra um dendograma formado a partir de 10 itens formados por um conjunto de medidas cada.
Observando a figura, vemos que os objeto inicialmente estão posicionados como extremidades da árvore (medidas individuais). Então, vamos “relaxando” nosso critério, baixando nosso limiar de decisão a cada etapa de modo a unir cada vez mais objetos num mesmo grupo (cluster) pelas proximidades de suas distâncias ou “similaridades”. Chamamos a isso amalgamação. Os objetos mais similares vão se agrupando primeiro e os menos similares no final, até todos eles estarem ligados. Os dados mostram, então, uma clara “estrutura”, ou seja, aglomeração (clusters) de objetos similares formando ramos distinto na árvore hierárquica, podendo agora serem interpretados. Em outras palavras, dada uma amostra de N casos (ex.: características de indivíduos, propriedades de objetos, etc) caracterizados por P atributos (variáveis), a análise de cluster dividirá os N casos em n aglomerados. A dissimilaridade é medida em distância. Quanto mais distantes os objetos entre si, mais dissimilares eles são, e sua associação vai ficando mais “fraca”. O modo mais simples de computar as distâncias entre objetos num espaço multidimensional (várias variáveis) é calcular suas distâncias Euclideanas, a medida geométrica mais simples. Os objetos similares fiam próximos num espaço bi- ou tridimensional, denotando seu agrupamento; porém, estas distâncias podem não ser Euclidianas, pois, algum outro tipo de medida derivada da distância pode ser mais útil em determinadas situações. Isto não afetará o algoritmo do dendograma. A tabela 1 mostra as distancias mais comuns usadas em AC.
Tabela 1: Alguns tipos de distância usadas em análise de cluster para variáveis intervalares e categóricas (não estão citadas medidas para variáveis binárias)
À medida que os objetos se distanciam, os que compartilham posições muito próximas formam clusters determinados por um método para agrupá-los hierarquicamente. Isto constitui na regra de amalgamação ou ligação. A tabela 2 mostra os algoritmos de amalgamação mais comumente usados.
Tabela 2: regras de amalgamação (algoritmos de agrupamentos)
1. Agrupamento não hierárquico (k-means clustering)
Este método é muito diferente dos anteriores e baseia-se numa hipótese formulada previamente (o que não ocorre com o método anterior) sobre o número (k) de clusters nos casos ou variáveis. Ele é utilizado quando o pesquisador tem fortes indícios sobre o número de clusters no seu objeto de pesquisa ou então tem bom palpite. O método baseia-se na quantificação desse palpite, portanto, numa hipótese. O teste é uma espécie de “análise de variância reversa”, partindo de k clusters randômicos e então movendo os objetos com o objetivo de minimizar a variabilidade dentro dos clusters ao mesmo tempo que a maximiza entre eles. O algoritmo dará a significância da análise de variância realizada, confirmando ou rejeitando a hipótese do pesquisador.
Referencia:
Câmara, FP. Psiquiatria e estatística. Parte I: Uso da análise de cluster na identificação e classificação de doenças, Psychiatry On-Line Brazil, novembro, 2008, acessada em 24.01.09 no link
|