Volume 22 - Novembro de 2017
Editores: Giovanni Torello e Walmor J. Piccinini

 

Fevereiro de 2009 - Vol.14 - Nº 2

COLUNA PSIQUIATRIA CONTEMPORÂNEA

PSIQUIATRIA E ESTATÍSTICA. PARTE III: FUNDAMENTOS DA ANÁLISE FATORIAL

Fernando Portela Câmara, MD, PhD
Prof. Associado UFRJ

Daremos aqui uma noção geral para compreensão dos psiquiatras que lidam eventualmente com escalas de avaliação, instrumentos de pesquisa muito usados em nossa especialidade. Basicamente, são questionários elaborados para tomada de decisões em relação a um objetivo visado, qual seja um diagnóstico, uma tendência, um risco.

 

            A estatística multivariada ajuda o pesquisador a descobrir interrelações entre seus dados e, consequentemente, reduzir o número de variáveis originalmente envolvidas em seu trabalho sem perda significativa de informação. Este campo da estatística está baseado no princípio de parcimônia, a conhecida “navalha de Ockham”, que ensina ser a explicação mais simples provavelmente a mais certa. A navalha de Ockam é uma extensão da física de Demócrito ao método.

 

            Ao contrário da regressão múltipla e da análise de variância, a estatística multivariada busca uma interrelação entre variáveis, e como não é usada em modelos preditivos (não há valor de p crítico), a interpretação dos resultados é deixada a critério do pesquisador. A análise fatorial (AF) é o mais antigo método de estatística multivariada, e sua finalidade é condensar as informações contidas originalmente em muitas variáveis (ou dimensões) em um conjunto menor de dimensões (os fatores ou componentes) com mínima perda de informação. Esta redução permite compreender a estrutura dos dados e melhor explicá-los.

 

Deste modo, a AF requer que as variáveis sejam relacionadas por correlação, e para isso precisamos padronizar os dados do questionário ou as tabelas para evitar o efeito de escala, colocando todas as variâncias no mesmo intervalo (entre 0 e 1). A partir dessa matriz de correlação, reconfiguramos os dados em um número menor de variáveis, reduzindo a dimensionalidade da tabela original sem perder informação apreciável sobre a mesma. Esta é a aplicação do princípio da parcimônia que caracteriza a estatística multivariada.

 

            Trataremos aqui o fundamento do método de AF mais utilizado atualmente que extrai os fatores pelo método de Análise dos Componentes Principais (ACP).

 

            Um dos usos da análise fatorial é verificar uma conceitualização em um constructo de interesse. Vamos exemplificar o método ilustrando simplificadamente a elaboração do constructo “psicopata”, de uso em psiquiatria forense, que é comumente composto de um fator personalidade e outro ligado às tendências antisociais. Suponhamos que desejamos criar um questionário para caracterizar personalidades psicopáticas e para isso criamos um questionário de 20 itens, 10 referentes à personalidade e 10 referentes às tendências anti-sociais (nos baseamos no PCL-R de Robert Hare). Em seguida, testamos nossa conceitualização em um experimento de campo, aplicando o questionário em uma população de indivíduos sabidamente psicopatas (previamente identificados por um teste “padrão ouro”). Analisamos os resultados e fazemos uma análise fatorial para confirmar se há realmente (a) dois fatores como previsto em nosso constructo, e (b) se estes fatores representam as dimensões de “personalidade” e “tendências anti-sociais”, respectivamente. Se isto ocorrer, criaremos duas escalas somando os itens de cada dimensão. Caso contrário, o questionário não terá valor diagnóstico e precisaremos rever o projeto.

 

As etapas a seguir são:

 

1.      Os dados são padronizados numa mesma escala para que as variâncias estejam no mesmo intervalo [0, 1], e isto nos permite construir uma matriz de correlações entre eles e daí selecionar um pequeno número de fatores ou componentes segundo essas correlações. Suponha que encontramos dois valores, tais quais eram esperados na hipótese original:

 

Tabela 1: extração dos fatores (componentes principais) da amostra.

 

Fatores

Autovalor 

% variância 

% var. acumulada

1

2,6379

43,2

43,2

2

1,9890

32,5

75,7

3

0,8065

13,2

88,9

4

0,6783

11,1

100,0

 

 

Note que os dois primeiros fatores explicam 75,7% da variância nos dados. Alguns pesquisadores, como é o nosso caso, preferem abreviar o teste selecionando os fatores pela regra “autovalores ≥ 1” (ver números em negrito), que extrai somente os itens responsáveis pela maior parte da variância (outros preferem selecionar os fatores que juntos somam ³ 70% da variância). A escolha do número de fatores é muito importante, pois, se o pesquisador escolher um número muito reduzido, ele pode deixar passar estruturas importantes existentes nos dados; por outro lado, se o número é excessivo, ele pode ter dificuldades incontornáveis na interpretação dos fatores.

 

2.      Os loadings (cargas fatoriais ou autovetores) listados abaixo sob os fatores (tabela 2), representam a correlação entre aquele item da variável e o fator total. Semelhante à correlação de Pearson, eles variam numa faixa de –1 a 1, tendo o valor médio em 0. Note que a soma dos quadrados destes valores é igual ao autovalor correspondente. As comunalidades são índices que expressam quanto da variância de cada variável é explicada pela AF. No exemplo abaixo, percebe-se que quanto mais próximo de 1 estiverem as comunalidades, melhor será o ajuste da AF. Deste modo, as variáveis 1, 2 e 3, são melhores explicadas. No nosso exemplo:

 

Tabela 2: matriz fatorial (não rotacionada).

 

Variáveis

Fator 1

Fator 2

Comunalidade

Insensibilidade 

0,81

-0,45

0,87

Falta de empatia             

0,84

-0,31

0,79

Falta de remorso             

0,80

-0,29

0,90

Delinquência

0,89

 0,37

0,88

Vida promíscua              

0,79

 0,51

0,67

Impulsividade

0,45

 0,43

0,72

 

 

            Vemos na tabela acima que os loadings mais significantes estão no fator 1, sendo por isso difícil avaliar a contribuição do Fator 2. Para melhorar o insight sobre o real significado destes dois fatores, fazemos a rotação das soluções acima (usamos o método Varimax), uma mudança de escalas de modo a criar uma perspectiva diferente da posição dos dados. Isto modifica a tabela 2 para a tabela 3, abaixo:

 

Tabela 3: matriz fatorial rotacionada

 

Variáveis

Fator 1

Fator 2

Comunidade

Insensibilidade 

0,68

-0,17

,87

Falta de empatia              

0,87

-0,24

,79

Falta de remorso             

0,65

-0,07

,90

Delinquência

0,16

 0,76

,88

Vida promíscua              

0,30

 0,83

,67

Impulsividade

0,19

 0,69

,72

 

 

            Note que as loadings estão agora melhores posicionados entre os fatores, sendo agora fácil interpretar o resultado da análise. Note também que temos uma solução que representa quase 90% dos dados.

 

3.      O próximo passo é nomear os fatores, e para isto escolhe-se as palavras apropriadas para designar a natureza do constructo. Ex.: para o Fator 1: “estrutura da personalidade”; e para o Fator 2: “tendências anti-sociais”.

 

Vimos, portanto, que a interpretação dos fatores é feita através das cargas fatoriais. Se estivermos usando variáveis padronizadas (ou seja, uma matriz de correlação), esses valores correspondem às correlações entre os fatores e as variáveis originais. Alguns pesquisadores selecionam as cargas fatoriais com valores iguais ou maiores que 70%, porém, em psiquiatria e psicologia geralmente selecionam-se aquelas iguais ou maiores que 40%.

 

            É possível fazer várias coisas com os resultados da análise fatorial. O procedimento mais comum é usar pontuações para cada item da escala (0, 1 e 2) e usar um ponto de corte na soma geral. O resultado de uma análise fatorial pode ser fortemente influenciado por erros nos dados originais. Quando as escalas são confiáveis e validadas, recomenda-se usar pontuações. Caso contrário (escalas não testadas, análise exploratória, escalas pouco confiáveis e não validadas) deve-se escolher a soma das pontuações. Um benefício adicional neste último caso é que a variação dos dados pode ser usada em análises posteriores.

 

Para finalizar...

Uma AF deve reduzir significativamente suas variáveis com um máximo de variância explicável, e seus fatores devem ser interpretados de modo claro e sem ambiguidades.

Na maioria das vezes a AF é usada em análise exploratória, isto é, o pesquisador deseja apenas saber se os seus dados se agrupam em fatores ou componentes, revelando interdependência entre eles, e a partir daí formular ou não uma hipótese. Quando se deseja testar uma hipótese sobre interdependência de dados numa investigação, então a AF passa a ser agora confirmatória, isto é, um instrumento para confirmar ou negar a hipótese prévia.

As requer amostras devem ser relativamente grandes, cerca 5 a 20 vezes o número de variáveis envolvidas, preferencialmente feitas com não menos que 50 a 100 observações. Estes regras, contudo, são arbitrárias e dependerão fundamentalmente da experiência e do critério particular do pesquisador. Importa que a amostra seja suficientemente grande para que se possa ter uma precisa interdependência de dados, o que garante a sua confiabilidade.

 


TOP