Fernando Portela Câmara, MD, PhD
Diretor científico do Instituto Stokastos

Quis custodiet ipsos custodes? (Juvenal)

Por que usar machine learning e seu mais notável avanço, a deep learning? Não seria a estatística poderosa o bastante para nos dar uma análise confiável de dados e preditividade suficiente para estabelecer conclusões razoáveis? A razão para dar preferência à aprendizagem automática (machine learning) é que ela nos permite fazer prospecção em grandes massas de dados e extrair conhecimentos que, de outra forma, nos seria impossível ou muito trabalhoso. Estamos na era dos Big Data e de análises em tempo real para atender a demandas prementes de uma sociedade em constante e rápidas mudanças.
O mundo atual consome uma quantidade extraordinária de informação, milhares de terabytes de dados são produzidos todos os dias e a questão é como extrair conhecimentos relevantes dessa massa caótica de informação. Informação não é conhecimento, são apenas dados.
Os métodos automatizados para extrair padrões de massas de dados e relações entre eles chamam-se coletivamente de “aprendizagem automática” (machine learning). Trata-se de uma evolução da computação que faz uso de algoritmos que melhoram seu desempenho (precisão e preditividade) à medida que novos dados entram no sistema, ou seja, a máquina aprende com eles. A aprendizagem automática usa vários métodos estatísticos e uma parte delas usa redes neurais (deep learning) ou algoritmos de aprendizagem profunda, lidando com volumes de dados que a estatística convencional levaria tempo para analisar e não daria conta de uma volumosa quantidade de dados. Claro que esses métodos se baseiam nos fundamentos da estatística e dos métodos estocásticos para extrair padrões e fazer previsões. A aprendizagem de máquinas está em nosso dia-a-dia na escolhas que a Amazon e a Netflix fazem para nós, com base em nossos padrões de compras e preferências (“perfis”), nas buscas e traduções que fazemos no Google, no corretor de texto e nas fotos dos nossos smartphones e outras funções que usamos mais e mais.
Entretanto, a descoberta de padrões não implica necessariamente em conhecimento. Padrões em dados pode ser uma característica para um determinado conjunto de dados e não pode ser generalizada. Há muitos exemplos na literatura de como a generalização de data sets leva a equívocos algumas vezes catastróficos. Em meu artigo anterior cito alguns deles (Câmara, 2019). Os estatísticos atuais estão bem conscientes desse problema e a estatística não é mais uma certeza absoluta, ela depende das populações estudadas e os parâmetros de confiabilidade têm seu uso limitado.
O crescimento exponencial de dados do mercado financeiro, previdência, indústria, empresas, ciências pressionou para o aperfeiçoamento de computadores cada vez mais rápidos e com grandes extensões de memórias. A computação por força bruta não dava conta do crescimento exponencial dos dados que explodiu na década de 1970, sendo precisos métodos heurísticos e busca cada vez mais eficientes. A IBM estima que diariamente sejam produzidos 2,5 petabytes (2,500 quintilhões de bytes) de informação, 90% dos quais somente nos últimos dois anos.
O machine learning foi saudado por muitos entusiastas como a tecnologia que faria do Big Data uma ciência em si mesma, dispensando teorias cientificas e até mesmo o método científico. Claro que isso é um exagero, pois não podemos dispensar os métodos cientificos, e sabemos que os números podem ser interpretados fora de sua realidade objetiva, segundo como queremos interpretá-los dentro de um determinado marco de interesse, além dos equívocos que podem ser gerados pela generalização de datasets e por lógica do próprio processo de aprendizagem automática (Câmara, 2019).
As máquinas podem fazer muito, exceto pensar por nós. Construímos inteligências artificiais para nos imitarem em algumas tarefas inteligentes que exigem grande rapidez; não construímos máquinas para serem humanas.
O excessivo entusiasmo e a confiança cega depositada nessa nova inteligência artificial deslocaram o eixo das decisões e inteligência para as máquinas. Esse fenômeno já foi estudado em psicologia no famoso experimento de Milgram (Câmara, 2019), que mostrou que temos uma tendência cega a obedecer a autoridades, mesmo que para isso tenhamos de nos desviar dos nossos principio éticos e sermos desumanos com o próximo. Grande parte dos Big Data é, na verdade, ruído, e a máquina não separa uma coisa de outra, apenas garimpa dados e, se esses forem suficientes para extrair alguma “pepita” valiosa de informação, pensamos com isso ter “descoberto um conhecimento”. No entanto, pode acontecer que esses padrões encontrados não seja exatamente o que precisamos para resolver um dado problema e isso pode levar à um erro catastrófico em algum tempo, que pode vir a ser irreversível ou extremamente dispendioso para corrigi-lo. É o caso das previsões das recentes eleições, crises financeiras, catástrofes climáticas e terrestres, que falharam fragorosamente.
Na medicina, o uso crescente de machine learning vem causando preocupações. Em um trabalho muito comentado, Ioannidis (2005) mostrou que muitos resultados obtidos em pesquisas médicas bem conduzidas mostraram-se falsos quando testados em situações reais, o que foi confirmado ela empresa Bayer, que reportou como não tendo reproduzidos cerca de dois terços das descobertas apresentadas em periódicos médicos.
Isso trouxe uma ‘crise de reprodutibilidade’ para dentro da ciência médica. Estudos considerados precisos passam a ser desconsiderados quando outro grande conjunto de dados, analisados dentro da mesma técnica, não se sobrepõe ao resultado anterior. Grandes quantidades de investimentos são então desperdiçadas, sem levar em conta os efeitos que isso pode trazer quando se trata de um novo tratamento ou método diagnóstico.
Uma quantidade crescente de pesquisa científica, da biomedicina à astronomia, envolve o uso de software de aprendizagem automática para “descoberta de conhecimento”. Os conjuntos de dados são muito grandes e muito caros, e muito dos resultados que essa modalidade de análise de Big Data apresenta são provavelmente imprecisos ou errados, porque os softwares só identificarão padrões em um conjunto particular de dados, e não no mundo real. Em uma recente apresentação na Associação Americana para o Avanço da Ciência, em Washington, uma pesquisadora alertou que o aumento do uso de machine learning na pesquisa médica está levando a uma “crise na ciência”, fazendo coro com muitos investigadores que vem denunciando esse fato já há algum tempo (Ghosh, 2019).
Há um consenso geral de que uma crise de reprodutibilidade invadiu a ciência atual, e que uma grande parte disso vem do uso de técnicas de aprendizagem automática. É alarmante o número de resultados de pesquisas que não se repetem quando outro grupo de cientistas tenta o mesmo tipo de experimento. Uma análise recente sugeriu que talvez 85% de toda a pesquisa biomédica atual pode vir a ser um esforço desperdiçado. Essa preocupação já foi motivo de manifestos de cientistas para maior rigor na reprodutibilidade dos experimentos (Baker, 2016; Munafo et al., 2017).
Essa crise, que vem aumentando há cerca de duas décadas, decorre de muitos experimentos que não são suficientemente bem projetados para garantir clareza nos resultados, se possível de modo direto. Milhares de trabalhos sobre o cérebro foram invalidados ao se detectar um erro de análise no software que lia imagens do córtex, após 15 anos de uso, resultando em 70% de falsos psitivos (Salas, 2016).
Com a introdução da aprendizagem de máquina para mineração e análise de grandes conjuntos de dados essa crise se acelerou. Isso porque os algoritmos de aprendizado de máquina foram desenvolvidos especificamente para encontrar padrões interessantes em grandes conjuntos de dados que, de outra forma, dificilmente perceberíamos. A questão que isso suscita é se podemos realmente confiar nesses resultados.
Esse método pode ser considerado científico? Seus resultados são reprodutíveis? Se acrescentássemos um novo conjunto de dados, teríamos a mesma descoberta anteriormente encontrada no conjunto original? A resposta é que na maioria das vezes isso não acontece.
Em 2016, no Congresso Brasileiro de Psiquiatria, dei uma palestrante a uma platéia que começava a conhecer os “grandes feitos” da aprendizagem automática na pesquisa de certos transtornos mentais, e tentei mostrar como aprendizagem automática pode ser limitada em alcance preditivo. Por exemplo, quem conhece o desenvolvimento de cadeias de Markov ergódicas (um método que uso frequentemente) sabe que ele só tem um bom poder preditivo em uma serie temporal limitada, e é preciso definir com segurança até onde se pode ir. A partir de certa extensão as cadeias de Markov passam a ser repetitiva, algo “maníacas”, e assim passa a repetir um mesmo padrão, e com isso perde o seu poder preditivo. Isto é fácil de entender se conhecermos as propriedades de multiplicação iterativa de matrizes, cujo resultado converge para um padrão fixo ou um ciclo-limite.
Um resultado estatístico ou uma análise por métodos estocásticos não é um teorema provado. As coisas podem mudar de tempos em tempos e assim tais análises são modelos com prazo de validade. Em geologia este conceito recentemente se tornou paradigmático em análises de prospecção; por exemplo, e modelos os são atualmente construídos com validade para dez, vinte, quarenta anos, e revalidados em novas pesquisas. Em medicina, a complexidade da biologia humana é um fator que exige mais rigor e revalidação para que resultados se assentem como normativos pelo crivo do tempo.
Tudo isso não significa que tenhamos de abandonar a machine learning em nossas pesquisas; seria um absurdo deixar de lado uma técnica poderosa. Um dos pontos principais está em o pesquisador conhecer a técnica que irá utilizar e como funciona o software, ser cauteloso e realista limitando-se ao seu conjunto de dados e procurar validar seus resultados a partir de outros métodos e fontes. Ao mesmo tempo, cabe aos desenvolvedores de algoritmos de machine learning trabalharem para melhorar a confiabilidade a eficiência dos algoritmos de aprendizagem. Por exemplo, os próprios algoritmos poderiam fornecendo estimativas do grau de incerteza dos resultados e os critérios utilizados na seleção e análise de dados. Trabalhos nessa direção vem sendo desenvolvidos até mesmo por exigência legal.
Coletar enormes conjuntos de dados tem um custo muito alto, além de ser demorado e trabalhoso, mas no final o que importa é que os resultados sejam confiáveis e reprodutíveis a longo prazo.
Referências
Baker M. 1,500 scientists lift the lid on reproducibility, Nature 533, 28 May 2016, https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Câmara FP. A era dos algoritmos – Parte II: Inteligência Artificial e diagnóstico médico, Psychiatry On-Line Brazil, 13 março 2019 http://www.polbr.med.br/2019/03/13/a-era-dos-algoritmos-parte-ii-inteligencia-artificial-e-o-diagnostico-medico-the-age-of-algorithms-part-ii-artificial-intelligence-and-medical-diagnosis/
Ghosh P. AAAS: Machine learning ‘causing science crisis’, BBC News, Washington
16 February 2019, disponível em https://www.bbc.com/news/science-environment-47267081

Ioannidis, JPA. Why most published research findings are false. PLoS Med 2005; 2: 696-701.
Munafo RM, Nosek BA, Bishop DVM et al. A manifesto for reproducible science, Nature Human Behavior 1, 0021 (2017), https://www.nature.com/articles/s41562-016-0021
Salas J. Nova revisão invalida milhares de estudos sobre o cérebro, Elk País, 30 julho 2016, https://brasil.elpais.com/brasil/2016/07/26/ciencia/1469532340_615895.html?rel=mas

Similar Posts