Março de 2020 – Vol. 25 – Nº 3
Fernando Portela Câmara, MD, PhD, Prof. UFRJ
Diretor do Instituto Stokastos
O filósofo de Oxford Nick Bostrom em 2003 fez um gedankenexperiment agora clássico. Bostrom imaginou um robô superinteligente, programado com o objetivo fabricar clipes de papel, e eventualmente o robô transforma o mundo inteiro em uma gigante fábrica de clipes de papel, consumindo todo material disponível na Terra. Bostrom quis enfatizar o que pode acontecer com uma IA, uma vez que seu desempenho é orientado por uma função custo que otimiza seu propósito. Dizendo de outra forma, bastante exagerada, se um robô é designado para cuidar de um idoso e verifica que falta proteína na casa para alimentá-lo, ela não hesitará em colocar o gato no microondas para prover a proteína necessária.
A solução para tal problema é simplesmente desligar a máquina, mas… se ela reconhece isso, estaremos realmente com um problema. Se um robô autônomo se desalinha de um objetivo humano, a solução para evitar um desastre é fazê-lo desativar seus drives. Alan Turing já havia sugerido em 1951 que seria possível “manter as máquinas em uma posição subserviente, por exemplo, desligando a energia em momentos estratégicos”. Ora, o que impede um agente inteligente de se autodesligar ou, de um modo geral, de ignorar comandos para parar de aumentar sua função de recompensa? Este é precisamente o núcleo do problema de controle para sistemas inteligentes.
Esse cenário tornou um problema real que foi chamado de “IA desalinhada”. O perigo de que máquinas artificialmente inteligentes cumpram nossas ações refletm nossas crenças, preconceitos e idiossincrasias, e o programador ou seus empregadores não está imune a isso, por mais rigoroso que seja. As linhas de código que animam as IAs inevitavelmente carecem de nuances, subjetividade e autocrítica, assim não se alinham às nossas verdadeiras preferências.
Máquinas inteligentes, mesmo que superem humanos em raciocínio lógico, não possuem mentes, portanto, não possuem autocrítica, julgamento de valor, intencionalidade, e nem mesmo sabem que é uma máquina ou o que fazem, são totalmente amorais e inumanas.
A questão é colocada por Samuel Russel no eu livro “Human Compatible” (Russell, 2019) da seguinte forma: se colocarmos um objetivo que a máquina mais inteligente que nós processará de modo inesperado, ela alcançará o objetivo que ele computa como sendo o correto e nós perderemos com isso. Nem sempre podemos informar a uma máquina o que exatamente queremos. Surge então a questão: como fazer uma máquina cumprir exatamente os nossos objetivos e não os objetivos dela mesma? Russel coloca essa questão em uma nova perspectiva para os pesquisadores da IA: “uma máquina inteligente só pode ser considerada benéfica na medida em que suas ações possam alcançar os nossos objetivos.”
Sabemos agora que algoritmos que selecionam conteúdos podem influenciar bilhões de pessoas e afetar o mundo. Esses algoritmos foram criados para maximizar os cliques, ou melhor, a probabilidade que um usuário clique sobre um item apresentado. Entretantom a função deles não é somente saber se o sujeito gostou ou não daquele item, mas de mudar as preferências dele para torná-lo mais previsível, e a máquina irá selecionar os itens mais prováveis de serem ‘clicados’. Pessoas com posições políticas extremistas tendem a ser mais previsíveis nos itens que elas clicam. Os algoritmos, como qualquer entidade inteligente, aprende a modificar o estado do ambiente – no caso, a mente do usuário – de modo a maximizar sua própria recompensa. A consequência disso em nossos dias atuais foi a polarização ideológica esquerda/direita, o retorno do fascismo, ameaça às democracias emergentes patrocinadas por tratados da ONU, fragmentação e outros prejuízos ao contrato social.
O exemplo atual mais alarmante que está afetando bilhões de pessoas é o do YouTube que, com o objetivo de maximizar o tempo de visualização, implantou algoritmos de recomendação de conteúdo baseados em IA. Dois anos atrás, cientistas e usuários da computação começaram a perceber que o algoritmo do YouTube, para atingir seu objetivo, recomenda conteúdo cada vez mais extremistas e conspiratórios. Uma pesquisadora relatou que, depois de ver imagens dos comícios de campanha de Donald Trump, o YouTube ofereceu a seguir vídeos com “discursos supremacistas brancos, negações do Holocausto e outros conteúdos perturbadores. A abordagem do algoritmo foi além da política”, disse ela: “Vídeos sobre vegetarianismo levou a vídeos sobre veganismo; vídeos sobre corridas levaram a vídeos sobre a execução de ultramaratonas.” Essa e outras pesquisa sugerem que o algoritmo do YouTube tem contribuído para a polarização e radicalização das pessoas e para espalhar informações erradas, apenas para manter a audiência.
Não tendo consciência e julgamento, uma IA nos mostra nada mais que as conseqüências de nossas ambiguidades e desejos. Não é possível um programador pensar como uma máquina, ele sempre expressará suas crenças e a cultura em que foi programada, especialmente o que os seus empregadores desejam colocar na mídia. A máquina funciona dentro de uma lógica rígida, matemática, sem as ambiguidades e imprecisões de nossa linguagem.
Quando os programadores tentam listar, por exemplo, todos os objetivos e preferências que um carro robótico deve operar simultaneamente, a lista é inevitavelmente incompleta e os resultados nem sempre previsíveis. Um carro autônomo é bastante seguro, mas anda muito devagar e freia com tanta frequência que acaba provocando mal estar e ansiedade aos passageiros. Ele evita o contato com um objeto em movimento com segurança, da maneira como foi programado, mas muitas vezes fica parado por muito tempo na rua, por um detalhe que um motorista humano contornaria rapidamente.
As IAs atuais são orientadas para objetivos específicos, e nisto resulta o seu sucesso, como vencer campeões em jogos de xadrez, Go e em videogames Atari, identificar objetos através de imagens, línguas, fazer traduções e até compor música e textos. Mas ao pedir que uma IA otimize uma “função de recompensa” – uma descrição meticulosa de alguma combinação de objetivos – isto levará inevitavelmente a um “desalinhamento”, porque é impossível incluir e ponderar corretamente todos os objetivos, sub-objetivos, exceções e advertências na função de recompensa , ou mesmo saber o que deve selecionar. Dar objetivos a robôs “autônomos” de roaming gratuito será cada vez mais arriscado à medida que se tornarem mais inteligentes, porque os robôs serão implacáveis na busca de sua função de recompensa e tentarão impedir que os desliguemos.
Os seres humanos não são computacionais, isto é, eles não calculam qual ação em um dado momento levará aos melhores resultados a longo prazo. Nossa tomada de decisões é hierárquica; perseguimos objetivos vagos a longo prazo por meio de objetivos a médio prazo, dando mais atenção às nossas circunstâncias imediatas. As IAs precisariam fazer algo semelhante, acredita Russel (2019), ou pelo menos entender como operamos. Em vez de as máquinas perseguirem objetivos próprios, elas devem ser reconfiguradas para satisfazer as preferências humanas, e a principal fonte de informação sobre as preferências humanas é o comportamento humano.
As IAs atuais baseadas em redes neurais artificiais profundas utilizam uma abordagem chamada “aprendizado por reforço” que surpreendeu a comunidade científica com seu rápido aprendizado, por exemplo, em se tornar imbatível no jogo com videogames da Atari, até mesmo inovando novos truques ao longo do caminho desconhecidos pelos melhores jogadores e superando qualquer ser humano. Na aprendizagem por reforço, uma IA aprende a otimizar sua “função de recompensa”, por exemplo, sua pontuação em um jogo; ele experimenta vários comportamentos e seleciona os que aumentam sua função de recompensa, reforçando-os, de modo a aumentar a sua probabilidade de recorrência.
Russell desenvolveu um sistema de “aprendizado inverso por reforço”. Enquanto um sistema de aprendizado por reforço descobre as melhores ações a serem tomadas para alcançar uma meta, um sistema inverso de aprendizado por reforço decifra o objetivo subjacente quando recebe um conjunto de ações, estimando que função de recompensa um humano está tentando otimizar. Esta aprendizagem torna-se cooperativa quando máquina e humano interagem para aperfeiçoar o reconhecimento de cenários humanos.
Suponha que Alice é uma humana, e Bob, um robô. Bob está decidindo se deve reservar em nome de Alice um quarto de hotel confortável, mas caro, mas não tem certeza sobre o que ela prefere. Bob estima uma recompensa média de +10. Se ele nada fizer, sua recompensa será 0. Há, contudo, uma terceira opção: Bob pode perguntar a Alice se ela quer que ele continue ou prefere que ele “desligue”. Se ela deixar o robô prosseguir, a recompensa média esperada será maior que +10. Em síntese, Bob decide consultar Alice e deixar que ela o desligue se desejar. A questão essencial aqui é que, a menos que Bob esteja completamente certo sobre o que Alice faria, ele a deixará decidir. A incerteza sobre o objetivo é essencial para garantir que se possa desligar a máquina, mesmo que ela seja inteligente do que nós.
Se fizermos com que os sistemas de IA quantifiquem sua própria incerteza sobre as preferências de um humano, será dado um passo importante na IA. Em outras palavras, quando a IA souber avaliar a incerteza sobre uma preferência humana.
Nosso comportamento está longe de ser computacional, e por isso é muito difícil reconstruir nossas verdadeiras preferências em uma IA. Se os robôs no futuro irão nos ajudar (e a evitar erros graves), eles devem aprender a lidar com nossas crenças e desejos subconscientes. Além disso, nossas preferências mudam a longo prazo ou rapidamente, em função do nosso estado de humor, o que é não computável para um robô. Considere-se ainda que nossas ações nem sempre cumprem nossos ideais, e que podemos conviver com valores conflitantes, algumas vezes por necessidade.
Por fim, em toda essa discussão uma questão raramente é abordada: as preferências malignas, por exemplo, uma IA militar construída para atualizar um terrível poder de destruição. Nada impede a um robô trabalhar para satisfazer os objetivos nefastos de quem controla a sua criação. Os teóricos da IA acreditam ser possível criar protocolos que impeçam uma IA de propósitos anti-humanos, porem sabem que pode haver brechas que contornem essas proibições. Não há como resolver esse problema, pois o mal também é inerente à natureza humana. Quando se crítica a IA do YouTube como uma ingênua incentivadora da radicalização e polarização de grupos militantes sociais, esquecemos que, apesar de todo esforço para corrigirem seu algoritmo de recomendação, ele está, inevitavelmente, captando crenças e motivações humanas.
Referências citadas
Russel S. Human Compatible: Artificial Intelligence and the Problem of Control, Viking, 2019.
Ribeiro MH, Ottoni R, West R, Almeida VAF, Meira W. Auditing Radicalization Pathways on YouTube, arXiv:1908.08313 [cs CY], 2019.