Psyquiatry online Brazil
polbr
Volume 22 - Outubro de 2017
Editor: Walmor J. Piccinini - Fundador: Giovanni Torello

Outubro de 2017 - Vol.22 - Nº 10

COLUNA PSIQUIATRIA CONTEMPORÂNEA

COMO CÉREBROS E MÁQUINAS APRENDEM

Fernando Portela Câmara, MD, PhD
Professor UFRJ
Diretor científico do Instituto Stokastos

A aprendizagem tanto em cérebros quanto em máquinas se dá por seleção de respostas adaptativas em reação ao meio. Toda aprendizagem é adaptativa, isto é, se dá por auto-organização, que leva à formação de repertórios com base na seleção da melhor resposta por tentativa e reforço seletivo. Na espécie humana, outro tipo de aprendizagem conhecida como aprendizagem por descrição, também é muito importante. Trata-se da aprendizagem por comunicação de informação de um organismo para outro (atualmente isto já acontece com máquinas, em menor grau), e do acesso a bancos de dados como bibliotecas, mídias, Internet etc. Este tipo de aprendizagem requer o uso de linguagem elaborada de conhecimento comum aos participantes.

Do ponto de vista técnico, a aprendizagem é um processo em que se procura selecionar a melhor solução para uma situação, que traga ao menos alguma vantagem acima de uma resposta puramente aleatória. Não se exige aqui uma resposta maximamente efetiva, mas tão somente uma resposta minimamente efetiva num conjunto de possibilidades. Creio que este deve ser também o objetivo pedagógico de toda educação, pois desde que o sujeito forme uma compreensão dos fatos, ele poderá mais tarde ou eventualmente descobrir por si mesmo segundo a necessidade ou a curiosidade.

Esse processo pode ser modelado como segue:

1.      Diante de um dado problema, testam-se diferentes opções de respostas selecionando-se as de melhores resultados dentro da lei de necessidade-redução de Hull. Em uma máquina isto é feito por seleção de probabilidades condicionais;

2.      A resposta que dá repetidamente melhor vantagem - mesmo que mínima, porém melhor que as demais - será selecionada, sendo isto um reforço seletivo (“acertos são selecionados, fracassos são descartados”), que é a lei do efeito de Thorndike, um conceito fundamental na teoria da aprendizagem.

As diferentes experiências são armazenadas num repertório de informações que permitirão ao sistema mapear seu ambiente, responder a ele adequadamente e fazer previsões. A teoria dos jogos nos ajuda a modelar esse processo. Considere a matriz de jogo abaixo, em que cada coluna representa os diferentes tipos de estratégias usadas por um jogador em um determinado jogo:

Na primeira coluna, ganha-se o máximo (3 pontos), mas a chance de perder é também maior (p = 2/3); na terceira coluna a chance de ganhar é garantida porém mínima (1 ponto), isto equivale a perdas e ganhos equilibrados numa rodada. Em ambos os casos, a média de ganho será 1. Na segunda jogada, o jogador tem maior chance a seu favor (p = 2/3), e a média de ganho será (4/3 = 1,3), ou seja, a melhor. Este tipo de estratégia não visa o máximo e nem o mínimo, mas um lucro marginal denominada de estratégia minimax (nem o mínimo e nem o máximo)

O primeiro jogador exibe uma natureza ousada, imprudente (não reflete sobre as consequências), um “otimista”; o terceiro é um “pessimista”, não ousa e teme perder e assim não arrisca.  Aquele que quer ganhar sempre o máximo será o perdedor num histórico de jogadas, pois sua chance de perder é alta; e da mesma forma o que procura o mínimo tende a se manter numa posição medíocre em seu histórico. O segundo jogador terá sempre um ganho residual entre o primeiro e o terceiro jogadores; ele elabora uma estratégia estável com alguma margem de lucro e tem a oportunidade de abandonar o jogo sempre que quiser sem prejuízo da sua bolsa, pois não está obrigado a permanecer no jogo para reaver suas perdas ou para não perder o mínimo que tem. 

Ao se testar uma situação, as opções podem ser avaliadas e estratégias podem ser criadas para manter uma posição vantajosa (melhor adaptabilidade). Entretanto, o sujeito na aprendizagem não seleciona a melhor estratégia, isto dependerá de experiência e reflexão, e desse modo o papel do professor ou instrutor será o fator que acelera essa forma de aprendizagem. Portanto, o papel de um professor ou instrutor ou facilitador não está somente em transferir conteúdo, mas em auxiliar a seleção de estratégias.

A aprendizagem depende de uma capacidade essencial, a generalização, que possibilita a conceituação ou classificação dos objetos em classes com base em um critério comum. Associa-se a essa capacidade a função da linguagem - veículo de informação por via descritiva - que codifica essas classes em signos com significados arbitrários atribuídos. A generalização permite a abstração e a transmissão de conceitos complexos, sem a qual seria impossível o raciocínio indutivo e dedutivo, pois ficaríamos presos a detalhes sem avançar, ficando em loop. A comunicação não teria utilidade social, pois se gastaria muita energia e tempo para se comunicar algo simples, portanto a função da linguagem não teria utilidade alguma. A generalização permite a criação de significados complexos tornando a comunicação mais versátil, ampla e com grande economia de energia, permitindo ao indivíduo planejar, criar, inovar. Tomamos decisões com base em generalizações de experiências, de conhecimento adquirido de outros, descobertas casuais ou observações controladas.

Uma generalização é uma operação indutiva do tipo “se a1 → b1, a2 → b2, a3 → b3,… então A → B” ( ai A, bi B). Na indução parte-se de uma coleção de observações particulares para encontrar um padrão comum ou “lei geral” que reúne todas elas numa conclusão comum. Este é um processo de natureza estatística, pois admite a possibilidade de uma exceção, mesmo que não seja conhecida. O processo dedutivo geralmente segue-se ao indutivo, agilizando conclusões a partir da experiência empírica.

Um jogo nos ajuda a entender a generalização e como ela pode ser mecanizada. Todo jogo é definido por regras, porém suas táticas se adquirem pela experiência, que atua como reforço seletivo. Isto leva a generalizações – heurísticas – que produzem “conhecimentos”. Não há necessidade de programar uma máquina para fazer generalizações. Considere,  p. ex., o jogo da velha, no qual numeramos as casas do jogo segundo uma ordem pré-fixada, como abaixo:

Este jogo é jogado por dois jogadores, A e B, sendo B o segundo a jogar. A começa colocando X no centro da tabela, B joga em seguida, depois A e assim por diante, e a quarta jogada decidirá se ele ganha ou não a partida (para ganhar terá de impedir que A complete uma trinca de X em quatro jogadas). Por exemplo, se as três primeiras jogadas for X13, B perde se no quarto lance se completar as sequências como X132, X134 ou X135, mas ganhará se completar como X137. Após certo número de partidas aleatórias, B registrará 7 como a melhor opção para X13, e segue o mesmo procedimento para as demais sequências. Desse modo ele constrói uma tabela de jogadas otimizadas, ou seja, uma heurística, uma vez que as posições de jogadas são fixas e assim é possível construir uma tabela.

Uma situação semelhante pode ser feita associando probabilidades condicionais a respostas para diferentes estímulos. Cada resposta a diferentes estímulos pode ser testada seja em atuação isolada ou combinada, e assim respostas “otimizadas” poderão ser selecionadas, e armazenadas em uma tabela, criando-se uma heurística. Por esse processo uma máquina “inteligente” constrói um padrão de comportamento propositado ou, no caso de um organismo, uma vantagem de sobrevivência, por mínima que seja. É dessa maneira que uma rede neural aprende, e aqui as probabilidades condicionais corresponderão ao grau de facilitação das sinapses da rede (potenciais de longa duração).

Voltando ao exemplo do jogo, vamos considerar as duas máquinas A e B, acima mencionadas, interagindo entre si, configurando, dessa forma, um jogo. Programamos a máquina A para jogar deterministicamente criando-se uma matriz numérica para o jogo da velha, por exemplo:

Note que as colunas, filas e diagonais somam sempre 15. Programamos A para jogar da seguinte forma: “Dado dois números x e y entre 1 e 9, encontre o número z tal que x+y+z = 15”. A, portanto, é uma máquina determinística e jogará dentro desta regra para ganhar em quatro lances.

A máquina B não é determinística, portanto ela deve aprender quais serão as melhores jogadas para impedir que A complete uma trinca. A primeira coisa a fazer é mapear a tabela de jogo segundo a numeração sequencial dada anteriormente, para então registrar as melhores estratégias. Já vimos, no exemplo anterior, que B ganha se neutraliza a sequência X13 colocando 7 na quarta posição de sua tabela, caso em que B registrará o acerto. Isto é facilmente realizado por uma rede neural. Temos então os esquemas:
A =  máquina determinística que efetua a operação x+y+z = 15

B =  máquina que aprende por tentativa e erro, e com os acertos generaliza a resposta como X/n/m/(m+4), onde (m+4 )mod 8.

Por exemplo, na sequência X13, m = 3, então (m+4) mod 8 = 0, logo a máquina inscreverá 7 na quarta posição, e assim o sistema constrói uma generalização. O processo, contudo, não estará completo se o resultado não for comunicado simbolicamente, isto é, deve haver a participação de uma linguagem. Esse problema é fundamental para a construção de uma real inteligência artificial.

Quando um organismo constrói um repertório de respostas adaptativas para uma dada classe de estímulos como no exemplo acima, ele não repetirá todo o processo diante de uma situação nova, mas utilizará sua heurística para lidar com uma situação não previamente confrontada, ou seja, fora do seu repertório de experiências. Ele selecionará a resposta que julgar mais adequada para a nova situação, não importando se é a melhor ou não, desde que lhe dê alguma vantagem superior à média do acaso. Desse modo, o organismo não gastará tempo e energia para selecionar e reforçar respostas novas, especialmente em situação de risco, o que permite rápida adaptação. Essas combinações podem ser mais complexas segundo a complexidade do organismo.

Nos organismos mais simples esse repertório é incorporado ao esquema genético mediante evolução por seleção natural, mas na medida em que os organismos se tornam mais complexos – eucariotos pluricelulares -, novos níveis de aprendizagem emergem. No estágio mais elementar dos metazoários, já se percebe a diferenciação de uma rede difusa de células interconectadas que integra todo o organismo. Mais tarde essa rede se diferencia em sistema nervoso segmentado e, por fim, polarizado. Os esquemas genéticos primitivos permanecem como inicializadores, organizadores dos estereótipos motores e reguladores da sinalização química entre partes do organismo. Entretanto, a aquisição de órgãos sensoriais diversificados e efetores igualmente variados possibilitou a incorporação de informação do meio em estruturas neurais e a seleção de respostas por aprendizagem, isto é, por tentativa e reforço. Esse processo se dá rapidamente permitindo a adaptação durante um confronto situacional e também possibilitando aos organismos modelar seu ambiente à medida que o explora. Desse modo, o organismo se emancipa dos esquemas genéticos, do contrário a seleção de comportamentos adaptados levaria milhares de anos pelo processo de mutação e seleção natural. Isso, contudo, não descarta que a evolução de certo genes importantes para funções cognitivas mais elaboradas estejam ainda em curso.

A formação do cérebro cognitivo é um processo organizado de tentativa, reforço e teste, e também um processo sintético, pois pode ser modelado em uma inteligência artificial. Aprendizagem, memória e inteligência, portanto podem existir fora da mente e isso nos permite entender como a aprendizagem se processa e inovar nesse campo. A pedagogia neural, uma disciplina que está emergindo da convergência entre ciência cognitiva e IA, já inicia uma revolução no campo da educação.

Nota. Este artigo é um capítulo do meu livro “Neurocibernética”, que em breve sairá publicado. A bibliografia e outros capítulos relacionados estão nele. Ao referir este artigo, mencionar o autor e título do livro.


TOP