As IAs têm um grande problema com a verdade e a correção – e o pensamento humano parece ser uma grande parte desse problema. Uma nova geração de IA está agora começando a adotar uma abordagem muito mais experimental que poderia catapultar o aprendizado de máquina para além dos humanos.
Lembra do AlphaGo da Deepmind? Representou um avanço fundamental no desenvolvimento da IA, porque foi uma das primeiras IAs para jogos que não recebeu instrução humana e não leu regras.
Em vez disso, usou uma técnica chamada aprendizagem por reforço de autojogo para construir sua própria compreensão do jogo. Pura tentativa e erro em milhões, até bilhões de jogos virtuais, começando mais ou menos aleatoriamente puxando todas as alavancas disponíveis e tentando aprender com os resultados.
Dois anos após o início do projeto em 2014, AlphaGo derrotou o campeão europeu de Go por 5-0 – e em 2017 derrotou o jogador humano número 1 do mundo.
Neste ponto, Deepmind lançou um modelo AlphaZero semelhante no mundo do xadrez, onde modelos como Deep Blue, treinados no pensamento humano, conhecimento e conjuntos de regras, vinham derrotando grandes mestres humanos desde os anos 90. AlphaZero jogou 100 partidas contra o atual campeão de IA, Stockfish, vencendo 28 e empatando o restante.
O pensamento humano freia a IA
Deepmind começou a dominar esses jogos – e shoji, Dota 2, Starcraft II e muitos outros – quando descartou a ideia de que emular um humano era a melhor maneira de obter um bom resultado.
Limitadas por limites diferentes dos nossos e dotadas de talentos diferentes, essas mentes eletrônicas tiveram a liberdade de interagir com as coisas em seus próprios termos, usar suas próprias forças cognitivas e construir sua própria compreensão do que funciona e do que não funciona. ‘t.
AlphaZero não conhece xadrez como Magnus Carlssen. Nunca ouviu falar do Gambito da Rainha nem estudou os grandes mestres. Ele apenas jogou uma tonelada de xadrez e construiu seu próprio entendimento contra a lógica fria e dura de vitórias e derrotas, em uma linguagem desumana e inescrutável que ele mesmo criou à medida que avançava.
Você pode dizer que o RL foi feito corretamente quando os modelos param de falar inglês em sua cadeia de pensamento
– Andrej Karpathy (@karpathy) 16 de setembro de 2024
Como resultado, é muito melhor do que qualquer modelo treinado por humanos, o que é uma certeza absoluta: nenhum humano, e nenhum modelo treinado no pensamento humano, jamais terá novamente uma chance em um jogo de xadrez se houver um agente avançado de aprendizagem por reforço do outro. lado.
E algo semelhante, de acordo com pessoas que estão em melhor posição para saber a verdade do que qualquer outra pessoa no planeta, é o que começou a acontecer com a melhor e mais recente versão do ChatGPT.
O novo modelo o1 da OpenAI começa a divergir do pensamento humano
ChatGPT e outras IAs de Large Language Model (LLM), como as primeiras IAs de xadrez, foram treinadas com tanto conhecimento humano quanto estava disponível: toda a produção escrita de nossa espécie, mais ou menos.
E eles se tornaram muito, muito bons. Toda essa conversa sobre se algum dia alcançarão a Inteligência Geral Artificial… Caramba, você consegue imaginar um humano que pudesse competir com o GPT-4o em todas as suas capacidades?
Mas os LLMs são especializados em linguagem, não em acertar ou errar os fatos. É por isso que eles “alucinam” – ou besteira – dando-lhe informações erradas em frases lindamente formuladas, parecendo tão confiantes quanto um âncora de notícias.
A linguagem é uma coleção de estranhas áreas cinzentas onde raramente há uma resposta 100% certa ou errada – então os LLMs são normalmente treinados usando aprendizagem por reforço com feedback humano. Ou seja, os humanos escolhem quais respostas parecem mais próximas do tipo de resposta que desejam. Mas fatos, exames e codificação – essas coisas têm uma condição clara de sucesso/falha; ou você acertou ou não.
E foi aqui que o novo modelo o1 começou a se separar do pensamento humano e a trazer aquela abordagem AlphaGo insanamente eficaz de pura tentativa e erro em busca do resultado certo.
O bebê de o1 entra no aprendizado por reforço
Em muitos aspectos, o1 é praticamente igual aos seus antecessores – exceto que o OpenAI incorporou algum “tempo de reflexão” antes de começar a responder a um prompt. Durante esse tempo de reflexão, o1 gera uma ‘cadeia de pensamento’ na qual considera e raciocina sobre o problema.
E é aqui que entra a abordagem RL – o1, ao contrário dos modelos anteriores que eram mais parecidos com os sistemas de preenchimento automático mais avançados do mundo, realmente “se importa” se acerta ou erra. E durante parte de seu treinamento, esse modelo recebeu a liberdade de abordar problemas com uma abordagem aleatória de tentativa e erro em sua cadeia de raciocínio de pensamento.
Ele ainda só tinha passos de raciocínio gerados por humanos para se basear, mas era livre para aplicá-los aleatoriamente e tirar suas próprias conclusões sobre quais passos, em que ordem, teriam maior probabilidade de chegar a uma resposta correta.
E, nesse sentido, é o primeiro LLM que está realmente começando a criar aquela ‘compreensão’ estranha, mas supereficaz, no estilo AlphaGo, dos espaços problemáticos. Nos domínios em que agora ultrapassa as capacidades e o conhecimento do nível de doutoramento, chegou lá essencialmente por tentativa e erro, ao encontrar por acaso as respostas corretas ao longo de milhões de tentativas autogeradas e ao construir as suas próprias teorias sobre o que é um etapa de raciocínio útil e o que não é.
Portanto, em tópicos onde há uma resposta certa e errada, agora estamos começando a ver essa inteligência alienígena dar os primeiros passos por nós mesmos. Se o mundo dos jogos é uma boa analogia para a vida real, então amigos, sabemos para onde vão as coisas a partir daqui. É um velocista que irá acelerar para sempre, se tiver energia suficiente.
Mas o1 ainda é treinado principalmente em linguagem humana. Isso é muito diferente da verdade – a linguagem é uma representação grosseira e de baixa resolução da realidade. Coloque desta forma: você pode me descrever um biscoito o dia todo, mas eu não o terei provado.
Então, o que acontece quando você para de descrever a verdade do mundo físico e deixa as IAs comerem alguns biscoitos? Em breve começaremos a descobrir, porque as IAs incorporadas nos corpos dos robôs estão agora a começar a construir a sua própria compreensão de como o mundo físico funciona.
O caminho da IA em direção à verdade última
Livres das reflexões humanas grosseiras de Newton, Einstein e Hawking, as IAs incorporadas adotarão uma abordagem bizarra no estilo AlphaGo para compreender o mundo. Eles cutucarão e cutucarão a realidade, observarão os resultados e construirão suas próprias teorias em suas próprias línguas sobre o que funciona, o que não funciona e por quê.
Eles não abordarão a realidade como os humanos ou os animais fazem. Eles não usarão um método científico como o nosso, nem dividirão as coisas em disciplinas como física e química, nem realizarão os mesmos tipos de experimentos que ajudaram os humanos a dominar os materiais, as forças e as fontes de energia ao seu redor e a dominar o mundo.
IAs incorporadas que tenham a liberdade de aprender dessa forma serão hilariantemente estranhas. Eles farão as coisas mais bizarras que você possa imaginar, por razões que só eles conhecem e, ao fazê-lo, criarão e descobrirão novos conhecimentos que os humanos nunca poderiam ter reunido.
Livres da nossa linguagem e pensamento, eles nem notarão quando romperem as fronteiras do nosso conhecimento e descobrirem verdades sobre o universo e novas tecnologias que os humanos não encontrariam nem num bilhão de anos.
Temos algum adiamento aqui; isso não acontecerá em questão de dias ou semanas, como grande parte do que está acontecendo no mundo do LLM.
A realidade é o sistema de mais alta resolução que conhecemos e a fonte definitiva da verdade. Mas há muito disso e também é dolorosamente lento para trabalhar; ao contrário da simulação, a realidade exige que você opere dolorosamente devagar, um minuto por minuto, e você só pode usar quantos corpos você realmente construiu.
Portanto, as IAs incorporadas que tentam aprender com a realidade básica não terão inicialmente a vantagem de velocidade selvagem de seus antepassados baseados na linguagem. Mas ainda serão muito mais rápidos que a evolução, com a capacidade de partilhar as suas aprendizagens entre grupos cooperativos na aprendizagem em enxame.
Empresas como Tesla, Figure e Sanctuary AI estão trabalhando arduamente na construção de humanóides em um padrão que seja comercialmente útil e competitivo em termos de custo com o trabalho humano. Assim que conseguirem isso – se conseguirem – serão capazes de construir robôs suficientes para começar a trabalhar nessa compreensão do mundo físico, baseada em tentativa e erro, em escala e velocidade.
Eles precisarão pagar suas despesas, no entanto. É engraçado pensar nisso, mas esses humanóides podem aprender a dominar o universo durante o tempo de inatividade do trabalho.
Peço desculpas por esses pensamentos um tanto esotéricos e especulativos, mas como continuo dizendo, que época para estar vivo!
O modelo o1 da OpenAI pode não parecer um salto quântico à frente, sentado ali na roupa textual monótona do GPT, parecendo apenas mais um digitador de terminal invisível. Mas é realmente uma mudança radical no desenvolvimento da IA – e um vislumbre fugaz de como exatamente essas máquinas alienígenas acabarão por ultrapassar os humanos de todas as maneiras concebíveis.
Para um mergulho mais profundo em como o aprendizado por reforço representa uma mudança radical no desenvolvimento da IA, recomendo fortemente o vídeo abaixo, do excelente IA explicada canal.
o1 – O que está acontecendo? Por que o1 é um terceiro paradigma de modelo + 10 coisas que você talvez não saiba
Fonte: OpenAI / IA explicada