O modelo o3 de próxima geração da OpenAI chegará no início do próximo ano


Depois de quase duas semanas de anúncios, a OpenAI encerrou sua série de transmissão ao vivo de 12 dias de OpenAI com uma prévia de seu modelo de fronteira de próxima geração. “Por respeito aos amigos da Telefónica (dona da rede celular O2 na Europa), e na grande tradição da OpenAI ser realmente ruim com nomes, chama-se o3”, disse Sam Altman, CEO da OpenAI, aos que assistiam ao anúncio no YouTube.

O novo modelo ainda não está pronto para uso público. Em vez disso, a OpenAI está primeiro disponibilizando o3 para pesquisadores que desejam ajuda com testes de segurança. OpenAI também anunciou a existência do o3-mini. Altman disse que a empresa planeja lançar esse modelo “por volta do final de janeiro”, com o o3 seguindo “logo depois disso”.

Como você pode esperar, o3 oferece desempenho aprimorado em relação ao seu antecessor, mas o quão melhor ele é do que o1 é o destaque aqui. Por exemplo, quando apresentado este ano Exame Americano de Matemática por Conviteo3 alcançou uma pontuação de precisão de 96,7%. Por outro lado, o1 obteve uma classificação mais modesta de 83,3%. “O que isso significa é que o3 muitas vezes perde apenas uma pergunta”, disse Mark Chen, vice-presidente sênior de pesquisa da OpenAI. Na verdade, a o3 se saiu tão bem no conjunto usual de benchmarks que a OpenAI coloca em seus modelos que a empresa teve que encontrar testes mais desafiadores para compará-los.

O modelo o3 de próxima geração da OpenAI chegará no início do próximo ano

ARCO AGI

Um deles é ARC-AGIum benchmark que testa a capacidade de um algoritmo de IA de intuir e aprender na hora. Segundo o criador do teste, a organização sem fins lucrativos Prêmio ARCum sistema de IA que pudesse vencer com sucesso o ARC-AGI representaria “um marco importante em direção à inteligência artificial geral”. Desde a sua estreia em 2019, nenhum modelo de IA superou o ARC-AGI. O teste consiste em questões de entrada-saída que a maioria das pessoas consegue resolver intuitivamente. Por exemplo, no exemplo acima, a resposta correta seria criar quadrados a partir dos quatro poliominos usando blocos azuis escuros.

Em sua configuração de baixa computação, o3 obteve 75,7% no teste. Com poder de processamento adicional, o modelo alcançou uma classificação de 87,5%. “O desempenho humano é comparável ao limite de 85 por cento, portanto, estar acima deste é um marco importante”, de acordo com Greg Kamradt, presidente da ARC Prize Foundation.

Um gráfico comparando o desempenho do o3-mini com o do o1 e o custo desse desempenho. Um gráfico comparando o desempenho do o3-mini com o do o1 e o custo desse desempenho.

OpenAI

OpenAI também exibiu o3-mini. O novo modelo usa a recentemente anunciada API Adaptive Thinking Time da OpenAI para oferecer três modos de raciocínio diferentes: Baixo, Médio e Alto. Na prática, isso permite que os usuários ajustem quanto tempo o software “pensa” sobre um problema antes de entregar uma resposta. Como você pode ver no gráfico acima, o3-mini pode alcançar resultados comparáveis ​​ao atual modelo de raciocínio o1 da OpenAI, mas por uma fração do custo de computação. Conforme mencionado, o o3-mini chegará para uso público antes do o3.



Source link