As IAs geram mais ideias de investigação novas e entusiasmantes do que os especialistas humanos


Os primeiros resultados estatisticamente significativos estão em: não apenas as IAs do Large Language Model (LLM) podem gerar novas ideias de pesquisa científica de nível especializado, mas suas ideias são mais originais e emocionantes do que as melhores das nossas – conforme julgado por especialistas humanos.

Avanços recentes em grandes modelos de linguagem (LLMs) entusiasmaram os pesquisadores sobre o potencial de revolucionar a descoberta científica, com modelos como ChatGPT e Claude da Anthropic mostrando uma capacidade de gerar e validar de forma autônoma novas ideias de pesquisa.

Essa, é claro, era uma das muitas coisas que a maioria das pessoas presumia que a IA nunca poderia substituir os humanos; a capacidade de gerar novos conhecimentos e fazer novas descobertas científicas, em vez de unir o conhecimento existente a partir dos seus dados de formação.

Mas, tal como acontece com a expressão artística, a composição musical, a codificação, a compreensão do subtexto e da linguagem corporal, e uma série de outras capacidades emergentes, as IA multimodais de hoje parecem ser capazes de gerar investigação inovadora – mais inovadora, em média, do que os seus homólogos humanos.

Nenhuma pesquisa anterior havia sido feita neste campo até recentemente, quando mais de 100 especialistas em pesquisa em processamento de linguagem natural (PNL) (PhDs e pós-doutorados de 36 instituições diferentes e conceituadas) se enfrentaram com a ‘ideação gerada pelo LLM’. agentes para ver quais ideias de pesquisa eram mais originais, interessantes e viáveis ​​– conforme julgado por especialistas humanos.

O campo da PNL é um ramo da inteligência artificial que lida com a comunicação entre humanos e IAs, numa linguagem que ambos os lados podem ‘compreender’, em termos de sintaxe básica, mas também de nuances – e mais recentemente, em termos de tom verbal e emocional. inflexão.

49 especialistas humanos escreveram ideias sobre 7 tópicos de PNL, enquanto um modelo LLM treinado pelos pesquisadores gerou ideias sobre os mesmos 7 tópicos. O estudo pagou US$ 300 por cada ideia, mais um bônus de US$ 1.000 para as cinco principais ideias humanas, em um esforço para incentivar os humanos a produzir ideias legítimas, fáceis de seguir e executar.

Depois de concluído, um LLM foi usado para padronizar os estilos de redação de cada inscrição enviada, preservando ao mesmo tempo o conteúdo original, a fim de nivelar o campo de jogo, por assim dizer, mantendo o estudo o mais cego possível.

Todas as submissões foram então revisadas por 79 especialistas humanos recrutados e foi feito um julgamento cego de todas as ideias de pesquisa. O painel apresentou 298 avaliações, dando a cada ideia entre duas a quatro avaliações independentes.

E com certeza, quando se trata de novidade e entusiasmo, os testes de IA foram significativamente melhores do que os pesquisadores humanos. Eles também tiveram uma classificação ligeiramente inferior à dos humanos em viabilidade e ligeiramente superior em eficácia – mas nenhum desses efeitos foi considerado estatisticamente significativo.

Uma visão geral de como os artigos humanos pontuaram em relação às ideias geradas pelo LLM

Cheng Lei Si

O estudo também revelou certas falhas, como a falta de diversidade do LLM na geração de ideias, bem como as suas limitações na autoavaliação. Mesmo com instruções explícitas para não se repetir, o LLM rapidamente começaria a fazê-lo. Os LLMs também não foram capazes de revisar e pontuar ideias com muita consistência e obtiveram pontuação baixa de acordo com os julgamentos humanos.

O estudo também reconhece que o lado humano de julgar a “originalidade” de uma ideia é bastante subjetivo, mesmo com um painel de especialistas.

Para melhor provar a teoria de que os LLMs podem ou não ser melhores no potencial de descoberta científica autónoma, os investigadores irão recrutar mais participantes especialistas. Eles propõem um estudo de acompanhamento mais abrangente, onde as ideias geradas pela IA e pelos humanos são totalmente desenvolvidas em projetos, permitindo uma exploração mais aprofundada do seu impacto em cenários do mundo real.

Mas estas descobertas iniciais são certamente preocupantes. A humanidade se vê olhando nos olhos de um novo e estranho adversário. As IAs de modelos de linguagem estão se tornando ferramentas incrivelmente capazes – mas ainda são notoriamente pouco confiáveis ​​e propensas ao que as empresas de IA chamam de “alucinações” e ao que qualquer outra pessoa poderia chamar de “besteira”.

Podem mover montanhas de papelada – mas certamente não há espaço para “alucinações” no rigor do método científico. A ciência não pode construir sobre uma base de BS. Já é escandaloso o suficiente que por algumas estimativaspelo menos 10% dos artigos de investigação estão atualmente a ser co-escritos – no mínimo – por IAs.

Por outro lado, não podemos subestimar o potencial da IA ​​para acelerar radicalmente o progresso em certas áreas – como evidenciado pelo sistema GNoME da Deepmind, que derrubou cerca de 800 anos de descoberta de materiais numa questão de meses, e cuspiu receitas para cerca de 380.000 novos cristais inorgânicos que poderiam ter potencial revolucionário em todos os tipos de áreas.

Esta é a tecnologia de desenvolvimento mais rápido que a humanidade já viu; é razoável esperar que muitas de suas falhas serão corrigidas e remendadas nos próximos anos. Muitos investigadores de IA acreditam que estamos a aproximar-nos da superinteligência geral – o ponto em que as IA generalistas ultrapassarão o conhecimento especializado em mais ou menos todos os campos.

É certamente uma sensação estranha ver a nossa maior invenção dominar rapidamente muitas das coisas que pensávamos que nos tornavam especiais – incluindo a própria capacidade de gerar ideias novas. A engenhosidade humana parece estar encurralando os humanos, como velhos deuses de lacunas cada vez menores.

Ainda assim, no futuro imediato, podemos fazer o melhor progresso como uma simbiose, com o melhor da inteligência orgânica e artificial a trabalhar em conjunto, desde que consigamos manter os nossos objectivos alinhados.

Mas se isto é uma competição, bem, é AI: 1, humanos: 0 para esta rodada.

Fonte: Chenglei Si via





Source link