Eu mal descobri como fazer gêmeos no meu dispositivo Android e já, o Google anunciou que está colocando o Gemini 2.0 em robôs da vida real. A empresa anunciou dois novos modelos de IA que “estabeleceu a base para uma nova geração de robôs úteis”, como escreve em um blog. Nas manifestações, os robôs se parecem com pessoas!
A Gemini Robotics é um modelo avançado de ação de visão de visão (VLA) construído no Gemini 2.0-o mesmo que tenho alimentado PDFs e pedindo ajuda com horóscopos. Esta versão do Gemini 2.0 apresenta a adição de ações físicas como a resposta de saída a uma consulta. No telefone pixel, por exemplo, a “resposta” de Gemini seria executar uma ação ou responder a uma pergunta. Gêmeos em um robô veria esse comando como algo que deveria responder fisicamente.
O segundo modelo de IA é Gemini Robots-Er, um modelo de linguagem de visão (VLM) com “entendimento espacial avançado”. É aqui que Gemini recebe seu “raciocínio incorporado”, o que ajuda a inteligência artificial a navegar em seu ambiente, mesmo quando muda em tempo real. Em um exemplo de vídeo, o Google mostrou em uma sessão fechada com jornalistas, o robô poderia discernir entre tigelas de acabamentos e cores variados em uma mesa. Também poderia diferenciar entre frutas falsas, como uvas e banana, e depois distribuir cada uma de uma das tigelas específicas. Em outro exemplo, o Google mostrou um robô entendendo a nuance de granola em um recipiente da Tupperware que precisava ser embalado na lancheira.
O Google Deepmind mostra como os braços do robô podem pegar uvas de um recipiente e colocá -los no balcão.
No centro deste anúncio está o Google elogiando os esforços da DeepMind em fazer de Gêmeos o tipo de “cérebro” que ele pode cair no espaço robótico. Mas é selvagem pensar que a marca da IA para o smartphone em sua mão, em alguma capacidade, estará ligando um robô humanóide. “Estamos ansiosos para explorar os recursos de nossos modelos e continuar a desenvolvê-los no caminho para aplicativos do mundo real”, escreve Carolina Parada, diretora sênior e chefe de robôs da DeepMind do Google.
O Google está em parceria com empresas como a Apptronik para “construir a próxima geração de robôs humanóides”. O modelo Gemini Robots-ER também estará disponível para parceiros para testes, incluindo robôs ágeis, robôs de agilidade, Boston Dynamics e ferramentas encantadas. Os robôs estão chegando, mas não há cronograma. Você pode moderar sua reação por enquanto.
O Google também está se preparando para o ataque de perguntas que inevitavelmente receberá sobre salvaguardas de Gêmeos. Eu até perguntei quais proteções estão em vigor para que o robô não dê errado e cause dor física a um humano. “Ativamos os modelos Gemini Robotics-Er para entender se é ou não uma ação em potencial em um determinado contexto”, explica o Google, baseando-o em estruturas como o Conjunto de dados Asimovque ajudou “os pesquisadores a medir rigorosamente as implicações de segurança das ações robóticas em cenários do mundo real”. O Google diz que também está colaborando com especialistas em campo para “garantir que desenvolvemos aplicativos de IA com responsabilidade”.