Stable Diffusion, uma alternativa de código aberto para geradores de imagens de IA como Midjourney e DALL-E, foi atualizada para versão 3.5. O novo modelo tenta corrigir alguns dos erros (que podem ser um eufemismo) do amplamente criticado Stable Diffusion 3 Medium. Stability AI afirma que o modelo 3.5 adere melhor aos prompts do que outros geradores de imagem e compete com modelos muito maiores em qualidade de saída. Além disso, ele está ajustado para uma maior diversidade de estilos, tons de pele e recursos, sem a necessidade de ser solicitado explicitamente.
O novo modelo vem em três sabores. Stable Diffusion 3.5 Large é o mais poderoso do trio, com a mais alta qualidade do grupo, ao mesmo tempo que lidera o setor em pronta adesão. Stability AI afirma que o modelo é adequado para uso profissional com resolução de 1 MP.
Enquanto isso, Stable Diffusion 3.5 Large Turbo é uma versão “destilada” do modelo maior, focando mais na eficiência do que na qualidade máxima. Stability AI afirma que a variante Turbo ainda produz “imagens de alta qualidade com aderência imediata excepcional” em quatro etapas.
Por fim, o Stable Diffusion 3.5 Medium (2,5 bilhões de parâmetros) foi projetado para ser executado em hardware de consumo, equilibrando qualidade com simplicidade. Com maior facilidade de customização, o modelo pode gerar imagens entre 0,25 e 2 megapixels de resolução. No entanto, ao contrário dos dois primeiros modelos, que já estão disponíveis, o Stable Diffusion 3.5 Medium só chega em 29 de outubro.
O novo trio segue a bagunça Difusão Estável 3 Médio em junho. A empresa admitiu que o lançamento “não atendeu totalmente aos nossos padrões ou às expectativas de nossas comunidades”, pois produziu alguns horror corporal ridiculamente grotesco em resposta a solicitações que não pediam tal coisa. As repetidas menções da Stability AI à adesão imediata excepcional no anúncio de hoje provavelmente não são coincidência.
Embora o Stability AI tenha mencionado isso apenas brevemente em seu anúncio no blog, a série 3.5 tem novos filtros para refletir melhor a diversidade humana. A empresa descreve os resultados humanos dos novos modelos como “representativos do mundo, não apenas um tipo de pessoa, com diferentes tons de pele e características, sem a necessidade de muita solicitação”.
Esperemos que seja sofisticado o suficiente para dar conta de sutilezas e sensibilidades históricas, ao contrário do desastre do Google no início deste ano. Sem ser solicitado a fazê-lo, Gemini produziu coleções de “fotos” históricas flagrantemente imprecisas, como nazistas etnicamente diversos e os fundadores dos EUA. A reação foi tão intensa que o Google só reincorporou as gerações humanas seis meses depois.