Stable Diffusion 3.5 segue suas instruções mais de perto e gera pessoas mais diversas

Stable Diffusion, uma alternativa de código aberto para geradores de imagens de IA como Midjourney e DALL-E, foi atualizada para versão 3.5. O novo modelo tenta corrigir alguns dos erros (que podem ser um eufemismo) do amplamente criticado Stable Diffusion 3 Medium. Stability AI afirma que o modelo 3.5 adere melhor aos prompts do que outros geradores de imagem e compete com modelos muito maiores em qualidade de saída. Além disso, ele está ajustado para uma maior diversidade de estilos, tons de pele e recursos, sem a necessidade de ser solicitado explicitamente.

O novo modelo vem em três sabores. Stable Diffusion 3.5 Large é o mais poderoso do trio, com a mais alta qualidade do grupo, ao mesmo tempo que lidera o setor em pronta adesão. Stability AI afirma que o modelo é adequado para uso profissional com resolução de 1 MP.

Enquanto isso, Stable Diffusion 3.5 Large Turbo é uma versão “destilada” do modelo maior, focando mais na eficiência do que na qualidade máxima. Stability AI afirma que a variante Turbo ainda produz “imagens de alta qualidade com aderência imediata excepcional” em quatro etapas.

Por fim, o Stable Diffusion 3.5 Medium (2,5 bilhões de parâmetros) foi projetado para ser executado em hardware de consumo, equilibrando qualidade com simplicidade. Com maior facilidade de customização, o modelo pode gerar imagens entre 0,25 e 2 megapixels de resolução. No entanto, ao contrário dos dois primeiros modelos, que já estão disponíveis, o Stable Diffusion 3.5 Medium só chega em 29 de outubro.

O novo trio segue a bagunça Difusão Estável 3 Médio em junho. A empresa admitiu que o lançamento “não atendeu totalmente aos nossos padrões ou às expectativas de nossas comunidades”, pois produziu alguns horror corporal ridiculamente grotesco em resposta a solicitações que não pediam tal coisa. As repetidas menções da Stability AI à adesão imediata excepcional no anúncio de hoje provavelmente não são coincidência.

Embora o Stability AI tenha mencionado isso apenas brevemente em seu anúncio no blog, a série 3.5 tem novos filtros para refletir melhor a diversidade humana. A empresa descreve os resultados humanos dos novos modelos como “representativos do mundo, não apenas um tipo de pessoa, com diferentes tons de pele e características, sem a necessidade de muita solicitação”.

Esperemos que seja sofisticado o suficiente para dar conta de sutilezas e sensibilidades históricas, ao contrário do desastre do Google no início deste ano. Sem ser solicitado a fazê-lo, Gemini produziu coleções de “fotos” históricas flagrantemente imprecisas, como nazistas etnicamente diversos e os fundadores dos EUA. A reação foi tão intensa que o Google só reincorporou as gerações humanas seis meses depois.

Source link

Related Stories

Trump afirma que um grupo “muito rico” comprará Tiktok sem revelar quem

Elon Musk retorna à política trollando o Irã e incendiando a grande conta de Trump

O Android 16 protegerá os usuários de torres celulares falsas e possíveis ameaças de espionagem

You may have missed

టాంబోవ్ విద్యార్థులు ఎలక్ట్రోల్ సేకరించారు

కెనడా రోజుకు ముందే ‘మోచేతులు అప్’ సరుకులు క్షీణిస్తున్నాయని వ్యాపారాలు చెబుతున్నాయి

సెనేటర్ థామ్ టిల్లిస్ 2026 లో తిరిగి ఎన్నిక కోసం పోటీ చేయరు

ద్వంద్వ పౌరసత్వ వ్యక్తుల సమీకరణపై ఒడెస్సా టిసిసి నకిలీని హెచ్చరించింది