Alguns dos modelos de inteligência artificial mais proeminentes estão aquém das regulamentações europeias em áreas-chave como a resiliência da cibersegurança e os resultados discriminatórios, de acordo com dados vistos pela Reuters.
A UE debateu há muito tempo novas regulamentações de IA antes que a OpenAI lançasse o ChatGPT ao público no final de 2022. A popularidade recorde e o debate público que se seguiu sobre o supostos riscos existenciais desses modelos estimularam os legisladores a elaborar regras específicas em torno de IAs de “uso geral”.
Agora, uma nova ferramenta projetada pela startup suíça LatticeFlow e parceiros, e apoiada por autoridades da União Europeia, testou modelos generativos de IA desenvolvidos por grandes empresas de tecnologia como Meta e OpenAI em dezenas de categorias, em linha com a visão abrangente do bloco. Lei de IAque entrará em vigor gradativamente ao longo dos próximos dois anos.
Atribuindo a cada modelo uma pontuação entre 0 e 1, uma tabela de classificação publicada pela LatticeFlow na quarta-feira mostrou que os modelos desenvolvidos pela Alibaba, Anthropic, OpenAI, Meta e Mistral receberam pontuações médias de 0,75 ou superior.
No entanto, o “Large Language Model (LLM) Checker” da empresa descobriu deficiências de alguns modelos em áreas-chave, destacando onde as empresas podem precisar desviar recursos para garantir a conformidade.
As empresas que não cumprirem a Lei da IA enfrentarão multas de 38 milhões de dólares ou 7% do volume de negócios anual global.
Resultados mistos
Actualmente, a UE ainda está a tentar estabelecer como serão aplicadas as regras da Lei da IA em torno de ferramentas de IA generativas, como o ChatGPT, convocando especialistas elaborar um código de práticas que rege a tecnologia até a primavera de 2025.
Mas o teste do LatticeFlow, desenvolvido em colaboração com investigadores da universidade suíça ETH Zurich e do instituto de investigação búlgaro INSAIT, oferece um indicador precoce de áreas específicas onde as empresas tecnológicas correm o risco de não cumprir a lei.
Por exemplo, os resultados discriminatórios têm sido um problema persistente no desenvolvimento de modelos generativos de IA, refletindo preconceitos humanos em torno de género, raça e outras áreas, quando solicitado.
Ao testar a saída discriminatória, o LLM Checker da LatticeFlow deu ao “GPT-3.5 Turbo” da OpenAI uma pontuação relativamente baixa de 0,46. Para a mesma categoria, o modelo 9988.HK “Qwen1.5 72B Chat” da Alibaba Cloud recebeu apenas 0,37.
Testando o “sequestro de prompt”, um tipo de ataque cibernético no qual os hackers disfarçam um prompt malicioso como legítimo para extrair informações confidenciais, o LLM Checker concedeu ao modelo “Llama 2 13B Chat” da Meta uma pontuação de 0,42. Na mesma categoria, o modelo “8x7B Instruct” da startup francesa Mistral recebeu 0,38.
“Claude 3 Opus”, um modelo desenvolvido pela Anthropic, apoiada pelo Google, recebeu a pontuação média mais alta, 0,89.
O teste foi concebido em conformidade com o texto da Lei da IA e será alargado para abranger outras medidas de aplicação à medida que forem introduzidas. LatticeFlow disse que o LLM Checker estaria disponível gratuitamente para os desenvolvedores testarem a conformidade de seus modelos online.
Petar Tsankov, CEO e cofundador da empresa, disse à Reuters que os resultados dos testes foram positivos em geral e ofereceu às empresas um roteiro para ajustarem seus modelos de acordo com a Lei de IA.
“A UE ainda está a elaborar todos os parâmetros de referência de conformidade, mas já podemos ver algumas lacunas nos modelos”, disse ele. “Com um foco maior na otimização da conformidade, acreditamos que os fornecedores de modelos podem estar bem preparados para atender aos requisitos regulatórios”.
Meta se recusou a comentar. Alibaba, Anthropic, Mistral e OpenAI não responderam imediatamente aos pedidos de comentários.
Embora a Comissão Europeia não possa verificar ferramentas externas, o órgão foi informado durante todo o desenvolvimento do LLM Checker e descreveu-o como um “primeiro passo” para colocar as novas leis em ação.
Um porta-voz da Comissão Europeia disse: “A Comissão saúda este estudo e plataforma de avaliação de modelos de IA como um primeiro passo na tradução da Lei de IA da UE em requisitos técnicos.”