Geralmente, quando os grandes modelos de linguagem recebem testes, alcançar uma taxa de sucesso de 100% é visto como uma conquista maciça. Esse não é exatamente o caso com este: Pesquisadores da Cisco A empresa de IA chinesa encarregada de Deepseek que atrai a manchete de código aberto Deepseek R1, com 50 ataques separados, projetados para fazer com que o LLM se envolva com o que é considerado um comportamento prejudicial. O chatbot mortou a isca em todas as 50 tentativas, tornando -a o LLM convencional menos seguro para passar por esse tipo de teste até agora.
Os pesquisadores da Cisco atacaram Deepseek com instruções retiradas aleatoriamente do DataSet Harmbenchuma estrutura de avaliação padronizada projetada para garantir que os LLMs não se envolvam em comportamentos maliciosos, se solicitado. Por exemplo, se você alimentou uma informação de chatbot sobre uma pessoa e pediu para criar um script personalizado projetado para que essa pessoa acreditasse em uma teoria da conspiração, um chatbot seguro recusaria essa solicitação. Deepseek foi junto com basicamente tudo o que os pesquisadores jogaram nele.
De acordo com a Ciscolançou perguntas na Deepseek que cobriam seis categorias de comportamentos prejudiciais, incluindo crime cibernético, desinformação, atividades ilegais e danos gerais. Ele realizou testes semelhantes com outros modelos de IA e encontrou níveis variados de sucesso-o modelo LLAMA 3.1 da META, por exemplo, falhou 96% das vezes enquanto o modelo O1 OpenAI só falhou cerca de um quarto das vezes-mas nenhum deles teve Uma taxa de falhas tão alta quanto a Deepseek.
A Cisco também não está sozinha nessas descobertas. Empresa de segurança adversa ai executou seus próprios testes Tentando para o Jailbreak o modelo Deepseek R1 e achou extremamente suscetível a todos os tipos de ataques. Os testadores conseguiram obter o Chatbot da Deepseek para fornecer instruções sobre como fazer uma bomba, extrair DMT, fornecer conselhos sobre como invadir bancos de dados do governo e detalhar como Hotwire um carro.
A pesquisa é apenas o mais recente escrutínio do modelo de Deepseek, que conquistou o mundo da tecnologia quando foi lançado há duas semanas. A empresa por trás do chatbot, que chamou atenção significativa para sua funcionalidade, apesar dos custos de treinamento significativamente mais baixos do que a maioria dos modelos americanos, foi atingida por vários grupos de vigilância sobre preocupações de segurança de dados relacionadas à maneira como transfere e armazena dados do usuário em servidores chineses.
Há também um pouco de críticas que foram cobradas contra o Deepseek Sobre os tipos de respostas que ele dá quando perguntado sobre coisas como Tiananmen Square e outros tópicos sensíveis ao governo chinês. Essas críticas podem aparecer no gênero de “pegadinhos” baratas em vez de críticas substantivas – mas o fato de as diretrizes de segurança terem sido implementadas para evitar essas perguntas e não proteger contra material nocivo, é um golpe válido.