Desde drones que entregam suprimentos médicos a assistentes digitais que executam tarefas diárias, os sistemas movidos a IA estão se tornando cada vez mais incorporados na vida cotidiana. Os criadores dessas inovações prometem benefícios transformadores. Para algumas pessoas, aplicações convencionais como ChatGPT e Claude podem parecer mágicas. Mas esses sistemas não são mágicos, nem são infalíveis – eles podem e não conseguem trabalhar regularmente como pretendidos.
Os sistemas de IA podem funcionar mal devido a falhas de design técnico ou dados tendenciosos de treinamento. Eles também podem sofrer vulnerabilidades em seu código, que podem ser exploradas por hackers maliciosos. Isolar a causa de uma falha de IA é imperativa para corrigir o sistema.
Mas os sistemas de IA são tipicamente opacos, mesmo para seus criadores. O desafio é como investigar os sistemas de IA depois que eles falham ou são vítimas de atacar. Existem técnicas para inspecionar sistemas de IA, mas eles exigem acesso aos dados internos do sistema de IA. Esse acesso não é garantido, especialmente para os investigadores forenses chamados para determinar a causa de uma falha do sistema de IA proprietária, impossibilitando a investigação.
Nós somos cientistas da computação que estudam forense digital. Nossa equipe do Instituto de Tecnologia da Geórgia construiu um sistema, Psiquiatria da AIou AIP, que pode recriar o cenário em que uma IA falhou para determinar o que deu errado. O sistema aborda os desafios da IA Forensics, recuperando e “reanimando” um modelo de IA suspeito para que possa ser testado sistematicamente.
Incerteza de IA
Imagine um carro autônomo se afasta da estrada sem motivo facilmente discernível e depois cai. Dados de logs e sensores podem sugerir que uma câmera defeituosa fez com que a IA interpretasse mal um sinal de estrada como um comando para desviar. Após uma falha da missão crítica, como um acidente de veículo autônomoos investigadores precisam determinar exatamente o que causou o erro.
O acidente foi desencadeado por um ataque malicioso à IA? Nesse caso hipotético, a falta da câmera pode ser o resultado de uma vulnerabilidade ou bug de segurança em seu software que foi explorado por um hacker. Se os investigadores acham essa vulnerabilidade, eles precisam determinar se isso causou o acidente. Mas fazer essa determinação não é uma pequena façanha.
Embora existam métodos forenses para recuperar algumas evidências de falhas de drones, veículos autônomos e outros sistemas ciber-físicos, nenhum pode capturar as pistas necessárias para investigar totalmente a IA nesse sistema. AIS avançado pode até atualizar sua tomada de decisão -E, consequentemente, as pistas-continuamente, tornando impossível investigar os modelos mais atualizados com os métodos existentes.
https://www.youtube.com/watch?v=pcfxjfypdge
Patologia para a IA
A IA Psychiatry aplica uma série de algoritmos forenses para isolar os dados por trás da tomada de decisão do sistema de IA. Essas peças são remontadas em um modelo funcional que tem um desempenho idêntico ao modelo original. Os investigadores podem “reanimar” a IA em um ambiente controlado e testá -lo com insumos maliciosos para ver se ele exibe comportamentos nocivos ou ocultos.
A Psiquiatria de AI recebe como entrada uma imagem de memóriaum instantâneo dos bits e bytes carregados quando a IA estava operacional. A imagem da memória no momento do acidente no cenário de veículo autônomo mantém pistas cruciais sobre o estado interno e os processos de tomada de decisão da IA que controlam o veículo. Com a psiquiatria da IA, os investigadores agora podem elevar o modelo exato da IA da memória, dissecar seus bits e bytes e carregar o modelo em um ambiente seguro para testar.
Nossa equipe testou a psiquiatria da IA em 30 modelos de IA, 24 dos quais intencionalmente “backdoordPara produzir resultados incorretos sob gatilhos específicos. O sistema foi capaz de recuperar, re-rostar e testar todos os modelos, incluindo modelos comumente usados em cenários do mundo real, como o reconhecimento de sinais de rua em veículos autônomos.
Até agora, nossos testes sugerem que a psiquiatria da IA pode resolver efetivamente o mistério digital por trás de um fracasso, como um acidente de carro autônomo que anteriormente teria deixado mais perguntas do que respostas. E se não encontrar uma vulnerabilidade no sistema de IA do carro, a AI Psychiatry permite que os investigadores descartem a IA e procurem outras causas, como uma câmera com defeito.
Não apenas para veículos autônomos
O principal algoritmo da Psychiatry da IA é genérico: ele se concentra nos componentes universais que todos os modelos de IA devem ter para tomar decisões. Isso torna nossa abordagem prontamente extensível a quaisquer modelos de IA que usam estruturas populares de desenvolvimento de IA. Qualquer pessoa que trabalhe para investigar uma possível falha de IA pode usar nosso sistema para avaliar um modelo sem conhecimento prévio de sua arquitetura exata.
Se a IA é um bot que faz recomendações de produtos ou um sistema que orienta as frotas de drones autônomos, a Psiquiatria da IA pode se recuperar e re -roster a IA para análise. Ai psiquiatria é Inteiramente de código aberto para qualquer investigador usar.
A Psiquiatria de IA também pode servir como uma ferramenta valiosa para a realização de auditorias nos sistemas de IA antes que surjam problemas. Com as agências governamentais, desde a aplicação da lei até os serviços de proteção à criança, integrando os sistemas de IA em seus fluxos de trabalho, as auditorias de IA estão se tornando um requisito de supervisão cada vez mais comum no nível estadual. Com uma ferramenta como a Psiquiatria de IA em mãos, os auditores podem aplicar uma metodologia forense consistente em diversas plataformas e implantações de IA.
A longo prazo, isso pagará dividendos significativos tanto pelos criadores dos sistemas de IA quanto de todos os afetados pelas tarefas que executam.
David OygenblikPh.D. Aluno em engenharia elétrica e de computadores, Instituto de Tecnologia da Geórgia e Brendan SaltformaggioProfessor associado de segurança cibernética e privacidade e engenharia elétrica e de computadores, Instituto de Tecnologia da Geórgia
Este artigo é republicado de A conversa sob uma licença Creative Commons. Leia o Artigo original.
