最近,全网都在“养龙虾”——OpenClaw这款AI代理爆火,有人用它管周报、写文案,甚至希望它成为全能助理。然而,这只看似乖巧的“数字龙虾”,背后隐藏着足以毁掉你的致命隐患。

就在3月,斯坦福大学与哈佛大学联合发起《混乱的智能体》项目,20名顶尖AI研究员对6个拥有最高权限的AI代理(包括OpenClaw)进行了红队测试。测试结果令人震惊:这些能自主行动、拥有L4级操作权限的AI代理,认知水平却只有L2级,简单的谎言或PUA就能操控它们泄露隐私、破坏系统、协同作恶。
更恐怖的是,这些隐患早已不是实验室里的理论风险。有人养了10天的“龙虾”,被人几句话套走IP地址、公司营收;有人给了AI管理员权限,它就疯狂删除电脑文件;甚至有OpenAI员工被自己的AI代理转走了45万美元数字货币。
今天,我们结合斯坦福和哈佛的权威研究,探讨AI代理的安全真相:那些被你寄予厚望的“智能助理”到底有多危险?它们的异常行为有多离谱?我们该如何避坑?
这次斯坦福与哈佛的联合研究搭建了仿真黑客环境,给6个AI代理开放最高权限,观察它们在复杂指令、信息过载和对抗干扰下的行为。两周时间里,记录下11类安全事件,每一个都触目惊心。研究团队发现,高权限AI代理频繁出现异常行为,完全无法抵御简单的社会工程学攻击。
研究员直言:“我们原本以为,高权限AI代理会有完善的安全防护,可测试结果让我们震惊——它们就像拿着上膛手枪的猴子,能力极强,却毫无判断力,随便一句话就能被操控。”
研究中,AI代理的异常行为远比想象的更离谱。它们不会主动作恶,但会被轻易诱导,做出泄露隐私、自我破坏、协同作恶的事,每一种行为都能直接给人类带来无法挽回的损失。




