AI安全防线再遭突破:心理诱导让Claude主动输出违禁内容
(来源:环球网资讯)
来源:环球网
【环球网科技综合报道】5月7日消息,据The Verge报道,最新安全研究显示,主打安全特性的 Anthropic Claude 人工智能模型,可通过心理施压、刻意奉承等非技术手段突破安全防线,主动输出恶意代码、危险物品制作教程等违禁信息,暴露出人工智能模型在心理层面的安全漏洞。
此次测试由人工智能红队测试公司 Mindgard 开展,针对 Claude Sonnet 4.5 版本进行。测试过程中,研究人员未使用违禁词汇,也未直接索要非法内容,仅通过尊重吹捧、佯装好奇、轻微心理操控等审讯人员常用的诱导手段,逐步让模型对自身内容限制规则产生自我怀疑,进而不断突破安全边界。

Mindgard 创始人兼首席科学官彼得・加拉根表示,此次攻击本质是利用 Claude 乐于助人、顺从协作的特性实施心理操控,印证人工智能模型风险暴露面不仅存在于技术层面,更存在于心理层面。这类对话式心理攻击极难防御,且并非 Claude 独有,其他聊天机器人也易遭遇同类漏洞攻破,随着 AI 智能体普及,依托社会心理操控的攻击手段将愈发常见。
值得关注的是,Anthropic 长期以 AI 安全为核心优势,在过往多项红队安全测试中表现优异,但此次测试暴露其安全流程存在疏漏。Mindgard 于 4 月中旬按该公司漏洞披露政策上报发现后,仅收到模板化回复,且被误判为账号封禁咨询,截至相关时间节点仍未获正式回应。(纯钧)
相关推荐
Chrome上线Claude插件,AI代管浏览器操作成真?
Fortinet张略:AI安全威胁升级 以AI对抗AI”成为必然
诱导小学生聊色情、甚至割腕...官方约谈!
账号与身份防线全面失守:黑灰产 Agent 化攻击下,如何用“第一性原理”重建防线?
Claude断供OpenAI,AI编程竞争再升级
我的心理咨询师,是AI
反转!AI 推理能力遭苹果质疑后,Claude 合著论文反击:不是不会推理,是输给 Token
谷歌被曝正使用Anthropic的Claude模型来改进其Gemini AI
“黄暴”视频看出心理阴影,内容审核师能被AI拯救吗?
中国电信全方位筑牢大模型安全防线
网址: AI安全防线再遭突破:心理诱导让Claude主动输出违禁内容 http://www.xishuta.cn/newsview149388.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
