上周还在嘲笑对手"用安全当营销噱头",这周Open AI自己也把新模型锁进了保险箱
当AI公司说安全,他们在保护谁?
山姆·奥特曼嘲笑Anthropic的那条推文,现在看起来有点难堪
几周之前,Anthropic宣布把它旗下网络安全模型ClaudeMythos限制在大概50家经过审查的机构里使用,不对大众开放,奥特曼在社交媒体上评论说,这是一种由恐惧驱动的营销手段也就是竞争对手在用安全这事情搞出神秘感,实际上是商业操作,接着, 4月29日,Open AI宣布GPT-5.5-Cyber也会用同样的方式定向推送给关键网络防御者,同样是限制访问,也得审核资质。

这个一百八十度的大转变, 让不少人觉得好玩,但要是仅仅停留在嘲笑这个层面,其实就错过了更该关注的事情。
事情的核心, 不是某个CEO前后矛盾的那些话,而是有这么一个真实的技术尴尬境地,专门用来搞网络安全的AI模型,本来就是一把双刃剑
这类模型被设计去做的事是发现系统漏洞、模拟黑客攻击、分析恶意代码换个说法, 它既可以帮防守的那一方找到自己系统的弱点,也完全能帮攻击的那一方做同样的事。
这种攻防两用的特性,不是产品设计出了什么失误, 而是由网络安全工作的本质决定的。
英国AI安全研究所对GPT-5.5开展了评测,发现它是第二个可以端对端完成多步骤网络攻击模拟的AI系统,这类任务一般得要一名人类专家耗费大概20个小时才可以完成,这也就代表着,模型的能力抵达了一个新的门槛不再只是给安全从业者提供参考建议罢了, 反而是可以独立实行复杂的攻击链条了,研究人员还发现,通过大概六小时左右的专业红队测试,可以找到一个通用越狱办法,让模型在恶意网络安全查询中输出违规内容,
这就是为什么限制访问这回事情,从技术层面来讲, 并不像是奥特曼一开始所表明的那般仅仅只是个噱头
但问题出现了, 谁来决定谁是可信的防御者,这可是整个方案里最模糊又最关键的部分
Open AI的受控访问名单预计会包含政府网络安全机构、像电力和电信企业这类关键基础设施运营方以及部分专项研究人员, 不过公司没公布更广泛开放的时间表。
这套审核机制听着是挺合理,可实行起来全是灰色地带国家级攻击者才不会自己报上身份去申请访问权限, 真正的风险往往就来自审核体系外面的人。
Open AI把这套体系起名为可信网络访问(Trusted Access for Cyber),并且提到已经有好几千个经过验证的防御者以及好几百个负责保护关键软件的团队加入。数字听着不少,但和全球网络安全从业者的总数比起来, 那还是一小部分,更多的独立研究人员、中小型企业的安全团队、发展中国家的网络防御力量,都不在这个圈子里头。

这里有一个不太被说起的矛盾,AI公司说民主化的时候,一般说的是让技术更普遍地被使用,但说安全的时候, 却又偷偷设置起访问的门槛来,这两件事情在逻辑上是有矛盾的,到现在为止,还没有哪个公司整出一个让人相信的平衡办法来。
奥特曼一开始对Anthropic开展批评,或许有竞争方面的意思,但他提到的那个问题本身是真实的,当模型有攻击能力时,工具最后归属于谁通常就看谁先得到,防御者有访问权限,也不能保证攻击者拿不到一样的能力通过别的途径、别的模型,或者直接绕过访问控制, 限制访问仅仅是一个推迟的办法,不是根本的解决办法。
研究人员评估还表明,网络攻防能力的迅速提高, 很可能是AI在长期推理、编程还有自主能力全方位进步的附带产物,不是专门训练出来的,这也就表示,就算没有那些专门的网络安全模型,通用模型的能力早晚也会达到一样的程度。
所以, AI公司选择限制访问,与其把它当作一种安全解决方案,还不如说这就是一个用时间来换空间的策略争取足够的时间,让防御体系能够跟得上模型能力的提升速度,这个逻辑本身是合理的,可问题在于这段时间到底有多长,谁会去使用,还有它是不是真的能用来建立更稳定的防护基础,而不只是为几次安全公告凑素材。
奥特曼那前后矛盾的情况, 反映出整个行业的真实情况,压根没人真正知道该怎么做,但每家公司都不要装作自己清楚的样子。