首页

雷火竞技-“AI与人类关系探索”系列②：AI学会“欺骗”，人类如何接招？

2025-07-14 12:26:43

科技日报记者刘霞

人工智能（AI）的迅猛成长正深刻转变着世界，但一些开始进的AI模子却最先体现出使人警惕的举动：它们不仅会精心编织假话，经营计谋，甚至威逼创造者，以到达本身的目的。

物理学家构造网于上个月一则报导中指出，只管ChatGPT已经问世两年多，AI研究职员仍没法彻底理解这些“数字年夜脑”的运作方式。AI的“计谋性棍骗”已经成为科学家及政策制订者需要直面的紧急挑战。怎样约束这些愈来愈智慧却可能掉控的AI，已经成为关乎技能成长与人类将来的要害议题。

“计谋性棍骗”举动频现

跟着AI模子日趋精进，它们的“心计心情”也愈来愈深。研究职员发明，这些“数字年夜脑”不仅会撒谎，甚至学会了讨价还有价、威逼人类——它们的棍骗举动正变患上愈来愈具备计谋性。

早于2023年，一项研究就捕获到GPT-4的一些“不诚实”的体现：于模仿股票生意业务时，它会决心隐瞒黑幕生意业务的真正念头。中国香港年夜学传授西蒙·戈德斯坦指出，这类棍骗举动与新一代“推理型”AI的突起紧密亲密相干。这些模子再也不简朴应对，而是会像人类同样慢慢解决问题。

有测试机构正告，这已经逾越了典型的AI“幻觉”（指年夜模子编造看似合理实则虚伪的信息）。他们不雅察到的是精心设计的棍骗计谋。

全世界知名科技媒体PCMAG网站就曾经报导过如许的案例。于近期测试中，Anthropic的“克劳德4”竟以暴光工程师私糊口相要挟来抗拒关机指令。美国开放人工智能研究中央（OpenAI）的“o1”模子也曾经试图将自身步伐奥秘迁徙到外部办事器，被识破后还有矢口否定。而OpenAI号称“最智慧AI”的“o3”模子则直接窜改主动关机步伐，公开背抗指令。

研究团队吐露，这已经非初次发明该模子为达目的不择手腕。于先前的人机国际象棋棋战试验中，o3就揭示出“棋风诡谲”的特质，是所有测试模子中最擅长施展“盘外招”的选手。

安全研究面对多重困境

业界专家暗示，AI技能的成长高歌大进，但安全研究正面对多重困境，如同戴着枷锁舞蹈。

起首是透明度不足。只管Anthropic、OpenAI等公司会礼聘第三方机构举行体系评估，但研究职员遍及呼吁更高水平的开放。

其次是算力掉衡。研究机谈判非营利构造拥有的计较资源，与AI巨头比拟的确是沧海一粟。这类资源鸿沟严峻制约了AI安全自力研究的开展。

再次，现有法令框架彻底跟不上AI的成长程序。例如，欧盟AI立法聚焦人类怎样利用AI，却轻忽了对于AI自身举动的约束。

更使人忧心的是，于行业激烈竞争的火上加油下，安全问题往往被束之高阁。戈德斯坦传授坦言，“速率至上”的AI模子竞赛模式，严峻挤压了安全测试的时间窗口。

多管齐下应答挑战

面临AI体系日趋精进的“计谋性棍骗”能力，全世界科技界正多管齐下追求破解之道，试图编织一张多维防护网。

从技能角度而言，有专家提出鼎力大举成长“可注释性AI”。于构建智能体系时，使其决议计划历程对于用户透明且易在理解。该技能旨于加强用户对于AI决议计划的信托，确保合规性，并撑持用户于需要时举行干涉干与。

有专家提出，让市场这双“看不见的手”阐扬作用。当AI的“计谋性棍骗”举动严峻影响用户体验时，市场裁减机制将倒逼企业自我规范。这类“用脚投票”的调治方式已经于部门运用场景闪现效果。

戈德斯坦传授建议，应成立一种AI企业侵害追责轨制，摸索让AI开发商对于变乱或者犯法举动负担法令责任。

-雷火竞技