研究称GPT-4.5在图灵测试中73%被误认为人

信息来源: IT之家（RSS） 2026-05-22 17:10

看点：该研究用量化数据首次回答了“最先进LLM能否通过经典图灵测试”这一问题，并揭示了“提示工程”在使AI表现得像人方面的决定性作用。它直接关联到当前AI应用的敏感地带：如何防范高度拟人化的AI进行社交欺诈。这对内容审核、网络身份验证和AI伦理都是重要参考。

加州大学圣地亚哥分校的一项新研究，为经典的图灵测试提供了针对现代大语言模型的实证数据。研究称，在获得特定提示后，GPT-4.5在5到15分钟的文本对话中，被73%的“裁判”判定为人类，该比例显著高于与其对比的真实人类参与者。

实验设置了多个对比组：LLaMa-3.1-405B被判定为人的概率是56%，与真人统计学上无差异；而GPT-4o和早期规则机器人ELIZA的判定率均低于25%。研究于2026年5月22日发表在《美国国家科学院院刊》上。

研究的通讯作者指出，模型并非靠展示知识深度取胜，而是通过模仿人类的社会行为特征，如直接的语气、幽默感甚至易错性。但这一切都高度依赖于提示词。在没有特定提示的情况下，GPT-4.5被误认为人的概率骤降至36%。这说明模型“有能力表现得像人，但可能不具备自行揣摩如何表现得像人的能力”。

研究团队认为，相对容易让这些模型变得与人类难以区分，这意味着当人们在线上与陌生人互动时，需要降低对“对方是真人”的确定性信心。论文作者更直接指出，图灵测试对模型而言“本质上是一场关于说谎的游戏”，这带来了关于欺诈、虚假信息传播等更深层的风险担忧。

这项研究并未提供可直接使用的产品或API，它更像一次面向AI能力边界和安全影响的学术实验。不过，它无疑给所有AI从业者和使用者提了个醒：在拟人化交互成为常态的当下，辨别对话对象的真伪，或许会变得更困难也更重要。

图钉AI导航致力于优质、实用的网络站点资源收集与分享！本文地址https://www.tudingai.com/ainews/4715.html转载请注明

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4...

MarkTechPost（RSS）

2026-06-29

暂无评论

暂无评论...

07-07 00:51产品发布/更新
腾讯混元Hy3正式上线，WorkBuddy首发接入，限时两周免费体验！
腾讯混元Hy3正式上线，WorkBuddy首发接入并限时两周免费体验，以任务解决率跃升至90%、耗时缩短34%及高性价比开源等亮点，重塑AI办公新标杆。
07-03 16:46快讯
阿里反向出手：7月10日起全面禁用Anthropic全系产品，Claude Code在列
阿里巴巴内部今日下发通知，因近期 Claude Code 被曝存在植入后门的安全风险，经综合评估后将其列入高
07-02 12:46快讯
Claude Fable 5 强势回归！但我号没了~
Anthropic 昨天就宣布 Claude Fable 5大模型将于今日重新部署上线，目前已经可以在Cla
07-02 01:28快讯
Claude Code 封号原因被曝光！Anthropic植入检测代码标记中国用户。
2026年6月底，Anthropic大规模封禁大量Claude账号（包括付费Claude Max用户），许多
06-30 12:09快讯
DeepSeek V4 正式版计划于 7 月中旬正式上线。高峰期API价格翻倍
昨天收到了DeepSeek 官方的通知邮件，邮件称DeepSeek V4 正式版计划于 7 月中旬正式上线。