人工智能模型勒索工程師以防止停機



Anthropic的Opus 4在96%的關閉測試中對工程師進行敲詐後觸發了警報。但它並不孤單。

新的研究表明,谷歌的Gemini 2.5 Pro的準確率爲95%,OpenAI的GPT-4.1爲80%,而R1爲79%。
NOT-0.76%
GPT15.15%
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 7
  • 轉發
  • 分享
留言
0/400
暫無留言