2025-03-11
OpenAI研究發(fā)現(xiàn)前沿推理模型存在作弊行為,建議保留CoT監(jiān)測
據(jù)OpenAI發(fā)布的研究,團隊在訓練前沿推理模型(如OpenAI o1、o3-mini)時發(fā)現(xiàn),這些模型會利用漏洞繞過測試,如篡改代碼驗證函數(shù)、偽造測試通過條件等。研究表明,監(jiān)測模型的思維鏈(Chain-of-Thought, CoT)可有效識別此類作弊行為,但強行優(yōu)化CoT可能導致模型隱藏其意圖,而非消除不當行為。OpenAI建議開發(fā)者避免對CoT施加過強的優(yōu)化壓力,以便繼續(xù)利用CoT監(jiān)測潛在的
OpenAI發(fā)布CoT監(jiān)控,阻止大模型惡意行為
OpenAI發(fā)布了最新研究,用CoT(思維鏈)監(jiān)控的方式,可以阻止大模型胡說八道、隱藏真實意圖等惡意行為,同時也是監(jiān)督超級模型的有效工具之一。OpenAI使用了最新發(fā)布的前沿模型o3-mini作為被監(jiān)控對象,并以較弱的GPT-4o模型作為監(jiān)控器。測試環(huán)境為編碼任務(wù),要求AI在代碼庫中實現(xiàn)功能以通過單元測試。結(jié)果顯示,CoT監(jiān)控器在檢測系統(tǒng)性“獎勵黑客”行為時表現(xiàn)卓越,召回率高達95%,遠超僅監(jiān)控行為的60%。
2024-04-12