LLM Critics Help Catch LLM Bugs
LLM評論模型有助於捕捉LLM錯誤
摘要
通過人類反饋強化學習(RLHF)訓練“評論”模型,幫助人類更準確地評估模型生成的代碼。結果顯示,評論模型在63%的情況下優於人類評論,並且能捕捉到更多的錯誤。
研究動機
當前最強大的AI系統依賴於RLHF,但隨著模型能力的提高,專家也難以可靠地評估其輸出質量。這項研究旨在通過訓練模型來幫助人類更好地評估AI輸出,克服RLHF的限制。
方法
- 評論模型訓練:
- 使用RLHF訓練自回歸變壓器模型(CriticGPT),生成文本評論以指出代碼中的錯誤。
- 數據收集與評估:
- 收集並評估人類插入錯誤(Human Inserted Bugs)和人類檢測錯誤(Human Detected Bugs)兩類數據。
- 使用Force Sampling Beam Search(FSBS)平衡評論的全面性和假設錯誤。
評估指標
- 評論屬性:
- 全面性:評論是否全面覆蓋所有明顯且嚴重的問題。
- 特定錯誤包含:評論是否包含預先指定的錯誤。
- 假設錯誤與瑣碎問題:評論中是否包含虛構的錯誤或無關緊要的問題。
- 主觀有用性:評論的整體有用性評分。
主要發現
- 評論模型優於人類:
- CriticGPT模型的評論在大多數情況下被認為比人類評論更好,特別是在檢測插入錯誤方面。
- 人機結合的評論團隊能夠寫出更全面的評論,同時減少虛構錯誤的發生率。
- 評論模型的泛化能力:
- CriticGPT在非代碼任務中的表現也優於人類,能有效識別出一些被人類認為無瑕疵的回答中的錯誤。
結論
隨著AI模型的能力增強,人類需要借助模型來幫助評估AI的輸出,以確保訓練出更好、更安全的AI系統。CriticGPT模型展示了在真實數據中捕捉錯誤的能力,是一個有希望的起點。
感謝
感謝開發團隊和人類數據團隊的支持,以及所有參與數據評估的標註人員。
相關工作
本研究與自我修正(self-correction)和可擴展監督(scalable oversight)領域的其他工作有關。
未來研究方向
- 探討多步驟的交互式程序(如顧問或辯論)在評估中的應用。
- 分析強大的錯誤檢測技術在網絡安全中的雙重用途。
相關連結: