[AI論文]CriticGPT幫助GPT-4自我糾錯

LLM Critics Help Catch LLM Bugs

LLM評論模型有助於捕捉LLM錯誤

摘要

通過人類反饋強化學習(RLHF)訓練“評論”模型,幫助人類更準確地評估模型生成的代碼。結果顯示,評論模型在63%的情況下優於人類評論,並且能捕捉到更多的錯誤。

研究動機

當前最強大的AI系統依賴於RLHF,但隨著模型能力的提高,專家也難以可靠地評估其輸出質量。這項研究旨在通過訓練模型來幫助人類更好地評估AI輸出,克服RLHF的限制。

方法

  1. 評論模型訓練
  • 使用RLHF訓練自回歸變壓器模型(CriticGPT),生成文本評論以指出代碼中的錯誤。
  1. 數據收集與評估
  • 收集並評估人類插入錯誤(Human Inserted Bugs)和人類檢測錯誤(Human Detected Bugs)兩類數據。
  • 使用Force Sampling Beam Search(FSBS)平衡評論的全面性和假設錯誤。

評估指標

  • 評論屬性
  • 全面性:評論是否全面覆蓋所有明顯且嚴重的問題。
  • 特定錯誤包含:評論是否包含預先指定的錯誤。
  • 假設錯誤與瑣碎問題:評論中是否包含虛構的錯誤或無關緊要的問題。
  • 主觀有用性:評論的整體有用性評分。

主要發現

  1. 評論模型優於人類
  • CriticGPT模型的評論在大多數情況下被認為比人類評論更好,特別是在檢測插入錯誤方面。
  • 人機結合的評論團隊能夠寫出更全面的評論,同時減少虛構錯誤的發生率。
  1. 評論模型的泛化能力
  • CriticGPT在非代碼任務中的表現也優於人類,能有效識別出一些被人類認為無瑕疵的回答中的錯誤。

結論

隨著AI模型的能力增強,人類需要借助模型來幫助評估AI的輸出,以確保訓練出更好、更安全的AI系統。CriticGPT模型展示了在真實數據中捕捉錯誤的能力,是一個有希望的起點。

感謝

感謝開發團隊和人類數據團隊的支持,以及所有參與數據評估的標註人員。

相關工作

本研究與自我修正(self-correction)和可擴展監督(scalable oversight)領域的其他工作有關。

未來研究方向

  • 探討多步驟的交互式程序(如顧問或辯論)在評估中的應用。
  • 分析強大的錯誤檢測技術在網絡安全中的雙重用途。

相關連結:

Share:

More Posts