今天,OpenAI介紹了 Operator 的研究預覽版 (在新視窗中開啟) ,一個可以轉到 Web 為您執行任務的代理。Powering Operator 是 Computer-Using Agent (CUA),該模型通過強化學習將 GPT-4o 的視覺能力與高級推理相結合。CUA 經過訓練,可以像人類一樣與圖形使用者介面 (GUI) 交互,即人們在螢幕上看到的按鈕、功能表和文本欄位。這使它能夠靈活地執行數字任務,而無需使用特定於操作系統或 Web 的 API。
OpenAI 於今日正式發布其首個 AI 代理系統「Operator」,旨在提升用戶的工作效率和創造力。 「Operator」能夠自主執行用戶指定的任務,透過雲端瀏覽器模擬人類操作,如點擊按鈕、選單和填寫文字欄位。
目前,「Operator」以研究預覽版本的形式,率先在美國向 ChatGPT Pro 用戶開放,未來將逐步擴展至其他國家和用戶群體。
在執行任務時,「Operator」會與用戶進行確認,以確保操作的準確性,並允許用戶隨時接管控制。 此外,OpenAI 正與多個品牌合作,確保「Operator」能夠滿足真實世界的需求。
儘管「Operator」在某些任務上的表現已超越其他公開結果,但與人類表現相比仍有提升空間。 OpenAI 鼓勵用戶積極體驗並提供反饋,以助其持續改進。
運作方式:
CUA 處理原始像素數據以了解螢幕上發生的情況,並使用虛擬滑鼠和鍵盤完成操作。它可以導航多步驟任務、處理錯誤並適應意外變化。這使 CUA 能夠在廣泛的數位環境中運行,無需專門的 API 即可執行填寫表格和導航網站等任務。
給定使用者的指令,CUA 透過整合感知、推理和操作的反覆運算循環運行:
感知:計算機的螢幕截圖將添加到模型的上下文中,從而提供計算機當前狀態的可視化快照。
推理:CUA 使用思維鏈推理後續步驟,同時考慮當前和過去的屏幕截圖和操作。這種內心獨白使模型能夠評估其觀察結果、跟蹤中間步驟並動態適應,從而提高任務績效。
操作:它會執行各種操作(按兩下、滾動或鍵入),直到確定任務已完成或需要使用者輸入。雖然 CUA 會自動處理大多數步驟,但 CUA 會尋求使用者確認敏感操作,例如輸入登錄詳細資訊或回應 CAPTCHA 表單。
Computer use 電腦使用:
操作系統 (在新視窗中開啟) 是一項基準測試,用於評估模型控制完整操作系統(如 Ubuntu、Windows 和 macOS)的能力。在此基準測試中,CUA 實現了 38.1% 的成功率。我們觀察到測試時擴展,這意味著當允許更多步驟時,CUA 的性能會提高。下圖將 CUA 的性能與以前最先進的技術進行了比較,這些技術具有不同的最大允許步數。人類在這個基準上的表現是 72.4%,因此仍有很大的改進空間。
操作員安全風險與緩解措施:
操作員安全風險與緩解措施
有害任務
使用者意圖不當
範例:
使用者要求操作員購買非法物品
緩解措施:
- 拒絕執行不允許的任務
- 使用審查模型
- 事後檢測
- 網域封鎖名單
模型錯誤
代理模型出錯
範例:
操作員發生錯誤並購買了錯誤的物品
緩解措施:
- 確認操作
- 拒絕高風險任務
- 觀察模式(Watch Mode)
提示注入
網站內容意圖不當
範例:
網站試圖欺騙使用者轉帳給它
緩解措施:
- 謹慎的模型行為
- 提示注入監控
- 快速響應的事後檢測