從「對話框」到「持續協作」:AI Agent 的下一個架構典範

這篇 Thinking Machines Lab 的 Interaction Models 預覽 本質上不是在談「更會聊天的模型」,而是在重新定義:

「AI 不再是等待指令的函式呼叫器,而是持續在線、持續感知、持續協作的互動層(interaction layer)。」

這對目前主流的「雙子星系統」(如 Antigravity + OpenClaw 架構)衝擊非常大。因為 OpenClaw 類系統,目前本質上仍偏向:

  • 回合制 (turn-based)
  • 任務佇列驅動 (task queue based)
  • 指令與回應 (command-response based)
  • 智能體編排 (agent orchestration based)

但 TML 提出的方向是:連續存在 (continuous presence)並發輸入/輸出 (concurrent input/output)微回合串流 (micro-turn streaming) 以及 原生互動架構 (interaction-native architecture)。這會直接影響未來本地 AI Agent 的設計哲學。

以下我用「可落地性」而不是理論 hype 來分析,探討這項技術將如何改變未來的系統架構:


一、對現有系統可行的整合策略(5項)

1. 「Interaction Layer」前置化(最高優先)

優先順序:P0(立即)

核心概念:不要讓核心系統(如 OpenClaw)直接面對使用者。而是在「使用者 ↔ Interaction Layer ↔ 核心系統」中間插入一層即時互動代理。
這層負責:即時語音、中斷 (interruption)、背景頻道 (backchannel)、情境感知 (context sensing)、主動提示 (proactive cue) 與多模態同步。
核心系統則退化成:長任務執行器、工具調度器與 background reasoning engine。這其實非常接近 TML 的:interaction model + background model split。

短期實作建議:

  • 用 Realtime API(OpenAI / Gemini Live)做 interaction front-end
  • 核心系統保持 task executor
  • 用 websocket event bus 溝通
  • 將任務結果 stream 回 interaction layer

本質上:核心 AI 不再是「助理」,而是「後台部門」。

2. 建立「Micro-turn Event Bus」

優先順序:P0

TML 最大突破之一不是語音,而是 200ms micro-turn。這意味著系統狀態是連續流,而不是 prompt block。
對現有系統很重要,因為目前大部分 local agents 依賴 polling、queue、webhook 或 request-response,延遲太大。

短期實作建議:
建立 Redis Streams、NATS、Kafka-lite 或 websocket multiplexing 作為「AI 神經系統」。事件粒度應包含 partial transcript、cursor movement、screen delta、voice hesitation 等,而不是「完整一句話後才處理」。這是從 workflow engine 轉向 cognitive streaming system。

3. 本地「持續感知」層(Ambient Context Layer)

優先順序:P1

TML 強調模型 continuously perceives。現在多數 agent 只有被叫醒才工作,但真正高階 AI assistant 應該像作業系統 daemon 或 ambient computing。

短期實作建議:
監控 active window、clipboard、calendar、mic state、typing cadence 等,然後做低頻 context embedding。例如:「教練正在剪影片」、「正在 debug」等。這些 context 不需 prompt,AI 自己知道。這會大幅降低 context rehydration cost。

4. 即時語音 + 工具並行(Full Duplex Tooling)

優先順序:P1

「說話時,同時 tool calling。」目前多數 agent 一旦 tool call,語音就停。但真正協作應該是 AI 一邊說「我正在幫你查…」,另一邊 browser automation、GitHub search 等同步進行。

短期實作建議:
語音 thread 與 tool thread 分離,建立 shared memory state,用 async orchestration 與 tool result incremental streaming。這會讓核心系統從 chatbot 進化成 operations center。

5. 「Background Agent Federation」

優先順序:P2

TML 的另一個核心:interaction model 不負責所有推理,而是 delegate。未來方向是 Interaction AI 派發給 specialized agents(如 CTO、CKO 等)。

短期實作建議:
不要只是一個 super-agent,而是 agent federation。技術上透過 MCP、A2A protocol、event-driven orchestration 與 shared vector memory 會更可擴展。


二、技術風險(5項)

1. Context 爆炸(最高風險)

優先順序:R0

continuous streaming 會造成 context 爆炸。本地端尤其危險,因為 audio、video、screen 等 token 累積極快,很容易造成 RAM 爆炸與 latency 崩潰。

短期建議:不要保存 raw stream。改用 rolling summaries、episodic memory、saliency filtering 與 event abstraction。

2. 本地 GPU / Unified Memory 瓶頸

優先順序:R0

跑 agent orchestration OK,但 continuous multimodal interaction 是另一個量級。多模態同時存在很容易引發 memory pressure 與 swap storm。

短期建議:分層部署。本地負責 orchestration、memory、retrieval;雲端負責 realtime speech、VLM 與 reasoning burst。

3. Event Storm / Race Condition

優先順序:R1

當系統變 continuous,最大的敵人是「同步問題」。使用者打字中、agent 說話中、背景任務完成,誰優先?很容易造成 state corruption。

短期建議:建立 event priority、interrupt policy、lock state 與 conversational ownership。

4. 語音延遲造成「假互動」

優先順序:R1

400ms 以上延遲,人腦就感覺不自然。本地端各種延遲累積特別危險。

短期建議:interaction layer 使用 small fast model。這就是 interaction model vs background model 的真正原因。

5. 安全與權限失控

優先順序:R2

風險會從「回答錯」變成「做錯事」。當 agent 持續聽、看、操作,尤其涉及 terminal、file system 等,非常危險。

短期建議:建立 capability sandbox、approval boundary、high-risk action confirmation 與 scoped permissions。


三、本質結論

這篇文章真正重要的,不是「語音」。而是 AI 架構正在從「Request/Response」變成「Continuous Shared Presence」。

這代表未來的 AI Agent 不再像搜尋引擎,而更像作業系統、同事、副駕駛ambient intelligence layer。下一階段真正的突破,會是從「任務自動化」升級成「持續協作系統 (Continuous Collaborative System)」。這會是 2026–2028 AI Agent 架構的主戰場。

準備好迎接 AI 系統架構的下一次進化了嗎?

如果您也正思考如何為企業或個人打造專屬的「持續協作型 AI 系統」,或是希望將個人經驗轉化為可複用的數位資產,我們提供專業的 90 天陪跑型落地顧問服務。

預約 AI 行動系統健檢與諮詢

蔡正信-數位教練

我是一位專精於數位轉型與AI應用的教練,致力於協助中高齡族群與企業主有效運用科技工具提升生產力。

蔡教練聯繫方式:https://rdcoach.pse.is/62uqz2

手機:0988-515-413

Line官方帳號2.0 : @rd.coach https://lin.ee/n4T9CGA
群英企業管理顧問股份有限公司
資訊顧問電子郵件:[email protected]

跨代際溝通 × AI賦能教學:
結合AI應用、數位工具教學與熟齡學習經驗,專注於中高齡與中小企業的數位轉型輔導,擅長從0到1建構數位素養。

實戰導向 × 客製培訓:
15年數位教學經驗,服務鴻海、1111人力銀行、台南大學、瓦城集團等,設計實用導向的教學模組,強調易學、可複製。

工具整合 × 工作流設計:
善用Evernote、Heptabase、Telegram等多款工具,打造AI第二大腦與一元筆記系統,協助學員從資訊收集到知識轉化。

行動導向 × 教學有感:
500+場講座與工作坊,專注學員實作與成果回報,推動「數位生活力」與「AI生活實驗室」教學風格。

預見未來 × 實踐智慧:
關注生成式AI與數位倫理發展,推動AI工具於科研、商業、教育場域的實作應用,擘劃AI助理與智慧工作未來藍圖。

Share:

More Posts