這篇 Thinking Machines Lab 的 Interaction Models 預覽 本質上不是在談「更會聊天的模型」,而是在重新定義:
「AI 不再是等待指令的函式呼叫器,而是持續在線、持續感知、持續協作的互動層(interaction layer)。」
這對目前主流的「雙子星系統」(如 Antigravity + OpenClaw 架構)衝擊非常大。因為 OpenClaw 類系統,目前本質上仍偏向:
- 回合制 (turn-based)
- 任務佇列驅動 (task queue based)
- 指令與回應 (command-response based)
- 智能體編排 (agent orchestration based)
但 TML 提出的方向是:連續存在 (continuous presence)、並發輸入/輸出 (concurrent input/output)、微回合串流 (micro-turn streaming) 以及 原生互動架構 (interaction-native architecture)。這會直接影響未來本地 AI Agent 的設計哲學。
以下我用「可落地性」而不是理論 hype 來分析,探討這項技術將如何改變未來的系統架構:
一、對現有系統可行的整合策略(5項)
1. 「Interaction Layer」前置化(最高優先)
優先順序:P0(立即)
核心概念:不要讓核心系統(如 OpenClaw)直接面對使用者。而是在「使用者 ↔ Interaction Layer ↔ 核心系統」中間插入一層即時互動代理。
這層負責:即時語音、中斷 (interruption)、背景頻道 (backchannel)、情境感知 (context sensing)、主動提示 (proactive cue) 與多模態同步。
核心系統則退化成:長任務執行器、工具調度器與 background reasoning engine。這其實非常接近 TML 的:interaction model + background model split。
短期實作建議:
- 用 Realtime API(OpenAI / Gemini Live)做 interaction front-end
- 核心系統保持 task executor
- 用 websocket event bus 溝通
- 將任務結果 stream 回 interaction layer
本質上:核心 AI 不再是「助理」,而是「後台部門」。
2. 建立「Micro-turn Event Bus」
優先順序:P0
TML 最大突破之一不是語音,而是 200ms micro-turn。這意味著系統狀態是連續流,而不是 prompt block。
對現有系統很重要,因為目前大部分 local agents 依賴 polling、queue、webhook 或 request-response,延遲太大。
短期實作建議:
建立 Redis Streams、NATS、Kafka-lite 或 websocket multiplexing 作為「AI 神經系統」。事件粒度應包含 partial transcript、cursor movement、screen delta、voice hesitation 等,而不是「完整一句話後才處理」。這是從 workflow engine 轉向 cognitive streaming system。
3. 本地「持續感知」層(Ambient Context Layer)
優先順序:P1
TML 強調模型 continuously perceives。現在多數 agent 只有被叫醒才工作,但真正高階 AI assistant 應該像作業系統 daemon 或 ambient computing。
短期實作建議:
監控 active window、clipboard、calendar、mic state、typing cadence 等,然後做低頻 context embedding。例如:「教練正在剪影片」、「正在 debug」等。這些 context 不需 prompt,AI 自己知道。這會大幅降低 context rehydration cost。
4. 即時語音 + 工具並行(Full Duplex Tooling)
優先順序:P1
「說話時,同時 tool calling。」目前多數 agent 一旦 tool call,語音就停。但真正協作應該是 AI 一邊說「我正在幫你查…」,另一邊 browser automation、GitHub search 等同步進行。
短期實作建議:
語音 thread 與 tool thread 分離,建立 shared memory state,用 async orchestration 與 tool result incremental streaming。這會讓核心系統從 chatbot 進化成 operations center。
5. 「Background Agent Federation」
優先順序:P2
TML 的另一個核心:interaction model 不負責所有推理,而是 delegate。未來方向是 Interaction AI 派發給 specialized agents(如 CTO、CKO 等)。
短期實作建議:
不要只是一個 super-agent,而是 agent federation。技術上透過 MCP、A2A protocol、event-driven orchestration 與 shared vector memory 會更可擴展。
二、技術風險(5項)
1. Context 爆炸(最高風險)
優先順序:R0
continuous streaming 會造成 context 爆炸。本地端尤其危險,因為 audio、video、screen 等 token 累積極快,很容易造成 RAM 爆炸與 latency 崩潰。
短期建議:不要保存 raw stream。改用 rolling summaries、episodic memory、saliency filtering 與 event abstraction。
2. 本地 GPU / Unified Memory 瓶頸
優先順序:R0
跑 agent orchestration OK,但 continuous multimodal interaction 是另一個量級。多模態同時存在很容易引發 memory pressure 與 swap storm。
短期建議:分層部署。本地負責 orchestration、memory、retrieval;雲端負責 realtime speech、VLM 與 reasoning burst。
3. Event Storm / Race Condition
優先順序:R1
當系統變 continuous,最大的敵人是「同步問題」。使用者打字中、agent 說話中、背景任務完成,誰優先?很容易造成 state corruption。
短期建議:建立 event priority、interrupt policy、lock state 與 conversational ownership。
4. 語音延遲造成「假互動」
優先順序:R1
400ms 以上延遲,人腦就感覺不自然。本地端各種延遲累積特別危險。
短期建議:interaction layer 使用 small fast model。這就是 interaction model vs background model 的真正原因。
5. 安全與權限失控
優先順序:R2
風險會從「回答錯」變成「做錯事」。當 agent 持續聽、看、操作,尤其涉及 terminal、file system 等,非常危險。
短期建議:建立 capability sandbox、approval boundary、high-risk action confirmation 與 scoped permissions。
三、本質結論
這篇文章真正重要的,不是「語音」。而是 AI 架構正在從「Request/Response」變成「Continuous Shared Presence」。
這代表未來的 AI Agent 不再像搜尋引擎,而更像作業系統、同事、副駕駛或 ambient intelligence layer。下一階段真正的突破,會是從「任務自動化」升級成「持續協作系統 (Continuous Collaborative System)」。這會是 2026–2028 AI Agent 架構的主戰場。
準備好迎接 AI 系統架構的下一次進化了嗎?
如果您也正思考如何為企業或個人打造專屬的「持續協作型 AI 系統」,或是希望將個人經驗轉化為可複用的數位資產,我們提供專業的 90 天陪跑型落地顧問服務。



