【實戰復盤】我如何用 AI Agent 打造自己的「Youtube 影音智慧大腦」?

文 / 漫遊數位 蔡教練

Youtube 影音智慧分析 https://youtube-summary-pq8b.onrender.com/

在資訊爆炸的時代,我們需要的不是更多的「摘要」,而是可執行的「洞察」。

🚀 為什麼我要自己造輪子?

市面上已經有像 NotebookLM 這麼強大的工具,為什麼我們還需要自己開發一個 Youtube 分析工具?

這是我在開發 Youtube Intelligence Web App 過程中不斷反思的問題。NotebookLM 就像一位盡職的圖書館管理員,它能幫你整理資料,但它有幾個核心痛點:

  1. 黑盒子邏輯:你無法控制它如何思考。但我希望 AI 能用我指定的 Mental Model(例如:First Principles, Jobs to be Done)來分析影片。
  2. 數據封閉:你的筆記被鎖在 Google 的圍牆花園裡。但我希望數據能無縫流動到我的 Heptabase 或 Obsidian 知識庫中。
  3. 無法自動化:你必須手動餵資料。但我希望未來能做到「訂閱頻道 -> 自動分析 -> 推送日報」的全自動化流程。

於是,“Vibe Coding” 的旅程開始了。目標很簡單:打造一個完全屬於我的、可客製化的、數據自主的影音情報分析師。


💎 核心功能亮點

經過幾次的迭代(與大量的 Vibe Coding),目前的 2.1.0 版本已經具備了以下企業級功能:

1. Gemini 3.0 核心引擎:看見細節

我們捨棄了傳統「下載音檔 -> 轉錄文字 -> 分析」的笨重流程,改用 Google 最新的 Gemini 3.0 模型。 它能直接「觀看」影片,理解視覺與聽覺的雙重脈絡。這解決了兩個大問題:

  • 繞過反爬蟲:不再需要與 Youtube 的 Bot Detection 玩貓抓老鼠。
  • 捕捉非語言資訊:演講者的表情、簡報上的圖表,現在都能被 AI 捕捉並寫入筆記。

2. 智慧成本監控 (Smart Cost Control)

AI 很好用,但 API 很貴。為了讓這個工具能長期運作,我實作了嚴格的成本控制系統:

  • Token 級記帳:精準追蹤每一次 GPT-4o 或 Whisper 的呼叫成本。
  • Firebase Persistence:將數據存於 Firebase Realtime Database,即使免費版伺服器休眠重啟,帳本依然完好無損。
  • 預算紅線:設定每月 $20 USD 警戒線,超支時介面會直接亮紅燈警告。

3. Vibe Coding 現代化介面

誰說自用工具一定要長得很簡陋? 我們採用了 Deep Glassmorphism 風格,搭配 SSE (Server-Sent Events) 技術,在網頁上重現了駭客任務般的「終端機日誌」效果。看著 AI 一行行思考、執行任務,本身就是一種療癒。Landing Page Demo

Review

Landing Page Demo


🛠 技術踩坑紀錄 (Post-mortem)

第一階段:與 Youtube 的貓抓老鼠

起初,我們使用 yt-dlp 下載音訊。但 Render 的伺服器 IP 很快就被 Youtube 標記為 “Bot”,導致無法下載。 💡 轉折點:我們發現 Gemini API 支援直接傳入 Youtube URL。這不僅繞過了 IP 封鎖,還大幅降低了處理時間(不需要轉檔了!)。

第二階段:記憶的問題

部署在免費版 Render (PaaS) 上,最大的問題是「檔案會消失」。每次重新部署,本地的 SQLite 或 JSON 檔就會被重置。 💡 解決方案:引入 Firebase Admin SDK。透過環境變數注入金鑰,讓應用程式能讀寫外部的 NoSQL 資料庫,實現了數據持久化。

第三階段:安全性

既然要放在網路上,就不能裸奔。 💡 解決方案:整合 Google OAuth 2.0。配合 ALLOWED_EMAILS 白名單機制,將其打造成一個私密的、僅限邀請使用的內部工具。


🔮 結語:Agent 的未來

這個專案證實了一件事:在 AI 時代,打造專屬軟體的門檻已經降到地板了。

你不需要是大神,只需要懂一點 “Prompt Engineering” 和 “System Design”。 我們不再是寫 code 的工人,而是設計系統的建築師。

這就是 Vibe Coding 的真諦。

想試試看嗎? 專案程式碼已開源(記得換上你自己的 API Key): [GitHub Repo Link]


蔡正信-數位教練

我是一位專精於數位轉型與AI應用的教練,致力於協助中高齡族群與企業主有效運用科技工具提升生產力。

蔡教練聯繫方式:https://rdcoach.pse.is/62uqz2

手機:0988-515-413

Line官方帳號2.0 : @rd.coach https://lin.ee/n4T9CGA
群英企業管理顧問股份有限公司
資訊顧問電子郵件:[email protected]

跨代際溝通 × AI賦能教學:
結合AI應用、數位工具教學與熟齡學習經驗,專注於中高齡與中小企業的數位轉型輔導,擅長從0到1建構數位素養。

實戰導向 × 客製培訓:
15年數位教學經驗,服務鴻海、1111人力銀行、台南大學、瓦城集團等,設計實用導向的教學模組,強調易學、可複製。

工具整合 × 工作流設計:
善用Evernote、Heptabase、Telegram等多款工具,打造AI第二大腦與一元筆記系統,協助學員從資訊收集到知識轉化。

行動導向 × 教學有感:
500+場講座與工作坊,專注學員實作與成果回報,推動「數位生活力」與「AI生活實驗室」教學風格。

預見未來 × 實踐智慧:
關注生成式AI與數位倫理發展,推動AI工具於科研、商業、教育場域的實作應用,擘劃AI助理與智慧工作未來藍圖。

Share:

More Posts