文 / 漫遊數位 蔡教練
Youtube 影音智慧分析 https://youtube-summary-pq8b.onrender.com/
在資訊爆炸的時代,我們需要的不是更多的「摘要」,而是可執行的「洞察」。
🚀 為什麼我要自己造輪子?
市面上已經有像 NotebookLM 這麼強大的工具,為什麼我們還需要自己開發一個 Youtube 分析工具?
這是我在開發 Youtube Intelligence Web App 過程中不斷反思的問題。NotebookLM 就像一位盡職的圖書館管理員,它能幫你整理資料,但它有幾個核心痛點:
- 黑盒子邏輯:你無法控制它如何思考。但我希望 AI 能用我指定的 Mental Model(例如:First Principles, Jobs to be Done)來分析影片。
- 數據封閉:你的筆記被鎖在 Google 的圍牆花園裡。但我希望數據能無縫流動到我的 Heptabase 或 Obsidian 知識庫中。
- 無法自動化:你必須手動餵資料。但我希望未來能做到「訂閱頻道 -> 自動分析 -> 推送日報」的全自動化流程。
於是,“Vibe Coding” 的旅程開始了。目標很簡單:打造一個完全屬於我的、可客製化的、數據自主的影音情報分析師。
💎 核心功能亮點
經過幾次的迭代(與大量的 Vibe Coding),目前的 2.1.0 版本已經具備了以下企業級功能:
1. Gemini 3.0 核心引擎:看見細節
我們捨棄了傳統「下載音檔 -> 轉錄文字 -> 分析」的笨重流程,改用 Google 最新的 Gemini 3.0 模型。 它能直接「觀看」影片,理解視覺與聽覺的雙重脈絡。這解決了兩個大問題:
- 繞過反爬蟲:不再需要與 Youtube 的 Bot Detection 玩貓抓老鼠。
- 捕捉非語言資訊:演講者的表情、簡報上的圖表,現在都能被 AI 捕捉並寫入筆記。
2. 智慧成本監控 (Smart Cost Control)
AI 很好用,但 API 很貴。為了讓這個工具能長期運作,我實作了嚴格的成本控制系統:
- Token 級記帳:精準追蹤每一次 GPT-4o 或 Whisper 的呼叫成本。
- Firebase Persistence:將數據存於 Firebase Realtime Database,即使免費版伺服器休眠重啟,帳本依然完好無損。
- 預算紅線:設定每月 $20 USD 警戒線,超支時介面會直接亮紅燈警告。
3. Vibe Coding 現代化介面
誰說自用工具一定要長得很簡陋? 我們採用了 Deep Glassmorphism 風格,搭配 SSE (Server-Sent Events) 技術,在網頁上重現了駭客任務般的「終端機日誌」效果。看著 AI 一行行思考、執行任務,本身就是一種療癒。

Review
Landing Page Demo
🛠 技術踩坑紀錄 (Post-mortem)
第一階段:與 Youtube 的貓抓老鼠
起初,我們使用 yt-dlp 下載音訊。但 Render 的伺服器 IP 很快就被 Youtube 標記為 “Bot”,導致無法下載。 💡 轉折點:我們發現 Gemini API 支援直接傳入 Youtube URL。這不僅繞過了 IP 封鎖,還大幅降低了處理時間(不需要轉檔了!)。
第二階段:記憶的問題
部署在免費版 Render (PaaS) 上,最大的問題是「檔案會消失」。每次重新部署,本地的 SQLite 或 JSON 檔就會被重置。 💡 解決方案:引入 Firebase Admin SDK。透過環境變數注入金鑰,讓應用程式能讀寫外部的 NoSQL 資料庫,實現了數據持久化。
第三階段:安全性
既然要放在網路上,就不能裸奔。 💡 解決方案:整合 Google OAuth 2.0。配合 ALLOWED_EMAILS 白名單機制,將其打造成一個私密的、僅限邀請使用的內部工具。
🔮 結語:Agent 的未來
這個專案證實了一件事:在 AI 時代,打造專屬軟體的門檻已經降到地板了。
你不需要是大神,只需要懂一點 “Prompt Engineering” 和 “System Design”。 我們不再是寫 code 的工人,而是設計系統的建築師。
這就是 Vibe Coding 的真諦。
想試試看嗎? 專案程式碼已開源(記得換上你自己的 API Key): [GitHub Repo Link]



