古風 Manifold 小筆記

文天祥的正氣歌 [1] 說:"天地有正氣,雜然賦流形。" 這個 “流形" 就是 Manifold 的中文翻譯。後兩句 “下則為河嶽" 就是說一般人站在地球上,還以為地球是平的,"上則為日星" 就是抬頭一看,感到世界大到甚至不只是 3D。

正經地說,流形是一個局部看起來像歐幾里得空間(平坦的空間),但整體結構可能非常複雜且彎曲的拓樸空間。一張 1024×1024 的彩色照片,在數學上是一個高達 300 萬維度的空間,但「有意義的貓狗照片」只佔據這個 300 萬維空間裡一個極小的低維流形,不是每個空間中的值都有特殊意義。這種群聚就像是太陽系裡面的星球彼此靠得很"近",若是出了太陽系,宇宙就顯得很稀疏,直到遇到其他星系。

對 AI 來說,世界模型充滿雜訊且計算量太大。模型會透過編碼器(Encoder),將高維的觀測數據「壓縮」並映射到一個低維度的潛在空間(Latent Space) 中。這個潛在空間本質上就是在捕捉數據所在的流形。一旦 AI 掌握了這個低維流形的潛在空間,它就能在這個平滑、連續的流形上做計算。這也可以解釋 transformer – encoder、decoder 為何會有用。

當初 DeepSeek 出來的時候,也用上了 latent space 壓縮的技術。我當時想,做完這個 lossy 的壓縮,雖然節省計算量,但是資訊丟掉就回不來了啊!? 因為那個 monent 我還沒有流形的觀念;如果有,我就不用緊張了。

在數學上,流形不一定可以微分。但是要訓練 AI ,就要計算梯度。因此我們只能假設它可以被微分,也就是要假裝它更平坦一點。因此就算真實的流形不可微,我們也得製造出一個可微分的流形。所謂 “人心惟危,道心惟微" [2],人類明明知道會有危險的奇點 (Singularity),但是演算法只能讓它可微分。以目前 AI 強大的戰力來看,這個有意的忽略,似乎影響不大。

[REF]

  1. 正氣歌
  2. 十六字心傳

養龍蝦的小筆記

龍蝦 OpenClaw 最近很紅,安裝龍蝦後, 有幾個特別的小心得可以分享。像是龍蝦會燒 token 這種事,大家都知道就跳過。我裝的是 Intel X86 和 ARM 的 Ubuntu。

  1. 賜名 – 我把它取名為螃蟹, 不管是 AICrab、MyCrab,它都會把圖示改成螃蟹。也就是說它在乎自己的名字,而且理解其意義。

2. 重新安裝

如果出了大錯, 想要重新安裝的話:光是砍掉 ~.openclaw 目錄還不夠,因為有些東西放在 /usr/bin/.nvm、 /usr/bin/nodejs 下面。如果沒有斬草除根。就算重新安裝還是會記住一些錯誤的設定。此時就算叫出 doctor 也修不好。

openclaw doctor --fix // 看醫生也治不好

3. Telegram 設定好,龍蝦和 Telegram 串不起來。網路文章通常會少寫一步 pairing. XXX 就是 telegram token。

openclaw pairing approve telegram XXXXXX

4. 搞爛掉之後,會遇到 gateway 連不上。

主要是 gateway token 出錯。就算用 openclaw config 重新設定成只看 password,它還是說 gateway API 錯,要去 UI 改。但是 UI 點進去啥都沒有,這條路子我修不好,最後選擇重灌。

openclaw config // 看起來都對,跑起來不對

5. Clawhub 安裝了還是找不到。這是因為 gloabl 安裝也不會自動加到路徑。

npm install -g clawhub // 以為必成功
npm list -g --depth=0 | grep clawhub // 什麼都撈不到
npm list -g clawhub // 看看它裝到哪裡去了?
echo $PATH // 果然沒有
NPM_GLOBAL_BIN=$(npm bin -g) // 找出來
echo "export PATH=\$NPM_GLOBAL_BIN:\$PATH\" >> ~/.bashrc // 加進去
source ~/.bashrc // 重新執行

6. 一把 key 不宜養太多隻龍蝦

本來在 X86 還用得好好的,後來想試試看 ARM 的版本時,因為接到 LLM Oauth 的 toekn 都用同一個吧?! 結果兩隻龍蝦都掛了,靜置一晚後復活,不敢再同時養。

API rate limit reached. Plase try again later.

整體來說,養龍蝦還是滿好玩的。最後用一點篇幅歪樓到 skill。龍蝦其中一個厲害的地方是 skill [1]。Skill 主要是 prompt、又帶 metadata (簡短自述)、和可選用的 code,跟 MCP 的 prompt (可選)、metadata (資料)、加 tools 算是有異曲同工之妙。

以我的認知,原本 MCP 的特色是好好描述目標、但在執行手段上保留彈性,好處是使用者可以對背後的操作一無所知。而 Claude Code / 龍蝦正面表列 skill,等於是把手段也大致講了,此時歪樓的機會更低。相對地、這個場景對使用者的知識水準要求更高,但 openClaw 的使用者正是龍蝦本人,這個門檻問題自然就不存在了 – 只需要擔心它拆家…就好?!

[後記]

我發現寄養家庭 (伺服器代管) 好像不能讓我免費嵌入 Youtube 影片,所以我做了一點調整。並補充一段內容。

Skill 與 Tools

我覺得現在人勝過 AI 的地方,主要是知識更新的速度。我問 AI Tools 和 Skills 有什麼差別的話,有的 AI 會說這是類似的東西,只是各家命名不同 (Claude 4.6 Sonnet 2026/3/5)。但如果你信了,就沒有機會聽到另外一個解釋 (文皓 blog 2026-02-05)[2]。

Tools 可以想像為食材,Skill 可以想像為烹飪技巧、食譜。所以我們有時候會聽到 Agent Skill 這種說法,因為 Agent 確實可以實現 Skill,但是沒有人說 Agent tools。

[REF]

  1. 程序員老王 – 10分钟弄懂 什么是大模型Skill
  2. https://yu-wenhao.com/zh-TW/blog/openclaw-tools-skills-tutorial/

MCP 小整理

學習 MCP (Model Context Protocol) 的時候, 我看了兩個版本的網路資料,一個是 Antropic 版 [1],一個是 Scrimba 版 [2],兩者的教法天差地別,容後再敘。如果只要用一個關鍵詞來理解,那還真得是 USB type C。所以我先說明一下 MCP 它 “USB-C" 在哪裡?

USB-C 主要的特徵是 protocol 無需使用者設定,接頭即插即用,正反都可以插,不會在只有兩個選擇中竟然插錯兩三次…^^。對於使用大語言模型的人 (user) 來說,同樣不需要知道 MCP Server 怎麼運作?MCP Server 們只是在哪邊等 MCP client 呼叫。至於 MCP Client 怎麼知道要呼叫哪個 server?當然,要先問啊!

在初始化階段,MCP Client 會根據 local host 的 configuration – 通常是 JSON 檔,先問問每個 MCP server 有哪些本領 (tools)?接下來就等著 LLM 自己評估需要那些 tools?例如要查新竹的陣風幾級?MCP Client 早已將收集到的工具清單注入給 LLM,讓它知道 MCP Server 1 有報氣象的 weather tool.,那 LLM 就會呼叫這個 tool,MCP Client 自動會找到對應 MCP server 1,而不需要再次輪詢所有 MCP server 們。

如果兩個 MCP server 都有一樣的 tool,目前的 MCP Client 實作通常會處理這件事(例如在工具名稱前加上 Server 前綴 serverA_get_status),或者後連線的會覆蓋前面的。這取決於 Client 的具體實作方式。

最後描述一下上課心得。

Antropic 的課程主打 AI 本人改作業,每一題 5 分滿分的英文申論題。這個我寫得好挫折。按照自己的意思寫,只有 2 ~ 3 分不等。AI 說你要用課程中的關鍵字啊!所以我要添上 toolslistrequest (MCP client 問 MCP server 會啥子時用的) 等 function call。抄得太多,AI 又說你要用自己的話回答。基本上 AI 也會提示,"你剛剛沒講到 security 喔",真是要被 “蕊死",好不容易才抓到訣竅。這是我第一次上網課上到有恐懼心理,還好最後 pass 了。

Scrimba 的課程偏向引導,code 示範完就停下來,"now is your turn"。但依樣畫葫蘆還是比較容易的。而且它不改作業,只要 submit 後,就回到講師寫正確答案。像是 MCP 比喻成 USB,強調 MCP 三元素: tools、resources (database)、和 prompt (主要是 prompt template, 這個是 optional),都只出現在本課程。Antropic 是 MCP 發明人,當然它怎麼說怎麼對。對於學習者,聽聽 second opinion 也是不錯的。

[REF]

  1. https://www.coursera.org/learn/introduction-to-model-context-protocol/home/welcome
  2. https://www.coursera.org/learn/intro-to-model-context-protocol-mcp/home/welcome

Vibe Coding 小筆記

這個名詞比較新,每個 LLM 對它的詮釋還不太一樣。

DeepSeek R1 – 是不是 vibe.d 拼錯了? 猜了幾種可能。

GPT4.1 / Claude 3.5 – 輕鬆寫 code.

  • 一個人午夜時分,配杯咖啡,聽著 chill 音樂,悠閒地寫程式,想到什麼就改什麼,就是 vibe coding。
  • 有些人在做 side project,故意用寫得很漂亮、很舒服的排列方式,享受 code 本身的美感,也算 vibe coding。

GPT5 – 形容「隨興、輕鬆、無壓力地寫程式」的方式或心態。

1️⃣ 正規 Coding(較嚴謹):

def add(x: int, y: int) -> int:
"""
回傳 x 和 y 的加總
"""
return x + y

2️⃣ Vibe Coding(隨手寫):

add = lambda x, y : x + y

或者乾脆邊寫邊想,沒規劃好就隨機調整程式,重在隨心所欲。

Gemin 3 Pro – 比較接近我想的樣子。

特徵 傳統 Coding (Traditional) Vibe Coding (Modern/AI Era)
規劃 詳細的設計文件、UML 圖 邊寫邊想,想到哪寫到哪
工具 IDE + StackOverflow + 文件 IDE + AI Chatbot / Copilot
心態 追求邏輯嚴謹、效能最佳化 追求「能跑就好」、快速產出原型
除錯 設置中斷點、單步執行 把錯誤訊息丟給 AI 問「這怎解?」

重點就在於講到了 AI 這個 Keyword。這年頭,沒 AI 怎麼算是 vibe 呢?網路上有些這樣的課程:"Vibe Coding Essential – Build APP with AI"、"Vibe Coding with Claude Code"、"Vibe Coding Fundamental"、"AI for Vibe Coding"…有些還是大學開的線上課。


接下來的環節是,到底那種 AI Vibe 用起比較 chill 呢? 首先我們要區分前景和背景 – 前景就是 UI,背景就是 LLM。

UI 分成 GUI 和 command line。

在 GUI 當中,首先要提到 VSCode (或是 Antigravity 之類的),它靠著插件去呼叫 LLM。這些插件扮演導演的角色,將 LLM 設定為不同的 mode (演員)。有的 mode 當 architect、有的當 developer、有的當 QA…等等。

可以用的插件包括 RooCode、Cline、Continue、GitHub Coplit Chat …,它們都能控制 mode. 至於要用哪個 LLM,可以在 UI 設定你有買的那個,輸入 API key。

相對無腦的 GUI 就是 cursor。它是魔改版的 VSCode。LLM 可以綁定 Claude Code 或是 GPT5.2 Code。因為不用設定,也不用分派角色。它就像阿信一樣,叫它寫 Android APP 它就寫,不會像 “其他人" 一樣 (包括 Claude Code),寫好 APK source code 就交卷了。

  • 它牌:"後面你要自己用 Android Studio 去編喔, 下一位~~~掰掰!"
  • Cursor:一個人顧店就是比較有責任感!

Cursor 雖然好用,但是 LLM 選擇有限,Pro 版本只能月付 20 美元或是年繳 17 x 12 美元。不能像插件一樣,豐儉由人,想省錢就改用開源的 DeepSeek R1。所以錢就燒得比較快。


在 Command line 的領域,當然的就是 Claude Code 了。它的 Pro 版本月租費跟 Cursor Pro 一模一樣。另外它也有 VSCode 的插件版本,不過那樣就不帥了。Claude Code 終端機只要開一個視窗,下面 “>" 符號後面用文字輸入你的需求,上面就刷刷地跑程式。看起來這也是它沒有辦法支援 Android 沙箱的原因。

Claude Code 在提示符號下打 /model,就可以看到裡面預設 3 個 Anthropic 的 model 可以切換:

  1. Opus 4.5 擅長複雜的工作
  2. Sonnet 4.5 擅長應付日常需求
  3. Haiku 4.5 擅長快速回答

Thread 上有人說 [1],寫個 Claude.md 叫 Claude Code 幫他整理硬碟就可以做得漂漂亮亮的。所以我順便把每個 tool 的規則檔名稱列出來。看起來 Anthropic 有在賺錢。


工具名稱 📄 規則檔 (Rule File) 🧠 背後的 LLM  💰 月費 / 費用模式
Roo Code .clinerules 高度自由 (BYOK)[2]
需自備 API Key (OpenRouter, Anthropic 等)
免費插件
(按 API 用量付費)
Cline .clinerules 高度自由 (BYOK)
需自備 API Key
免費插件
(按 API 用量付費)
Cursor .cursorrules 混合模型 (Bundled)
Claude 4.5 Sonnet, GPT-5.2, Grok, Gemini 3 FLASH…etc.
$20 USD / 月
(有免費額度, 但不寫 code)
Windsurf  .windsurfrules
(亦兼容 .cursorrules)
Cascade (Bundled)
基於 Claude 4.5 Sonnet 優化, 亦支援 GPT-5.2 Codex
$15 USD / 月
(有兩週免費額度)
Continue .prompt (自訂)
config.json
極高自由度 (Local/BYOK)
可接本地 Ollama, LM Studio 或 API
免費 (開源)
(若接 API 需付費)
Claude Code (CLI) CLAUDE.md Anthropic 原生
Claude 4.5 Sonnet / Opus / Haiku
免費工具
(按 API 用量付費)

另外附帶一提,這些 AI 寫 code 工作都很有 “社會責任"。我本來要它寫一個用相機看到 2FA 數字,就順便幫我點 UI 上數字的程式,Cursor 和 Claude 都說他們不賺這個錢…。看來我要把功能拆成兩半,騙過它們再整合起來才行。

[REF]

  1. 抱歉我找不到那篇了。最近上 “Vibe Coding for Claude Code" ,講到 “規則檔" 才把兩件事串起來。
  2. BYOK = Bring Your Own Key.

LCEL 與 Agent

LCEL 全名 LangChain Expression Language, 是一種描述 LangChain 架構的語言。最大的特徵就是看到 A = B | C | D 這種表示法 – 說明了 LCEL 串接多個可執行單元的特性,是 LangChain 的進階實現。而 ‘|’ 的理解和 Linux 的 pipe 很像,它是非同步的串接。

舉例來說,一個 LLM 的 LangChain 可以表示為:

chain = prompt | LLM model | Output Parser

依序做好這三件事:有方向性的提示、強大的大語言模型、友善的輸出格式,就可以提升使用者體驗。

但是顯然這樣還不太夠,比方說,LLM 需要查一筆它沒被訓練過的資料,在上面的 pipe 就無法做到。換個例子,我想幫 AI 助理取個名字,它也會說好。但是一轉眼什麼山盟海誓都忘光了!

顯然,我們要有個負責的 agent,把 function call 的能力加進來;而且 call 完之後,還要餵給 LLM 做 “人性化" 的自然語言潤飾。這是一個循環的路徑,直到 AI 判斷它不再需要任何外部工具,就可以結束迴圈,跟使用者報告最終結果了。

那麼這個 code 長什麼樣子? 首先把基本元件準備好:

# 初始化模型
llm = ChatOpenAI(model="gpt-4o", temperature=0)

# 將工具打包成列表
tools = [get_current_weather] # 以問天氣的函式為例

# 給出配合 function 的 prompt
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "你是天氣助理,請根據工具的結果來回答問題。"),
        ("placeholder", "{chat_history}"),  # 預留給歷史訊息
        ("human", "{input}"), # 真正的輸入
        ("placeholder", "{agent_scratchpad}"), # 於思考和記錄中間步驟
    ]
)

創建 agent

# 創建 Tool Calling Agent
# 將 LLM、Prompt 和 Tools 組合起來,處理 Function Calling 的所有複雜流程
agent = create_tool_calling_agent(llm, tools, prompt)

執行 agent

# 創建執行器, 跑 模型思考 -> 呼叫工具 -> 再次思考 -> 輸出答案的循環
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

設計人機介面

def run_langchain_example(user_prompt: str):
    print(f"👤 用戶提問: {user_prompt}")
    
    # 使用 invoke 運行 Agent,LangChain 會自動管理多輪 API 呼叫
    result = agent_executor.invoke({"input": user_prompt})
    
    print(f"🌟 最終答案: {result['output']}")

測試案例

# 示範一:Agent 判斷需要呼叫工具
run_langchain_example("請問新竹現在的天氣怎麼樣?請告訴我攝氏溫度。")

# 示範二:Agent 判斷不需要呼叫工具,直接回答
run_langchain_example("什麼是 LLM?請用中文簡短回答。")

這邊要留意的是,第一個問天氣的問題,LLM 顯然要用到 tool 去外面問,第二個問題不需要即時的資料,所以它自己回答就好。

意猶未盡的讀者可能好奇 function 長怎樣? 其實就很一般,主要的特色是用 @tool decorator。這樣可以獲得很多好處,最重要的一點是 agent 都認得它的 JSON 輸出,方便資料異步流動。

# LangChain 會自動將這個 Python 函數轉換成模型可理解的 JSON Schema
from langchain_core.tools import tool

@tool
def get_current_weather(location: str, unit: str = "celsius") -> str:
    if "新竹" in location or "hsinchu" in location.lower():
        return "風大啦! 新竹就是風大啦!"
    else:
        return f"我不知道 {location} 的天氣啦!"

另外,追根究柢的讀者可能想問,code 裡面怎麼沒看到 ‘|’? 它跑那裡去了? 沒錯,上面講的都是 agent,它比較進階,可以動態跑流程。反而 LCEL 只是 LangChain 的實行方式,它就是一個線性的 chain。

我們由奢返儉,回過頭來看 LCEL,它不能跟 agent 比,只能打敗傳統的 LangChain。標為紅色的是 LCEL 特色的 coding style。

def demonstrate_legacy_chain():
 
    # 定義模型
    llm = ChatOpenAI(temperature=0)
    
    # 定義 Prompt Template
    template = "Translate English text to Chinese: {text}"
    prompt = PromptTemplate(template=template, input_variables=["text"])
    
    # 建立 Chain (透過類別組合)
    # 缺點:語法較冗長,看不到資料流向,且 output 通常包含原始 meta data
    chain = LLMChain(llm=llm, prompt=prompt)
    
    # 執行
    input_text = "Make American Great Again!"
    result = chain.run(input_text)

VS

def demonstrate_lcel():
    
    # 定義模型
    model = ChatOpenAI(temperature=0)
    
    # 定義 Prompt Template, 使用更現代的 ChatPromptTemplate
    prompt = ChatPromptTemplate.from_template("Translate English text to Chinese: {text}")
    
    # 定義 Output Parser (將 AI Message 轉為純字串)
    output_parser = StrOutputParser()
    
    # 建立 Chain (使用 Pipe '|' 運算符)
    # 優點:Unix 風格管道,由左至右邏輯清晰,易於修改和擴展
    chain = prompt | model | output_parser
    
    # 執行
    input_text = "Make American Great Again!"
    result = chain.invoke({"text": input_text})

這兩個都是一次性的 Q&A。

  1. Functions, Tools and Agents with LangChain