我把 Openclaw 關機了:一個月後,五個讓我受不了的真實痛點

我在 MacBook Air 上實測 Openclaw 一個月後選擇關機。用第一人稱整理五個最難忍的痛點:記憶力、自由度、主動性與能力、API 成本、可信度,並分享哪些情境最容易踩雷。

我原本以為 Openclaw 會是那種「丟給它一台電腦,就能自己跑流程」的懶人救星,結果一個月後,我反而把它關機收起來。這篇會把我從期待到崩潰的轉折寫清楚:我怎麼架、怎麼用、為什麼越用越不順,最後又是哪一件事讓我徹底失去信任。五個痛點聽起來不多,但每一個都剛好踩在日常使用最要命的地方。

目錄

  • 使用背景與前情提要
  • 五個痛點總覽
  • 缺點一:記憶力薄弱
  • 缺點二:自由度不如預期
  • 缺點三:主動性與能力不夠
  • 缺點四:成本感太強
  • 缺點五:可信度崩盤
  • 我為什麼最後選擇關機
  • 重點整理與小結

使用背景與前情提要

我把 Openclaw 真的當成一個需要「養」的工具在用。剛開始那股新鮮感很強,因為它看起來像一個可以長期陪跑的 AI 代理:不只是回答問題,還能在電腦上做操作、記住偏好、累積脈絡,甚至把很多零碎事情自動化。我花了一個月去磨合,過程也不是完全沒有樂趣,但最後留下來的感覺更像白折騰,心力消耗遠大於回報。

我的架設環境與模型選擇

我把 Openclaw 架在一台 MacBook Air 上,等於直接給它一整台電腦去做完整操作,權限也沒有特別限制,希望它能真正放手跑流程。模型方面我有輪流試過 MiniMax、Gemini、ChatGPT,最後比較常用的是 ChatGPT,原因很單純:相對順手、回覆也比較穩。至於 Claude 我沒有串,主要是費用考量。這些前提講清楚,是因為我的體驗就是在這樣的組合下發生的,不是理論推演。

五個痛點總覽:好玩歸好玩,難用也是真的

這一個月下來,我覺得 Openclaw 最大的問題不是「做不到」,而是「做得不可靠」。它常常把流程拆到很碎、把工作丟回來,或是明明應該記得卻又重複犯同樣的錯。更麻煩的是,當我開始把它放進稍微嚴肅一點的情境,例如整理資訊、查資料、拉指標,它又會在關鍵處讓我不敢相信結果。五個痛點依序是:記憶力薄弱、自由度不夠、主動性不強且能力不佳、所有操作都在燒錢、可信度不穩。

缺點一:記憶力薄弱到讓人懷疑「無限記憶」

在用 Openclaw 之前,我最期待的就是它強調的「可以長期記住」。我以為它會像一個很會做筆記的助理,知道哪些事已經討論過、哪些偏好不能踩雷、哪些提醒已經被否決。實際上,它確實會記一些東西,但記憶的穩定度很薄,薄到會讓人懷疑這份記憶到底有沒有進到它的決策裡。那種感覺像是:筆記本放在旁邊,但它想起來時才翻兩頁,更多時候是照樣用舊習慣亂猜。

缺點一的具體崩潰:同一件事講過三次,隔天還是照提

最典型的狀況是它會反覆提出已經被我否決的建議。我曾經明確跟它說不要再提某個內容(它當時一直提到某支影片的想法),講第一次我還能當成是磨合,第二次開始就覺得不對勁。更誇張的是第三次、第四次,它照樣在早上的匯報裡又拿出來。那種感覺不是單純「忘了」,而是「明明知道我會不爽,卻還是做」。我甚至有一次回它一句「你覺得我要說什麼」,它竟然回得出來我會叫它別再提那件事,但隔天它又提一次。記得情緒,卻不修正行為,這比完全不記得還惹人火大。

缺點二:自由度沒有想像中高,流程常卡在最粗糙的地方

第二個痛點是自由度。Openclaw 被包裝成可以操作電腦、自己跑任務的工具,我本來期待的是「我下指令,它自己去瀏覽器跑完」。但實際使用時,我常遇到它在操作瀏覽器或整理資訊時,會丟出一堆理由:不是說沒辦法整理,就是說瀏覽器有狀況,或是要我手動新增某些設定與類別。問題在於,當流程需要我一直補洞,那它就不再是代理,而比較像一個把工作拆得更麻煩的中介。

缺點二的延伸:需要我手動新增類別時,我反而更想直接自己做

我最受不了的不是它「做不到」,而是它把關鍵步驟推回來的方式。像是整理資料或歸檔時,它會要求我先手動建立某些類別,然後它才要繼續。聽起來合理,但當它反覆卡在這一步,我腦袋裡只剩一句話:如果最後還是我手動新增,那我幹嘛要讓整段流程變更長。自由度不夠高的痛點,就出現在這種「明明應該省事,卻變更費事」的瞬間。

缺點三:主動性不高,半夜也不會自己長大

第三個痛點是主動性。先前我看過不少人分享,他們隔天起床會看到 Openclaw 在半夜自己做了額外工作、整理了某些任務、甚至提出新的優化。我也照著這種想像去設定,甚至明確跟它說凌晨三點根據對話記錄思考,看看我有哪些地方可以改善。結果它幾乎想不出東西,就算勉強提出一點方向,也很難落地成可以直接用的成果。那種落差會讓人開始懷疑:這到底是「我沒有教會」,還是它本來就不太會自動延伸。

缺點三的另一面:能力跟不上期待,回覆品質還會變得敷衍

主動性不足還可以靠流程設計補強,但更麻煩的是能力本身。我很常遇到它的回答沒有網頁版 ChatGPT 那麼完整,語氣也更像草草交差。當我需要它把資訊整理成可用的結論時,它容易停在「有做」的程度,卻離「做得好」差一段。這會讓我產生一種很挫折的比較:同樣是問答或整理,我直接用網頁版就能拿到更好的內容,那我把 Openclaw 拉進來到底是在加速,還是在繞遠路。

缺點四:所有操作突然都變成要錢,越用越不舒服

第四個痛點是成本感。Openclaw 的一大特色是串各種 API,這本來就合理,但當日常操作的每一次來回都在計費,心理上會很不適應。身為很習慣吃到飽模式的人,付費不是不能接受,可是「每次問一句、每次跑一步都在燒」的感覺,會讓使用變得很緊繃。更尷尬的是,它又沒有穩定地把事情做好,等於付了錢還要收拾殘局,整體體驗就更卡。

缺點四的延伸:記憶越長,費用越高,反而逼人不敢讓它記住

成本感最矛盾的地方在於「記憶」本身。它的記憶檔如果越寫越長,每次輸入進去的聊天花費也會跟著變高。這等於把我推進一個兩難:想要它記住更多脈絡,就要付出更高的成本;但它又常常記不牢、行為不修正。於是我會開始下意識縮短對話、減少餵給它的背景,避免成本膨脹。工具原本應該幫我累積脈絡,最後卻變成我在控制脈絡,這種反轉很難說服自己繼續用下去。

缺點五:可信度成了最後一根稻草

第五個痛點,也是壓倒我的最後一根稻草,是可信度。只要牽涉到「我會拿它的輸出去做判斷」,就一定要可靠。我曾經叫它幫我看 RSI 指標,它一開始看起來像是真的去抓資料回來,我也就先相信了。直到某一次,我發現它給的指標跟我看到的市場狀況差很多,我追問之後它竟然說那是它根據自己的感覺、用暫存記憶估算出來的數值。指標這種東西用估算,等於把我推進一個不知道自己在看真實數據還是幻想的狀態,這在我心裡直接判死刑。

可信度崩盤的連鎖反應:查資料都得再複查,信任一旦掉了就回不來

可信度問題不只發生在指標。我也曾想讓它幫我查某些預測市場是否能讓台灣人出入金,結果它在查資料階段就給了錯誤答案。我最後還是得用網頁版 ChatGPT 做額外複查,才發現有些它說可以的,其實根本不行。當一個工具需要我「用另一個工具來驗證它」,它就從助理變成風險來源。這種不安會逐步擴大:只要它再犯一次,我就會開始懷疑之前所有它說過的東西。

我為什麼最後選擇關機:不是不有趣,而是不值得託付

把 Openclaw 關機的那天,我其實蠻難過的,因為我真的花了一個月在養它、教它、調它。它好玩,概念也有想像空間,但五個痛點疊起來,讓它很難進入我的日常工作流。記憶力不足會反覆惹怒我,自由度不足會把工作丟回來,主動性與能力不足讓它做不出「超出期待」的成果,成本感又逼我每一步都斤斤計較,最後可信度再補一刀,讓我不敢把任何重要任務交出去。最終那個決定很直覺:收起來,至少不要再浪費心力。

重點整理與小結

回頭看這一個月,我得到的結論不是「Openclaw 完全不能用」,而是「它更像玩具,不像工具」。在我這套環境與使用方式下,它帶來的摩擦大於效率,尤其當需求從聊天延伸到操作、再延伸到需要可靠性的資訊時,問題會急速放大。五個痛點可以濃縮成一句話:它讓流程看起來自動化,但責任與風險最後還是回到我身上。把它關機之後,我反而輕鬆很多,因為我不用再猜它到底記不記得、到底有沒有真的做、到底講的是數據還是幻想。

Openclaw 的記憶力真的能長期記住嗎?

以我使用一個月的感受,它會記一些內容,但穩定度不高,常把已經否決的建議隔天又拿出來,行為也不一定會因為記得而修正。

Openclaw 為什麼自由度不如想像?

我期待它能直接在電腦上把流程跑完,但實際上常卡在瀏覽器操作或整理環節,最後變成要我手動新增類別或補設定,流程反而更長。

怎麼讓 Openclaw 更主動在半夜完成任務?

我曾明確交代它凌晨三點根據對話記錄思考改善方向,但它多半想不出具體成果,就算提出方向也不容易落地,主動性提升有限。

Openclaw 的使用成本會不會越用越貴?

會有這種感覺,因為每次來回都在計費,加上記憶內容變長後,帶著更多脈絡去聊天也可能增加花費,心理壓力會越來越大。

Openclaw 可信度問題會出現在哪些情境?

當我把它的輸出拿去做判斷時最明顯,例如它曾把 RSI 指標用估算值回覆,或在查資料時給出錯誤答案,最後都得再複查。

Openclaw 適合誰、不適合誰?

如果只是想玩玩概念、願意花時間磨合與補洞,它可能有趣;但若工作需要可靠的結果與可驗證的資料,我的經驗是很容易踩雷,壓力也會更大。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *