Capital 資本平臺

如果說幾年前的生成式AI還只是「會聊天、會寫文案」，那最近一年的變化，已經明顯往兩個方向收斂：一個是多模態，另一個是所謂的「AI模式」。前者讓模型可以同時理解文字、圖片、影片、截圖甚至畫面布局；後者則是把這套能力直接嵌進搜尋、瀏覽器和辦公軟體裡，從外掛變成工作環境本身。對白領來說，它一開始看起來只是「少打一點字」，但從系統角度看，這其實是在重寫整條決策鏈。

以Google的AI Mode為例，現在在搜尋裡打開AI模式，你不只是拿到一段總結，而是直接在結果頁旁邊多了一塊「工作台」：可以整理行程、對比選項、拉出一份初稿報告，甚至用Canvas類的介面去搭原型工具。更重要的是，你可以把圖片、截圖、文件一起丟進去，讓模型在同一個上下文裡理解，這就是多模態在日常場景的具體樣子——不再是單一檔案的摘要，而是跨材料、跨渠道的整合與決策輔助。

從一個做過交易的角度看，多模態真正有意思的地方，不是它能認出多少物體，而是它開始具備「對場景做整體判讀」的能力。就像一個交易員不可能只看一條價格線，還要同時看成交量、新聞、訂單簿深度和相關資產走勢，多模態模型也是在嘗試把不同維度的訊號拉進同一個決策空間。當你把會議錄音、簡報截圖、歷史郵件和即時數據一起餵給它時，它給你的回應，已經不只是「整理紀錄」，而是帶有明確傾向性的建議——這時候，它其實已經站在決策鏈的中游了。

這對組織有一個很現實的含義：當所有人都在用同一套「AI模式」處理資訊，流程設計、KPI和風控邊界都需要重新畫一次。過去我們默認「每個輸入都先進人腦，再進系統」；未來更可能是「輸入先進多模態模型，經過一輪預處理和建議，最後才進人或進系統」。對上層管理而言，問題不再是「要不要開AI」，而是「哪些決策環節允許模型先看一眼、先出一版？」這會直接影響責任分配和審計方式。

如果把視角再拉高一點，多模態與AI模式其實是在給未來的Agent打地基。今天這套能力主要是服務於人：幫我們讀圖、聽錄音、看文件；明天，這些感知輸入會越來越多交給Agent，本質上變成機器的「眼睛和耳朵」。像OpenClaw這種執行層，做的事情就是把這些多模態能力接到真正的操作權上——從「理解畫面」到「點下那個按鈕」，中間隔著的，就是整個Web4的空間。對我來說，多模態不是一個華麗的功能點，而是第一次讓機器有條件在決策鏈裡站穩腳跟，而不只是當輸入輸出之間的搬運工。

撰文：陳健君（Jason）

OLAXBT 創辦人、數據科學家與量化交易員、HKICT Award FinTech Gold Award（2025）得主