

如果說幾年前的生成式AI還只是「會聊天、會寫文案」,那最近一年的變化,已經明顯往兩個方向收斂:一個是多模態,另一個是所謂的「AI模式」。前者讓模型可以同時理解文字、圖片、影片、截圖甚至畫面布局;後者則是把這套能力直接嵌進搜尋、瀏覽器和辦公軟體裡,從外掛變成工作環境本身。 對白領來說,它一開始看起來只是「少打一點字」,但從系統角度看,這其實是在重寫整條決策鏈。
以Google的AI Mode為例,現在在搜尋裡打開AI模式,你不只是拿到一段總結,而是直接在結果頁旁邊多了一塊「工作台」:可以整理行程、對比選項、拉出一份初稿報告,甚至用Canvas類的介面去搭原型工具。 更重要的是,你可以把圖片、截圖、文件一起丟進去,讓模型在同一個上下文裡理解,這就是多模態在日常場景的具體樣子——不再是單一檔案的摘要,而是跨材料、跨渠道的整合與決策輔助。
從一個做過交易的角度看,多模態真正有意思的地方,不是它能認出多少物體,而是它開始具備「對場景做整體判讀」的能力。就像一個交易員不可能只看一條價格線,還要同時看成交量、新聞、訂單簿深度和相關資產走勢,多模態模型也是在嘗試把不同維度的訊號拉進同一個決策空間。 當你把會議錄音、簡報截圖、歷史郵件和即時數據一起餵給它時,它給你的回應,已經不只是「整理紀錄」,而是帶有明確傾向性的建議——這時候,它其實已經站在決策鏈的中游了。
這對組織有一個很現實的含義:當所有人都在用同一套「AI模式」處理資訊,流程設計、KPI和風控邊界都需要重新畫一次。過去我們默認「每個輸入都先進人腦,再進系統」;未來更可能是「輸入先進多模態模型,經過一輪預處理和建議,最後才進人或進系統」。 對上層管理而言,問題不再是「要不要開AI」,而是「哪些決策環節允許模型先看一眼、先出一版?」這會直接影響責任分配和審計方式。
如果把視角再拉高一點,多模態與AI模式其實是在給未來的Agent打地基。今天這套能力主要是服務於人:幫我們讀圖、聽錄音、看文件;明天,這些感知輸入會越來越多交給Agent,本質上變成機器的「眼睛和耳朵」。 像OpenClaw這種執行層,做的事情就是把這些多模態能力接到真正的操作權上——從「理解畫面」到「點下那個按鈕」,中間隔著的,就是整個Web4的空間。對我來說,多模態不是一個華麗的功能點,而是第一次讓機器有條件在決策鏈裡站穩腳跟,而不只是當輸入輸出之間的搬運工。
OLAXBT 創辦人、數據科學家與量化交易員、HKICT Award FinTech Gold Award(2025)得主