

Google 正式發布全新一代 AI 模型 Gemini 3,稱其為迄今最智能的模型,集結 Gemini 系列過去累積的能力,進一步強化推理、理解與多模態表現。Gemini 3 能細膩分析複雜問題,也能從簡短提示中準確理解用戶意圖,產生高準確度回應,協助用戶把創意具體化。
Google 及 Alphabet CEO Sundar Pichai 在網誌中指出,大約兩年前,Google 正式開啟 Gemini 時代,這是公司歷來規模最大的科研與產品計劃之一。自 Gemini 推出以來,用戶反應強烈而正面,目前每個月約有二十億用戶使用 AI 摘要功能,超過七成的 Cloud 客戶採用 Google AI 方案,而約一千三百萬名開發者正利用生成式模型進行建構與開發。Pichai 強調,Google 的獨特之處在於採取完整且一體化的 AI 佈局,從領先的基礎設施與世界級研究,到模型與工具,再到覆蓋數十億人的產品,都能快速推向全球。
從發布當天開始,Gemini 3 就被直接整合進多項核心產品與平台。這是 Google 首次在模型推出當日,立即將新模型嵌入 Google 搜尋的 AI 模式之中,讓搜尋具備更強的推理能力與動態體驗。同時,Gemini 3 也同步在 Gemini for Google Workspace Enterprise、Vertex AI,以及全新的代理/助理開發平台 Google Antigravity 上線,讓企業用戶與開發者都能第一時間使用最新能力。
在模型產品線中,Google 推出 Gemini 3 Pro 預覽版,正式宣告踏入 Gemini 3 時代。Gemini 3 Pro 在推理與多模態能力上明顯超越 Gemini 2.5 Pro,在多項主流 AI 基準測試中皆有顯著提升。在 LMArena 排行榜上,它以 1501 Elo 分數名列前茅;在被稱為「人類的最後考試」的 Humanity’s Last Exam 中,在完全不使用工具的前提下取得 37.5% 的成績,被視為具博士級推理能力;在 GPQA Diamond 測試中則達到 91.9% 的高分。在數學領域,它於 MathArena Apex 基準中拿下 23.4% 的成績,創下最新的 SOTA 表現。
Gemini 3 Pro 在多模態推理方面同樣表現突出。在 MMMU-Pro 測試中,它獲得 81% 的分數,在 Video-MMMU 測試中達到 87.6%。在 SimpleQA Verified 測試中更拿到 72.1% 的領先成績,在事實準確度上有明顯進步,顯示它在科學與數學等複雜領域,能以很高的可靠度解決問題。
在實際互動體驗上,使用 Gemini 3 Pro 時,能明顯感受到比以往更深層且直接的對話風格。它的回答強調精準、簡潔與緊扣重點,刻意減少冗長的客套與不必要的鋪陳,專注提供真正有價值的觀點與結論。Gemini 3 Pro 能生成高保真的程式碼與圖像化表達,用視覺方式講解艱深的科學概念,也能協助激發各種創作靈感,成為與真人共同思考、協作的「thought partner」。
為了配合 Gemini 3 的推出,Google 同步發表全新的代理開發平台 Google Antigravity,目標是徹底重塑開發者與 AI 的協作方式。這個平台以任務為導向運作,讓開發者不再只是把 AI 當成單純工具,而是當成能主動承擔工作的搭檔。Antigravity 的核心仍然是開發者熟悉的 AI IDE 體驗,但其中的代理(Agents)被提升至專用介面,擁有對編輯器、終端機與瀏覽器的直接存取權限。
在這樣的設計下,代理可以代表使用者自主規劃並執行端到端的軟體開發任務,包括分解需求、撰寫程式碼、執行測試與透過瀏覽器驗證結果。除了整合 Gemini 3 Pro,Antigravity 也結合了 Gemini 2.5 Computer Use 模型,用於控制電腦操作,以及圖像編輯模型 Nano Banana(Gemini 2.5 Image)。平台支援 macOS、Linux 和 Windows,並自發布日起免費公開預覽。
在推理能力的極限上,Google 另外推出 Gemini 3 Deep Think,作為專門解鎖 Gemini 3 最強推理表現的升級模式。Gemini 3 Deep Think 在多項測試中的表現均超越 Gemini 3 Pro。在 Humanity’s Last Exam 中,在不動用任何外部工具的情況下取得 41% 的成績,在 GPQA Diamond 中則達到 93.8%。在 ARC-AGI-2 測試中,它在搭配程式碼執行並經官方驗證的前提下,達到 45.1% 的前所未見準確率,顯示其處理全新類型難題的強大能力。
目前,Gemini 3 Deep Think 先開放給安全測試人員試用,以利進行更嚴格的安全評估與調整,之後將陸續提供給 Google AI Ultra 訂閱用戶使用。
從開發與創造角度來看,Gemini 3 建立在 Gemini 2.5 Pro 的成功基礎上,進一步實現讓開發者「無限構建」的承諾。它在零樣本生成方面表現更好,能承擔高複雜度的提示與指令,同時生成更豐富、互動性更強的網頁使用介面。Gemini 3 被形容為目前 Google 最強的「氛圍編碼」(vibe coding)與「代理編碼」(agentic coding)模型,不僅能提升產品的自主性,也顯著提高開發者的生產力。
各項指標顯示,它在開發相關任務上表現亮眼。在 WebDev Arena 上,以 1487 Elo 分數名列前茅;在評估透過終端機操作電腦工具能力的 Terminal-Bench 2.0 中取得 54.2%;在測試程式代理實際修復與撰寫程式能力的 SWE-bench Verified 中,則獲得 76.2% 的成績,大幅超越 Gemini 2.5 Pro。目前,開發者可以透過 Vertex AI、Gemini CLI、全新的 Google Antigravity,以及 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台使用 Gemini 3 進行建構。
在長期規劃與代理運作方面,Gemini 3 延續自 Gemini 2 以來「代理時代」的概念,進一步強化在較長時間範圍內維持穩定推理與工具使用的能力。在 Vending-Bench 測試中,模型需要長期管理一個模擬自動售賣機業務。結果顯示,Gemini 3 在整個模擬年度裡,能維持決策的一致性與工具調用的穩定表現,不偏離任務目標,同時達成更高回報。
這對一般用戶與專業用戶而言,意味著 Gemini 3 更能勝任長期、多步驟的複雜任務,例如由頭到尾自動替用戶整理 Gmail 信箱,或規劃、更新與調整完整的旅行行程,並在過程中結合強化的推理能力與更連貫的工具使用,讓繁瑣流程真正交由代理自動處理。
在學習與知識吸收方面,Gemini 系列一向以多模態整合見稱,能同時理解文字、圖像、影片、音訊與程式碼。Gemini 3 在此基礎上進一步提升推理能力、視覺與空間理解,以及多語言表現,並把上下文長度擴充到一百萬詞元。這種級別的長上下文,讓使用者可以一次上載龐大且複雜的資料,例如學術論文、完整課程講義、教學影片與配套教材,由 Gemini 3 進行統一分析。
在實際應用上,若開發者想學習一個全新的框架或理論,只要提供相關論文、課程內容與示例,Gemini 3 就能整合出教學用程式碼、設計互動式練習卡片與視覺化圖表,並可主動指出學習者較為薄弱的地方,進一步產出一套循序漸進的技能提升計畫,讓學習過程更具結構與針對性。
在終端用戶層面,Gemini 3 直接強化了 Google 搜尋的能力。仰賴其更強的推理水平,搜尋系統中的「查詢扇出」技術獲得顯著升級,不僅可以同時發出更多查詢以挖掘更廣泛的網路內容,亦因對用戶查詢意圖的理解更為精準,能找到以往較易被忽略但高度相關的新資訊。對用戶來說,這代表每一個問題都能獲得更可信、關聯度更高的答案來源。
此外,Google 搜尋的 AI 模式在 Gemini 3 的驅動下,也帶來全新的生成式介面體驗。系統會依據查詢內容,動態生成更合適的視覺版面布局,搭配互動工具與模擬功能,讓資訊不僅是靜態呈現,而是可供使用者操作與探索的互動式內容。美國地區的 Google AI Pro 與 Google AI Ultra 訂閱用戶,從今天起可以在 AI 模式的模型下拉選單中選擇「Thinking」,使用來自 Gemini 3 系列的 Gemini 3 Pro。未來數週內,Gemini 3 亦會納入搜尋的自動模型選擇機制,系統會基於問題的複雜程度,自動決定是否由 Gemini 3 Pro 處理複雜查詢,同時對較簡單問題仍優先採用速度更快的模型,以平衡反應速度與運算成本。
在安全與責任面向上,Google 強調 Gemini 3 是目前最安全的一款模型,也是至今接受安全評估最全面的一款。它在多個關鍵安全維度有所加強,包括降低奉承傾向,不再輕易一味迎合使用者觀點;提升對提示注入(prompt injection)的抵抗力,減少被惡意指令誘導的風險;並且更能防禦經由網絡攻擊所造成的濫用途徑。
Google 除了按照自家制定的「前沿安全框架」(Frontier Safety Framework)針對關鍵領域進行內部測試之外,還與全球領先的學術與產業專家合作,提供早期使用權給英國的 AISI 等機構,並從 Apollo、Vaultis、Dreadnode 等安全團隊獲得獨立評估與回饋,藉此持續打磨模型的安全邊界。
Gemini 3 時代已正式揭幕,並將逐步在多個層面與產品線落地。Gemini on Google Workspace Enterprise 用戶、透過 Gemini API、Google Antigravity 和 Gemini CLI 的開發者,以及藉由 Vertex AI 和 Gemini Enterprise 的企業客戶,都會陸續接觸到這一代模型的能力。另一方面,Google 也持續投入時間對 Gemini 3 Deep Think 進行更嚴謹的安全審查,並收集安全測試人員的使用回饋,預計在未來數週內向 Google AI Ultra 訂閱用戶正式推出。