Google

Google 正式發布全新一代 AI 模型 Gemini 3，稱其為迄今最智能的模型，集結 Gemini 系列過去累積的能力，進一步強化推理、理解與多模態表現。Gemini 3 能細膩分析複雜問題，也能從簡短提示中準確理解用戶意圖，產生高準確度回應，協助用戶把創意具體化。

Gemini 時代的進展與規模

Google 及 Alphabet CEO Sundar Pichai 在網誌中指出，大約兩年前，Google 正式開啟 Gemini 時代，這是公司歷來規模最大的科研與產品計劃之一。自 Gemini 推出以來，用戶反應強烈而正面，目前每個月約有二十億用戶使用 AI 摘要功能，超過七成的 Cloud 客戶採用 Google AI 方案，而約一千三百萬名開發者正利用生成式模型進行建構與開發。Pichai 強調，Google 的獨特之處在於採取完整且一體化的 AI 佈局，從領先的基礎設施與世界級研究，到模型與工具，再到覆蓋數十億人的產品，都能快速推向全球。

Gemini 3 全面融入 Google 生態

從發布當天開始，Gemini 3 就被直接整合進多項核心產品與平台。這是 Google 首次在模型推出當日，立即將新模型嵌入 Google 搜尋的 AI 模式之中，讓搜尋具備更強的推理能力與動態體驗。同時，Gemini 3 也同步在 Gemini for Google Workspace Enterprise、Vertex AI，以及全新的代理／助理開發平台 Google Antigravity 上線，讓企業用戶與開發者都能第一時間使用最新能力。

Gemini 3 Pro：推理與多模態能力大躍進

在模型產品線中，Google 推出 Gemini 3 Pro 預覽版，正式宣告踏入 Gemini 3 時代。Gemini 3 Pro 在推理與多模態能力上明顯超越 Gemini 2.5 Pro，在多項主流 AI 基準測試中皆有顯著提升。在 LMArena 排行榜上，它以 1501 Elo 分數名列前茅；在被稱為「人類的最後考試」的 Humanity’s Last Exam 中，在完全不使用工具的前提下取得 37.5% 的成績，被視為具博士級推理能力；在 GPQA Diamond 測試中則達到 91.9% 的高分。在數學領域，它於 MathArena Apex 基準中拿下 23.4% 的成績，創下最新的 SOTA 表現。

Gemini 3 Pro 在多模態推理方面同樣表現突出。在 MMMU-Pro 測試中，它獲得 81% 的分數，在 Video-MMMU 測試中達到 87.6%。在 SimpleQA Verified 測試中更拿到 72.1% 的領先成績，在事實準確度上有明顯進步，顯示它在科學與數學等複雜領域，能以很高的可靠度解決問題。

使用體驗：精準、直接的思考夥伴

在實際互動體驗上，使用 Gemini 3 Pro 時，能明顯感受到比以往更深層且直接的對話風格。它的回答強調精準、簡潔與緊扣重點，刻意減少冗長的客套與不必要的鋪陳，專注提供真正有價值的觀點與結論。Gemini 3 Pro 能生成高保真的程式碼與圖像化表達，用視覺方式講解艱深的科學概念，也能協助激發各種創作靈感，成為與真人共同思考、協作的「thought partner」。

Google Antigravity：新一代代理開發平台

為了配合 Gemini 3 的推出，Google 同步發表全新的代理開發平台 Google Antigravity，目標是徹底重塑開發者與 AI 的協作方式。這個平台以任務為導向運作，讓開發者不再只是把 AI 當成單純工具，而是當成能主動承擔工作的搭檔。Antigravity 的核心仍然是開發者熟悉的 AI IDE 體驗，但其中的代理（Agents）被提升至專用介面，擁有對編輯器、終端機與瀏覽器的直接存取權限。

在這樣的設計下，代理可以代表使用者自主規劃並執行端到端的軟體開發任務，包括分解需求、撰寫程式碼、執行測試與透過瀏覽器驗證結果。除了整合 Gemini 3 Pro，Antigravity 也結合了 Gemini 2.5 Computer Use 模型，用於控制電腦操作，以及圖像編輯模型 Nano Banana（Gemini 2.5 Image）。平台支援 macOS、Linux 和 Windows，並自發布日起免費公開預覽。

Gemini 3 Deep Think：升級推理模式

在推理能力的極限上，Google 另外推出 Gemini 3 Deep Think，作為專門解鎖 Gemini 3 最強推理表現的升級模式。Gemini 3 Deep Think 在多項測試中的表現均超越 Gemini 3 Pro。在 Humanity’s Last Exam 中，在不動用任何外部工具的情況下取得 41% 的成績，在 GPQA Diamond 中則達到 93.8%。在 ARC-AGI-2 測試中，它在搭配程式碼執行並經官方驗證的前提下，達到 45.1% 的前所未見準確率，顯示其處理全新類型難題的強大能力。

目前，Gemini 3 Deep Think 先開放給安全測試人員試用，以利進行更嚴格的安全評估與調整，之後將陸續提供給 Google AI Ultra 訂閱用戶使用。

無限構建：開發與程式能力全面升級

從開發與創造角度來看，Gemini 3 建立在 Gemini 2.5 Pro 的成功基礎上，進一步實現讓開發者「無限構建」的承諾。它在零樣本生成方面表現更好，能承擔高複雜度的提示與指令，同時生成更豐富、互動性更強的網頁使用介面。Gemini 3 被形容為目前 Google 最強的「氛圍編碼」（vibe coding）與「代理編碼」（agentic coding）模型，不僅能提升產品的自主性，也顯著提高開發者的生產力。

各項指標顯示，它在開發相關任務上表現亮眼。在 WebDev Arena 上，以 1487 Elo 分數名列前茅；在評估透過終端機操作電腦工具能力的 Terminal-Bench 2.0 中取得 54.2%；在測試程式代理實際修復與撰寫程式能力的 SWE-bench Verified 中，則獲得 76.2% 的成績，大幅超越 Gemini 2.5 Pro。目前，開發者可以透過 Vertex AI、Gemini CLI、全新的 Google Antigravity，以及 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台使用 Gemini 3 進行建構。

長期規劃與代理能力：從單一步驟到完整流程

在長期規劃與代理運作方面，Gemini 3 延續自 Gemini 2 以來「代理時代」的概念，進一步強化在較長時間範圍內維持穩定推理與工具使用的能力。在 Vending-Bench 測試中，模型需要長期管理一個模擬自動售賣機業務。結果顯示，Gemini 3 在整個模擬年度裡，能維持決策的一致性與工具調用的穩定表現，不偏離任務目標，同時達成更高回報。

這對一般用戶與專業用戶而言，意味著 Gemini 3 更能勝任長期、多步驟的複雜任務，例如由頭到尾自動替用戶整理 Gmail 信箱，或規劃、更新與調整完整的旅行行程，並在過程中結合強化的推理能力與更連貫的工具使用，讓繁瑣流程真正交由代理自動處理。

多模態學習與長上下文理解

在學習與知識吸收方面，Gemini 系列一向以多模態整合見稱，能同時理解文字、圖像、影片、音訊與程式碼。Gemini 3 在此基礎上進一步提升推理能力、視覺與空間理解，以及多語言表現，並把上下文長度擴充到一百萬詞元。這種級別的長上下文，讓使用者可以一次上載龐大且複雜的資料，例如學術論文、完整課程講義、教學影片與配套教材，由 Gemini 3 進行統一分析。

在實際應用上，若開發者想學習一個全新的框架或理論，只要提供相關論文、課程內容與示例，Gemini 3 就能整合出教學用程式碼、設計互動式練習卡片與視覺化圖表，並可主動指出學習者較為薄弱的地方，進一步產出一套循序漸進的技能提升計畫，讓學習過程更具結構與針對性。

Gemini 3 驅動的全新 Google 搜尋體驗

在終端用戶層面，Gemini 3 直接強化了 Google 搜尋的能力。仰賴其更強的推理水平，搜尋系統中的「查詢扇出」技術獲得顯著升級，不僅可以同時發出更多查詢以挖掘更廣泛的網路內容，亦因對用戶查詢意圖的理解更為精準，能找到以往較易被忽略但高度相關的新資訊。對用戶來說，這代表每一個問題都能獲得更可信、關聯度更高的答案來源。

此外，Google 搜尋的 AI 模式在 Gemini 3 的驅動下，也帶來全新的生成式介面體驗。系統會依據查詢內容，動態生成更合適的視覺版面布局，搭配互動工具與模擬功能，讓資訊不僅是靜態呈現，而是可供使用者操作與探索的互動式內容。美國地區的 Google AI Pro 與 Google AI Ultra 訂閱用戶，從今天起可以在 AI 模式的模型下拉選單中選擇「Thinking」，使用來自 Gemini 3 系列的 Gemini 3 Pro。未來數週內，Gemini 3 亦會納入搜尋的自動模型選擇機制，系統會基於問題的複雜程度，自動決定是否由 Gemini 3 Pro 處理複雜查詢，同時對較簡單問題仍優先採用速度更快的模型，以平衡反應速度與運算成本。

安全與責任：Gemini 3 的防護設計

在安全與責任面向上，Google 強調 Gemini 3 是目前最安全的一款模型，也是至今接受安全評估最全面的一款。它在多個關鍵安全維度有所加強，包括降低奉承傾向，不再輕易一味迎合使用者觀點；提升對提示注入（prompt injection）的抵抗力，減少被惡意指令誘導的風險；並且更能防禦經由網絡攻擊所造成的濫用途徑。

Google 除了按照自家制定的「前沿安全框架」（Frontier Safety Framework）針對關鍵領域進行內部測試之外，還與全球領先的學術與產業專家合作，提供早期使用權給英國的 AISI 等機構，並從 Apollo、Vaultis、Dreadnode 等安全團隊獲得獨立評估與回饋，藉此持續打磨模型的安全邊界。

Gemini 3 時代已正式揭幕，並將逐步在多個層面與產品線落地。Gemini on Google Workspace Enterprise 用戶、透過 Gemini API、Google Antigravity 和 Gemini CLI 的開發者，以及藉由 Vertex AI 和 Gemini Enterprise 的企業客戶，都會陸續接觸到這一代模型的能力。另一方面，Google 也持續投入時間對 Gemini 3 Deep Think 進行更嚴謹的安全審查，並收集安全測試人員的使用回饋，預計在未來數週內向 Google AI Ultra 訂閱用戶正式推出。