Google launches the fastest and most cost-effective Gemini 3 model, with a response time improved by 2.5 times and output speed increased by 45%

華爾街見聞
2026.03.03 16:41
portai
I'm PortAI, I can summarize articles.

Gemini 3.1 Flash-Lite 專為開發者大規模高頻工作負載設計,本週二起預覽版向開發者開放,內置 “思考層級”;基準測試顯示,該模型首個答案響應時間較 Gemini 2.5 Flash 提高 2.5 倍 2.5 倍,輸出速度提升 45%;GPQA Diamond 和 MMMU Pro 測試得分均超越 GPT-5 Mini 等競品;定價 0.25 美元/百萬輸入 token、1.5 美元/百萬輸出 token,上下文窗口最長 100 萬 token。

美東時間 3 月 3 日週二,谷歌推出 Gemini 3 系列中速度最快、性價比最高的模型——Gemini 3.1 Flash-Lite。它專為開發者大規模高頻工作負載設計,以更低價格實現不妥協的智能表現。

Gemini 3.1 Flash-Lite 於 3 日當天起以預覽版形式向開發者開放,可通過谷歌 AI Studio 的 Gemini API 接入,企業用户則可經由谷歌雲 Vertex AI 平台使用。使用該模型無需特定硬件或軟件配置,用户只需通過 API 調用即可接入。

谷歌透露,根據 Artificial Analysis 基準測試,3.1 Flash-Lite 在首個答案響應時間上較 Gemini 2.5 Flash 提高 2.5 倍,輸出速度提升 45%,同時維持相近或更優的質量水準。

谷歌表示,該模型在 Arena.ai 排行榜上獲得 1432 的 Elo 評分,並在多項推理與多模態理解基準測試中超越同級別其他模型,甚至優於上一代體量更大的 Gemini 模型。目前已有 Latitude、Cartwheel、Whering 等企業在早期測試中使用該模型,並反饋出顯著的效率與成本優勢。

定位與價格:高頻場景下的性價比首選

谷歌 DeepMind 在模型説明文件中將 3.1 Flash-Lite 定位為 “具備成本效益、速度快,針對高頻、對延遲敏感的任務(如翻譯和內容分類)進行優化” 的模型,是 Gemini 3 系列原生多模態推理模型家族的新成員。

在價格方面,3.1 Flash-Lite 定價為每百萬輸入 token 0.25 美元、每百萬輸出 token 1.50 美元。谷歌在官方博客中指出,該定價僅為大型模型的一小部分,適合需要大規模部署、同時對成本高度敏感的開發者和企業用户。

該模型支持文本、圖像、音頻與視頻等多模態輸入,上下文窗口最長達 100 萬 token,輸出上限為 6.4 萬 token,可滿足從文件摘要到複雜多模態任務的廣泛需求。

性能基準:超越同級並挑戰上一代旗艦

在核心性能指標上,谷歌援引 Artificial Analysis 基準測試數據稱,3.1 Flash-Lite 的首個答案響應時間(Time to First Answer Token)比 Gemini 2.5 Flash 快 2.5 倍,輸出速度提升 45%。

在智能能力評估方面,該模型在 Arena.ai 排行榜上獲得 1432 的 Elo 評分,在 GPQA Diamond 測試中得分 86.9%,在 MMMU Pro 測試中得分 76.8%,谷歌表示這兩項成績均超越同級別競爭模型。

值得注意的是,谷歌特別強調 3.1 Flash-Lite 在部分基準測試中甚至超越了上一代體量更大的 Gemini 2.5 Flash,這意味着在特定工作負載下,用户無需支付旗艦模型的價格即可獲得更優性能。

核心特性:可調節的 “思考層級”

除速度與成本外,3.1 Flash-Lite 的一項差異化功能是在 AI Studio 和 Vertex AI 中內置 “思考層級”(thinking levels)控制,允許開發者根據任務複雜程度靈活調整模型的推理深度。

谷歌在官方博客中寫道,這一功能 “對於管理高頻工作負載至關重要”。對於翻譯、內容審核等以成本為優先的批量任務,開發者可選用較低思考層級以壓縮成本;對於生成用户界面、創建模擬場景或遵循複雜指令等需要深度推理的任務,則可調高思考層級以提升輸出質量。

在架構層面,谷歌 DeepMind 披露,3.1 Flash-Lite 基於 Gemini 3 Pro 構建,訓練使用谷歌自研的張量處理單元(TPU)及 JAX 與 ML Pathways 軟件框架完成。

企業反饋:效率與指令遵循能力獲高度認可

多家早期測試企業對 3.1 Flash-Lite 給出了正面評價,尤其集中於速度、指令遵循能力和規模化處理能力三個維度。

AI 敍事平台 Latitude 的 AI 負責人 Kolby Nottingham 表示:“谷歌的模型在同類產品中展現出無與倫比的指令遵循能力和速度,成功率比我們之前使用的模型高出 20%,推理速度快 60%,使 Latitude 能夠為更廣泛的受眾提供複雜的敍事體驗。”

AI 動畫工具 Cartwheel 首席科學家 Andrew Carr 則稱該模型為 “智能與速度比無可匹敵”,並指出:"它在工具調用方面表現出色,能夠在更大模型所需時間的一小部分內快速探索代碼庫。我們擁有大量多模態標註使用場景,在大規模應用中,Flash-Lite 成為我們處理更多數據、獲取更多洞察的關鍵解鎖工具。"

時尚應用 Whering 的 CEO Bianca Rangecroft 表示,通過將 3.1 Flash-Lite 整合進分類流程,Whering 在商品標籤標註上實現了"100% 的一致性",即使面對複雜的時尚品類,也能提供"確定、可重複的結果"。

企業 AI 平台 HubX 聯合創始人 Kaan Ortabas 則提供了具體數據:“作為根編排與內容引擎,Gemini 3.1 Flash-Lite 持續實現 10 秒以內的完成時間、接近實時的流式輸出、約 97% 的結構化輸出合規率以及 94% 的意圖路由準確率,在速度、指令精準度和成本效益之間取得了卓越平衡。”