Google launches the fastest and most cost-effective Gemini 3 model, with a response time improved by 2.5 times and output speed increased by 45%

Gemini 3.1 Flash-Lite 專為開發者大規模高頻工作負載設計，本週二起預覽版向開發者開放，內置 “思考層級”；基準測試顯示，該模型首個答案響應時間較 Gemini 2.5 Flash 提高 2.5 倍 2.5 倍，輸出速度提升 45%；GPQA Diamond 和 MMMU Pro 測試得分均超越 GPT-5 Mini 等競品；定價 0.25 美元/百萬輸入 token、1.5 美元/百萬輸出 token，上下文窗口最長 100 萬 token。

美東時間 3 月 3 日週二，谷歌推出 Gemini 3 系列中速度最快、性價比最高的模型——Gemini 3.1 Flash-Lite。它專為開發者大規模高頻工作負載設計，以更低價格實現不妥協的智能表現。

Gemini 3.1 Flash-Lite 於 3 日當天起以預覽版形式向開發者開放，可通過谷歌 AI Studio 的 Gemini API 接入，企業用户則可經由谷歌雲 Vertex AI 平台使用。使用該模型無需特定硬件或軟件配置，用户只需通過 API 調用即可接入。

谷歌透露，根據 Artificial Analysis 基準測試，3.1 Flash-Lite 在首個答案響應時間上較 Gemini 2.5 Flash 提高 2.5 倍，輸出速度提升 45%，同時維持相近或更優的質量水準。

谷歌表示，該模型在 Arena.ai 排行榜上獲得 1432 的 Elo 評分，並在多項推理與多模態理解基準測試中超越同級別其他模型，甚至優於上一代體量更大的 Gemini 模型。目前已有 Latitude、Cartwheel、Whering 等企業在早期測試中使用該模型，並反饋出顯著的效率與成本優勢。

定位與價格：高頻場景下的性價比首選

谷歌 DeepMind 在模型説明文件中將 3.1 Flash-Lite 定位為 “具備成本效益、速度快，針對高頻、對延遲敏感的任務（如翻譯和內容分類）進行優化” 的模型，是 Gemini 3 系列原生多模態推理模型家族的新成員。

在價格方面，3.1 Flash-Lite 定價為每百萬輸入 token 0.25 美元、每百萬輸出 token 1.50 美元。谷歌在官方博客中指出，該定價僅為大型模型的一小部分，適合需要大規模部署、同時對成本高度敏感的開發者和企業用户。

該模型支持文本、圖像、音頻與視頻等多模態輸入，上下文窗口最長達 100 萬 token，輸出上限為 6.4 萬 token，可滿足從文件摘要到複雜多模態任務的廣泛需求。

性能基準：超越同級並挑戰上一代旗艦

在核心性能指標上，谷歌援引 Artificial Analysis 基準測試數據稱，3.1 Flash-Lite 的首個答案響應時間（Time to First Answer Token）比 Gemini 2.5 Flash 快 2.5 倍，輸出速度提升 45%。

在智能能力評估方面，該模型在 Arena.ai 排行榜上獲得 1432 的 Elo 評分，在 GPQA Diamond 測試中得分 86.9%，在 MMMU Pro 測試中得分 76.8%，谷歌表示這兩項成績均超越同級別競爭模型。

值得注意的是，谷歌特別強調 3.1 Flash-Lite 在部分基準測試中甚至超越了上一代體量更大的 Gemini 2.5 Flash，這意味着在特定工作負載下，用户無需支付旗艦模型的價格即可獲得更優性能。

核心特性：可調節的 “思考層級”

除速度與成本外，3.1 Flash-Lite 的一項差異化功能是在 AI Studio 和 Vertex AI 中內置 “思考層級”（thinking levels）控制，允許開發者根據任務複雜程度靈活調整模型的推理深度。

谷歌在官方博客中寫道，這一功能 “對於管理高頻工作負載至關重要”。對於翻譯、內容審核等以成本為優先的批量任務，開發者可選用較低思考層級以壓縮成本；對於生成用户界面、創建模擬場景或遵循複雜指令等需要深度推理的任務，則可調高思考層級以提升輸出質量。

在架構層面，谷歌 DeepMind 披露，3.1 Flash-Lite 基於 Gemini 3 Pro 構建，訓練使用谷歌自研的張量處理單元（TPU）及 JAX 與 ML Pathways 軟件框架完成。

企業反饋：效率與指令遵循能力獲高度認可

多家早期測試企業對 3.1 Flash-Lite 給出了正面評價，尤其集中於速度、指令遵循能力和規模化處理能力三個維度。

AI 敍事平台 Latitude 的 AI 負責人 Kolby Nottingham 表示：“谷歌的模型在同類產品中展現出無與倫比的指令遵循能力和速度，成功率比我們之前使用的模型高出 20%，推理速度快 60%，使 Latitude 能夠為更廣泛的受眾提供複雜的敍事體驗。”

AI 動畫工具 Cartwheel 首席科學家 Andrew Carr 則稱該模型為 “智能與速度比無可匹敵”，並指出："它在工具調用方面表現出色，能夠在更大模型所需時間的一小部分內快速探索代碼庫。我們擁有大量多模態標註使用場景，在大規模應用中，Flash-Lite 成為我們處理更多數據、獲取更多洞察的關鍵解鎖工具。"

時尚應用 Whering 的 CEO Bianca Rangecroft 表示，通過將 3.1 Flash-Lite 整合進分類流程，Whering 在商品標籤標註上實現了"100% 的一致性"，即使面對複雜的時尚品類，也能提供"確定、可重複的結果"。

企業 AI 平台 HubX 聯合創始人 Kaan Ortabas 則提供了具體數據：“作為根編排與內容引擎，Gemini 3.1 Flash-Lite 持續實現 10 秒以內的完成時間、接近實時的流式輸出、約 97% 的結構化輸出合規率以及 94% 的意圖路由準確率，在速度、指令精準度和成本效益之間取得了卓越平衡。”