Google Gemini 3.1 Flash 強化語音互動 任務準確率逾九成

71186b48 5474 40df 9087 19bd314c1610

71186b48 5474 40df 9087 19bd314c1610
圖/本報AI製圖(示意圖)

商傳媒|林昭衡/綜合外電報導

Google 今日宣布推出其最新語音人工智慧模型 Gemini 3.1 Flash Live,並同步對旗下 Gemini Live 和 Search Live 等 AI 應用服務進行重大升級。這款模型在多步驟任務執行及對話品質上實現顯著突破,其中在 ComplexFuncBench Audio 基準測試中,任務準確率更達到 90.8%。

Gemini 3.1 Flash Live 的推出,旨在提供更快、更智慧的回應,並大幅減少過去 AI 語音互動中常見的尷尬停頓。相較於前一代 Gemini 2.5 模型,新模型不僅擁有兩倍的上下文視窗,還能根據語境調整回答長度與語氣,更精準地辨識語音中的情緒(如沮喪與困惑),使其互動體驗更加自然流暢。此外,新模型在偵測聲音細微差別方面也有所提升,例如更準確地判讀語音的音高與節奏,避免生成過於機械化的對話。

Google 正透過三種管道推動 Gemini 3.1 Flash Live 的應用。開發者可透過 Google AI Studio 中的 Gemini Live API 預覽版立即存取,為其應用程式打造語音優先的 AI 代理。企業客戶則可透過 Gemini Enterprise for Customer Experience 整合此模型,以優化顧客服務體驗。據悉,Verizon、LiveKit 和 Home Depot 等企業已在其生產工作流程中測試此模型。

一般使用者則可透過 Search Live 和 Gemini Live 體驗其功能。受惠於 Gemini 3.1 Flash Live 的多語言能力,Google 已將 Search Live 擴展至全球超過 200 個國家和地區,支援所有 Gemini 目前提供的語言。使用者只需在 Google 應用程式的搜尋欄下方點擊「Live」圖示,即可透過語音或鏡頭與 AI 助理進行即時對話,甚至利用 Google Lens 詢問周遭環境資訊。為確保內容透明度,所有由 Gemini 3.1 Flash Live 模型生成的音訊,都將嵌入 SynthID 浮水印,以便識別 AI 生成的內容。

Google 也在今日推出了聊天記錄轉移(Chat Transfer)和記憶體匯入(Memory Import)工具,讓使用者更方便地轉換至 Gemini 平台。開發者目前已可透過 Google AI Studio 預覽版立即開始使用 Gemini 3.1 Flash Live,為未來的語音 AI 應用奠定基礎。

71186b48 5474 40df 9087 19bd314c1610

想讓品牌在新聞媒體曝光? 立即點我加入官方LINE@免費諮詢

相關新聞

最新消息