

商傳媒|何映辰/台北報導
谷歌近日於其 Gemini 應用程式中推出一項劃時代的 AI 虛擬分身功能,允許用戶在短短兩分鐘內,輕鬆複製自身面部影像與聲音,進而生成個人化的 AI 影片。這項創新由谷歌全新的 Gemini Omni 模型驅動,目前已向付費訂閱用戶開放使用,預期將為人工智慧互動體驗帶來全新變革。
過去,製作高擬真度的數位分身或訓練客製化語音模型,往往需要專業軟體、昂貴硬體以及數小時的處理時間。然而,谷歌透過流暢的行動裝置設定流程,大幅降低了這些技術門檻。用戶只需在 Gemini 網路應用程式中點擊設定齒輪,選擇「Avatar」選項,即可進入安全的啟用畫面,透過手機前置鏡頭進行設定。訓練過程僅包含兩個快速階段:首先是鏡頭訓練,要求從不同角度捕捉用戶面部;接著是語音訓練,要求用戶朗讀隨機的短語和數字。完成設定後,谷歌會將用戶的數位肖像安全地綁定至其帳戶,並以特定的用戶名稱標籤呈現。
一旦設定完成,用戶的虛擬分身便會常駐於 Gemini 應用程式的工具箱中,無需再次上傳自拍照或語音片段即可隨時取用。據《Chrome Unboxed》報導,一名測試用戶曾向 Gemini 聊天框輸入指令,要求其虛擬分身「向我介紹如何輕鬆製作 Gemini 虛擬分身,並將背景設定為芝加哥天際線的頂樓景色」。最終生成的影片,雖然需時數分鐘處理,但其面部追蹤、微表情和唇形同步效果令人驚豔,合成的語音語調也與用戶特有的說話風格高度吻合。
考量到深度偽造(deepfakes)和身份盜用的潛在疑慮,谷歌已實施多項隱私保護措施。該工具僅限年滿 18 歲的用戶使用,且在設定過程中,帳戶持有人必須本人實際在場。此外,透過 Omni 模型產生的每一個影片檔案,都會永久嵌入谷歌開發的隱形數位浮水印 SynthID。這項技術允許任何人在 Chrome 瀏覽器中透過點擊滑鼠右鍵,或透過搜尋功能,驗證影片的真實性,確保內容來源可被追溯。

