

商傳媒|何映辰/台北報導
自電腦問世以來,滑鼠指標一直是螢幕上的常態符號,穿梭於各個網站、文件與工作流程之中。然而,儘管科技不斷演進,這項半世紀前的設計卻鮮少變化。
Google DeepMind 如今正著手探索由人工智慧(AI)驅動的新功能,讓滑鼠指標不僅能追蹤位置,更能理解使用者所指向的內容,以及其對使用者的重要性。研究員 Adrien Baranes 與 Rob Marchant 表示,團隊目標是解決目前 AI 工具普遍存在的「AI 繞道」問題,即使用者必須將資料拖曳至 AI 工具的專屬視窗才能進行互動。他們希望實現相反的目標:讓直覺式 AI 能在使用者日常使用的所有工具中提供服務,而不中斷工作流程。
新型 AI 賦能的指標將簡化 AI 互動過程,透過順暢捕捉指標周圍的視覺與語義上下文,讓電腦「看懂」並理解使用者關注的重點。例如,使用者可指向一張建築物圖片,直接詢問「顯示路線」,AI 系統即可自動理解上下文並提供協助。此實驗系統允許使用者透過簡單的指向操作,讓 AI 精確辨識文字、段落、圖片區塊或程式碼,提供所需的幫助。如同人類日常溝通中常以手勢和共享情境來填補語義空缺,此 AI 系統將透過結合上下文、指向與語音理解能力,讓使用者以自然簡潔的方式提出複雜請求,無需撰寫繁瑣的提示詞。
過往電腦僅能追蹤指標位置,如今 AI 則能理解使用者指向的內容,將像素轉化為地點、日期、物件等結構化實體,讓使用者能立即進行互動。例如,一張隨手筆記的照片可轉化為互動式待辦事項清單;旅遊影片中的暫停畫面,則能直接生成該餐廳的訂位連結。
Google DeepMind 將此以人為本的設計理念融入日常產品中。據 Google DeepMind 昨日宣布,已開始將這些原則整合至 Chrome 瀏覽器,使用者現在可直接在網頁上利用指標向 Gemini 詢問特定內容,例如選取多項商品進行比較,或指定位置預覽新沙發在家中擺設的樣子。此外,Googlebook 筆記型電腦也將於近期推出 Magic Pointer 功能,讓使用者能更直覺地運用 Gemini。使用者亦可在 Google AI Studio 體驗這項 AI 賦能的指標。
研究員 Baranes 和 Marchant 強調,打造能適應人類行為而非強迫人類適應科技的技術,才能實現與 AI 協作真正直覺、流暢且無縫的未來。

