
邊緣人工智慧(Edge AI)與多模態輸入技術已取得顯著進展,使得智慧裝置能同時處理光學、語音等多元感測數據,克服了雲端AI的延遲與隱私挑戰,未來有望實現更高度的個人化與情境感知互動。
隨著人工智慧(AI)技術持續演進,邊緣人工智慧(Edge AI)結合多模態輸入正成為智慧裝置發展的關鍵趨勢。這項技術讓裝置能同時接收並處理多種感測器輸入,如光學、紅外線、雷達、光達(LiDAR)、聲音及震動等,進而提供比單一感測輸入更精確且豐富的互動體驗。
過往,AI的發展重心主要在於超大規模資料中心,用以訓練大型語言模型(LLMs)等運算密集型任務。然而,推論(inference)階段所需的運算資源相對較少,但由於習慣和GPU架構的熟悉度,GPU也常被用於推論工作。Synaptics公司行銷副總裁Neeta Shenoy指出,GPU成本較高、功耗大且散熱問題明顯,難以應用於多數消費性電子產品及物聯網(IoT)裝置。早期智慧音箱等產品便將AI運算卸載至雲端處理。
儘管雲端運算仍具成本效益,但邊緣AI將處理能力拉近裝置端,解決了網路延遲問題,對於需要即時反應的應用至關重要。同時,資料安全與隱私也是推動邊緣AI發展的關鍵因素,特別是在工業系統、醫療裝置及智慧城市等應用中,將資料保留在裝置端能更有效確保隱私與安全。這項轉變得益於運算能力提升、低功耗AI模型、更高效的演算法,以及專為AI負載設計的處理器核心,例如Google推出的RISC-V架構Coral NPU。
多模態邊緣AI的潛力龐大,能讓智慧裝置實現更複雜的行為。例如,將視訊處理能力整合至邊緣裝置,不僅克服了技術障礙,透過本地資料處理也解決了視訊影像可能外洩的隱私疑慮。未來,裝置將能透過使用者識別和手勢辨識,提供個人化服務。例如,智慧咖啡機可透過視覺辨識判斷使用者,再根據語音指令與個人偏好自動沖泡咖啡。此外,藉由情境感知能力,智慧裝置甚至能解讀使用者對話和肢體語言,判斷需求並提供更符合情境的協助。儘管多模態邊緣AI的開發仍具挑戰,但硬體、演算法與開發工具的持續進步,正使其日益普及與實用化。

