Perceptron Mk1 影片分析 AI 模型登場,成本僅大廠一至兩成

7cd74df5 23cd 4e9d ad84 7824fad12ed6

7cd74df5 23cd 4e9d ad84 7824fad12ed6
圖/本報AI製圖(示意圖)

商傳媒|林昭衡/綜合外電報導

總部位於美國華盛頓州貝爾維尤的 AI 新創公司 Perceptron, Inc.,今日宣布推出其旗艦級影片分析推理模型 Perceptron Mk1。該模型在多項基準測試中展現突破性性能,尤其在成本效益方面,相較於 Anthropic 的 Claude Sonnet 4.5、OpenAI 的 GPT-5 及 Google 的 Gemini 3.1 Pro 等主流競爭者,費用可大幅降低約 80% 至 90%。

Perceptron Mk1 的推出,旨在讓高效能的實體 AI 應用能普及至大規模工業使用,而不僅限於實驗研究。其定價為每百萬輸入 token 0.15 美元,每百萬輸出 token 1.50 美元,綜合成本約為每百萬 token 0.30 美元。相較之下,GPT-5 的綜合成本接近 2.00 美元,而 Gemini 3.1 Pro 約為 3.00 美元,顯示 Perceptron Mk1 在「效率前沿」圖表中佔據獨特位置,以更低的成本提供匹敵甚至超越頂級模型的性能。

在性能方面,Perceptron Mk1 在多項業界基準測試中表現亮眼。在評估空間推理能力的 EmbSpatialBench 測試中,Mk1 獲得 85.1 分,超越 Google 的 Robotics-ER 1.5(78.4 分)及阿里巴巴的 Q3.5-27B(約 84.5 分)。專門針對指稱表達理解(referring expression comprehension)的 RefSpatialBench 測試中,Mk1 更以 72.4 分大幅領先 GPT-5m(9.0 分)及 Sonnet 4.5(2.2 分)。此外,在 EgoSchema 影片基準測試的「困難子集」中,Mk1 取得 41.4 分,與阿里巴巴的 Q3.5-27B 持平,並顯著優於 Gemini 3.1 Flash-Lite(25.0 分)。在 VSI-Bench 的時序推理任務上,Mk1 達到 88.5 分,創下所有比較模型中的最高紀錄。

Perceptron Mk1 專為時間連續性設計,可處理高達每秒 2 幀(FPS)的原始影片,並具備長達 32K token 的內容視窗。其架構能讓模型「觀看」長時間的串流影片,即使在遮蔽情況下也能維持物體識別。這項「實體推理」功能,透過高精度的空間感知,使模型能理解真實世界中的物體動態與物理互動,例如判斷籃球投籃是在蜂鳴器響起前後。該模型還能進行「像素級精確」的定位與計數,甚至能夠判讀傳統上難以精準識別的類比儀表與時鐘。

Perceptron SDK 提供「焦點」(Focus)、「計數」(Counting)和「情境學習」(In-Context Learning)等功能。焦點功能允許使用者透過自然語言提示自動縮放至影片特定區域,例如在建築工地偵測個人防護裝備。計數功能則能針對複雜場景進行最佳化計數,情境學習則讓開發者能以少量範例調整 Mk1 模型以適應特定任務。Mk1 為閉源模型,透過應用程式介面(API)提供服務。

Perceptron, Inc. 由曾任 Meta Facebook AI Research(FAIR)實驗室研究科學家的 Armen Aghajanyan 與 Akshat Shrivastava 共同創立。兩位創辦人基於在 Meta 期間對多模態基礎模型的研究,將此方向拓展至「實體 AI」,旨在開發能處理真實世界影片及其他感測器串流的模型,應用於機器人、製造、地理空間分析、安全與內容審核等領域。該公司同時維護其「Isaac」系列作為開源權重替代方案,包含已於 2025 年 9 月推出的 Isaac 0.1,以及 2025 年 12 月釋出的 Isaac 0.2-2b-preview,後者是一個具備推理能力的 20 億參數視覺語言模型,專為邊緣運算及低延遲部署優化。

7cd74df5 23cd 4e9d ad84 7824fad12ed6

想讓品牌在新聞媒體曝光? 立即點我加入官方LINE@免費諮詢

相關新聞

最新消息