

商傳媒|康語柔/綜合外電報導
人工智慧(AI)在抗體設計領域的應用正遭遇瓶頸,主因是AI模型所依賴的訓練數據存在偏誤與不足。專家指出,未來AI能否在藥物開發上取得突破,關鍵將落在優化數據品質與基礎建設,而非僅追求演算法的精進。
現有公共資料庫中的「抗體-抗原結構」(即抗體如何與目標抗原結合的詳細三維形狀)數量稀少,且這些結構多半是為了解決特定生物學或治療問題而產生,導致數據過度集中於易於研究的目標。這種選擇性使得訓練數據集存在顯著的盲點,例如穩定性好的蛋白質、常見的交互作用幾何形狀(互補位幾何結構)等被過度呈現,而難以處理的目標、構象彈性大的抗原,以及非結合或無功能的抗體等,則幾乎付之闕如。 Immuto Scientific, Inc. 共同創辦人暨技術長丹·本傑明(Dan Benjamin)指出,這導致模型擅長預測單體鏈蛋白質的摺疊,卻常在預測這些蛋白質與抗體結合時失準。
科學界將此現象稱為「負面數據」缺失問題,意即訓練集雖然能展示成功的結合案例,但對於結合失敗的原因卻鮮少提供線索。《Frontiers Discovery》期刊一篇探討AI在抗體發現應用的評論文章在2024年指出,模型若僅依賴特定抗體-抗原對進行訓練,其性能將受限於訓練數據的範圍。丹·本傑明表示,如果訓練集偏向表現良好的蛋白質或穩定的實驗系統,模型在基準測試中可能表現出色,但應用於新的目標或更複雜的發現問題時,可靠性就會降低。
獲取抗體-抗原交互作用的結構多樣性,需要包含廣泛的抗原、表位(抗原上與抗體結合的特定區域)、互補位幾何結構、互補性決定區環狀構象(抗體上決定結合特異性的關鍵區域)等多種數據。儘管X光晶體學(X-ray crystallography)和冷凍電子顯微鏡(Cryo-EM)等傳統結構生物學方法能提供極高解析度,但其操作條件可能使蛋白質偏離其生物情境,呈現出經過穩定、工程改造或濃縮後的結構,而非其自然狀態。
據《曼迪匹艾(Molecules)》期刊在2024年的研究指出,抗體序列數據與結構資訊之間的巨大落差是此領域的一大挑戰。例如,在蛋白質資料庫(Protein Data Bank)中,超過24萬種結構中,只有大約1,800種屬於抗體-抗原對。即使是試圖從序列預測結構的工具,在訓練數據無法代表所需的交互作用幾何形狀時,仍面臨根本性限制。尤其對於「構象表位」(由蛋白質摺疊後的立體形狀決定,而非連續序列)的推斷,AI模型更是難以勝任。這類挑戰也存在於膜蛋白、內在無序區域及具有疾病相關構象變化的目標。
《npj Precision Oncology》期刊在2025年的一篇評論中也提到,數據稀缺性限制了預測模型的穩健性,尤其是在特異性和交互作用幾何形狀最關鍵的案例中。丹·本傑明認為,未來不會是純粹的計算或純粹的實驗,而是一個整合的循環,經驗數據將幫助模型做出更好的結構決策,模型則引導下一組實驗的進行。他強調:「AI藥物發現正成為一個基礎建設問題,而非僅僅是模型問題。那些能夠生成、標準化並持續擴展高品質生物數據的團隊,將擁有截然不同的優勢。」他總結道,最持久的進步可能來自於建立能讓這些模型從更佳的生物數據中學習的系統,數據工廠將成為決定模型能否在實際發現環境中發揮作用的核心能力。

