糖組學(xué)人工智能的實(shí)施始于 20 世紀(jì) 90 年代的質(zhì)譜分析流程,其中應(yīng)用機(jī)器學(xué)習(xí)算法來預(yù)測糖肽片段強(qiáng)度 [2]。隨著對(duì)蛋白質(zhì)糖基化模式的日益重視,研究人員希望通過研究 N-糖基化和較少研究的 O-糖基化的氨基酸序列來更詳細(xì)地表征糖基化位點(diǎn)。盡管已知聚糖連接發(fā)生在絲氨酸或蘇氨酸的氧上,但鄰近氨基酸對(duì) O-糖基化的作用尚未闡明。
在第一代人工智能工具時(shí)代,糖基化位點(diǎn)數(shù)據(jù)集是從組織樣本和活檢中的蛋白質(zhì)中收集的,這些數(shù)據(jù)可在UniPep [3] 和N-GlycositeAtlas [4] 等數(shù)據(jù)庫中獲取。此外,還開發(fā)了NetNGlyc [5] 和YinOYang [6] 等人工神經(jīng)網(wǎng)絡(luò)工具,以使用已知的聚糖數(shù)據(jù)作為訓(xùn)練集來預(yù)測新的 N- 和 O- 糖基化位點(diǎn)。 2005年至2015年間,神經(jīng)網(wǎng)絡(luò)的預(yù)測能力通過支持向量機(jī)和隨機(jī)森林算法得到了提高?;谶@些算法,GlycoMine等軟件解決方案[7]使用基于氨基酸序列以及聚糖的結(jié)構(gòu)和功能特征的多層預(yù)測來改進(jìn)糖基化位點(diǎn)預(yù)測。
如今,隨著基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)以及計(jì)算方法的結(jié)合,人工智能對(duì)糖生物學(xué)的影響不斷擴(kuò)大,極大地增強(qiáng)了位點(diǎn)預(yù)測和聚糖分析。例如,Moon 等人。開發(fā)了一種隨機(jī)森林算法,該算法采用聚糖立體異構(gòu)體的空間和電子參數(shù)來準(zhǔn)確預(yù)測特定異構(gòu)體的選擇性結(jié)合[8]。安東尼庫迪斯等人。在基于系統(tǒng)的方法中使用人工神經(jīng)網(wǎng)絡(luò),其中開發(fā)了化學(xué)計(jì)量模型來預(yù)測糖基化酶通量和隨后的聚糖豐度[9]。
與此同時(shí),其他平臺(tái),例如Glycowork,專注于處理廣泛的聚糖數(shù)據(jù),以揭示生物體特異性的聚糖譜 [10]。
除了位點(diǎn)預(yù)測和分析之外,人工智能工具還有助于更好地理解聚糖和細(xì)胞表型之間的復(fù)雜關(guān)系。秦等人。引入了一種算法,該算法使用單細(xì)胞 SUGAR-seq 數(shù)據(jù)來預(yù)測導(dǎo)致 N-聚糖分支的基因以及不同分支對(duì)小鼠模型中 T 細(xì)胞亞型的影響 [12]。有趣的是,這些基因在細(xì)胞亞型之間的差異表達(dá)分析中并未被發(fā)現(xiàn),這凸顯了深度學(xué)習(xí)在表型分析中的價(jià)值。
另一個(gè)令人興奮的工具是GlyCompareCT,顧名思義,它通過將不同數(shù)據(jù)集中的聚糖基序分解為聚糖子結(jié)構(gòu)來比較它們的組成和豐度 [13]。這允許用戶從子結(jié)構(gòu)生成完整的圖案集。 GlyCompareCT 基于 Python 的特性使其成為一個(gè)用戶友好的工具,可以通過命令行運(yùn)行。
雖然多種糖信息學(xué)工具可以有助于我們對(duì)糖基化的理解,但需要做更多的工作將下一代機(jī)器學(xué)習(xí)整合到糖生物學(xué)中。特別是,深度學(xué)習(xí)工具在處理大型非結(jié)構(gòu)化數(shù)據(jù)集時(shí)非常有用。AlphaFold [14] 是利用深度學(xué)習(xí)來預(yù)測蛋白質(zhì)結(jié)構(gòu)(包括其可能的折疊狀態(tài))的開創(chuàng)性項(xiàng)目之一。也就是說,該平臺(tái)只能處理蛋白質(zhì)序列,因此缺乏對(duì)糖基化和其他翻譯后修飾的預(yù)見性。
最近,深度學(xué)習(xí)方法開始用于從序列數(shù)據(jù)推斷糖基轉(zhuǎn)移酶的結(jié)構(gòu)和功能。陶哈萊等人。開發(fā)了一個(gè)工作流程,使用監(jiān)督式深度學(xué)習(xí)從蛋白質(zhì)序列推斷糖基轉(zhuǎn)移酶的折疊狀態(tài),這使他們能夠預(yù)測其糖供體特異性[15]。隨后,新的工具,如GlyNet [16]、SweetTalk [17] 和glyBERT [18] 開始出現(xiàn),對(duì)支鏈和非線性聚糖的合成具有改進(jìn)的預(yù)測價(jià)值。相同的工具也可用于預(yù)測蛋白質(zhì)糖基化位點(diǎn)[19]。
糖生物學(xué)的主要挑戰(zhàn)之一是缺乏廣泛的糖組學(xué)數(shù)據(jù),這阻礙了新聚糖結(jié)構(gòu)的發(fā)現(xiàn)。下一代人工智能模型可以通過結(jié)合聚糖結(jié)構(gòu)之外的新功能來克服這個(gè)問題。這些特征可以從組學(xué)數(shù)據(jù)中提取,這些數(shù)據(jù)提供有關(guān)上游(例如前體單糖)和下游過程(對(duì)信號(hào)通路的影響)的信息。由于幾種聚糖可以共享共同的合成步驟或表現(xiàn)出類似的下游效應(yīng),因此這些知識(shí)可以顯著擴(kuò)大預(yù)測聚糖的范圍[20]。
最后,可以利用機(jī)器學(xué)習(xí)工具聯(lián)盟來了解宿主與病原體的相互作用。特別是,預(yù)見跨物種傳播的能力可以幫助規(guī)避未來流行病的影響。首先,評(píng)估不同物種的相似聚糖結(jié)構(gòu)可以揭示宿主受體-聚糖相互作用,從而允許病毒進(jìn)入,從而了解哪些生物體容易受到病毒入侵。它還可以揭示病原體如何利用糖基化來模仿宿主聚糖來逃避免疫反應(yīng)。此外,輸入的組合,例如人類和所研究的動(dòng)物之間的聚糖相似性和系統(tǒng)發(fā)育距離,可以告訴我們導(dǎo)致宿主轉(zhuǎn)向人類的致病突變的可能性。初步模型,例如SweetNet,利用下一代機(jī)器學(xué)習(xí)工具(例如圖卷積神經(jīng)網(wǎng)絡(luò))來識(shí)別流感病毒和輪狀病毒上的聚糖受體,同時(shí)揭示結(jié)合特異性[21]。這種方法可以推廣到其他幾種病毒蛋白,以解釋它們?nèi)绾卧谌祟愔袀鞑ァ?/span>
人工智能模型的持續(xù)開發(fā)和多組學(xué)的整合對(duì)于解決糖生物學(xué)中的各種問題具有不可估量的價(jià)值。這些包括但不限于糖基轉(zhuǎn)移酶結(jié)構(gòu)、蛋白質(zhì)上的糖基化位點(diǎn)、復(fù)雜聚糖對(duì)細(xì)胞功能的影響、病原體-宿主相互作用和免疫腫瘤學(xué)(即腫瘤微環(huán)境)。從人工智能模型中獲得的新見解將幫助研究人員進(jìn)行更有針對(duì)性的研究,以了解糖基化在健康和疾病中的作用。