全面挖掘天然藥物的藥效成分,中南大學(xué)劉韶教授團(tuán)隊(duì)構(gòu)建 IMN4NPD 平臺(tái)
發(fā)布時(shí)間:2024-03-26
瀏覽次數(shù):1067

版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

1806 年,23 歲的德國藥劑師 Sertürner 從罌粟中首次分離出單體嗎啡,現(xiàn)代天然藥物化學(xué)研究自此起步。在此基礎(chǔ)上,德國化學(xué)家 Friedrich Wǒhler 在 1828 年成功實(shí)現(xiàn)了尿素的人工合成,這也標(biāo)志著有機(jī)化學(xué)學(xué)科的正式誕生??梢哉f,正是人類對生物活性天然產(chǎn)物 (natural product, NPs) 的持續(xù)研究促成了有機(jī)化學(xué)學(xué)科的建立。

所謂生物活性天然產(chǎn)物 (NPs) ,其實(shí)是自然界長期進(jìn)化的物質(zhì)實(shí)體,是生物活性物質(zhì)和實(shí)用藥物研發(fā)的重要源泉。在藥物研發(fā)進(jìn)程中,NPs 對于癌癥和傳染病治療藥物的創(chuàng)新有著巨大貢獻(xiàn)。但時(shí)至今日,NPs 仍在篩選、分離、表征、優(yōu)化等各方面存在技術(shù)障礙。其中,從復(fù)雜混合物中分離 NPs 可謂是最為嚴(yán)峻的挑戰(zhàn)之一,這也成為了藥物研究的一大瓶頸。

為了解決這一瓶頸, 中南大學(xué)湘雅醫(yī)院藥學(xué)部劉韶教授團(tuán)隊(duì),創(chuàng)新性地建立了一種可全面挖掘天然藥物藥效成分的整合分子網(wǎng)絡(luò)框架 (integrated molecular networking workflow for NP dereplication, IMN4NPD),不僅加快了分子網(wǎng)絡(luò)中廣泛集群的去復(fù)制 (dereplication),而且對現(xiàn)有研究方法中經(jīng)常被忽略的自循環(huán)與成對節(jié)點(diǎn)提供標(biāo)注。相關(guān)研究成果日前被發(fā)表于美國化學(xué)會(huì) (ACS) 期刊 Analytical Chemistry。

論文地址:
https://doi.org/10.1021/acs.analchem.3c04746

IMN4NPD:集成多種計(jì)算工具,由光譜相似度驅(qū)動(dòng)的分子網(wǎng)絡(luò)
IMN4NPD 的核心工作原理是由光譜相似度驅(qū)動(dòng)的分子網(wǎng)絡(luò)。它通過集成并協(xié)同 NPClassifier, molDiscovery 和 t-SNE 網(wǎng)絡(luò)等多種計(jì)算工具,從而幫助研究人員快速識別特定類別的化合物,同時(shí)還能簡化分子網(wǎng)絡(luò)節(jié)點(diǎn)中的標(biāo)注。
* NPClassifier:一種基于深度神經(jīng)網(wǎng)絡(luò)的天然產(chǎn)物結(jié)構(gòu)分類工具
* molDiscovery:一種質(zhì)譜數(shù)據(jù)庫搜索方法

一般而言,IMN4NPD 的工作流程可分為 3 步:

第一步,對原始 LC-MS 數(shù)據(jù)進(jìn)行預(yù)處理,以生成分子網(wǎng)絡(luò)或基于特征的分子網(wǎng)絡(luò)。隨后,基于深度神經(jīng)網(wǎng)絡(luò)的 NP 分類工具 SIRIUS,通過 NPClassifier 對復(fù)合類進(jìn)行系統(tǒng)分類。

第二步,該研究通過 GNPS (Global Natural Product Social Molecular Networking),進(jìn)行了基于 MS/MS 光譜數(shù)據(jù)庫的去復(fù)制實(shí)驗(yàn),然后通過 molDiscovery 進(jìn)行基于計(jì)算機(jī)數(shù)據(jù)庫的去復(fù)制。

第三步,研究人員利用 MS/MS 光譜特征的相似度生成 t-SNE 網(wǎng)絡(luò),并對每個(gè)節(jié)點(diǎn)的化合物進(jìn)行化學(xué)分類,以精確定位、并去復(fù)制分布在自循環(huán)網(wǎng)絡(luò)中的特定化合物類別。

IMN4NPD 工作流程示意圖

可用性評估:探索異喹啉類似物,在分子網(wǎng)絡(luò)中迅速識別特定化合物簇
為了評估 IMN4NPD 工作流程的性能和優(yōu)勢,該研究重新分析了蓮子心的乙醇提取物。蓮子心是蓮蓬中的胚芽部分,是一種富含雙芐基異喹啉、單芐基異喹啉和阿樸啡等多種生物堿的中藥植物,可用于治療失眠、遺精、心率失調(diào)、高血壓等癥狀。

基于實(shí)驗(yàn)性 MS/MS 光譜數(shù)據(jù)庫,該研究最初對分子網(wǎng)絡(luò)中的單個(gè)節(jié)點(diǎn)進(jìn)行化學(xué)分類,從而在分子網(wǎng)絡(luò)中迅速識別出特定的化合物簇,以探索新的異喹啉類似物。在查看了分子網(wǎng)絡(luò)中每個(gè)特征映射的化學(xué)分類結(jié)果后,研究人員發(fā)現(xiàn),很容易就能找到與異喹啉類似物相對應(yīng)的某些化合物簇,同時(shí),異喹啉類化合物主要分布在分子網(wǎng)絡(luò)中的四個(gè)簇中。

異喹啉類化合物分布圖

該研究還發(fā)現(xiàn),通過實(shí)驗(yàn)性 MS/MS 光譜數(shù)據(jù)庫(如 GNPS 數(shù)據(jù)庫)只能成功地去復(fù)制大型簇中數(shù)量有限的特征。因此,該研究采用了最先進(jìn)的硅學(xué)片段算法 molDiscovery 進(jìn)行結(jié)構(gòu)數(shù)據(jù)庫匹配。這種基于實(shí)驗(yàn)和硅學(xué) MS/MS 圖譜數(shù)據(jù)庫的去復(fù)制方法,增強(qiáng)了在分子網(wǎng)絡(luò)中、尤其是在大型集群中,及時(shí)、方便地標(biāo)注物質(zhì)結(jié)構(gòu)的能力。

以單芐基異喹啉生物堿中的集群 A 為例,該集群由 36 個(gè)節(jié)點(diǎn)組成,其中 MS 數(shù)據(jù)庫只標(biāo)注了 7 個(gè)節(jié)點(diǎn),Structure 數(shù)據(jù)庫標(biāo)注了 35 個(gè)節(jié)點(diǎn),MS 和 Structure 數(shù)據(jù)庫同時(shí)標(biāo)注了 8 個(gè)節(jié)點(diǎn)。值得注意的是,這其中有一個(gè) m/z 344.1855 節(jié)點(diǎn) (tR=7.6329) 被 MS 結(jié)構(gòu)數(shù)據(jù)庫完全標(biāo)注,這表明候選結(jié)構(gòu)為 3′-O-methyl-4′-methoxy-N-methylcoclaurine(如上圖所示)。

通過進(jìn)一步分析,該節(jié)點(diǎn)連續(xù)損失了 NH3CH3、CH3OH 和 H2O,隨后發(fā)生了環(huán)裂解、α 裂解和 β 裂解,分別在 m/z 107.0496、137.0597、151.0757、175.0750、205.1098、235.0752、267.1017、299.1271 和 312.1590 處產(chǎn)生碎片離子。

經(jīng) Structure 數(shù)據(jù)庫鑒定,m/z 448.1963(tR = 1.6287)的結(jié)點(diǎn)為 N-methylnorcoclaurine 7-O-glucoside。另一個(gè) m/z 312.1593 (tR = 7.3621) 節(jié)點(diǎn)則顯示了包含 1 個(gè)單芐基異喹啉在內(nèi)的四個(gè)候選結(jié)構(gòu)。與 m/z 344.1855 節(jié)點(diǎn) (tR=7.6329) 相比,該節(jié)點(diǎn)在 m/z 190.0862 (C11H12NO2) 處存在碎片離子,表明這是一個(gè)亞甲基二氧基。

研究結(jié)果:基于深度神經(jīng)網(wǎng)絡(luò),從 t-SNE 網(wǎng)絡(luò)的角度對比三大研究算法
與 MolNetEnhancer 相比,IMN4NPD 采用基于深度神經(jīng)網(wǎng)絡(luò)的 NP 分類工具 NPClassifier,來單獨(dú)分類分子網(wǎng)絡(luò)中的每個(gè)特征,而不是整個(gè)簇或分子家族。該研究使用了改進(jìn)過的余弦相似度計(jì)算相似矩陣,并以此生成 t-SNE 網(wǎng)絡(luò)。同時(shí),該研究還通過 NPClassifier 基于每個(gè)節(jié)點(diǎn)的 MS/MS 光譜數(shù)據(jù)對其進(jìn)行分類,并將這些分類映射到 t-SNE 網(wǎng)絡(luò)中。

在傳統(tǒng)的分子網(wǎng)絡(luò)觀點(diǎn)中,異喹啉一般由三個(gè)大簇 (簇 A-C) 和一個(gè)小簇 (簇 D) 共同組成。從 t-SNE 網(wǎng)絡(luò)的角度來看,很明顯,異喹啉的四個(gè)集群節(jié)點(diǎn)被緊密分組,形成了不同的集群區(qū)域。但值得注意的是,從 t-SNE 網(wǎng)絡(luò)的角度來看,分子網(wǎng)絡(luò)中的簇 A 可以進(jìn)一步分為兩個(gè)更小的簇。此外,t-SNE 可以有效定位異喹啉類節(jié)點(diǎn),從而大大減輕了相關(guān)節(jié)點(diǎn)的結(jié)構(gòu)解析工作。

異喹啉在 t-SNE 圖譜中的四個(gè)聚類區(qū)域

修正余弦相似度方法面對多種學(xué)修飾的化合物光譜存在局限性,該研究還選擇了 Spec2Vec 和 MS2DeepScore 等相似度算法,并以此生成 t-SNE 網(wǎng)絡(luò)?;?Spec2Vec,異喹啉依然在分子網(wǎng)絡(luò)中形成四大簇區(qū)。

但基于 MS2DeepScore,異喹啉的大簇 A 和 B 的節(jié)點(diǎn)間隔很近,形成了幾個(gè)聚類區(qū)域,但大簇 C 中的節(jié)點(diǎn)分散在了整張圖中,這為后續(xù)分析帶來了挑戰(zhàn)。

多種光譜相似度算法生成的 t-SNE 圖譜比較

一個(gè)有趣的現(xiàn)象是,m/z 296.1646節(jié)點(diǎn) (tR = 11.54) 在修正余弦相似度和 MS2DeepScore 相似度的 t-SNE 圖中,均遠(yuǎn)離異喹啉相關(guān)的節(jié)點(diǎn)聚類區(qū)域,但在基于 Spec2Vec 光譜相似度的 t-SNE 圖中,該節(jié)點(diǎn)與大簇 A 的聚類區(qū)域相鄰。這類自換節(jié)點(diǎn)可能代表了一類異喹啉化合物,在進(jìn)一步比較后可確認(rèn)該節(jié)點(diǎn)是阿樸啡類生物堿。

因此,化合物化學(xué)分類和 t-SNE 網(wǎng)絡(luò),可分別提供關(guān)于特征的不同信息,一定程度上減少了假陰性的出現(xiàn)。

此外,基于 Spec2Vec 光譜相似度的 t-SNE 網(wǎng)絡(luò),大簇 A 附近存在 m/z 298.1438 (tR = 7.02) 和 m/z 298.1438 (tR = 7.60) 兩個(gè)節(jié)點(diǎn),這兩個(gè)節(jié)點(diǎn)是分子網(wǎng)絡(luò)中的自換節(jié)點(diǎn)和對節(jié)點(diǎn)。盡管沒有被歸類為異喹啉化合物,但它們與異喹啉大簇 A 結(jié)構(gòu)相似。進(jìn)一步分析可知,m/z 298.1438 (tR = 7.02) 是一種已知的阿樸啡類生物堿——nornuciferidine,m/z 298.1438 (tR = 7.60) 也顯示出與 nuciferine 和 nornuciferidine 相類似的阿樸啡類生物堿。

通過對以上三個(gè)節(jié)點(diǎn)的研究發(fā)現(xiàn),它們都屬于阿樸啡類生物堿,這與單芐基異喹啉類生物堿不同。在利用修正余弦相似度和 MS2DeepScore 相似度時(shí),這三個(gè)節(jié)點(diǎn)遠(yuǎn)離單芐基異喹啉類生物堿相關(guān)節(jié)點(diǎn)的聚類區(qū)域大簇 A,但基于 Spec2Vec,這三個(gè)節(jié)點(diǎn)卻可在大簇 A 附近被發(fā)現(xiàn)。

這種差異表明 Spec2Vec 光譜相似性在準(zhǔn)確捕捉異喹啉類化合物相似結(jié)構(gòu)方面的卓越能力。

人工智能在天然產(chǎn)物研究中的應(yīng)用加速
近年來,受益于各種現(xiàn)代技術(shù)的迅猛發(fā)展,在天然生物活性分子的研究中涌現(xiàn)出了一大批基于 LC-MS/MS 和 NMR 技術(shù),并集成生物信息學(xué)、代謝組學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科技術(shù)手段的新策略和新方法。尤其是,隨著人工智能和機(jī)器學(xué)習(xí)算法開始融入天然產(chǎn)物研究工作,進(jìn)一步為研究人員帶來了新一輪的生產(chǎn)力革命。

最初,人工智能的應(yīng)用集中在有機(jī)分子的數(shù)字化,以及使用降維技術(shù)繪制 NP 化學(xué)空間圖。后來,研究者通過開發(fā)機(jī)器學(xué)習(xí)二元分類器來預(yù)測 NP 的生物功能。如今,神經(jīng)網(wǎng)絡(luò)架構(gòu)開始被用于基因組挖掘和分子設(shè)計(jì),深度學(xué)習(xí)算法在藥物發(fā)現(xiàn)和分子信息學(xué)領(lǐng)域越來越受歡迎。

所以,我們可以看到,產(chǎn)學(xué)研各界近年來均加快了相關(guān)研究的步伐。2022 年,國家超級計(jì)算廣州中心就聯(lián)合中山大學(xué)、星藥科技、美國麻省理工學(xué)院和佐治亞理工學(xué)院,基于「天河二號」的強(qiáng)大計(jì)算和存儲(chǔ)能力,提出了一種深度學(xué)習(xí)驅(qū)動(dòng)的生物逆合成路徑導(dǎo)航工具 BioNavi-NP。

而在企業(yè)界,天然產(chǎn)物的研究也在不斷加速。2023 年,天士力醫(yī)藥集團(tuán)與華為云達(dá)成合作,雙方將結(jié)合天然產(chǎn)物現(xiàn)代化研究數(shù)據(jù)等,共建中醫(yī)藥領(lǐng)域垂直大模型。

然而,天然產(chǎn)物數(shù)據(jù)庫仍然是科研進(jìn)程中的一大挑戰(zhàn)。當(dāng)前,全世界主流的天然產(chǎn)物數(shù)據(jù)存儲(chǔ)庫,包括生物合成基因簇的最小信息 (MIBiG)、天然產(chǎn)物圖譜 (NP 圖譜)、全球天然產(chǎn)物分子網(wǎng)絡(luò) (GNPS)、天然產(chǎn)品磁共振數(shù)據(jù)庫 (NP-MRD) 等,但這些數(shù)據(jù)庫的覆蓋率較低,并且存在較為常見的數(shù)據(jù)錯(cuò)誤問題,這些都阻礙了人工智能在天然產(chǎn)物藥物發(fā)現(xiàn)方面的進(jìn)展。

近年來,中國科學(xué)家屠呦呦、日本科學(xué)家大村智和愛爾蘭科學(xué)家 William C. Campbell 等多位研究者因在天然產(chǎn)物全合成方面的成就獲得了諾貝爾化學(xué)獎(jiǎng)提名。毫無疑問,隨著天然產(chǎn)物的重要性不斷凸顯,人工智能在天然產(chǎn)物研究方面的融合也即將按下加速鍵。

歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物!


聽說,打賞我的人最后都找到了真愛。
做科普,我們是認(rèn)真的!
掃描關(guān)注深i科普公眾號
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認(rèn)識科普小朋友
  • 成為科學(xué)小記者