?
快速變異使一些病毒能夠避開特定疫苗產(chǎn)生的抗體。圖片來源:MIT
■本報記者 唐鳳
病毒可能比人們想象的更狡猾,它能不斷偽裝自己,逃避“疫苗獵人”的追捕。
一直以來,研制流感、艾滋病疫苗之所以如此困難,原因之一便是這些病毒的變異非常迅速。這使得它們可以通過一種被稱為病毒逃逸的過程,避開特定疫苗產(chǎn)生的抗體。
美國麻省理工學(xué)院研究人員現(xiàn)在設(shè)計了一種計算病毒逃逸的新模型。該模型基于最初用來分析語言的模型,可以預(yù)測病毒表面蛋白的哪些部分更容易發(fā)生突變,從而使病毒能夠逃逸,也可以識別出不太可能發(fā)生突變的部分,使它們成為新疫苗的靶標(biāo)。
“病毒逃逸是個大問題?!甭槭±砉W(xué)院計算機科學(xué)與人工智能實驗室教授Bonnie Berger說,“流感病毒表面蛋白和HIV(艾滋病病毒)包膜表面蛋白引發(fā)的病毒逃逸是造成目前沒有通用疫苗的主要原因。這兩種疾病每年都會導(dǎo)致數(shù)十萬人死亡?!?/p>
在1月15日發(fā)表于《科學(xué)》的一項研究中,Berger及同事確定了流感、HIV和新冠病毒疫苗的可能目標(biāo)。研究人員還將該模型用于研究最近在英國和南非出現(xiàn)的新冠病毒新變種。研究人員說,尚未經(jīng)過同行評審的相關(guān)分析顯示,這些病毒的基因序列應(yīng)該被進一步調(diào)查,以確定它們是否有可能逃脫現(xiàn)有疫苗的影響。
病毒也有語言
不同類型的病毒以不同速度發(fā)生基因突變,HIV和流感是突變最快的病毒之一。
“HIV和流感病毒突變得很快,這是它們生物學(xué)復(fù)制的結(jié)果。例如,HIV和流感遺傳物質(zhì)的復(fù)制機制很容易出錯,從而導(dǎo)致突變?!痹撗芯客ㄓ嵶髡?、麻省理工學(xué)院生物工程助理教授Bryan Bryson接受《中國科學(xué)報》采訪時表示。
為了讓這些突變促進病毒逃逸,病毒必須改變其表面蛋白質(zhì)的形狀,這樣抗體就不能再與它們結(jié)合。然而,這種蛋白質(zhì)不會發(fā)生使其失去功能的變化。
Berger、Bryson以及研究生Brian Hie等人,決定使用一種被稱為語言模型的計算模型進行建模。這種模型來自自然語言處理(NLP)領(lǐng)域,最初被設(shè)計用來分析語言模式,特別是某些單詞同時出現(xiàn)的頻率,以預(yù)測哪些單詞可以用來完成一個句子,比如要補全“薩莉在( )中吃了雞蛋”,NLP模型可能預(yù)測“早餐”或“午餐”。
“我們對NLP語言模型的最新進展感到興奮,這些模型可以通過學(xué)習(xí)原始文本理解人類語言。于是,我們認為,由于病毒最豐富的數(shù)據(jù)是原始的病毒序列,我們也可以通過訓(xùn)練語言模型從病毒序列數(shù)據(jù)集中學(xué)習(xí)非常復(fù)雜的模式?!盉ryson說。
當(dāng)這種模型應(yīng)用于生物信息,如基因序列時,其語法類似于確定特定序列編碼的蛋白質(zhì)是否具有功能,語義類似于確定蛋白質(zhì)是否能夠呈現(xiàn)新的形狀,幫助它逃避抗體。因此,使病毒能夠逃脫的突變必須保持序列的語法性,但同時能以一種有用的方式改變蛋白質(zhì)的結(jié)構(gòu)。
用序列訓(xùn)練模型
“病毒想要逃離人類的免疫系統(tǒng),又不想因突變而死亡或無法復(fù)制,換句話說,它既想保持健康,又想充分偽裝自己,以防被人體免疫系統(tǒng)檢測到?!盚ie說。
為模擬這一過程,研究人員訓(xùn)練了一個NLP模型分析基因序列中的模式,該模型可以預(yù)測具有新功能但仍遵循蛋白質(zhì)結(jié)構(gòu)生物學(xué)規(guī)則的新序列。這樣建模的一個顯著優(yōu)點是它只需要序列信息,這比獲得蛋白質(zhì)結(jié)構(gòu)容易得多。
此外,該模型可以在相對少量的信息上進行訓(xùn)練——在這項研究中,研究人員使用了60000條HIV序列、45000條流感序列和4000條冠狀病毒序列。
“語言模型非常強大,因為它們可以學(xué)習(xí)這個復(fù)雜的分布結(jié)構(gòu),并從序列變化中獲得一些對功能的洞見?!盚ie告訴記者,“我們在每個氨基酸位置都有大量的病毒序列數(shù)據(jù),模型通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)氨基酸特性?!?/p>
該模型一旦經(jīng)過訓(xùn)練,研究人員便能使用它來預(yù)測冠狀病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列變化,這些蛋白或多或少可能產(chǎn)生逃逸突變。
“發(fā)現(xiàn)看似不相關(guān)的科學(xué)分支之間的聯(lián)系,可能會發(fā)展出加速一個分支研究的新方法。該研究提供了一個此類聯(lián)系的示例。作者發(fā)現(xiàn)了病毒與自然語言之間的相似之處,進而提出了一種識別突變的強大新方法,這種突變可以使病毒通過中和抗體逃脫識別?!蔽磪⑴c該研究的美國國家醫(yī)學(xué)圖書館的Teresa M. Przytycka等人在相關(guān)評論文章中指出。
知己知彼 阻斷逃逸
對于流感,該模型揭示了最不可能發(fā)生突變和產(chǎn)生病毒逃逸的序列是在HA蛋白的莖部。這與最近研究一致,表明針對HA莖部的抗體幾乎可以提供全面的保護,以對抗任何流感毒株。
在對HIV的研究中,研究人員發(fā)現(xiàn),該蛋白的V1-V2高變區(qū)域有許多可能的逃逸突變,這與之前的研究結(jié)果一致,他們還發(fā)現(xiàn)了逃逸概率較低的序列。
該模型對冠狀病毒的分析表明,被稱為S2亞基的刺突蛋白的一部分最不可能產(chǎn)生逃逸突變。但新冠病毒變異的速度仍是一個問題,因此目前部署的抗擊新冠肺炎大流行的疫苗在多長時間內(nèi)保持有效性尚不清楚。
“目前,對于新冠病毒,我們認為該模型可以迅速標(biāo)記出與以前看到的病毒序列有本質(zhì)區(qū)別的新序列,以便在實驗室進行下一步測試?!?Berger告訴《中國科學(xué)報》,“你可以想象,模型能檢查每一個新序列,而改變超過一定閾值的序列就需要在實驗室中展開進一步研究?!?/p>
初步證據(jù)表明,這種病毒的變異速度不像流感或HIV那么快。然而,研究人員最近發(fā)現(xiàn)了在新加坡、南非和馬來西亞出現(xiàn)的新突變,他們認為應(yīng)該對潛在的病毒逃逸進行調(diào)查。
研究人員認為,目前面臨的問題仍然是新冠病毒的變異速度有多快。
“該病毒種類繁多,控制其復(fù)制的生物機制因人而異,所以盡管它們有共同的特征,但仍需要對每種病毒進行專門研究,以了解其突變率?!盉ryson說,“我們最好的見解將來自于動物感染模型,其中完整的免疫反應(yīng)是存在的,因此可以理解總的免疫壓力是如何影響病毒突變率的。之后,我們需要對新冠病毒感染者的病毒進行測序,以識別這些病毒中存在的突變?!?/p>
此外,研究人員現(xiàn)在正與其他人合作,利用他們的模型確定癌癥疫苗的可能目標(biāo),從而刺激人體自身免疫系統(tǒng)摧毀腫瘤。他們說,該模型還可以用來設(shè)計小分子藥物,這種藥物可能不會引發(fā)結(jié)核病等疾病的耐藥性。
相關(guān)論文信息:
https://doi.org/10.1126/science.abd7331
https://doi.org/10.1126/science.abf6894
《中國科學(xué)報》 (2021-01-20 第2版 國際)