“生物計(jì)算”是什么?為什么中國(guó)不能落后?
來(lái)源:科學(xué)聲音
發(fā)布時(shí)間:2021-12-20
瀏覽次數(shù):1666

版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

什么是生物計(jì)算?

如果有一位科學(xué)家跟你說(shuō),他是做蛋白質(zhì)結(jié)構(gòu)研究的,我想絕大多數(shù)人腦海中會(huì)浮現(xiàn)出這樣的景象:他穿著白大褂,聚精會(huì)神地坐在顯微鏡前觀察。這似乎已經(jīng)成了生物化學(xué)家的標(biāo)準(zhǔn)形象。然而有一天你去他辦公室,卻發(fā)現(xiàn)根本看不到顯微鏡和試管,只看到他穿著寬大舒服的便裝,在電腦上噼里啪啦地敲代碼,這個(gè)景象必然會(huì)讓很多人大吃一驚。實(shí)際上,準(zhǔn)確地說(shuō),這位科學(xué)家是一位生物計(jì)算學(xué)家(或計(jì)算生物學(xué)家)。他的研究對(duì)象的確是像蛋白質(zhì)或者 DNA 這樣微小的生物活性物質(zhì),但他和傳統(tǒng)的生物化學(xué)家不同的是,他的研究工具不是試管和顯微鏡,而是——計(jì)算機(jī)。

圖片

很多人在初次看到類似“某某公司進(jìn)軍生物計(jì)算”這樣的新聞標(biāo)題時(shí),往往會(huì)產(chǎn)生強(qiáng)烈的不明覺(jué)厲的感覺(jué)。甚至有人以為是該公司要用生物活性物質(zhì)來(lái)制造計(jì)算機(jī),就像科幻電影中出現(xiàn)的那種插滿電極的一攤軟乎乎的腦組織。

圖片

這真是一個(gè)天大的誤會(huì)。這些新聞其實(shí)說(shuō)的是:某公司要設(shè)計(jì)一種 AI 算法,它能夠根據(jù)有限的蛋白質(zhì)信息,準(zhǔn)確地繪制出蛋白質(zhì)的三維結(jié)構(gòu)。打個(gè)形象的比喻,這家公司相當(dāng)于要幫助警察設(shè)計(jì)一個(gè)程序,它能根據(jù)受害人的描述,準(zhǔn)確地繪制出兇手的外貌。繪制出某個(gè)蛋白質(zhì)的三維結(jié)構(gòu)對(duì)于新藥研發(fā),例如新冠病毒的疫苗研發(fā)有著極其重大的意義。但是,這個(gè)問(wèn)題也極為困難,它是當(dāng)今人類科學(xué)面臨的幾個(gè)至關(guān)重要的挑戰(zhàn)之一。想要知道它難在哪里,又為什么意義重大,往下看。

蛋白質(zhì)折疊問(wèn)題

蛋白質(zhì)從微觀上來(lái)說(shuō),就是一團(tuán)有機(jī)大分子。它是構(gòu)成生命的基本零件,每一種蛋白質(zhì)都有一個(gè)特定的三維結(jié)構(gòu),但這種三維結(jié)構(gòu)有一個(gè)特殊之處:它一定是由一根長(zhǎng)長(zhǎng)的鏈條折疊而成的。要理解蛋白質(zhì)的三維結(jié)構(gòu)到底是怎樣的,你只需要去玩一種叫“百變魔尺”的兒童玩具,就能馬上理解。百變魔尺是一節(jié)一節(jié)的,每一節(jié)都可以做各個(gè)角度的翻轉(zhuǎn)。因此,你可以把一根長(zhǎng)長(zhǎng)的魔尺折疊成各種各樣的形狀,魔尺的節(jié)數(shù)越多,能夠折疊出的形狀數(shù)量就會(huì)呈指數(shù)級(jí)的增長(zhǎng)。

圖片

組成蛋白質(zhì)的基本單元是氨基酸,它就像魔尺的一個(gè)“節(jié)”。蛋白質(zhì)剛剛生成時(shí),就像一根長(zhǎng)長(zhǎng)的幾十到幾百節(jié)的魔尺。然后,它會(huì)在幾微秒到幾毫秒的時(shí)間內(nèi),迅速地折疊成一個(gè)特定的形狀。因此,在電子顯微鏡中,每一個(gè)蛋白質(zhì)就像是一團(tuán)亂麻。圖片

因此,決定一個(gè)蛋白質(zhì)性狀和功能的,就是構(gòu)成蛋白質(zhì)的氨基酸序列和蛋白質(zhì)最終折疊成的形狀。比如,我們的免疫系統(tǒng)在面對(duì)病毒和細(xì)菌入侵時(shí),就會(huì)產(chǎn)生一種“Y”字形的抗體蛋白。它們的形狀就像是一個(gè)抓娃娃機(jī)的夾子,能夠精確瞄準(zhǔn)并夾住這些入侵者。

圖片

圖:正在瞄準(zhǔn)和識(shí)別病毒的抗體

我們的韌帶、骨骼和皮膚之間有大量的膠原蛋白。它們的形狀就像是由三根粗繩擰成的麻花,為我們的皮膚提供張力,使其顯得有彈性。

圖片

圖:麻花狀的膠原蛋白

再比如,2020 年獲得諾獎(jiǎng)的基因定點(diǎn)編輯技術(shù) CRISPR,也正是利用了一個(gè)長(zhǎng)得像螃蟹鉗子的 CAS9 蛋白。它會(huì)“緊緊地夾住”基因組中某段特定的 DNA,從而進(jìn)行剪切。

圖片

圖:螃蟹鉗子一樣的 CAS9 蛋白(橙色),緊緊地夾著 DNA(綠色)

因此,科學(xué)家們對(duì)蛋白質(zhì)最感興趣的是 2 個(gè)信息:一個(gè)是蛋白質(zhì)的氨基酸序列,你可以想象成魔尺的那些“節(jié)”;另一個(gè)則是蛋白質(zhì)的結(jié)構(gòu),也就是魔尺折疊后的形狀。序列信息相對(duì)容易獲得,但結(jié)構(gòu)信息卻極難獲得。偏偏結(jié)構(gòu)信息又更重要,因?yàn)橹懒艘粋€(gè)未知蛋白質(zhì)的結(jié)構(gòu),就可以更準(zhǔn)確地理解它在細(xì)胞中的作用。如果這個(gè)蛋白質(zhì)與某種疾病相聯(lián)系,那么科學(xué)家們就能根據(jù)它的結(jié)構(gòu)形狀,開(kāi)發(fā)出相應(yīng)的藥物。1972 年,諾貝爾化學(xué)獎(jiǎng)獲得者克里斯蒂安·安芬森提出了一個(gè)假說(shuō):其實(shí)我們只需要知道一個(gè)信息就足夠了。因?yàn)樗趯?shí)驗(yàn)中發(fā)現(xiàn),一個(gè)蛋白質(zhì)只要序列不發(fā)生改變,并且一直處于同一個(gè)化學(xué)環(huán)境中,那么它每次都能折疊成一樣的三維結(jié)構(gòu)。所以,蛋白質(zhì)在三維空間中該如何折疊,這些信息其實(shí)已經(jīng)包含在了它的氨基酸序列中。換句話說(shuō),如果我們知道了一個(gè)蛋白質(zhì)的氨基酸序列,理論上我們就應(yīng)該能推測(cè)出它的三維結(jié)構(gòu)。

圖片

安芬森的這個(gè)假說(shuō)得到了全世界同行的認(rèn)可。然而科學(xué)家們很快就發(fā)現(xiàn),好像知道了這個(gè)理論也沒(méi)什么用。用一句網(wǎng)絡(luò)流行語(yǔ)來(lái)說(shuō)——然并卵。雖然我們能在實(shí)驗(yàn)室中相對(duì)容易地測(cè)出一個(gè)蛋白質(zhì)的氨基酸序列,但拿到這個(gè)序列,我們依然無(wú)法根據(jù)某條物理法則準(zhǔn)確推測(cè)出它的三維結(jié)構(gòu)。對(duì)此,科學(xué)家們已經(jīng)研究了將近 50 年,直到今天也沒(méi)有徹底弄清楚蛋白質(zhì)折疊的規(guī)律。這個(gè)問(wèn)題在生物化學(xué)界被稱為“蛋白質(zhì)折疊問(wèn)題”,它是 21 世紀(jì)人類科學(xué)面臨的幾大挑戰(zhàn)之一。

燒錢的產(chǎn)業(yè)

現(xiàn)在的科學(xué)家想要弄清楚一個(gè)蛋白質(zhì)的三維結(jié)構(gòu),唯一的辦法只能是耗費(fèi)巨大的人力、物力,用極其笨拙的方法,通過(guò)大量的重復(fù)性實(shí)驗(yàn)來(lái)找到蛋白質(zhì)的三維結(jié)構(gòu)。需要的實(shí)驗(yàn)設(shè)備如冷凍電鏡、X 射線晶體衍射儀、核磁共振儀等都價(jià)格昂貴。例如一臺(tái)冷凍電鏡的價(jià)格就高達(dá)數(shù)百萬(wàn)至幾千萬(wàn)人民幣。解析結(jié)構(gòu)的過(guò)程是否順利有很大的運(yùn)氣成分。運(yùn)氣不好的時(shí)候,重復(fù)個(gè)上千次實(shí)驗(yàn)都有可能出不來(lái)結(jié)果。因此,每解析一個(gè)蛋白質(zhì)結(jié)構(gòu),通常的成本在幾萬(wàn)到幾十萬(wàn)美元之間。圖片

從上世紀(jì)末開(kāi)始,以 IBM 為首的一些計(jì)算機(jī)技術(shù)公司就提出了一個(gè)大膽的設(shè)想:可以通過(guò)蛋白質(zhì)的氨基酸序列,利用超級(jí)計(jì)算機(jī)來(lái)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。這相當(dāng)于把原先在試管中進(jìn)行的實(shí)驗(yàn),轉(zhuǎn)移到電腦的數(shù)字空間中進(jìn)行。這個(gè)想法在當(dāng)時(shí)非常大膽和前衛(wèi),因?yàn)樗倪\(yùn)算量對(duì)于當(dāng)時(shí)的計(jì)算機(jī)來(lái)說(shuō)是天文數(shù)字。你可能好奇:預(yù)測(cè)一個(gè)蛋白質(zhì)的折疊,怎么會(huì)需要海量的計(jì)算?粗略地說(shuō),計(jì)算過(guò)程就好像在彩票箱中摸獎(jiǎng)。一個(gè)擁有 100 個(gè)氨基酸的蛋白質(zhì),你想象成是一個(gè)擁有 100 節(jié)的魔尺,它共可以產(chǎn)生約 10^94 次方種不同的形狀。這個(gè)數(shù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了整個(gè)宇宙中基本粒子的數(shù)量。計(jì)算機(jī)要做的事情其實(shí)就是排除法。根據(jù)一定的規(guī)則,先是一批批排除某類絕對(duì)不可能的結(jié)構(gòu),然后再根據(jù)蛋白質(zhì)表現(xiàn)出來(lái)的性狀一個(gè)一個(gè)地排除。到了最后階段就像是不停地在一個(gè)巨大的彩票箱中抽獎(jiǎng),每抽一次都要耗費(fèi)巨大的運(yùn)算量。

圖片

IBM 用了 5 年的時(shí)間搞研發(fā),終于在 2004 年宣布:世界上最大的超級(jí)電腦“藍(lán)色基因”(Blue Gene)問(wèn)世。它的主要目標(biāo)就是解決蛋白質(zhì)折疊問(wèn)題。然而,事情進(jìn)展得并不像計(jì)算機(jī)專家們估計(jì)的那樣樂(lè)觀。10 年之后,藍(lán)色基因升級(jí)了三代,超級(jí)計(jì)算機(jī)也沒(méi)能取代試管、X 射線晶體衍射和核磁共振。IBM 也遺憾地終止了藍(lán)色基因系列的開(kāi)發(fā)[1]。

圖片

不過(guò),IBM 的失敗并不代表計(jì)算機(jī)模擬蛋白質(zhì)結(jié)構(gòu)的失敗。恰恰相反,在 IBM 的帶動(dòng)下,參與這項(xiàng)挑戰(zhàn)的團(tuán)隊(duì)越來(lái)越多,成果也越來(lái)越豐富。各種各樣奇妙的解題思路層出不窮,最好玩的例子是華盛頓大學(xué)的大衛(wèi)·貝克(Davided Baker)教授的發(fā)明。

2008 年,他的團(tuán)隊(duì)開(kāi)發(fā)出了一款名叫“Foldit”的解謎游戲。而這款解謎游戲的內(nèi)容就是讓用戶憑借自己的直覺(jué)來(lái)折疊蛋白質(zhì),然后根據(jù)一定的規(guī)則獲得分?jǐn)?shù)。結(jié)果非常喜人,一個(gè)困擾了生物學(xué)家 15 年之久的猴類艾滋病毒相關(guān)蛋白,作為謎題被上傳到游戲后,玩家們只用了 10 天就成功地破解了它最可能的折疊方式。

圖片

圖:猴類艾滋病毒相關(guān)蛋白

從 1994 年開(kāi)始,就誕生了一個(gè)名叫 CASP 的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽。每?jī)赡昱e辦一次,參賽隊(duì)伍越來(lái)越多,全球的科技大佬云集。這個(gè)競(jìng)賽中,裁判會(huì)給每個(gè)小組預(yù)測(cè)的結(jié)構(gòu)進(jìn)行打分,滿分 100 分。在 2020 年 12 月結(jié)束的第 14 屆競(jìng)賽中,傳來(lái)一個(gè)令人震驚的消息:曾經(jīng)開(kāi)發(fā)出著名的圍棋程序 AlphaGo 的谷歌公司人工智能團(tuán)隊(duì),他們開(kāi)發(fā)的 AlphaFold 程序獲得冠軍,得到了 92.4 分。而上一屆同樣是冠軍的它,得分還不到 60 分,這種進(jìn)步的速度太令人震驚了。AlphaFold 預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)已經(jīng)非常接近于真實(shí)實(shí)驗(yàn)做出來(lái)的結(jié)果,人類離計(jì)算機(jī)攻克蛋白質(zhì)折疊問(wèn)題只有一步之遙。

圖片

中國(guó)理應(yīng)入場(chǎng)

到此你對(duì)“生物計(jì)算”應(yīng)該已經(jīng)有了一個(gè)初步的概念。不知道你發(fā)現(xiàn)沒(méi),前文講了這么多,居然沒(méi)有一次提到中國(guó)。具有如此重要意義的一項(xiàng)科學(xué)事業(yè),過(guò)去的幾十年基本上都是老外在玩兒,沒(méi)我們中國(guó)人什么事,這真的讓我感到揪心。對(duì)于未來(lái)的新藥研發(fā)、疫苗研發(fā)、精準(zhǔn)醫(yī)療等等生物醫(yī)學(xué)技術(shù),我?guī)缀蹩梢钥隙ǖ卣f(shuō):得生物計(jì)算者得天下。傳統(tǒng)的試管加電鏡式的研發(fā)模式,終將被 AI 所取代。這項(xiàng)科學(xué)研究事業(yè),理應(yīng)上升到國(guó)家戰(zhàn)略的高度。

信源

1. https://en.wikipedia.org/wiki/IBM_Blue_Gene

來(lái)源:科學(xué)聲音

作者:汪詰



歡迎掃碼聯(lián)系科普老師!

我們將定期推出

公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物!


聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。