久久精品99-久久精品99无色码中文字幕-久久精品成人免费网站-久久精品高清-人人澡人人澡人人看青草-人人做人人爽人人爱秋霞影视

首頁(yè) > 智能 > 正文

AI成功突破人類(lèi)生物學(xué)!算法預(yù)測(cè)終于媲美實(shí)驗(yàn)解析

2021-08-23 16:15:39來(lái)源:極客公園  

多年之后,當(dāng)人們總結(jié)這些年的 AI 浪潮,最具應(yīng)用價(jià)值突破的會(huì)是什么?

不會(huì)是 2016 年 AlphaGo 下棋超過(guò)人類(lèi)最強(qiáng)棋手李世石,而會(huì)是 AlphaFold2 準(zhǔn)確預(yù)測(cè)了「蛋白質(zhì)折疊」。

2020 年 12 月的「蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP)」上,DeepMind 的 AlphaFold2 算法預(yù)測(cè)取得第一名,達(dá)到了實(shí)驗(yàn)解析的精度。DeepMind 的 CEO 德米斯?哈薩比斯(Demis Hassabis) 說(shuō):「這是迄今為止 AI 在推動(dòng)科學(xué)上作出的最大貢獻(xiàn),我覺(jué)得這一點(diǎn)不夸張?!笰I 在下棋上超過(guò)人類(lèi),沒(méi)有解決任何應(yīng)用問(wèn)題,AlphaFold2 能夠準(zhǔn)確預(yù)測(cè)「蛋白質(zhì)折疊」,則是把生物學(xué)的進(jìn)程向前推動(dòng)了一步。

「沒(méi)有折疊」的蛋白質(zhì),是一條氨基酸鏈,當(dāng)它折疊成三維結(jié)構(gòu),才擁有了功能。弄清楚蛋白質(zhì)怎樣折疊,是生物學(xué)研究了 50 多年的難題。CASP 的比賽規(guī)則是,告訴你蛋白質(zhì)氨基酸的序列,你來(lái)預(yù)測(cè)它會(huì)折疊成什么結(jié)構(gòu)。

只有通過(guò)結(jié)構(gòu)理解功能,很多難題才有可能進(jìn)一步被解答。像阿爾茲海默癥、老年帕金森等疾病都是由于蛋白質(zhì)錯(cuò)誤折疊導(dǎo)致的。通過(guò)解析癌細(xì)胞的蛋白質(zhì),研究治療靶點(diǎn),也是更好治療癌癥的希望所在。

在賽后的會(huì)議上,面對(duì) AlphaFold2 的得分,一位年近 70 的比賽組織者感嘆,「不敢相信,我竟然活了這么久看到了這個(gè)結(jié)果。」

不久前,DeepMind 團(tuán)隊(duì)在 Nature 上發(fā)布論文闡釋了算法原理,并將源代碼和預(yù)測(cè)的蛋白質(zhì)數(shù)據(jù)庫(kù)公開(kāi)。

算法開(kāi)源后,人們看見(jiàn)這項(xiàng)突破背后的奧秘:它沒(méi)有太多新思想,而是將已有的思想用算法落地。這不是單點(diǎn)創(chuàng)新,而是工程式的綜合性創(chuàng)新。

集前人思想之精華,團(tuán)隊(duì)作戰(zhàn),多點(diǎn)創(chuàng)新。把科學(xué)家一直在做的事情,完成得前所未有得漂亮,這就是 AlphaFold2 了不起的地方。

臨門(mén)一腳:算法預(yù)測(cè)終于媲美實(shí)驗(yàn)解析

計(jì)算生物學(xué)界一直試圖用算法來(lái)解決「蛋白質(zhì)折疊」的預(yù)測(cè)問(wèn)題。

蛋白質(zhì)通常是一串 300 個(gè)以上氨基酸次第相連的鏈條。氨基酸之間通過(guò)肽鍵連接,因此,折疊未發(fā)生時(shí),這是一條多肽鏈。神奇之處,也正是預(yù)測(cè)「蛋白質(zhì)折疊」的難處,氨基酸鏈天生懂得自己存在的「姿勢(shì)」—— 該折疊成怎樣的三維結(jié)構(gòu)。這個(gè)三維結(jié)構(gòu),決定了蛋白質(zhì)功能。

科學(xué)家很早就知道,多肽鏈會(huì)趨向選擇能量最低的結(jié)構(gòu),并且能在天文數(shù)量級(jí)的可能性中快速選擇。擁有 300 個(gè)氨基酸的蛋白質(zhì),理論上可以擁有 10 的 300 次方種可能構(gòu)象。而折疊自己,形成三維精準(zhǔn)構(gòu)象,只需要幾微米。

人類(lèi)怎樣在無(wú)數(shù)可能性中鎖定一種?如果通過(guò)枚舉計(jì)算,即使以最快的速度依次搜索,需要的時(shí)間也會(huì)超過(guò)宇宙年齡。

科學(xué)家當(dāng)然不是無(wú)能為力。隨著實(shí)驗(yàn)方法解析出的蛋白質(zhì)結(jié)構(gòu)越來(lái)越多,科學(xué)家建立起已知的蛋白質(zhì)結(jié)構(gòu)庫(kù),能夠通過(guò)同源序列對(duì)比、已知蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)模板來(lái)進(jìn)行對(duì)比建模計(jì)算。

在實(shí)際研究中,經(jīng)常是算法和實(shí)驗(yàn)雙管齊下。比如先用算法預(yù)測(cè)出一個(gè)大致不那么準(zhǔn)的結(jié)構(gòu),有個(gè)輪廓,再用冷凍電鏡這樣的儀器進(jìn)行準(zhǔn)確的結(jié)構(gòu)解析。

冷凍電鏡是目前最先進(jìn)的解析蛋白質(zhì)結(jié)構(gòu)工具。在新冠疫情期間,西湖大學(xué)就用它解析出新冠病毒的受體 ACE2 膜蛋白。弄清病毒受體結(jié)構(gòu),也為接下來(lái)疫苗研發(fā)打下了基礎(chǔ)。

一串氨基酸鏈上的每個(gè)珠子不是獨(dú)立的,它們之間會(huì)互相作用,「珠子」和「珠子」之間的互相影響和微環(huán)境,決定了氨基酸鏈如何折疊。因此,氨基酸次序、氨基酸殘基之間的距離和殘基間的互相作用,都是進(jìn)行計(jì)算的基礎(chǔ)信息。

AphaFold2 和之前的算法一樣,也是利用這些信息計(jì)算來(lái)預(yù)測(cè)。

它的成功還告訴我們:當(dāng)計(jì)算機(jī)技術(shù)、工程技術(shù)、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)等方式應(yīng)用到生物學(xué)領(lǐng)域,將帶來(lái)前所未有的成果。這正是「合成生物學(xué)」正在做的事。

合成生物學(xué)至今僅有二十年歷史,目前甚至沒(méi)有完全劃定研究對(duì)象的范圍。但在研究方法上,合成生物學(xué)有共識(shí),就是將工程性技術(shù)和傳統(tǒng)生物技術(shù)結(jié)合。

比如,解析蛋白質(zhì)結(jié)構(gòu)一直是結(jié)構(gòu)生物學(xué)家的研究課題,DeepMind 方法中的工程學(xué)思維就是充分挖掘數(shù)據(jù),結(jié)合不同的分析模塊,流程上反復(fù)優(yōu)化以取得最優(yōu)解。

令人驚嘆的工程創(chuàng)新

人們常常說(shuō) AI 的特長(zhǎng)在于暴力計(jì)算,但 AlphaFold2 是暴力計(jì)算和人類(lèi)聰明才智的結(jié)晶。

發(fā)表在 Nature 的論文有 19 位并列的第一作者,其中有分子動(dòng)力學(xué)、人工智能、量子化學(xué)、自然語(yǔ)言處理、醫(yī)療影像等各種專(zhuān)業(yè)的科學(xué)家。更令人意外的是,甚至還有一位擁有十年以上管理經(jīng)驗(yàn)的資深項(xiàng)目經(jīng)理。但是轉(zhuǎn)念一想,這樣一個(gè)匯集多領(lǐng)域知識(shí)的復(fù)雜項(xiàng)目,有一位項(xiàng)目經(jīng)理,也是情理之中。

從公布的算法而言,AlphaFold2 模型的獨(dú)特性在于兩點(diǎn):引入雙注意力機(jī)制、實(shí)現(xiàn)端到端模型。前者是更加有效提取和加工數(shù)據(jù),后者是取消了作為過(guò)渡的編碼/解碼過(guò)程,就減少了信息的損耗。這兩個(gè)想法本身并非 DeepMind 原創(chuàng)。

注意力機(jī)制源于自然語(yǔ)言處理(NLP)模型,其中的關(guān)鍵結(jié)構(gòu)是特征提取器 Transformer,作用是讓模型有選擇地注意關(guān)鍵信息。在 2020 年 2 月份,F(xiàn)acebook 最早將 Transformer 引入蛋白質(zhì)序列對(duì)比,讓神經(jīng)網(wǎng)絡(luò)更好地對(duì)蛋白質(zhì)序列建模。

在 AlphaFold2 中則使用了兩個(gè) Transformer,因此稱(chēng)為雙注意力機(jī)制。

這兩個(gè) Transformer 負(fù)責(zé)提取不同的數(shù)據(jù),一個(gè)在已知的蛋白質(zhì)庫(kù)里進(jìn)行同源序列對(duì)比,也就是用已知的蛋白質(zhì)結(jié)構(gòu)做參考;另一個(gè)關(guān)注氨基酸殘基對(duì),也就是微觀(guān)上,兩個(gè)氨基酸之間會(huì)發(fā)生怎樣的相互作用。

關(guān)鍵在于,這兩個(gè)信息路徑不是彼此獨(dú)立的,而是持續(xù)交流,這就實(shí)現(xiàn)了 1+1>2 的效果。經(jīng)過(guò) 48 次迭代,算法最終建立出氨基酸相互作用的模型。

這就反映出整個(gè)模型設(shè)計(jì)的重要思想:信息在整個(gè)神經(jīng)網(wǎng)絡(luò)中來(lái)回流動(dòng)。換句話(huà)說(shuō),這部分算法是為了充分在數(shù)據(jù)庫(kù)里榨出信息。

端到端模型也是一個(gè)重要的創(chuàng)新之處。也就是說(shuō),輸入一個(gè)蛋白質(zhì)信息,就可以輸出三維空間的預(yù)測(cè)結(jié)果,中間沒(méi)有其他編碼和解碼環(huán)節(jié)。

信息在不同的形式間轉(zhuǎn)手一次,就會(huì)帶來(lái)一次損耗。那么更直接處理上一環(huán)節(jié)的數(shù)據(jù),計(jì)算的結(jié)果就更準(zhǔn)確。

此前的算法模型(包括上一版本的 AlphaFold)都會(huì)有中間環(huán)節(jié),計(jì)算完氨基酸之間的距離后,用數(shù)據(jù)建立能量函數(shù),然后再進(jìn)行三維結(jié)構(gòu)預(yù)測(cè)。整個(gè)過(guò)程,數(shù)據(jù)先被函數(shù)處理,再變成坐標(biāo)軸信息。

AlphaFold2 則是直接建立每個(gè)氨基酸局部的坐標(biāo)系統(tǒng),由此計(jì)算蛋白質(zhì)的三維結(jié)構(gòu)。也就是將第一階段處理的數(shù)據(jù)直接映射到三維空間。

整個(gè)模型還用了許多其它技術(shù)來(lái)提升預(yù)測(cè)的準(zhǔn)確性,比如創(chuàng)新的 Loss Fuction(損失函數(shù)),三維模型計(jì)算結(jié)果的反復(fù)優(yōu)化(Recycling)…… 所有的技術(shù)綜合在一起,才能夠?qū)崿F(xiàn)如此好的預(yù)測(cè)效果。

這無(wú)疑是一個(gè)大型且復(fù)雜的工程。前臺(tái)展現(xiàn)出的是計(jì)算機(jī)技術(shù),但是要完成這些算法設(shè)計(jì),必須要有對(duì)生物現(xiàn)象的深刻理解。比如,在第一個(gè)處理信息的階段,兩個(gè) Transformer 如何互相配合,將氨基酸殘基對(duì)的微觀(guān)信息整合進(jìn)整個(gè)氨基酸序列的信息中,在寫(xiě)算法時(shí)就要對(duì)折疊過(guò)程有準(zhǔn)確的領(lǐng)悟。

合成生物學(xué)帶來(lái)的想象

對(duì)于合成生物學(xué)而言,工程技術(shù)不僅僅是方法,更是一種系統(tǒng)性思維。合成生物學(xué)家希望通過(guò)「類(lèi)似于工程師建造橋梁和將人送上月球的方法,理性地設(shè)計(jì)生物系統(tǒng)。」

「工程科學(xué)技術(shù)不只是工具,也不僅僅是基礎(chǔ)研究成果的應(yīng)用,而是在基礎(chǔ)研究中可以發(fā)揮巨大作用的重要組成部分?!怪袊?guó)工程院院士,計(jì)算機(jī)專(zhuān)家李國(guó)杰評(píng)論 AlphaFold2 突破時(shí)說(shuō)。

科技發(fā)展中很重要的一部分是工具的不斷進(jìn)化。結(jié)構(gòu)生物學(xué)家顏寧在微博說(shuō):「在 X-射線(xiàn)晶體學(xué)為主要手段的時(shí)代,獲得大多數(shù)研究對(duì)象的結(jié)構(gòu)本身太難了,于是很多研究者把『獲得結(jié)構(gòu)』本身作為了目標(biāo),讓外行誤以為結(jié)構(gòu)生物學(xué)就是解結(jié)構(gòu)?!?/p>

蛋白質(zhì)遵循能量最低原則,從一維結(jié)構(gòu)折疊成三維結(jié)構(gòu),并形成功能。

所以預(yù)測(cè)折疊,只是理解蛋白質(zhì)功能的起點(diǎn)。

蛋白質(zhì)不是一個(gè)靜態(tài)的結(jié)構(gòu),在行使功能的過(guò)程中,它都會(huì)發(fā)生精細(xì)的構(gòu)象變化,比如病毒蛋白和受體結(jié)合、靶蛋白和小分子藥物結(jié)合。理解結(jié)構(gòu)和功能之間的互動(dòng)關(guān)系,都是對(duì)付病毒,研發(fā)藥物的關(guān)鍵。

比如,冷凍電鏡解析出的新冠病毒的受體 ACE2 膜蛋白,就可以作為疫苗研發(fā)的靶點(diǎn)。

有了一個(gè)靜態(tài)結(jié)構(gòu),科學(xué)家就可以在此基礎(chǔ)上做更多研究。比如可以從 AlphaFold2 預(yù)測(cè)的單幀靜態(tài)結(jié)構(gòu)出發(fā),來(lái)模擬蛋白質(zhì)結(jié)構(gòu)的動(dòng)態(tài)變化。

除此之外,有些蛋白質(zhì)獨(dú)自并不形成穩(wěn)定的結(jié)構(gòu),而是和其他蛋白質(zhì)結(jié)合后,才形成結(jié)構(gòu)和相應(yīng)的功能,這樣更加復(fù)雜的結(jié)構(gòu)預(yù)測(cè),也是 AI 預(yù)測(cè)接下來(lái)努力的目標(biāo)之一。

當(dāng)人們對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能足夠了解,甚至可以按需設(shè)計(jì)想要的蛋白質(zhì)。有了這個(gè)技術(shù),科學(xué)家就可以開(kāi)發(fā)精準(zhǔn)治療的靶向藥、節(jié)能環(huán)保的新材料、或者是有特殊能量轉(zhuǎn)化功能的催化劑……

「我認(rèn)為這會(huì)真正改變一百年來(lái)科學(xué)家處理生物學(xué)問(wèn)題的方式。研究人員不需要再耗費(fèi)大量的時(shí)間和精力在解析蛋白結(jié)構(gòu)上,而是可以專(zhuān)注于功能研究?!笰lphaFold 首席研究員 John Jumper 對(duì)外媒說(shuō)。

新的研究手段和方式正在改變生物學(xué)。2020 年的諾貝爾獎(jiǎng)化學(xué)獎(jiǎng)就頒發(fā)給了發(fā)明「Crispr」基因編輯技術(shù)的兩位科學(xué)家,這項(xiàng)技術(shù)帶來(lái)了一批基因編輯的生物公司,開(kāi)啟了新的「基因編輯」時(shí)代?;蛟S,人工智能驅(qū)動(dòng)的生物研究也同樣會(huì)開(kāi)啟新的「蛋白質(zhì)編輯」時(shí)代。

標(biāo)簽: AI 算法

相關(guān)閱讀

相關(guān)詞

推薦閱讀

主站蜘蛛池模板: 色妇网| 免费色视频网站 | 不卡国产视频 | 日本高清一本二本三本如色坊 | 34看网片午夜理 | bt7086福利一区国产 | 日韩一区三区 | 国产精品久久免费视频 | 免费h视频| 狠狠操狠狠操狠狠操 | 高清福利视频 | 在线观看视频色 | 黄色成年人视频 | 日本人乱人乱亲乱色视频观看 | 在线观看精品视频网站www | 天天狠天天透天天伊人 | 热99re久久精品精品免费 | 欧美成人免费高清网站 | 免费的三级毛片 | 欧美高清第一页 | 98国产视频 | 免费在线成人网 | 高h啃咬花蒂 | 无遮挡1000部拍拍拍免费观看 | 日韩欧美精品 | 国产亚洲欧美在线观看的 | 亚洲欧美日韩中文综合在线不卡 | 九九国产在线视频 | 狠狠色狠狠色综合曰曰 | 欧美国产日韩综合 | 看片网站在线 | 色屁屁一区二区三区视频国产 | 三级黄a | 久久香蕉网| 精品久久久久国产免费 | 操美女在线视频 | 国产 麻豆 欧美亚洲综合久久 | 亚洲九九精品 | 丁香六月综合激情 | 一级特黄aaa免费 | 欧美视频日韩视频 |