中新網(wǎng)合肥7月22日電 (記者 吳蘭)記者22日從中國科學(xué)技術(shù)大學(xué)獲悉,該校生命科學(xué)與醫(yī)學(xué)部教授劉海燕、副教授陳泉團隊與信息科學(xué)技術(shù)學(xué)院教授李厚強團隊合作,開發(fā)了一種基于深度學(xué)習(xí)為給定主鏈結(jié)構(gòu)從頭設(shè)計氨基酸序列的算法ABACUS-R。
經(jīng)過實驗驗證,ABACUS-R的設(shè)計成功率和設(shè)計精度超過了原有統(tǒng)計能量模型ABACUS。
研究成果北京時間7月21日發(fā)表于《自然-計算科學(xué)》(Nature Computational Science)。
劉海燕、陳泉團隊長期致力于發(fā)展數(shù)據(jù)驅(qū)動的蛋白質(zhì)設(shè)計方法,先后建立并實驗驗證了對給定主鏈結(jié)構(gòu)設(shè)計氨基酸序列的統(tǒng)計能量函數(shù)ABACUS模型,以及利用神經(jīng)網(wǎng)絡(luò)能量函數(shù)從頭設(shè)計主鏈結(jié)構(gòu)的SCUBA模型。然而,基于傳統(tǒng)統(tǒng)計能量技術(shù)的ABACUS模型在成功率、計算效率等方面仍有不足。
近期有多項研究表明,用深度學(xué)習(xí)進行氨基酸序列設(shè)計,能夠在天然氨基酸殘基類型恢復(fù)率等計算指標上超過能量函數(shù)方法。但截至目前已正式發(fā)表的工作中,對相關(guān)方法的實驗驗證結(jié)果遠未達到能量函數(shù)方法的成功率。
劉海燕介紹,利用ABACUS-R進行序列設(shè)計的方法由兩部分組成。
第一部分是一個多任務(wù)預(yù)訓(xùn)練的編碼-解碼器網(wǎng)絡(luò),用于對單個氨基酸的結(jié)構(gòu)和化學(xué)環(huán)境進行隱空間編碼,再解碼為包括中心殘基氨基酸類型在內(nèi)的多種真實特征;第二部分是把該編碼解碼網(wǎng)絡(luò)迭代應(yīng)用于目標主鏈的每個氨基酸殘基,直到獲得最大程度自洽的全序列。
在理論驗證的基礎(chǔ)上,團隊嘗試了實驗表征用ABACUS-R對3個天然主鏈結(jié)構(gòu)重新設(shè)計的57條序列,其中86%的序列(49條)可溶表達并能折疊為穩(wěn)定單體。實驗解析的5個高分辨晶體結(jié)構(gòu)與目標結(jié)構(gòu)高度一致。此外,與此前報道的從頭設(shè)計蛋白相似,ABACUS-R從頭設(shè)計的蛋白表現(xiàn)出超高熱穩(wěn)定性,去折疊溫度大多可達100℃以上。
總的來說,相較于ABACUS模型,ABACUS-R序列設(shè)計更高的成功率和結(jié)構(gòu)精度進一步增強了數(shù)據(jù)驅(qū)動蛋白質(zhì)從頭設(shè)計方法的實用性。ABACUS-R還提供了一種對蛋白質(zhì)局部結(jié)構(gòu)信息的預(yù)訓(xùn)練表示方式,可用于序列設(shè)計以外的其他任務(wù)。
審稿人認為,該研究“最新穎的貢獻在于對設(shè)計的充分實驗表征,包括晶體結(jié)構(gòu),以及可溶表達的高成功率。”