原標題:生命科學進化帶來的思考
生命科學的發(fā)展進程與自然界生物物種進化過程類似,都是由簡單到復雜,由單一到多樣,由低級到高級。因此,可以把生命科學的發(fā)展進程類比為生命科學進化。
目前,全世界范圍內(nèi)科技領(lǐng)域都存在“三多三少”的現(xiàn)象——科技投入越來越多、論文越來越多、專利越來越多,但顛覆性成果越來越少、原始創(chuàng)新越來越少、專利轉(zhuǎn)化越來越少。科學技術(shù)創(chuàng)新模式面臨挑戰(zhàn)。就醫(yī)學科學而言,如何確立醫(yī)學領(lǐng)域的前沿科學問題,突破人類的認知邊界,實現(xiàn)“從0到1”的突破,是生命科學進化帶給我們的深刻思考。
科學研究范式的變革
當前,新一輪科技革命和產(chǎn)業(yè)變革突飛猛進,學科交叉融合趨勢凸顯,國際科技競爭向基礎(chǔ)前沿轉(zhuǎn)移。國際學術(shù)期刊《科學》在慶祝其創(chuàng)刊125周年時,公布了125個最具挑戰(zhàn)性的科學問題。其中涉及生命科學的問題占46%,關(guān)系宇宙和地球的問題占16%,與物質(zhì)科學相關(guān)的問題占14%以上,認知科學問題占9%,其余問題分別涉及數(shù)學與計算機科學、政治與經(jīng)濟、能源、環(huán)境和人口等。
這125個科學問題,從基礎(chǔ)科學角度可歸納為三個基本問題,即對物質(zhì)本質(zhì)、宇宙起源、生命本質(zhì)的探索。一旦這些問題獲得突破,將是科學技術(shù)革命性的工作,是突破人類認知邊界的重大創(chuàng)新。揭示物質(zhì)的本質(zhì)是為了破解能量和物質(zhì)形成之間的關(guān)系和能量聚集成物質(zhì)(宇宙中63種基本粒子)的過程;研究宇宙的起源是為了破解信息和能量傳遞、轉(zhuǎn)換的機制,物質(zhì)傳送速度的機制;破解生命的本質(zhì)是為了揭示生命物質(zhì)互作的復雜網(wǎng)絡(luò)動態(tài)運行機制,為探索決定生命、健康、疾病的分子網(wǎng)絡(luò)調(diào)控規(guī)律提供科學基礎(chǔ)。
基于上述科學問題的導向,科學研究范式急需深刻變革。
科學研究范式是20世紀60年代由美國科學家托馬斯·庫恩提出的。科學研究范式是指從事某一領(lǐng)域研究的科學共同體所共同遵從的信念、理論、價值觀、科研行為方式,是科學工作賴以維持運轉(zhuǎn)的學理基礎(chǔ)和實踐規(guī)范。當原有的范式已不能實現(xiàn)科學理論的實質(zhì)性突破,甚至是理論之間多有沖突時,科學研究范式就會轉(zhuǎn)變。2007年,圖靈獎得主吉姆·格雷提出:“信息爆炸迫使科學家必須將實驗、理論和計算機計算統(tǒng)一起來,建立起一種新的科學研究范式,數(shù)據(jù)密集型的科學發(fā)現(xiàn)(Data-intensive Scientific Discovery),即‘第四范式’。研究內(nèi)容由局部走向系統(tǒng),方法由單一學科走向?qū)W科交叉,范疇由多層分科走向探索共性?!?/p>
縱觀人類發(fā)展歷史,我們共經(jīng)歷了四次科學研究范式的轉(zhuǎn)變。第一范式是實驗科學范式,即基于實驗或經(jīng)驗的歸納總結(jié)(Describing natural phenomena)來發(fā)現(xiàn)規(guī)律的科學范式,鉆木取火、比薩斜塔實驗、拉瓦錫發(fā)現(xiàn)的質(zhì)量守恒定律等,都屬于第一范式。文藝復興以后,第二范式即理論科學開始備受推崇,它是以理論為基礎(chǔ)開展研究,通過建立數(shù)學模型和理論框架(Using models,generalizations)演算、歸納總結(jié),來解釋自然現(xiàn)象的科學范式,代表性研究為牛頓定律、麥克斯韋方程、門捷列夫的元素周期律、相對論等。第三范式是計算機科學范式,即利用計算機仿真模擬復雜自然現(xiàn)象(Simulating complex phenomena),用計算機和AI模擬代替實驗研究、預(yù)測結(jié)果的科學范式,如量子化學計算分子動力學模擬、天氣預(yù)報模擬、核試驗?zāi)M、復雜化學反應(yīng)模擬等。第四范式是數(shù)據(jù)密集驅(qū)動的范式,即以數(shù)據(jù)密集和智能驅(qū)動研究,發(fā)現(xiàn)其中的相關(guān)知識和規(guī)律的研究范式。這種范式通過實驗、采集數(shù)據(jù)或模擬器仿真產(chǎn)生數(shù)據(jù),建立數(shù)據(jù)集,采用數(shù)據(jù)挖掘、降維、升維、機器學習等方法分析計算,預(yù)測物質(zhì)性質(zhì)、揭示物質(zhì)互作規(guī)律等,獲取之前未知的新知識。
生命科學研究的困惑
今天的科學研究范式已經(jīng)進展到第四范式,但對生命科學,尤其是醫(yī)學科學的研究來講,還大多停留在第一范式,即試圖通過生物學實驗探索一個復雜事物的規(guī)律;也很少采用第二范式,很少用數(shù)理邏輯表征事物之間的邏輯關(guān)系;即便是目前蓬勃興起的元宇宙技術(shù)和數(shù)字孿生技術(shù),實際上也僅停留在第三范式。要進行未知的生命本質(zhì)研究,必須將科學研究范式推進到第四范式,而其關(guān)鍵就在于大數(shù)據(jù)的收集。數(shù)據(jù)和AI有著極為密切的關(guān)系,如果把AI比作工具,數(shù)據(jù)就是生產(chǎn)資料,只有數(shù)據(jù)的質(zhì)量和數(shù)量達到一定程度,才能被AI工具有效利用。如果原始數(shù)據(jù)的收集很粗糙,就無法轉(zhuǎn)換為特征性的數(shù)據(jù)表征,AI也就不能得出正確結(jié)論。
20世紀,生物學從傳統(tǒng)的描述性科學轉(zhuǎn)變成為假設(shè)驅(qū)動的實驗科學。與此緊密聯(lián)系的是,還原論占據(jù)了統(tǒng)治地位,即對復雜生命系統(tǒng)的理解可以通過將其拆解為組成部件并逐個研究。在這種分子生物學“范式”的指導下,試圖通過認識單個基因或蛋白質(zhì)的結(jié)構(gòu)與功能來闡釋個體的生理或病理活動。然而,細胞內(nèi)的真實世界并非如此。事實上,我們很難找到真實世界的因果關(guān)系,即一個原因必須是一個結(jié)果的充分條件。例如,在真實生命的復雜系統(tǒng)中,mRNA表達水平及其翻譯產(chǎn)生的蛋白質(zhì)豐度之間存在著復雜的非線性關(guān)系。
由于慢性病威脅日益增大,現(xiàn)代醫(yī)學正進入一個新的轉(zhuǎn)型時期,有三種主要發(fā)展趨勢值得我們關(guān)注:一是從簡單性思維的分子生物醫(yī)學轉(zhuǎn)變到復雜性思維的系統(tǒng)生物醫(yī)學;二是從基于統(tǒng)計研究證據(jù)的循證醫(yī)學轉(zhuǎn)變到關(guān)注個體分子特征的精確醫(yī)學;三是從以治病為中心的臨床醫(yī)學轉(zhuǎn)變到以健康為中心的健康醫(yī)學。
要想實現(xiàn)這幾個轉(zhuǎn)變,我們需要厘清目前在生命科學領(lǐng)域,尤其是醫(yī)學領(lǐng)域亟待解決的基本科學問題。在生命科學領(lǐng)域的研究中,不能僅局限于用先進的觀測手段揭示亞細胞水平或分子水平的微觀結(jié)構(gòu),因為這些被發(fā)現(xiàn)的靜態(tài)結(jié)構(gòu)并不能表征生命的微觀動態(tài)過程。一定的組織結(jié)構(gòu)必定為執(zhí)行一定的功能而存在。細胞、亞細胞或分子水平的微觀生命活動,是基于一定的結(jié)構(gòu)存在所表征的結(jié)構(gòu)間系統(tǒng)互作,并以這種互作行使一定功能的時空變化動態(tài)過程。這就需要我們一要解析細胞內(nèi)的空間結(jié)構(gòu);二要揭示細胞內(nèi)結(jié)構(gòu)間的網(wǎng)絡(luò)化系統(tǒng)互作表征;三要探索細胞內(nèi)結(jié)構(gòu)間系統(tǒng)互作的網(wǎng)絡(luò)化動態(tài)時空演變規(guī)律。因此,要建立新的范式研究生命科學領(lǐng)域的這三大基本科學問題。
系統(tǒng)生物學撥云見日
系統(tǒng)生物學通過整合經(jīng)典的分子細胞生物學、新興的生命組學以及信息科學和數(shù)學等非生物學科的研究策略和方法,對生命復雜系統(tǒng)及其生理病理活動進行系統(tǒng)性、整體性的檢測和分析。當前,系統(tǒng)生物學已成為生物學研究方法的主流。生命組學變化的多維度研究,可以揭示生物分子間系統(tǒng)性、網(wǎng)絡(luò)化、時相性互作的生命活動規(guī)律。
系統(tǒng)生物學是一門注重定量研究的學科,不僅注重分子細胞生物學和組學等“濕實驗”(第一范式),也同樣注重信息科學和計算生物學等“干實驗”(第二范式、第三范式)。成功的系統(tǒng)生物學研究應(yīng)該是“干實驗”與“濕實驗”的緊密結(jié)合。
人體細胞內(nèi)是一個多元異構(gòu)的網(wǎng)絡(luò)化復雜巨系統(tǒng),要破解上述三大基本科學問題,需要從揭示細胞內(nèi)復雜表型的發(fā)生與發(fā)展的動態(tài)過程入手。復雜表型涉及DNA、RNA、蛋白質(zhì)及表觀遺傳等多個分子水平的共同作用形式。由于研究策略和分析方法的限制,既往的機制研究缺乏對不同分子水平組學數(shù)據(jù)的整合分析,無法實現(xiàn)對復雜表型分子機制的充分解釋。因此,有效整合DNA、RNA、蛋白質(zhì)、表觀遺傳等多組學數(shù)據(jù),不僅可系統(tǒng)揭示復雜表型發(fā)生與發(fā)展的調(diào)控網(wǎng)絡(luò)與分子特征,闡釋其復雜分子機制,還有助于確定多組學分子標志物,在推進分子機制研究的基礎(chǔ)上,實現(xiàn)從分子機制理解到疾病診療轉(zhuǎn)化應(yīng)用的跨越式發(fā)展,為建立風險評估與精準疾病診療模型以及探索有效的監(jiān)測與預(yù)警方法奠定基礎(chǔ)。具體思路如下:
第一步是對細胞內(nèi)多源異構(gòu)生物數(shù)據(jù)分子特征的提取。
高通量技術(shù)的發(fā)展產(chǎn)生了大量與基因、蛋白質(zhì)和代謝相關(guān)的生物組學數(shù)據(jù)。從這些多源異構(gòu)的生物組學數(shù)據(jù)中發(fā)現(xiàn)和提煉與疾病相關(guān)的信息,需要借助特征衍生的方法獲取具有高區(qū)分性的特征。目前常用的特征衍生方法主要是對現(xiàn)有特征進行線性或非線性的變換,如四則運算特征衍生、交叉組合特征衍生、分組統(tǒng)計特征衍生等。然而,在特征衍生的過程中往往會產(chǎn)生大量無效或者低效的特征。如果把這些冗余特征帶入模型中,會形成維度災(zāi)難,使建模工作無法在合理時間內(nèi)有效完成,且冗余信息往往會造成干擾,導致真正有效的信息被掩蓋,模型預(yù)測效能降低。通過模式識別中的特征選擇技術(shù),對高維生物組學數(shù)據(jù)中蘊藏的重要信息進行提取、篩選、識別和分類,也是生物組學數(shù)據(jù)整合分析的關(guān)鍵步驟。編碼器接受原始特征輸入,將原始特征轉(zhuǎn)換成低維的新特征,解碼器接受新特征并將新特征升維至與原始數(shù)據(jù)相同的維度,以達到有效數(shù)據(jù)降維和分子特征提取的目的。
第二步是選擇模型,把降維后的數(shù)據(jù)帶入模型,針對不同的任務(wù)選擇不同模型。
不同模型對于輸入數(shù)據(jù)的要求不同,因此需要在輸入數(shù)據(jù)之前對數(shù)據(jù)進行預(yù)處理,若選擇多層感知機和集成學習模型,需要進行多組學數(shù)據(jù)的表征合并;若選擇卷積神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)模型,需要進行高維度表征變換。這樣可以將有效特征壓縮并進行低維映射,構(gòu)建交互調(diào)控網(wǎng)絡(luò),對細胞事件進行預(yù)測。對于多組學數(shù)據(jù)的模型選擇,目前并沒有一個金標準,往往需要根據(jù)具體任務(wù)進行選擇。
值得注意的是,目前所有原生人工智能算法的開發(fā)都基于非生命體的工程數(shù)據(jù),并不能完全適配以動態(tài)時空變化為主要異質(zhì)性特征的生物類數(shù)據(jù)。因此,適配人工智能模型的開發(fā)和各級分子互作關(guān)系數(shù)據(jù)庫的構(gòu)建是生物組學數(shù)據(jù)整合與交互調(diào)控網(wǎng)絡(luò)解析的關(guān)鍵和瓶頸,需要學科交叉進行聯(lián)合攻關(guān)。
現(xiàn)代生命實驗科學的主要目的是探尋事物之間的因果關(guān)系,但從大數(shù)據(jù)中獲得的生命科學知識基本上是相關(guān)性的,而非因果性的。生物體是一個復雜網(wǎng)絡(luò)的巨系統(tǒng),研究者不能控制任何一個生理或病理活動涉及的所有變量。數(shù)據(jù)驅(qū)動的研究不依賴于假設(shè),因而研究者不僅可以避開現(xiàn)存理論的限制,以及對“實驗事實”的主觀性選擇和判斷,還可以利用各種算法對獲得的大數(shù)據(jù)進行分析,進而發(fā)現(xiàn)全新的現(xiàn)象或者事物之間隱藏著的內(nèi)在聯(lián)系。數(shù)據(jù)驅(qū)動的生命科學研究新范式并不追求結(jié)果的完備性。它采用的是一種全新的工作模式——迭代(iterate),即每一次研究工作獲得的成果都不是完備的,需要未來研究者在已有版本的基礎(chǔ)上不斷完善并產(chǎn)生新版本,就像人類基因組從研究啟動到今天的幾次迭代不斷完善一樣。知識就像“未知海洋”中的“島嶼”,隨著“知識島嶼”的擴大,“未知水域”同樣也在擴大。不斷拓展人類認知邊界的挑戰(zhàn)在于此,探索未知的樂趣也在于此。
(作者:叢斌,系全國人大憲法和法律委員會副主任委員、中國工程院院士)