今天為大家介紹的是來(lái)自Serafim Batzoglou的一篇博客。
我們是否能夠解讀分子生物學(xué)的語(yǔ)言?在這里,作者認(rèn)為我們距離在計(jì)算機(jī)模擬中準(zhǔn)確模擬生物分子信息高速公路——從DNA到基因表達(dá)再到蛋白質(zhì)——只有幾年的時(shí)間,這將與實(shí)驗(yàn)的準(zhǔn)確性相媲美,并可應(yīng)用于醫(yī)藥和藥物研發(fā)。自從作者在1996年開(kāi)始博士研究以來(lái),計(jì)算生物學(xué)界一直奉行“生物學(xué)正在成為一門(mén)計(jì)算科學(xué)”的信念。我們的最終目標(biāo)是精確、可重復(fù)地預(yù)測(cè)細(xì)胞內(nèi)生物分子的活動(dòng),以及我們體內(nèi)的細(xì)胞,就像工程學(xué)科一樣。我們的目標(biāo)是創(chuàng)建生物系統(tǒng)的計(jì)算模型,實(shí)現(xiàn)準(zhǔn)確的生物分子模擬實(shí)驗(yàn)。深度學(xué)習(xí)和特別是大型語(yǔ)言模型(LLMs)在近年來(lái)取得的進(jìn)展,結(jié)合了可負(fù)擔(dān)和大規(guī)模數(shù)據(jù)生成,正在將這一愿景推向現(xiàn)實(shí)。人類(lèi)語(yǔ)言反映了人類(lèi)的思維,給了我們固有的優(yōu)勢(shì),而分子生物學(xué)則是錯(cuò)綜復(fù)雜、混亂和違反直覺(jué)的。盡管生物分子系統(tǒng)的構(gòu)成混亂,但它們是強(qiáng)大而可重復(fù)的,由數(shù)以百萬(wàn)計(jì)的組分相互作用,這些相互作用已經(jīng)在數(shù)十億年的進(jìn)化過(guò)程中形成。由此產(chǎn)生的系統(tǒng)非常復(fù)雜,超出了人類(lèi)理解的范疇。生物學(xué)家常常采用簡(jiǎn)化的規(guī)則,但這些規(guī)則只有60%或80%的時(shí)間有效,導(dǎo)致了簡(jiǎn)單易懂但不完整的敘述。我們目前生成的巨大生物分子數(shù)據(jù)的能力超過(guò)了我們理解底層系統(tǒng)的能力。
作者討論的核心是生物學(xué)中正在發(fā)生的范式轉(zhuǎn)變。盡管“范式轉(zhuǎn)變”這個(gè)術(shù)語(yǔ)經(jīng)常被濫用,但在這里確實(shí)非常貼切。傳統(tǒng)上,生物學(xué)是以假設(shè)為驅(qū)動(dòng)的:研究人員識(shí)別模式,提出假設(shè),設(shè)計(jì)實(shí)驗(yàn)或研究來(lái)測(cè)試這些假設(shè),并根據(jù)結(jié)果調(diào)整他們的理論。這種方法逐漸被數(shù)據(jù)驅(qū)動(dòng)的建模方法所取代。在這種新興的范式中,研究人員從無(wú)假設(shè)的大規(guī)模數(shù)據(jù)生成開(kāi)始,然后訓(xùn)練一個(gè)模型,如LLM,或?qū)?shù)據(jù)納入現(xiàn)有的LLM中。一旦LLM能夠準(zhǔn)確地模擬系統(tǒng),接近實(shí)驗(yàn)重復(fù)之間的一致性,研究人員就可以通過(guò)詢(xún)問(wèn)LLM來(lái)提取關(guān)于系統(tǒng)的見(jiàn)解,并理解其中的基本生物原理。這種轉(zhuǎn)變將越來(lái)越明顯,并使得能夠以超越人類(lèi)能力的細(xì)粒度對(duì)生物分子系統(tǒng)進(jìn)行準(zhǔn)確建模。
一個(gè)大型語(yǔ)言模型(LLM)是一種神經(jīng)網(wǎng)絡(luò),通過(guò)研究大量文本數(shù)據(jù),獲得模仿人類(lèi)語(yǔ)言生成文本的能力。它運(yùn)作的原理是“自我監(jiān)督”,模型根據(jù)前面的詞語(yǔ)來(lái)預(yù)測(cè)句子中的下一個(gè)詞。這個(gè)過(guò)程使得LLM能夠識(shí)別文本中的模式、關(guān)系和上下文,使其能夠回答查詢(xún)、生成新內(nèi)容,甚至進(jìn)行預(yù)測(cè)。LLM可以被看作是自動(dòng)補(bǔ)全的高級(jí)形式,它能預(yù)測(cè)你接下來(lái)可能輸入的下一個(gè)詞,但令人驚訝的是,它們表現(xiàn)出了對(duì)語(yǔ)言、上下文和含義的扎實(shí)理解。這使得它們能夠在各種不同的主題上生成連貫而知識(shí)豐富的回應(yīng)。
遺傳法則
圖 1
人類(lèi)或其他生物從胚胎發(fā)育到整個(gè)生命周期的生物軌跡是遺傳和環(huán)境之間復(fù)雜的相互作用:個(gè)體的DNA與其所暴露的環(huán)境之間的對(duì)話(huà)(圖1)。分子生物學(xué)的中心法則描述了遺傳信息在生物體內(nèi)的流動(dòng)。這些遺傳信息的來(lái)源是我們的DNA,而我們體內(nèi)的每個(gè)細(xì)胞核中都保存著一份完全一樣的DNA復(fù)制品。人類(lèi)的DNA包含大約30億個(gè)核苷酸,排列在23對(duì)染色體中,其中22對(duì)是常染色體,而一對(duì)是性染色體,可以是X或Y。每個(gè)個(gè)體都擁有兩份幾乎完全相同的人類(lèi)基因組:一份來(lái)自母親,一份來(lái)自父親。我們體內(nèi)的大約3萬(wàn)億個(gè)細(xì)胞中,每個(gè)細(xì)胞核中都保存有我們母親和父親基因組的幾乎完全一樣的拷貝。基因組中約有2萬(wàn)個(gè)基因,這些基因是負(fù)責(zé)蛋白質(zhì)合成的DNA片段。大約1%的基因組編碼蛋白質(zhì),而其余部分包括控制基因表達(dá)的區(qū)域、基因內(nèi)不編碼蛋白質(zhì)的區(qū)域、貢獻(xiàn)于DNA結(jié)構(gòu)的區(qū)域,以及具有“自我復(fù)制”能力的自私DNA的“垃圾”區(qū)域。分子生物學(xué)的中心法則描述了從基因組到基因表達(dá)再到蛋白質(zhì)產(chǎn)生的分子信息流動(dòng),而蛋白質(zhì)則是生命的基本構(gòu)建單元。
在轉(zhuǎn)錄之后,mRNA被運(yùn)送到細(xì)胞的蛋白質(zhì)合成機(jī)器——核糖體,進(jìn)行翻譯。在翻譯過(guò)程中,mRNA序列以三個(gè)核苷酸為一組進(jìn)行解碼,這被稱(chēng)為密碼子。每個(gè)密碼子精確對(duì)應(yīng)著蛋白質(zhì)的20種氨基酸中的一種,這些氨基酸是構(gòu)成蛋白質(zhì)的基本組成部分。這些氨基酸被連接成鏈,形成蛋白質(zhì)序列,然后蛋白質(zhì)序列會(huì)折疊成具有功能的三維蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)是生命的基本構(gòu)建單元,在幾乎所有生物過(guò)程中起著關(guān)鍵作用。它們提供細(xì)胞的結(jié)構(gòu)組成,作為酶催化化學(xué)反應(yīng),并促進(jìn)細(xì)胞內(nèi)的通訊和運(yùn)輸?;蛘{(diào)控與細(xì)胞內(nèi)調(diào)控基因何時(shí)、何地以及以何種數(shù)量表達(dá)的復(fù)雜過(guò)程有關(guān)。這確保了正確蛋白質(zhì)的及時(shí)生產(chǎn)?;蛘{(diào)控發(fā)生在多個(gè)層面,包括染色質(zhì)結(jié)構(gòu)、化學(xué)修飾以及特定蛋白質(zhì)(稱(chēng)為轉(zhuǎn)錄因子)的作用。
轉(zhuǎn)錄因子(TF)是在基因調(diào)控中起關(guān)鍵作用的蛋白質(zhì)。它們結(jié)合到基因附近或內(nèi)部的特定DNA序列,被稱(chēng)為轉(zhuǎn)錄因子結(jié)合位點(diǎn),從而影響RNA聚合酶的招募,RNA聚合酶是負(fù)責(zé)mRNA合成的酶。因此,轉(zhuǎn)錄因子調(diào)節(jié)目標(biāo)基因的表達(dá),確保對(duì)多樣的細(xì)胞信號(hào)和環(huán)境條件做出適當(dāng)?shù)幕虮磉_(dá)反應(yīng)。轉(zhuǎn)錄因子本身受到其他轉(zhuǎn)錄因子的調(diào)控,形成復(fù)雜的基因調(diào)控途徑。
啟動(dòng)子和增強(qiáng)子是在基因表達(dá)控制中發(fā)揮作用的DNA區(qū)域。啟動(dòng)子位于基因的起始位置相鄰的地方(在DNA的化學(xué)方向上為上游,或基因起始位置的左側(cè)),而增強(qiáng)子則是位于內(nèi)含子或基因之間的較遠(yuǎn)的調(diào)控元件。啟動(dòng)子和增強(qiáng)子都含有多個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)。在轉(zhuǎn)錄因子的輔助下,基因的啟動(dòng)子和增強(qiáng)子形成三維結(jié)構(gòu),招募和調(diào)控負(fù)責(zé)mRNA合成的RNA聚合酶。
染色質(zhì)結(jié)構(gòu)是由DNA和蛋白質(zhì)(組蛋白)組成的我們?nèi)旧w的復(fù)合物。為了緊密地容納在每個(gè)細(xì)胞核內(nèi),DNA被纏繞在被稱(chēng)為組蛋白的蛋白質(zhì)周?chē)?。組蛋白是四聚體,由四個(gè)組蛋白蛋白質(zhì)的復(fù)制組裝而成。每個(gè)這樣的結(jié)構(gòu)包裹著146個(gè)核苷酸對(duì)的DNA,形成了一個(gè)像念珠一樣的結(jié)構(gòu),隨后折疊成一個(gè)更高階的螺旋結(jié)構(gòu),即染色質(zhì)。染色質(zhì)的組織決定了哪些DNA區(qū)域可供基因表達(dá)使用。要發(fā)生基因表達(dá),染色質(zhì)必須展開(kāi)。相反,緊密包裝的染色質(zhì)會(huì)阻止基因表達(dá)。
組蛋白修飾是指對(duì)組蛋白進(jìn)行乙?;蚣谆然瘜W(xué)修飾,從而影響染色質(zhì)結(jié)構(gòu)和基因可及性。這些修飾可以促進(jìn)或抑制基因表達(dá),取決于修飾的類(lèi)型和位置。它們也是組蛋白代碼的一部分,一種表觀(guān)遺傳代碼,即覆蓋在DNA中編碼的遺傳代碼之上的額外代碼層。
DNA甲基化是一種化學(xué)修飾,其中甲基基團(tuán)被添加到DNA分子上,通常是在特定的胞嘧啶堿基上。甲基化可以通過(guò)影響轉(zhuǎn)錄因子的結(jié)合或改變?nèi)旧|(zhì)結(jié)構(gòu)來(lái)影響基因表達(dá),使其更加緊湊且不易被轉(zhuǎn)錄訪(fǎng)問(wèn)。甲基化和其他DNA化學(xué)修飾也是表觀(guān)遺傳代碼的一部分。基因調(diào)控是一種特定于每種細(xì)胞類(lèi)型的動(dòng)態(tài)過(guò)程。我們身體內(nèi)的不同細(xì)胞展示出獨(dú)特的基因表達(dá)譜,使它們能夠執(zhí)行專(zhuān)門(mén)的功能。通過(guò)對(duì)基因表達(dá)的精確控制,細(xì)胞可以對(duì)環(huán)境刺激作出反應(yīng),維持穩(wěn)態(tài),并執(zhí)行對(duì)生命至關(guān)重要的復(fù)雜過(guò)程。
傳統(tǒng)上,中心法則被描述為信息的單向流動(dòng):DNA到RNA到蛋白質(zhì)。然而,存在一些例外情況,我們對(duì)底層機(jī)制的認(rèn)識(shí)仍在不斷發(fā)展,這超出了本簡(jiǎn)要回顧的范圍。值得一提的是一些例外情況:(1)反轉(zhuǎn)錄的發(fā)現(xiàn)挑戰(zhàn)了中心法則的單向性,反轉(zhuǎn)錄是將RNA轉(zhuǎn)換回DNA的過(guò)程,由反轉(zhuǎn)錄酶這個(gè)酶催化,常見(jiàn)于逆轉(zhuǎn)錄病毒,如HIV。(2)DNA還可以被轉(zhuǎn)錄成除mRNA之外的其他RNA分子,如轉(zhuǎn)運(yùn)RNA(tRNA)、核糖體RNA(rRNA)和其他類(lèi)型的非編碼RNA,為遺傳信息的流動(dòng)增加了另一個(gè)復(fù)雜層次。(3)最后,越來(lái)越多的證據(jù)顯示表觀(guān)遺傳學(xué)在DNA甲基化和組蛋白修飾等機(jī)制方面發(fā)揮著重要作用,并研究表觀(guān)遺傳變化在遺傳中的傳遞程度。
基因變化
我們每個(gè)人的生物形態(tài)都受到DNA與環(huán)境影響之間的復(fù)雜相互作用的塑造,從受孕到現(xiàn)在的每一刻都在持續(xù)進(jìn)行。我們的DNA結(jié)合了人類(lèi)雌性生殖系統(tǒng),確保我們以人類(lèi)的身份而非其他物種(例如與我們基因相似度達(dá)到98.8%的黑猩猩)出生。任何兩個(gè)人的DNA相似度超過(guò)99.9%。然而,我們的DNA變異解釋了我們所有特征的遺傳性,包括對(duì)健康和疾病的遺傳貢獻(xiàn)。
DNA變異的起源:引入DNA變異的主要機(jī)制是在父母的基因組之間以及父母對(duì)后代基因組的生殖細(xì)胞系基因組之間發(fā)生的突變。在人類(lèi)中,與父母的DNA相比,兒童的DNA包含大約50-100個(gè)突變;其中大部分由父親貢獻(xiàn),與父親的年齡相關(guān)。生殖細(xì)胞系突變主要推動(dòng)了基因變異,解釋了我們與黑猩猩和松鼠等物種的差異。這些新變異中的大多數(shù)是良性的,對(duì)表型沒(méi)有影響,或者有一些既不具有優(yōu)勢(shì)也不具有劣勢(shì)的影響。較小一部分可能是有害的,特別是如果它們損壞了一個(gè)功能區(qū)域,可以是蛋白編碼、調(diào)控或甚至與染色質(zhì)結(jié)構(gòu)相關(guān)的區(qū)域。更小一部分可能是有益的,比如偶然改善功能元素的變異。
選擇:有害變異或有害的遺傳改變通常會(huì)使一個(gè)生物在進(jìn)化角度上變得不太“適合”,適應(yīng)度定義為預(yù)期存活后代的數(shù)量。隨著時(shí)間的推移,有害變異往往在統(tǒng)計(jì)上從人群中被消除。因此,在人類(lèi)中常見(jiàn)的遺傳變異(至少在1%的人群中發(fā)現(xiàn))要么是良性的,要么是對(duì)后來(lái)的生活中表現(xiàn)出的疾病有貢獻(xiàn)的,這些疾病超出了自然選擇的范圍。這也是為什么罕見(jiàn)的變異通常比常見(jiàn)的變異更可能是有害的原因。
合并和DNA序列保守性:在更長(zhǎng)的進(jìn)化時(shí)間尺度上,例如人類(lèi)與黑猩猩或狗之間的時(shí)間,選擇對(duì)DNA的影響具有很高的信息性。以今天的任意兩個(gè)個(gè)體為例。例如,我和我的狗Murzik(一只麥?zhǔn)炕?。選擇任何共享的DNA區(qū)域,例如我們與狗共享的大部分人類(lèi)基因。選擇我的母系拷貝和Murzik的(假設(shè))父系拷貝。它們的相似度約為84%?,F(xiàn)在,如果我們追溯這個(gè)區(qū)域的歷史(我的母親從她的母親(假設(shè))那里繼承了它,她從她的父親那里繼承了它,以此類(lèi)推;Murzik的父親從他的母親(假設(shè))那里繼承了它,她從她的母親那里繼承了它,以此類(lèi)推),最終這兩個(gè)區(qū)域會(huì)合并:存在一個(gè)祖先哺乳動(dòng)物個(gè)體,它有兩個(gè)孩子,這兩個(gè)孩子都繼承了完全相同的DNA片段:其中一個(gè)孩子成為我,另一個(gè)孩子成為Murzik。16%的序列差異反映了從這個(gè)共同祖先曾經(jīng)經(jīng)歷的數(shù)百萬(wàn)代中發(fā)生的所有生殖細(xì)胞系突變。重要的是,發(fā)生在基因的重要部分的突變往往會(huì)使個(gè)體的適應(yīng)度降低,并且不太可能導(dǎo)致我或Murzik今天存在。因此,DNA區(qū)域中保存程度較高的部分更有可能具有功能重要性,而保存程度較低的部分則更容忍突變。
數(shù)據(jù)生成:自30多年前啟動(dòng)人類(lèi)基因組計(jì)劃以來(lái),已經(jīng)開(kāi)發(fā)出許多DNA測(cè)序技術(shù),可以快速、經(jīng)濟(jì)高效地生成DNA數(shù)據(jù)。如今,整個(gè)人類(lèi)基因組的完整測(cè)序費(fèi)用可能僅為200美元(圖6)。令人驚訝的是,用于測(cè)序我們整個(gè)基因組的相同技術(shù)也可以生成涉及分子生物學(xué)中核心基因表達(dá)的多種功能的數(shù)據(jù)。例如,通過(guò)將DNA測(cè)序與單細(xì)胞微流控技術(shù)相結(jié)合,研究人員可以測(cè)量生物樣本中成千上萬(wàn)個(gè)單個(gè)細(xì)胞中每個(gè)基因的轉(zhuǎn)錄水平。基于測(cè)序的方法可以揭示染色質(zhì)的結(jié)構(gòu)、組蛋白修飾、轉(zhuǎn)錄因子與DNA的結(jié)合以及其他重要的分子信息。關(guān)于如何實(shí)現(xiàn)這一點(diǎn)的詳細(xì)說(shuō)明超出了本文的范圍,但簡(jiǎn)而言之,實(shí)驗(yàn)中會(huì)分離出具有特定感興趣屬性的短DNA片段,例如與特定轉(zhuǎn)錄因子結(jié)合或作為開(kāi)放、可訪(fǎng)問(wèn)的染色質(zhì)的一部分,并對(duì)其進(jìn)行測(cè)序。除了DNA測(cè)序,其他技術(shù)如質(zhì)譜(MS)和親和質(zhì)譜學(xué)可以測(cè)量生物樣本中所有蛋白質(zhì)的水平。盡管通量較低,但X射線(xiàn)晶體學(xué)可以提供蛋白質(zhì)的高分辨率三維結(jié)構(gòu)。在過(guò)去的20至30年中,我們測(cè)量分子功能的能力遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律的發(fā)展速度,主要是由于DNA測(cè)序技術(shù)的進(jìn)步,該技術(shù)也使得可以通過(guò)測(cè)序?yàn)榛A(chǔ)的檢測(cè)方法進(jìn)行基因表達(dá)、染色質(zhì)可及性和組蛋白修飾等多種分子讀數(shù)。這種快速的數(shù)據(jù)生成進(jìn)步使科學(xué)家們能夠以單細(xì)胞或空間精度測(cè)量生物樣本中的大多數(shù)遺傳方面的特征。
將變異與功能聯(lián)系起來(lái)。二十多年來(lái),研究人員一直致力于通過(guò)將大量個(gè)體的基因組中的遺傳變異與特定表型(如特定疾病的存在或不存在)相關(guān)聯(lián),以闡明基因功能和疾病的分子機(jī)制。這些研究被稱(chēng)為全基因組關(guān)聯(lián)研究(GWAS),它們識(shí)別出某些基因組位置(可以是基因或調(diào)控區(qū)域)與所研究的表型之間的統(tǒng)計(jì)顯著關(guān)聯(lián)。GWAS目錄(https://www.ebi.ac.uk/gwas/)是一個(gè)公共資源,目前包含了超過(guò)6,300份出版物和515,000個(gè)這樣的關(guān)聯(lián)。當(dāng)所測(cè)量的表型不是二元的而是可量化的實(shí)體,比如身高,可以在基因組變異和表型之間進(jìn)行回歸分析,并將鑒定出的遺傳位點(diǎn)稱(chēng)為數(shù)量性狀位點(diǎn)。除了疾病狀態(tài)、身高或頭發(fā)顏色等宏觀(guān)表型,遺傳變異還可以與基因表達(dá)水平(導(dǎo)致表達(dá)數(shù)量性狀位點(diǎn),或eQTL)、蛋白質(zhì)豐度(導(dǎo)致蛋白質(zhì)數(shù)量性狀位點(diǎn),或pQTL)以及幾乎所有其他分子測(cè)量相關(guān)聯(lián)。這些分析為了解細(xì)胞功能和人類(lèi)生理學(xué)的分子機(jī)制提供了寶貴的見(jiàn)解。然而,正如我們將在下文討論的那樣,這些傳統(tǒng)的關(guān)聯(lián)分析很可能被LLM的應(yīng)用所超越。
LLM 在分子生物學(xué)的應(yīng)用
在分子生物學(xué)的中心法則的各個(gè)步驟建模方面,過(guò)去幾年取得了顯著進(jìn)展。雖然我們還沒(méi)有完全將分子生物學(xué)轉(zhuǎn)變?yōu)橐婚T(mén)計(jì)算科學(xué),也沒(méi)有將醫(yī)學(xué)和人類(lèi)健康變成一門(mén)工程學(xué)科,但目前的勢(shì)頭表明我們離這個(gè)愿景只有大量額外的數(shù)據(jù)和進(jìn)一步的發(fā)展之間的距離。這一進(jìn)展在某種程度上與人工智能應(yīng)用的其他領(lǐng)域有所不同。就個(gè)人而言,作者認(rèn)為即使在小型哺乳動(dòng)物的水平上,人工通用智能(AGI)仍然是超出我們的能力范圍。此外,組合數(shù)學(xué)、離散算法和數(shù)學(xué)推理并不是LLM的強(qiáng)項(xiàng)。這是因?yàn)檫@些模型是前饋結(jié)構(gòu),除了通過(guò)將生成的文本作為輸入饋送給LLM而隱含地創(chuàng)建的循環(huán)外,它們不包含循環(huán)。正如史蒂芬·沃爾夫勒姆在他的出色綜述中所解釋的,計(jì)算不可約性保證了這些模型無(wú)法做某些事情。值得一提的是,正如Bubek等人在2023年所描述的GPT-4系統(tǒng)中開(kāi)始出現(xiàn)的這些能力的跡象。然而,對(duì)分子生物學(xué)進(jìn)行建模并不需要AGI:它不需要高層次的規(guī)劃、機(jī)構(gòu)或目標(biāo),并且只有有限的需求來(lái)進(jìn)行組合數(shù)學(xué)和算法推理。相反,分子生物學(xué)建模需要LLM擅長(zhǎng)的能力:學(xué)習(xí)復(fù)雜、嘈雜順序數(shù)據(jù)的統(tǒng)計(jì)特性,以最佳方式從丟失的表示中預(yù)測(cè)這些數(shù)據(jù)。
預(yù)測(cè)基因結(jié)構(gòu):根據(jù)分子生物學(xué)的基本法則,DNA的主要功能是編碼轉(zhuǎn)錄和翻譯為蛋白質(zhì)的基因。決定被翻譯成蛋白質(zhì)的每個(gè)基因的具體片段是通過(guò)剪接機(jī)制確定的;這些片段在基因組中的絕大多數(shù)基因中都有很好的注釋。然而,突變可能會(huì)破壞剪接的精確邊界,即剪接位點(diǎn)。破壞剪接的罕見(jiàn)突變通常會(huì)顯著影響所產(chǎn)生的蛋白質(zhì)功能,因?yàn)樗鼈兺ǔ?huì)產(chǎn)生完全不同的蛋白質(zhì)序列。因此,它們占據(jù)了罕見(jiàn)遺傳病的約10%。預(yù)測(cè)剪接位點(diǎn)和推斷基因結(jié)構(gòu)因此是一項(xiàng)基本的計(jì)算任務(wù),對(duì)于診斷遺傳疾病具有重要意義。關(guān)于剪接位點(diǎn)預(yù)測(cè)的文獻(xiàn)非常廣泛。然而,直到2018年左右,這個(gè)問(wèn)題仍然是一個(gè)重大挑戰(zhàn),最好的方法的準(zhǔn)確率只能達(dá)到約30%,這個(gè)水平對(duì)于遺傳診斷等應(yīng)用來(lái)說(shuō)并不足夠預(yù)測(cè)。
2019年,Illumina AI實(shí)驗(yàn)室推出了SpliceAI。SpliceAI不使用Transformer技術(shù),也不作為L(zhǎng)LM,而是采用了較早的語(yǔ)言建模技術(shù),其中語(yǔ)言是DNA序列。它是一個(gè)深度殘差卷積神經(jīng)網(wǎng)絡(luò),利用擴(kuò)張卷積來(lái)高效擴(kuò)展它可以處理的窗口大小。它接受人類(lèi)基因組的10,000個(gè)核苷酸窗口作為輸入,并預(yù)測(cè)內(nèi)含子-外顯子邊界的精確位置,即所謂的供體位點(diǎn)和受體位點(diǎn),分別指外顯子-內(nèi)含子和內(nèi)含子-外顯子邊界。在精確率-召回率曲線(xiàn)下的面積(PR-AUC)方面,SpliceAI在人類(lèi)基因組中達(dá)到了0.98的得分,而之前最好的得分為0.23。重要的是,SpliceAI的準(zhǔn)確性足以進(jìn)行體外突變分析:它可以人工改變DNA的任何位置,并確定這種改變是否在距離該突變10,000個(gè)核苷酸范圍內(nèi)引入或消除剪接位點(diǎn)。因此,它可以用于輔助遺傳診斷:對(duì)于患有遺傳疾病的患者,例如患有兒科疾病的年輕人,可以收集個(gè)體與父母不同的所有變異,并將每個(gè)變異輸入到SpliceAI中,以確定它是否可能改變附近基因的剪接,從而破壞基因的功能。迄今為止,在英國(guó)基因組學(xué)10萬(wàn)個(gè)基因組計(jì)劃(Genomics England 100,000 genomes project)的背景下,它已經(jīng)解決了數(shù)百例以前無(wú)法解決的罕見(jiàn)未診斷兒科疾病病例。
預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu):分子生物學(xué)的核心法則講述了我們的DNA信息如何產(chǎn)生蛋白質(zhì),而蛋白質(zhì)是生命的基本構(gòu)建單元。蛋白質(zhì)序列直接由剪接的mRNA序列根據(jù)遺傳密碼進(jìn)行翻譯,然后折疊成功能性的三維形狀,即蛋白質(zhì)結(jié)構(gòu)。從蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),也被稱(chēng)為蛋白質(zhì)折疊問(wèn)題,由于其重要性和看似難以克服的困難,長(zhǎng)期以來(lái)被視為分子生物學(xué)的至高目標(biāo)。蛋白質(zhì)結(jié)構(gòu)的黃金標(biāo)準(zhǔn)是來(lái)自X射線(xiàn)晶體學(xué)的實(shí)驗(yàn)數(shù)據(jù),由于在獲得高質(zhì)量的蛋白質(zhì)晶體和進(jìn)行復(fù)雜的數(shù)據(jù)處理以推導(dǎo)蛋白質(zhì)結(jié)構(gòu)時(shí)存在困難,因此很難獲得。盡管結(jié)構(gòu)預(yù)測(cè)方法遠(yuǎn)遠(yuǎn)不能達(dá)到X射線(xiàn)晶體學(xué)的準(zhǔn)確性,但計(jì)算預(yù)測(cè)已經(jīng)是幾十年來(lái)的研究重點(diǎn)。每?jī)赡昱e行一次的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)評(píng)估競(jìng)賽(CASP,Critical Assessment of protein Structure Prediction)一直追蹤著這一領(lǐng)域的進(jìn)展。在2019年的比賽中,DeepMind的AlphaFold方法在準(zhǔn)確性上取得了巨大的突破,超過(guò)了以往的基準(zhǔn)。在2021年,AlphaFold 2再次取得了顯著進(jìn)展,幾乎達(dá)到了X射線(xiàn)晶體學(xué)的準(zhǔn)確性水平。隨后,DeepMind與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)合作,發(fā)布了基于AlphaFold2的全面開(kāi)源數(shù)據(jù)庫(kù),名為AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)提供了各種生物體的高準(zhǔn)確性結(jié)構(gòu)預(yù)測(cè),包括人類(lèi)蛋白質(zhì)、模式生物和重要病原體。這些預(yù)測(cè)結(jié)構(gòu)有望加快研究進(jìn)展,并為生物過(guò)程、藥物研發(fā)和疾病理解提供寶貴的見(jiàn)解。截至今天,數(shù)據(jù)庫(kù)中有214,683,829個(gè)蛋白質(zhì)結(jié)構(gòu)。實(shí)質(zhì)上,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,曾經(jīng)被認(rèn)為是分子生物學(xué)的至高目標(biāo),如今由于深度學(xué)習(xí)的突破,已經(jīng)接近得到解決。AlphaFold 2代表了一項(xiàng)重大的科學(xué)進(jìn)步,無(wú)論從任何角度來(lái)看都是如此。
預(yù)測(cè)蛋白質(zhì)變異的影響:兩個(gè)個(gè)體的基因組中有超過(guò)4百萬(wàn)個(gè)位置存在變異,其中有超過(guò)2萬(wàn)個(gè)位于編碼蛋白質(zhì)的區(qū)域。大部分遺傳變異是良性的,并顯著貢獻(xiàn)于人類(lèi)觀(guān)察到的表型多樣性。然而,這些遺傳多樣性的一小部分是有害的,會(huì)導(dǎo)致遺傳性疾病。了解遺傳變異的影響并對(duì)其進(jìn)行分類(lèi),判斷其是否良性或有害,對(duì)于遺傳疾病的診斷、藥物開(kāi)發(fā)的基因靶標(biāo)的鑒定以及對(duì)疾病的分子機(jī)制的理解都具有直接的應(yīng)用。遺憾的是,絕大多數(shù)變異都被歸類(lèi)為“意義未確定的變異”(VUSs),對(duì)其在疾病中的影響尚不清楚。對(duì)這類(lèi)變異進(jìn)行注釋是人類(lèi)遺傳學(xué)中一個(gè)至關(guān)重要且尚未解決的問(wèn)題。確定某個(gè)變異是良性的或至少不太有害的一個(gè)重要線(xiàn)索來(lái)自于將人類(lèi)遺傳與近親如黑猩猩和其他靈長(zhǎng)類(lèi)動(dòng)物的遺傳進(jìn)行比較。我們的基因組與其他靈長(zhǎng)類(lèi)動(dòng)物的基因組非常相似:與黑猩猩的基因組相似度達(dá)到98.8%,與大猩猩的基因組相似度為98.4%,與猩猩的基因組相似度為97%。例如,進(jìn)化保守的蛋白質(zhì)甚至更加相似。我們的生物學(xué)也非常相似,當(dāng)人類(lèi)蛋白質(zhì)中的突變是致命的或?qū)е聡?yán)重遺傳疾病時(shí),相應(yīng)靈長(zhǎng)類(lèi)動(dòng)物蛋白質(zhì)中的相同突變很可能也是有害的。相反,在健康靈長(zhǎng)類(lèi)動(dòng)物中觀(guān)察到的蛋白質(zhì)變異很可能在人類(lèi)中也是良性的。因此,我們能夠訪(fǎng)問(wèn)的靈長(zhǎng)類(lèi)動(dòng)物基因組越多,我們就能收集到關(guān)于人類(lèi)基因組的更多信息:我們可以編制一個(gè)在靈長(zhǎng)類(lèi)動(dòng)物中頻繁觀(guān)察到的蛋白質(zhì)變異列表,并推斷這些變異在人類(lèi)中很可能是良性的。因此,在尋找與嚴(yán)重遺傳疾病相關(guān)的突變時(shí),應(yīng)從不在此列表中的突變開(kāi)始。
這樣的靈長(zhǎng)類(lèi)動(dòng)物蛋白質(zhì)變異列表永遠(yuǎn)無(wú)法足以將人類(lèi)的突變分類(lèi)為良性或致病。簡(jiǎn)單來(lái)說(shuō),將有太多良性的人類(lèi)突變沒(méi)有機(jī)會(huì)出現(xiàn)在靈長(zhǎng)類(lèi)動(dòng)物變異列表中。然而,這個(gè)列表可以以更有成效的方式利用:通過(guò)觀(guān)察蛋白質(zhì)序列和結(jié)構(gòu)中容忍變異的模式以及不容忍變異的模式。通過(guò)學(xué)習(xí)區(qū)分這兩類(lèi)蛋白質(zhì)位置,我們可以獲得注釋蛋白質(zhì)變異為可能良性或可能致病的能力。
由Kyle Farh領(lǐng)導(dǎo)的Illumina AI實(shí)驗(yàn)室采用了這種方法來(lái)注釋人類(lèi)蛋白質(zhì)中的變異。最初,在與其他人合作的情況下,他們收集了靈長(zhǎng)類(lèi)動(dòng)物的血樣,并對(duì)盡可能多的靈長(zhǎng)類(lèi)動(dòng)物進(jìn)行了基因組測(cè)序,包括來(lái)自233個(gè)不同靈長(zhǎng)類(lèi)動(dòng)物物種的809個(gè)個(gè)體。這項(xiàng)測(cè)序工作是一個(gè)重要的保育倡議:一些靈長(zhǎng)類(lèi)動(dòng)物物種處于瀕危狀態(tài),保護(hù)這些物種中豐富的遺傳信息對(duì)基礎(chǔ)科學(xué)以及人類(lèi)遺傳學(xué)的研究都至關(guān)重要。
團(tuán)隊(duì)確定了靈長(zhǎng)類(lèi)動(dòng)物中的430萬(wàn)個(gè)常見(jiàn)蛋白質(zhì)變異目錄,與之對(duì)應(yīng)的蛋白質(zhì)也存在于人類(lèi)中。然后,他們構(gòu)建了一個(gè)transformer,學(xué)習(xí)區(qū)分人類(lèi)蛋白質(zhì)中的良性和致病變異。通過(guò)學(xué)習(xí)靈長(zhǎng)類(lèi)動(dòng)物變異通常存在的蛋白質(zhì)位置的模式,與靈長(zhǎng)類(lèi)動(dòng)物變異通常不存在的蛋白質(zhì)位置進(jìn)行對(duì)比,實(shí)現(xiàn)了這一目標(biāo)。這個(gè)transformer被命名為PrimateAI-3D,它是該實(shí)驗(yàn)室之前開(kāi)發(fā)的深度學(xué)習(xí)工具PrimateAI的新版本。PrimateAI-3D利用了蛋白質(zhì)序列數(shù)據(jù)以及蛋白質(zhì)的三維模型,這些模型可以通過(guò)實(shí)驗(yàn)重構(gòu)或像AlphaFold和HHpred這樣的計(jì)算工具進(jìn)行預(yù)測(cè),以2安培分辨率進(jìn)行體素化。
模擬基因調(diào)控:如前所述,基因調(diào)控這個(gè)復(fù)雜過(guò)程涉及許多相互作用的分子組分:DNA染色質(zhì)結(jié)構(gòu)、DNA包裹的組蛋白中的化學(xué)修飾、轉(zhuǎn)錄因子與啟動(dòng)子和增強(qiáng)子的結(jié)合、包括啟動(dòng)子、增強(qiáng)子、結(jié)合的轉(zhuǎn)錄因子在內(nèi)的DNA的三維結(jié)構(gòu)的建立以及RNA聚合酶的招募。理論上,基因附近的精確DNA序列攜帶了觸發(fā)這些機(jī)制的所有信息,以在正確的時(shí)間、正確的數(shù)量和適當(dāng)?shù)募?xì)胞類(lèi)型中發(fā)揮作用。然而,在實(shí)踐中,僅憑DNA序列預(yù)測(cè)基因表達(dá)是一項(xiàng)艱巨的任務(wù)。然而,最近語(yǔ)言模型在這個(gè)領(lǐng)域取得了顯著的進(jìn)展。
生成與基因調(diào)控相關(guān)的信息豐富的數(shù)據(jù)。在過(guò)去的二十年中,基因組研究人員進(jìn)行了巨大的努力,產(chǎn)生了適用于理解基因調(diào)控的大規(guī)模分子數(shù)據(jù)的各種類(lèi)型的數(shù)據(jù)。已經(jīng)開(kāi)發(fā)了數(shù)百種不同的實(shí)驗(yàn)技術(shù),用于獲得與中心法則的各個(gè)方面有關(guān)的信息,這里無(wú)法詳細(xì)列舉。以下是一些相關(guān)的信息示例,始終涉及人類(lèi)細(xì)胞系或組織類(lèi)型(前者通常是不朽的細(xì)胞系,后者通常來(lái)自已故的捐贈(zèng)者):(1)確定整個(gè)基因組中具有開(kāi)放染色質(zhì)和緊密包裝染色質(zhì)的精確位置。與此相關(guān)的兩種實(shí)驗(yàn)技術(shù)是DNAse-seq和ATAC-seq。(2)確定轉(zhuǎn)錄因子結(jié)合到基因組中的特定位置。(3)確定基因組中發(fā)生特定組蛋白化學(xué)修飾的所有位置。(4)確定給定基因的mRNA水平,即特定基因的表達(dá)水平。這類(lèi)數(shù)據(jù)已經(jīng)在數(shù)百個(gè)人類(lèi)和小鼠細(xì)胞系以及許多個(gè)體中獲得。總共,已經(jīng)在多年的國(guó)際合作項(xiàng)目下收集了數(shù)千個(gè)這樣的實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)反過(guò)來(lái)又涉及到整個(gè)人類(lèi)或模式生物基因組上數(shù)萬(wàn)個(gè)數(shù)據(jù)點(diǎn)。
通過(guò)一系列語(yǔ)言模型的發(fā)展,最終形成了基于transformer的Enformer工具,該工具接受基因附近的DNA序列作為輸入,并輸出基因組中任何基因的特定細(xì)胞類(lèi)型的表達(dá)水平。Enformer在僅從序列預(yù)測(cè)基因表達(dá)方面表現(xiàn)得相當(dāng)不錯(cuò)。如果我們使用特定的實(shí)驗(yàn)技術(shù)(例如CAGE實(shí)驗(yàn))在相同細(xì)胞系中測(cè)量所有基因的表達(dá)水平,同一實(shí)驗(yàn)的兩個(gè)重復(fù)通常的相關(guān)性平均為0.94。一個(gè)達(dá)到這個(gè)水平的計(jì)算方法可能會(huì)減少對(duì)收集實(shí)驗(yàn)數(shù)據(jù)的需求。Enformer目前還沒(méi)有達(dá)到這個(gè)水平,與實(shí)驗(yàn)數(shù)據(jù)的相關(guān)性為0.85,與兩個(gè)實(shí)驗(yàn)重復(fù)相比的誤差約為三倍。然而,隨著更多的數(shù)據(jù)被納入和模型的改進(jìn),這種性能預(yù)計(jì)會(huì)得到改善。值得注意的是,Enformer可以預(yù)測(cè)不同個(gè)體存在的突變以及通過(guò)CRISPR實(shí)驗(yàn)引入的突變引起的基因表達(dá)變化。然而,它仍然存在一些局限性,例如在預(yù)測(cè)遠(yuǎn)離基因起點(diǎn)的遠(yuǎn)程增強(qiáng)子(distal enhancers)的效果時(shí)表現(xiàn)不佳,以及正確確定個(gè)人突變對(duì)基因表達(dá)效果的方向。這些缺點(diǎn)可能是由于訓(xùn)練數(shù)據(jù)不足造成的。隨著數(shù)據(jù)生成加速進(jìn)行,可以合理預(yù)期在可預(yù)見(jiàn)的未來(lái),我們將擁有能夠僅憑序列預(yù)測(cè)基因表達(dá)并具有實(shí)驗(yàn)級(jí)準(zhǔn)確性的LLMs,并且因此能夠準(zhǔn)確全面地描繪參與分子生物學(xué)中的中心法則的復(fù)雜分子機(jī)制的模型。
前景預(yù)測(cè)
解讀將我們的基因組與人體各種細(xì)胞中錯(cuò)綜復(fù)雜的生物分子途徑聯(lián)系起來(lái),并進(jìn)而與環(huán)境相互作用下的生理過(guò)程相結(jié)合的生物分子密碼,并不需要人工通用智能(AGI)。雖然有許多人工智能任務(wù)可能已經(jīng)出現(xiàn)或即將出現(xiàn),但作者認(rèn)為理解分子生物學(xué)并將其與人類(lèi)健康聯(lián)系起來(lái)不是其中之一。LLM已經(jīng)證明在這個(gè)總體目標(biāo)上已經(jīng)足夠。
以下是我們不要求人工智能完成的一些任務(wù)。我們不要求它生成新的內(nèi)容;相反,我們要求它學(xué)習(xí)現(xiàn)有生物系統(tǒng)的復(fù)雜統(tǒng)計(jì)特性。我們不要求它以目標(biāo)導(dǎo)向的方式在復(fù)雜的環(huán)境中導(dǎo)航,也不要求它保持內(nèi)部狀態(tài),制定目標(biāo)和子目標(biāo),或通過(guò)與環(huán)境的交互學(xué)習(xí)。我們不要求它解決數(shù)學(xué)問(wèn)題或開(kāi)展深入的反事實(shí)推理。但是,我們期望它學(xué)習(xí)一步因果關(guān)系:如果發(fā)生某種變異,特定基因就會(huì)發(fā)生功能障礙。如果這個(gè)基因表達(dá)不足,級(jí)聯(lián)中的其他基因就會(huì)增加或減少。通過(guò)簡(jiǎn)單的一步因果關(guān)系學(xué)習(xí),可以通過(guò)在DNA變異、蛋白質(zhì)豐度和表型之間進(jìn)行相關(guān)性三角定位(一種被稱(chēng)為門(mén)迪利安隨機(jī)化的技術(shù))以及越來(lái)越常見(jiàn)的大規(guī)模干擾實(shí)驗(yàn),LLM將能夠有效地模擬細(xì)胞狀態(tài)。這種聯(lián)系從基因組的一端延伸到表型的另一端。
總結(jié)一下,現(xiàn)如今的LLM已經(jīng)足夠先進(jìn),可以對(duì)分子生物學(xué)進(jìn)行建模。進(jìn)一步的方法改進(jìn)始終受到歡迎。然而,關(guān)鍵不再是深度學(xué)習(xí)方法,而是數(shù)據(jù)。幸運(yùn)的是,數(shù)據(jù)變得更便宜、更豐富。DNA測(cè)序技術(shù)的進(jìn)步使得測(cè)序一個(gè)人類(lèi)基因組的成本從最初的30億美元降低到幾年前的約1000美元,現(xiàn)在甚至降低到如今的200美元左右。這種成本降低也適用于所有以DNA測(cè)序作為主要讀數(shù)的分子測(cè)定方法。這包括用于定量基因表達(dá)、染色質(zhì)結(jié)構(gòu)、組蛋白修飾、轉(zhuǎn)錄因子結(jié)合和過(guò)去10-20年中開(kāi)發(fā)的數(shù)百種其他巧妙的測(cè)定方法。單細(xì)胞技術(shù)以及蛋白質(zhì)組學(xué)、代謝組學(xué)、脂質(zhì)組學(xué)和其他組學(xué)測(cè)定方法的進(jìn)一步創(chuàng)新,使得我們可以對(duì)DNA和人類(lèi)生理之間的各種分子層次進(jìn)行越來(lái)越詳細(xì)和高效的測(cè)量。
那么,所有這些如何結(jié)合在一起呢?一個(gè)重要的數(shù)據(jù)倡議是組織大量志愿者參與深入探索他們的組學(xué)數(shù)據(jù)、表型和健康記錄。其中一個(gè)領(lǐng)先的例子是英國(guó)生物庫(kù)計(jì)劃(UK Biobank),這是一個(gè)大規(guī)模的生物庫(kù)、生物醫(yī)學(xué)數(shù)據(jù)庫(kù)和研究資源,包含來(lái)自50萬(wàn)名英國(guó)參與者的全面遺傳和健康信息。參與者的生物樣本已經(jīng)在廣泛同意下進(jìn)行收集,并且不斷產(chǎn)生大量的數(shù)據(jù)。幾乎所有參與者的外顯子組(基因組中編碼蛋白質(zhì)的部分)已經(jīng)公開(kāi)發(fā)布,全基因組數(shù)據(jù)也將隨之發(fā)布。此外,還可獲得各種類(lèi)型的數(shù)據(jù),包括COVID-19抗體數(shù)據(jù)、代謝組學(xué)數(shù)據(jù)、端粒數(shù)據(jù)、影像數(shù)據(jù)、基因型數(shù)據(jù)、臨床測(cè)量數(shù)據(jù)、基層醫(yī)療數(shù)據(jù)、疼痛問(wèn)卷等等。不斷增加其他類(lèi)型的數(shù)據(jù)。UK Biobank的數(shù)據(jù)對(duì)于任何人的研究目的都是可用的。美國(guó)的"All Of Us"計(jì)劃是一個(gè)類(lèi)似的倡議,到目前為止,已經(jīng)對(duì)25萬(wàn)名參與者的基因組進(jìn)行了測(cè)序。FinnGen(芬蘭基因組學(xué))旨在創(chuàng)建一個(gè)類(lèi)似的生物庫(kù),招募50萬(wàn)名芬蘭參與者,這非常有價(jià)值,因?yàn)樵诨蛏细油|(zhì)的群體中進(jìn)行遺傳研究更加容易。deCODE遺傳學(xué)在冰島領(lǐng)導(dǎo)了類(lèi)似的工作,冰島有超過(guò)三分之二的成年人參與了這項(xiàng)工作。還有其他測(cè)序參與者的隊(duì)列存在,包括由雷格納隆制藥公司(一個(gè)私人倡議)測(cè)序的數(shù)百萬(wàn)個(gè)外顯子,以及全球許多國(guó)家的國(guó)家倡議。
尤其是癌癥是基因組的疾病,許多公司正在積累關(guān)于癌癥患者和癌癥樣本的豐富基因組信息和額外的臨床信息。涵蓋這個(gè)領(lǐng)域超出了本文的范圍,但值得提及的是Tempus,這是一家基于人工智能的精準(zhǔn)醫(yī)學(xué)公司,擁有大量臨床和分子數(shù)據(jù)的庫(kù),F(xiàn)oundation Medicine是一家分子信息公司,提供全面的基因組分析檢測(cè),以識(shí)別患者癌癥中的分子改變,并將其與相關(guān)的靶向治療、免疫治療和臨床試驗(yàn)進(jìn)行匹配,GRAIL和Guardant Health是兩家開(kāi)創(chuàng)性的診斷公司,專(zhuān)注于從患者血液樣本中的“液體活檢”或?qū)颊哐簶颖镜幕蚪M內(nèi)容進(jìn)行分析,這些樣本通常含有癌細(xì)胞的分子流失。這些公司都擁有大量且不斷增長(zhǎng)的患者隊(duì)列的數(shù)據(jù)。除了這些隊(duì)列倡議外,還有許多其他大規(guī)模的數(shù)據(jù)倡議。值得注意的是,人類(lèi)細(xì)胞圖譜計(jì)劃已經(jīng)為來(lái)自6,300名捐贈(zèng)者的4,200萬(wàn)個(gè)人類(lèi)細(xì)胞產(chǎn)生了基因表達(dá)數(shù)據(jù)。ENCODE項(xiàng)目是一個(gè)龐大的功能基因組數(shù)據(jù)集,涵蓋了數(shù)百種人類(lèi)細(xì)胞系和各種分子數(shù)量的數(shù)據(jù),包括基因表達(dá)、染色質(zhì)可及性、轉(zhuǎn)錄因子結(jié)合、組蛋白修飾、DNA甲基化等等。
LLMs非常適合整合這些數(shù)據(jù)。展望未來(lái),我們可以設(shè)想一個(gè)巨大的LLM,整合所有這些數(shù)據(jù)集。那么,這樣一個(gè)模型的架構(gòu)和訓(xùn)練會(huì)是什么樣子呢?讓我們進(jìn)行一次思想實(shí)驗(yàn),試著拼湊出來(lái):
對(duì)基因進(jìn)行標(biāo)記,包括與產(chǎn)生蛋白質(zhì)的不同異構(gòu)體等重要變體。
對(duì)不同類(lèi)型的細(xì)胞和組織進(jìn)行標(biāo)記。
對(duì)人類(lèi)表型進(jìn)行標(biāo)記,例如疾病狀態(tài)、臨床指標(biāo)和用藥方案的遵循程度。
DNA序列以固定長(zhǎng)度的核苷酸水平進(jìn)行標(biāo)記。
基因組中的位置信息將基因與核苷酸內(nèi)容相連接。
蛋白質(zhì)序列使用氨基酸字母表進(jìn)行標(biāo)記。
來(lái)自Human Cell Atlas和其他單細(xì)胞數(shù)據(jù)集的數(shù)據(jù)以類(lèi)似GPT的自回歸方式或類(lèi)似BERT的掩碼語(yǔ)言建模方式訓(xùn)練LLM,突出細(xì)胞類(lèi)型特定和細(xì)胞狀態(tài)特定的基因通路。
ENCODE和類(lèi)似的數(shù)據(jù)使LLM能夠以細(xì)胞類(lèi)型特定的方式關(guān)聯(lián)不同的分子信息層,如原始DNA序列及其變異、基因表達(dá)、甲基化、組蛋白修飾、染色質(zhì)可及性等。每個(gè)層都是一個(gè)獨(dú)特的“語(yǔ)言”,具有不同的豐富度和詞匯,提供獨(dú)特的信息。LLM學(xué)會(huì)在這些語(yǔ)言之間進(jìn)行翻譯。
PrimateAI-3D的靈長(zhǎng)類(lèi)基因組計(jì)劃和其他物種測(cè)序工作指導(dǎo)LLM了解基因組中突變的潛在良性或有害效應(yīng)。
包括蛋白質(zhì)變體在內(nèi)的整個(gè)蛋白質(zhì)組富含蛋白質(zhì)的三維結(jié)構(gòu)信息,這些信息可以通過(guò)實(shí)驗(yàn)獲得或由AlphaFold、RoseTTAfold等結(jié)構(gòu)預(yù)測(cè)方法預(yù)測(cè)。
來(lái)自UK Biobank和其他隊(duì)列的數(shù)據(jù)允許LLM將基因組變異信息和其他分子數(shù)據(jù)與人類(lèi)健康信息關(guān)聯(lián)起來(lái)。
LLM利用參與者的完整臨床記錄來(lái)了解常見(jiàn)的醫(yī)療實(shí)踐及其效果,并將其與所有數(shù)據(jù)集中的其他“語(yǔ)言”相連接。
LLM利用基礎(chǔ)生物學(xué)、遺傳學(xué)、分子科學(xué)和臨床實(shí)踐的廣大現(xiàn)有文獻(xiàn),包括所有已知的基因和表型相關(guān)性。
開(kāi)發(fā)這樣一個(gè)LLM面臨著重大挑戰(zhàn),與GPT系列LLM的挑戰(zhàn)不同。它需要技術(shù)創(chuàng)新來(lái)表示和整合各種信息層,并擴(kuò)大模型處理的標(biāo)記數(shù)量。這樣的LLM有著廣泛的潛在應(yīng)用。以下列舉其中幾個(gè):
臨床診斷。它可以利用所有可用的患者信息,包括其基因組、其他測(cè)量結(jié)果、完整的臨床歷史和家庭健康信息,幫助醫(yī)生進(jìn)行精確診斷,甚至是對(duì)于罕見(jiàn)疾病和癌癥的亞型。在診斷罕見(jiàn)疾病和亞型癌癥方面可能特別有用。
藥物研發(fā)。LLM可以幫助識(shí)別適用于不同臨床指標(biāo)的有前景的基因和通路靶點(diǎn),以及對(duì)某些藥物有可能有反應(yīng)的個(gè)體和不太可能獲益的個(gè)體,從而提高臨床試驗(yàn)的成功率。它還可以協(xié)助藥物分子的開(kāi)發(fā)和藥物再利用。
基礎(chǔ)分子生物學(xué)。分子信息的每個(gè)層次都將與其他層次以類(lèi)似于語(yǔ)言翻譯的方式相連接,并對(duì)具有重要預(yù)測(cè)能力的特征進(jìn)行研究。盡管深度學(xué)習(xí)模型的解釋是一個(gè)挑戰(zhàn),但研究界在努力使人工智能可解釋性方面取得了令人矚目的進(jìn)展。在OpenAI最新的研究中,GPT-4剛剛被用來(lái)解釋GPT-2的每個(gè)神經(jīng)元的行為。
提供額外實(shí)驗(yàn)建議??梢岳媚P蛠?lái)識(shí)別訓(xùn)練數(shù)據(jù)中的“空白”,例如細(xì)胞類(lèi)型、分子層次,甚至是特定遺傳背景或疾病指標(biāo)的個(gè)體,這些數(shù)據(jù)從其他數(shù)據(jù)中的預(yù)測(cè)置信水平較低。
這些僅僅是潛在應(yīng)用中的一部分,未來(lái)的LLM有著廣泛的可能性,將在分子生物學(xué)和醫(yī)學(xué)領(lǐng)域發(fā)揮重要作用。
在開(kāi)發(fā)這些技術(shù)時(shí),考慮潛在風(fēng)險(xiǎn)是至關(guān)重要的,包括與患者隱私和臨床實(shí)踐相關(guān)的風(fēng)險(xiǎn)?;颊唠[私仍然是一個(gè)重要關(guān)注點(diǎn)。對(duì)于LLMs而言尤其如此,因?yàn)楦鶕?jù)模型的能力,在原則上,通過(guò)包含部分?jǐn)?shù)據(jù)或其他針對(duì)特定患者的信息的提示,可以檢索用于訓(xùn)練模型的參與者的數(shù)據(jù)。因此,在使用參與者數(shù)據(jù)訓(xùn)練LLMs時(shí),確保獲得適當(dāng)?shù)闹橥庖约皩?duì)這些模型的使用和訪(fǎng)問(wèn)的合適管控顯得尤為重要。
然而,許多個(gè)人,比如參與英國(guó)生物庫(kù)(UK Biobank)隊(duì)列的人們,積極愿意慷慨地分享他們的數(shù)據(jù)和生物樣本,為研究和社會(huì)做出巨大貢獻(xiàn)。至于臨床實(shí)踐,目前尚不清楚LLMs是否可以獨(dú)立用于診斷和治療建議。這些模型的主要目的不是取代,而是輔助醫(yī)療專(zhuān)業(yè)人員,為醫(yī)生提供強(qiáng)大的工具,用于驗(yàn)證和審計(jì)醫(yī)療信息。引用Isaac Kohane的話(huà),"信任,但要驗(yàn)證"。
那么,完全實(shí)施一個(gè)連接遺傳學(xué)、分子生物學(xué)和人類(lèi)健康的LLM存在哪些障礙呢?主要的障礙是數(shù)據(jù)的可用性。功能基因組數(shù)據(jù)的產(chǎn)生,例如來(lái)自ENCODE和Human Cell Atlas的數(shù)據(jù),需要加快進(jìn)度。幸運(yùn)的是,生成這類(lèi)數(shù)據(jù)的成本正在迅速降低。同時(shí),需要生成和公開(kāi)可訪(fǎng)問(wèn)的多組學(xué)隊(duì)列和臨床數(shù)據(jù)。這個(gè)過(guò)程需要參與者的同意,同時(shí)考慮到合理的隱私關(guān)注。然而,在不可剝奪的隱私權(quán)利之外,參與者數(shù)據(jù)透明度也同樣重要:許多人希望通過(guò)共享他們的數(shù)據(jù)來(lái)做出貢獻(xiàn)。對(duì)于罕見(jiàn)遺傳疾病和癌癥患者尤其如此,他們希望通過(guò)參與疾病研究和治療方法的開(kāi)發(fā)來(lái)幫助其他患者。英國(guó)生物庫(kù)的成功證明了參與者在數(shù)據(jù)共享方面的慷慨,旨在對(duì)人類(lèi)健康產(chǎn)生積極影響。
參考資料
原文鏈接:
https://towardsdatascience.com/large-language-models-in-molecular-biology-9eb6b65d8a30
聯(lián)系客服