作者:羅賓
出品:明亮公司
ChatGPT尤其是GPT-4的問(wèn)世是生成式人工智能應(yīng)用的突破,而生成式AI驅(qū)動(dòng)藥物研發(fā)也有很長(zhǎng)的實(shí)踐。英矽智能(Insilico Medicine)是全球率先將生成式AI應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域的公司,已經(jīng)成功賦能多款抗腫瘤候選藥物的發(fā)現(xiàn)和設(shè)計(jì),部分最新成果在4月14日-19日舉辦的美國(guó)癌癥研究協(xié)會(huì)年會(huì)(AACR)上發(fā)布。
前不久,英矽智能宣布通過(guò)多模態(tài)生成式強(qiáng)化學(xué)習(xí)平臺(tái)Chemistry42基于結(jié)構(gòu)生成化學(xué)分子的藥物設(shè)計(jì)方法,成功發(fā)現(xiàn)了一款有效的、具有選擇性的、口服CDK8抑制劑,有潛力用于癌癥的治療。
近日,「明亮公司」對(duì)話(huà)了英矽智能創(chuàng)始人兼CEO Alex Zhavoronkov博士,討論了ChatGPT能否為生物制藥行業(yè)帶來(lái)變革,以及生成式AI在新藥研發(fā)中的成果及前景。
Alex Zhavoronkov(來(lái)源:受訪人提供)
2016年英矽智能發(fā)表了第一篇將生成式人工智能應(yīng)用于藥物化學(xué)領(lǐng)域的研究論文,此后,在早期論文的基礎(chǔ)上,英矽智能構(gòu)建了人工智能藥物研發(fā)平臺(tái)Pharma.AI,其下的3款引擎都在一定程度上使用了生成式AI。英矽智能的算法核心也從生成對(duì)抗網(wǎng)絡(luò)(GANs)起步,后又加入了強(qiáng)化學(xué)習(xí)、Transformers機(jī)制和預(yù)訓(xùn)練模型等現(xiàn)代機(jī)器學(xué)習(xí)算法。
Alex表示,谷歌是Transformer領(lǐng)域真正的先驅(qū)者,2017年在神經(jīng)信息處理系統(tǒng)會(huì)議(NIPS,后改名NeurIPS)上,谷歌團(tuán)隊(duì)發(fā)表了論文“Attention is all you need”提出了Transformer的概念。
到2023年1月,這篇論文被引用超過(guò)6.2萬(wàn)次,成為人工智能領(lǐng)域被引用次數(shù)最多的論文之一。另外,像GPT-4這樣的多模態(tài)Transformer也不是新事物。它們最初由DeepMind開(kāi)創(chuàng),第一批論文大約在9個(gè)月前發(fā)表。最近,谷歌也發(fā)布了名為PALM-E的高度多模態(tài)轉(zhuǎn)化器,它比GPT-4更小,但包含了更多的數(shù)據(jù)模態(tài)。
更有效利用數(shù)據(jù)和算法
英矽智能的Chemistry42平臺(tái)建立在多年對(duì)大型生物、化學(xué)和文本數(shù)據(jù)集建模和訓(xùn)練的基礎(chǔ)上,包括42個(gè)生成式AI模型和超過(guò)500個(gè)用于評(píng)分的預(yù)測(cè)模型,幫助研究人員通過(guò)基于結(jié)構(gòu)的藥物設(shè)計(jì)(SBDD)和基于配體的藥物設(shè)計(jì)(LBDD)思路,利用尖端深度學(xué)習(xí)技術(shù)從頭開(kāi)始生成具有所需特性的分子。
Alex介紹,這42種生成式AI模型包含了GANs、大語(yǔ)言模型等多種可生成虛擬分子結(jié)構(gòu)的算法;而評(píng)分預(yù)測(cè)模型可以判斷每種模型所生成的候選分子是否達(dá)到所需特性,包括分子能否合成、分子結(jié)構(gòu)是否穩(wěn)定、有沒(méi)有靶點(diǎn)選擇性等。他表示:“我們還有過(guò)濾模型對(duì)未達(dá)標(biāo)的分子結(jié)構(gòu)對(duì)應(yīng)的生成算法進(jìn)行懲罰,反之則進(jìn)行獎(jiǎng)勵(lì),以過(guò)濾掉不準(zhǔn)確的分子。這與ChatGPT的強(qiáng)化學(xué)習(xí)(RLHF)模型是一樣的道理,ChatGPT使用了預(yù)訓(xùn)練數(shù)據(jù)集,而我們訓(xùn)練時(shí)使用的是實(shí)時(shí)數(shù)據(jù)?!?/span>
英矽智能已將基于大型語(yǔ)言模型最新進(jìn)展的高級(jí)AI聊天工具ChatGPT集成到它的 PandaOmics平臺(tái)中,PandaOmics是擁有21種算法的靶點(diǎn)識(shí)別平臺(tái)。新功能「ChatPandaGPT」使研究人員能夠與平臺(tái)進(jìn)行自然語(yǔ)言對(duì)話(huà),并有效地導(dǎo)航和分析大型數(shù)據(jù)集,以更有效的方式促進(jìn)潛在治療靶點(diǎn)和生物標(biāo)志物的發(fā)現(xiàn)。
新藥研發(fā)需專(zhuān)業(yè)數(shù)據(jù)和反饋,ChatGPT準(zhǔn)確度受限
雖然Chat-4在消費(fèi)者場(chǎng)景中已經(jīng)是現(xiàn)象級(jí)產(chǎn)品,但Alex表示,以ChatGPT系列為代表的這些生成式AI模型對(duì)制藥業(yè)來(lái)說(shuō)并不成熟,既不能用于靶點(diǎn)發(fā)現(xiàn),也不能用于分子生成,更不能用于臨床試驗(yàn)預(yù)測(cè)。如果要真正做到為新藥研發(fā)提供幫助,這些模型需要在專(zhuān)門(mén)的生物和化學(xué)數(shù)據(jù)上進(jìn)行訓(xùn)練,然后由專(zhuān)業(yè)的科學(xué)家對(duì)他們的訓(xùn)練結(jié)果提供反饋,而不僅僅是由OpenAI通過(guò)對(duì)公眾開(kāi)放收集反饋這樣易于達(dá)成。
ChatGPT之所以更適用于消費(fèi)者場(chǎng)景,是因?yàn)樗鼤?huì)優(yōu)先考慮用戶(hù)體驗(yàn),比如在幾秒鐘內(nèi)就能響應(yīng)。但藥物研發(fā)領(lǐng)域的產(chǎn)品優(yōu)先考慮的是準(zhǔn)確性而不是用戶(hù)體驗(yàn)。Alex表示,AI藥物研發(fā)平臺(tái)分析處理生物數(shù)據(jù)并獲得潛在靶點(diǎn)可能需要幾分鐘,針對(duì)特定蛋白生成新穎分子的時(shí)間可能是幾小時(shí)到數(shù)十個(gè)小時(shí)。
其次,ChatGPT也非常善于處理自然語(yǔ)言。拼寫(xiě)、語(yǔ)法、甚至風(fēng)格都接近完美,而且它非常友好地避免了攻擊性或爭(zhēng)議性的話(huà)題,這應(yīng)該是OpenAI通過(guò)雇傭大量的AI訓(xùn)練師和慕名而來(lái)的大量“野生”AI訓(xùn)練師共同訓(xùn)練而實(shí)現(xiàn)的。這個(gè)過(guò)程可以簡(jiǎn)單的理解為從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)(RLHF),這也是OpenAI是如何使這個(gè)系統(tǒng)對(duì)人類(lèi)如此友好的秘訣所在。
Alex認(rèn)為:“當(dāng)涉及到醫(yī)療健康領(lǐng)域時(shí),考慮到對(duì)準(zhǔn)確率和對(duì)專(zhuān)業(yè)知識(shí)的需求,無(wú)論是消費(fèi)領(lǐng)域還是專(zhuān)業(yè)領(lǐng)域,我將完全避免在這些領(lǐng)域使用它。而且目前,即使ChatGPT提供的參考資料通常也是錯(cuò)誤的。這或許是因?yàn)榫S基百科在ChatGPT訓(xùn)練中發(fā)揮了非常大的作用。維基百科有大量的人為偏見(jiàn)。即使涉及到科學(xué),維基百科也常存在偏見(jiàn),并不總是包含所有的關(guān)鍵論文參考文獻(xiàn)?!?/span>
他表示,我們也不應(yīng)該信任ChatGPT所參與填寫(xiě)的一些報(bào)告。雖然在美國(guó),一些醫(yī)生已經(jīng)用ChatGPT處理保險(xiǎn)索賠等信息。這些不準(zhǔn)確的信息不應(yīng)在未來(lái)被用于訓(xùn)練專(zhuān)門(mén)的系統(tǒng),“說(shuō)到這里,我更期待在生物醫(yī)學(xué)和醫(yī)療健康領(lǐng)域出現(xiàn)類(lèi)似ChatGPT的專(zhuān)門(mén)系統(tǒng)。這將需要從Nature、Elsevier等主要出版集團(tuán)獲取生物醫(yī)學(xué)文獻(xiàn)的全文。另外,ChatGPT也給了我另一層啟發(fā),英矽智能在過(guò)去10年里設(shè)法建立的大規(guī)模專(zhuān)業(yè)數(shù)據(jù)庫(kù)也比我想象的要有價(jià)值得多。當(dāng)然我們也使用了專(zhuān)家級(jí)的數(shù)據(jù)清洗團(tuán)隊(duì)和AI訓(xùn)練師來(lái)訓(xùn)練,使我們的平臺(tái)和算法組合更精確。同時(shí),我們的平臺(tái)還經(jīng)過(guò)了專(zhuān)家使用者的驗(yàn)證和反饋。”
全球化AI制藥企業(yè)的真正優(yōu)勢(shì)
Alex還表示:“在基于外部數(shù)據(jù)訓(xùn)練時(shí),我們需要的并不是合作方的數(shù)據(jù),而是數(shù)據(jù)訓(xùn)練后的反饋。根據(jù)反饋結(jié)果的篩選,一些實(shí)驗(yàn)就沒(méi)必要做了,節(jié)省了大量的研發(fā)支出?!?/span>
他進(jìn)一步指出:“這一點(diǎn)也使全球化布局的AI制藥企業(yè)有更多競(jìng)爭(zhēng)優(yōu)勢(shì)。相對(duì)而言,海外的公司或跨國(guó)藥企對(duì)于AI制藥的認(rèn)可度和信任度更高,這使得海外或全球化的AI制藥公司更易達(dá)成合作。另外,考慮到不確定的國(guó)際關(guān)系,全球客戶(hù)與中國(guó)的AI制藥/AI+CRO公司合作時(shí)可能有所擔(dān)憂(yōu)。雖然他們可以在國(guó)內(nèi)進(jìn)行訓(xùn)練,但他們?cè)讷@得藥物研發(fā)專(zhuān)家驗(yàn)證和反饋方面可能會(huì)受到影響。”他表示:“英矽是一家全球化的企業(yè),我們的合作伙伴能放心地使用我們的軟件平臺(tái),他們能夠規(guī)避風(fēng)險(xiǎn),而我們也不會(huì)獲取他們的數(shù)據(jù)?!?/span>
Alex總結(jié),現(xiàn)在面臨的真正問(wèn)題是,我們可能知道所有人類(lèi)生物學(xué)、化學(xué)和物理學(xué)的0.1%,而對(duì)于如何改變它我們更是一無(wú)所知,即使有生成式AI的重大進(jìn)展,也不可能從0.1%產(chǎn)生100%的知識(shí)。
生成式AI可能在某種程度上幫助我們發(fā)現(xiàn)靶點(diǎn)、生成分子,甚至從無(wú)到有產(chǎn)生一些新穎的想法,但在很長(zhǎng)一段時(shí)間內(nèi),它不會(huì)取代實(shí)驗(yàn),“這就是為什么,我們?cè)谔K州的BioBAY建立了世界上最大的全自動(dòng)化生物目標(biāo)發(fā)現(xiàn)實(shí)驗(yàn)室之一。這些實(shí)驗(yàn)室是專(zhuān)門(mén)為使用生成式AI而設(shè)計(jì)的,也將為生成式AI提供了生物數(shù)據(jù)?!?/span>
2022年底,英矽智能第六代AI控制的全自動(dòng)化機(jī)器人實(shí)驗(yàn)室已在蘇州啟動(dòng)。在實(shí)驗(yàn)室中,經(jīng)過(guò)英矽訓(xùn)練和驗(yàn)證的AI大腦可高效提出靶點(diǎn)假設(shè)、設(shè)計(jì)自動(dòng)化實(shí)驗(yàn)和工作流程,并基于實(shí)驗(yàn)結(jié)果反饋理想靶點(diǎn)。
另外,英矽智能已經(jīng)建立了基于生物學(xué)(基因組學(xué))數(shù)據(jù)的多模態(tài)Transformer,日后還將以論文發(fā)表新的研究結(jié)果。
聯(lián)系客服