4月19日,以“大模型時代AI生物醫(yī)藥的創(chuàng)新融合”為主題的第三期AIR學(xué)術(shù)工作坊在清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)圖靈報告廳成功舉辦。會上AIR首席研究員聶再清教授介紹了團隊在生物醫(yī)藥領(lǐng)域大模型方向上的最新進展,并開源了輕量級科研版基礎(chǔ)模型BioMedGPT-1.6B。
同時,活動還邀請了清華大學(xué)惠妍講席教授、AIR首席科學(xué)家馬維英,清華大學(xué)國強教授、AIR首席研究員聶再清,華深智藥創(chuàng)始人、AIR高級訪問教授彭健,醫(yī)渡云首席技術(shù)官閆峻,北京智源人工智能研究院健康計算中心負(fù)責(zé)人葉啟威五位學(xué)界及產(chǎn)業(yè)界嘉賓共同探討大模型時代AI在生物醫(yī)藥領(lǐng)域的創(chuàng)新融合機遇。本次活動由AIR蘭艷艷教授主持。
與會嘉賓合影
會議首先由中國工程院院士、清華大學(xué)講席教授、AIR院長張亞勤院士致開場辭,他表示:將大模型范式應(yīng)用于生命科學(xué)是理性又大膽的探索。
AIR的研究團隊以構(gòu)建生物醫(yī)藥領(lǐng)域大模型為目標(biāo),相繼研發(fā)了多個生物醫(yī)藥專業(yè)領(lǐng)域的AI模型,在蛋白質(zhì)結(jié)構(gòu)預(yù)測、抗體設(shè)計等領(lǐng)域并取得不錯的成果。此次開源的輕量級科研版基礎(chǔ)模型BioMedGPT-1.6B是在生命科學(xué)領(lǐng)域的重要進展。
未來,研究團隊將繼續(xù)用BioMedGPT進一步整合領(lǐng)域內(nèi)多源異構(gòu)的數(shù)據(jù),將知識融入模型構(gòu)建之中,實現(xiàn)生物世界文本和知識的統(tǒng)一表示學(xué)習(xí),帶來生物醫(yī)藥領(lǐng)域的“智能涌現(xiàn)”。
開源BioMedGPT-1.6B輕量級科研版基礎(chǔ)模型
接下來,聶再清教授著重介紹了團隊在研的生物醫(yī)藥領(lǐng)域大模型BioMedGPT的最新進展,并開源了輕量級科研版基礎(chǔ)模型BioMedGPT-1.6B。
聶再清教授講座
著眼于生命科學(xué)領(lǐng)域,編碼生命的分子語言與自然語言具有類似的特征。例如,原子的特定組合方式形成了不同類型的官能團,進而決定分子的特定功能和化學(xué)性質(zhì);基因的差異表達(dá)在細(xì)胞水平上會導(dǎo)致形態(tài)、結(jié)構(gòu)和功能的差異,進而影響生物體生理結(jié)構(gòu)和功能。
順應(yīng)自然法則,基因也會不斷變異產(chǎn)生新的序列,同時淘汰舊的序列。長期以來,生物學(xué)家在一次又一次濕實驗中總結(jié)規(guī)律并通過文獻(xiàn)記錄。
聶教授團隊構(gòu)建BioMedGPT的目標(biāo)就是要把分子語言中蘊含的知識以及長期以來通過濕實驗總結(jié)的文本和知識圖譜信息融合壓縮到一個大規(guī)模語言模型中,從而實現(xiàn)從序列模式中學(xué)習(xí)生物結(jié)構(gòu)和功能規(guī)律,通過AI解碼生命語言。
通過濕實驗積累的很多有價值的知識和數(shù)據(jù),很多都可以公開獲取使用,如蛋白質(zhì)序列目前已有超過22億條數(shù)據(jù),可購買的具備成藥性的小分子有 2.3億等。這些海量公開分子序列數(shù)據(jù)其實完全可以用語言模型來學(xué)習(xí)其語義表征,用于藥物研發(fā)任務(wù)。
同時,現(xiàn)存也有許多生物學(xué)家們幾百年來積累的海量文獻(xiàn)和知識圖譜數(shù)據(jù),無論知識圖譜還是文獻(xiàn)都可以單獨訓(xùn)練出一個大的知識表征模型,而且這些不同模態(tài)的數(shù)據(jù)里的分子信息是相互關(guān)聯(lián)的,如果能把它們統(tǒng)一壓縮在一個大模型里,將惠及未來所有的生物醫(yī)藥下游任務(wù)。
基于上述設(shè)想,聶教授團隊進行了一系列實驗驗證,通過嘗試融合分子結(jié)構(gòu)、知識圖譜和文本,所構(gòu)建的多模態(tài)數(shù)據(jù)統(tǒng)一表示在多項AIDD任務(wù),如藥物性質(zhì)預(yù)測、藥物-靶點相互作用等均取得了SOTA的結(jié)果,佐證了融合多模態(tài)生物醫(yī)藥數(shù)據(jù)的價值和意義。
構(gòu)建生物醫(yī)藥領(lǐng)域基礎(chǔ)模型BioMedGPT
通過調(diào)研,團隊發(fā)現(xiàn)當(dāng)前還沒有能夠支持多模態(tài)、多任務(wù)的生物醫(yī)藥基礎(chǔ)模型。聶再清教授帶領(lǐng)團隊著手構(gòu)建了多模態(tài)生物醫(yī)藥領(lǐng)域基礎(chǔ)模型-BioMedGPT,旨在將生物世界分子、文本與知識進行統(tǒng)一表示學(xué)習(xí)以達(dá)到在各項下游任務(wù)上能力的整體提升。
BioMedGPT在數(shù)據(jù)層面整合了基因、分子、細(xì)胞、蛋白、文獻(xiàn)、專利、知識庫等多源異構(gòu)的數(shù)據(jù),首次將知識引入到模型構(gòu)建中,實現(xiàn)了生物世界文本和知識的統(tǒng)一表示學(xué)習(xí),增強了模型的泛化能力和可解釋性。在應(yīng)用任務(wù)方面, BioMedGPT能夠處理自然語言、藥物性質(zhì)預(yù)測、跨模態(tài)生成等多個任務(wù),實現(xiàn)對生命科學(xué)全域任務(wù)的探索,已經(jīng)在多個關(guān)鍵下游任務(wù)中取得了 SOTA 的效果。
此次活動開源的輕量科研版本 BioMedGPT-1.6B包含一個16億參數(shù)、5000萬參數(shù)的單細(xì)胞預(yù)訓(xùn)練模型CellLM-50M,以及團隊打造的生物醫(yī)藥知識圖譜、專業(yè)數(shù)據(jù)集等。
開源地址:https://github.com/BioFM/OpenBioMed
BioMedGPT-1.6B在多項下游任務(wù)中取得了SOTA。以分子-文本互檢索跨模態(tài)任務(wù)為例,BioMedGPT-1.6B在兩個任務(wù)的zero-shot和finetune結(jié)果上均取得SOTA。
單細(xì)胞預(yù)訓(xùn)練模型CellLM-50M則提供了結(jié)合了細(xì)胞層面數(shù)據(jù)的語義表征,目前在細(xì)胞類型注釋任務(wù)上取得了比較理想的結(jié)果,未來將成為BioMedGPT中細(xì)胞編碼的重要組成。
打造BioMedGPT雙循環(huán)能力
團隊接下來將著力打造BioMedGPT的雙循環(huán)能力:
干濕閉環(huán):雙通道干濕閉環(huán)計算接口,結(jié)合高通量實驗,突破AI模型嚴(yán)重受限于藥物靶點活性數(shù)據(jù)少的挑戰(zhàn),充分利用好每一個濕實驗的標(biāo)簽。
專家在環(huán):專家可控交互式藥物生成,給定藥物靶點等信息,藥化專家通過自然語言、參數(shù)設(shè)置等多種符合藥化專家使用習(xí)慣的方式與AI進行多輪交互,通過迭代生成具有所需性質(zhì)的藥物候選。
通過打造的干濕閉環(huán)和專家在環(huán)的雙閉環(huán)體系,使得BioMedGPT能夠從真實世界學(xué)習(xí)、向人類專家學(xué)習(xí)有望成為生物醫(yī)藥研發(fā)基礎(chǔ)大模型,支撐諸如高通量虛擬篩選、分子生成與優(yōu)化、個性化藥物重定位、生物醫(yī)藥知識檢索等多項應(yīng)用。
在“大模型時代AI生物醫(yī)藥的創(chuàng)新融合”圓桌論壇上,各位嘉賓就 “以GPT為代表的基礎(chǔ)模型如何更好的賦能生命科學(xué)、生物醫(yī)藥領(lǐng)域?”、“生物醫(yī)藥領(lǐng)域基礎(chǔ)模型的構(gòu)建面臨哪些機遇與挑戰(zhàn)?”,以及“生物醫(yī)藥基礎(chǔ)模型的ChatGPT Moment 會以何種形式出現(xiàn)?“ 等諸多問題展開了深入探討。
清華大學(xué)惠妍講席教授、智能產(chǎn)業(yè)研究院(AIR)首席科學(xué)家馬維英教授表示,生成式AI將顛覆甚至重新定義新科學(xué)領(lǐng)域,如果將其應(yīng)用到生物醫(yī)藥領(lǐng)域?qū)⒕哂猩钸h(yuǎn)的意義。作為科學(xué)家,我們要擁抱新的工具,擁抱新的觀念和最新的方法論。同時也要看到,這對我們做AI的人來說是非常大的機會。將來如果能用AI技術(shù),加快藥物研發(fā)的周期,并針對個體的基因序列和新抗原設(shè)計出對應(yīng)的藥物精準(zhǔn)治療,實現(xiàn)個性化的免疫療法,整個生物制藥會更加精準(zhǔn)、更安全、更經(jīng)濟、更普惠。
清華大學(xué)國強教授、智能產(chǎn)業(yè)研究院(AIR)聶再清表示:“ChatGPT可能是第四次工業(yè)革命的起點,基于大數(shù)據(jù)的驅(qū)動的人工智能的能夠賦能各個領(lǐng)域的科研工作。我們期望BioMedGPT是可以O(shè)ne For All,以數(shù)據(jù)和知識驅(qū)動生物醫(yī)藥領(lǐng)域內(nèi)的科研發(fā)展,從而更好的幫助藥物研發(fā)人員?!?/span>
華深智藥創(chuàng)始人、AIR高級訪問教授彭健認(rèn)為,未來將不再有傳統(tǒng)生物學(xué)與計算生物學(xué)的區(qū)別,假設(shè)驅(qū)動的科研將被進入數(shù)據(jù)驅(qū)動的新科研范式。我們曾致力于為每個任務(wù)設(shè)計一個模型,然而ChatGPT的出現(xiàn)改變了這一認(rèn)知,通用的模型讓原本看似無法突破的任務(wù)變得可行。超越SOTA不應(yīng)是唯一追求,幫助科研界理解模型能力的上限和邊界也非常重要。這種認(rèn)識不僅對生物醫(yī)藥領(lǐng)域有巨大影響,還將對許多其他領(lǐng)域帶來重要的提升。
醫(yī)渡云首席技術(shù)官閆峻博士表示:“綠色醫(yī)療Green Health(即Safer,Better, more Accessible的醫(yī)療)是我們乃至當(dāng)前整個社會的使命,大模型有望能夠通過技術(shù)讓醫(yī)療服務(wù)、醫(yī)藥研發(fā)的每個環(huán)節(jié)降本增效,最終反饋到每個人身上就能讓更多的人得到治療的機會,用更低的成本把病治好,解決整個醫(yī)療產(chǎn)業(yè)里邊供應(yīng)端和供應(yīng)鏈的問題。以前醫(yī)療產(chǎn)業(yè)每一個鏈條進行的都是單點的局部優(yōu)化,但是大模型時代我們有望得到全局最優(yōu)。及時擁抱新的技術(shù)潮流,可能代表的是這個行業(yè)的未來?!?/span>
北京智源人工智能研究院健康計算中心負(fù)責(zé)人葉啟威認(rèn)為AI是一種幫助人類前進的工具,大模型就是在此基礎(chǔ)上用一套更好的方式集成大家的共識,幫助科研工作者發(fā)現(xiàn)一些以前沒有被發(fā)現(xiàn)的事情,這是我所理解的大模型的哲學(xué)。我們真的希望某種意義上來說,大家能夠把精力、財力、學(xué)識都投入到這些真正能夠?qū)τ谖磥?10 年、20 年乃至 100 年之后對人類更加有意義的事情上。
最后,AIR蘭艷艷教授對本次活動進行總結(jié)發(fā)言,她表示以 GPT 為代表的這樣的大模型與生物醫(yī)藥領(lǐng)域深度交叉創(chuàng)新,有巨大的想象空間,同時也很高興看到大家對 AI 跟生命科學(xué)交叉研究的關(guān)注,相信通過學(xué)術(shù)界和產(chǎn)業(yè)界更好地合作,可以共同推動AI在生物醫(yī)藥領(lǐng)域產(chǎn)生真正價值。
點擊觀看活動完整視頻
關(guān)于AIR
聯(lián)系客服