Jordi Burés ,Igor Larrosa等研究者展示了一個深度神經(jīng)網(wǎng)絡模型,通過訓練該模型來分析普通動力學數(shù)據(jù)并自動闡明相應的機理類型,而無需任何額外的用戶輸入。該模型以出色的精度識別了各種類型的機理,例如非穩(wěn)態(tài)機理,涉及催化劑活化和失活步驟的機理,即使動力學數(shù)據(jù)包含大量誤差或只有幾個時間點,其性能也非常出色。
背景
如何設計新的催化劑、反應模式以及開發(fā)更環(huán)保、更可持續(xù)的化學工藝?對催化有機反應的機理理解是至關(guān)重要的一環(huán)。動力學分析是機理闡明的核心,它有助于從實驗數(shù)據(jù)中直接測試機理假設。傳統(tǒng)上,動力學分析依賴于使用初始速率、對數(shù)圖以及最近的視覺動力學方法,結(jié)合數(shù)學速率定律推導。然而,速率定律的推導及其解釋需要大量的數(shù)學近似,因此,它們?nèi)菀壮霈F(xiàn)人為錯誤,并且僅限于在穩(wěn)態(tài)下只有幾個步驟操作的反應網(wǎng)絡。對此,本文介紹一種新模型分析動力學數(shù)據(jù)。
傳統(tǒng)方式闡明反應機理的缺陷
確定將底物轉(zhuǎn)化為產(chǎn)品所涉及的基本步驟的確切順序?qū)τ诤侠砀倪M合成方法,設計新型催化劑并安全擴大工業(yè)流程非常重要(如圖1a-d)。為了闡明反應機理,收集了幾個動力學剖面,專家必須對數(shù)據(jù)進行動力學分析。盡管反應監(jiān)測技術(shù)已顯著改進在過去的幾十年里,動態(tài)數(shù)據(jù)收集可以完全自動化,基本的理論框架機理的闡明并沒有以同樣的速度前進。
目前的動力學分析管道包括三個主要步驟(圖1e,頂部路徑):從實驗數(shù)據(jù)中提取動力學特性,預測所有合理機理的動力學特性,并將實驗提取的特性與預測的特性進行比較。
提取動力學性質(zhì)最常用的方法——初始速率對數(shù)-對數(shù)圖存在許多缺陷?,F(xiàn)代動力學分析,如反應過程動力學分析和變時間歸一化分析忽略了隱含在動力學剖面中的動力學信息。動力學性質(zhì)的預測所要求化學家掌握的穩(wěn)態(tài)速率定律無法預測常見的遠離穩(wěn)態(tài)的體系,如催化劑緩慢活化或催化劑不可逆失活的反應。此外,中等復雜的反應網(wǎng)絡也可能導致難以解釋的難以管理的速率定律方程。已被用來擬合動力學數(shù)據(jù)的動力學建模難以區(qū)分有相似擬合優(yōu)度。
圖1:動力學分析的相關(guān)性和技術(shù)現(xiàn)狀
AI 改變動力學分析領(lǐng)域
研究者證明了在模擬動力學數(shù)據(jù)上訓練的深度學習模型可以從時間濃度分布中正確地闡明各種類型的機理(圖1e,底部路徑)。機器學習模型消除了速率定律推導、動力學性質(zhì)提取和預測的需要,從而簡化了動力學分析,極大地促進了所有合成實驗室對反應機理的闡明。
由于對所有可用的動力學數(shù)據(jù)進行了整體分析,該方法增加了詢問反應概況的能力,從動力學分析過程中消除了潛在的人為錯誤,并擴大了可以分析的動力學范圍,包括非穩(wěn)態(tài)(包括激活和失活過程)和可逆反應。研究者設想這種方法將是現(xiàn)有動力學分析方法的補充,在最具挑戰(zhàn)性的情況下尤其有用。
研究內(nèi)容
研究者考慮了20種常見的由催化劑(cat)將底物(S)轉(zhuǎn)化為產(chǎn)物(P)的反應機理(圖2a)。每種機理在數(shù)學上都由一組動力學常數(shù)(k1,…kn)和化學物質(zhì)濃度的常微分方程(ODE)函數(shù)描述。這些方程允許產(chǎn)生無限數(shù)量的底物和產(chǎn)物的時間濃度分布,定義了一個動力學空間。雖然動力學空間是每個機理的特征,但它們可以部分重疊。為了盡量減少這些重疊,研究者使用化學標準來定義每個機理的動力學空間,優(yōu)先考慮最簡單的機理。
圖2:機理范圍和數(shù)據(jù)組成
研究者通過數(shù)值求解ODE集生成500萬個動力學樣本,用于模型的訓練和驗證。該機器學習模型包含576,000個可訓練參數(shù),并使用兩種類型的神經(jīng)網(wǎng)絡進行結(jié)合:(1)長短期記憶神經(jīng)網(wǎng)絡,一種用于處理時間數(shù)據(jù)序列(即時間濃度數(shù)據(jù))的循環(huán)神經(jīng)網(wǎng)絡;(2)全連接神經(jīng)網(wǎng)絡,用于處理非時間數(shù)據(jù)(即每次動力學運行中催化劑的初始濃度和長短期記憶提取的特征)。該模型輸出每種機理的概率,概率總和等于1。
研究者用100,000個動力學樣本(每個機理5,000個)的測試集評估訓練模型,每個剖面包含6個濃度-時間點。重要的是,測試集中的所有動力學樣本都屬于獨特的動力學剖面,不同于訓練集中使用的動力學剖面。該模型的分類準確率為92.6%。分析每種機理樣本的預測概率曲線(圖3b)表明,在大多數(shù)測試樣本中,模型不僅預測了正確的機理,而且具有非常高的置信度(超過99%)。
圖3:機器學習模型在測試集上的性能,每個動力學曲線有六個時間點
為了充分探索該機器學習模型的潛力,研究者調(diào)查了在數(shù)據(jù)中引入誤差和改變提供的數(shù)據(jù)點數(shù)量的影響。值得注意的是,當對結(jié)果測試集進行評估時,即使在數(shù)據(jù)中存在顯著的標準誤差(即高達2%),模型也能夠保持非常高的分類精度(超過99.6%)(圖4b左上)。即使對于質(zhì)量較差的數(shù)據(jù)(即s.e. = 5%或95%置信區(qū)間內(nèi)產(chǎn)量±10%的誤差),分類準確度也達到了83%。該模型通過增加其預測中分組的機理數(shù)量來處理數(shù)據(jù)中誤差帶來的固有不確定性(圖4b,右上)。
圖4:誤差和數(shù)據(jù)點數(shù)量對機器學習模型性能的影響
研究者使用幾個實驗動力學曲線對他們的模型進行了基準測試。預測的機理與早期動力學研究的結(jié)論非常吻合。在某些情況下,該模型還識別了在原始工作中沒有檢測到的機理細節(jié)。
圖 5:實驗動力學數(shù)據(jù)的案例研究
總而言之,該研究結(jié)果表明,人工智能引導的機理分類是一個強大的新工具,可以簡化和自動化的機理說明,增強合成化學家處理機理研究的能力。新模型將以前冗長的速率定律推導和動力學分析過程,簡化為更完整和更準確的過程。訓練后的模型能夠解決以前具有挑戰(zhàn)性的復雜問題,例如有誤差的動力學數(shù)據(jù),甚至是非穩(wěn)態(tài)的系統(tǒng)。研究者還展示了這些AlI模型如何輕松地應用于從各種催化反應中提取實驗動力學數(shù)據(jù)的機理理解。
參考資料
urés, J., Larrosa, I. Organic reaction mechanism classification using machine learning. Nature 613, 689–695 (2023).
https://doi.org/10.1038/s41586-022-05639-4
聯(lián)系客服