用機器學習來預(yù)測疾病的結(jié)果和發(fā)展趨勢,可以為臨床應(yīng)用提供指導(dǎo)意義,機器學習分析方法也可以幫小伙伴們實現(xiàn)高分SCI的夢想哦~
今天番茄君要分享一篇7分 SCI,用的就是機器學習方法,預(yù)測衰老與生理個之間的關(guān)系。
首先,本篇文章在選題上,采用了機器學習的方法探討衰老的生理特征,機器學習是熱點的生信分析方法,衰老則是大眾較為關(guān)注的話題,兩者組合,使文章更加具有吸引力;此外,本文作者建立了一個全面的基于機器學習的分析策略,使得文章更加具有創(chuàng)新性,好的選題加上創(chuàng)新性的文章分析思路是發(fā)表SCI的關(guān)鍵,小伙伴們快來學習一下機器學習的分析思路吧~(ps:想了解更多生信分析思路的同學,趕快找番茄君,更多創(chuàng)新思路等著你來學習?。?/span>
題目:個性化生理老化預(yù)測的可解釋機器學習框架
雜志:Aging Cell
影響因子:IF=7.8
發(fā)表時間:2023年6月
公眾號回復(fù)“666”領(lǐng)取文獻原文,文獻編號231022
01
BACKGROUND
研究背景
老齡化人口的擴大以及伴隨而來的慢性病和殘疾的綜合性增加導(dǎo)致了全球社會經(jīng)濟負擔的增加。因此,近年來,老齡化研究的主要目標傾向于發(fā)展促進健康老齡化和防止自主權(quán)喪失的方法。實現(xiàn)個性化的健康衰老需要準確監(jiān)測生理變化,并識別預(yù)測加速或延遲衰老的亞臨床標志物。經(jīng)典的生物統(tǒng)計學方法大多依賴于監(jiān)督變量來估計生理老化,而沒有捕獲參數(shù)間相互作用的全部復(fù)雜性。本研究基于機器學習(ML)利用國家健康和營養(yǎng)檢查調(diào)查(NHANES)數(shù)據(jù)庫收集生理功能的常規(guī)實驗室值,建立了一個全面的基于ML的分析策略,探討了衰老的個體化生理特征。
數(shù)據(jù)來源
NHANES研究的所有數(shù)據(jù)都是在疾病控制和預(yù)防中心網(wǎng)站上收集的,從1999年至2000年的NHANES到2017年至2018年的NHANES。數(shù)據(jù)來自多個文件,每個文件都包含特定年份的一組變量。所有這些文件都被合并,以獲得一個包含每個受試者所有可用數(shù)據(jù)的單一數(shù)據(jù)庫(SEQN——受試者的id——提供所有信息之間的連接)。
02
APPROACH
研究思路
使用來自NHANES研究的廣泛人口數(shù)據(jù)集,包括常規(guī)生物變量,并在選擇XGBoost作為最合適的算法后,創(chuàng)建了一個創(chuàng)新的可解釋的ML框架來確定個性化生理年齡(PPA)。PPA預(yù)測慢性疾病和死亡率與實際年齡之間的關(guān)系。使用SHapley加性解釋(SHAP),對解釋生理(即加速或延遲)偏離特定年齡規(guī)范數(shù)據(jù)的每個變量實施了精確的定量關(guān)聯(lián)度量。最后,相同情境化解釋的聚類概況揭示了不同的衰老軌跡,為特定的臨床隨訪提供了機會。
03
FINGDINGS
主要研究結(jié)果
1
生理年齡的定義和估計,亦能反映與實際年齡
的差異
為了開發(fā)一個從常規(guī)生物變量中揭示PPA的分析框架,首先合并并過濾了數(shù)據(jù)源,以獲得一個干凈、健壯且可行的數(shù)據(jù)集。隨后,選擇了最佳的機器學習策略,包括訓練/測試分割、特征選擇、模型選擇和通過性能比較進行優(yōu)化。接下來,開發(fā)了一個全面的可解釋性流程,以揭示定義PPA的變量的新度量。最后,用社會人口統(tǒng)計數(shù)據(jù)驗證了預(yù)測死亡率和慢性病的新指標(圖1)。
根據(jù)NHANES數(shù)據(jù)建立一個全面和可靠的數(shù)據(jù)集
為了使用最先進且可解釋的基于ML的框架和常見的生物變量來定義PPA,構(gòu)建了最大、最一致和最全面的數(shù)據(jù)集(圖1):(i)合并1999年至2018年的所有NHANES數(shù)據(jù),給出36945個變量,(ii)使用專用web界面選擇和匯總實驗室變量,以及(iii)定義了最小缺失數(shù)據(jù)的最大數(shù)據(jù)集擬合納入標準(圖1)。最終的數(shù)據(jù)集包括48個實驗室變量,涉及60322個人。除了能夠管理缺失數(shù)據(jù)的XGBoost機器學習算法外,實現(xiàn)了一種缺失數(shù)據(jù)的插補方法。在二維UMAP數(shù)據(jù)可視化投影中,年齡最大的受試者主要聚集在UMAP的左側(cè)和中間,并沿對角線突出顯示出明顯的性別對稱。
圖1 機器學習分析流水線
選擇定義PPA的最佳可解釋算法
為了測試不同的機器學習算法,將數(shù)據(jù)集分為訓練和測試數(shù)據(jù)集(分別占80%和20%)。訓練數(shù)據(jù)集和測試數(shù)據(jù)集之間沒有發(fā)現(xiàn)年齡和性別失衡。變量的數(shù)量首先減少到44個,使用GrootCV特征選擇來刪除對ML模型行為影響太小的變量。比較了三種機器學習算法:基于樹模型(決策樹、隨機森林和XGBoost),正則化回歸方法和神經(jīng)網(wǎng)絡(luò)(多層感知器,MLP)。使用訓練數(shù)據(jù)集,對每個模型進行具有五倍交叉驗證的超參數(shù)網(wǎng)格搜索探索。對比測試數(shù)據(jù)集上的R2和MAE,XGBoost和MLP表現(xiàn)最好,在交叉驗證中XGBoost具有相似的性能和最低的標準差(圖2a,b)??紤]到數(shù)據(jù)庫中的變量數(shù)量(高維)和主題數(shù)量,選擇XGBoost是因為它能夠有效地計算解釋。在XGBoost計算期間,使用自定義目標函數(shù),模型的年齡差異誤差被極大地最小化(圖2b),對全局性能沒有顯著影響(R2和MAE的測試數(shù)據(jù)集分別為0.72和8.1,圖2b)。
圖2 不同類型的機器學習模型的模型選擇
2
估計每個變量相對于整個人群或年齡組的相對
權(quán)重:PPA的全局和情境可解釋性
模型可解釋性
為了定義每個變量在單個PPA預(yù)測中的貢獻,將Shapley加法解釋(SHAP)樹框架應(yīng)用于帶有Custom Loss模型的XGBoost模型。SHAP值整合了給定生物變量本身的影響以及該變量與其他生物參數(shù)相互作用的影響??傮wSHAP值越高,該變量對PPA的貢獻越大。匯總圖顯示了按重要性遞減順序排列的每個變量的全球SHAP貢獻的平均絕對值。前20個變量的全局SHAP值如圖3a所示,占平均總SHAP貢獻的76%。糖蛋白是貢獻最大的參數(shù)(占平均總SHAP sum貢獻的10.7%),而血清葡萄糖排名第9(圖3a)。反映腎功能的肌酐、尿液和血液也被證明有助于預(yù)測PPA。對于大多數(shù)變量,變量值越高,與實際年齡的偏差越大。在可解釋性概況和變量排序方面,男性和女性之間沒有顯著差異。
PPA的情境可解釋性(偏離特定年齡的規(guī)范數(shù)據(jù))
雖然全球可解釋性使用整個人口的平均預(yù)測作為參考,但情境化是指具有相同實足年齡的個體的平均預(yù)測,以克服假定的代際效應(yīng)。圖3b給出了每個變量的情境化SHAP值的絕對值。糖化血紅蛋白(HbA1c)、血尿素氮、平均細胞體積和尿肌酐被證明在整個生命過程中都有貢獻,盡管在40至70歲之間的貢獻更大。其他變量有更多的年齡特異性貢獻,如堿性磷酸酶(12-18歲),丙氨酸轉(zhuǎn)移酶ALT和膽固醇(20-40歲),或淋巴細胞數(shù)量和葉酸。
圖3 生理年齡的整體性和情境化的可解釋性
3
PPA的臨床和社會經(jīng)濟驗證
死亡率數(shù)據(jù)驗證
作者推導(dǎo)出PPA偏差度量,為給定個體定義為情境化SHAP值的總和。使用多變量Cox生存模型,發(fā)現(xiàn)PPA偏差是獨立于實足年齡的死亡率的相關(guān)預(yù)測因子(表1)。事實上,PPA偏差值為正與死亡風險的逐漸增加顯著相關(guān)。
表1 對死亡率數(shù)據(jù)的驗證情況
社會人口和醫(yī)學變量的驗證(表2)
回歸系數(shù)是PPA偏差對驗證變量的貢獻,根據(jù)實足年齡和性別進行調(diào)整。在大多數(shù)變量中,健康狀況改變或處于社會弱勢群體與PPA偏差增加顯著相關(guān)。男性、貧窮、吸煙、肥胖、久坐或患有全身性疾病與PPA偏差值顯著增加有關(guān)。值得注意的是,高家庭收入與較低的PPA偏差值顯著相關(guān)。
KDM和體內(nèi)平衡失調(diào)(HD)指標的比較(表2)
為了進一步驗證PPA,我們使用同一組變量計算了KDM和HD指標。通過較低的Akaike信息標準(AIC)顯示,PPA比KDM和HD更適合社會人口統(tǒng)計學變量和大多數(shù)醫(yī)療變量。對于死亡率,HD指標的AIC最低。然而,PPA也成功地捕獲了死亡率,負PPA值降低了死亡風險。
表2 對社會人口統(tǒng)計學和醫(yī)療數(shù)據(jù)的驗證
4
每個變量的變化對SHAP解釋的影響:與健康
老化相關(guān)的一系列生物學價值
部分依賴圖通過平均所有其他變量的影響,揭示了一個變量對PPA的影響(圖4a)。不同年齡之間相似的曲線清楚地揭示了相應(yīng)情境化SHAP值為正、中性或負的變量值的不同范圍。例如,雖然情境化的SHAP值對低糖血紅蛋白為陰性,但在5%-6%的窗口值急劇增加,證實了隨訪值的準確性(圖4a)。這一過渡區(qū)以跨越零線為特征,因年齡組而不同。這在圖4b的熱圖中被顯示為一個暗區(qū)。因此,雖然5.4%的閾值對年輕受試者來說是一個邊界,但它隨著年齡的增長而演變,在50歲以上的受試者中增加到5.8%(圖4b)。類似的分析可以應(yīng)用于所有變量(圖4a)。圖4b強調(diào)了隨著年齡的增長,生物學值的正常范圍下降??傊?,這些結(jié)果顯示了情境化SHAP值在定義適合于定義所有年齡組生理健康狀況的新度量和標準方面的貢獻和相關(guān)性。
圖4 情境化SHAP值的部分依賴性圖
5
通過聚類相同情境化解釋的概況來識別不同的
衰老軌跡
為了確定與衰老相關(guān)的假定途徑,將所有情境化的SHAP值聚類,而不考慮實際年齡(圖5a)。根據(jù)糖血紅蛋白SHAP值將10個SHAP簇分為兩類。這表明,對應(yīng)于相同的PPA偏差的輪廓涉及不同的支持衰老的生理途徑。聚集是由糖血紅蛋白的SHAP值強烈驅(qū)動的。低糖血紅蛋白的貢獻似乎與老年人的“年輕生理學”有關(guān)。在對應(yīng)于糖血紅蛋白陽性和陰性SHAP值的類別中,有限變量的變化區(qū)分了簇。所有其他變量對PPA估計的貢獻都很弱(圖5b,c)。聚類2和4的特征是關(guān)鍵生物變量的PPA系統(tǒng)負和正偏差(圖5c)。所有其他輪廓的特征是相同的關(guān)鍵變量的正和負SHAP值的混合。
圖5 聚類SHAP值,以顯示健康的衰老軌跡
6
通過遞歸特征消除生成最小模型
為了從PPA對一般人群的應(yīng)用的角度來檢驗?zāi)P偷姆€(wěn)健性,我們迭代地逐個剔除變量。耗盡的RFE算法(圖6)表明,26個變量足以預(yù)測PPA,而不會顯著降低R2估計的模型的性能。與完整的模型相似,這個最小模型也可以預(yù)測死亡率,并很好地符合社會人口統(tǒng)計學和醫(yī)療變量。
圖6 估計生理年齡的最小模型的生成(RFE模型)
04
CONCLUSION
文章小結(jié)
本文使用標準的生物變量,不僅提供了一個實用和強大的工具,準備用于醫(yī)療保健,同時保持可擴展的集成其他生物標記物,而且還提供了一個完整的可解釋的ML框架,來定量解釋復(fù)雜的生理表型的基礎(chǔ)。在生物學、流行病學和信息學之間的十字路口,這項工作提供了反思病理生理學的機會,一個精確醫(yī)學的預(yù)測工具,以及一個可以擴展到許多其他主題的研究框架!
掃碼添加番茄君
生信分析和課題設(shè)計
特色數(shù)據(jù)庫構(gòu)建
免費思路評估
實驗項目實施
聯(lián)系客服