文章題目:
Development of an interpretable machine learning model associated with heavy metals’ exposure to identify coronary heart disease among US adults via SHAP: Findings of the US NHANES from 2003 to 2018.
中文標題:
通過SHAP,開發(fā)一個與重金屬接觸相關(guān)的可解釋的機器學(xué)習(xí)模型,用于識別美國成年人中的冠心病:基于2003年至2018年的美國NHANES的發(fā)現(xiàn)。
發(fā)表雜志:Chemosphere
影響因子:8 /Q1
發(fā)表時間:2022年10月
摘要
目前對重金屬接觸與冠心?。?span>CHD)之間的聯(lián)系了解有限。我們旨在建立一個高效且可解釋的機器學(xué)習(xí)(ML)模型,將重金屬接觸與CHD識別相聯(lián)系。我們的數(shù)據(jù)集來自于美國國家健康和營養(yǎng)調(diào)查(US NHANES,2003-2018年),用于研究重金屬與CHD之間的關(guān)聯(lián)。我們建立了五個ML模型,以重金屬接觸來識別CHD。此外,使用了11個判別特征來測試模型的強度。選擇表現(xiàn)最佳的模型進行識別。最后,使用SHapley Additive exPlanations (SHAP)工具來解釋特征,可視化所選模型的決策能力。總共有12,554名參與者符合本研究的條件。選擇基于13種重金屬的最佳性能隨機森林分類器(RF)來識別CHD(AUC:0.827;95% CI:0.777-0.877;準確率:95.9%)。SHAP值表明,尿液中的銫(1.62)、鉈(1.17)、銻(1.63)、二甲基砷酸(0.91)、鋇(0.76)、砷酸(0.79)、總砷(0.01)以及血液中的鉛(3.58)和鎘(4.66)對模型產(chǎn)生了正面影響,而尿液中的鈷(-0.15)、鎘(-2.93)和鈾(-0.13)對模型產(chǎn)生了負面影響。RF模型在識別美國NHANES 2003-2018參與者中重金屬接觸與CHD之間的關(guān)聯(lián)方面表現(xiàn)出高效、準確和穩(wěn)健性。銫、鉈、銻、二甲基砷酸、鋇、砷酸和總砷在尿液中,以及鉛和鎘在血液中與CHD呈正相關(guān),而鈷、鎘和鈾在尿液中與CHD呈負相關(guān)。
引言
近年來,冠心?。?span>CHD)的發(fā)病率不斷增加,全球面臨嚴重的疾病負擔(Conrad et al., 2018)。盡管已經(jīng)有很多研究探討了CHD的風(fēng)險因素,包括高血壓、高血脂、高血糖、吸煙、飲酒、肥胖、遺傳因素、心理因素和脊椎因素(Conrad et al., 2018; Lu et al., 2019; Nugent et al., 2018),但重金屬與CHD之間的關(guān)聯(lián)研究還比較有限(Karaouzas et al., 2021; Renu
et al., 2021; Xu et al., 2021),大部分的研究采用傳統(tǒng)的統(tǒng)計分析方法(Landrigan,
2018; Peralta et al., 2022; Ruiz-Hernandez et al., 2017; Zeng et al., 2022)。因此,使用新的分析方法可能有助于更準確地確定重金屬暴露與CHD的關(guān)聯(lián)。
在現(xiàn)有的研究中,利用傳統(tǒng)的統(tǒng)計學(xué)方法進行疾病識別時,需要使用許多數(shù)據(jù)標準和前提條件進行數(shù)據(jù)準備(Dinh et al., 2019; Navar et al., 2016; Petrovic et al., 2020; Zhang
et al., 2021)。特別是一些傳統(tǒng)的統(tǒng)計方法需要高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)分布,這意味著會丟失很多非結(jié)構(gòu)化數(shù)據(jù)。隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)收集變得高效且海量化。與此同時,大數(shù)據(jù)的清洗、分類和分析給研究人員在探索多個數(shù)據(jù)集背后的隱藏含義時帶來了巨大的挑戰(zhàn)(Stafford et al., 2020; Wu et al., 2022)。由于機器學(xué)習(xí)(ML)算法的性質(zhì),“黑盒”方法對于數(shù)據(jù)準備需要較少的標準和前提條件,提高了研究人員分析個體大量信息以支持疾病診斷、危害識別和健康決策的能力(Alber et al., 2019)。
本研究使用美國國家健康和營養(yǎng)調(diào)查(US NHANES,2003-2018年)的數(shù)據(jù)集,研究了重金屬與CHD之間的關(guān)聯(lián)。我們找到了五個可以通過重金屬暴露來識別CHD的ML模型,并比較了模型的性能特征。此外,我們的研究結(jié)合了基于SHapley Additive exPlanations(SHAP)的先進ML技術(shù),確定了每種重金屬對CHD識別的貢獻,增強了早期干預(yù)的潛力。
2. 方法
2.1. 研究參與者
美國國家健康和營養(yǎng)調(diào)查(US NHANES)研究通過多種調(diào)查策略對美國人口進行了調(diào)查,包括訪談和身體檢查。詳細信息已經(jīng)在之前的研究中描述過(NHANES, 2014)。我們的研究樣本包括了從2003年到2018年的8個連續(xù)周期的US NHANES數(shù)據(jù)集。納入標準如下:(1)參與者年齡≥20歲;(2)參與者參加了重金屬血液和尿液子研究;(3)根據(jù)US NHANES問卷數(shù)據(jù)確認參與者的CHD狀態(tài)信息。排除標準如下:(1)總共19種重金屬中有超過2種缺失;(2)根據(jù)US NHANES問卷,參與者CHD狀態(tài)=9(意味著CHD狀態(tài)不確定);(3)樣本由于任何原因無法適應(yīng)模型。最終,本研究分析包括12554名參與者(樣本流程詳見補充資料1)。
2.2. 數(shù)據(jù)收集
2.2.1. 研究參與者的人口特征
美國NHANES問卷數(shù)據(jù)收集了參與者的人口和社會經(jīng)濟特征。特征包括性別、年齡(歲)、體重指數(shù)(BMI,kg/m2)、種族/西班牙裔、教育水平(大學(xué)或以上、高中或同等學(xué)歷、高中及以下)和貧困收入比(PIR)(≤1、1-4、≥4)(Yang et al., 2018; Zhang et al., 2021)。
2.2.2. 重金屬
本研究分析包括尿液和血液中的19種重金屬,詳細信息請參見補充資料。所有重金屬的濃度均通過電感耦合等離子體動態(tài)反應(yīng)池-質(zhì)譜儀(ICP-DRCMS)在國家環(huán)境健康中心實驗室進行嚴格的質(zhì)量控制檢測(NHANES, 2013)。 2.2.3. 結(jié)局確定 在美國NHANES中,在2015年12月31日之前,CHD是根據(jù)參與者自報的問卷數(shù)據(jù)確定的。之后,CHD由專業(yè)醫(yī)生通過使用I00-09、I11、I13和I20-51代碼確定,這些代碼符合《疾病和有關(guān)健康問題的國際統(tǒng)計分類第十次修訂》(ICD-10)(Mou and Ren, 2020)。
2.3. ML特征的預(yù)處理和提取
我們研究的組織數(shù)據(jù)集最初包括25個變量(在ML中稱為特征。詳細信息請參見補充材料);21個特征是連續(xù)變量,4個特征是分類變量。選擇損失率低于10%的特征。連續(xù)變量的缺失值用它們的中位數(shù)填充,而分類變量則用最近的填充方法填充。在ML模型設(shè)置中,使用標準縮放器對特征進行標準化,并使用one-hot編碼表示分類變量(Rodríguez et al., 2018)。選擇K最佳算法通過方差分析在提取特征時使用(Bisong, 2019; Desyani et al., 2020)。在預(yù)處理和提取特征后,刪除對模型貢獻較小的變量,以防止過度擬合。
2.4. 機器學(xué)習(xí)模型策略
研究數(shù)據(jù)被分為80%的訓(xùn)練集(n =
10,043)和20%的測試集(n = 2511)。我們使用適應(yīng)性提升分類器(AdaBoost)、支持向量機(SVM)、隨機森林分類器(RF)、決策樹分類器(DT)和K最近鄰分類器(KNN)五種不同的機器學(xué)習(xí)模型來識別與重金屬暴露有關(guān)的CHD。這五種模型在分析中被使用,每個模型都有自己的特點。AdaBoost方法通常在數(shù)據(jù)訓(xùn)練中具有高精度;但是,它會減少不平衡數(shù)據(jù)的分類精度并增加時間復(fù)雜性(Hisham和Hamouda,2021)。SVM對數(shù)據(jù)不敏感,但可以處理非線性、高維數(shù)據(jù)集(Kim等,2021)。RF可以分析高維數(shù)據(jù),同時具有強大的噪聲免疫力,但在處理大樣本數(shù)據(jù)時時間復(fù)雜度會增加(Belgiu和Dr?agu,2016; Yang等,2021)。DT易于理解和解釋,并支持視覺分析,但容易導(dǎo)致過度擬合問題(Zweck等,2021)。KNN具有高精度、對離群值不敏感、對輸入數(shù)據(jù)沒有假設(shè)、簡單和高效等多種優(yōu)點;然而,時間復(fù)雜度是巨大的(Kandhasamy和Balamurali,2015)。
為了進行模型訓(xùn)練,我們使用訓(xùn)練集來適應(yīng)五個機器學(xué)習(xí)模型。為了測試訓(xùn)練模型的目的,我們使用測試集。在匯總每個模型的判別特征后,選擇最適合識別疾病的模型。SHAP值被用來說明我們的模型,該模型將與2003年至2018年參與者的CHD相關(guān)的風(fēng)險變量納入考慮(Mangalathu等,2020; Rudin,2019)。
2.5. 統(tǒng)計分析
在本研究中,描述了具有和不具有CHD的研究參與者的人口特征。連續(xù)變量報告為中位數(shù)(四分位距),而分類變量報告為數(shù)字(%)。Wilcoxon雙樣本檢驗或卡方檢驗被用于基于CHD狀態(tài)比較組間特征。重金屬在8個數(shù)據(jù)發(fā)布周期中表示為幾何均值和幾何標準偏差。在16年中,使用Mann-Kendall檢驗檢查趨勢。
模型判別使用每個模型的面積下曲線(AUC)(Pruessner等,2003)和95%置信區(qū)間(95%CI)、準確性得分、平均精度得分(APS)、精度、靈敏度/召回率、特異度、陰性預(yù)測值(NPV)、假陽性率(FPR)、假陰性率(FNR)、假發(fā)現(xiàn)率(FDR)、F1分數(shù)和Brier得分。
所有分析使用Python 3.8.0進行,P<0.05被認為是統(tǒng)計學(xué)上顯著的。我們的方法概述如圖1所示。
3. 結(jié)果
3.1. 研究參與者的人口統(tǒng)計特征
參與2003年至2018年(美國NHANES)的被診斷為冠心?。?span>CHD)和未被診斷為CHD的研究參與者的特征總結(jié)在表1中。最終分析包括12,554名參與者;其中49.88%為男性,參與者的平均年齡為49.0(四分位數(shù)范圍,34.0-63.0)。其中,463人被診斷為CHD。CHD患者更可能是男性、年齡較大、非西班牙裔白人,并且家庭收入平均水平(所有P <0.05)。
3.2. 16年來重金屬的濃度
表2描述了每個數(shù)據(jù)發(fā)布周期中尿液或血液中重金屬的濃度?;跀?shù)據(jù)發(fā)布周期,尿液中的總砷、亞砷酸、砷酸、二甲基砷酸、單甲基基砷酸、鋇、鎘、鉛、銻和鎢以及血液中的鎘和鉛顯示出顯著趨勢(所有趨勢的P <0.05)。
3.3. 訓(xùn)練ML模型以識別CHD
在特征選擇中,特征得分范圍從0.02到474.18。我們選擇得分> 0.9的特征來適應(yīng)我們的ML模型(附圖2),然后使用17個變量的訓(xùn)練數(shù)據(jù)集對US
NHANES數(shù)據(jù)集應(yīng)用了五個ML模型來進行模型訓(xùn)練。
3.4. 測試ML模型識別CHD的性能
在測試階段,我們將訓(xùn)練好的模型應(yīng)用于測試集。隨機森林(RF)模型表現(xiàn)出最佳的AUC性能(AUC: 0.827; 95%CI: 0.777–0.877),與其他四個模型相比,相應(yīng)的AUC值顯著更高(P < 0.05);然而,決策樹(DT)(AUC: 0.812; 95%CI: 0.761–0.863)、AdaBoost(AUC: 0.798; 95%CI: 0.746–0.850)和K最近鄰(KNN)(AUC: 0.781; 95%CI: 0.728–0.835)在識別冠心病方面也表現(xiàn)出良好的AUC性能。圖2顯示了五個機器學(xué)習(xí)模型的AUC和精確率-召回率曲線。AdaBoost(95.9%)、支持向量機(SVM)(95.9%)、隨機森林(RF)(95.9%)、決策樹(DT)(95.6%)和支持向量機(SVM)(95.9%)在識別冠心病時均表現(xiàn)出良好的準確性。
3.5. 機器學(xué)習(xí)模型的比較
表3展示了評估模型的性能估計結(jié)果。隨機森林(RF)的APS(0.190)在所有五個機器學(xué)習(xí)模型中表現(xiàn)出最好的判別能力。表3顯示了五個機器學(xué)習(xí)模型的敏感度/召回率、特異度、陰性預(yù)測值、誤報率、漏報率、假發(fā)現(xiàn)率和F1分數(shù)。支持向量機(SVM)、隨機森林(RF)和K最近鄰(KNN)在敏感度/召回率、特異度、陰性預(yù)測值、誤報率、漏報率和F1分數(shù)上表現(xiàn)相當。附錄圖3展示了五個機器學(xué)習(xí)模型的混淆矩陣(Price和Chapman,2018)。
表3還描述了模型的Brier分數(shù)。AdaBoost、SVM、RF和KNN的Brier分數(shù)可靠性評估大于決策樹(DT)。最后,基于特征的綜合分析表明,隨機森林(RF)在識別冠心病方面具有最高的準確性和魯棒性。
3.6. 特征重要性可視化
利用SHAP圖形演示RF模型中指定特征對CHD的影響。 SHAP圖顯示了每個變量(已選擇)在ML模型中對測試數(shù)據(jù)集中識別CHD的影響(圖3)。 SHAP值表明尿液中的銫(1.62)、鉈(1.17)、銻(1.63)、二甲基砷酸(0.91)、鋇(0.76)、亞砷酸(0.79)和總砷(0.01),以及血液中的鉛(3.58)和鎘(4.66)對該模型產(chǎn)生積極貢獻,而尿液中的鈷(-0.15)、鎘(-2.93)和鈾(-0.13)對模型貢獻為負。此外,該圖顯示女性、年齡較大、非西班牙裔黑人和教育水平較低與CHD風(fēng)險增加有關(guān)。
此外,我們應(yīng)用聚類抽樣方法從測試數(shù)據(jù)集中隨機選擇了1000名研究參與者。然后,我們對SHAP值矩陣進行轉(zhuǎn)置,繪制了層次聚類相似度熱圖繪圖(附圖4),并根據(jù)樣本進行排列。右側(cè)的條形圖表示每個特征對RF模型的影響。
3.7. 個性化預(yù)測的解釋
在圖4中,每條線代表決策圖中的一個參與者。特征按重要性排序,并在繪制的觀察值上計算。每條線均在0.959處收斂。 SHAP值指示每個特征對最終識別的貢獻,并說明RF模型中的特征。
討論
在本研究中,我們使用解釋性機器學(xué)習(xí)方法研究了2003年至2018年美國NHANES數(shù)據(jù)集中重金屬暴露與冠心?。?span>CHD)的關(guān)系。在考慮了五種機器學(xué)習(xí)模型后,我們發(fā)現(xiàn)隨機森林(RF)模型表現(xiàn)最佳,并選擇該模型來識別CHD。RF模型在測試中的平均AUC為0.827,代表了較好的分類模型效率和穩(wěn)定性,顯示出較高的準確性:95.9%(有關(guān)選擇RF算法參數(shù)的詳細信息請參見補充部分)。此外,利用SHAP博弈理論方法可以說明模型中每個選擇的特征的重要性,決策圖能夠展示RF模型的準確性和韌性。我們的結(jié)果表明,與重金屬暴露相關(guān)的RF模型在CHD識別方面具有良好的潛力。
本研究基于先前應(yīng)用機器學(xué)習(xí)算法預(yù)測疾病的研究(Akyea等,2020;Shah等,2019;Srour等,2020)。這些研究發(fā)現(xiàn)使用復(fù)雜的分類算法可以提高預(yù)測的準確性(Shah等,2019)。機器學(xué)習(xí)是人工智能的一個子集,它利用數(shù)學(xué)算法在異質(zhì)數(shù)據(jù)中發(fā)現(xiàn)和分類結(jié)構(gòu)以做出決策(Akyea等,2020;Stafford等,2020)。在考慮機器學(xué)習(xí)算法時,理解是否會產(chǎn)生某些結(jié)論是復(fù)雜的(Srour等,2020)。同時,解釋機器學(xué)習(xí)算法的困難阻礙了其在輔助醫(yī)療決策方面的應(yīng)用。
然而,我們的RF模型具有一些值得注意的特點。首先,它避免了采集新數(shù)據(jù)所需的成本,而是利用來自美國NHANES的人口統(tǒng)計數(shù)據(jù)、實驗室數(shù)據(jù)和問卷數(shù)據(jù),利用多源數(shù)據(jù)應(yīng)用于機器學(xué)習(xí)模型來找到前20個相關(guān)變量。此外,從2009年到2013年,美國非常重視重金屬暴露問題。政府和相關(guān)部門提出了各種環(huán)境治理計劃(Guney和Zagury,2012;Southon等,2013)。政策和治療計劃直接導(dǎo)致環(huán)境重金屬暴露水平下降,相應(yīng)的CHD發(fā)病率也有所變化(Hannon等,2020;Poggio等,2017)。我們使用大量的數(shù)據(jù)對機器學(xué)習(xí)模型進行了訓(xùn)練和評估,重點關(guān)注個體參與者的血液重金屬暴露水平。由于訓(xùn)練數(shù)據(jù)中沒有包括研究參與者的年均重金屬暴露水平,因此重金屬含量的下降趨勢不會影響模型的穩(wěn)定性。此外,RF模型的平均AUC為0.827,顯示出我們模型的良好穩(wěn)定性。
此外,在我們的研究中,我們通過重金屬暴露應(yīng)用了五種機器學(xué)習(xí)方法來識別CHD,這些方法在其他當代機器學(xué)習(xí)研究中已經(jīng)證明可以解決心血管疾?。?span>Conrad等,2018;Khera等,2021;Rajkomar等,2018;Zack等,2019)。一些機器學(xué)習(xí)模型具有魯棒性,并可以應(yīng)用于原始數(shù)據(jù)。特別是,數(shù)據(jù)越真實,算法的預(yù)測越準確(Rajkomar等,2018)。此外,我們對機器學(xué)習(xí)模型的預(yù)測潛力進行了多層次評估。利用每個模型在判別上的測試數(shù)據(jù)集,研究結(jié)果顯示RF模型在分類的韌性方面表現(xiàn)最佳;特別地,11個判別特性全面說明了機器學(xué)習(xí)模型的性能。同時,本研究中的所有模型都沒有過擬合問題(補充表1)。
因為在實踐中理解機器學(xué)習(xí)方法的正確性并且以可視化方式展示識別結(jié)果是困難的,所以我們應(yīng)用了SHAP值來對RF模型進行解釋,以實現(xiàn)最佳的影響力和可解釋性。正值的SHAP值意味著與該特征相關(guān)的數(shù)值會在16年美國NHANES調(diào)查期間增加冠心病的風(fēng)險,而負值的SHAP值則表示較低的風(fēng)險。通過樹解釋器計算的SHAP值可以幫助個體可視化模型的決策過程。
SHAP結(jié)果與早期研究的結(jié)果相似,這些研究主要集中在調(diào)查重金屬暴露對心血管疾病的影響(Esteve-Pastor等,2019;Fagerberg和Barregard,2021;Lin等,2020)。飲用水中存在的砷以及砷及其組分甲基化能力不足與心臟病風(fēng)險增加有關(guān)。動物研究發(fā)現(xiàn),砷減少了DNA甲基轉(zhuǎn)移酶活性,而攝入砷增加了內(nèi)皮功能障礙、氧化應(yīng)激和炎癥,從而增加了心血管疾病的風(fēng)險(Chen等,2013;Hosgood等,2020;Huo等,2015;Ochoa-Martínez等,2019)。此外,一項研究發(fā)現(xiàn)低濃度的鉈(13.4 g/L至60.1 g/L)影響兒童的心臟功能(Tsai等,2021)。此外,尿液和血液中的鎘以及血液中的鉛與心血管疾病的高風(fēng)險有關(guān)(Deering等,2018;Esteve-Pastor等,2019;Fagerberg和Barregard,2021;Lin等,2020;Zheng等,2019)。一項基于人群的隊列研究表明,血液金屬混合物與心血管疾病的死亡率相關(guān)(相對危險度=1.43)(Duan等,2020)。
在未來,對所選特征進行持續(xù)跟蹤的分析和解釋將為專家們提供寶貴的建議,幫助他們得出有理有據(jù)的結(jié)論,而不僅僅是接受算法的預(yù)測。我們還可以集中精力通過擴展數(shù)據(jù)庫和提高臨床醫(yī)生-機器學(xué)習(xí)模型界面的可解釋性來驗證模型的性能(Alber等,2019;Choi等,2020;Li等,2020;Zack等,2019)。
聯(lián)系客服