美女视频动漫,海贼王美女视频,免费美女性感视频

文章題目:

Development of an interpretable machine learning model associated with heavy metals’ exposure to identify coronary heart disease among US adults via SHAP: Findings of the US NHANES from 2003 to 2018.

中文標題：

通過SHAP，開發(fā)一個與重金屬接觸相關(guān)的可解釋的機器學(xué)習(xí)模型，用于識別美國成年人中的冠心病：基于2003年至2018年的美國NHANES的發(fā)現(xiàn)。

發(fā)表雜志：Chemosphere

影響因子：8 /Q1

發(fā)表時間：2022年10月

摘要

目前對重金屬接觸與冠心?。?span>CHD）之間的聯(lián)系了解有限。我們旨在建立一個高效且可解釋的機器學(xué)習(xí)（ML）模型，將重金屬接觸與CHD識別相聯(lián)系。我們的數(shù)據(jù)集來自于美國國家健康和營養(yǎng)調(diào)查（US NHANES，2003-2018年），用于研究重金屬與CHD之間的關(guān)聯(lián)。我們建立了五個ML模型，以重金屬接觸來識別CHD。此外，使用了11個判別特征來測試模型的強度。選擇表現(xiàn)最佳的模型進行識別。最后，使用SHapley Additive exPlanations (SHAP)工具來解釋特征，可視化所選模型的決策能力。總共有12,554名參與者符合本研究的條件。選擇基于13種重金屬的最佳性能隨機森林分類器（RF）來識別CHD（AUC：0.827；95% CI：0.777-0.877；準確率：95.9%）。SHAP值表明，尿液中的銫（1.62）、鉈（1.17）、銻（1.63）、二甲基砷酸（0.91）、鋇（0.76）、砷酸（0.79）、總砷（0.01）以及血液中的鉛（3.58）和鎘（4.66）對模型產(chǎn)生了正面影響，而尿液中的鈷（-0.15）、鎘（-2.93）和鈾（-0.13）對模型產(chǎn)生了負面影響。RF模型在識別美國NHANES 2003-2018參與者中重金屬接觸與CHD之間的關(guān)聯(lián)方面表現(xiàn)出高效、準確和穩(wěn)健性。銫、鉈、銻、二甲基砷酸、鋇、砷酸和總砷在尿液中，以及鉛和鎘在血液中與CHD呈正相關(guān)，而鈷、鎘和鈾在尿液中與CHD呈負相關(guān)。

文章正文

引言

近年來，冠心?。?span>CHD）的發(fā)病率不斷增加，全球面臨嚴重的疾病負擔（Conrad et al., 2018）。盡管已經(jīng)有很多研究探討了CHD的風(fēng)險因素，包括高血壓、高血脂、高血糖、吸煙、飲酒、肥胖、遺傳因素、心理因素和脊椎因素（Conrad et al., 2018; Lu et al., 2019; Nugent et al., 2018），但重金屬與CHD之間的關(guān)聯(lián)研究還比較有限（Karaouzas et al., 2021; Renu et al., 2021; Xu et al., 2021），大部分的研究采用傳統(tǒng)的統(tǒng)計分析方法（Landrigan, 2018; Peralta et al., 2022; Ruiz-Hernandez et al., 2017; Zeng et al., 2022）。因此，使用新的分析方法可能有助于更準確地確定重金屬暴露與CHD的關(guān)聯(lián)。

在現(xiàn)有的研究中，利用傳統(tǒng)的統(tǒng)計學(xué)方法進行疾病識別時，需要使用許多數(shù)據(jù)標準和前提條件進行數(shù)據(jù)準備（Dinh et al., 2019; Navar et al., 2016; Petrovic et al., 2020; Zhang et al., 2021）。特別是一些傳統(tǒng)的統(tǒng)計方法需要高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)分布，這意味著會丟失很多非結(jié)構(gòu)化數(shù)據(jù)。隨著科學(xué)技術(shù)的發(fā)展，數(shù)據(jù)收集變得高效且海量化。與此同時，大數(shù)據(jù)的清洗、分類和分析給研究人員在探索多個數(shù)據(jù)集背后的隱藏含義時帶來了巨大的挑戰(zhàn)（Stafford et al., 2020; Wu et al., 2022）。由于機器學(xué)習(xí)（ML）算法的性質(zhì)，“黑盒”方法對于數(shù)據(jù)準備需要較少的標準和前提條件，提高了研究人員分析個體大量信息以支持疾病診斷、危害識別和健康決策的能力（Alber et al., 2019）。

本研究使用美國國家健康和營養(yǎng)調(diào)查（US NHANES，2003-2018年）的數(shù)據(jù)集，研究了重金屬與CHD之間的關(guān)聯(lián)。我們找到了五個可以通過重金屬暴露來識別CHD的ML模型，并比較了模型的性能特征。此外，我們的研究結(jié)合了基于SHapley Additive exPlanations（SHAP）的先進ML技術(shù)，確定了每種重金屬對CHD識別的貢獻，增強了早期干預(yù)的潛力。

2. 方法

2.1. 研究參與者

美國國家健康和營養(yǎng)調(diào)查（US NHANES）研究通過多種調(diào)查策略對美國人口進行了調(diào)查，包括訪談和身體檢查。詳細信息已經(jīng)在之前的研究中描述過（NHANES, 2014）。我們的研究樣本包括了從2003年到2018年的8個連續(xù)周期的US NHANES數(shù)據(jù)集。納入標準如下：（1）參與者年齡≥20歲；（2）參與者參加了重金屬血液和尿液子研究；（3）根據(jù)US NHANES問卷數(shù)據(jù)確認參與者的CHD狀態(tài)信息。排除標準如下：（1）總共19種重金屬中有超過2種缺失；（2）根據(jù)US NHANES問卷，參與者CHD狀態(tài)=9（意味著CHD狀態(tài)不確定）；（3）樣本由于任何原因無法適應(yīng)模型。最終，本研究分析包括12554名參與者（樣本流程詳見補充資料1）。

2.2. 數(shù)據(jù)收集

2.2.1. 研究參與者的人口特征

美國NHANES問卷數(shù)據(jù)收集了參與者的人口和社會經(jīng)濟特征。特征包括性別、年齡（歲）、體重指數(shù)（BMI，kg/m2）、種族/西班牙裔、教育水平（大學(xué)或以上、高中或同等學(xué)歷、高中及以下）和貧困收入比（PIR）（≤1、1-4、≥4）（Yang et al., 2018; Zhang et al., 2021）。

2.2.2. 重金屬

本研究分析包括尿液和血液中的19種重金屬，詳細信息請參見補充資料。所有重金屬的濃度均通過電感耦合等離子體動態(tài)反應(yīng)池-質(zhì)譜儀（ICP-DRCMS）在國家環(huán)境健康中心實驗室進行嚴格的質(zhì)量控制檢測（NHANES, 2013）。 2.2.3. 結(jié)局確定在美國NHANES中，在2015年12月31日之前，CHD是根據(jù)參與者自報的問卷數(shù)據(jù)確定的。之后，CHD由專業(yè)醫(yī)生通過使用I00-09、I11、I13和I20-51代碼確定，這些代碼符合《疾病和有關(guān)健康問題的國際統(tǒng)計分類第十次修訂》（ICD-10）（Mou and Ren, 2020）。

2.3. ML特征的預(yù)處理和提取

我們研究的組織數(shù)據(jù)集最初包括25個變量（在ML中稱為特征。詳細信息請參見補充材料）；21個特征是連續(xù)變量，4個特征是分類變量。選擇損失率低于10%的特征。連續(xù)變量的缺失值用它們的中位數(shù)填充，而分類變量則用最近的填充方法填充。在ML模型設(shè)置中，使用標準縮放器對特征進行標準化，并使用one-hot編碼表示分類變量（Rodríguez et al., 2018）。選擇K最佳算法通過方差分析在提取特征時使用（Bisong, 2019; Desyani et al., 2020）。在預(yù)處理和提取特征后，刪除對模型貢獻較小的變量，以防止過度擬合。

2.4. 機器學(xué)習(xí)模型策略

研究數(shù)據(jù)被分為80%的訓(xùn)練集（n = 10,043）和20%的測試集（n = 2511）。我們使用適應(yīng)性提升分類器（AdaBoost）、支持向量機（SVM）、隨機森林分類器（RF）、決策樹分類器（DT）和K最近鄰分類器（KNN）五種不同的機器學(xué)習(xí)模型來識別與重金屬暴露有關(guān)的CHD。這五種模型在分析中被使用，每個模型都有自己的特點。AdaBoost方法通常在數(shù)據(jù)訓(xùn)練中具有高精度；但是，它會減少不平衡數(shù)據(jù)的分類精度并增加時間復(fù)雜性（Hisham和Hamouda，2021）。SVM對數(shù)據(jù)不敏感，但可以處理非線性、高維數(shù)據(jù)集（Kim等，2021）。RF可以分析高維數(shù)據(jù)，同時具有強大的噪聲免疫力，但在處理大樣本數(shù)據(jù)時時間復(fù)雜度會增加（Belgiu和Dr?agu，2016; Yang等，2021）。DT易于理解和解釋，并支持視覺分析，但容易導(dǎo)致過度擬合問題（Zweck等，2021）。KNN具有高精度、對離群值不敏感、對輸入數(shù)據(jù)沒有假設(shè)、簡單和高效等多種優(yōu)點；然而，時間復(fù)雜度是巨大的（Kandhasamy和Balamurali，2015）。

為了進行模型訓(xùn)練，我們使用訓(xùn)練集來適應(yīng)五個機器學(xué)習(xí)模型。為了測試訓(xùn)練模型的目的，我們使用測試集。在匯總每個模型的判別特征后，選擇最適合識別疾病的模型。SHAP值被用來說明我們的模型，該模型將與2003年至2018年參與者的CHD相關(guān)的風(fēng)險變量納入考慮（Mangalathu等，2020; Rudin，2019）。

2.5. 統(tǒng)計分析

在本研究中，描述了具有和不具有CHD的研究參與者的人口特征。連續(xù)變量報告為中位數(shù)（四分位距），而分類變量報告為數(shù)字（％）。Wilcoxon雙樣本檢驗或卡方檢驗被用于基于CHD狀態(tài)比較組間特征。重金屬在8個數(shù)據(jù)發(fā)布周期中表示為幾何均值和幾何標準偏差。在16年中，使用Mann-Kendall檢驗檢查趨勢。

模型判別使用每個模型的面積下曲線（AUC）（Pruessner等，2003）和95％置信區(qū)間（95％CI）、準確性得分、平均精度得分（APS）、精度、靈敏度/召回率、特異度、陰性預(yù)測值（NPV）、假陽性率（FPR）、假陰性率（FNR）、假發(fā)現(xiàn)率（FDR）、F1分數(shù)和Brier得分。

所有分析使用Python 3.8.0進行，P＜0.05被認為是統(tǒng)計學(xué)上顯著的。我們的方法概述如圖1所示。

3. 結(jié)果

3.1. 研究參與者的人口統(tǒng)計特征

參與2003年至2018年（美國NHANES）的被診斷為冠心?。?span>CHD）和未被診斷為CHD的研究參與者的特征總結(jié)在表1中。最終分析包括12,554名參與者；其中49.88％為男性，參與者的平均年齡為49.0（四分位數(shù)范圍，34.0-63.0）。其中，463人被診斷為CHD。CHD患者更可能是男性、年齡較大、非西班牙裔白人，并且家庭收入平均水平（所有P <0.05）。

3.2. 16年來重金屬的濃度

表2描述了每個數(shù)據(jù)發(fā)布周期中尿液或血液中重金屬的濃度?；跀?shù)據(jù)發(fā)布周期，尿液中的總砷、亞砷酸、砷酸、二甲基砷酸、單甲基基砷酸、鋇、鎘、鉛、銻和鎢以及血液中的鎘和鉛顯示出顯著趨勢（所有趨勢的P <0.05）。

3.3. 訓(xùn)練ML模型以識別CHD

在特征選擇中，特征得分范圍從0.02到474.18。我們選擇得分> 0.9的特征來適應(yīng)我們的ML模型（附圖2），然后使用17個變量的訓(xùn)練數(shù)據(jù)集對US NHANES數(shù)據(jù)集應(yīng)用了五個ML模型來進行模型訓(xùn)練。

3.4. 測試ML模型識別CHD的性能

在測試階段，我們將訓(xùn)練好的模型應(yīng)用于測試集。隨機森林（RF）模型表現(xiàn)出最佳的AUC性能（AUC: 0.827; 95%CI: 0.777–0.877），與其他四個模型相比，相應(yīng)的AUC值顯著更高（P < 0.05）；然而，決策樹（DT）（AUC: 0.812; 95%CI: 0.761–0.863）、AdaBoost（AUC: 0.798; 95%CI: 0.746–0.850）和K最近鄰（KNN）（AUC: 0.781; 95%CI: 0.728–0.835）在識別冠心病方面也表現(xiàn)出良好的AUC性能。圖2顯示了五個機器學(xué)習(xí)模型的AUC和精確率-召回率曲線。AdaBoost（95.9%）、支持向量機（SVM）（95.9%）、隨機森林（RF）（95.9%）、決策樹（DT）（95.6%）和支持向量機（SVM）（95.9%）在識別冠心病時均表現(xiàn)出良好的準確性。

3.5. 機器學(xué)習(xí)模型的比較

表3展示了評估模型的性能估計結(jié)果。隨機森林（RF）的APS（0.190）在所有五個機器學(xué)習(xí)模型中表現(xiàn)出最好的判別能力。表3顯示了五個機器學(xué)習(xí)模型的敏感度/召回率、特異度、陰性預(yù)測值、誤報率、漏報率、假發(fā)現(xiàn)率和F1分數(shù)。支持向量機（SVM）、隨機森林（RF）和K最近鄰（KNN）在敏感度/召回率、特異度、陰性預(yù)測值、誤報率、漏報率和F1分數(shù)上表現(xiàn)相當。附錄圖3展示了五個機器學(xué)習(xí)模型的混淆矩陣（Price和Chapman，2018）。

表3還描述了模型的Brier分數(shù)。AdaBoost、SVM、RF和KNN的Brier分數(shù)可靠性評估大于決策樹（DT）。最后，基于特征的綜合分析表明，隨機森林（RF）在識別冠心病方面具有最高的準確性和魯棒性。

3.6. 特征重要性可視化

利用SHAP圖形演示RF模型中指定特征對CHD的影響。 SHAP圖顯示了每個變量（已選擇）在ML模型中對測試數(shù)據(jù)集中識別CHD的影響（圖3）。 SHAP值表明尿液中的銫（1.62）、鉈（1.17）、銻（1.63）、二甲基砷酸（0.91）、鋇（0.76）、亞砷酸（0.79）和總砷（0.01），以及血液中的鉛（3.58）和鎘（4.66）對該模型產(chǎn)生積極貢獻，而尿液中的鈷（-0.15）、鎘（-2.93）和鈾（-0.13）對模型貢獻為負。此外，該圖顯示女性、年齡較大、非西班牙裔黑人和教育水平較低與CHD風(fēng)險增加有關(guān)。

此外，我們應(yīng)用聚類抽樣方法從測試數(shù)據(jù)集中隨機選擇了1000名研究參與者。然后，我們對SHAP值矩陣進行轉(zhuǎn)置，繪制了層次聚類相似度熱圖繪圖（附圖4），并根據(jù)樣本進行排列。右側(cè)的條形圖表示每個特征對RF模型的影響。

3.7. 個性化預(yù)測的解釋

在圖4中，每條線代表決策圖中的一個參與者。特征按重要性排序，并在繪制的觀察值上計算。每條線均在0.959處收斂。 SHAP值指示每個特征對最終識別的貢獻，并說明RF模型中的特征。

討論

在本研究中，我們使用解釋性機器學(xué)習(xí)方法研究了2003年至2018年美國NHANES數(shù)據(jù)集中重金屬暴露與冠心?。?span>CHD）的關(guān)系。在考慮了五種機器學(xué)習(xí)模型后，我們發(fā)現(xiàn)隨機森林（RF）模型表現(xiàn)最佳，并選擇該模型來識別CHD。RF模型在測試中的平均AUC為0.827，代表了較好的分類模型效率和穩(wěn)定性，顯示出較高的準確性：95.9％（有關(guān)選擇RF算法參數(shù)的詳細信息請參見補充部分）。此外，利用SHAP博弈理論方法可以說明模型中每個選擇的特征的重要性，決策圖能夠展示RF模型的準確性和韌性。我們的結(jié)果表明，與重金屬暴露相關(guān)的RF模型在CHD識別方面具有良好的潛力。

本研究基于先前應(yīng)用機器學(xué)習(xí)算法預(yù)測疾病的研究（Akyea等，2020；Shah等，2019；Srour等，2020）。這些研究發(fā)現(xiàn)使用復(fù)雜的分類算法可以提高預(yù)測的準確性（Shah等，2019）。機器學(xué)習(xí)是人工智能的一個子集，它利用數(shù)學(xué)算法在異質(zhì)數(shù)據(jù)中發(fā)現(xiàn)和分類結(jié)構(gòu)以做出決策（Akyea等，2020；Stafford等，2020）。在考慮機器學(xué)習(xí)算法時，理解是否會產(chǎn)生某些結(jié)論是復(fù)雜的（Srour等，2020）。同時，解釋機器學(xué)習(xí)算法的困難阻礙了其在輔助醫(yī)療決策方面的應(yīng)用。

然而，我們的RF模型具有一些值得注意的特點。首先，它避免了采集新數(shù)據(jù)所需的成本，而是利用來自美國NHANES的人口統(tǒng)計數(shù)據(jù)、實驗室數(shù)據(jù)和問卷數(shù)據(jù)，利用多源數(shù)據(jù)應(yīng)用于機器學(xué)習(xí)模型來找到前20個相關(guān)變量。此外，從2009年到2013年，美國非常重視重金屬暴露問題。政府和相關(guān)部門提出了各種環(huán)境治理計劃（Guney和Zagury，2012；Southon等，2013）。政策和治療計劃直接導(dǎo)致環(huán)境重金屬暴露水平下降，相應(yīng)的CHD發(fā)病率也有所變化（Hannon等，2020；Poggio等，2017）。我們使用大量的數(shù)據(jù)對機器學(xué)習(xí)模型進行了訓(xùn)練和評估，重點關(guān)注個體參與者的血液重金屬暴露水平。由于訓(xùn)練數(shù)據(jù)中沒有包括研究參與者的年均重金屬暴露水平，因此重金屬含量的下降趨勢不會影響模型的穩(wěn)定性。此外，RF模型的平均AUC為0.827，顯示出我們模型的良好穩(wěn)定性。

此外，在我們的研究中，我們通過重金屬暴露應(yīng)用了五種機器學(xué)習(xí)方法來識別CHD，這些方法在其他當代機器學(xué)習(xí)研究中已經(jīng)證明可以解決心血管疾?。?span>Conrad等，2018；Khera等，2021；Rajkomar等，2018；Zack等，2019）。一些機器學(xué)習(xí)模型具有魯棒性，并可以應(yīng)用于原始數(shù)據(jù)。特別是，數(shù)據(jù)越真實，算法的預(yù)測越準確（Rajkomar等，2018）。此外，我們對機器學(xué)習(xí)模型的預(yù)測潛力進行了多層次評估。利用每個模型在判別上的測試數(shù)據(jù)集，研究結(jié)果顯示RF模型在分類的韌性方面表現(xiàn)最佳；特別地，11個判別特性全面說明了機器學(xué)習(xí)模型的性能。同時，本研究中的所有模型都沒有過擬合問題（補充表1）。

因為在實踐中理解機器學(xué)習(xí)方法的正確性并且以可視化方式展示識別結(jié)果是困難的，所以我們應(yīng)用了SHAP值來對RF模型進行解釋，以實現(xiàn)最佳的影響力和可解釋性。正值的SHAP值意味著與該特征相關(guān)的數(shù)值會在16年美國NHANES調(diào)查期間增加冠心病的風(fēng)險，而負值的SHAP值則表示較低的風(fēng)險。通過樹解釋器計算的SHAP值可以幫助個體可視化模型的決策過程。

SHAP結(jié)果與早期研究的結(jié)果相似，這些研究主要集中在調(diào)查重金屬暴露對心血管疾病的影響（Esteve-Pastor等，2019；Fagerberg和Barregard，2021；Lin等，2020）。飲用水中存在的砷以及砷及其組分甲基化能力不足與心臟病風(fēng)險增加有關(guān)。動物研究發(fā)現(xiàn)，砷減少了DNA甲基轉(zhuǎn)移酶活性，而攝入砷增加了內(nèi)皮功能障礙、氧化應(yīng)激和炎癥，從而增加了心血管疾病的風(fēng)險（Chen等，2013；Hosgood等，2020；Huo等，2015；Ochoa-Martínez等，2019）。此外，一項研究發(fā)現(xiàn)低濃度的鉈（13.4 g/L至60.1 g/L）影響兒童的心臟功能（Tsai等，2021）。此外，尿液和血液中的鎘以及血液中的鉛與心血管疾病的高風(fēng)險有關(guān)（Deering等，2018；Esteve-Pastor等，2019；Fagerberg和Barregard，2021；Lin等，2020；Zheng等，2019）。一項基于人群的隊列研究表明，血液金屬混合物與心血管疾病的死亡率相關(guān)（相對危險度=1.43）（Duan等，2020）。

在未來，對所選特征進行持續(xù)跟蹤的分析和解釋將為專家們提供寶貴的建議，幫助他們得出有理有據(jù)的結(jié)論，而不僅僅是接受算法的預(yù)測。我們還可以集中精力通過擴展數(shù)據(jù)庫和提高臨床醫(yī)生-機器學(xué)習(xí)模型界面的可解釋性來驗證模型的性能（Alber等，2019；Choi等，2020；Li等，2020；Zack等，2019）。

參考文獻

Li X, Zhao Y, et al. Development of an interpretable machine learning model associated with heavy metals' exposure to identify coronary heart disease among US adults via SHAP: Findings of the US NHANES from 2003 to 2018. Chemosphere. 2023 Jan;311(Pt 1):137039. doi: 10.1016/j.chemosphere.2022.137039. Epub 2022 Oct 29. PMID: 36342026.

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频