關(guān)鍵詞:診斷試驗(yàn); 診斷試驗(yàn)評(píng)價(jià); 無金標(biāo)準(zhǔn); 不完善的金標(biāo)準(zhǔn)
如果診斷結(jié)果是二分類資料常使用配對(duì)卡方檢驗(yàn)或Cohen's Kappa值評(píng)價(jià)一致性;
如果診斷結(jié)果是有序多分類資料常使用Kendall's tau-b相關(guān)分析、Kendall's W協(xié)同系數(shù)、加權(quán)Kappa值或組內(nèi)相關(guān)系數(shù)(ICC)評(píng)價(jià)一致性;
如果診斷結(jié)果是無序多分類資料常使用Cohen's Kappa值評(píng)價(jià)一致性。
配對(duì)卡方檢驗(yàn)常用于二分類診斷結(jié)果的一致性評(píng)價(jià)。配對(duì)卡方(χ2)檢驗(yàn)也稱McNemar檢驗(yàn),是根據(jù)四格表中假陽性數(shù)(b)和假陰性數(shù)(c)計(jì)算統(tǒng)計(jì)量,并行統(tǒng)計(jì)學(xué)推斷而得出的結(jié)果(配對(duì)四格表資料的χ2檢驗(yàn)——理論介紹)。
該方法一般用于樣本含量不太大的資料,因?yàn)樵摲▋H考慮了兩種檢測方法結(jié)果不一致的兩種情況(b和c),而未考慮樣本含量n和兩種方法結(jié)果一致的兩種情況(a和d)。所以,當(dāng)n很大且a與d的數(shù)值很大(即兩法的一致率較高),b和c的數(shù)值相對(duì)較小時(shí),即便是檢測結(jié)果有統(tǒng)計(jì)學(xué)意義,其實(shí)際意義往往也不大。
Cohen's Kappa值可用于二分類、無序多分類診斷結(jié)果的一致性評(píng)價(jià)。Cohen's Kappa值考慮了機(jī)遇因素對(duì)一致性的影響,取值范圍為-1~1。其常用的判斷說明見圖2。
計(jì)算公式為:
Kendall's tau-b相關(guān)分析常用于有序多分類診斷結(jié)果的一致性評(píng)價(jià)。Kendall's tau-b系數(shù)是一種非參數(shù)方法,通過將兩組測量值分別排序并進(jìn)行秩次轉(zhuǎn)換后檢查兩組數(shù)值的排序是否一致。Kendall's tau-b相關(guān)系數(shù)的取值范圍為-1~1,相關(guān)系數(shù)<0表示兩變量負(fù)相關(guān),>0表示正相關(guān),=0表示兩變量相互獨(dú)立。相關(guān)系數(shù)的絕對(duì)值越大,表示兩變量間的相關(guān)程度越密切;相關(guān)系數(shù)越接近于0,表示相關(guān)越不密切。
加權(quán)Kappa(weighted Kappa)值可用于有序多分類診斷結(jié)果的一致性評(píng)價(jià)。加權(quán)Kappa系數(shù)是Cohen's Kappa系數(shù)的推廣,是用加權(quán)的方法對(duì)兩個(gè)評(píng)價(jià)結(jié)果進(jìn)行量化所得。加權(quán)Kappa系數(shù)取值范圍為-1~1。其常用的判斷說明見圖3。
Kendall-W協(xié)調(diào)系數(shù)也稱Kendall-W一致性系數(shù),可用于有序多分類診斷結(jié)果的一致性評(píng)價(jià)。Kendall協(xié)調(diào)系數(shù)W檢驗(yàn)是一種非參數(shù)檢驗(yàn)方法,其基本原理是由b個(gè)診斷方法(評(píng)價(jià)員)對(duì)k個(gè)被診斷對(duì)象進(jìn)行評(píng)分,然后檢驗(yàn)b個(gè)診斷方法的評(píng)價(jià)結(jié)果是否具有一致性。Kendall-W協(xié)調(diào)系數(shù)的范圍從0 (完全不一致)~ 1(完全一致)。其判斷說明可參照加權(quán)Kappa值(圖3)。
計(jì)算公式為:
其中,b是診斷方法個(gè)數(shù)、k是被診斷對(duì)象個(gè)數(shù),Rj是分配給第j個(gè)觀察對(duì)象的秩次合。
配對(duì)t檢驗(yàn)的實(shí)質(zhì)是在將配對(duì)數(shù)據(jù)求差值后,檢測差值的均數(shù)是否與0有統(tǒng)計(jì)學(xué)差異,以此判斷兩組數(shù)據(jù)差異是否有統(tǒng)計(jì)學(xué)意義。在診斷試驗(yàn)研究中,兩種檢測方法之間的數(shù)值差異有無統(tǒng)計(jì)學(xué)意義,反映了兩種方法檢測結(jié)果是否有差異。當(dāng)P<0.05可認(rèn)為兩種方法檢測結(jié)果不一致,反之,P≥0.05可認(rèn)為兩種方法檢測結(jié)果一致。
配對(duì)t檢驗(yàn)統(tǒng)計(jì)量可按如下公式計(jì)算:
其中,
但配對(duì)t檢驗(yàn)用于診斷試驗(yàn)一致性評(píng)價(jià)存在固有缺陷:
Pearson相關(guān)分析通過計(jì)算兩連續(xù)性變量之間的相關(guān)系數(shù)r的大小和方向判斷兩變量之間的關(guān)聯(lián)大小和方向,通過檢驗(yàn)相關(guān)系數(shù)r是否來自ρ=0的總體判斷相關(guān)性是否有統(tǒng)計(jì)學(xué)意義。在診斷試驗(yàn)研究中,兩種檢測方法之間的相關(guān)系數(shù)r越大間接反映了檢測結(jié)果的一致性越高,并通過P是否小于0.05判斷一致性是否有統(tǒng)計(jì)學(xué)意義。Pearson相關(guān)系數(shù)范圍為-1~1。其常用的判斷說明如下:
需要注意的是,Pearson相關(guān)系數(shù)r其本質(zhì)反應(yīng)的是兩者之間的相關(guān),而非一致性。因此對(duì)系統(tǒng)誤差并不敏感,對(duì)測量值增加固定的數(shù)值后,其相關(guān)系數(shù)并不會(huì)發(fā)生改變。
組內(nèi)相關(guān)系數(shù)(ICC)是兩種診斷方法測量結(jié)果的變異占總變異的比例,同時(shí)考慮了系統(tǒng)誤差與隨機(jī)誤差的影響。ICC不僅適用于計(jì)量資料,也適用于有序分類變量的一致性評(píng)價(jià)。
計(jì)算公式為:
其中,MS區(qū)組為隨機(jī)區(qū)組(被觀察對(duì)象)間的均方(方差),MS誤差為誤差的均方,MS處理為處理組(檢測方法)的均方。k為重復(fù)次數(shù)(測量方法的數(shù)量),n為被觀察對(duì)象的例數(shù)。ICC介于0~1之間,0表示完全不一致,1表示完全一致。其推薦的判斷說明如下:
ICC評(píng)價(jià)一致性可以同時(shí)兼顧系統(tǒng)誤差和隨機(jī)誤差,與配對(duì)t檢驗(yàn)和Pearson相關(guān)分析相比,具備其獨(dú)特的優(yōu)勢。但當(dāng)樣本量較小時(shí),ICC系數(shù)容易被低估。
Bland-Altman法的原理是根據(jù)兩種診斷方法的測量結(jié)果,計(jì)算出95%一致性界限(95% limits of agreement, 95% LoA),及1.96倍標(biāo)準(zhǔn)差,并用圖形直觀的呈現(xiàn)結(jié)果(圖6來自廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 40(1): 125-138.)。最后結(jié)合臨床實(shí)際允許的最大誤差,得出兩種方法(或兩位評(píng)價(jià)者)是否具有一致性的結(jié)論。
圖中橫實(shí)線是兩種測量方法差值的均值線,上下的虛線是差值的±1.96倍標(biāo)準(zhǔn)差。因此Bland-Altman法繪制的圖形,又稱D-A圖,D為兩種診斷方法測量的差值,A為兩種診斷方法測量的均值。Bland-Altman法評(píng)價(jià)一致性既考慮了隨機(jī)誤差也考慮了系統(tǒng)誤差,同時(shí)可以結(jié)合專業(yè)意義進(jìn)行判斷,具有獨(dú)特的優(yōu)勢。
ATE/LER區(qū)域是美國FDA推薦用于評(píng)價(jià)一致性的指標(biāo),其主要原理是分析兩種方法測量結(jié)果的總體吻合度,并用圖形直觀地加以反應(yīng),最后結(jié)合臨床意義,評(píng)估兩種測量方法的一致性。ATE/LER圖形中各區(qū)域部分的劃分需要臨床專家和統(tǒng)計(jì)學(xué)專家共同做出判斷,以制定臨床界值。
如圖7(來自Journal of Clinical Laboratory Analysis, 2011;25(2):83-89.)所示,當(dāng)兩種檢測方法完全一致時(shí),散點(diǎn)均勻地分布在圖中的對(duì)角線Y=X上。一般而言,散點(diǎn)圍繞對(duì)角線上下波動(dòng)。結(jié)合臨床意義可將圖形劃分為三個(gè)區(qū)域:
只有同時(shí)滿足三個(gè)區(qū)域的判定標(biāo)準(zhǔn)時(shí),此時(shí)才可以認(rèn)為兩種方法一致性良好。
Deming回歸又稱戴明回歸,可用于檢驗(yàn)兩種診斷方法檢測的計(jì)量資料是否一致。普通的線性回歸(最小二乘回歸)假設(shè)只有Y的測量值與隨機(jī)誤差相關(guān),而Deming回歸則考慮了兩種方法(X和Y)的測量誤差。為了盡量消除兩種檢測方法的隨機(jī)誤差,Deming回歸需要對(duì)每個(gè)樣本進(jìn)行兩次平行測定,若是只有一次測定則需要輸入已經(jīng)建立的變異系數(shù)。
通過對(duì)擬合的回歸模型進(jìn)行判斷,若截距的95%置信區(qū)間包含0、斜率的95%置信區(qū)間包含1,且殘差圍繞參考線對(duì)稱分布,則表明兩種方法檢測結(jié)果一致。
Passing-Bablok回歸是一種非參數(shù)檢驗(yàn)方法,該方法不要求樣本分布和測量誤差滿足特別的假設(shè),比較適合于數(shù)據(jù)中存在異常值時(shí)。其基本思想是任意取兩點(diǎn)確定直線,得到斜率,多次反復(fù)后得到多個(gè)斜率,然后計(jì)算斜率的中位數(shù)。需要注意的是該方法需要兩種檢測的測量值高度相關(guān)時(shí)才有效,使用過程中往往結(jié)合Bland-Altman圖一起評(píng)估一致性。
除了上面介紹的一些常用的關(guān)于分類資料和計(jì)量資料一致性評(píng)價(jià)的方法外,還有一些使用較少的無金標(biāo)準(zhǔn)診斷情況下評(píng)價(jià)診斷試驗(yàn)準(zhǔn)確性的統(tǒng)計(jì)學(xué)方法。
適用于部分受試者沒有金標(biāo)準(zhǔn)或參考標(biāo)準(zhǔn)的情況。根據(jù)數(shù)據(jù)缺失機(jī)制(如完全隨機(jī)缺失、隨機(jī)缺失、非隨機(jī)缺失),采用合適的填補(bǔ)方法進(jìn)行數(shù)據(jù)填補(bǔ),然后按照有金標(biāo)準(zhǔn)的診斷試驗(yàn)研究進(jìn)行分析。
如果已知金標(biāo)準(zhǔn)的靈敏度(Se)和特異度(Sp),在診斷試驗(yàn)與金標(biāo)準(zhǔn)條件獨(dú)立的假設(shè)下,可以對(duì)診斷試驗(yàn)的靈敏度和特異度進(jìn)行校正。
差異化驗(yàn)證(Differential verification)是指對(duì)部分無金標(biāo)準(zhǔn)診斷結(jié)果的受試者采用其他可用的參考標(biāo)準(zhǔn)對(duì)疾病狀態(tài)進(jìn)行確證。差異化分析(Discrepant analysis)是指對(duì)診斷試驗(yàn)與金標(biāo)準(zhǔn)結(jié)果不一致的受試者,采用另一種標(biāo)準(zhǔn)方法來確證疾病狀態(tài),并更新診斷試驗(yàn)的四格表后進(jìn)行分析。
當(dāng)受試者的疾病狀態(tài)是無法直接觀測的潛在變量,可通過聯(lián)合同一受試者的多個(gè)可直接觀測指標(biāo)構(gòu)建潛在分類模型,以利用構(gòu)建的潛在類別變量作為參考標(biāo)準(zhǔn),計(jì)算診斷試驗(yàn)的準(zhǔn)確性評(píng)價(jià)指標(biāo)。
利用目標(biāo)診斷人群中的患病率及參考標(biāo)準(zhǔn)的靈敏度、特異度的先驗(yàn)信息,通過似然函數(shù)對(duì)參數(shù)的先驗(yàn)分布進(jìn)行調(diào)整,從而對(duì)需要評(píng)估的診斷試驗(yàn)的靈敏度和特異度進(jìn)行估計(jì)。
最后,圖8匯總了本文提到了各種方法及主要特征。
聯(lián)系客服