分布滯后非線性模型(DLNM)表示一個建??蚣?,可以靈活地描述在時間序列數(shù)據(jù)中顯示潛在非線性和滯后影響的關(guān)聯(lián)。該方法論基于交叉基的定義,交叉基是由兩組基礎(chǔ)函數(shù)的組合表示的二維函數(shù)空間,它們分別指定了預(yù)測變量和滯后變量的關(guān)系。本文在R軟件實現(xiàn)DLNM,然后幫助解釋結(jié)果,并著重于圖形表示。本文提供指定和解釋DLNM的概念和實踐步驟,并舉例說明了對實際數(shù)據(jù)的應(yīng)用。
關(guān)鍵字:分布滯后模型,時間序列,平滑,滯后效應(yīng),R。
統(tǒng)計回歸模型的主要目的是定義一組預(yù)測變量與結(jié)果之間的關(guān)系,然后估計相關(guān)影響。當(dāng)依賴項顯示某些滯后影響時,會進(jìn)一步增加復(fù)雜性:在這種情況下,預(yù)測變量的發(fā)生(我們稱其為暴露事件)會在遠(yuǎn)遠(yuǎn)超出事件周期的時間范圍內(nèi)影響結(jié)果。此步驟需要定義更復(fù)雜的模型以表征關(guān)聯(lián),并指定依賴項的時間結(jié)構(gòu)。
對滯后效應(yīng)的適當(dāng)統(tǒng)計模型的說明及其結(jié)果的解釋,有助于建立適當(dāng)?shù)母拍羁蚣堋_@個框架的主要特點是定義了一個額外的維度來描述關(guān)聯(lián),它指定了暴露和結(jié)果之間在滯后維度上的時間依賴性。這個術(shù)語,借用了時間序列分析的文獻(xiàn),代表了評估影響滯后時暴露事件和結(jié)果之間的時間間隔。在長時間暴露的情況下,數(shù)據(jù)可以通過等距時間段的劃分來構(gòu)造,定義一系列暴露事件和結(jié)果實現(xiàn)。這種劃分也定義了滯后單位。在這個時間結(jié)構(gòu)中,暴露-反應(yīng)關(guān)系可以用兩種相反的觀點中的任何一種來描述:我們可以說一個特定的暴露事件對未來的多個結(jié)果產(chǎn)生影響,或者說一個特定的結(jié)果可以用過去多個暴露事件的貢獻(xiàn)來解釋。然后,可以使用滯后的概念來描述向前(從固定結(jié)果到未來結(jié)果)或向后(從固定結(jié)果到過去的結(jié)果)的關(guān)系。
最終,滯后效應(yīng)統(tǒng)計模型的主要特征是它們的二維結(jié)構(gòu):該關(guān)系同時在預(yù)測變量的通常空間和滯后的維度上進(jìn)行描述。
最近,在評估環(huán)境壓力因素的短期影響的研究中已經(jīng)解決了滯后影響的問題:一些時間序列研究報告說,暴露于高水平的污染或極端溫度會在其發(fā)生后的幾天內(nèi)持續(xù)影響健康( Braga等,2001;Goodman等,2004;Samoli等,2009;Zanobetti和Schwartz,2008)。
給定定義的數(shù)據(jù)時間結(jié)構(gòu)和簡單的滯后維度定義,時間序列研究設(shè)計可提供多種優(yōu)勢來處理滯后影響,其中時間劃分是由等間隔和有序的時間點直接指定的。在這種情況下,滯后效應(yīng)可以用分布滯后模型(DLM)來優(yōu)雅地描述,該模型最初是在計量經(jīng)濟(jì)學(xué)中開發(fā)的(Almon 1965),最近在環(huán)境因素研究中用于量化健康效應(yīng)(Schwartz 2000; Zanobetti et al。2000; 2007)。Muggeo和Hajat,2009年)。通過這種方法,可以使用多個參數(shù)來解釋在不同時滯下的影響,從而將單個暴露事件的影響分布在特定的時間段內(nèi),
統(tǒng)計環(huán)境R提供了一組用于指定和解釋DLNM結(jié)果的工具。本文的目的是提供該程序包函數(shù)的全面概述,包括函數(shù)的詳細(xì)摘要以及以實際數(shù)據(jù)為例的示例。該示例涉及1987-2000年期間兩個環(huán)境因素(空氣污染(臭氧)和溫度)對死亡率的影響。在本文中,我重新考慮了定義DLNM,預(yù)測效果并借助圖形函數(shù)解釋結(jié)果的主要概念和實踐步驟。
在本節(jié)中,我介紹了時間序列模型的基本公式,然后介紹了描述非線性效應(yīng)和滯后效應(yīng)的方法,后者通過簡單DLM的模型來描述。
時間序列數(shù)據(jù)的模型通??梢员硎緸椋?/p>
其中μt≡E(Yt),Yt是t = 1時的一系列結(jié)果...,n,假設(shè)來自指數(shù)族的分布。函數(shù)sj指定變量xj和線性預(yù)測變量之間的關(guān)系,該變量由參數(shù)向量βj定義。變量uk包含具有由相關(guān)系數(shù)γk指定的線性效應(yīng)的其他預(yù)測變量
之前描述的數(shù)據(jù)說明性示例中,結(jié)果Yt是每日死亡計數(shù),假定是泊松分布,其中E(Y)= μ,V(Y)= φμ。
臭氧和溫度的非線性和滯后影響通過函數(shù)sj建模,該函數(shù)定義了預(yù)測變量和滯后變量兩個維度之間的關(guān)系
DLNM開發(fā)的第一步是定義預(yù)測變量空間中的關(guān)系。通常,非線性暴露-反應(yīng)依賴性通過適當(dāng)?shù)暮瘮?shù)s在回歸模型中表示。在完全參數(shù)化的方法中,提出了幾種不同的函數(shù),每個函數(shù)都具有不同的假設(shè)和靈活性。主要選擇通常依賴于描述光滑曲線的函數(shù),例如多項式或樣條函數(shù)(Braga等,2001;Dominici等,2004)。關(guān)于線性閾值參數(shù)化的使用(Muggeo 2010; Daniels et al。2000); 或通過虛擬參數(shù)化進(jìn)行簡單分層。
所有這些函數(shù)都對原始預(yù)測變量進(jìn)行了轉(zhuǎn)換,以生成包含在模型中作為線性項的一組轉(zhuǎn)換變量。相關(guān)的基礎(chǔ)函數(shù)包括原始變量x的一組完全已知的轉(zhuǎn)換,這些轉(zhuǎn)換生成一組稱為基礎(chǔ)變量的新變量。代數(shù)表示可以通過以下方式給出:
定義DLNM的第一步是在函數(shù)mkbasis()中執(zhí)行的,該函數(shù)用于創(chuàng)建基礎(chǔ)矩陣Z。此函數(shù)的目的是提供一種通用的方式來包含x的非線性效應(yīng)。舉例來說,我建立了一個將所選基函數(shù)應(yīng)用于向量
的基矩陣:R> mkais(1:5, tpe = "s", df = 4, egree = 2, cenvlue = 3)結(jié)果是一個列表對象,存儲基礎(chǔ)矩陣和定義該矩陣的自變量。在這種情況下,所選基準(zhǔn)是具有4個自由度的二次樣條,由參數(shù)類型df和度定義。
可以通過第二個參數(shù)類型選擇不同類型的基礎(chǔ)??捎玫倪x項是自然三次方或簡單的B樣條(類型=“ ns”或“ bs”);虛擬變量層;多項式(“ poly”);閾值類型的函數(shù)和簡單的線性(“ lin”)。參數(shù)df定義了基礎(chǔ)的維數(shù)(基礎(chǔ)的列數(shù),基本上是轉(zhuǎn)換后的變量的數(shù)目)。該值可能取決于參數(shù)“結(jié)點”。如果未定義,則默認(rèn)情況下將結(jié)放置在等距的分位數(shù)上。自變量度數(shù)選擇“ bs”和“ poly”的多項式度數(shù)。
參數(shù)cen和cenvalue用于使連續(xù)函數(shù)(類型“ ns”,“ bs”,“ poly”和“ lin”)的基準(zhǔn)居中,如果未提供cenvalue,則默認(rèn)為原始變量的均值。
定義DLNM的第二步是指定函數(shù),以對附加滯后維度中的關(guān)系進(jìn)行建模,以實現(xiàn)滯后效果。在這種情況下,給定時間t的結(jié)果Yt可以用過去的暴露量xt-L來解釋。給定最大滯后L時,附加滯后維度可以由n×(L +1)矩陣Q表示,例如:
簡單的DLM使用描述結(jié)果與滯后風(fēng)險之間的依賴關(guān)系的函數(shù)來允許線性關(guān)系的滯后效應(yīng)。
第二步通過函數(shù)mklagbasis()進(jìn)行,該函數(shù)調(diào)用mkbasis()來構(gòu)建基礎(chǔ)矩陣C。例如:
R> mkgbais(mxlag =5,type ="strta", kots = c(2, 4))在此示例中,在通過第一個參數(shù)maxlag將最大滯后固定為5之后,滯后向量0:maxlag對應(yīng)于
,將自動創(chuàng)建并應(yīng)用所選函數(shù)。DLNM規(guī)范的最后一步涉及同時定義預(yù)測器和滯后兩個維度中的關(guān)系。盡管非線性和滯后效應(yīng)的術(shù)語不同,但這兩個過程在概念上是相似的:定義表示相關(guān)空間中關(guān)系的基礎(chǔ)。
然后,通過交叉基的定義來指定DLNM,交叉基是二維函數(shù)空間,同時描述了沿預(yù)測變量范圍及其滯后維度的依存關(guān)系。首先,選擇x的基函數(shù)得出Z,然后為x的每個基變量創(chuàng)建附加的滯后維度,從而生成一個
數(shù)組R˙。通過定義的C,DLNM可以表示為:選擇交叉基等于如上所述選擇兩組基函數(shù),將其組合以生成交叉基函數(shù)。這是通過函數(shù)crossbasis()執(zhí)行的,該函數(shù)調(diào)用函數(shù)mkbasis()和mklagbasis()分別生成兩個基本矩陣Z和C,而不是通過張量積將它們組合起來以產(chǎn)生W??梢允褂么撕瘮?shù)指定臭氧和溫度的兩個交叉基。相關(guān)代碼為:
basi.o3 <- crossbasis(o3 varype= "hthr"在此示例中,臭氧的交叉基包括一個預(yù)測空間的閾值函數(shù),線性關(guān)系超過40.3 μgr / m3,并且虛擬參數(shù)化假設(shè)沿滯后0-1、2-5和6-10的層具有恒定的分布滯后效應(yīng)。相比之下,溫度的選項是:以25攝氏度為中心的6 自由度的立方樣條(默認(rèn)為等距的結(jié)點),以及以5自由度的立方樣條(默認(rèn)為lagtype =“ ns”)(結(jié)為25℃)。默認(rèn)情況下,最多30個滯后。
如果未設(shè)置中心值,則默認(rèn)的中心點是預(yù)測變量的平均值(例如,對于上述溫度的交叉基,溫度為25℃)。該值代表來自DLNM的預(yù)期效果的參考。參考值的選擇不影響模型的擬合,并且可以根據(jù)解釋問題選擇不同的值。
這些選擇可以通過函數(shù)summary()進(jìn)行檢查。例如:
R> summary(basis.temp)為了估計相應(yīng)參數(shù)η,可以在通用回歸函數(shù)的模型公式中包括交叉基矩陣。在該示例中,最終模型還包括一個自然立方樣條,以模擬季節(jié)性趨勢和長期趨勢分量,代碼是:
odel <- glmdeath ~ bais.temp+ basis.o +ns(tim 7 * 14) dw,如第3節(jié)所示,DLNM的規(guī)范涉及暴露序列的復(fù)雜參數(shù)化,但是參數(shù)η的估算是使用常見的回歸命令進(jìn)行的。但是,定義沿兩個維度的關(guān)系的此類參數(shù)的含義并不簡單??梢酝ㄟ^預(yù)測在具有適當(dāng)暴露值和L + 1滯后的網(wǎng)格上的滯后特定效果來輔助解釋。此外,可以通過將滯后特定貢獻(xiàn)相加來計算從滯后L到0持續(xù)暴露所預(yù)測的總體效果。預(yù)測的效果通過函數(shù)crosspred()在dlnm中計算。以下代碼在示例中計算了對臭氧和溫度的預(yù)測:
pre.o <- crosspred(basis, odel at = c(0:6,0., .3))傳遞給crosspred()的前兩個參數(shù)是“ crossbasis”類的對象和用于估計的模型對象。像上面的第一個示例一樣,可以通過at參數(shù)直接指定必須為其預(yù)測效果的暴露值向量。在這里,我選擇了臭氧中從0到65 μgr / m3的整數(shù),再加上所選閾值的值和10個單位以上的值(分別為40.3和50.3 μgr / m3)。然后,該函數(shù)調(diào)用crossbasis()來構(gòu)建預(yù)測基準(zhǔn),并根據(jù)模型中的參數(shù)生成預(yù)測效果和標(biāo)準(zhǔn)誤差。結(jié)果是“ crosspred”類的列表對象,該對象存儲了預(yù)測的效果。它包括滯后效應(yīng)矩陣和總體效應(yīng)向量,以及相應(yīng)的標(biāo)準(zhǔn)誤差矩陣和向量。如第5節(jié)所示。例如,臭氧增加10個單位的總體效果表示為RR和95%置信區(qū)間,可以通過以下公式得出:
R> pred.o3$allRRfit\["50.3"\]R> cbind(lRlow,alRigh)\["50.3",\]由DLNM估算的二維暴露-反應(yīng)關(guān)系可能難以概括。關(guān)聯(lián)的圖形表示提供了一般描述。調(diào)用高級函數(shù)plot.default(),persp()和filled.contour()來生成散點圖,3-D和等高線圖。例如,臭氧和死亡率之間的關(guān)系可以通過RR進(jìn)行總結(jié),即每次滯后會比閾值高出10 μgr / m3。該圖如圖1(左)所示,可通過以下方式獲得:
圖1:在閾值(40.3 μgr / m3)以上的臭氧增加10個單位時,滯后效應(yīng)(左)和總體效應(yīng)(右)對死亡率的影響。
R> plot(re.o3)參數(shù)ptype =“ slices”指定圖的類型,在這種情況下,沿著滯后空間在預(yù)測值var = 50.3處的預(yù)測效果矩陣的切片,對應(yīng)于在40.3 μgr / m3的閾值之上增加了10個單位。自變量ci表示置信區(qū)間的圖類型。如果使用cumul = TRUE,則繪制累積效果。
根據(jù)概念定義,可以使用兩種不同的觀點來讀取圖1中的左圖:它表示在第t天以50.3 μgr / m3的臭氧進(jìn)行單次暴露后,未來每一天的風(fēng)險增加。
點擊標(biāo)題查閱往期內(nèi)容
左右滑動查看更多
或者,可以繪制總體效果,該總體效果是通過使用參數(shù)ptype =“ overall”將滯后效應(yīng)相加得出的:
R> plot(pred )圖2:溫度和全因死亡率之間的暴露-反應(yīng)關(guān)系的三維圖,以25°C為參考。
一種更詳細(xì)的方法來表示溫度與死亡率之間的平滑關(guān)系,其中樣條函數(shù)已用于定義這兩個維度的相關(guān)性??梢允褂?-D和等高線圖對這種復(fù)雜的依賴關(guān)系進(jìn)行一般描述,該圖說明了由預(yù)測效果的整個網(wǎng)格給出的效果表面。所示的圖是通過以下方式獲得的:
R> plot(pred.temp, "contour")參考點(此處為25℃)是crossbasis函數(shù)在crossbasis()中中心的值。
三維圖或等高線圖提供了關(guān)系的全面摘要,但在表示特定預(yù)測值或滯后值的影響方面的能力有限。下面給出了更全面的圖,該圖片通過以下方式獲得:
R> plot(pred.temp, "slices圖3(左)顯示了由plot()和lines()中的參數(shù)var選擇的溫度值的預(yù)測滯后效應(yīng)影響。另外,圖3(右)顯示了針對特定滯后的沿溫度的預(yù)測效應(yīng)的多重曲線圖(左),以及圖3(右)中繪制的相同滯后效應(yīng),以及99%的置信區(qū)間。
這些圖表顯示了高溫和低溫影響的不同模式,高溫的影響非常強(qiáng)烈且迅速,低溫影響更為延遲,在最初的滯后中為負(fù)。
DLNM框架提供了機(jī)會,可以通過為預(yù)測變量和滯后變量兩個維度中的每個維度選擇基本函數(shù)來指定廣泛的模型選擇。前面各節(jié)中說明的示例代表了一種潛在的建模替代方法。為了討論該方法的靈活性以及模型選擇的相關(guān)問題,下面顯示了與不同模型的比較,以估計與溫度的關(guān)聯(lián)。具體來說,為預(yù)測變量的空間選擇多項式和層次函數(shù),同時保持相同的自然三次樣條,以模擬長達(dá)30天的滯后分布的滯后曲線。指定交叉基礎(chǔ),運行模型并預(yù)測效果的代碼為:
R> basis.temp2 <- crossbasis(emp, vrtpe = "poly",對于預(yù)測變量,第一種方法建議使用與第5節(jié)中的原始三次樣條相同的自由度的多項式函數(shù)。第二種模型基于一個更簡單的雙閾值函數(shù),將單個閾值置于25°C,之前確定為最低死亡率。此選擇還便于模型比較,因為這是其他兩個連續(xù)函數(shù)的中心點。這三個模型估計的總體效果顯示在由代碼產(chǎn)生的圖4(左)中:
R> plot(pred.temp, "overall", ylim = c(0.5, 2.5), ci = "n", lwd = 1.5,正如預(yù)期的那樣,替代模型會產(chǎn)生不同的結(jié)果。特別是,如果與具有等距結(jié)點的三次樣條進(jìn)行比較,則多項式模型會估計出低溫的“擺動”關(guān)系。取而代之的是,這兩個函數(shù)提供了非常接近的高溫影響估算值。相反,雖然雙閾值模型的線性假設(shè)似乎足以模擬低溫的依賴性,但有一些證據(jù)表明,這種方法往往會低估熱的影響。估計的分布滯后曲線的第二次比較如圖4所示(右),如下所示:
R> plot(pred, slices", va =32, im =95 .2="n"盡管在所有三個模型中都為滯后空間選擇了完全相同的函數(shù),但對預(yù)測變量的不同選擇提供了分布滯后曲線的不同估計值,與32°C的參考點相比,代表了32°C的影響。
圖4:溫度為32°C時的總體效應(yīng)(左)和滯后特異性效應(yīng)(右)對3種替代模型的全因死亡率的影響(以25°C為參考)。芝加哥1987-2000。
特別是,樣條曲線和多項式模型會產(chǎn)生非常相似的效果(正如預(yù)期的那樣,考慮到高溫度尾部曲線在其他維度上的擬合幾乎相同),而雙閾值模型的曲線顯示出截然不同的形狀。具體而言,由于缺乏此模型的靈活性,因此暗示收獲效果(較長滯后的負(fù)估計)可能表示偽像。
缺乏通用標(biāo)準(zhǔn),無法在可用的選擇中選擇總結(jié)關(guān)聯(lián)的最佳模型,從而減輕了對各種替代產(chǎn)品的規(guī)格要求的這種豐富性。在上面的示例中,我對樣條線模型表現(xiàn)出了明顯的偏愛。這種選擇既基于對函數(shù)屬性的了解,例如靈活性和穩(wěn)定性,又基于給出圖4所示結(jié)果的合理論據(jù)。但是,該結(jié)論是有問題的,而不是基于可靠的和一般的統(tǒng)計選擇標(biāo)準(zhǔn)。此外,結(jié)論是基于幾個先驗的選擇,就像閾值位置或結(jié)數(shù)或多項式次數(shù)一樣。
通常,在DLNM中,可以描述兩個不同的選擇級別。第一個涉及不同函數(shù)的規(guī)范。如上所示,該選擇應(yīng)既基于假設(shè)的暴露反應(yīng)形狀的合理性,又基于復(fù)雜性,可概括性和易于解釋之間的折衷。第二級重點關(guān)注特定函數(shù)內(nèi)的不同選擇,例如用于定義樣條曲線基的結(jié)的數(shù)量和位置。后者更難解決,盡管不是DLNM開發(fā)所固有的。一些研究人員在時間序列分析中研究了這個問題,提出了基于信息準(zhǔn)則(Akaike,Bayesian和其他變體),偏自相關(guān)或(廣義)交叉驗證的方法(Peng等,2006;Baccini等,2006)。2007)。用戶可以在DLNM中應(yīng)用相同的方法,但是他應(yīng)該記住,這些模型的二維性質(zhì)帶來了額外的復(fù)雜性,例如最大滯后的定義。此外,關(guān)于執(zhí)行不同準(zhǔn)則的依據(jù)還不是結(jié)論性的(Dominici等人,2008年)。需要進(jìn)一步研究以提供有關(guān)DLNM中模型選擇的一些指導(dǎo)。
可以建議使用其他方法。Muggeo(2008)提出了一個模型,該模型具有對預(yù)測變量空間進(jìn)行約束的分段參數(shù)化,以及基于懲罰性樣條的雙重懲罰基于分布滯后的參數(shù)化。此方法包括自動選擇閾值和分布滯后曲線的平滑度,并且已在R(Muggeo 2010)中完全實現(xiàn)。這種方法與靈活的DLNM的比較可以放寬對預(yù)測變量維度上形狀的假設(shè),從而可以提供有關(guān)此關(guān)系的其他一些見解。
本文介紹的DLNMs框架是為時間序列數(shù)據(jù)開發(fā)的。(1)中基本模型的一般表達(dá)式允許將此方法應(yīng)用于(廣義)線性模型(GLM)中的任何族分布和鏈接函數(shù),并擴(kuò)展到廣義加法模型(GAM)或基于廣義估計方程的模型(GEE)。但是,DLNM的當(dāng)前實現(xiàn)需要一系列等距,完整和有序的數(shù)據(jù)。
還使用選定滯后時間段中包含的先前觀察值來計算一系列轉(zhuǎn)換變量中的每個值。因此,將轉(zhuǎn)換變量中的第一個最大滯后觀測值設(shè)置為NA。允許在x中缺少值,但是由于相同的原因,將相同且下一個maxlag轉(zhuǎn)換后的值設(shè)置為NA。盡管正確,但對于零散的缺失觀測值存在的較長滯后時間的DLNM,這可能會產(chǎn)生計算問題。在這種情況下,可以考慮一些插補方法。
dlnm的主要優(yōu)點之一是,用戶可以使用標(biāo)準(zhǔn)回歸函數(shù)執(zhí)行DLNM,只需在模型公式中包括交叉基矩陣即可。通過函數(shù)lm(),glm()或gam(),可以直接使用它。但是,用戶可以與數(shù)據(jù)的時間序列結(jié)構(gòu)兼容地應(yīng)用不同的回歸函數(shù)。這些函數(shù)應(yīng)該具有針對coef()和vcov()的方法,或者用戶必須提取參數(shù)并將其包含在crosspred()的參數(shù)coef和vcov中(請參見第4節(jié))。
DLNM類代表描述描述非線性效應(yīng)和滯后效應(yīng)的現(xiàn)象的統(tǒng)一框架。該模型系列的主要優(yōu)點是在一個獨特的框架中統(tǒng)一了許多以前的方法來處理滯后效應(yīng),還為關(guān)系提供了更靈活的選擇。DLNM的規(guī)范僅涉及選擇兩個基數(shù)以生成(5)中的交叉基函數(shù),例如,包括線性閾值,層次,多項式和樣條變換。
交叉基和參數(shù)估計的分離提供了多個優(yōu)點。首先,如示例中所示,可以通過交叉基函數(shù)轉(zhuǎn)換多個顯示滯后效果的變量,并將其包含在模型中。其次,可以使用標(biāo)準(zhǔn)回歸命令進(jìn)行估計,并使用默認(rèn)的診斷工具和相關(guān)函數(shù)集。更重要的是,此實現(xiàn)提供了一個開放平臺,可以在其中實現(xiàn)使用不同回歸命令指定的其他模型,來幫助在其他情況下或研究設(shè)計中開發(fā)方法。
聯(lián)系客服