中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
復(fù)雜調(diào)查數(shù)據(jù)分析連載一

在研究中,我們經(jīng)常對量化人群的某些特征感興趣,例如某種疾病的患病率、測量的平均值或使用優(yōu)勢比估計的暴露與疾病之間的關(guān)聯(lián)。在這樣做的過程中,我們在人口中的單位樣本中測量了這一特征。通常,單位是個人,盡管不一定如此。單位可以是社區(qū)、醫(yī)院、縣,甚至國家。例如,縣級年齡中位數(shù)是一個縣的特征,而不是個人的特征。

人口普查選擇人口中的每個單位。樣本從總體中選擇一個單元子集。選擇該子集的過程稱為抽樣設(shè)計。非概率樣本是研究人員選擇單位的樣本(例如,便利樣本)。概率樣本是這樣一個樣本,其中總體中的每個單元都有一個已知的被選中概率。這需要一個抽樣框架或抽樣單位列表及其相關(guān)的選擇概率。

在所有這些抽樣設(shè)計中,目標(biāo)是使用來自樣本的信息來推斷有關(guān)總體的某些信息。例如,我們可以使用個體之間的樣本平均血壓作為總體平均血壓的估計值。在分析使用概率抽樣獲得樣本的調(diào)查數(shù)據(jù)時,為了獲得代表總體的結(jié)果,分析必須考慮調(diào)查設(shè)計。一個例外是簡單的隨機抽樣。在簡單隨機抽樣中,總體中每個大小為 n 的組都具有相同的被選中概率。因此,人口中的每個單位都具有相同的被選中概率。大多數(shù)標(biāo)準(zhǔn)統(tǒng)計方法假設(shè)樣本是使用簡單隨機抽樣獲得的,并且在這種假設(shè)下,從簡單隨機樣本(例如樣本均值、樣本回歸斜率)計算的許多統(tǒng)計數(shù)據(jù)是對其總體對應(yīng)物的無偏估計。

許多調(diào)查使用復(fù)雜的抽樣設(shè)計。這有多種原因。例如,如果構(gòu)建一個列出人口中每個單位的抽樣框架很難或可能導(dǎo)致錯誤,則可以使用多階段抽樣來抽樣更大、更容易列出的單位(例如,住戶),然后調(diào)查其中的一些或所有單位。這些單位(可以在現(xiàn)場構(gòu)建準(zhǔn)確的抽樣框架)。在多階段樣本中,您首先對初級抽樣單位 (PSU)(例如家庭)進行抽樣。然后,您對每個初級抽樣單位(例如,家庭中的個人)內(nèi)的二次抽樣單位 (SSU) 進行抽樣。當(dāng)然,可以有兩個以上的抽樣階段。早期階段的單元形成集群。在某些設(shè)計中,不是對集群內(nèi)的 SSU 進行抽樣,而是選擇集群內(nèi)的每個單元(集群內(nèi)普查)。

使用復(fù)雜抽樣設(shè)計的另一個原因是,簡單的隨機樣本可能會導(dǎo)致某些感興趣的子組中的樣本量較小。例如,如果對種族/民族特定的平均血壓感興趣,研究人員可能需要一種抽樣設(shè)計,以確保每個亞組內(nèi)的樣本量最小。一個簡單的隨機樣本可能會導(dǎo)致大多數(shù)種族/民族的樣本量更大,而少數(shù)群體的樣本量則更小。與其增加總體樣本量以確保小組中有足夠的樣本量,不如對大組進行欠采樣和對小組進行過采樣更具成本效益。分層隨機抽樣通過首先將人口非隨機分成多個層(例如,基于種族/民族)然后在每個層內(nèi)隨機抽樣來解決這個問題。分層為大小不等的階層,然后在階層內(nèi)進行簡單隨機抽樣會導(dǎo)致不等概率抽樣——較小階層的個人比較大階層的個人更有可能被選中。

還可能出現(xiàn)其他復(fù)雜性,例如在集群或分層中指定不相等的抽樣概率,以及調(diào)查無響應(yīng)(選定的個人拒絕參與)。存在處理所有這些復(fù)雜性以產(chǎn)生抽樣權(quán)重的方法,對于每個抽樣單位,抽樣權(quán)重與代表多少人口單位有關(guān)——具有較大(較?。?quán)重的抽樣單位代表更多(較少)人口單位。

在一個簡單的隨機樣本中,每個抽樣單元具有相同的選擇概率,因此當(dāng)單元以某種方式組合形成統(tǒng)計量時具有相同的權(quán)重。例如,大小為n 的樣本中變量 X 的樣本均值是 (x1+x2+...+xn)/n,或 (1/n)×x1+ (1/n)×x2+...+(1/n)×xn。每個觀察值在樣本量上的權(quán)重等于1,我們將樣本平均值稱為未加權(quán)統(tǒng)計。但是,如果總體中的單位有不同的被選中概率(復(fù)雜調(diào)查設(shè)計就是這種情況)怎么辦?在這種情況下,未加權(quán)樣本均值是總體均值的有偏估計。但是,可以使用與每個單位的選擇概率相關(guān)的權(quán)重來獲得無偏估計,并且通過同時考慮權(quán)重和抽樣設(shè)計來獲得加權(quán)平均值的標(biāo)準(zhǔn)誤差 。除了權(quán)重不等的問題外,復(fù)雜調(diào)查設(shè)計的后果是,如果像簡單隨機樣本一樣處理不正確,則會違反回歸方法的獨立性假設(shè) 。

在本章中,我們將使用survey在計算描述性統(tǒng)計數(shù)據(jù)和進行回歸分析時考慮復(fù)雜的調(diào)查設(shè)計。完整文檔可在 help(package="survey")  Analysis of Complex Survey Samples2022 2 15 日訪問)中找到。

NHANES 調(diào)查設(shè)計

具有復(fù)雜設(shè)計的調(diào)查示例是國家健康和營養(yǎng)檢查調(diào)查 (NHANES)。

NHANES樣本不是簡單的隨機樣本。而是采用復(fù)雜、多階段、概率抽樣設(shè)計來選擇代表平民、非制度化美國人口的參與者。還對某些人口亞組進行過抽樣,以提高健康狀況指標(biāo)估計的可靠性和精度對于這些特定的子群。研究人員需要在分析中考慮到這一點,適當(dāng)指定抽樣設(shè)計參數(shù)?!?span style="font-size: 17px;font-family: Calibri;">-NHANES Module 2: Sample Design2022215日訪問)。

 有關(guān)NHANES綜合調(diào)查設(shè)計的完整描述,請參見上述引文中的鏈接。這里我們給出了一個過于簡化的描述,它抓住了基本思想。簡而言之,NHANES采用分層四階段抽樣設(shè)計。首先,根據(jù)人口普查區(qū)域和其他地理信息(非隨機)構(gòu)建地層。在每個階層中,美國縣(PSU)是隨機選擇的,較大的縣有更大的選擇概率。在縣內(nèi),選擇城市街區(qū),也與大小成比例。在街區(qū)內(nèi),隨機選擇住戶,對特定年齡、民族和收入群體進行過多抽樣(選擇概率較高)。最后,在家庭內(nèi)部,隨機選擇個人。

NHANES數(shù)據(jù)集中,統(tǒng)計軟件提供了以下變量,用于解釋抽樣設(shè)計。在本文中,我們使用2017-2018年的NHANES周期,因此這里給出的變量名稱來自該周期。

Stratum (SDMVSTRA)。在NHANES 2017-2018年的數(shù)據(jù)中,共有15Stratum

主要采樣單元(SDMVPSU)。在NHANES 2017-2018年的數(shù)據(jù)中,該變量只有兩個值(12)。這并不意味著只選擇了兩個縣,而是在每個階層中選擇了兩個縣。

訪談抽樣權(quán)重(WTINT2年)。每個NHANES參與者都接受了采訪,因此每個人的采訪抽樣權(quán)重均>0n=9254)。訪談根據(jù)對問題的回答收集自我報告信息。

檢查取樣權(quán)量(WTMEC2年)。大多數(shù)NHANES參與者(n=8704)在移動測試中心(MEC)接受檢查。檢查收集了基于人體測量(如身高、體重)、抽血(如血脂)和其他儀器(如雙能x射線吸收儀(DXA)掃描以評估身體成分(肌肉、脂肪和骨骼))的客觀測量數(shù)據(jù)。未接受檢查的參與者的檢查抽樣權(quán)重為0n=550)。

空腹子樣本抽樣權(quán)重 (WTSAF2YR)。一部分 12 歲及以上的參與者在禁食后抽血 (2711)。不在此子樣本中的參與者的空腹子樣本權(quán)重缺失 (NA)。此外,一些選擇此子樣本但無法提供適當(dāng)血液樣本的參與者的權(quán)重為零。其中一些零權(quán)重參與者的測量值仍包含在數(shù)據(jù)集中,但在考慮調(diào)查設(shè)計時,由于權(quán)重為零,它們將被自動排除。

還有其他子樣本,它們的相應(yīng)權(quán)重變量在某些 NHANES 變量(例如,全氟烷基和多氟烷基物質(zhì) Perfluoroalkyl and Polyfluoroalkyl Substances)的分析說明中注明。使用 NHANES 數(shù)據(jù)時,請始終查閱相應(yīng)的數(shù)據(jù)文檔和代碼書 data documentation and codebooks。

基于單個 NHANES 周期的樣本統(tǒng)計數(shù)據(jù)雖然對美國人口特征進行了無偏估計,但由于在任何給定周期中抽樣的初級抽樣單位并不多(NHANES 模塊 2:樣本設(shè)計,2022 2 15 日訪問NHANES Module 2: Sample Design),因此可能具有很大的可變性。例如,NHANES 2017-2018 僅對 30 個縣進行了抽樣調(diào)查。然而,信息可以很容易地在多個周期內(nèi)組合。這樣做時,必須創(chuàng)建一個新的權(quán)重變量,并考慮隨時間推移出現(xiàn)趨勢的可能性。有關(guān)如何在周期內(nèi)組合權(quán)重的說明,請參閱 NHANES 模塊 3:加權(quán)(2022 2 15 日訪問) NHANES Module 3: Weighting

NHANES 網(wǎng)站提供了一些示例 R 代碼,用于使用此鏈接上的survey包分析 NHANES 數(shù)據(jù) at this link。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
調(diào)查數(shù)據(jù)的加權(quán)處理技術(shù)
抽樣技術(shù)考試重點
《市場調(diào)查與預(yù)測》試題庫
重慶市巴蜀中學(xué)高2021屆第8次月考第20題:二項分布
財經(jīng)類英語詞匯每日十詞(299)循環(huán)播放
統(tǒng)計學(xué)名詞解釋
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服