將偏倚數(shù)據(jù)視為AI輔助醫(yī)療中有啟示性的偽跡
Considering Biased Data as Informative Artifacts in AI-Assisted Health Care
就像其他領(lǐng)域的人工智能(AI)工具一樣,醫(yī)學(xué)領(lǐng)域的AI工具也通過檢測大量數(shù)據(jù)中的模式來發(fā)揮功能。AI工具可檢測出這些模式是因為它們可以“學(xué)習(xí)”(或者說經(jīng)過訓(xùn)練后,可以識別)數(shù)據(jù)中的某些特征。然而,采用某些方面偏斜的數(shù)據(jù)訓(xùn)練出的醫(yī)學(xué)AI工具可能會表現(xiàn)出偏倚,而當偏倚與不公正模式同時出現(xiàn)時,這些工具可能導(dǎo)致不平等和歧視。對于訓(xùn)練AI時使用的有偏倚臨床數(shù)據(jù),試圖修正這些數(shù)據(jù)的技術(shù)解決方案都是出于好意,但設(shè)計這些方案時所持有的想法是偏斜臨床數(shù)據(jù)是“垃圾”,正如計算機科學(xué)領(lǐng)域一句很有名的話:“垃圾進,垃圾出”。而我們建議將臨床數(shù)據(jù)視為偽跡,通過分析這些數(shù)據(jù),它們可以提示產(chǎn)生這些數(shù)據(jù)的社會和制度狀況。
通過將偏倚臨床數(shù)據(jù)視為偽跡,可以發(fā)現(xiàn)醫(yī)學(xué)和醫(yī)療領(lǐng)域存在不平等價值觀、了解醫(yī)療實踐和模式。將臨床數(shù)據(jù)作為偽跡進行分析也可為當前醫(yī)學(xué)AI開發(fā)方法提供替代方案。此外,通過將數(shù)據(jù)視為偽跡,可以將有偏倚AI的修正方法從狹隘技術(shù)視角擴展到社會技術(shù)視角,后者將歷史和當前社會背景視為解決偏倚的關(guān)鍵因素。這種更廣泛方法有助于實現(xiàn)公共衛(wèi)生目標(理解群體不平等),也提供了應(yīng)用AI的新方式(檢測與健康醫(yī)療平等相關(guān)的人種和族群校正模式、缺失數(shù)據(jù)和群體不平等)。
我們正見證AI崛起。ChatGPT和DALLE等AI工具看似可以模仿人類智能,但它們實際上是計算機程序,可以對數(shù)據(jù)進行分類、歸類、學(xué)習(xí)和過濾,從而解決問題、做出預(yù)測和執(zhí)行其他看似智能的任務(wù)。就像其他領(lǐng)域的AI工具一樣,醫(yī)學(xué)領(lǐng)域的AI工具也通過檢測大量數(shù)據(jù)中的模式來發(fā)揮功能。例如,使用大量有異常的影像對AI進行訓(xùn)練后,它可以學(xué)習(xí)檢測醫(yī)學(xué)影像中的異常。醫(yī)學(xué)AI已展現(xiàn)出驚人能力,尤其是在影像學(xué)領(lǐng)域。在識別醫(yī)學(xué)影像中的疾病方面,一些AI工具已經(jīng)至少與經(jīng)驗豐富的影像科醫(yī)師同樣準確。
然而,如果訓(xùn)練醫(yī)學(xué)AI工具時使用的是某些方面偏斜的數(shù)據(jù),這些工具可能會表現(xiàn)出偏倚。例如,開發(fā)用于檢測胸片中疾病的AI工具時,我們使用由成千上萬張胸片(有疾病或無疾病)組成的數(shù)據(jù)集訓(xùn)練該工具。AI將從這些影像中學(xué)習(xí)識別疾病。然后,當展示新影像時,AI工具將能夠確定胸片上是否有疾病證據(jù)。理想情況下,該工具將可以非常準確地識別疾病,而且用于每個人都是準確的。然而,如果訓(xùn)練數(shù)據(jù)包含大量具有特定特征(例如特定尺寸或形狀的胸部,或者將影像標記為有病或無病的方式存在差異)影的像,則該工具將變得有偏倚。
上述例子源自現(xiàn)實。像其他AI應(yīng)用程序一樣,醫(yī)學(xué)AI工具可能會因為訓(xùn)練數(shù)據(jù)中的已知和未知偏倚而變得有偏倚,而這種偏倚可能反映出社會不平等。最近一篇論文探討了根據(jù)胸部影像,應(yīng)用AI診斷疾病。該文章指出,即使采用包含成千上萬張影像的數(shù)據(jù)集進行訓(xùn)練,AI模型也會在醫(yī)療資源匱乏人群和少數(shù)族群中出現(xiàn)漏診。這種情況在同時符合兩方面或多方面特征的群體(例如黑種人女性和西班牙語裔女性)中尤為明顯。像這樣的醫(yī)學(xué)AI工具不僅有偏倚,而且也是造成健康醫(yī)療不平等的一個來源,因為在醫(yī)療資源匱乏人群和少數(shù)族群中已經(jīng)存在不公平的健康醫(yī)療差距(圖1)。例如,在美國,黑種人在肺癌早期得到診斷的可能性低于白種人。
圖1. 醫(yī)學(xué)人工智能(AI)中的偏倚
在這個例子中,AI偏倚(也稱為算法偏倚)很重要,因為它可能導(dǎo)致算法歧視。美國白宮科技政策辦公室(White House Office of Science and Technology Policy)最近將算法歧視確定為其《人工智能權(quán)利法案藍圖》(Blueprint for an AI Bill of Rights)中的一個關(guān)鍵問題。科研和學(xué)術(shù)界也已認識到AI偏倚發(fā)展成算法歧視的潛力。
些人提出了技術(shù)解決方案,例如試圖修正AI訓(xùn)練中使用的有偏倚臨床數(shù)據(jù)。修正訓(xùn)練數(shù)據(jù)的一種方法是匯集或“聯(lián)合”來自不同臨床機構(gòu)的數(shù)據(jù),從而在其中包括人口統(tǒng)計學(xué)上有代表性的數(shù)據(jù)集。其他解決方案包括輸入一些人口統(tǒng)計學(xué)類別的缺失數(shù)據(jù)或在不存在數(shù)據(jù)之處創(chuàng)建新合成數(shù)據(jù),從而人為地構(gòu)建人口統(tǒng)計學(xué)多樣性。
人們也在努力為AI創(chuàng)建新的、多樣化的、有代表性的數(shù)據(jù)集,方法是在數(shù)據(jù)集中包括廣泛多樣化人群,而不是人為地創(chuàng)建多樣化數(shù)據(jù)或把不同數(shù)據(jù)集拼湊在一起。美國國立衛(wèi)生研究院(National Institutes of Health)最近啟動了Bridge2AI計劃,該計劃耗資9600萬美元,旨在從頭開始構(gòu)建用于訓(xùn)練和建立新型醫(yī)學(xué)AI工具的多樣化數(shù)據(jù)集。
盡管這些努力都是出于好意,并且可以在最大限度減少AI偏倚和下游歧視方面取得一些進展,但設(shè)計這些措施時所持有的想法是偏斜臨床數(shù)據(jù)是“垃圾”,正如前文提到的計算機科學(xué)領(lǐng)域一句很有名的話:“垃圾進,垃圾出”,意思是不良或錯誤數(shù)據(jù)會導(dǎo)致不良或錯誤分析結(jié)果。我們也認可偏斜或缺失數(shù)據(jù)會導(dǎo)致算法偏倚和歧視,但我們提出了另一種解決AI偏倚的方法。我們將這些數(shù)據(jù)視為偽跡。從考古學(xué)和歷史學(xué)角度來看,偽跡是經(jīng)檢查后可提供社會相關(guān)信息(包括制度、活動和價值觀)的事物。偽跡很重要,因為它們可以揭示早期社會的情況,即使它們揭示的信仰和做法可能與當代社會不一致。
通過類似方式,我們可以將訓(xùn)練AI時使用的臨床數(shù)據(jù)視為偽跡,這些偽跡會揭示出可能令人不安的真相。例如,由Obermeyer及其同事開展,被廣泛引用的關(guān)于醫(yī)學(xué)中算法偏倚的研究表明,病情較重黑種人的醫(yī)療支出低于較健康白種人的醫(yī)療支出,這導(dǎo)致了不平等分配醫(yī)療資源的算法。然而,正如我們不會將顯示危害的偽跡視為垃圾或應(yīng)該修正的事物,我們也不應(yīng)該忽視當前的臨床偽跡。當被視為可以體現(xiàn)社會價值觀的偽跡時,Obermeyer及其同事發(fā)現(xiàn)的有偏倚臨床數(shù)據(jù)表明,正如社會學(xué)家Ruha Benjamin所寫的那樣,“黑種人患者并非'花費更少’,而是被認為生命價值更低?!?/span>
因此,當偏斜臨床數(shù)據(jù)被視為有啟示性的偽跡,而不是垃圾時,我們可以利用AI中的模式識別能力幫助我們理解這些模式在歷史和當代社會背景下的意義。下面三個例子說明了如何通過將偏倚臨床數(shù)據(jù)視為偽跡,進而識別醫(yī)療中的價值觀、醫(yī)療實踐和不平等模式。將臨床數(shù)據(jù)作為偽跡進行分析也可為當前的醫(yī)學(xué)AI開發(fā)方法提供替代方案。
人們?nèi)找骊P(guān)注在臨床數(shù)據(jù)中應(yīng)用人種和族群校正因子。例如,2021年,慢性腎病流行病學(xué)合作研究(Chronic Kidney Disease Epidemiology Collaboration)報告了用于估算腎小球濾過率的新公式,這一新公式無需進行人種校正,而之前的公式需要根據(jù)推測的黑種人較高肌肉量做出“校正”。研究表明,醫(yī)學(xué)中的人種校正可以追溯到使用男性白種人身體作為參考或標準,并以此衡量其他身體和生理功能的做法。
盡管遺傳起源可提供一些臨床相關(guān)信息,(如有助于預(yù)防疾病的遺傳變異),但人們逐漸認識到,醫(yī)學(xué)中的一些人種和族群校正有必要進行重新評估,因為其支持證據(jù)可能已經(jīng)過時,使用這些校正可能會加重健康醫(yī)療不平等。
了解對臨床數(shù)據(jù)進行人種校正的歷史具有重要意義,因為臨床預(yù)測模型可能建立在以下內(nèi)在邏輯之上:人種和某些方面生理特征(如肺功能)之間存在由生物學(xué)決定的關(guān)系。這些數(shù)據(jù)和假設(shè)可被導(dǎo)入醫(yī)學(xué)AI工具的開發(fā)中。如果不了解人種校正的歷史,那么看似無形的偏倚(如經(jīng)過人種“校正”的臨床數(shù)據(jù))可能很難通過純技術(shù)手段修正。我們在此強調(diào),種族主義價值觀(如白種人屬于正?;虬追N人至上)盡管在當代醫(yī)學(xué)中已經(jīng)被否定,但如果這些數(shù)據(jù)被用作訓(xùn)練集,它們?nèi)钥赡苡绊懏斍搬t(yī)療實踐及未來醫(yī)學(xué)AI工具開發(fā)。
由臨床人員、患者、工程師或開發(fā)人員以及社會科學(xué)和人文學(xué)者組成的跨學(xué)科團隊在上游將臨床數(shù)據(jù)作為偽跡進行檢查,可揭示出塑造數(shù)據(jù)的重要但隱含歷史及其他因素。此類干預(yù)有助于識別將在下游導(dǎo)致歧視性AI工具的數(shù)據(jù),并提出干預(yù)措施,用于解決造成這些偏斜數(shù)據(jù)的深層原因,如重新評估臨床實踐中的人種校正。
將偏斜健康醫(yī)療數(shù)據(jù)視為有必要仔細分析的偽跡也可指導(dǎo)醫(yī)療實踐。對于數(shù)據(jù)和以數(shù)據(jù)為中心的工具(如AI)所存在的問題,這可以指明社會技術(shù)解決方案。例如,性別身份在臨床數(shù)據(jù)中經(jīng)常缺失。與其只考慮這些數(shù)據(jù)的修正方法或放棄目前已擁有的大量數(shù)據(jù),我們可以分析這些數(shù)據(jù)所提供的豐富信息,并思考數(shù)據(jù)缺失提示了臨床和社會實踐中的哪些情況,例如臨床用語中缺乏統(tǒng)一的生物性別和社會性別術(shù)語,以及醫(yī)學(xué)信息采集表(medical intake form)仍在使用可能并非適用于所有人的過時性別身份術(shù)語。缺失數(shù)據(jù)可能還提示,一些人對披露該信息感到不自在或不贊成披露該信息,以及醫(yī)務(wù)人員可能缺乏收集該信息的相關(guān)培訓(xùn)或不具備收集該信息的權(quán)力。
對健康醫(yī)療數(shù)據(jù)采取偽跡方法也推動了對于AI能力的新興應(yīng)用。因為AI可快速識別模式,所以它可以發(fā)現(xiàn)臨床數(shù)據(jù)中的缺失,例如缺失特定人種群體,這可以作為生成假設(shè)的工具,進而推動關(guān)于臨床醫(yī)療和健康醫(yī)療不平等的新的跨學(xué)科研究。如果我們將這些數(shù)據(jù)視為偽跡,我們就不再將AI中的偏倚看做可通過技術(shù)手段(例如輸入缺失數(shù)據(jù)或創(chuàng)建新數(shù)據(jù)集)解決的問題。
將健康醫(yī)療數(shù)據(jù)視為偽跡而非垃圾也有助于揭示不同人群在醫(yī)療方面的不平等模式。遺憾的是,不公正健康醫(yī)療差距或健康醫(yī)療不平等的例子有許多,尤其是在美國少數(shù)族裔中。健康醫(yī)療數(shù)據(jù)反映了這些差距。如前文所述,黑種人患者確診肺癌時處于較晚期階段的可能性高于白種人。如果將這些數(shù)據(jù)用于訓(xùn)練癌癥預(yù)測算法,數(shù)據(jù)中的這一偏倚可能會預(yù)測黑種人患者生存率較低。較低的預(yù)測生存率又會影響提供給這些患者的治療選擇,尤其是在偏向預(yù)期結(jié)局較好患者的醫(yī)療資源分配系統(tǒng)中。
對于這一有偏算法,純技術(shù)應(yīng)對方案是使用替代數(shù)據(jù),或者在輸入信息中排除確診時的疾病階段。然而,將這些數(shù)據(jù)視為偽跡有助于揭示不平等模式,這些模式凸顯出診斷時的這些差異。這些數(shù)據(jù)的歷史表明,直到2年前,肺癌篩查指南才做出修訂,因為指南將高比例的黑種人歸類為不符合早期癌癥篩查標準。將健康醫(yī)療數(shù)據(jù)視為偽跡有助于闡明預(yù)防性醫(yī)療的人群層面排斥模式。如果不了解這段歷史,數(shù)據(jù)將顯示某一人群易出現(xiàn)不良醫(yī)療結(jié)局,而這種解讀方式可能在新AI預(yù)測工具開發(fā)中成為其基礎(chǔ),這又會導(dǎo)致新的治療不足和排斥情況(表1)。
AI和醫(yī)療界的偏倚日益受到關(guān)注,這是一個喜人現(xiàn)象,尤其是在COVID-19疫情仍有起伏的情況下。然而,AI的危害往往被不準確和狹隘地視為數(shù)據(jù)偏倚問題。盡管使用替代數(shù)據(jù)集的新型計算方法和讓多樣化參與者參與生物醫(yī)學(xué)研究有意義,但這些不可能是唯一解決方案,它們也不應(yīng)該基于過去和當前健康醫(yī)療數(shù)據(jù)對今天AI研發(fā)沒什么幫助這一隱含觀念。
我們建議從關(guān)注健康醫(yī)療數(shù)據(jù)缺陷轉(zhuǎn)向?qū)⑦@些數(shù)據(jù)視為人類活動和價值觀造成的偽跡。我們意識到,具有諷刺意味的是,考古學(xué)等領(lǐng)域的偽跡分析與殖民剝削的歷史相關(guān)聯(lián)。然而,我們借鑒了Zora Neale Hurston等人類學(xué)家的歷史偽跡分析傳統(tǒng)(他們旨在闡明被低估的歷史和行為),以及當前學(xué)者的工作(他們認為,為實現(xiàn)算法公平,將檔案方法[archival approach]作為替代方案非常重要),并將這些見解應(yīng)用于醫(yī)療領(lǐng)域。
將醫(yī)療數(shù)據(jù)視為偽跡進行分析擴展了AI開發(fā)中數(shù)據(jù)偏倚的技術(shù)解決方案,提供了將歷史和當前社會背景視為重要因素的社會技術(shù)解決方案。上述擴展方案有助于實現(xiàn)公共衛(wèi)生目標(理解群體不平等),并提出了AI新用途(將其用于檢測與健康醫(yī)療平等相關(guān)的數(shù)據(jù)模式)。我們認為應(yīng)該改變視角,從而使醫(yī)療領(lǐng)域AI開發(fā)體現(xiàn)我們的承諾和責任:確?,F(xiàn)在和未來的平等醫(yī)療。
聯(lián)系客服