隨著醫(yī)療信息化建設(shè)的普及,醫(yī)療大數(shù)據(jù)這個(gè)詞在過(guò)去一段時(shí)間如明星一般吸引著醫(yī)療界、學(xué)術(shù)界、工業(yè)界以及政府機(jī)構(gòu)廣泛關(guān)注的目光。數(shù)據(jù)之中,臨床電子病歷無(wú)可厚非地成為了這股浪潮中被關(guān)注的焦點(diǎn),很多有識(shí)之士異口同聲:“這是一個(gè)巨大的寶藏”。
我們要醫(yī)療AI大發(fā)展,靠什么?我們要真實(shí)世界數(shù)據(jù)研究,靠什么?一切都離不開以臨床電子病歷為代表的醫(yī)療大數(shù)據(jù)。然而,寶藏在那里,可通往寶藏之路并不平坦,很多尋寶人都曾經(jīng)歷“看得見,卻摸不著”的痛楚。
這是為什么呢?數(shù)據(jù)不開放、數(shù)據(jù)孤島、數(shù)據(jù)隱私、倫理問題等等都是背后的原因。但在這里,我們重點(diǎn)看其中的技術(shù)問題。
技術(shù)層面上,當(dāng)前的瓶頸問題在于:海量的醫(yī)療數(shù)據(jù)對(duì)計(jì)算機(jī)而言并不可計(jì)算。通俗的解釋是:這些以文本為主的電子病歷數(shù)據(jù)雖然可以讓專業(yè)人士看懂,但計(jì)算機(jī)理解不了,也就沒法發(fā)揮其計(jì)算能力,就更別提到應(yīng)用端的價(jià)值體現(xiàn)。
舉個(gè)例子,若想知道國(guó)內(nèi)排名前十的腫瘤醫(yī)院收治的、沒有家族病史的肺部惡性腫瘤患者總數(shù),數(shù)學(xué)上看起來(lái)足夠簡(jiǎn)單,但即便這些醫(yī)院真把數(shù)據(jù)貢獻(xiàn)出來(lái)也未必?cái)?shù)的準(zhǔn)。
為什么?家族病史都藏在病歷中的一段段的自然語(yǔ)言文本中,要讓計(jì)算機(jī)先把它們識(shí)別出來(lái),這事靠人力可就“勞民傷財(cái)”了。
可即使識(shí)別出來(lái)也還不夠,如果我們的計(jì)算機(jī)不知道“非小細(xì)胞肺癌”就是一種肺部惡性腫瘤,那計(jì)算機(jī)仍不會(huì)去數(shù)這個(gè)數(shù)。這只是一個(gè)再普通不過(guò)的例子,在通往數(shù)據(jù)寶藏之路上,為了讓數(shù)據(jù)可計(jì)算,隱藏的陷阱常常讓尋寶人跌倒??墒潜鹊垢膳碌?,是有些陷阱能把尋寶人迷暈,讓其沉浸在尋到寶的幻覺中不自知,拿著石頭當(dāng)金子,最后害人害己,貽笑大方。
我們?cè)谶@里具體討論的是在臨床電子病歷自然語(yǔ)言處理上的三個(gè)陷阱和一些識(shí)別陷進(jìn)的方案,分別是:數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)結(jié)構(gòu)化問題、數(shù)據(jù)標(biāo)準(zhǔn)化問題。配合前邊的例子,這些幾乎是在電子病歷為代表的醫(yī)療大數(shù)據(jù)尋寶路上的必過(guò)之關(guān)卡。
先聊數(shù)據(jù)質(zhì)量問題。臨床電子病歷的質(zhì)量真的有問題,如果這些問題不解決,我們隨后的許多努力就將白白浪費(fèi)。無(wú)論數(shù)據(jù)的信息提取和標(biāo)準(zhǔn)化做的多好,無(wú)論構(gòu)建出多么美妙的AI模型,因?yàn)樵紨?shù)據(jù)是錯(cuò)的,得到的所有模型和結(jié)論也就跟著錯(cuò)了。
那么數(shù)據(jù)質(zhì)量有什么問題呢?舉些個(gè)例子,如果我們發(fā)現(xiàn)一個(gè)患者的診斷結(jié)論為卵巢癌,而患者性別為男,還會(huì)用這個(gè)數(shù)據(jù)做進(jìn)一步的臨床研究嗎?如果我們發(fā)現(xiàn)病理報(bào)告匯總中當(dāng)天來(lái)檢查的二十多個(gè)患者的生日全部是同一天,這得是多么大的“緣分”?如果我們發(fā)現(xiàn)肺炎患者大面積缺失血常規(guī)檢查的結(jié)果;如果我們發(fā)現(xiàn)…這一切都會(huì)導(dǎo)致我們的數(shù)據(jù)產(chǎn)出錯(cuò)誤的結(jié)論。
因此,在所有的NLP技術(shù)模型構(gòu)建之前,先要想辦法發(fā)現(xiàn)這些問題。不難看出,上述例證有一個(gè)共同的特點(diǎn),即與正常的醫(yī)學(xué)邏輯、HIT邏輯、常識(shí)邏輯相違背。
當(dāng)然,有足夠經(jīng)驗(yàn)的醫(yī)生可以發(fā)現(xiàn)并判斷這里大部分問題,但在海量的電子病歷中靠人工發(fā)現(xiàn)的辦法肯定不靠譜。因此,自動(dòng)化的數(shù)據(jù)質(zhì)量問題發(fā)現(xiàn)就變得很重要了。于是很自然的就要構(gòu)造符號(hào)化的數(shù)據(jù)質(zhì)控知識(shí)庫(kù),基本上采用基于一階邏輯的數(shù)理邏輯表達(dá),配合上概率就可以做到。這里真正的難點(diǎn)是數(shù)據(jù)質(zhì)控規(guī)則的構(gòu)建,包括質(zhì)控規(guī)則的人工定義與符號(hào)化,自動(dòng)化的質(zhì)控規(guī)則挖掘與人工校驗(yàn)。
知識(shí)庫(kù)的構(gòu)建一定是來(lái)源于數(shù)據(jù)的,不是“拍腦袋”想出來(lái)的。上邊提到的數(shù)據(jù)質(zhì)量問題得到一定程度的解決以后,就到了和我們后邊要介紹的自然語(yǔ)言處理技術(shù)非常相關(guān)的質(zhì)量問題了,就是標(biāo)注數(shù)據(jù)的質(zhì)量問題。大部分AI模型的構(gòu)建是需要人工標(biāo)注的數(shù)據(jù)的,這里就包括針對(duì)臨床電子病歷的結(jié)構(gòu)化算法和歸一化算法模型訓(xùn)練。
這里最難的還不是標(biāo)注工作的工作量本身,而是標(biāo)注的標(biāo)準(zhǔn)問題。有些詞的實(shí)體類別判斷和詞的邊界切分很難達(dá)成共識(shí)。
比如:一個(gè)術(shù)語(yǔ)詞究竟是一種“癥狀名稱”還是一種“疾病名稱”?這一辯論常常被專業(yè)的醫(yī)學(xué)標(biāo)注人員所爭(zhēng)執(zhí)。
此外,我們需要標(biāo)注的結(jié)論往往不是直接從電子病歷的文本中識(shí)別出來(lái)的,而是要經(jīng)過(guò)一系列的邏輯判斷得到的一個(gè)“新詞”。
舉個(gè)例子,在患者的“一述五史”中,我們需要提取一個(gè)字段名稱叫做“是否有吸煙史”,因此我們需要標(biāo)注的結(jié)論是“是”或者“否”,而這兩個(gè)字在病歷中是不直接出現(xiàn)的,那就需要拆解邏輯,要明確從病例中識(shí)別出什么,最終判斷這個(gè)是否吸煙的結(jié)論。
而究竟要從病例中識(shí)別出哪些詞語(yǔ)?如何判斷這些詞語(yǔ)間的關(guān)系從而得到一個(gè)最后標(biāo)注結(jié)論?一切都需要標(biāo)注的標(biāo)準(zhǔn)和標(biāo)注人員的共識(shí)才能保證質(zhì)量。
這個(gè)問題的難點(diǎn)在于:我們需要標(biāo)注判斷的字段數(shù)量不是幾個(gè),幾十個(gè),而是數(shù)千個(gè)。僅針對(duì)數(shù)據(jù)的標(biāo)注標(biāo)準(zhǔn)問題,就有大量的工作要做,并且要結(jié)合實(shí)際需要的科研及應(yīng)用場(chǎng)景來(lái)做。這需要非常多的專家資源支持和大量的數(shù)據(jù)使用過(guò)程中積累的經(jīng)驗(yàn)才能做到。
只有這些做到了,我們的機(jī)器學(xué)習(xí)算法才能發(fā)揮作用,對(duì)病歷中的自然語(yǔ)言做到真正的理解從而得到正確的模型。
由此可見,在自然語(yǔ)言處理的算法之前,已經(jīng)有很多挑戰(zhàn)性的問題需要提前解決,而這些問題解決的好壞,已經(jīng)極大的影響后面的算法設(shè)計(jì)與執(zhí)行。
解決了這些,我們?cè)賮?lái)開始討論自然語(yǔ)言處理的實(shí)際技術(shù)問題。
假設(shè)數(shù)據(jù)質(zhì)量治理好了,接下來(lái)要讓數(shù)據(jù)可計(jì)算,第一個(gè)問題就是要從電子病歷的自然語(yǔ)言文本中提取出我們想要的關(guān)鍵內(nèi)容。如從不同章節(jié)中識(shí)別診斷名稱,藥品名稱,用藥計(jì)量,腫瘤部位,腫瘤大小,手術(shù)名稱等。
做自然語(yǔ)言處理的同仁一眼就看能這是實(shí)體識(shí)別(NER)和關(guān)系分類問題。這塊技術(shù)已經(jīng)比較成熟,尤其是CNN+Bi-LSTM+CRF及其各種變種算法,再用上BERT,是不是可以解決所有問題?
但這種機(jī)器學(xué)習(xí)方法在這個(gè)領(lǐng)域是否真的是一劑萬(wàn)能良藥呢?很遺憾,雖然這是一系列好方法,但把主要精力放在這些模型上并非最明智的選擇。
我們分析一下原因,文本中實(shí)體的識(shí)別,也就是我們說(shuō)的NER問題基本上靠?jī)深愋畔⒌慕#旱谝活愂亲層?jì)算機(jī)認(rèn)識(shí)一個(gè)詞,比如一見到“血管減壓術(shù)”,就知道這極有可能是一種手術(shù)名稱;第二類是上下文信息,因?yàn)楹芏嘣~或術(shù)語(yǔ)具有很強(qiáng)的歧義性,需要根據(jù)上下文語(yǔ)境判斷這個(gè)詞是否在這里代表了其它的意思而并不是我們需要識(shí)別的實(shí)體名稱。
醫(yī)療信息的NLP領(lǐng)域與傳統(tǒng)NER解決的諸如人名,地名,機(jī)構(gòu)名等的識(shí)別不同的是,醫(yī)療術(shù)語(yǔ)的歧義性并不是很強(qiáng),而且上下文提供的信息相對(duì)偏弱。因此讓計(jì)算機(jī)本身就認(rèn)識(shí)一個(gè)詞比利用上下文的判斷就顯得更加重要。
于是,比設(shè)計(jì)復(fù)雜模型、拼命的調(diào)整參數(shù)顯得更加實(shí)用的是:構(gòu)建出一個(gè)針對(duì)目標(biāo)實(shí)體的詞表。
由于臨床中目前為止術(shù)語(yǔ)的使用并不規(guī)范,想要事先靠專業(yè)知識(shí)直接把詞表定義好是一件很難的事情。那么,如何從海量醫(yī)療文本中挖掘所需要的詞表就變得很重要了。
不難發(fā)現(xiàn),詞表的挖掘一定程度上是依賴于實(shí)體的識(shí)別,而實(shí)體識(shí)別效果的好壞又依賴于詞表的覆蓋和構(gòu)建質(zhì)量。因此,這并不是兩個(gè)獨(dú)立的過(guò)程,實(shí)體識(shí)別與詞表的挖掘是需要迭代式的同時(shí)展開的。
在迭代的過(guò)程中,要有足夠大量的文本數(shù)據(jù)。我們想挖掘的詞表要曾經(jīng)出現(xiàn)在這些文本中才有可能被挖掘出來(lái),而且為保證詞表質(zhì)量和產(chǎn)出效率,這個(gè)過(guò)程還需要人機(jī)的協(xié)同并使用主動(dòng)學(xué)習(xí)的方式進(jìn)行采樣。
對(duì)于臨床電子病歷的結(jié)構(gòu)化,實(shí)體的識(shí)別僅僅是第一步。這是因?yàn)?,真正需要結(jié)構(gòu)化的內(nèi)容會(huì)遠(yuǎn)比能從病歷里邊直接識(shí)別出來(lái)的實(shí)體更加復(fù)雜。這里還需要實(shí)體間關(guān)系的判定和很強(qiáng)的醫(yī)學(xué)邏輯推理,最終產(chǎn)出一個(gè)需要的字段。
舉個(gè)例子,對(duì)于乳腺癌患者的病歷,醫(yī)生常常不會(huì)在病例中顯式寫明當(dāng)前患者的分期,但這又是臨床研究中非常重要的字段。這種情況下,我們就需要從病理報(bào)告中識(shí)別出腫瘤原發(fā)病灶大小和淋巴結(jié)轉(zhuǎn)移部位及個(gè)數(shù)等并且準(zhǔn)確判斷出他們之間的關(guān)系,從影像檢查報(bào)告中識(shí)別出遠(yuǎn)處轉(zhuǎn)移、淋巴結(jié)轉(zhuǎn)移及腫瘤周邊浸潤(rùn)信息,按照NCCN指南對(duì)TNM分期的定義,分別基于腫瘤大小及周邊浸潤(rùn)信息推理T分期,淋巴結(jié)轉(zhuǎn)移部位及個(gè)數(shù)推理N分期,遠(yuǎn)處部位輸出M分期……通過(guò)一系列的醫(yī)學(xué)邏輯推理,最終得到患者完整的TNM分期。
因此,對(duì)于臨床電子病歷的結(jié)構(gòu)化,我們需要準(zhǔn)確的實(shí)體識(shí)別,針對(duì)識(shí)別出的基礎(chǔ)實(shí)體進(jìn)行關(guān)系判定。例如,我們必須弄清識(shí)別出的多個(gè)個(gè)數(shù)究竟哪一個(gè)是針對(duì)淋巴轉(zhuǎn)移的。因此,最后經(jīng)過(guò)醫(yī)學(xué)邏輯的知識(shí)推理才能完成一個(gè)高質(zhì)量的復(fù)雜字段。
那么,能否采用端對(duì)端的模型呢?如果有大量的標(biāo)注語(yǔ)料,端對(duì)端模型的訓(xùn)練確實(shí)可實(shí)現(xiàn)比較好的效果,但是數(shù)據(jù)標(biāo)注的成本不可忽視,畢竟我們要處理的是成百上千的目標(biāo)字段。
另外,端對(duì)端的機(jī)器學(xué)習(xí)模型在實(shí)際應(yīng)用中最大的一個(gè)弊端是其“黑盒效應(yīng)”。如果發(fā)現(xiàn)了錯(cuò)誤,工作人員無(wú)法判斷錯(cuò)誤出現(xiàn)在哪個(gè)環(huán)節(jié),很難下手去修正錯(cuò)誤。
在實(shí)際應(yīng)用中,我們建議將基于詞表構(gòu)建和識(shí)別模型構(gòu)建結(jié)合的方式進(jìn)行實(shí)體識(shí)別;通過(guò)關(guān)系分類的機(jī)器學(xué)習(xí)模型與規(guī)則模型混合的方式進(jìn)行關(guān)系判定;再經(jīng)過(guò)醫(yī)學(xué)邏輯的知識(shí)庫(kù)經(jīng)過(guò)知識(shí)推理來(lái)實(shí)現(xiàn)高質(zhì)量的電子病歷結(jié)構(gòu)化。這個(gè)過(guò)程是符號(hào)知識(shí)與統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法集成在一起的系統(tǒng)工程。
信息提取工作完成,也就是電子病歷的結(jié)構(gòu)化工作做好了。是不是數(shù)據(jù)可計(jì)算性得到解決了呢?還沒時(shí)間慶祝,因?yàn)閿?shù)據(jù)依然不可用。下一個(gè)棘手的問題已經(jīng)等在那了。這就是識(shí)別出的實(shí)體的標(biāo)準(zhǔn)化問題,也稱為術(shù)語(yǔ)歸一化問題。
這里不討論通過(guò)正則表達(dá)式就可以解決的格式標(biāo)準(zhǔn)化問題,比如時(shí)間日期的表達(dá),用藥劑量的單位統(tǒng)一等問題。重點(diǎn)討論需要自然語(yǔ)言的語(yǔ)義信息和知識(shí)才能做到的術(shù)語(yǔ)標(biāo)準(zhǔn)化。
舉個(gè)例子,“雙側(cè)交感神經(jīng)鏈切斷術(shù)” 是一種手術(shù)名稱,而在某個(gè)手術(shù)標(biāo)準(zhǔn)表中其標(biāo)準(zhǔn)表達(dá)方式是 “交感神經(jīng)或神經(jīng)節(jié)的切斷術(shù)”。如果我們不能把各種不同的表達(dá)方式歸結(jié)到一些標(biāo)準(zhǔn)的說(shuō)法,就真的會(huì)出現(xiàn)前邊提到過(guò)的數(shù)數(shù)數(shù)不準(zhǔn)的問題。
臨床病歷中術(shù)語(yǔ)表達(dá)不標(biāo)準(zhǔn)這個(gè)問題有多嚴(yán)重?如果給醫(yī)生一個(gè)醫(yī)療術(shù)語(yǔ)名稱,讓醫(yī)生自己想各種可能的等價(jià)或下位提法,醫(yī)生能想出多少個(gè)?在臨床實(shí)踐中,輕松找出幾十個(gè)提法的比較多見,幾百個(gè)的也不少,如果見到上千個(gè)的也不用吃驚,因?yàn)樗钦鎸?shí)的存在。
從自然語(yǔ)言處理的角度看,這似乎是一個(gè)典型的實(shí)體鏈接問題。然而,一般的實(shí)體鏈接問題在標(biāo)準(zhǔn)目標(biāo)實(shí)體部分往往有充足的相關(guān)描述信息,而且待標(biāo)準(zhǔn)化的實(shí)體也會(huì)有足夠的相關(guān)描述用于幫助模型的訓(xùn)練。但在醫(yī)療術(shù)語(yǔ)的標(biāo)準(zhǔn)化這個(gè)問題中,很多標(biāo)準(zhǔn)術(shù)語(yǔ)表只有這個(gè)術(shù)語(yǔ)名稱本身,并沒有其它信息可用,這給我們的很多標(biāo)準(zhǔn)算法帶來(lái)了極大的挑戰(zhàn)。
于是,這要求我們一邊要充分利用醫(yī)療術(shù)語(yǔ)本身的字面信息,另一方面要構(gòu)建每個(gè)標(biāo)準(zhǔn)術(shù)語(yǔ)的相關(guān)描述型信息用于計(jì)算其與非標(biāo)準(zhǔn)化臨床用語(yǔ)間的關(guān)系。
這里邊有兩個(gè)關(guān)鍵字,一個(gè)是“知識(shí)”,一個(gè)是“特征”。對(duì)于字面信息的使用主要依靠的是知識(shí)。舉個(gè)例子,標(biāo)準(zhǔn)術(shù)語(yǔ)體系中有一個(gè)詞叫做“面神經(jīng)微血管減壓術(shù)”,而實(shí)際在臨床病歷中我們更常見的是非標(biāo)準(zhǔn)化的提法,比如“左側(cè)三叉、面、后組顱神經(jīng)MVD”。
在這個(gè)例子中,如果我們的計(jì)算機(jī)掌握著知識(shí)知道左側(cè)三叉包含于面神經(jīng),微血管減壓術(shù)與MVD所指基本無(wú)異,那么我們已經(jīng)判斷計(jì)算機(jī)已經(jīng)可以判斷的八九不離十了。
另一方面,如果我們知道了每個(gè)手術(shù)主要針對(duì)哪些疾病,哪些人群,這些人治療后的常規(guī)用藥等信息,都可以當(dāng)作特征通過(guò)機(jī)器學(xué)習(xí)的方法將臨床術(shù)語(yǔ)與標(biāo)準(zhǔn)術(shù)語(yǔ)關(guān)聯(lián)起來(lái)。
抓住這兩點(diǎn)是解決這個(gè)問題的關(guān)鍵,具體方法上,有生成模型,翻譯模型,規(guī)則體系,語(yǔ)義相似度計(jì)算等等,但無(wú)論采用哪種模型方法,都離不開諸如上例中的身體部位本體知識(shí)等知識(shí)形式,同樣也離不開來(lái)自真實(shí)病歷,醫(yī)學(xué)典籍,互聯(lián)網(wǎng)等信息來(lái)源的實(shí)體描述所產(chǎn)生的特征。
另外,這個(gè)問題的另一個(gè)大挑戰(zhàn)是長(zhǎng)尾問題,很多非標(biāo)準(zhǔn)術(shù)語(yǔ)出現(xiàn)的次數(shù)很少,所以要求我們算法是迭代進(jìn)行的。當(dāng)被歸結(jié)到標(biāo)準(zhǔn)詞的術(shù)語(yǔ)數(shù)量越大,我們所獲得的標(biāo)準(zhǔn)詞特征表達(dá)就越豐富,相關(guān)知識(shí)也就越完備,對(duì)長(zhǎng)尾的覆蓋能力也就越強(qiáng)。
需要標(biāo)準(zhǔn)化的術(shù)語(yǔ)類型非常多,除了上邊舉例的手術(shù),還有診斷,檢查,檢驗(yàn),藥品,癥狀等等。但無(wú)論哪一類,其基本方法和道理都是類似的,既需要知識(shí),同時(shí)也需要豐富的特征和機(jī)器學(xué)習(xí)的模型用來(lái)刻畫里邊深藏的語(yǔ)義。
除了以上談到的挑戰(zhàn)問題,在具體臨床電子病歷處理任務(wù)執(zhí)行落地的過(guò)程中,還有很多陷阱需要邁過(guò)。這里推薦幾個(gè)大家并不陌生而且行之有效的機(jī)器學(xué)習(xí)框架。它們看似無(wú)奇但十分重要,可以讓我們的工作效率和效果大幅提升。
第一個(gè)是針對(duì)數(shù)據(jù)標(biāo)注的主動(dòng)學(xué)習(xí);第二個(gè)是針對(duì)跨醫(yī)療機(jī)構(gòu)數(shù)據(jù)處理場(chǎng)景的遷移學(xué)習(xí);第三個(gè)是對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步挖掘應(yīng)用的聯(lián)邦學(xué)習(xí)。讓我們一個(gè)一個(gè)簡(jiǎn)單解釋一下他們?yōu)槭裁粗匾?。希望能給實(shí)際應(yīng)用中遇到的具體困難帶來(lái)一些啟發(fā)。
1、主動(dòng)學(xué)習(xí)問題
眾說(shuō)周知,要訓(xùn)練機(jī)器學(xué)習(xí)模型,離不開高質(zhì)量標(biāo)注的訓(xùn)練數(shù)據(jù),臨床電子病歷也是如此。醫(yī)療領(lǐng)域的數(shù)據(jù)標(biāo)注是個(gè)復(fù)雜的工作,這里邊對(duì)醫(yī)學(xué)專業(yè)知識(shí)的要求是非常高的,有些情況甚至需多位資深臨床專家共同判斷才能達(dá)成共識(shí)。
這意味著臨床電子病歷文本數(shù)據(jù)標(biāo)注的成本和很多人人都可以理解的通用領(lǐng)域文本標(biāo)注相比會(huì)更高。因此標(biāo)注數(shù)據(jù)需要精選才行,每一條標(biāo)注數(shù)據(jù)都應(yīng)該有其代表性,還要積累到一定數(shù)量形成統(tǒng)計(jì)意義且擬合真實(shí)數(shù)據(jù)分布。
這個(gè)時(shí)候,“主動(dòng)學(xué)習(xí)”就變得非常重要了?!?mark>主動(dòng)學(xué)習(xí)”可以在數(shù)據(jù)標(biāo)注平臺(tái)上根據(jù)無(wú)標(biāo)注數(shù)據(jù)的分布情況,結(jié)合已經(jīng)初步預(yù)訓(xùn)練的算法模型在新標(biāo)注數(shù)據(jù)上邊的表現(xiàn),來(lái)動(dòng)態(tài)決定下一步需要標(biāo)注的樣本。這一過(guò)程經(jīng)常是在無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的框架下進(jìn)行的。
2、遷移學(xué)習(xí)問題
如果真的動(dòng)手處理過(guò)多家醫(yī)療機(jī)構(gòu)的臨床電子病歷數(shù)據(jù)就會(huì)發(fā)現(xiàn),各個(gè)醫(yī)療機(jī)構(gòu)之間——甚至同一家醫(yī)療機(jī)構(gòu)的同一個(gè)科室內(nèi)的不同醫(yī)生之間——在病歷書寫上的習(xí)慣不盡相同。
這不光體現(xiàn)在用詞上,還體現(xiàn)在語(yǔ)言的模式上。這意味著我們?cè)谝粋€(gè)醫(yī)療機(jī)構(gòu)訓(xùn)練出來(lái)的NLP模型,放在另外一個(gè)機(jī)構(gòu)數(shù)據(jù)上邊,其表現(xiàn)可能會(huì)大相徑庭。
如果每家醫(yī)療機(jī)構(gòu)的數(shù)據(jù)都重新標(biāo)注,我們就會(huì)再一次面臨成本高企問題,這里的成本不僅僅是標(biāo)注的人力,還有非常昂貴的時(shí)間投入。這個(gè)時(shí)候一種可以把已經(jīng)有過(guò)很多標(biāo)注數(shù)據(jù)的場(chǎng)地訓(xùn)練的模型遷移到另一個(gè)只有少量標(biāo)注數(shù)據(jù)的新場(chǎng)地就變得尤為重要了,這也是遷移學(xué)習(xí)在這個(gè)問題上的重要價(jià)值。
技術(shù)層面有意思的一點(diǎn)是,傳統(tǒng)的遷移學(xué)習(xí)模型往往定義一個(gè)原始域(source domain)和一個(gè)目標(biāo)域(target domain),在給定的兩個(gè)域上邊進(jìn)行模型遷移。而實(shí)際情況是,我們需要處理的醫(yī)療機(jī)構(gòu)一旦數(shù)量多起來(lái),就會(huì)出現(xiàn)多個(gè)source domains和多個(gè)target domains。而他們數(shù)據(jù)之間用語(yǔ)與語(yǔ)言模式的相似程度,是可以通過(guò)語(yǔ)言模型和詞表挖掘等方式度量的。
這種情況下,我們需要處理的數(shù)據(jù)源就會(huì)形成一張網(wǎng),我們的模型就會(huì)在這張網(wǎng)上邊流轉(zhuǎn)起來(lái),模型就像“課程學(xué)習(xí)”一樣先走到最可遷移的部分,然后逐步擴(kuò)散,各個(gè)域都可以相互影響,最終形成了一個(gè)新的網(wǎng)絡(luò)優(yōu)化問題。這個(gè)問題在這里不做更深入介紹。
3、聯(lián)邦學(xué)習(xí)問題
正如前邊提到的,我們經(jīng)常要同時(shí)處理多家醫(yī)療機(jī)構(gòu)的數(shù)據(jù),用于自然語(yǔ)言處理模型的訓(xùn)練。但醫(yī)療數(shù)據(jù)有著極高的敏感性,包括數(shù)據(jù)的權(quán)屬問題、數(shù)據(jù)的隱私問題、數(shù)據(jù)的合規(guī)問題等等,都要求我們要在保證數(shù)據(jù)絕對(duì)安全、合規(guī)的前提下進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練。
那么如何做到呢?聯(lián)邦學(xué)習(xí)的框架和方法在這里將起到關(guān)鍵作用。在數(shù)據(jù)絕對(duì)安全隔離的前提下,如何在每個(gè)醫(yī)療機(jī)構(gòu)的私有云進(jìn)行模型訓(xùn)練,而將模型參數(shù)匯總、優(yōu)化、分發(fā)進(jìn)行整體優(yōu)化。
基于以上介紹的幾類機(jī)器學(xué)習(xí)方法和思路,在實(shí)際問題的解決中經(jīng)常要幾類框架方法混合使用。而如何綜合運(yùn)用這些方法達(dá)到低成本可以解決問題的程度,就需要在工程實(shí)踐中不斷地探索和積累經(jīng)驗(yàn)了。
大規(guī)模臨床電子病歷要真的發(fā)揮其價(jià)值需要解決很多問題。上邊提到過(guò)的數(shù)據(jù)質(zhì)量治理問題、數(shù)據(jù)結(jié)構(gòu)化信息提取問題、數(shù)據(jù)歸一標(biāo)準(zhǔn)化問題都非常難以處理。這些問題的解決單純靠人工是無(wú)法規(guī)?;模仨氂?mark>自然語(yǔ)言處理技術(shù)作為支撐。這里不僅需要自然語(yǔ)言處理的算法技術(shù)、計(jì)算技巧和工程能力,更需要很強(qiáng)的醫(yī)學(xué)背景知識(shí)。所以要采用知識(shí)工程與機(jī)器學(xué)習(xí)相結(jié)合的技術(shù)。
為了讓更多的研究者參與進(jìn)來(lái),我們分別在中文信息學(xué)會(huì)的兩個(gè)專委會(huì)年會(huì):CCKS和 CHIP上與清華大學(xué)和哈爾濱工業(yè)大學(xué)一起組織了相關(guān)評(píng)測(cè)任務(wù),開放了部分無(wú)敏感信息的人工改造模擬數(shù)據(jù)。所有的評(píng)測(cè)任務(wù)都將循序漸進(jìn)的越來(lái)越逼近真實(shí)應(yīng)用場(chǎng)景。
比如在CCKS2018的評(píng)測(cè)任務(wù)中,我們采用同分布的訓(xùn)練和測(cè)試數(shù)據(jù)集進(jìn)行電子病歷結(jié)構(gòu)化任務(wù)評(píng)測(cè),將這個(gè)實(shí)際問題簡(jiǎn)化成一個(gè)可以相對(duì)容易建模的算法問題。而在CHIP2018我們?cè)黾恿穗y度,測(cè)試集與訓(xùn)練集的分布并不相同,這給有監(jiān)督學(xué)習(xí)帶來(lái)了更大的挑戰(zhàn)也更接近實(shí)際的場(chǎng)景。
在CCKS2019的評(píng)測(cè)任務(wù)中,我們新增了無(wú)標(biāo)注數(shù)據(jù),這為半監(jiān)督學(xué)習(xí)帶來(lái)了可能,并保持了實(shí)際中常見的數(shù)據(jù)分布不一致情況。在接下來(lái),我們將繼續(xù)發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)化等任務(wù),讓整個(gè)問題的各個(gè)挑戰(zhàn)環(huán)節(jié)逐步的全面開放出來(lái)。
所有的評(píng)測(cè)任務(wù)數(shù)據(jù)將通過(guò)OPENKG等組織轉(zhuǎn)化為長(zhǎng)期維護(hù)、更新的線上評(píng)測(cè)。希望醫(yī)療界,學(xué)術(shù)界,工業(yè)界的各界同仁可以一同迎接挑戰(zhàn),推動(dòng)學(xué)術(shù)研究,最后推動(dòng)基于真實(shí)世界數(shù)據(jù)的醫(yī)學(xué)進(jìn)步,實(shí)現(xiàn)綠色醫(yī)療。
關(guān)于作者
閆峻,醫(yī)渡云首席人工智能科學(xué)家。曾任微軟亞洲研究院資深研究經(jīng)理;哈佛大學(xué)醫(yī)學(xué)院訪問學(xué)者研究助理;多個(gè)國(guó)際期刊的審稿人、頂級(jí)國(guó)際會(huì)議程序委員會(huì)委員,資深委員。
他的博士畢業(yè)于北京大學(xué)數(shù)學(xué)學(xué)院信息科學(xué)系,曾任微軟北京大學(xué)聯(lián)合實(shí)驗(yàn)室副主任、CCKS 工業(yè)論壇主席、世界人工智能技術(shù)大會(huì)青年科學(xué)家論壇主席,中山大學(xué)博士生導(dǎo)師、人民大學(xué)工程碩士導(dǎo)師。在加入醫(yī)渡云后,閆峻擔(dān)任醫(yī)渡云首席人工智能科學(xué)家,深耕NLP,擁有豐富的人工智能應(yīng)用經(jīng)驗(yàn)。
聯(lián)系客服