雷鋒網(wǎng) AI 掘金志消息,由國家衛(wèi)生計生委醫(yī)院管理研究所主辦的2017中華醫(yī)院信息網(wǎng)絡(luò)大會近日在北京國家會議中心舉行。
在“大數(shù)應(yīng)用與人工智能”的分論壇上,中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院的陳波博士進行了題為“腫瘤疾病大數(shù)據(jù)處理分析與應(yīng)用”的主題演講。
陳波博士在演講中介紹了國外惡性腫瘤大數(shù)據(jù)庫尤其是美國 SEER Program 的建設(shè)情況,他總結(jié)了美國SEER數(shù)據(jù)庫三個方面的應(yīng)用價值:癌癥年度報告,根據(jù)不同的分層預(yù)測腫瘤發(fā)病率、死亡率以及總體治療獲益;癌癥治療與生存的年度報告,包括腫瘤生存患者與診斷年齡分布和不同分期的治療模式;大數(shù)據(jù)基礎(chǔ)上的腫瘤特征與預(yù)后分析。
隨后,陳波博士介紹了由中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院牽頭成立的腫瘤大數(shù)據(jù)平臺建設(shè)項目。目前,該項目的成員為全國14家省級腫瘤醫(yī)院,研究重點主要針對結(jié)腸癌、直腸癌、胃癌、食管癌、乳腺癌、肝癌、肺癌、宮頸癌等八項癌癥進行分析。“我們希望通過構(gòu)架搭建數(shù)據(jù)平臺,實現(xiàn)國內(nèi)13家省級腫瘤醫(yī)院的腫瘤數(shù)據(jù)的互聯(lián)互通、信息共享與數(shù)據(jù)挖掘,此外能夠在平臺上實現(xiàn)遠程醫(yī)療,遠程會診的目的是指導(dǎo)下級醫(yī)院如何更規(guī)范化的治療?!?/p>
平臺搭建方面,各醫(yī)院在其數(shù)據(jù)中心進行防火墻和 VPN 的安裝,并通過 VPN 對各中心外網(wǎng)服務(wù)器與國家癌癥中心服務(wù)器進行數(shù)據(jù)連接。
元數(shù)據(jù)標準建立方面,項目成立了包括腫瘤外科專家、放療專家、內(nèi)科專家等的專項工作小組,根據(jù)各腫瘤醫(yī)院的電子病歷系統(tǒng)、影像數(shù)據(jù)系統(tǒng)等建立個體化的數(shù)據(jù)標準,將采集標準元數(shù)據(jù)與存儲標準元數(shù)據(jù)對應(yīng),形成標準化的數(shù)據(jù)庫。“我們最終的目標是將基于人群的數(shù)據(jù)與基于醫(yī)院的數(shù)據(jù)融合起來,組學(xué)數(shù)據(jù)如果沒有臨床數(shù)據(jù)的融合,在腫瘤方面非常沒有臨床應(yīng)用價值。”
以下偉陳波博士演講內(nèi)容實錄, AI 掘金志做了不改變原意的編輯:
陳波:大數(shù)據(jù)已經(jīng)提得比較多了,最典型的案例是馬云在2008年通過平臺上買家詢盤數(shù)量急劇下滑的跡象預(yù)測到了經(jīng)濟危機,還有一個案例是谷歌處理了5000萬條歷史記錄和4.5億個不同的數(shù)學(xué)模型,預(yù)測了2009年甲型 H1NI 流感。大數(shù)據(jù)在醫(yī)療決策上有非常重要的作用。
這是2011年推特上發(fā)布的關(guān)于醫(yī)療投入和預(yù)期生存效率的問題。我們可以看到,美國的投入比歐洲以及日本各個國家都高,但是預(yù)期并不夠,也就說明醫(yī)療費用使用并不高。我們國家層面以及衛(wèi)生部的層面非常重視大數(shù)據(jù)的發(fā)展。國家衛(wèi)生計生委副主任金小桃曾表示:我國將以保障全體人民健康為出發(fā)點,通過“互聯(lián)網(wǎng)+健康醫(yī)療”探索服務(wù)新模式、培育發(fā)展新業(yè)態(tài),到2020年建立國家醫(yī)療衛(wèi)生信息分級開放應(yīng)用平臺、健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)體系初步形成。
我們知道大數(shù)據(jù)有4個“V”的特點,有一個院士曾提出,臨床大數(shù)據(jù)庫不能算大數(shù)據(jù),只能算小數(shù)據(jù)。我們來看看腫瘤大數(shù)據(jù)算不算。2016年,我們發(fā)表了國家第一個中國癌癥的數(shù)據(jù)統(tǒng)計,當時預(yù)期2015年發(fā)病的人數(shù)是430萬,相當于一個月30萬-40萬人,總體速度非???。此外,腫瘤病種具有多樣性,每一種器官都有可能發(fā)生,EMR、數(shù)字化影像系統(tǒng)、組學(xué)數(shù)據(jù)等等都可以產(chǎn)生大量的數(shù)據(jù)。我認為組學(xué)數(shù)據(jù)是臨床數(shù)據(jù)的一部分,但是組學(xué)數(shù)據(jù)應(yīng)用到臨床的還是非常少。
國外惡性腫瘤大數(shù)據(jù)庫的建設(shè)情況
剛才朱老師已經(jīng)介紹了臨床信息庫,我們看國外的數(shù)據(jù),最好的是美國國家生物技術(shù)信息中心(NCBI),這個還不是自動化的,1973年開始建的時候是按照登記數(shù)據(jù)來,隨后慢慢趨向于自動化。
我們可以看到1973年新建的惡性腫瘤數(shù)據(jù)庫在不斷地完善,目前數(shù)據(jù)庫覆蓋了全美28%的人口,實際上它不是單一的基因組合數(shù)據(jù),而是基于人口數(shù)據(jù)。在人口數(shù)據(jù)的基礎(chǔ)上,將各個州的腫瘤數(shù)據(jù)完全融合起來,目前有820萬腫瘤的數(shù)據(jù)量?;谶@些病例,美國每年會發(fā)布各種年度報告。
美國 SEER 數(shù)據(jù)庫應(yīng)用分為三個層面。
首先,層面癌癥年度報告,包括腫瘤的發(fā)病率、死亡率,年齡性別等結(jié)構(gòu)分層,總體治療獲益預(yù)測,主要是為國家提供支持。
其次,癌癥治療與生存年度報告,可以為治療規(guī)范化提供數(shù)據(jù)支持。
最后,大數(shù)據(jù)基礎(chǔ)的腫瘤特征與預(yù)后分析,有整體的數(shù)據(jù)來讓醫(yī)生進行治療決策。
美國從1970年開始每年都會發(fā)布癌癥數(shù)據(jù)的統(tǒng)計,主要就是腫瘤的死亡和發(fā)病趨勢。我們可以看到,男性的發(fā)病率要明顯高于女性,發(fā)病趨勢從1990年-2000年有一個高峰期。我們現(xiàn)在也在遵循從發(fā)展中國家過渡到發(fā)達國家的規(guī)律。每個病種的發(fā)病都有相應(yīng)的依據(jù),我們國家可以根據(jù)腫瘤發(fā)病率的變化,來調(diào)整對不同腫瘤的投入。
美國男性發(fā)病率最高的是前列腺癌,隨著隱私結(jié)構(gòu)以及生活水平的改變,前列腺癌處在上升的階段,我國的發(fā)病趨勢有可能會與美國的類似,而乳腺癌則已經(jīng)達到和美國類似的情況。但在目前的治療環(huán)境下,我國的整體死亡趨勢在下降。
我們再看一下美國的五年相對生存,我們國家最大的問題可以在網(wǎng)上搜索到各種東西。信息的不對稱和專業(yè)壁壘讓病人感覺早期能治,晚期就無法治療,這個概念我也是希望包括百度、醫(yī)渡云等企業(yè)能夠做得更優(yōu)秀,希望病人能夠理解我們醫(yī)生,理解這個病不是網(wǎng)上看得那么簡單。我們來看一下五年生存,對于乳腺癌,局限期和區(qū)域轉(zhuǎn)移,我們基本上達到70%-90%,肺癌的話我們可以看到在占到一半的病人是4%的生存率,那么是什么概念?
去年年初,美國癌癥報告出來的時候,美國有媒體報道說,美國的五年相對生存已經(jīng)達到80%,衛(wèi)生部就讓我們院匯報一下為什么我國只有20%。其實這是偷換概念,現(xiàn)在我們這個項目的目標就是希望能夠為國家提供數(shù)據(jù)以此反饋到國際。
美國的數(shù)據(jù)庫還有一個作用就是可以預(yù)測整體療效的問題。我們可以看到紅色部分是美國預(yù)期的死亡風(fēng)險,藍色部分是經(jīng)過干預(yù)下降的部分。
第二方面就是它會每年發(fā)布癌癥治療和生存報告,這個報告主要是看目前來說總體還有哪些患癌的病人在生存之中,性別以及年齡分布。這樣的話我們可以對不同的年齡以及不同的疾病有不同的投入。
我們可以看到這是非小細胞肺癌總體的治療策略:一二期是以單純手術(shù)為主,三四期是以放療和化療的策略為主,根據(jù)這個策略,我們對收集上來的數(shù)據(jù)進行分析,評估這家單位對該病的治療決策是否符合規(guī)范。如果能夠達到早期是以手術(shù)為主,中晚期不是以手術(shù)為主的話,說明這家醫(yī)院的治療水平是在國際水平的。
我們看一下,前列腺癌在不同的年齡段會有不同治療的策略,也是隨著治療原則來變的,在美國還是非常符合現(xiàn)在的治療規(guī)范。如果是70歲以上的病人,預(yù)期在10年以內(nèi),我們盡量不要去做干預(yù),不要去做積極地治療,因為病人在這種情況下做積極治療死于其他疾病的可能性比較大,這種情況下醫(yī)療投入以及治療過度都會體現(xiàn)出來。
最后一個方面是基于醫(yī)生個人,每年在腫瘤大會上都會有 SEER 的報告,調(diào)強放療是放射治療的最高水平,損傷大、局部劑量提高不了。這樣我們不可能讓一組病人做調(diào)強,一組病人做常規(guī)。最后是評估了3000例來對比兩組的生存情況。結(jié)果顯示,調(diào)強治療可以達到84%,非調(diào)強治療僅為66%,這樣我們可以顯著地提高患者的療效,證明治療的有效性。
第二是早間病癥如何進行分析,鼻竇癌發(fā)病率是非常低的,基于大數(shù)據(jù)我們可以看到分期、轉(zhuǎn)移的特征,根據(jù)這些特征來決定治療方法。簡單說一下,一個是原發(fā)部位,還有基于原發(fā)部位頸部的淋巴結(jié)轉(zhuǎn)移,如果是頸部的淋巴結(jié)轉(zhuǎn)移,我們做放療照射應(yīng)該在哪一部分,在這方面我們會看到。
除此之外我們還可以進行部位分級以及組織分形,這些對于臨床治療都是非常重要的。我們國家在臨床腫瘤大數(shù)據(jù)方面發(fā)展如何呢?我們目前發(fā)展僅僅能夠解決其中一小部分,2016年我們院長在CS上發(fā)表了一篇年度報告,是基于普通人群來研究腫瘤發(fā)病和死亡的風(fēng)險,我們看到發(fā)病率是有輕度的升高,但是總體發(fā)病率并沒有明顯升高,這是在于人口基數(shù)的增長。這可能會讓人誤認為我們的發(fā)病率因為污染的因素在增加,實際上發(fā)病率基本上處于穩(wěn)定的狀態(tài)。
有些病種的發(fā)病率是不一樣的,我們看到前列腺癌是中間那一根往上走的線,這跟我們的生活水平、飲食結(jié)構(gòu)有明顯的相關(guān)性,我們的前列腺癌是一個迅速增長的趨勢。所以在前列腺癌的處理上,我們的投入上應(yīng)該加大,但是前列腺癌的生存是非常好的。我們可以在這兒看到,前列腺癌是最底下的那根線,目前來說,所有的病都能夠篩查出來,治療效果也非常好。
14所省級腫瘤醫(yī)院共同合作大數(shù)據(jù)平臺系統(tǒng)
我們現(xiàn)在這個研究的目的就是來解決剛才下面的一系列問題。我們現(xiàn)在聯(lián)合了14家省級腫瘤醫(yī)院,項目合作單位是神舟數(shù)碼和東軟。
我們項目的研究重點主要是針對結(jié)腸癌、直腸癌、胃癌、食管癌、乳腺癌、肝癌、肺癌等八項癌癥進行分析。希望通過構(gòu)架能搭建數(shù)據(jù)平臺,此外能夠在平臺上實現(xiàn)遠程醫(yī)療,遠程會診的目的是指導(dǎo)下級醫(yī)院如何更規(guī)范化的治療。
這是整體的數(shù)據(jù)流程,首先是從各個腫瘤醫(yī)院,通過物理連接,網(wǎng)絡(luò)構(gòu)架建完之后,把每個數(shù)據(jù)從每家醫(yī)院聯(lián)合輸入到我們腫瘤數(shù)據(jù)登記和共享系統(tǒng),在這里對整體的數(shù)據(jù)進行清洗,清洗過程中是按照原數(shù)據(jù)庫進行清洗,后面我會介紹元數(shù)據(jù)庫的建立。
這個項目分階段的任務(wù)是:標準制定階段、注冊與采集階段、共享與協(xié)同階段、決策分析階段。我們現(xiàn)在處于第二和第三個階段之間,決策分析還需要進一步的完善。我們基本上把硬件環(huán)境都部署好了,包括安全的策略。
項目進展情況
硬件部署與網(wǎng)絡(luò)連接
這是從去年5月份到6月份吉林省腫瘤醫(yī)院的情況,吉林省腫瘤醫(yī)院目前外網(wǎng)還沒有建立,一直連接存在問題,如果你要是選一家小醫(yī)院,數(shù)據(jù)的規(guī)范化以及可靠性就會下降得很明顯。
在實際過程中,拿這些數(shù)據(jù)非常費勁,可能需要院長級別的去溝通,否則的話人家不愿意共享數(shù)據(jù),數(shù)據(jù)就是資源,在溝通的基礎(chǔ)上我們建立了這個國家癌癥中心服務(wù)器?,F(xiàn)在整體的數(shù)據(jù)都已經(jīng)連上了,現(xiàn)在有大概70%的機構(gòu)能夠進行實時傳輸。
元數(shù)據(jù)標準的建立
元數(shù)據(jù)標準的建立,必須有各個專業(yè)的專家,我們關(guān)注的是什么?我們分析的是什么?臨床醫(yī)療大數(shù)據(jù)關(guān)注的是什么?臨床大夫不懂IT,IT大夫不懂臨床、如果水平有限,我們拿到的數(shù)據(jù)就是無用的,所以我們需要建立的就是由外科專家、放療專家等組成的專項工作小組,專家綜合治療理念是非常重要的,手術(shù)、放療、化療以及新的靶向治療,免疫治療,這些都是非常重要的。
在8類腫瘤的定義上由臨床醫(yī)生提出訴求, IT 技術(shù)人員按照標準進行建級,建完之后返回到臨床醫(yī)生,最后形成完整的數(shù)據(jù)庫。我們會形成一個基礎(chǔ)的標準,所有的腫瘤都有前提的,基礎(chǔ)信息是相同的,但是由于單病種具有不同的特征,后期我們會對每一種病種進行建立,現(xiàn)在這8種病種的元數(shù)據(jù)庫都已建立了。
這是整體的元數(shù)據(jù),我們會把所有的元數(shù)據(jù)進行編碼,也會有相對的英文名字。我們會結(jié)合目前國際上一系列的標準,找出每個元數(shù)據(jù)的出處。我們知道把元數(shù)據(jù)要想建好,包括非結(jié)構(gòu)化的數(shù)據(jù)和技術(shù)是非常困難的,往上提的這些數(shù)據(jù),我們往往會看到很多控制端,基本上提不上來,怎么辦?我們就不斷地由醫(yī)生去反饋,每一個字段提出是怎么樣的,醫(yī)生反饋給 IT人員,將數(shù)據(jù)進一步完善。
技術(shù)標準規(guī)范方面,我們在建設(shè)過程中結(jié)合實踐建立一個規(guī)范標準,希望對以后其他建立的過程提供一定的信息基礎(chǔ)。
目前來說,我們已經(jīng)搜集了200萬到300萬的病歷數(shù)據(jù),我們將測試數(shù)據(jù)進行基礎(chǔ)的分析。大家可以看到,這個是我們醫(yī)院前期的測試數(shù)據(jù),可以看到腫瘤分布和治療情況。
醫(yī)院的影響力有多大,決定于病人來自于全國還是來自于部分。我們醫(yī)院是包含了華北地區(qū),華北和東北地區(qū),上海和廣州這一塊是相對比較少。所以這對于醫(yī)院決策也是非常有用的。
在網(wǎng)絡(luò)平臺的初步測試和分析方面,我們可以做年齡的分析。我們后來的目標就是數(shù)據(jù)互相融合。我們基于人群里面沒有腫瘤的信息,但是我們基于醫(yī)院不能代表人群信息,我們將兩者融合,在人群的基礎(chǔ)上提供發(fā)病率,致死率以及變化趨勢的信息,基于醫(yī)院數(shù)據(jù)我們可以把分期數(shù)據(jù)、治療數(shù)據(jù)、費用數(shù)據(jù)等作為總體提供出來。
我們最終的目標是讓兩者融合。組學(xué)數(shù)據(jù)如果沒有臨床數(shù)據(jù)的融合,在腫瘤方面非常沒有臨床應(yīng)用價值,我們希望組學(xué)數(shù)據(jù)必須跟臨床的數(shù)據(jù)進行溝通,所以我們會將一部分組學(xué)數(shù)據(jù)進行結(jié)合。
我們希望在國家醫(yī)院以及醫(yī)生各個層面為大家提供支持,謝謝大家!
聯(lián)系客服