中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
大數(shù)據(jù)時(shí)代最全的醫(yī)學(xué)公共數(shù)據(jù)庫(kù)合集整理

數(shù)據(jù)庫(kù)技術(shù)是研究、管理和應(yīng)用數(shù)據(jù)庫(kù)的一門(mén)軟件科學(xué)。通過(guò)研究數(shù)據(jù)庫(kù)的結(jié)構(gòu)、存儲(chǔ)、設(shè)計(jì)、管理和應(yīng)用的基本理論和實(shí)現(xiàn)方法,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行處理和分析。

本文我們將介紹幾種數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘技術(shù),幫助臨床研究人員更好地理解和應(yīng)用數(shù)據(jù)庫(kù)技術(shù)。

目  錄

  • 1. 前言

  • 2. 醫(yī)療公共數(shù)據(jù)庫(kù)概述

    • 2.1 SEER數(shù)據(jù)庫(kù)

    • 2.2 MIMIC數(shù)據(jù)庫(kù)

    • 2.3 CHNS數(shù)據(jù)庫(kù)

    • 2.4 HRS數(shù)據(jù)庫(kù)

    • 2.5 Dryad數(shù)據(jù)庫(kù)

    • 2.6 UK biobank

    • 2.7 BioLINCC

    • 2.8 GEPIA數(shù)據(jù)庫(kù)

    • 2.9 TCGA數(shù)據(jù)庫(kù)

    • 2.10 TARGET數(shù)據(jù)庫(kù)

    • 2.11 eICU-CRD

    • 2.12 GEO數(shù)據(jù)庫(kù)

    • 2.13 GBD數(shù)據(jù)庫(kù)

  • 3. 臨床數(shù)據(jù)挖掘方法

  • 4. 醫(yī)學(xué)數(shù)據(jù)挖掘的前景與挑戰(zhàn)

  • 5. 總結(jié)


1. 前言

在信息大爆炸時(shí)代,信息產(chǎn)生的速度日益加快。在過(guò)去幾年里,大數(shù)據(jù)已經(jīng)成為工業(yè)、金融和醫(yī)療領(lǐng)域使用最多的詞匯之一。

醫(yī)療領(lǐng)域是大數(shù)據(jù)應(yīng)用的重要領(lǐng)域,每天都產(chǎn)生大量的醫(yī)療數(shù)據(jù),為了給患者提供更好的治療和護(hù)理,許多國(guó)家的醫(yī)療機(jī)構(gòu)已經(jīng)提出了醫(yī)療信息系統(tǒng)的多種模式。因此,如何更好地利用龐大的醫(yī)療數(shù)據(jù)已經(jīng)成為人們關(guān)注的焦點(diǎn),推動(dòng)醫(yī)療大數(shù)據(jù)的研究和應(yīng)用成為現(xiàn)代醫(yī)學(xué)研究的關(guān)鍵因素。

大數(shù)據(jù)是一個(gè)抽象的概念,通常解釋是指現(xiàn)有數(shù)據(jù)庫(kù)管理工具難以處理的數(shù)據(jù)集成,其既具有海量特征,又具有復(fù)雜性特征。

  • 海量是'huge in volume',隨著數(shù)據(jù)的產(chǎn)生和收集,數(shù)據(jù)規(guī)模越來(lái)越大,已經(jīng)超越了傳統(tǒng)存儲(chǔ)和分析技術(shù);
  • 速度是'speed',即大數(shù)據(jù)的及時(shí)性,表示數(shù)據(jù)的收集和分析必須快速、及時(shí);
  • 廣泛性是'a wide range of data types',包括音頻、視頻、網(wǎng)頁(yè)、文本等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以及傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù);
  • 價(jià)值就是'value',主要體現(xiàn)在價(jià)值密度低,商業(yè)價(jià)值高。
  • 準(zhǔn)確性,強(qiáng)調(diào)有意義的數(shù)據(jù)必須是真實(shí)和準(zhǔn)確的。

使用大數(shù)據(jù)的關(guān)鍵是如何從海量、多樣化的數(shù)據(jù)集中發(fā)現(xiàn)價(jià)值,整合數(shù)據(jù)庫(kù)的計(jì)算分析已成為醫(yī)學(xué)和分子生物學(xué)的基本方法。

醫(yī)療大數(shù)據(jù)有多種來(lái)源,如行政索賠記錄、臨床登記、電子健康記錄、生物特征數(shù)據(jù)、患者報(bào)告數(shù)據(jù)等。

醫(yī)學(xué)大數(shù)據(jù)有幾個(gè)不同于其他學(xué)科大數(shù)據(jù)的獨(dú)特特點(diǎn):

  • 醫(yī)學(xué)大數(shù)據(jù)往往很難獲?。?/section>
  • 通?;趨f(xié)議、收集、相對(duì)結(jié)構(gòu)化;
  • 在分析數(shù)據(jù)和解釋結(jié)果時(shí),專業(yè)知識(shí)可能占主導(dǎo)地位;
  • 與時(shí)間相關(guān)。

構(gòu)建大數(shù)據(jù)平臺(tái)將便于遠(yuǎn)程會(huì)診、降低成本、加大全球合作力度、推動(dòng)臨床教育和科研,助力全球精準(zhǔn)醫(yī)學(xué)轉(zhuǎn)型和出現(xiàn)新的健康管理模式。

2. 醫(yī)療公共數(shù)據(jù)庫(kù)概述
2.1 SEER數(shù)據(jù)庫(kù)

SEER全稱為Surveillance,epidemiology,and end results

為了減輕癌癥負(fù)擔(dān),美國(guó)國(guó)家癌癥研究所于1973年建立了癌癥患者的SEER數(shù)據(jù)庫(kù),這是北美最具代表性的大型腫瘤數(shù)據(jù)庫(kù)之一,覆蓋了美國(guó)約28%的人口。

幾十年來(lái),SEER數(shù)據(jù)庫(kù)收集了美國(guó)一些州和縣的癌癥患者發(fā)病率、患病率、死亡率和循證藥物等信息,為臨床醫(yī)務(wù)人員提供了癌癥疾病的寶貴信息,特別是為惡性腫瘤和罕見(jiàn)腫瘤的研究提供了途徑。

SEER成立之初,只有少數(shù)幾個(gè)登記注冊(cè)站,現(xiàn)已擴(kuò)大到18個(gè)。這些登記站使用SEER*STAT軟件,兩年一次進(jìn)行頻率統(tǒng)計(jì)和匯總,然后向全世界公布登記人群的癌癥相關(guān)信息。

SEER數(shù)據(jù)庫(kù)樣本量大、質(zhì)量高、統(tǒng)計(jì)能力強(qiáng),可以為腫瘤相關(guān)研究人員提供高臨床參考價(jià)值的數(shù)據(jù)。

從SEER數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)有三種方式:

  1. 通過(guò)SEER*Stat軟件獲取,最簡(jiǎn)單,應(yīng)用最廣泛;
  2. 從SEER官網(wǎng)下載壓縮文件,解壓后提取二進(jìn)制數(shù)據(jù),然后使用R等軟件轉(zhuǎn)換成標(biāo)準(zhǔn)格式的數(shù)據(jù),要求用戶具備一定的軟件知識(shí);
  3. 向DVD光盤(pán)管理人員申請(qǐng)使用SEER*Stat,不需要高速互聯(lián)網(wǎng)支持。

自2016年11月數(shù)據(jù)提交以來(lái),數(shù)據(jù)庫(kù)中的放射治療和化療變量已被刪除。這些變量可以在簽訂附加數(shù)據(jù)使用協(xié)議后獲得。

雖然SEER數(shù)據(jù)庫(kù)存在一些缺點(diǎn),但SEER數(shù)據(jù)庫(kù)仍不失為一個(gè)很好的數(shù)據(jù)來(lái)源,為臨床研究人員提供了高質(zhì)量的數(shù)據(jù)。

2.2 MIMIC數(shù)據(jù)庫(kù)

MIMIC全稱為Medical information mart for intensive care

重癥醫(yī)學(xué)的重點(diǎn)是對(duì)危重病人進(jìn)行監(jiān)測(cè)、對(duì)功能減退器官實(shí)施支持,讓患者在保證供氧、維持器官功能的情況下?tīng)?zhēng)取時(shí)間尋找和去除病因。

眾所周知,ICU在醫(yī)院中處于非常特殊的重要地位,承擔(dān)著危重病人的救治任務(wù)。診療水平也是現(xiàn)代衡量醫(yī)院水平的重要指標(biāo)之一。大數(shù)據(jù)時(shí)代為危重患者研究提供了前所未有的機(jī)遇,通過(guò)加強(qiáng)基礎(chǔ)和臨床研究,充分利用大數(shù)據(jù)和人工智能是未來(lái)危重醫(yī)學(xué)的發(fā)展趨勢(shì)。

為推動(dòng)重癥醫(yī)學(xué)研究工作,麻省理工學(xué)院計(jì)算生理實(shí)驗(yàn)室、以色列迪康醫(yī)學(xué)中心、飛利浦醫(yī)療聯(lián)合發(fā)布了MIMIC數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)收集了以色列迪康醫(yī)學(xué)中心ICU 2001年至2012年4萬(wàn)余名真實(shí)患者的臨床診療信息。

該數(shù)據(jù)庫(kù)樣本量大、信息全面、患者跟蹤時(shí)間長(zhǎng)、可免費(fèi)使用,為危重癥研究提供了豐富的資源。

MIMIC數(shù)據(jù)庫(kù)在不斷更新,目前最新版本為MIMICIII 1.4版(https://mimic.physionet.org/about/releasenotes/)。

該數(shù)據(jù)庫(kù)的患者信息來(lái)自兩個(gè)不同的重癥監(jiān)護(hù)信息系統(tǒng):

  • 飛利浦carevue臨床信息系統(tǒng)(https://mimic.physionet.org/mimicdata/carevue/)
  • IMD ICU系統(tǒng)(https://mimic.physionet.org/mimicdata/metavision/)。

從2001年到2008年,飛利浦臨床信息系統(tǒng)用于跟蹤患者至少4年;從2008年到2012年,IMD ICU系統(tǒng)用于跟蹤患者至少90天。

MIMIC數(shù)據(jù)庫(kù)在使用過(guò)程中涉及編碼操作,這對(duì)臨床醫(yī)生來(lái)說(shuō)是一個(gè)挑戰(zhàn)。在gitHub平臺(tái)(https://github.com/MIT-lcp/mimiccode)有一個(gè)用于分析患者特征的開(kāi)源代碼包,可供世界各地的研究人員免費(fèi)下載和使用。

當(dāng)發(fā)現(xiàn)bug或需要改進(jìn)時(shí),可以自己修改拉取請(qǐng)求,當(dāng)平臺(tái)合并時(shí),您可以將修改后的代碼包分享給全世界,其他用戶也可以免費(fèi)使用。

MIMIC數(shù)據(jù)庫(kù)為危重醫(yī)學(xué)、循證醫(yī)學(xué)、臨床大數(shù)據(jù)挖掘、醫(yī)療監(jiān)護(hù)設(shè)備數(shù)據(jù)分析等領(lǐng)域的研究提供了極大的支持,并取得了豐碩的成果。

2.3 CHNS數(shù)據(jù)庫(kù)

CHNS全稱為China healthand nutrition survey

中國(guó)居民健康與營(yíng)養(yǎng)調(diào)查項(xiàng)目是北卡羅來(lái)納大學(xué)與中國(guó)疾病預(yù)防控制中心營(yíng)養(yǎng)與健康中心聯(lián)合開(kāi)展的國(guó)際合作項(xiàng)目。該研究旨在探索中國(guó)社會(huì)經(jīng)濟(jì)轉(zhuǎn)型和計(jì)劃生育政策在過(guò)去30年里如何影響國(guó)家的健康和營(yíng)養(yǎng)狀況。研究?jī)?nèi)容包括社區(qū)組織、家庭和個(gè)人經(jīng)濟(jì)、人口和社會(huì)因素的現(xiàn)狀和變化。

該項(xiàng)目始于1989年,先后于1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年、2015年進(jìn)行了項(xiàng)目研究和數(shù)據(jù)匯編發(fā)布。

CHNS網(wǎng)站于2018年6月12日更新了數(shù)據(jù)集內(nèi)容。更新的數(shù)據(jù)集涵蓋了從1989年到2015年的10項(xiàng)調(diào)查數(shù)據(jù)的垂直整合數(shù)據(jù)。中國(guó)健康與營(yíng)養(yǎng)調(diào)查(CHNS)顯示,營(yíng)養(yǎng)素或食品或飲食模式的形式發(fā)生了變化,這種飲食變化與教育、收入、城市化以及宏觀食品環(huán)境和政策有關(guān)。

調(diào)查采用多階段分層整群隨機(jī)抽樣方式,收集了中國(guó)東中西部15個(gè)省、自治區(qū)、直轄市的數(shù)據(jù),截至2018年8月,共納入社區(qū)樣本220個(gè)、家庭樣本7200個(gè)、居民樣本3萬(wàn)個(gè)。

調(diào)查數(shù)據(jù)包括社區(qū)調(diào)查、家庭調(diào)查和個(gè)人調(diào)查數(shù)據(jù)。

個(gè)人和家庭調(diào)查數(shù)據(jù)包括基本人口統(tǒng)計(jì)數(shù)據(jù)、健康狀況、營(yíng)養(yǎng)和飲食狀況、健康指標(biāo)以及醫(yī)療保險(xiǎn)。這些數(shù)據(jù)在CHNS的官方網(wǎng)站上免費(fèi)向公眾提供。

社區(qū)數(shù)據(jù)可通過(guò)社區(qū)級(jí)數(shù)據(jù)使用協(xié)議獲取并在線填寫(xiě)數(shù)據(jù)聯(lián)動(dòng)申請(qǐng)表。

研究人員如果需要利用好CHNS數(shù)據(jù)庫(kù)信息,詳細(xì)閱讀CHNS項(xiàng)目研究文件是很有必要的。

2.4 HRS數(shù)據(jù)庫(kù)

HRS全稱為Health and retirement research

人口老齡化作為衡量國(guó)際經(jīng)濟(jì)社會(huì)發(fā)展水平的重要指標(biāo),老齡化不僅意味著老年人口的增加,而且也會(huì)對(duì)經(jīng)濟(jì)和社會(huì)構(gòu)成嚴(yán)峻挑戰(zhàn),這已成為一個(gè)不容忽視的重大社會(huì)問(wèn)題。

關(guān)于老齡化人口健康的研究種類繁多,數(shù)據(jù)類型不斷豐富,數(shù)據(jù)儲(chǔ)備快速增長(zhǎng)。傳統(tǒng)的數(shù)據(jù)采集方法很難進(jìn)行有效、全面的統(tǒng)計(jì)分析。

健康和退休研究(HRS)是密歇根大學(xué)自1992年以來(lái)進(jìn)行的一項(xiàng)縱向研究小組調(diào)查,建立了一個(gè)具有代表性的大樣本數(shù)據(jù)庫(kù)。通過(guò)每?jī)赡陮?duì)50歲以上的參與者進(jìn)行一次獨(dú)特和深入的訪談,收集了越來(lái)越多的多學(xué)科數(shù)據(jù)。

HRS數(shù)據(jù)庫(kù)樣本量大、質(zhì)量高、結(jié)構(gòu)復(fù)雜。為了使數(shù)據(jù)更易于研究,HRS數(shù)據(jù)分為公開(kāi)數(shù)據(jù)和敏感/受限數(shù)據(jù)。任何人都可以在HRS數(shù)據(jù)下載網(wǎng)站上創(chuàng)建帳戶以獲取公共數(shù)據(jù),而限制數(shù)據(jù)和敏感健康數(shù)據(jù)需要使用單獨(dú)的應(yīng)用程序。

HRS數(shù)據(jù)庫(kù)是美國(guó)關(guān)于健康和經(jīng)濟(jì)環(huán)境變化的老齡化相關(guān)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中的大多數(shù)數(shù)據(jù)可以通過(guò)用戶注冊(cè)免費(fèi)獲得。HRS數(shù)據(jù)庫(kù)的多學(xué)科數(shù)據(jù)側(cè)重于對(duì)收入和財(cái)富、健康、意識(shí)和醫(yī)療服務(wù)使用、工作和退休以及與家人聯(lián)系的調(diào)查。自2006年以來(lái),數(shù)據(jù)收集已擴(kuò)大到包括生物標(biāo)志物和遺傳學(xué)、以及更深入的心理學(xué)和社會(huì)背景。

2.5 Dryad數(shù)據(jù)庫(kù)

隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)可重用性和數(shù)據(jù)共享政策正引起全球關(guān)注。在過(guò)去的十年中,數(shù)據(jù)管理和數(shù)據(jù)共享的基礎(chǔ)設(shè)施和相關(guān)法規(guī)發(fā)展迅速。

Dryad數(shù)據(jù)庫(kù)由國(guó)家科學(xué)基金會(huì)資助,于2008年9月成立的一個(gè)非營(yíng)利性組織。Dryad數(shù)據(jù)庫(kù)存儲(chǔ)了醫(yī)學(xué)、生物學(xué)和生態(tài)學(xué)領(lǐng)域的研究數(shù)據(jù),面向世界開(kāi)放,可以免費(fèi)下載并重復(fù)使用。

Dryad數(shù)據(jù)庫(kù)誕生于生物學(xué)和生態(tài)學(xué)領(lǐng)域的領(lǐng)先期刊和科學(xué)團(tuán)體的倡議下,他們鼓勵(lì)提交手稿的研究人員將研究數(shù)據(jù)提交到Dryad數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)并共享數(shù)據(jù)(http://dryad2.lib.ncsu.edu/pages/organization)。Dryad數(shù)據(jù)庫(kù)使研究人員認(rèn)識(shí)到,數(shù)據(jù)是可以長(zhǎng)時(shí)間存檔,并開(kāi)放、免費(fèi)重復(fù)使用的。截至2018年2月,有600多種期刊在使用Dryad數(shù)據(jù)庫(kù),有60000多個(gè)數(shù)據(jù)文件和230多萬(wàn)次下載(http://dryad2.lib.ncsu.edu/)。

越來(lái)越多的期刊鼓勵(lì)研究人員提交研究數(shù)據(jù)。一方面鼓勵(lì)科研數(shù)據(jù)再利用,產(chǎn)生更多科學(xué)新發(fā)現(xiàn)。另一方面促進(jìn)醫(yī)學(xué)研究的透明化、公開(kāi)化。

Dryad會(huì)對(duì)每個(gè)提交的文件進(jìn)行必要的檢查。比如數(shù)據(jù)完整性和正確性、文件是否可以打開(kāi)、是否有病毒、是否有版權(quán)限制、是否有敏感數(shù)據(jù)等。

與其他公共數(shù)據(jù)庫(kù)相比,Dryad數(shù)據(jù)庫(kù)與許多主流期刊合作,在數(shù)據(jù)共享方面更加高效。通過(guò)為研究數(shù)據(jù)分配DOI,可以引用數(shù)據(jù),在提高科研人員和出版商學(xué)術(shù)聲譽(yù)的同時(shí),提高了科學(xué)數(shù)據(jù)的利用率,Dryad有詳細(xì)的數(shù)據(jù)維護(hù)和數(shù)據(jù)缺失-恢復(fù)的管理策略,數(shù)據(jù)'零門(mén)檻'的使用和友好的界面也使得Dryad數(shù)據(jù)庫(kù)越來(lái)越受到研究人員的歡迎。

2.6 UK biobank

UK生物庫(kù)(http://www.ukbiobank.ac.uk)是全球最大的生物醫(yī)學(xué)樣本數(shù)據(jù)庫(kù),于2017年4月30日正式向全球研究人員開(kāi)放所有數(shù)據(jù)。

在2006至2010年間,UK生物庫(kù)從英國(guó)各地招募了50萬(wàn)名年齡在40-69歲的志愿者,收集了大約1500萬(wàn)份血液、尿液和唾液的生物樣本,并對(duì)所有參與者進(jìn)行了基因分型和血液生化分析,并長(zhǎng)期跟蹤他們的健康和醫(yī)療狀況信息。同時(shí)該數(shù)據(jù)庫(kù)收集所有研究成果,并將其提供給其他研究人員。

UK生物庫(kù)于2014年啟動(dòng)了一項(xiàng)新的醫(yī)療成像數(shù)據(jù)收集計(jì)劃,使用磁共振成像(MRI)和X射線技術(shù)對(duì)超過(guò)10萬(wàn)名志愿者的大腦、心臟和骨骼進(jìn)行了分析。成像分析是為了建立一個(gè)內(nèi)部器官掃描圖像的數(shù)據(jù)庫(kù),這也將是迄今為止世界上最重要的健康成像研究。這些海量的數(shù)據(jù)將幫助研究人員分析人群差異及其原因,如癌癥、心臟病、糖尿病、關(guān)節(jié)炎、阿爾茨海默氏癥,甚至改變科學(xué)家對(duì)這些慢性病和流行性疾病的看法。

UK生物庫(kù)的申請(qǐng)過(guò)程對(duì)研究人員和研究機(jī)構(gòu)的研究背景、研究目的和研究動(dòng)機(jī)有很高的要求,需要提供最近發(fā)表的學(xué)術(shù)成果證據(jù),以確保研究是真誠(chéng)進(jìn)行的。

UK生物庫(kù)最大的好處是,所有招募的志愿者都在英國(guó)國(guó)家醫(yī)療服務(wù)體系注冊(cè),這使得UK生物庫(kù)能夠通過(guò)國(guó)家醫(yī)療數(shù)據(jù)詳細(xì)跟蹤所有志愿者的健康狀況。UK生物庫(kù)的前瞻性和大樣本量以及與健康記錄的持續(xù)整合為研究人員提供了一個(gè)解決各種研究問(wèn)題的絕佳平臺(tái)。

英國(guó)生物庫(kù)的缺點(diǎn)是,樣本提供者必須填寫(xiě)詳細(xì)的基本情況問(wèn)卷,包括姓名、性別、NHS號(hào)碼、疾病信息等,不可避免地存在隱私泄露。同時(shí)注冊(cè)和申請(qǐng)過(guò)程復(fù)雜繁瑣,周期長(zhǎng)。對(duì)于第一次申請(qǐng)的人來(lái)說(shuō),這可能會(huì)很困難。

我們相信,英國(guó)生物庫(kù)未來(lái)將提供更全面的研究數(shù)據(jù)和生物樣本覆蓋,為全球研究人員提供更高效、更便捷的資源注冊(cè)、申請(qǐng)和使用服務(wù),以及更安全的信息安全。

2.7 BioLINCC

BioLINCC全稱為Biologicspecimen and data repositories information coordinating center

BioLINCC由美國(guó)國(guó)家心肺血液研究所(NHLBI)于2008年成立。該研究所在心、肺和血液疾病的預(yù)防和治療中處于全球領(lǐng)先地位,并支持這些領(lǐng)域的基礎(chǔ)研究、轉(zhuǎn)化性研究和臨床研究。通過(guò)建立BioLINCC,NHLBI為醫(yī)學(xué)研究人員提供了獲取科學(xué)數(shù)據(jù)和生物樣本的途徑,最大限度地利用了NHLBI開(kāi)發(fā)和維護(hù)的研究資源。這些資源是1975年以來(lái)由血液疾病資源部管理的全國(guó)生命周期生物樣本庫(kù)和2000年以來(lái)由心血管科學(xué)研究中心管理的全國(guó)生命周期生物樣本庫(kù)。

BioLINCC公共網(wǎng)站(https://biolincc.nhlbi.nih.gov/)成立于2009年10月。該網(wǎng)站提供NHLBI收集的110多個(gè)研究機(jī)構(gòu)的臨床和流行病學(xué)研究數(shù)據(jù)和生物樣本。BioLINCC積極從事數(shù)據(jù)共享,受到眾多醫(yī)療科技工作者的喜愛(ài)。每年都有100多名研究項(xiàng)目負(fù)責(zé)人向BioLINCC申請(qǐng)他們的臨床數(shù)據(jù)。

存儲(chǔ)在BioLINCC數(shù)據(jù)庫(kù)中的數(shù)據(jù)和生物樣本是免費(fèi)提供的,但生物樣本的運(yùn)輸費(fèi)用由調(diào)查人員承擔(dān)。研究人員必須向BioLINCC提交申請(qǐng),以審查和獲取他們正在申請(qǐng)的數(shù)據(jù)或生物樣本。在研究人員申請(qǐng)數(shù)據(jù)或生物樣本后,NHLBI工作人員將對(duì)申請(qǐng)材料進(jìn)行審查。

對(duì)于數(shù)據(jù)資源的應(yīng)用,NHLBI主要審查申請(qǐng)數(shù)據(jù)是否與研究計(jì)劃匹配,以及倫理委員會(huì)對(duì)研究計(jì)劃的說(shuō)明,倫理審查是否通過(guò)或豁免。BioLINCC將在每年3月1日發(fā)送電子郵件提醒提交該研究的進(jìn)度報(bào)告,也就是研究人員可以在申請(qǐng)成功后的任何時(shí)候在他的申請(qǐng)頁(yè)面上提交進(jìn)度報(bào)告。

BioLINCC的缺點(diǎn)是需要單獨(dú)申請(qǐng)BioLINCC共享的各個(gè)資源。對(duì)于想要申請(qǐng)多個(gè)研究資源的申請(qǐng)者,申請(qǐng)流程復(fù)雜;在搜索生物樣本時(shí),BioLINCC需要提供生物樣本的名稱用于研究目的。這種搜索方法對(duì)身份不明的研究人員來(lái)說(shuō)效率不夠高。未來(lái),BioLINCC還將拓展數(shù)據(jù)共享領(lǐng)域,提供更加便捷的資源申請(qǐng)流程,以'高效率-低成本'的方式采集和維護(hù)數(shù)據(jù)和標(biāo)本,最大限度地利用現(xiàn)有資源。

2.8 GEPIA數(shù)據(jù)庫(kù)

GEPIA全稱為Gene expression profiling interactive analysis

大數(shù)據(jù)分析的使用促進(jìn)了癌癥基因組學(xué)研究的發(fā)展。從本質(zhì)上說(shuō),癌癥的原因是一種由細(xì)胞內(nèi)基因表達(dá)差異引起的遺傳性疾病。隨著眾多公共數(shù)據(jù)庫(kù)的建立和開(kāi)放,越來(lái)越多的研究人員可以訪問(wèn)測(cè)序數(shù)據(jù)。GEPIA是一種對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行動(dòng)態(tài)分析的網(wǎng)絡(luò)服務(wù)器,用于癌癥和正?;虻谋磉_(dá)譜分析和交互分析,填補(bǔ)了癌癥基因組大數(shù)據(jù)信息的空白,幫助臨床研究人員更有效地利用公共數(shù)據(jù)資源。

GEPIA是由北京大學(xué)張澤民教授開(kāi)發(fā)的。GEPIA使用的RNAseq數(shù)據(jù)集基于UCSC Xena項(xiàng)目(http://xena.ucsc.edu)。該項(xiàng)目采用標(biāo)準(zhǔn)管道計(jì)算,并分析了來(lái)自TCGA和GTEx項(xiàng)目的9736個(gè)腫瘤和8587個(gè)正常樣本的RNA測(cè)序表達(dá)數(shù)據(jù)。TCGA生產(chǎn)了33種癌癥的9736個(gè)腫瘤樣本,而這個(gè)項(xiàng)目只提供了726個(gè)標(biāo)準(zhǔn)樣本。腫瘤和標(biāo)準(zhǔn)數(shù)據(jù)之間的不平衡可能導(dǎo)致各種鑒定分析的效率低下,因此GEPIA還整合了來(lái)自GTEx的數(shù)據(jù)。GTEx項(xiàng)目產(chǎn)生了8000個(gè)標(biāo)準(zhǔn)樣本的RNA測(cè)序數(shù)據(jù)。同時(shí),UCSC Xena項(xiàng)目使用標(biāo)準(zhǔn)管道重新計(jì)算了TCGA和GTEx原始RNA-Seq數(shù)據(jù),從而使兩個(gè)數(shù)據(jù)集兼容。因此,TCGA和GTEx數(shù)據(jù)可以集成起來(lái)進(jìn)行非常全面的表達(dá)分析。

GEPIA是一個(gè)由中國(guó)人開(kāi)發(fā)的公共數(shù)據(jù)庫(kù)。使用GEPIA數(shù)據(jù)庫(kù),實(shí)驗(yàn)室生物學(xué)家可以很容易地探索TCGA和GTEx數(shù)據(jù)集,找到問(wèn)題的答案,并檢驗(yàn)他們的假設(shè)。在差異分析和表達(dá)譜分析中,用戶可以很容易地發(fā)現(xiàn)差異表達(dá)的基因。隨著基因檢測(cè)技術(shù)的應(yīng)用,以免疫組織化學(xué)為基礎(chǔ)的腫瘤預(yù)后評(píng)估和治療選擇的模式逐漸改變,更加準(zhǔn)確的腫瘤分類對(duì)預(yù)后評(píng)估和治療具有更加重要的指導(dǎo)意義。

2.9 TCGA數(shù)據(jù)庫(kù)

TCGA全稱為The cancergenome atlas

長(zhǎng)期以來(lái),腫瘤預(yù)防、早期篩查、個(gè)體化治療、預(yù)后評(píng)估一直是醫(yī)學(xué)界致力于的重點(diǎn)問(wèn)題。研究發(fā)現(xiàn),基因變異是所有腫瘤細(xì)胞的重要微觀分子原因。因此,越來(lái)越多的腫瘤學(xué)研究人員開(kāi)始從分子遺傳學(xué)的角度進(jìn)行相關(guān)研究。通過(guò)測(cè)量特定基因表達(dá)的生物學(xué)特性,可以預(yù)測(cè)腫瘤的生長(zhǎng)、擴(kuò)散和患者生存,并基于基因表達(dá)制定有針對(duì)性的診斷和治療計(jì)劃。全基因組測(cè)序和生物信息學(xué)的發(fā)展為癌癥基因組研究提供了新的線索。

TCGA是由NCI于2006年?duì)款^的公共資助項(xiàng)目。自2008年以來(lái),它已經(jīng)公布了階段性成果。2009年,它繼續(xù)投資2.75億美元,增加了各種類型的癌癥數(shù)據(jù)。到2014年,這項(xiàng)分析擴(kuò)展到了33種其他類型。腫瘤數(shù)據(jù)(包括10種罕見(jiàn)腫瘤),來(lái)自11000多個(gè)腫瘤樣本,數(shù)據(jù)量高達(dá)255T,包括臨床數(shù)據(jù)、DNA、RNA、蛋白質(zhì)等多層次數(shù)據(jù)。在數(shù)據(jù)生成方面,該項(xiàng)目取得了無(wú)可爭(zhēng)議的成功。

TCGA的目標(biāo)是通過(guò)大規(guī)模、高通量的基因組測(cè)序和基因芯片技術(shù)集成多維基因組數(shù)據(jù),研究、定義、發(fā)現(xiàn)和分析人類所有腫瘤基因組的變化,最終繪制出全基因組的多維腫瘤基因組圖。TCGA為腫瘤學(xué)研究人員提供了大量的基因組數(shù)據(jù)和相關(guān)的臨床數(shù)據(jù),為發(fā)現(xiàn)癌癥相關(guān)基因的微小突變和研究腫瘤的生物學(xué)機(jī)制提供了巨大的數(shù)據(jù)庫(kù),從而提高了人們從分子水平上對(duì)癌癥的科學(xué)認(rèn)識(shí)和預(yù)防、診斷和治療的能力。

TCGA開(kāi)啟了腫瘤分子生物學(xué)和精準(zhǔn)醫(yī)學(xué)的時(shí)代,給研究人員提供了研究癌癥發(fā)展的新機(jī)會(huì),讓我們以前所未有的微觀視角看待癌癥,從而一步步接近它的全貌。目前,TCGA數(shù)據(jù)已經(jīng)被用來(lái)發(fā)現(xiàn)新的突變,識(shí)別固有的腫瘤類型,并確定泛癌的相似和不同之處。同時(shí)收集腫瘤演化的證據(jù)。越來(lái)越多的生物信息學(xué)工具被開(kāi)發(fā)用于TCGA數(shù)據(jù)庫(kù)。

2.10 TARGET數(shù)據(jù)庫(kù)

TARGET全稱為Therapeutically applicable research to generate effective treatments

近年來(lái),隨著醫(yī)學(xué)水平的不斷提高,兒童癌癥的整體預(yù)后有了很大改善,但兒童惡性腫瘤仍是兒童死亡的主要原因。

TARGET數(shù)據(jù)庫(kù)是一種多組學(xué)方法,用于確定驅(qū)動(dòng)兒童癌癥發(fā)展和進(jìn)展的分子變化。數(shù)據(jù)庫(kù)以兒童腫瘤為目標(biāo),主要疾病項(xiàng)目包括急性淋巴細(xì)胞白血病(ALL)、急性髓系白血?。ˋML)、腎臟腫瘤(KT)、神經(jīng)母細(xì)胞瘤(NBL)和骨肉瘤(OS)。

TARGET通過(guò)測(cè)序和芯片技術(shù)檢測(cè)特定兒童癌癥的基因組、轉(zhuǎn)錄組和表觀遺傳學(xué)。使用多組學(xué)方法為每種類型的癌癥生成一個(gè)全面的分子改變圖(改變是指DNA或RNA的改變,如染色體結(jié)構(gòu)的重排或基因表達(dá)的改變)。通過(guò)計(jì)算和驗(yàn)證生物學(xué)功能來(lái)確定哪些改變破壞了基因的功能通路,促進(jìn)了癌癥的生長(zhǎng)、進(jìn)展和生存,從而從癌癥相關(guān)的改變中識(shí)別出候選的治療靶點(diǎn)和預(yù)后標(biāo)記物。

到目前為止,TARGET由五個(gè)項(xiàng)目組成:ALL、AML、KT、NBL和OS。

TARGET數(shù)據(jù)庫(kù)針對(duì)的是兒童腫瘤,雖然包含的疾病種類較少,但更具針對(duì)性。在一定程度上,該數(shù)據(jù)庫(kù)可以幫助研究人員進(jìn)行更深入的疾病研究,并導(dǎo)致更精確的治療選擇。

2.11 eICU-CRD

eICU-CRD全稱為eICU collaborative research database

危重病學(xué)涉及無(wú)創(chuàng)通氣的應(yīng)用和管理、抗生素的合理使用、營(yíng)養(yǎng)評(píng)估和支持的實(shí)施、鎮(zhèn)痛和鎮(zhèn)靜藥物的適應(yīng)癥、ICU風(fēng)險(xiǎn)評(píng)估模式的適用范圍等諸多難題。

eICU-CRD是飛利浦集團(tuán)與麻省理工學(xué)院計(jì)算生理學(xué)實(shí)驗(yàn)室合作創(chuàng)建的大型公共數(shù)據(jù)庫(kù)。eICU-CRD的發(fā)布基于MIMIC-III的成功建立,并通過(guò)提供來(lái)自多個(gè)中心的數(shù)據(jù)擴(kuò)展了研究范圍。

該數(shù)據(jù)庫(kù)由來(lái)自美國(guó)多個(gè)ICU的數(shù)據(jù)組成。當(dāng)前版本為2.0版,于2018年5月17日發(fā)布。該數(shù)據(jù)庫(kù)涵蓋了2014年和2015年20多萬(wàn)名ICU患者的常規(guī)數(shù)據(jù),收集了豐富的高質(zhì)量臨床信息,包括生命體征、護(hù)理計(jì)劃、疾病嚴(yán)重程度、診斷和治療信息。

要訪問(wèn)eICU-CRD數(shù)據(jù)庫(kù),首先必須申請(qǐng)注冊(cè)。協(xié)議規(guī)定申請(qǐng)者不得與他人共享數(shù)據(jù),不得試圖重新識(shí)別任何患者或機(jī)構(gòu),并遵守協(xié)作研究的原則。GitHub上有一個(gè)儲(chǔ)存庫(kù),用于存儲(chǔ)eICU-CRD數(shù)據(jù)庫(kù)代碼,生成表格和描述性統(tǒng)計(jì)數(shù)據(jù)的代碼可在網(wǎng)上獲得(https://github.com/mit-lcp/eicu-code)。

隨著衛(wèi)生信息網(wǎng)絡(luò)的出現(xiàn),人類需要開(kāi)發(fā)具有成本效益的系統(tǒng),以減少記錄衛(wèi)生保健數(shù)據(jù)所花費(fèi)的時(shí)間和精力。在整個(gè)住院期間,ICU的患者都受到密切監(jiān)測(cè),以檢測(cè)病情的變化?;颊卟∏榈淖兓筢t(yī)務(wù)人員及時(shí)修改治療方案。eICU-CRD數(shù)據(jù)庫(kù)解決了醫(yī)務(wù)人員難以有大量時(shí)間和精力收集大量完整信息的問(wèn)題。

2.12 GEO數(shù)據(jù)庫(kù)

GEO全稱為Gene expression omnibus

GEO數(shù)據(jù)庫(kù)是NCBI創(chuàng)建的國(guó)際公共功能基因表達(dá)庫(kù)。數(shù)據(jù)具有強(qiáng)大的存儲(chǔ)功能,允許用戶或研究人員提交、保存和檢索多種不同類型的數(shù)據(jù)。GEO提供了一種簡(jiǎn)單的提交流程和格式,其數(shù)據(jù)來(lái)源依賴于研究人員提交的數(shù)據(jù)。

GEO數(shù)據(jù)庫(kù)不僅為研究人員提供了豐富的疾病相關(guān)基因表達(dá)圖譜,還提供了查詢和下載實(shí)驗(yàn)和基因表達(dá)數(shù)據(jù)的工具,允許用戶查詢和下載有趣的研究和基因表達(dá)圖譜。GEO數(shù)據(jù)庫(kù)包含原始數(shù)據(jù)和從原始數(shù)據(jù)生成的數(shù)據(jù)集或地圖。GEO的原始數(shù)據(jù)放在三個(gè)不同的實(shí)體數(shù)據(jù)庫(kù)中:platform、sample和series。

GEO數(shù)據(jù)集的搜索結(jié)果包括名稱、描述、物種、平臺(tái)、提交者聯(lián)系人、系列、發(fā)布時(shí)間、數(shù)字類型和樣本數(shù)。GEO表達(dá)圖的搜索結(jié)果以圖片的形式顯示所有樣本的基因表達(dá)水平。搜索結(jié)果中的實(shí)驗(yàn)條件便于我們觀察不同條件下基因表達(dá)水平的差異。每個(gè)數(shù)據(jù)集概述其研究數(shù)據(jù)報(bào)告和目的,顯示與其關(guān)聯(lián)的平臺(tái)、樣本和系列的數(shù)量,研究人員可以從中選擇感興趣的研究?jī)?nèi)容來(lái)下載數(shù)據(jù)。

GEO還提供GEO2R在線分析工具,GEO2R是一個(gè)交互式網(wǎng)絡(luò)工具,它使用GEO2R篩選差異表達(dá)的基因,允許用戶比較兩組或更多組GEO系列,以識(shí)別在不同實(shí)驗(yàn)條件下差異表達(dá)的基因,結(jié)果顯示有意義(基因排序表)。GEO2R使用來(lái)自BioConductor項(xiàng)目的GEOquery和LIMMA軟件包對(duì)提交者提供的原始處理數(shù)據(jù)表進(jìn)行比較。與GEO的其他數(shù)據(jù)集分析工具不同,GEO2R不依賴于整理的數(shù)據(jù)集,而是查詢?cè)嫉木仃嚁?shù)據(jù)文件系列。

GEO由NCBI開(kāi)發(fā)和維護(hù),是著名的芯片數(shù)據(jù)存儲(chǔ)和查詢綜合數(shù)據(jù)庫(kù)之一。芯片技術(shù)平臺(tái)多種多樣。GEO創(chuàng)建于2000年,最后一次修改日期是2016年7月26日。

研究人員通過(guò)對(duì)基因芯片提供的基因表達(dá)數(shù)據(jù)信息進(jìn)行深入挖掘和分析,發(fā)掘其潛在的生物學(xué)價(jià)值,并將其應(yīng)用于基因分析、基因表達(dá)調(diào)控、疾病診斷、藥物篩選等研究。對(duì)基因表達(dá)譜數(shù)據(jù)的挖掘和分析有助于了解基因的功能和基因間的相互作用,分析基因的遺傳特征和功能。GEO順應(yīng)了芯片數(shù)據(jù)庫(kù)的發(fā)展趨勢(shì),降低了芯片檢測(cè)成本,縮短了數(shù)據(jù)讀取時(shí)間,高效合理地利用了資源,整合了更多研究人員的數(shù)據(jù)。

2.13 GBD數(shù)據(jù)庫(kù)

GBD全稱為Global burden of disease

準(zhǔn)確掌握世界范圍內(nèi)各種疾病的負(fù)擔(dān),對(duì)于了解疾病的危害程度和發(fā)展,提高衛(wèi)生服務(wù)效率,促進(jìn)居民健康和社會(huì)經(jīng)濟(jì)發(fā)展具有重要意義。1988年,在世衛(wèi)組織和世界銀行的支持下,哈佛大學(xué)公共衛(wèi)生學(xué)院開(kāi)始了對(duì)GBD的研究,隨后華盛頓大學(xué)健康測(cè)量與評(píng)估研究所成立了GBD研究小組,對(duì)GBD進(jìn)行研究。

GBD數(shù)據(jù)庫(kù)包含所有GBD疾病、風(fēng)險(xiǎn)、病因、損傷、自然損傷和后遺癥綜合征。

衡量GBD的指標(biāo)包括:死亡、壽命損失、壽命殘疾、限制生命的殘疾、患病率、發(fā)病率、預(yù)期壽命、死亡概率和健康預(yù)期壽命、孕產(chǎn)婦死亡率和總暴露。

提取的數(shù)據(jù)指標(biāo)包括:數(shù)量、比率、百分比、年份和死亡概率。

可提取數(shù)據(jù)的年份為:1990年至2017年所有指標(biāo)的年度結(jié)果,以及所有GBD年齡段;

性別:男性、女性或兩者兼有。

研究領(lǐng)域分為:GBD超級(jí)地區(qū)、地區(qū)、國(guó)家、以及選定的國(guó)家以下單位、世界衛(wèi)生組織地區(qū)、世界銀行收入水平等。

雖然GBD數(shù)據(jù)庫(kù)可以查詢和下載數(shù)據(jù),但包含很多搜索參數(shù)都會(huì)造成問(wèn)題:查詢時(shí)有時(shí)會(huì)導(dǎo)致文件忽略查詢中指定的某些結(jié)果:特定的年齡組、年份等;同時(shí)查詢所有位置,很多或所有的原因、年齡組、年份等都會(huì)出現(xiàn)不完整的數(shù)據(jù)。

此工具不適用于Internet Explorer 10及更早版本。

3. 臨床數(shù)據(jù)挖掘方法

隨著信息時(shí)代的到來(lái),數(shù)據(jù)挖掘越來(lái)越多地應(yīng)用于臨床實(shí)踐。

有了信息技術(shù),病歷和隨訪數(shù)據(jù)可以更高效地存儲(chǔ)和提取。同時(shí)從醫(yī)學(xué)數(shù)據(jù)中尋找潛在的關(guān)系或模式,獲得有關(guān)患者診斷和治療的有效信息,還可以增加疾病的預(yù)測(cè)準(zhǔn)確率,及早發(fā)現(xiàn)疾病,提高治愈率。

與傳統(tǒng)的研究方法不同,數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的情況下挖掘信息和發(fā)現(xiàn)信息,即在沒(méi)有事先研究和設(shè)計(jì)的情況下,所獲得的信息應(yīng)該具有三個(gè)特點(diǎn):先前未知、有效和實(shí)用。

數(shù)據(jù)挖掘技術(shù)的出現(xiàn)不是要取代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),而是對(duì)統(tǒng)計(jì)分析方法論的延伸和延伸。

4. 醫(yī)學(xué)數(shù)據(jù)挖掘的前景與挑戰(zhàn)

利用新前沿學(xué)科產(chǎn)生和分析大數(shù)據(jù)是傳統(tǒng)醫(yī)學(xué)和精準(zhǔn)醫(yī)學(xué)之間演變的趨勢(shì)。大數(shù)據(jù)的發(fā)展將有助于精準(zhǔn)醫(yī)療的全球應(yīng)用和新的健康管理模式的出現(xiàn)。

醫(yī)學(xué)大數(shù)據(jù)挖掘仍然面臨巨大的挑戰(zhàn),主要表現(xiàn)在:

  • 醫(yī)學(xué)知識(shí)概念復(fù)雜,醫(yī)學(xué)知識(shí)推理關(guān)鍵技術(shù)沒(méi)有突破;
  • 醫(yī)學(xué)信息源廣泛,數(shù)據(jù)形態(tài)高,緯度高,類型不平衡,結(jié)構(gòu)復(fù)雜;
  • 醫(yī)院電子病歷系統(tǒng)開(kāi)放性和可擴(kuò)展性差,院外流程監(jiān)管不力。

雖然要在海量數(shù)據(jù)中產(chǎn)生新的發(fā)現(xiàn)和結(jié)論并不容易,但只要我們?cè)谡_的系統(tǒng)上進(jìn)行生產(chǎn)性投資,在技術(shù)和勞動(dòng)力上實(shí)現(xiàn)關(guān)鍵突破,未來(lái)的大數(shù)據(jù)分析、可視化和人工智能是可以預(yù)見(jiàn)的,醫(yī)療和生活的便利和改變值得期待。

5. 總結(jié)

本文首先簡(jiǎn)要介紹了大數(shù)據(jù)時(shí)代常用的數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘方法。

介紹的數(shù)據(jù)庫(kù)只是一個(gè)很小的部分,還有許多值得研究的數(shù)據(jù)庫(kù),如COSMIC、HGMD、Oncomine、CBioPortal、SRA等。隨著理論研究的深入和實(shí)踐探索的深入,醫(yī)學(xué)數(shù)據(jù)挖掘?qū)⒃诩膊≡\斷與治療、醫(yī)學(xué)研究與教學(xué)、醫(yī)院管理等方面發(fā)揮重要作用。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
常用臨床研究公共數(shù)據(jù)庫(kù)有哪些?
強(qiáng)烈推薦!大型醫(yī)學(xué)公共數(shù)據(jù)庫(kù)大盤(pán)點(diǎn)
GEO數(shù)據(jù)庫(kù)及應(yīng)用場(chǎng)景介紹
TCGA腫瘤數(shù)據(jù)分析專題
腫瘤數(shù)據(jù)庫(kù),可不只有TCGA、GEO!
重磅!中文版GEO數(shù)據(jù)庫(kù)來(lái)了!
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服