上海交大:我們做了一個醫(yī)療版MNIST數(shù)據(jù)集,發(fā)現(xiàn)常見AutoML算法沒那么好用
第一時間獲取價(jià)值內(nèi)容
上海交大研究人員創(chuàng)建新型開放醫(yī)療圖像數(shù)據(jù)集 MedMNIST,并設(shè)計(jì)「MedMNIST 分類十項(xiàng)全能」,旨在促進(jìn) AutoML 算法在醫(yī)療圖像分析領(lǐng)域的研究。
項(xiàng)目地址:https://medmnist.github.io/
論文地址:https://arxiv.org/pdf/2010.14925v1.pdf
GitHub 地址:https://github.com/MedMNIST/MedMNIST
數(shù)據(jù)集下載地址:https://www.dropbox.com/sh/upxrsyb5v8jxbso/AADOV0_6pC9Tb3cIACro1uUPa?dl=0
在 AI 技術(shù)的發(fā)展中,數(shù)據(jù)集發(fā)揮了重要的作用。然而,醫(yī)療數(shù)據(jù)集的創(chuàng)建面臨著很多難題,如數(shù)據(jù)獲取、數(shù)據(jù)標(biāo)注等。近期,上海交通大學(xué)的研究人員創(chuàng)建了醫(yī)療圖像數(shù)據(jù)集 MedMNIST,共包含 10 個預(yù)處理開放醫(yī)療圖像數(shù)據(jù)集(其數(shù)據(jù)來自多個不同的數(shù)據(jù)源,并經(jīng)過預(yù)處理)。和 MNIST 數(shù)據(jù)集一樣,MedMNIST 數(shù)據(jù)集在輕量級 28 × 28 圖像上執(zhí)行分類任務(wù),所含任務(wù)覆蓋主要的醫(yī)療圖像模態(tài)和多樣化的數(shù)據(jù)規(guī)模。根據(jù)研究人員的設(shè)計(jì),MedMNIST 數(shù)據(jù)集具備以下特性:教育性:該數(shù)據(jù)集中的多模態(tài)數(shù)據(jù)來自多個具備知識共享許可證的開放醫(yī)療圖像數(shù)據(jù)集,可以用作教育目的。
標(biāo)準(zhǔn)化:研究人員對數(shù)據(jù)進(jìn)行預(yù)處理,將其轉(zhuǎn)化為相同的格式,因此用戶無需具備背景知識即可使用。
多樣性:多模態(tài)數(shù)據(jù)集涵蓋多種數(shù)據(jù)規(guī)模(從 100 到 100,000)和任務(wù)(二分類 / 多分類、有序回歸和多標(biāo)簽)。
輕量級:圖像大小為 28 × 28,便于快速設(shè)計(jì)原型和試驗(yàn)多模態(tài)機(jī)器學(xué)習(xí)與 AutoML 算法。
受 Medical Segmentation Decathlon(醫(yī)學(xué)分割十項(xiàng)全能)的啟發(fā),該研究也設(shè)計(jì)了 MedMNIST Classification Decathlon(MedMNIST 分類十項(xiàng)全能),作為 AutoML 在醫(yī)療圖像分類領(lǐng)域的基準(zhǔn)。它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能,且不對算法進(jìn)行手動微調(diào)。研究人員對比了多個基線方法的性能,包括早停 ResNet [6]、開源 AutoML 工具(auto-sklearn [7] 和 AutoKeras [8]),以及商業(yè)化 AutoML 工具(Google AutoML Vision)。研究人員希望 MedMNIST Classification Decathlon 可以促進(jìn) AutoML 在醫(yī)療圖像分析領(lǐng)域的研究。MedMNIST 數(shù)據(jù)集包含 10 個預(yù)處理數(shù)據(jù)集,覆蓋主要的數(shù)據(jù)模態(tài)(如 X 光片、OCT、超聲、CT)、多樣化的分類任務(wù)(二分類 / 多分類、有序回歸和多標(biāo)簽)和數(shù)據(jù)規(guī)模。如表 1 所示,數(shù)據(jù)集設(shè)計(jì)的多樣性導(dǎo)致了任務(wù)難度的多樣化,而這正是 AutoML 基準(zhǔn)所需要的。研究人員對每個數(shù)據(jù)集進(jìn)行預(yù)處理,將其分割為訓(xùn)練 - 驗(yàn)證 - 測試子集。表 1:MedMNIST 數(shù)據(jù)集概覽,涵蓋數(shù)據(jù)集的名稱、來源、數(shù)據(jù)模態(tài)、任務(wù)和數(shù)據(jù)集分割情況。
這些數(shù)據(jù)集的數(shù)據(jù)模態(tài)涵蓋 X 光片、OCT、超聲、CT、病理切片、皮膚鏡檢查等形式,涉及結(jié)直腸癌、視網(wǎng)膜疾病、乳腺疾病、肝腫瘤等多個醫(yī)學(xué)領(lǐng)域。新型 AutoML 醫(yī)療圖像基準(zhǔn)如前所述,研究人員受醫(yī)學(xué)分割十項(xiàng)全能的啟發(fā),設(shè)計(jì)了「MedMNIST 分類十項(xiàng)全能」,旨在為醫(yī)療圖像分析創(chuàng)建輕量級的 AutoML 基準(zhǔn)。它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能,且不對算法進(jìn)行手動微調(diào)。研究人員對比了多個基線方法的性能,參見下表 2:從表 2 中可以看出,Google AutoML Vision 整體性能較好,但并不總是最優(yōu),有時甚至輸給 ResNet-18 和 ResNet-50。auto-sklearn 在大部分?jǐn)?shù)據(jù)集上表現(xiàn)不好,這表明典型的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法在該醫(yī)療圖像數(shù)據(jù)集上性能較差。AutoKeras 在大規(guī)模數(shù)據(jù)集上性能較好,在小規(guī)模數(shù)據(jù)集上表現(xiàn)相對較差。沒有哪種算法可以在這十個數(shù)據(jù)集上取得很好的泛化性能,這有助于探索 AutoML 算法在不同數(shù)據(jù)模態(tài)、任務(wù)和規(guī)模的數(shù)據(jù)集上的泛化效果。接下來,我們來看不同方法在訓(xùn)練集、驗(yàn)證集和測試集上的性能情況。如下圖 2 所示,算法在規(guī)模較小的數(shù)據(jù)集上容易過擬合。Google AutoML Vision 能夠較好地控制過擬合問題,而 auto-sklearn 出現(xiàn)了嚴(yán)重的過擬合。據(jù)此可以推斷,對于學(xué)習(xí)算法而言,合適的 reductive bias 非常重要。我們還可以在 MedMNIST 數(shù)據(jù)集上探索不同的正則化技術(shù),如數(shù)據(jù)增強(qiáng)、模型集成、優(yōu)化算法等。除了醫(yī)療領(lǐng)域之外,其他領(lǐng)域的數(shù)據(jù)集有時也很難獲取,這就需要我們掌握一些常見的數(shù)據(jù)集搜集方法和常用資源。最近,Medium 上的一位博主介紹了多個常用的數(shù)據(jù)集獲取來源:這是一個 GitHub 存儲庫,包含多個不同類別的數(shù)據(jù)集。鏈接:https://github.com/awesomedata/awesome-public-datasets這是一個以電子表格形式展示的數(shù)據(jù)集資源,從 2015 年開始定期更新,最新一期是 2020 年 10 月 28 日的資源,因此有些資源非常新。鏈接:https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0Kaggle Datasets 提供了關(guān)于很多數(shù)據(jù)集的預(yù)覽和總結(jié)性信息,非常適合用來檢索特定主題的數(shù)據(jù)集。鏈接:https://www.kaggle.com/datasets和 Kaggle 一樣,Data.world 提供了一系列用戶貢獻(xiàn)的數(shù)據(jù)集,還為公司存儲和組織自己的數(shù)據(jù)提供了平臺。數(shù)據(jù)集搜索是谷歌 2018 年推出的一個新搜索功能。如果你正在尋找特定主題或特定來源的數(shù)據(jù),這個工具值得一試。鏈接:https://datasetsearch.research.google.com/OpenDal 也是一個數(shù)據(jù)集搜索工具,你可以利用多種方式進(jìn)行搜索,如根據(jù)創(chuàng)建時間或框定地圖上的某一區(qū)域。鏈接:https://opendatalibrary.com/Pandas Data Reader 可以幫助你拉取在線資源中的數(shù)據(jù),然后將其用到 Python pandas DataFrame 中。這里大部分是金融數(shù)據(jù)。鏈接:https://pandas-datareader.readthedocs.io/en/latest/remote_data.html利用 Python 從 API 獲取數(shù)據(jù)也是數(shù)據(jù)科學(xué)家常用的一種方法,具體操作步驟可以參見以下教程。鏈接:https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b參考鏈接:https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。