機器學(xué)習(xí)領(lǐng)域有一句經(jīng)典格言,“數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已”。但是,從哪里獲得數(shù)據(jù)呢?
計算機視覺
下面介紹一系列公開可用的計算機視覺領(lǐng)域高質(zhì)量數(shù)據(jù)集。
機器學(xué)習(xí)領(lǐng)域內(nèi)用于手寫字識別的數(shù)據(jù)集,數(shù)據(jù)集中包含6個萬訓(xùn)練集、10000個示例測試集。,每個樣本圖像的寬高為28*28。這些數(shù)據(jù)集的大小已經(jīng)歸一化,并且形成固定大小,因此預(yù)處理工作基本已經(jīng)完成。在機器學(xué)習(xí)中,主流的機器學(xué)習(xí)工具(包括sklearn)很多都使用該數(shù)據(jù)集作為入門級別的介紹和應(yīng)用。
SVHN數(shù)據(jù)來源于 Google 街景視圖中房屋信息,它是一個真實世界的圖像數(shù)據(jù)集,用于開發(fā)機器學(xué)習(xí)和對象識別算法,對數(shù)據(jù)預(yù)處理和格式化的要求最低。它跟MNIST相似,但是包含更多數(shù)量級的標(biāo)簽數(shù)據(jù)(超過60萬個數(shù)字圖像),并且來源更加多樣,用來識別自然場景圖像中的數(shù)字。
CIFAR-10數(shù)據(jù)集由10個類別的60000 32x32彩色圖像組成,每個類別有6000張圖像。 有50000個訓(xùn)練圖像和10000個測試圖像。數(shù)據(jù)集的類別涵蓋航空、車輛、鳥類、貓類、狗類、狐貍類、馬類、船類、卡車等日常生活類別,可用于計算機視覺相關(guān)方向。
其中包括大約9百萬標(biāo)注圖片、橫跨6000個類別標(biāo)簽,平均每個圖像擁有8個標(biāo)簽。該數(shù)據(jù)集的標(biāo)簽涵蓋比擁有1000個類別標(biāo)簽的ImageNet具體更多的現(xiàn)實實體,可用于計算機視覺方向的訓(xùn)練。
ImageNet數(shù)據(jù)集是目前深度學(xué)習(xí)圖像領(lǐng)域應(yīng)用得非常多的一個領(lǐng)域,該數(shù)據(jù)集有1000多個圖像,涵蓋圖像分類、定位、檢測等應(yīng)用方向。Imagenet數(shù)據(jù)集文檔詳細,有專門的團隊維護,在計算機視覺領(lǐng)域研究論文中應(yīng)用非常廣,幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集。很多大型科技公司都會參加ImageNet圖像識別大賽,包括百度、谷歌、微軟等。
該數(shù)據(jù)集由79302017張圖像組成,每張圖像為32x32彩色圖像。 該數(shù)據(jù)以二進制文件的形式存儲,大約有400Gb圖像。
CoPhIR是從Flickr中采集的大概1.06億個圖像數(shù)據(jù)集,圖像中不僅包含了圖表本身的數(shù)據(jù),例如位置、標(biāo)題、GPS、標(biāo)簽、評論等,還可提取出顏色模式、顏色布局、邊緣直方圖、均勻紋理等數(shù)據(jù)。
PASCAL VOC和ImageNet ILSVRC比賽使用的數(shù)據(jù)集,數(shù)據(jù)領(lǐng)域包括臥室、冰箱、教師、廚房、起居室、酒店等多個主題。
COCO(Common Objects in Context)是一個新的圖像識別、分割和圖像語義數(shù)據(jù)集,由微軟贊助,圖像中不僅有標(biāo)注類別、位置信息,還有對圖像的語義文本描述。COCO數(shù)據(jù)集的開源使得近兩、三年來圖像分割語義理解取得了巨大的進展,也幾乎成為了圖像語義理解算法性能評價的“標(biāo)準(zhǔn)”數(shù)據(jù)集。
AFW數(shù)據(jù)集是使用Flickr(雅虎旗下圖片分享網(wǎng)站)圖像建立的人臉圖像庫,包含205個圖像,其中有473個標(biāo)記的人臉。對于每一個人臉都包含一個長方形邊界框,6個地標(biāo)和相關(guān)的姿勢角度。數(shù)據(jù)庫雖然不大,額外的好處是作者給出了其2012 CVPR的論文和程序以及訓(xùn)練好的模型。
該數(shù)據(jù)集是用于研究無約束面部識別問題的面部照片數(shù)據(jù)庫。數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的13000多張圖像。每張臉都貼上了所畫的人的名字,圖片中的1680人在數(shù)據(jù)集中有兩個或更多不同的照片。
AFLW人臉數(shù)據(jù)庫是一個包括多姿態(tài)、多視角的大規(guī)模人臉數(shù)據(jù)庫,而且每個人臉都被標(biāo)注了21個特征點。此數(shù)據(jù)庫信息量非常大,包括了各種姿態(tài)、表情、光照、種族等因素影響的圖片。AFLW人臉數(shù)據(jù)庫大約包括25000萬已手工標(biāo)注的人臉圖片,其中59%為女性,41%為男性,大部分的圖片都是彩色,只有少部分是灰色圖片。該數(shù)據(jù)庫非常適合用于人臉識別、人臉檢測、人臉對齊等方面的研究,具有很高的研究價值。
FDDB數(shù)據(jù)集主要用于約束人臉檢測研究,該數(shù)據(jù)集選取野外環(huán)境中拍攝的2845個圖像,從中選擇5171個人臉圖像。是一個被廣泛使用的權(quán)威的人臉檢測平臺。
WIDER FACE是香港中文大學(xué)的一個提供更廣泛人臉數(shù)據(jù)的人臉檢測基準(zhǔn)數(shù)據(jù)集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203個圖像和393703個人臉圖像,在尺度,姿勢,閉塞,表達,裝扮,關(guān)照等方面表現(xiàn)出了大的變化。WIDER FACE是基于61個事件類別組織的,對于每一個事件類別,選取其中的40%作為訓(xùn)練集,10%用于交叉驗證(cross validation),50%作為測試集。和PASCAL VOC數(shù)據(jù)集一樣,該數(shù)據(jù)集也采用相同的指標(biāo)。和MALF和Caltech數(shù)據(jù)集一樣,對于測試圖像并沒有提供相應(yīng)的背景邊界框。
CMU-MIT是由卡內(nèi)基梅隆大學(xué)和麻省理工學(xué)院一起收集的數(shù)據(jù)集,所有圖片都是黑白的gif格式。里面包含511個閉合的人臉圖像,其中130個是正面的人臉圖像。
GENKI數(shù)據(jù)集是由加利福尼亞大學(xué)的機器概念實驗室收集。該數(shù)據(jù)集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像,GENKI-4K包含4000個圖像,分為“笑”和“不笑”兩種,每個圖片的人臉的尺度大小,姿勢,光照變化,頭的轉(zhuǎn)動等都不一樣,專門用于做笑臉識別。GENKI-SZSL包含3500個圖像,這些圖像包括廣泛的背景,光照條件,地理位置,個人身份和種族等。
IJB-A是一個用于人臉檢測和識別的數(shù)據(jù)庫,包含24327個圖像和49759個人臉。
MALF是為了細粒度的評估野外環(huán)境中人臉檢測模型而設(shè)計的數(shù)據(jù)庫。數(shù)據(jù)主要來源于Internet,包含5250個圖像,11931個人臉。每一幅圖像包含正方形邊界框,俯仰、蜷縮等姿勢等。該數(shù)據(jù)集忽略了小于20*20的人臉,大約838個人臉,占該數(shù)據(jù)集的7%。同時,該數(shù)據(jù)集還提供了性別,是否帶眼鏡,是否遮擋,是否是夸張的表情等信息。
MegaFace資料集包含一百萬張圖片,代表690000個獨特的人。所有數(shù)據(jù)都是華盛頓大學(xué)從Flickr(雅虎旗下圖片分享網(wǎng)站)組織收集的。這是第一個在一百萬規(guī)模級別的面部識別算法測試基準(zhǔn)。 現(xiàn)有臉部識別系統(tǒng)仍難以準(zhǔn)確識別超過百萬的數(shù)據(jù)量。為了比較現(xiàn)有公開臉部識別算法的準(zhǔn)確度,華盛頓大學(xué)在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個項目旨在研究當(dāng)數(shù)據(jù)庫規(guī)模提升數(shù)個量級時,現(xiàn)有的臉部識別系統(tǒng)能否維持可靠的準(zhǔn)確率。
IMM人臉數(shù)據(jù)庫包括了240張人臉圖片和240個asf格式文件(可以用UltraEdit打開,記錄了58個點的地標(biāo)),共40個人(7女33男),每人6張人臉圖片,每張人臉圖片被標(biāo)記了58個特征點。所有人都未戴眼鏡。
MUCT人臉數(shù)據(jù)庫由3755個人臉圖像組成,每個人臉圖像有76個點的地標(biāo)(landmark),圖片為jpg格式,地標(biāo)文件包含csv,rda,shape三種格式。該圖像庫在種族、關(guān)照、年齡等方面表現(xiàn)出更大的多樣性。
ORL數(shù)據(jù)集是劍橋大學(xué)AT&T實驗室收集的一個人臉數(shù)據(jù)集。包含了從1992.4到1994.4該實驗室的成員。該數(shù)據(jù)集中圖像分為40個不同的主題,每個主題包含10幅圖像。對于其中的某些主題,圖像是在不同的時間拍攝的。在關(guān)照,面部表情(張開眼睛,閉合眼睛,笑,非笑),面部細節(jié)(眼鏡)等方面都變現(xiàn)出了差異性。所有圖像都是以黑色均勻背景,并且從正面向上方向拍攝。其中圖片都是PGM格式,圖像大小為92*102,包含256個灰色通道。
KITTI包含7481個訓(xùn)練圖片和7518個測試圖片。所有圖片都是真彩色png格式。該數(shù)據(jù)集中標(biāo)注了車輛的類型,是否截斷,遮擋情況,角度值,2維和3維box框,位置,旋轉(zhuǎn)角度,分數(shù)等重要的信息,絕對是做車載導(dǎo)航的不可多得的數(shù)據(jù)集。
Inria數(shù)據(jù)集是最常使用的行人檢測數(shù)據(jù)集。其中正樣本(行人)為png格式,負樣本為jpg格式。里面的圖片分為只有車,只有人,有車有人,無車無人四個類別。圖片像素為70134,96160,64*128等。
加州理工學(xué)院的步行數(shù)據(jù)集包含大約包含10個小時640x480 30Hz的視頻。其主要是在一個在行駛在鄉(xiāng)村街道的小車上拍攝。視頻大約250000幀(在137個約分鐘的長段),共有350000個邊界框和2300個獨特的行人進行了注釋。注釋包括包圍盒和詳細的閉塞標(biāo)簽之間的時間對應(yīng)關(guān)系。更多信息可在其PAMI 2012 CVPR 2009標(biāo)桿的論文獲得。
該數(shù)據(jù)集主要包含2個部分,一部分為128*64的包含924個圖片的ppm格式的圖片,另一部分為從打圖中分別切割而出的小圖,主要包含胳膊,腦袋,腳,腿,頭肩,身體等。
keras自帶的小型圖像數(shù)據(jù)集
(1)CIFAR10
x_train, x_test: 參數(shù)規(guī)格分別為(50000, 3, 32, 32)和(10000, 3, 32, 32)
y_train, y_test: 標(biāo)簽取值范圍 (0-9),shape (50000)和(10000)
(2)CIFAR100
from keras.datasets import cifar100(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
x_train, x_test: 參數(shù)規(guī)格分別為(50000, 3, 32, 32)和(10000, 3, 32, 32)
y_train, y_test: 標(biāo)簽取值范圍 (0-99),shape (50000)和(10000)
(3)手寫數(shù)字MNIST數(shù)據(jù)集
x_train, x_test: 參數(shù)規(guī)格分別為(60000, 28, 28)和(10000, 28, 28)
y_train, y_test: 標(biāo)簽取值范圍 (0-9),shape (60000)和(10000)
(4)時尚元素MNIST數(shù)據(jù)庫
from keras.datasets import fashion_mnist(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
x_train, x_test: 參數(shù)規(guī)格分別為(60000, 28, 28)和(10000, 28, 28)
y_train, y_test: 標(biāo)簽取值范圍 (0-9),shape (60000)和(10000)
聯(lián)系客服