機器學(xué)習(xí)領(lǐng)域有一句經(jīng)典格言，“數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限，而模型和算法只是逼近這個上限而已”。但是，從哪里獲得數(shù)據(jù)呢？

計算機視覺

下面介紹一系列公開可用的計算機視覺領(lǐng)域高質(zhì)量數(shù)據(jù)集。

一、字符數(shù)據(jù)集

MNIST數(shù)據(jù)集

機器學(xué)習(xí)領(lǐng)域內(nèi)用于手寫字識別的數(shù)據(jù)集，數(shù)據(jù)集中包含6個萬訓(xùn)練集、10000個示例測試集。，每個樣本圖像的寬高為28*28。這些數(shù)據(jù)集的大小已經(jīng)歸一化，并且形成固定大小，因此預(yù)處理工作基本已經(jīng)完成。在機器學(xué)習(xí)中，主流的機器學(xué)習(xí)工具（包括sklearn）很多都使用該數(shù)據(jù)集作為入門級別的介紹和應(yīng)用。

SVHN數(shù)據(jù)集

SVHN數(shù)據(jù)來源于 Google 街景視圖中房屋信息，它是一個真實世界的圖像數(shù)據(jù)集，用于開發(fā)機器學(xué)習(xí)和對象識別算法，對數(shù)據(jù)預(yù)處理和格式化的要求最低。它跟MNIST相似，但是包含更多數(shù)量級的標(biāo)簽數(shù)據(jù)（超過60萬個數(shù)字圖像），并且來源更加多樣，用來識別自然場景圖像中的數(shù)字。

二、物體數(shù)據(jù)集

CIFAR 10 & CIFAR 100數(shù)據(jù)集

CIFAR-10數(shù)據(jù)集由10個類別的60000 32x32彩色圖像組成，每個類別有6000張圖像。有50000個訓(xùn)練圖像和10000個測試圖像。數(shù)據(jù)集的類別涵蓋航空、車輛、鳥類、貓類、狗類、狐貍類、馬類、船類、卡車等日常生活類別，可用于計算機視覺相關(guān)方向。

谷歌Open Images圖像數(shù)據(jù)集

其中包括大約9百萬標(biāo)注圖片、橫跨6000個類別標(biāo)簽，平均每個圖像擁有8個標(biāo)簽。該數(shù)據(jù)集的標(biāo)簽涵蓋比擁有1000個類別標(biāo)簽的ImageNet具體更多的現(xiàn)實實體，可用于計算機視覺方向的訓(xùn)練。

ImageNet數(shù)據(jù)集

ImageNet數(shù)據(jù)集是目前深度學(xué)習(xí)圖像領(lǐng)域應(yīng)用得非常多的一個領(lǐng)域，該數(shù)據(jù)集有1000多個圖像，涵蓋圖像分類、定位、檢測等應(yīng)用方向。Imagenet數(shù)據(jù)集文檔詳細，有專門的團隊維護，在計算機視覺領(lǐng)域研究論文中應(yīng)用非常廣，幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集。很多大型科技公司都會參加ImageNet圖像識別大賽，包括百度、谷歌、微軟等。

Tiny Images數(shù)據(jù)集

該數(shù)據(jù)集由79302017張圖像組成，每張圖像為32x32彩色圖像。該數(shù)據(jù)以二進制文件的形式存儲，大約有400Gb圖像。

CoPhIR數(shù)據(jù)集

CoPhIR是從Flickr中采集的大概1.06億個圖像數(shù)據(jù)集，圖像中不僅包含了圖表本身的數(shù)據(jù)，例如位置、標(biāo)題、GPS、標(biāo)簽、評論等，還可提取出顏色模式、顏色布局、邊緣直方圖、均勻紋理等數(shù)據(jù)。

LSUN數(shù)據(jù)集

PASCAL VOC和ImageNet ILSVRC比賽使用的數(shù)據(jù)集，數(shù)據(jù)領(lǐng)域包括臥室、冰箱、教師、廚房、起居室、酒店等多個主題。

COCO數(shù)據(jù)集

COCO（Common Objects in Context）是一個新的圖像識別、分割和圖像語義數(shù)據(jù)集，由微軟贊助，圖像中不僅有標(biāo)注類別、位置信息，還有對圖像的語義文本描述。COCO數(shù)據(jù)集的開源使得近兩、三年來圖像分割語義理解取得了巨大的進展，也幾乎成為了圖像語義理解算法性能評價的“標(biāo)準(zhǔn)”數(shù)據(jù)集。

三、人臉數(shù)據(jù)集

AFW（Annotated Faces in the Wild）數(shù)據(jù)集

AFW數(shù)據(jù)集是使用Flickr（雅虎旗下圖片分享網(wǎng)站）圖像建立的人臉圖像庫，包含205個圖像，其中有473個標(biāo)記的人臉。對于每一個人臉都包含一個長方形邊界框，6個地標(biāo)和相關(guān)的姿勢角度。數(shù)據(jù)庫雖然不大，額外的好處是作者給出了其2012 CVPR的論文和程序以及訓(xùn)練好的模型。

LFW（Labeled Faces in the Wild）數(shù)據(jù)集

該數(shù)據(jù)集是用于研究無約束面部識別問題的面部照片數(shù)據(jù)庫。數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的13000多張圖像。每張臉都貼上了所畫的人的名字，圖片中的1680人在數(shù)據(jù)集中有兩個或更多不同的照片。

AFLW（Annotated Facial Landmarks in the Wild）數(shù)據(jù)集

AFLW人臉數(shù)據(jù)庫是一個包括多姿態(tài)、多視角的大規(guī)模人臉數(shù)據(jù)庫，而且每個人臉都被標(biāo)注了21個特征點。此數(shù)據(jù)庫信息量非常大，包括了各種姿態(tài)、表情、光照、種族等因素影響的圖片。AFLW人臉數(shù)據(jù)庫大約包括25000萬已手工標(biāo)注的人臉圖片，其中59%為女性，41%為男性，大部分的圖片都是彩色，只有少部分是灰色圖片。該數(shù)據(jù)庫非常適合用于人臉識別、人臉檢測、人臉對齊等方面的研究，具有很高的研究價值。

FDDB（Face Detection Data Set and Benchmark）數(shù)據(jù)集

FDDB數(shù)據(jù)集主要用于約束人臉檢測研究，該數(shù)據(jù)集選取野外環(huán)境中拍攝的2845個圖像，從中選擇5171個人臉圖像。是一個被廣泛使用的權(quán)威的人臉檢測平臺。

WIDER FACE數(shù)據(jù)集

WIDER FACE是香港中文大學(xué)的一個提供更廣泛人臉數(shù)據(jù)的人臉檢測基準(zhǔn)數(shù)據(jù)集，由YangShuo， Luo Ping ，Loy ，Chen Change ，Tang Xiaoou收集。它包含32203個圖像和393703個人臉圖像，在尺度，姿勢，閉塞，表達，裝扮，關(guān)照等方面表現(xiàn)出了大的變化。WIDER FACE是基于61個事件類別組織的，對于每一個事件類別，選取其中的40%作為訓(xùn)練集，10%用于交叉驗證（cross validation），50%作為測試集。和PASCAL VOC數(shù)據(jù)集一樣，該數(shù)據(jù)集也采用相同的指標(biāo)。和MALF和Caltech數(shù)據(jù)集一樣，對于測試圖像并沒有提供相應(yīng)的背景邊界框。

CMU-MIT數(shù)據(jù)集

CMU-MIT是由卡內(nèi)基梅隆大學(xué)和麻省理工學(xué)院一起收集的數(shù)據(jù)集，所有圖片都是黑白的gif格式。里面包含511個閉合的人臉圖像，其中130個是正面的人臉圖像。

GENKI數(shù)據(jù)集

GENKI數(shù)據(jù)集是由加利福尼亞大學(xué)的機器概念實驗室收集。該數(shù)據(jù)集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像，GENKI-4K包含4000個圖像，分為“笑”和“不笑”兩種，每個圖片的人臉的尺度大小，姿勢，光照變化，頭的轉(zhuǎn)動等都不一樣，專門用于做笑臉識別。GENKI-SZSL包含3500個圖像，這些圖像包括廣泛的背景，光照條件，地理位置，個人身份和種族等。

IJB-A (IARPA JanusBenchmark A)數(shù)據(jù)集

IJB-A是一個用于人臉檢測和識別的數(shù)據(jù)庫，包含24327個圖像和49759個人臉。

MALF (Multi-Attribute Labelled Faces)數(shù)據(jù)集

MALF是為了細粒度的評估野外環(huán)境中人臉檢測模型而設(shè)計的數(shù)據(jù)庫。數(shù)據(jù)主要來源于Internet，包含5250個圖像，11931個人臉。每一幅圖像包含正方形邊界框，俯仰、蜷縮等姿勢等。該數(shù)據(jù)集忽略了小于20*20的人臉，大約838個人臉，占該數(shù)據(jù)集的7%。同時，該數(shù)據(jù)集還提供了性別，是否帶眼鏡，是否遮擋，是否是夸張的表情等信息。

MegaFace數(shù)據(jù)集

MegaFace資料集包含一百萬張圖片，代表690000個獨特的人。所有數(shù)據(jù)都是華盛頓大學(xué)從Flickr（雅虎旗下圖片分享網(wǎng)站）組織收集的。這是第一個在一百萬規(guī)模級別的面部識別算法測試基準(zhǔn)。現(xiàn)有臉部識別系統(tǒng)仍難以準(zhǔn)確識別超過百萬的數(shù)據(jù)量。為了比較現(xiàn)有公開臉部識別算法的準(zhǔn)確度，華盛頓大學(xué)在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個項目旨在研究當(dāng)數(shù)據(jù)庫規(guī)模提升數(shù)個量級時，現(xiàn)有的臉部識別系統(tǒng)能否維持可靠的準(zhǔn)確率。

IMM Data數(shù)據(jù)集

IMM人臉數(shù)據(jù)庫包括了240張人臉圖片和240個asf格式文件（可以用UltraEdit打開，記錄了58個點的地標(biāo)），共40個人（7女33男），每人6張人臉圖片，每張人臉圖片被標(biāo)記了58個特征點。所有人都未戴眼鏡。

MUCT Data數(shù)據(jù)集

MUCT人臉數(shù)據(jù)庫由3755個人臉圖像組成，每個人臉圖像有76個點的地標(biāo)（landmark），圖片為jpg格式，地標(biāo)文件包含csv,rda,shape三種格式。該圖像庫在種族、關(guān)照、年齡等方面表現(xiàn)出更大的多樣性。

ORL (AT&T Dataset)數(shù)據(jù)集

ORL數(shù)據(jù)集是劍橋大學(xué)AT&T實驗室收集的一個人臉數(shù)據(jù)集。包含了從1992.4到1994.4該實驗室的成員。該數(shù)據(jù)集中圖像分為40個不同的主題，每個主題包含10幅圖像。對于其中的某些主題，圖像是在不同的時間拍攝的。在關(guān)照，面部表情（張開眼睛，閉合眼睛，笑，非笑），面部細節(jié)（眼鏡）等方面都變現(xiàn)出了差異性。所有圖像都是以黑色均勻背景，并且從正面向上方向拍攝。其中圖片都是PGM格式，圖像大小為92*102，包含256個灰色通道。

四、車輛數(shù)據(jù)集

KITTI（Karlsruhe Institute ofTechnology and Toyota Technological Institute）數(shù)據(jù)集

KITTI包含7481個訓(xùn)練圖片和7518個測試圖片。所有圖片都是真彩色png格式。該數(shù)據(jù)集中標(biāo)注了車輛的類型，是否截斷，遮擋情況，角度值，2維和3維box框，位置，旋轉(zhuǎn)角度，分數(shù)等重要的信息，絕對是做車載導(dǎo)航的不可多得的數(shù)據(jù)集。

五、行人檢測數(shù)據(jù)集

INRIA Person數(shù)據(jù)集

Inria數(shù)據(jù)集是最常使用的行人檢測數(shù)據(jù)集。其中正樣本（行人）為png格式，負樣本為jpg格式。里面的圖片分為只有車，只有人，有車有人，無車無人四個類別。圖片像素為70134，96160，64*128等。

CaltechPedestrian Detection Benchmark數(shù)據(jù)集

加州理工學(xué)院的步行數(shù)據(jù)集包含大約包含10個小時640x480 30Hz的視頻。其主要是在一個在行駛在鄉(xiāng)村街道的小車上拍攝。視頻大約250000幀（在137個約分鐘的長段），共有350000個邊界框和2300個獨特的行人進行了注釋。注釋包括包圍盒和詳細的閉塞標(biāo)簽之間的時間對應(yīng)關(guān)系。更多信息可在其PAMI 2012 CVPR 2009標(biāo)桿的論文獲得。

MIT cbcl (center for biological and computational learning)Pedestrian Data 數(shù)據(jù)集

該數(shù)據(jù)集主要包含2個部分，一部分為128*64的包含924個圖片的ppm格式的圖片，另一部分為從打圖中分別切割而出的小圖，主要包含胳膊，腦袋，腳，腿，頭肩，身體等。

keras自帶的小型圖像數(shù)據(jù)集
（1）CIFAR10

from keras.datasets import cifar10(x_train, y_train), (x_test, y_test) = cifar10.load_data()

x_train, x_test: 參數(shù)規(guī)格分別為(50000, 3, 32, 32)和(10000, 3, 32, 32)
y_train, y_test: 標(biāo)簽取值范圍 (0-9)，shape (50000)和(10000)
（2）CIFAR100

from keras.datasets import cifar100(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')

x_train, x_test: 參數(shù)規(guī)格分別為(50000, 3, 32, 32)和(10000, 3, 32, 32)
y_train, y_test: 標(biāo)簽取值范圍 (0-99)，shape (50000)和(10000)
（3）手寫數(shù)字MNIST數(shù)據(jù)集

from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train, x_test: 參數(shù)規(guī)格分別為(60000, 28, 28)和(10000, 28, 28)
y_train, y_test: 標(biāo)簽取值范圍 (0-9)，shape (60000)和(10000)
（4）時尚元素MNIST數(shù)據(jù)庫

from keras.datasets import fashion_mnist(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

x_train, x_test: 參數(shù)規(guī)格分別為(60000, 28, 28)和(10000, 28, 28)
y_train, y_test: 標(biāo)簽取值范圍 (0-9)，shape (60000)和(10000)

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

一、字符數(shù)據(jù)集

二、物體數(shù)據(jù)集

三、人臉數(shù)據(jù)集

四、車輛數(shù)據(jù)集

五、行人檢測數(shù)據(jù)集

一、字符數(shù)據(jù)集

二、物體數(shù)據(jù)集

三、人臉數(shù)據(jù)集

四、車輛數(shù)據(jù)集