中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
資源 | 數(shù)據(jù)至上的人工智能時代,最好的公開數(shù)據(jù)集有哪些?

選自Medium

機器之心編譯

參與:蔣思源、黃小天


現(xiàn)如今構(gòu)建人工智能或機器學(xué)習(xí)系統(tǒng)比以往的時候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上通過 AWS 的大規(guī)模計算力、Google Cloud 或其他供應(yīng)商的云計算,這些都意味著你可以在下午休閑時間使用筆記本電腦去訓(xùn)練出最前沿的機器學(xué)習(xí)模型。


雖然不算是人工智能訓(xùn)練的最前沿,但人工智能的無名英雄確實就是數(shù)據(jù),許多許多標注或未標注的數(shù)據(jù)。研究部門和公司也都認識到數(shù)據(jù)民主化是加快人工智能的必要步驟。


然而,涉及到機器學(xué)習(xí)或人工智能的大多數(shù)產(chǎn)品強烈依賴于那些通常沒有開放的私有數(shù)據(jù)集,而本文將指出解決這種困境的辦法。


事實上,我們很難用一篇文章來說明哪些開放數(shù)據(jù)集是有用的,因為那些有用的開放數(shù)據(jù)集必須是可概念證明的,而什么數(shù)據(jù)集對產(chǎn)品或確認特征是有用的,在你收集你自己所有數(shù)據(jù)之前是不知道的。


重要的是,如果數(shù)據(jù)集有良好的表現(xiàn)并不能保證其訓(xùn)練的機器學(xué)習(xí)系統(tǒng)在實際產(chǎn)品場景中表現(xiàn)良好。許多人在構(gòu)建人工智能系統(tǒng)時常常忘了構(gòu)建一個新人工智能解決方案或產(chǎn)品最困難的部分不是人工智能本身或算法,通常最困難的地方是數(shù)據(jù)收集和標注。標準數(shù)據(jù)集可以作為驗證或構(gòu)建更優(yōu)良解決辦法的良好起點。


在這個星期,我和一些機器學(xué)習(xí)專家們討論的都是有關(guān)標準數(shù)據(jù)集的問題。為了讓你能更輕松地構(gòu)建人工智能系統(tǒng),我們搜集了一些開源數(shù)據(jù)集,這些開源數(shù)據(jù)集是我們認為在人工智能的世界里你所需要了解的。


計算機視覺


  • MNIST: 最通用的健全檢查。25x25 的數(shù)據(jù)集,中心化,B&W 手寫數(shù)字。這是個容易的任務(wù)——但是在 MNIST 有效,不等同于其本身是有效的。

    地址:http://pjreddie.com/projects/mnist-in-csv/


  • CIFAR 10 & CIFAR 100: 32x32 彩色圖像。雖不再常用,但還是用了一次,可以是一項有趣的健全檢查。

    地址:https://www.cs.toronto.edu/~kriz/cifar.html


  • ImageNet: 新算法實際上的圖像數(shù)據(jù)集。很多圖片 API 公司從其 REST 接口獲取標簽,這些標簽被懷疑與 ImageNet 的下一級 WordNet 的 1000 個范疇很接近。

    地址:http://image-net.org/


  • LSUN: 場景理解具有很多輔助任務(wù)(房間布置評估、顯著性預(yù)測等)和一個相關(guān)競爭。

    地址:http://lsun.cs.princeton.edu/2016/


  • PASCAL VOC: 通用圖像分割/分類:對于構(gòu)建真實世界的圖像注釋毫無用處,對于基線則意義重大。

    地址:http://host.robots.ox.ac.uk/pascal/VOC/


  • SVHN: 來自谷歌街景視圖(Google Street View)的房屋數(shù)量。把這想象成荒野之中的周期性 MNIST。

    地址:http://ufldl.stanford.edu/housenumbers/


  • MS COCO: 帶有一個相關(guān)性競爭的通用圖像理解/字幕。

    地址:http://mscoco.org/


  • Visual Genome: 非常詳細的視覺知識庫,并帶有 100K 圖像的深字幕。

    地址:http://visualgenome.org/


  • Labeled Faces in the Wild:通過名稱標識符,已經(jīng)為被裁剪的面部區(qū)域(用 Viola-Jones)打了標簽?,F(xiàn)有人類的子集在數(shù)據(jù)集中有兩個圖像。對于這里做面部匹配系統(tǒng)訓(xùn)練的人來說,這很正常。

    地址:http://vis-www.cs.umass.edu/lfw/


自然語言


  • 文本分類數(shù)據(jù)集(2015 年來自 Zhang 等人):一個用于文本分類的合 8 個數(shù)據(jù)集為 1 個的大型數(shù)據(jù)集。這些是用于新文本分類的最常被報道的基線。樣本大小從 120K 到 3.6M, 問題從 2 級到 14 級。數(shù)據(jù)集來自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

    地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M


  • WikiText:來自由 Salesforce MetaMind 精心策劃的維基百科文章中的大型語言建模語料庫。

    地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/


  • Question Pairs:從包含重復(fù)/語義相似性標簽的 Quora 釋放出來的第一個數(shù)據(jù)集。

    地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs


  • SQuAD: 斯坦福大學(xué)問答數(shù)據(jù)集(The Stanford Question Answering Dataset)——一個被廣泛應(yīng)用于問題回答和閱讀理解的數(shù)據(jù)集,其中每個問題的答案形式是文本的一個片段或碎片。

    地址:https://rajpurkar.github.io/SQuAD-explorer/


  • CMU Q/A Dataset: 手動生成的仿真陳述問題/回答與維基百科文章的難度評級相對應(yīng)。

    地址:http://www.cs.cmu.edu/~ark/QA-data/


  • Maluuba Datasets: 用于狀態(tài)性自然語言理解研究的人工生成的精密數(shù)據(jù)集。

    地址:https://datasets.maluuba.com/


  • Billion Words: 大型,有統(tǒng)一目標的語言建模數(shù)據(jù)集。常被用來訓(xùn)練諸如 word2vec 或 Glove 的分布式詞表征。

    地址:http://www.statmt.org/lm-benchmark/


  • Common Crawl: PB 級規(guī)模的網(wǎng)絡(luò)爬行——常被用來學(xué)習(xí)詞嵌入??蓮?Amazon S3 上免費獲取。由于它是 WWW 的抓取,同樣也可以作為網(wǎng)絡(luò)數(shù)據(jù)集來使用。

    地址:http://commoncrawl.org/the-data/


  • bAbi: 來自 FAIR(Facebook AI Research)的合成式閱讀理解與問答數(shù)據(jù)集。

    地址:https://research.fb.com/projects/babi/


  • The Children’s Book Test:從來自古登堡計劃的童書中提?。▎栴}+上下文,回答)組的基線。這對問題回答、閱讀理解和仿真陳述查詢有用。

    地址:https://research.fb.com/projects/babi/


  •  Stanford Sentiment Treebank: 標準的情感數(shù)據(jù)集,在每一個句子解析樹的節(jié)點上帶有細膩的情感注解。

    地址:http://nlp.stanford.edu/sentiment/code.html


  • 20 Newsgroups: 文本分類經(jīng)典數(shù)據(jù)集中的一個。通??捎米骷兎诸惢蛉魏?IR/索引算法的基準。

    地址:http://qwone.com/~jason/20Newsgroups/


  • Reuters: 舊的,純粹基于分類的數(shù)據(jù)集與來自新聞專線的文本。常用于教程。

    地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection


  • IMDB:一個用于二元情感分類的更舊更小的數(shù)據(jù)集。

    地址:http://ai.stanford.edu/~amaas/data/sentiment/


  • UCI’s Spambase: 來自著名的 UCI 機器學(xué)習(xí)庫較久的經(jīng)典垃圾電子郵件數(shù)據(jù)集。由于數(shù)據(jù)集的策劃細節(jié),這可以是一個學(xué)習(xí)個性化過濾垃圾郵件的有趣基線。

    地址:https://archive.ics.uci.edu/ml/datasets/Spambase


語音


大多數(shù)語音識別數(shù)據(jù)集是有所有權(quán)的,這些數(shù)據(jù)為收集它們的公司帶來了大量的價值,但在這一領(lǐng)域里,許多可用的數(shù)據(jù)集都是比較舊的。


  • 2000 HUB5 English: 僅僅只包含英語的語音數(shù)據(jù),最近百度發(fā)表的論文《深度語音:擴展端對端語音識別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語音數(shù)據(jù)集。

    地址:https://catalog.ldc.upenn.edu/LDC2002T43


  • LibriSpeech:包括文本和語音的有聲讀物數(shù)據(jù)集。它是近 500 小時由多人朗讀清晰的各類有聲讀物數(shù)據(jù)集,且由包含文本和語音的書籍章節(jié)組織起結(jié)構(gòu)。

    地址:http://www.openslr.org/12/


  • VoxForge:帶口音的語音清潔數(shù)據(jù)集,特別是對于如期望對不同口音或腔調(diào)的語音有魯棒性需求的系統(tǒng)很有用。

    地址:http://www.voxforge.org/


  • TIMIT:只包含英語的語音識別數(shù)據(jù)集。

    地址:https://catalog.ldc.upenn.edu/LDC93S1


  • CHIME:包含噪聲的語音識別數(shù)據(jù)集。該數(shù)據(jù)集包含真實、模擬和清潔的語音記錄。實際上是記錄四個說話者在四個噪聲源的情況下近 9000 份記錄,模擬數(shù)據(jù)是在結(jié)合話語行為和清潔無噪語音記錄的多環(huán)境下生成的。

  • 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html


  • TED-LIUM:TED 演講的語音轉(zhuǎn)錄數(shù)據(jù)集。1495 份 TED 演講的語音記錄,并且這些語音記錄有對應(yīng)的全文本。

    地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus


推薦和排序系統(tǒng)


  • Netflix Challenge:第一個主要 Kaggle 風格的數(shù)據(jù)庫。因為存在隱私問題,只能非正式地獲得授權(quán)。

    地址:http://www.netflixprize.com/


  • MovieLens:各種電影的評論數(shù)據(jù)庫,通常用于基線協(xié)同過濾(collaborative filtering baselines)。

    地址:https://grouplens.org/datasets/movielens/


  • Million Song Dataset:在 Kaggle 上大量、富元數(shù)據(jù)(metadata-rich)、開源的數(shù)據(jù)集,有利于人們試驗混合推薦系統(tǒng)(hybrid recommendation systems)。

    地址:https://www.kaggle.com/c/msdchallenge


  • Last.fm:音樂推薦數(shù)據(jù)集,該數(shù)據(jù)集能有權(quán)訪問底層社交網(wǎng)絡(luò)和其他元數(shù)據(jù),而這樣的數(shù)據(jù)集正對混合系統(tǒng)有巨大的作用。

    地址:http://grouplens.org/datasets/hetrec-2011/


網(wǎng)絡(luò)和圖表


  • Amazon Co-Purchasing 和 Amazon Reviews:從亞馬遜以及相關(guān)產(chǎn)品評論數(shù)據(jù)網(wǎng)絡(luò)爬取的如「用戶買了這個同時也會買哪個」這樣的語句。適合在互聯(lián)網(wǎng)中進行推薦系統(tǒng)的測試。

    地址:http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html


  • Friendster Social Network Dataset:在 Friendster 的重心轉(zhuǎn)入到游戲網(wǎng)站之前,這家網(wǎng)站發(fā)布了包含 103,750,348 個用戶好友列表的匿名數(shù)據(jù)集。

    地址:https:///details/friendster-dataset-201107


地理測繪數(shù)據(jù)庫


  • OpenStreetMap:免費許可的全球矢量數(shù)據(jù)集。其包含了舊版的美國人口統(tǒng)計局的 TIGER 數(shù)據(jù)。

    地址:http://wiki.openstreetmap.org/wiki/Planet.osm


  • Landsat8:整個地球表面的衛(wèi)星拍攝數(shù)據(jù),每隔幾周會更新一次。

    地址:https://landsat.usgs.gov/landsat-8


  • NEXRAD:多普雷達掃描的美國大氣環(huán)境。

    地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad


人們常常認為解決一個數(shù)據(jù)集上的問題就相當于對產(chǎn)品進行了一次完整的審視。因為我們可以使用這些數(shù)據(jù)集進行驗證或證明一個概念,但是也不要忘了測試模型或原型是如何獲取新的和更實際的數(shù)據(jù)來提高運算效果,獲得優(yōu)良產(chǎn)品的。數(shù)據(jù)驅(qū)動的成功公司通常從他們收集新數(shù)據(jù)、私有數(shù)據(jù)的能力中獲得力量,從而以一種具有競爭力的方式提高他們的表現(xiàn)。


最后的話


好數(shù)據(jù)集還有很多,這份列表當然不可能完全覆蓋,如果你知道還有很好的數(shù)據(jù)集值得推薦,請通過評論與我們分享。


原文地址:https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2#.7yh3syep0


本文由機器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。

------------------------------------------------

加入機器之心(全職記者/實習(xí)生):hr@jiqizhixin.com

投稿或?qū)で髨蟮溃篹ditor@jiqizhixin.com

廣告&商務(wù)合作:bd@jiqizhixin.com

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
入門|從文本處理到自動駕駛:機器學(xué)習(xí)最常用的50大免費數(shù)據(jù)集
無人駕駛數(shù)據(jù)集匯總
【總結(jié)】最全1.5萬字長文解讀7大方向人臉數(shù)據(jù)集v2.0版,搞計算機視覺怎能不懂人臉
收藏 | 機器學(xué)習(xí)數(shù)據(jù)集匯總收集
北美18名校的數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能及機器學(xué)習(xí)課程匯總
19門AI在線課程:從入門課程到名校高級學(xué)位
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服