'The world's most valuable resource is no longer oil,but data'
一種新的商品催生出一個(gè)利潤(rùn)豐厚、發(fā)展迅速的行業(yè)。這促使反壟斷監(jiān)管機(jī)構(gòu)介入,從而約束那些能夠控制這種商品流動(dòng)的巨頭。
一百年前,石油就是這樣一種資源?,F(xiàn)在,一些經(jīng)營(yíng)數(shù)據(jù)的巨頭引發(fā)了類(lèi)似擔(dān)憂(yōu),這些數(shù)據(jù)將成為數(shù)字時(shí)代的石油。
目前處于數(shù)據(jù)驅(qū)動(dòng)型經(jīng)濟(jì)中,如果無(wú)法分析當(dāng)前或未來(lái)的趨勢(shì),任何組織都無(wú)法生存下去。搶奪數(shù)據(jù)已經(jīng)成為決定下一步行動(dòng)方案的關(guān)鍵。
作為數(shù)據(jù)科學(xué)領(lǐng)域的從業(yè)者來(lái)說(shuō),對(duì)于數(shù)據(jù)的需求更為強(qiáng)烈。
本次整理了一些NBA、社交網(wǎng)絡(luò)、圖像、語(yǔ)音、文本、時(shí)間序列、人文歷史、金融等領(lǐng)域的免費(fèi)和開(kāi)源的數(shù)據(jù)集資源。(從正文帶藍(lán)色下劃線(xiàn)鏈接自取)。
數(shù)據(jù)集
一、NBA球員數(shù)據(jù)集:
https://www.basketball-reference.com/players/l/linje01.html
http://china.nba.com/statistics
http://www.stat-nba.com
二、圖像、文本、語(yǔ)言數(shù)據(jù)集
圖像
1、由79302017幅圖像組成的數(shù)據(jù)集,每幅圖像為32x32像素彩色圖像。
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
2、人臉識(shí)別數(shù)據(jù)集。
http://www.face-rec.org/databases/
3、一個(gè)可搜索的圖像數(shù)據(jù)庫(kù)。
http://www.image-net.org/index
語(yǔ)音:
1、CMU語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)。
http://www.speech.cs.cmu.edu/databases/
2、對(duì)音樂(lè)分析的數(shù)據(jù)集。
http://users.cis.fiu.edu/~lli003/Music/music.html
3、100萬(wàn)首歌曲的數(shù)據(jù)集
https://labrosa.ee.columbia.edu/millionsong/
文本:
1、用于構(gòu)建機(jī)器學(xué)習(xí)推薦系統(tǒng)的1.5 TB數(shù)據(jù)集
https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1
三、金融和商業(yè)數(shù)據(jù)集:
1、ebay拍賣(mài)招標(biāo)數(shù)據(jù)集。
http://www.modelingonlineauctions.com/datasets
2、紐約市警察局的交通事故數(shù)據(jù)(csv格式)。
http://nypd.openscrape.com/#/
3、從aiHit數(shù)據(jù)庫(kù)中隨機(jī)抽取的10,000家英國(guó)公司的信息
https://www.aihitdata.com/redirect/cons/datasets.html
4、美國(guó)股票新聞數(shù)據(jù)
http://dataju.cn/Dataju/web/datasetInstanceDetail/220
5、美國(guó)金融客戶(hù)投訴數(shù)據(jù)
http://dataju.cn/Dataju/web/datasetInstanceDetail/229
6、Airbnb 開(kāi)放的民宿信息和住客評(píng)論數(shù)據(jù) http://dataju.cn/Dataju/web/datasetInstanceDetail/360
四、政府出臺(tái)的相關(guān)數(shù)據(jù)
1、健康、環(huán)境、能源等數(shù)據(jù)。
http://data.un.org/
2、經(jīng)濟(jì)時(shí)間系列,由美國(guó)政府機(jī)構(gòu)制作,以多種形式和媒體發(fā)行
http://inforumweb.umd.edu/econdata/econdata.html
3、USGovXML是一個(gè)由美國(guó)政府提供的公開(kāi)可用web服務(wù)和XML數(shù)據(jù)源的索引
http://usgovxml.com/
五、技術(shù)、社交網(wǎng)絡(luò)、人文歷史等數(shù)據(jù)集
1、80 Tb的存檔web爬蟲(chóng)數(shù)據(jù)。
http://blog./2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/
2、一個(gè)包含許多“開(kāi)放”社交網(wǎng)絡(luò)分析數(shù)據(jù)集的可訪(fǎng)問(wèn)庫(kù)的站點(diǎn)。
http://ww31.growmeme.com/overview
3、斯坦福大型網(wǎng)絡(luò)數(shù)據(jù)集收集。
http://snap.stanford.edu/data/index.html
4、一個(gè)包含谷歌圖書(shū)公司的數(shù)據(jù)集。
https://aws.amazon.com/cn/datasets/google-books-ngrams/
5、基因遺傳數(shù)據(jù)集。
http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi
6、地球撞擊隕石數(shù)據(jù)。
https://www.analyticbridge.datasciencecentral.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
機(jī)器學(xué)習(xí)數(shù)據(jù)集常用搜索網(wǎng)站
1、Kaggle
https://www.kaggle.com/competitions
2、加州大學(xué)歐文分校機(jī)器學(xué)習(xí)庫(kù)。
http://archive.ics.uci.edu/ml/index.php
3、Google數(shù)據(jù)集搜索。
https://toolbox.google.com/datasetsearch
4、Datahub,分享高質(zhì)量數(shù)據(jù)集平臺(tái)
https://datahub.io/
5、用于上傳和查找數(shù)據(jù)集的機(jī)器學(xué)習(xí)數(shù)據(jù)集存儲(chǔ)庫(kù)。
https://www.webdoctx.com/www.mldata.org
介紹完以上的數(shù)據(jù),最后分享份收藏已久的數(shù)據(jù)分析課的視頻資源,希望幫助公眾號(hào)的讀者入門(mén)!
大家可以在本公眾號(hào)『程序IT圈』上輸入框回復(fù):數(shù)據(jù)。
聯(lián)系客服