嘉賓介紹
素質(zhì)版主
經(jīng)管之家論壇ID:我的素質(zhì)低。是經(jīng)管之家十分資深且極具人氣的超級(jí)版主,統(tǒng)計(jì)學(xué)碩士,也是一枚才華橫溢、靈氣四射、思維開闊的90后,擁有與其論壇ID“我的素質(zhì)低”完全相反的“素質(zhì)”。他曾獲得全國大學(xué)生統(tǒng)計(jì)建模大賽一等獎(jiǎng),癡迷于計(jì)量統(tǒng)計(jì),熱愛數(shù)據(jù)分析,矢志成為數(shù)據(jù)大俠,對(duì)于計(jì)量統(tǒng)計(jì)專業(yè)有著扎實(shí)的專業(yè)基礎(chǔ)和長期的持續(xù)跟蹤。同時(shí),亦對(duì)思考的技術(shù)、互聯(lián)網(wǎng)與大數(shù)據(jù)、代碼編寫、人工智能、算法等領(lǐng)域有著很強(qiáng)的領(lǐng)悟力。他的第一份工作是目前最火熱的AI算法工程師,由此也積累了從經(jīng)濟(jì)人轉(zhuǎn)向AI算法工程師的寶貴經(jīng)驗(yàn)和歷程。
他喜歡喬布斯,自我描述“Stay foolish,stay hungry!”。除對(duì)統(tǒng)計(jì)專業(yè)有濃厚而深切的愛戀外,閑來沒事還會(huì)舞文弄墨,文字技巧嫻熟,文章獨(dú)具一幟,個(gè)化化標(biāo)簽十足。常在論壇游走,以“素質(zhì)出品”、“ONLY ONE”系列為名,面世了很多數(shù)據(jù)匯總、統(tǒng)計(jì)理論、計(jì)量學(xué)習(xí)、資源梳整等方面的優(yōu)秀學(xué)習(xí)專題。總的來說一句話:有才、有趣、有意思!
問1:歡迎素質(zhì)來到《經(jīng)管人》專訪欄目!作為一名長期活躍并駐扎在論壇的資深版主,您曾為大家分享了包括計(jì)量經(jīng)濟(jì)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)搜集與整理、機(jī)器學(xué)習(xí)在內(nèi)的許多優(yōu)質(zhì)的資源,在這些領(lǐng)域也有著長期的跟蹤和積累。從本科到碩士階段,您都在統(tǒng)計(jì)專業(yè)浸泡著。首先能否為大家分享下作為新手,計(jì)量統(tǒng)計(jì)學(xué)科如何入門呢?能否為大家推薦一些比較好的計(jì)量與統(tǒng)計(jì)領(lǐng)域的經(jīng)典圖書、教材和文獻(xiàn)材料,并幫助大家做一個(gè)簡(jiǎn)要的點(diǎn)評(píng)和梳理?在本領(lǐng)域您都跟蹤了哪些大牛呢,能否也為大家介紹一下?以及學(xué)習(xí)統(tǒng)計(jì)學(xué)方面,您認(rèn)為有哪些優(yōu)秀的網(wǎng)絡(luò)資源也是值得關(guān)注的呢?
答:感謝您的提問。首先,我認(rèn)為無論計(jì)量還是統(tǒng)計(jì)都是幫助學(xué)習(xí)、科研的工具學(xué)科,需要在不同的使用場(chǎng)景中加以運(yùn)用才能逐漸融會(huì)貫通。我的計(jì)量統(tǒng)計(jì)學(xué)習(xí)路徑可能跟很多科班出身的不太一樣,相比于將書本中的工具套用在實(shí)際場(chǎng)景中,個(gè)人比較傾向于先了解這個(gè)方法會(huì)出現(xiàn)在哪些應(yīng)用場(chǎng)景里,再結(jié)合課本上的理論知識(shí),進(jìn)一步研究如何應(yīng)對(duì)新場(chǎng)景的要求,判斷理論上是否可行。也就是:工具書找方法的場(chǎng)景 + 理論書學(xué)方法的本質(zhì)。具體來說,1)在學(xué)多元回歸分析,我會(huì)先去搜集用SPSS軟件實(shí)現(xiàn)的相關(guān)書籍,選擇了張文彤老師的書籍《張文彤SPSS初中級(jí)教程》、《張文彤SPSS高級(jí)教程》等。
2)在學(xué)時(shí)間序列分析的時(shí)候,會(huì)去找EVIEWS軟件的書籍,張曉峒老師的《計(jì)量經(jīng)濟(jì)學(xué)軟件EViews使用指南》。
3)在學(xué)面板數(shù)據(jù)分析的時(shí)候,EVIEWS和STATA的相關(guān)書籍,陳強(qiáng)老師的《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及STATA應(yīng)用》。
4)在學(xué)機(jī)器學(xué)習(xí)相關(guān)的內(nèi)容的時(shí)候,會(huì)去找R語言軟件的書籍,吳喜之老師《復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用》等等。
工具類書籍有一個(gè)好處,就是提供給我們諸多的案例與算法示例,跟著工具書走一遍,就相當(dāng)于一道證明題跟著書籍證明了一遍,在流程中掌握更多細(xì)節(jié)。
另外,網(wǎng)絡(luò)學(xué)習(xí)資源豐富,這里可以給大家推薦一些,經(jīng)管之家是一個(gè)學(xué)習(xí)統(tǒng)計(jì)計(jì)量的好去處,很多人會(huì)在其中交流自己的心得以及疑問,很多壇友也都見解獨(dú)到,讓人耳目一新,有利于拓展思路。還有一些網(wǎng)站也比較有特色,小木蟲、經(jīng)濟(jì)學(xué)家、科學(xué)網(wǎng)等,預(yù)測(cè)者網(wǎng)有比較多的股市數(shù)據(jù)(日、周、月、年交易數(shù)據(jù))給出的指標(biāo)還是挺全面的。中文互聯(lián)網(wǎng)數(shù)據(jù)資訊中心有比較多的當(dāng)下熱門的網(wǎng)絡(luò)資訊信息與報(bào)告,還有一些大城市除了統(tǒng)計(jì)局還有自己的數(shù)據(jù)服務(wù)網(wǎng),譬如上海市政府?dāng)?shù)據(jù)服務(wù)網(wǎng)。
問2:對(duì)于許多做實(shí)證研究的人來說,計(jì)量與統(tǒng)計(jì)軟件的掌握能力至關(guān)重要,能否結(jié)合學(xué)術(shù)期刊的投稿與寫作,以及科研工作本身,為大家分享一下如何在論文寫作中快速提高計(jì)量統(tǒng)計(jì)水平呢?如果一個(gè)人的計(jì)量統(tǒng)計(jì)是零基礎(chǔ),那么在準(zhǔn)備CSSCI等期刊的投稿時(shí),應(yīng)該如何入手并規(guī)劃學(xué)習(xí)路徑呢?
答:曾經(jīng),在經(jīng)管之家有三個(gè)帖子刷新了我的計(jì)量觀,了解到光明學(xué)術(shù)下計(jì)量實(shí)證的“潛規(guī)則”。所以,在這介紹的是“黑科技”,”正義凜然”的看客請(qǐng)繞行。
案例背景
當(dāng)初一個(gè)舍友來自西部地區(qū),從沒學(xué)過計(jì)量(OLS都沒學(xué)過)。但畢業(yè)論文老板要求用數(shù)據(jù)說話,發(fā)愁。我于心不忍,告訴她:我每天晚上自習(xí)回來,睡覺前花10分鐘給你講解一下STATA的操作和出來的各項(xiàng)結(jié)果意義。第一天,我講了OLS。畫了一張散點(diǎn)圖和一根直線,用了1分鐘就讓她完全理解了OLS的精髓,這是用來干啥的。后面9分鐘講解了STATA的操作和OLS的各種變種。結(jié)果只一個(gè)星期,講完五種方法(下面會(huì)介紹),她信心大增。后來一下子發(fā)了好幾篇CSSCI,計(jì)量做的天花亂墜,讓人誤以為是一個(gè)大師。畢業(yè)論文也順利通過。
問3:市面上的計(jì)量和統(tǒng)計(jì)軟件可謂十分多,能否結(jié)合您的學(xué)習(xí)旅途和習(xí)得的經(jīng)驗(yàn),為大家做一個(gè)系統(tǒng)的梳理呢?包括各類軟件的適用性、優(yōu)缺點(diǎn)等等?
答:計(jì)量統(tǒng)計(jì)的軟件很多,不同軟件都有自己的側(cè)重點(diǎn)和所長,我們可以根據(jù)實(shí)際情況靈活使用:
(1)問卷、多元回歸分析-----SPSS大家都知道是市場(chǎng)調(diào)查專用,這里簡(jiǎn)單介紹一下最新版本的spss25.0,新加了高級(jí)統(tǒng)計(jì)模塊中貝葉斯統(tǒng)計(jì)執(zhí)行新的貝葉斯統(tǒng)計(jì)函數(shù),包括回歸、方差分析和t檢驗(yàn)。 新圖表模板,可實(shí)現(xiàn)word等微軟家族中編輯,這個(gè)新功能,通俗的說,就是SPSS輸出的圖表,你可以不用在原始的輸出界面進(jìn)行編輯修改,可以直接保存到word等里面,再進(jìn)行修改。將高級(jí)統(tǒng)計(jì)分析擴(kuò)展到混合、genlin混合、GLM和UNIANOVA, 變得更加精致。
(2)結(jié)構(gòu)方程與路徑分析------AMOS,主要是用于對(duì)結(jié)構(gòu)方程模型(SEM)的建立和檢驗(yàn),不過也有使用liserl和mplus做SEM的,從使用來看,繼承了IBM的一貫流程化風(fēng)格,比較容易上手,一些流程都是拖拽式的,潛變量與結(jié)構(gòu)變量之間的連接比較規(guī)范,驗(yàn)證性分析必備。
(3)金融方向的挖掘與分析------SAS,銀行、券商的最愛,因?yàn)楸容^安全,有商業(yè)保障,比較主流;
(4)時(shí)間序列與面板------eviews和stata,eviews特別是新版本有很多高端的時(shí)序模型,分位數(shù)回歸、門限回歸、面板協(xié)整、馬爾科夫轉(zhuǎn)換回歸、結(jié)構(gòu)突變點(diǎn)檢驗(yàn)、指數(shù)平滑狀態(tài)空間模型、Heckman選擇模型,且x12、x11等季節(jié)調(diào)整模型也很多,總之時(shí)序eviews能做的很多,而且每年都在更新新的模組,比較適合經(jīng)濟(jì)學(xué)者入門,關(guān)于以上新版本的更新可以看帖子:[Eviews] 〖素質(zhì)筆記〗Eviews 8新功能之四——Heckman選擇模型(http://bbs.pinggu.org/thread-3880845-1-1.html)
stata在高級(jí)的面板模型上走的很多,面板向量自回歸等,還可以做Logit、多元Logit、雙邊隨機(jī)邊界分析 (two-tier StochasticFrontier Analysis)、異質(zhì)性隨機(jī)邊界分析、面板VAR模型、GMM、傾向得分匹配分析、非線性最小二乘法(NLOLS)等,主要是需要編寫代碼,所以可以自己組合一些方式方法出來,比較靈活,適合高階晉級(jí)的經(jīng)濟(jì)學(xué)者。
(5)數(shù)據(jù)挖掘萬靈藥------界面化的spss modeler、matlab、R、python,R+python 在機(jī)器學(xué)習(xí)、人工智能到來之際,已經(jīng)火的一塌涂地了,spss modeler相對(duì)來說,就不顯得那么有光芒了。但是,對(duì)于機(jī)器學(xué)習(xí)入門來說,spss modeler絕對(duì)很好掌握,跟spss一樣流程式,下面是一些流程組件,可以任意拼接,比較符合數(shù)據(jù)分析的流程:數(shù)據(jù)預(yù)處理-建模-展示。
(6)數(shù)據(jù)可視化/拖拽式界面------tableau、JMP(SAS旗下),都是比較適合數(shù)據(jù)可視化的軟件,tableau可謂大名鼎鼎,炫技術(shù)的神器,經(jīng)常有tableau比賽,而且社區(qū)經(jīng)常有聚會(huì)以及巡回演講,可以目睹可視化屆的黑科技,線上做的圖可以移動(dòng)端查看:
JMP也有類似的功能,JMP是SAS推出的一種交互式可視化統(tǒng)計(jì)發(fā)現(xiàn)軟件系列, 這本書《JMP 統(tǒng)計(jì)分析教程 楊重法(著)》里面有比較詳細(xì)地介紹,拖拽式的界面比較容易理解與讓分析師進(jìn)行任意數(shù)據(jù)的組合、交叉。
(7)還有一些數(shù)值運(yùn)算小眾的------gauss矩陣語言軟件包, 它可以十分方便地編制矩陣計(jì)算程序、winbugs(貝葉斯分析)
問4:作為一名統(tǒng)計(jì)學(xué)科班出身的經(jīng)管人,您畢業(yè)后的第一份工作是AI算法工程師-----AI目前是整個(gè)時(shí)代的風(fēng)口,您的成長路徑也可以說是“非典型”的,能否為大家分享一下經(jīng)濟(jì)人轉(zhuǎn)行做AI的一些歷程與走來的想法?從文本挖掘、圖像目標(biāo)識(shí)別到深度學(xué)習(xí)、算法等方面,您都有哪些心得和感受呢?
答:對(duì)我來說,研三是一個(gè)轉(zhuǎn)折期,因?yàn)椴淮蛩憷^續(xù)讀博,計(jì)量統(tǒng)計(jì)的知識(shí)出來做數(shù)據(jù)分析工作還差了一點(diǎn),所以不得不補(bǔ)一些機(jī)器學(xué)習(xí)、文本挖掘方面的知識(shí)。補(bǔ)著補(bǔ)著發(fā)現(xiàn),深度學(xué)習(xí)這陣風(fēng)刮來了,趕緊抱緊大腿又惡補(bǔ)了很久,差不多惡補(bǔ)了一年,總算在畢業(yè)的時(shí)候留任在實(shí)習(xí)的公司,正式從經(jīng)濟(jì)學(xué)人成功轉(zhuǎn)型碼農(nóng)(/掩臉)。畢竟碼農(nóng)好就業(yè),這點(diǎn)...(/嘆氣)
深度學(xué)習(xí)外來入侵了很多領(lǐng)域,打破了很多領(lǐng)域的研究上限,讓大家看到了無限可能性,對(duì)于我們經(jīng)濟(jì)學(xué)來說,時(shí)間序列預(yù)測(cè)較多模型都是以線性為主,非線性的、針對(duì)金融的模型復(fù)雜度都較高,理論較為繁雜。而深度學(xué)習(xí)用一個(gè)黑箱子把這些復(fù)雜都藏起來,讓本來就復(fù)雜的現(xiàn)象交給復(fù)雜的系統(tǒng)去處理。壞處是,可解釋性很差(不像回歸還有系數(shù)T檢驗(yàn)、R方、F值檢驗(yàn)),好處是逼近真實(shí),預(yù)測(cè)準(zhǔn)確率極高。本著知己知彼的心態(tài),不自己了解一下入侵者,肯定不知道如何應(yīng)對(duì)。
人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系就如圖所示這樣,人工智能范圍很大,囊括的內(nèi)容也很多,把人工智能比作一個(gè)人,深度學(xué)習(xí)則是這人的大腦。
深度學(xué)習(xí)模型的一些基本架構(gòu)相對(duì)國人來說,絕對(duì)沒的說,很好理解,學(xué)過高數(shù)的基本都能夠理解反向傳播的機(jī)制,也就知道模型是在干什么,困擾實(shí)踐的更多會(huì)是如何通過軟件來實(shí)現(xiàn),近幾年屬于深度學(xué)習(xí)爆發(fā)的階段,之前比較麻煩的一點(diǎn)就是,算法更新迭代速度快到超乎想象,剛剛掌握的新技術(shù),說不定幾周內(nèi)就更新了一個(gè)版本,算法里面調(diào)用的函數(shù)連名字都換掉了,各類教程剛剛寫出來馬上又過時(shí),所以入門難。但經(jīng)過了前期的爆發(fā)式增長,現(xiàn)在很多編程算法函數(shù)已經(jīng)趨于穩(wěn)定,也就非常適合入門。
當(dāng)然, 一般來說,經(jīng)管專業(yè)對(duì)深度學(xué)習(xí)的理論理解絕對(duì)沒問題,網(wǎng)上教學(xué)資源豐富,聽著老師的講解以及一些教材絕對(duì)能聽懂,但是呢,動(dòng)手寫代碼對(duì)經(jīng)管人來說就比較困難了,而且一般經(jīng)管都是用R,python用的倒不多。編碼能力這點(diǎn),就跟學(xué)語言一樣,一定要多加練習(xí)才能學(xué)會(huì),網(wǎng)上能夠找到一些教程,用jupyter notebook或R markdown寫的內(nèi)容,可讀性都比較強(qiáng),一段代碼一段顯示,讓你了解每個(gè)函數(shù)的輸入、輸出、參數(shù)設(shè)置等,所以勤加練習(xí)編碼這關(guān)還是可以順利通過的。
深度學(xué)習(xí)一些框架對(duì)新手來說比較麻煩,這邊推薦可以看看騰訊開發(fā)者實(shí)驗(yàn)室以及IBM的公益項(xiàng)目:supervessel,里面已經(jīng)裝好了環(huán)境可以直接測(cè)試。
問5:隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的日趨成熟,人工智能的發(fā)展也在不斷突破,生態(tài)也逐步形成------我們注意到在美股市場(chǎng)上,以英偉達(dá)、谷歌、FACEBOOK為代表的一批企業(yè)都在加速在AI領(lǐng)域的布局,其股價(jià)也屢屢創(chuàng)出新高。技術(shù)的進(jìn)步與融合,讓各個(gè)學(xué)科的發(fā)展都滾滾向前,新的概念頻出,新的趨勢(shì)也不斷確立。
您如何看待經(jīng)濟(jì)學(xué)與人工智能的關(guān)系?之前與您的交流中,您提及“計(jì)量統(tǒng)計(jì)的未來或許會(huì)涉及到如何接地氣、非結(jié)構(gòu)化數(shù)據(jù)的整合“,能否就這個(gè)見解進(jìn)一步分享和展開呢?
答:深度學(xué)習(xí)會(huì)像計(jì)量一樣,作為一種強(qiáng)有力的工具來幫助經(jīng)濟(jì)人了解經(jīng)濟(jì)現(xiàn)象,未來的實(shí)證可能會(huì)有更多的深度學(xué)習(xí)方式來進(jìn)行說理。對(duì)于經(jīng)濟(jì)學(xué)的影響,我認(rèn)為主要來自于兩個(gè)方面: 非結(jié)構(gòu)化數(shù)據(jù)的解讀能力+解讀復(fù)雜現(xiàn)象的模型 。
非結(jié)構(gòu)化數(shù)據(jù)的解讀能力。深度學(xué)習(xí)拓寬了可分析的領(lǐng)域,常規(guī)來看,之前經(jīng)濟(jì)期刊實(shí)證發(fā)文,較多就是宏觀經(jīng)濟(jì)數(shù)據(jù)、微觀調(diào)查數(shù)據(jù),而深度學(xué)習(xí)作為可以解讀非結(jié)構(gòu)化數(shù)據(jù)的方式,可以更好地全面了解現(xiàn)象的發(fā)生。
譬如圖像、文本、聲音、視頻等一些非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過提取都可以成為一些變量加入到整個(gè)模型之中。其中輿情方面的研究都較為有趣,比如twitter中的輿情預(yù)測(cè)股價(jià)、預(yù)測(cè)總統(tǒng)選舉、預(yù)測(cè)用戶情緒等。
舉一個(gè)現(xiàn)在流行的模型——卷積神經(jīng)網(wǎng)絡(luò),CNN目前用來看圖,確切來說,用來解讀數(shù)字矩陣,因?yàn)橐粡垐D片一般解讀成RGB的三維數(shù)組矩陣,把非結(jié)構(gòu)的大小變成數(shù)字,而且還是矩陣,那就有的數(shù)學(xué)家玩兒了~矩陣數(shù)值可以理解為像素點(diǎn),數(shù)值 1 是白色,256 是最深的綠色。在算法眼里圖像張下面這樣:
卷積層就有點(diǎn)像是統(tǒng)計(jì)里綜合評(píng)價(jià)中的各個(gè)指標(biāo)加權(quán)得到得分,只不過現(xiàn)在是在一個(gè)3*3的小區(qū)域里面算權(quán)重得分,如下:
具體的解讀比較淺顯的解讀素質(zhì)推薦一篇用excel來解讀卷積的長文:《機(jī)器視角:長文揭秘圖像處理和卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)》。
提供了解讀復(fù)雜現(xiàn)象的模型,物理學(xué)家,諾獎(jiǎng)得主Philip Anderson的一句普世名言:more is different!線性模型在宏觀趨勢(shì)上的解讀能力很強(qiáng),但是預(yù)測(cè)微觀現(xiàn)象的能力要遜色很多,而深度學(xué)習(xí)在高維數(shù)據(jù)中抽絲剝繭,降維關(guān)鍵信息,憑借強(qiáng)大的計(jì)算資源,可以擁有成千上萬個(gè)參數(shù),學(xué)術(shù)界試圖模仿人腦的“神經(jīng)網(wǎng)絡(luò)“建立一個(gè)類似的學(xué)習(xí)策略,也取名為”神經(jīng)網(wǎng)絡(luò)“,由于到目前,還無法知道人腦工作的復(fù)雜性,所以這兩個(gè)神經(jīng)網(wǎng)絡(luò)也只能是形似而已。但這在常規(guī)經(jīng)濟(jì)學(xué)模型來看,已經(jīng)很可怕,就像大腦中神經(jīng)傳輸、觸發(fā)一樣。
總的來說,深度學(xué)習(xí)可以很好地控制預(yù)測(cè)成本,可以提供給經(jīng)濟(jì)學(xué)人更多非結(jié)構(gòu)化數(shù)據(jù)的解讀,以及強(qiáng)有力的應(yīng)付復(fù)雜現(xiàn)象的模型。
一些算法的學(xué)習(xí)與實(shí)踐,素質(zhì)還是跟之前學(xué)習(xí)計(jì)量一樣,從工具入手再去回顧理論,那么深度學(xué)習(xí)一般工具的載體就是python或R,python的入門紙質(zhì)書很多,網(wǎng)上資源可以看廖雪峰python教程,一些packages入門可以直接看packages的介紹文檔:TensorFlow 官方文檔中文版、keras官方文檔中文版、Mxnet文檔等。
AI社區(qū)同樣非?;钴S,很多高質(zhì)量的論文都會(huì)在一些社群里面討論,微信群有:PaperWeekly微信群、將門微信群;公眾號(hào)有:機(jī)器之心、智能立方、Paperweekly、哈工大scir、將門創(chuàng)投、煉丹實(shí)驗(yàn)室、機(jī)器學(xué)習(xí)研究會(huì)、AI科技評(píng)論、全球人工智能、深度學(xué)習(xí)大講堂;知乎專欄有:煉丹實(shí)驗(yàn)室、機(jī)器之心、超智能體、PaperWeekly、深度學(xué)習(xí):從入門到放棄、智能單元、深度學(xué)習(xí)大講堂等。當(dāng)然了,統(tǒng)計(jì)之都也有非常多的接地氣的文獻(xiàn):
Editor: 從統(tǒng)計(jì)學(xué)角度來看深度學(xué)習(xí)(1):遞歸廣義線性模型
https://cosx.org/2015/05/a-statistical-view-of-deep-learning-i-recursive-glms
Editor: 從統(tǒng)計(jì)學(xué)角度來看深度學(xué)習(xí)(2):自動(dòng)編碼器和自由能
https://cosx.org/2015/05/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy
Editor: 從統(tǒng)計(jì)學(xué)角度來看深度學(xué)習(xí)(3):記憶和核方法
https://cosx.org/2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels
問6:近年來,經(jīng)管領(lǐng)域的計(jì)量、統(tǒng)計(jì)已經(jīng)快速與AI融合起來,您覺得AI所涉及的知識(shí)結(jié)構(gòu)和知識(shí)全景是怎樣的呢?或者說,AI大圈子背后全專業(yè)領(lǐng)域的匯合是一幅怎樣的全貌呢?AI如何做預(yù)測(cè)與計(jì)量預(yù)測(cè)?AI做原因分析與傳統(tǒng)統(tǒng)計(jì)做原因分析有哪些異同呢?
答:深度學(xué)習(xí)與AI現(xiàn)在國內(nèi)非常熱,從各大頂級(jí)期刊來看華人稿子很多,仰賴全民從小數(shù)理化,基本數(shù)理知識(shí)扎實(shí),入門學(xué)習(xí)比較容易。而且,受線上教育的紅利,有非常多的頂級(jí)、免費(fèi)的公開課可以供大家學(xué)習(xí),讓名校的知識(shí)教育流傳開來,比如吳恩達(dá)的deeplearning.ai,這個(gè)在網(wǎng)易云課堂有中文字幕版的(http://mooc.study.163.com/smartSpec/detail/1001319001.htm )。經(jīng)典的cs231n,官網(wǎng)鏈接(http://cs231n.stanford.edu/ ),cs231n是有筆記的(https://cs231n.github.io/ ),當(dāng)然,知乎上的一些大神對(duì)這個(gè)筆記進(jìn)行了翻譯---鏈接(https://zhuanlan.zhihu.com/p/21930884 )。李飛飛老師的網(wǎng)易云課堂的公開課。
對(duì)于深度學(xué)習(xí)與AI整體框架來說,網(wǎng)上盜圖一張,供大家參考:
上圖比較籠統(tǒng)(來源文獻(xiàn):《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》),能掌握一部分已然很不錯(cuò),一些基本的知識(shí)點(diǎn)有:
基本模型結(jié)構(gòu)卷積層、激活函數(shù)、池化層、歸一化層、softmax,參數(shù)初始化gaussian/xavier/bilinear,激活函數(shù):sigmoid、tanh、relu、selu等,損失函數(shù):log loss/hinge loss/zero-one loss等,優(yōu)化方式:sgd/adagred/adam等,各種訓(xùn)練技巧:dropout/batch normalization /正則/attention等,一些理論知識(shí)點(diǎn):梯度爆炸、梯度彌散、調(diào)參、微調(diào)等,一看這么多專業(yè)名詞瞬間蒙X了,別著急,其實(shí)... 這也只是剛剛?cè)腴T...。
深度學(xué)習(xí)做預(yù)測(cè)與計(jì)量做預(yù)測(cè)模式有很多相似之處,首先需要喂給模型一些數(shù)據(jù),然后模型學(xué)習(xí)到這些數(shù)據(jù)的模式,再進(jìn)行相關(guān)預(yù)測(cè)。不同之處在于處理非線性的能力,以RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))為例:
RNN中,x是輸入,y是輸出,h可以對(duì)序列形的數(shù)據(jù)提取特征,接著再轉(zhuǎn)換為輸出。
外來入侵的深度學(xué)習(xí)解釋性不強(qiáng)代表著其理論根基還不透徹,特別是統(tǒng)計(jì)學(xué)中變量有兩類連續(xù)變量和離散變量,連續(xù)時(shí)間變量的理論基礎(chǔ)是其服從某些分布,從而可以開展相關(guān)的分析,但RNN給出了連續(xù)時(shí)間變量不一樣的解讀方式,即可以看成一個(gè)在時(shí)間上傳遞的神經(jīng)網(wǎng)絡(luò),它的深度是時(shí)間的長度,這種對(duì)時(shí)間的解讀與常規(guī)線性回歸解讀方式差異很大,極有意思。
問7:從一位經(jīng)管人到AI工程師,其實(shí)我們相信底層的知識(shí)的遷移,以及對(duì)工作崗位的快速學(xué)習(xí)和適應(yīng),都十分重要。在這個(gè)過程中,能否和我們分享一下,您從AI入門到開始AI項(xiàng)目的歷程呢?您覺得作為一個(gè)職業(yè)新人,應(yīng)該如何去快速適應(yīng)自己的新工作呢?工作以來,最大的感受是什么?
答:來看一張AI界大牛整理的一張AI產(chǎn)品:
也就是現(xiàn)在AI并不是一個(gè)算法、一個(gè)模型、一個(gè)專利技術(shù)、一個(gè)人能解決的,AI需要整體解決方案,所以需要很多專業(yè)內(nèi)容匯聚在一起來共同解決同一問題。新的行業(yè)的誕生,必然也會(huì)有非常多新的崗位添加進(jìn)來,涌現(xiàn)出一些比較有意思的崗位:機(jī)器人暴力評(píng)估師、訓(xùn)機(jī)師(雇傭詩人、喜劇演員幫助機(jī)器人設(shè)計(jì)對(duì)話)等,從上圖所調(diào)用的資源與能夠達(dá)到的效果,AI產(chǎn)品可以很快地打破垂直領(lǐng)域一些產(chǎn)品,以一個(gè)“顛覆者”的姿態(tài),譬如翻譯員、司機(jī)(雖然無人駕駛還很遙遠(yuǎn)...)、客服等。當(dāng)然,這里也可以開個(gè)腦洞,解放生產(chǎn)力之后,讓大家有更多閑置時(shí)間,那么娛樂、游戲等一些偏休閑的方向也會(huì)迅速崛起。
深度學(xué)習(xí)、AI是一個(gè)嶄新的方向,做AI項(xiàng)目需要調(diào)動(dòng)的資源比想象中要多得多,AI產(chǎn)品需要有很多高質(zhì)量的標(biāo)注數(shù)據(jù),硬件資源也尤其重要,比如計(jì)算機(jī)一定需要質(zhì)量比較高的GPU,而高質(zhì)量GPU通常價(jià)格不菲。工程師是AI產(chǎn)品的靈魂,AI就像學(xué)舌鸚鵡,你教她說什么,她只會(huì)說你教的,而且你一下子教她很多,她有很大概率一句都學(xué)不會(huì),所以是一個(gè)互相適應(yīng)、互相學(xué)習(xí)的過程。還有,模型需要大量的訓(xùn)練數(shù)據(jù),才能展現(xiàn)出神奇的效果,但現(xiàn)實(shí)生活中往往會(huì)遇到小樣本問題,此時(shí)深度學(xué)習(xí)方法無法入手;有些領(lǐng)域,采用傳統(tǒng)的簡(jiǎn)單的機(jī)器學(xué)習(xí)方法,可以很好地解決了,沒必要非得用復(fù)雜的深度學(xué)習(xí)方法,千萬不要掉進(jìn)模型怪圈。
作為一枚初入職場(chǎng)的小白,特別還是AI方向的,需要花更多時(shí)間去讓自己充電,AI所需的知識(shí)是方方面面,她把很多領(lǐng)域的知識(shí)融合進(jìn)來,所以為了了解她,需要去不斷學(xué)習(xí)、理解、磨合、適應(yīng),其發(fā)展也是指數(shù)級(jí),可能每周都有新的方式方法超越,成為state-of-the-art,要有“Stay foolish,stay hungry”的精神!
問8:在剛才的采訪中,我們提了許多問題,最后一個(gè)問題,我們希望是開放式的,也希望您能盡情發(fā)揮。在訪談的最后,能否就您擅長的領(lǐng)域或感興趣的領(lǐng)域,為我們分享一段精彩的評(píng)論或觀點(diǎn)或寄語呢?
答:之前了解過量化大師西蒙斯的團(tuán)隊(duì)結(jié)構(gòu),他從來不雇傭經(jīng)濟(jì)學(xué)家及華爾街專業(yè)人士,而卻將計(jì)算機(jī)科學(xué)家、物理學(xué)家以及天文學(xué)家都納入團(tuán)隊(duì),甚至雇用了一些語音學(xué)家。他認(rèn)為股票市場(chǎng)就是一個(gè)數(shù)學(xué)難題,與實(shí)體經(jīng)濟(jì)的構(gòu)造組成沒有關(guān)系。他曾說:“我們不雇用數(shù)理邏輯不好的學(xué)生?!?/span>
受他這種天馬行空的研究模式啟發(fā),我認(rèn)為經(jīng)濟(jì)現(xiàn)象也并非只能從調(diào)查、年鑒、數(shù)據(jù)庫中去探索蛛絲馬跡,還可以從很多非結(jié)構(gòu)化的內(nèi)容入手研究。而深度學(xué)習(xí)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的解讀可以極大幫助經(jīng)濟(jì)學(xué)人去理解經(jīng)濟(jì)現(xiàn)象,擁抱更多元、全領(lǐng)域、多模態(tài)的分析模式。
聯(lián)系客服