機器之心原創(chuàng)
編輯:黃小天、吳攀
新春過后不久(2 月 4 日- 9 日),我們就迎來了 2017 年人工智能領(lǐng)域的首個重磅會議——AAAI-17,這也是第 31 屆 AAAI 人工智能大會。機器之心在這場會議前后對該會議的亮點進行了跟蹤報道和深度解讀,詳情參閱機器之心的相關(guān)報道《人工智能頂級會議 AAAI-17 亮點前瞻:洞見人工智能最前沿》、《提升人工智能準確度, 微軟解讀多項 AAAI-17 研究》、《MIT AAAI-17 研究展示:為規(guī)劃算法加入人類直覺》、《AAAI-17 獲獎論文深度解讀(上):從無標簽監(jiān)督學習到人工智能道德框架》和《AAAI-17 獲獎論文深度解讀(下):蒙特卡羅定位和推薦系統(tǒng)》。
而在本屆 AAAI 大會上,華人力量的崛起也是一個非常值得關(guān)注的看點。在接收論文的列表上,我們也能很明顯地看到大量華人研究者的名字,當然,其中有很多論文實際上是中外研究機構(gòu)合作的成果,比如由加州大學伯克利分校和今日頭條實驗室合作發(fā)表的論文《一個用于時間模型中聯(lián)合參數(shù)和狀態(tài)估計的近似黑箱的在線算法(A Nearly-Black-Box Online Algorithm for Joint Parameter and State Estimation in Temporal Models)》。這篇論文的作者有來自伯克利電氣工程與計算機科學系的 Yusuf B. Erol、吳翼(Yi Wu)和 Stuart Russell,以及來自今日頭條實驗室的李磊(Lei Li)。
論文摘要:對于時間模型而言,在線的聯(lián)合參數(shù)和狀態(tài)估計是一個核心問題?,F(xiàn)有的絕大多數(shù)方法不是受限于特定類別的模型(比如 Storvik 過濾器),就是計算成本過高(例如,particle MCMC)。我們提出了一種全新的近似黑箱算法(nearly-black-box algorithm)——預設參數(shù)濾波算法(Assumed Parameter Filter/APF),這是一種用于狀態(tài)變量的粒子濾波(particle filtering)和用于參數(shù)變量的預設密度濾波(assumed density filtering)的混合。它具有以下優(yōu)勢:(a)它是在線的并且在計算上是高效的;(b)適用于帶有任意轉(zhuǎn)變動態(tài)(transition dynamics)的離散和連續(xù)參數(shù)空間。和一些標準算法相比,在計算負載固定時,APF 在幾種不同的模型上都生成了更加準確的結(jié)果。
大會結(jié)束之后,機器之心對 Yusuf B. Erol、吳翼和李磊進行了專訪,請他們解讀了這份研究成果并談了談對其它一些問題的看法。在此之前,先讓我們對本文的這三位主角作一個簡單介紹。
Yusuf Bugra Erol 和吳翼都是著名計算機科學學者 Stuart Russell 教授的博士學生,其中吳翼參與過的論文《Value Iteration Networks》在去年 12 月的 NIPS 2016 上獲最佳論文獎(參看報道《機器之心對話 NIPS 2016 最佳論文作者:如何打造新型強化學習觀?》)。而現(xiàn)任今日頭條科學家、頭條實驗室總監(jiān)的李磊也曾在伯克利進行過博士后研究(參看機器之心的專訪《頭條實驗室科學家李磊:準確率更高的問答系統(tǒng)和概率程序語言》)。
以下是機器之心對該論文的這三位作者的采訪內(nèi)容:
論文解讀
機器之心:首先請為我們簡單介紹一下這篇論文的研究成果。
李磊:人工智能研究的恒久主題之一是對通用表示框架和快速推理算法的探索。時序概率模型中(即隨時間變化的模型),參數(shù)和隱變量的在線聯(lián)合估計通常比較困難。本文針對非常廣泛的概率時序模型,提出一個通用且高效的參數(shù)和隱變量估計算法,稱作預設參數(shù)濾波算法(Assumed Parameter Filter/APF)。這個算法將可用來解決幾乎任意的時間序列模型中推理問題,且是在線估計,所以可以解決很長或者持續(xù)時間序列的問題。
機器之心:您提出的算法有什么看點?
Yusuf Erol:我們的算法有以下特色:
1. 通用,適用于(幾乎)任意時間序列模型(狀態(tài)空間模型);
2. 適用于持續(xù)時間序列數(shù)據(jù);
3. 可以處理未知狀態(tài)和參數(shù)的聯(lián)合估計,之前的算法很多都只能估計未知狀態(tài),而能估計未知參數(shù)的算法都是離線的,比較慢;
4. 理論上可以逼近真實解。
機器之心:可以舉例說明一下嗎?
Yusuf Erol:舉個例子,醫(yī)院急癥看護病房每個病人都接了很多監(jiān)測儀器,持續(xù)測量血壓、心跳、呼吸等生理指標。很多指標的采樣頻率很高,數(shù)據(jù)量非常大,靠護士監(jiān)管看不過來,需要通過算法從這些持續(xù)監(jiān)測的生理指標時間序列數(shù)據(jù)中實時自動的分析出病人狀態(tài),以便預測并應對突發(fā)情況,比如突發(fā)休克。這個問題一個方法是通過建立多維時間序列模型,這些模型刻畫了人身體內(nèi)生理運轉(zhuǎn)狀況,其中有些變量是沒有直接監(jiān)測到的(通常稱作狀態(tài)(state)),比如血管內(nèi)流量大小和速度,還有一些是因人而異的參數(shù)比如腦容量大小、身高和體重等。需要解決的問題是有了時間序列模型和觀測數(shù)據(jù)(比如血壓和心跳)后,如何實時快速的估計出未知的變量和參數(shù)。
為了方便的實驗驗證各種模型,需要一個通用的表示框架,以及一個通用黑盒的推理方法。我們采用概率編程語言 BLOG 作為表述模型的框架,這個框架可以描述非常廣泛的模型,我們論文解決的就是在通用框架里面有了觀測數(shù)據(jù)、有了模型時,如何快速且自動地做推理。
機器之心:這個算法能夠怎樣幫助用戶?
李磊:概率程序可以給一線工程師和應用方提供簡單快速驗證各種設想的方案,使用方只要熟悉他需要解決的問題學會這個建模語言,即使不了解機器學習如何做推理,也可以通過概率程序的自動推理引擎來做解決方案,極大地降低了機器學習使用門檻。通過概率程序來表達時間序列模型也有同樣的便利。
機器之心:APF 和以往的 SSM 比有那些優(yōu)勢?
Yusuf Erol:傳統(tǒng) SSM 推理算法(Particle filter, PMCMC 等)要么只能估計動態(tài)隱變量,不能估計靜態(tài)參數(shù)(SMC algorithms);要么只適用特定模型(Extended Parameter Filter); 要么雖然通用但速度很慢,是離線算法(PMCMC)。我們的算法在上述三方面都有優(yōu)勢。
機器之心:SSM 的適合的應用有哪些?
Yusuf Erol:SSM 適合應用于需要對時間變化建模的數(shù)據(jù)。
機器之心:您認為輸入的預設參數(shù)會對結(jié)果造成什么影響?
Yusuf Erol:我們算法的誤差一方面來自于用于逼近的統(tǒng)計量是有限維度的。只要模型本身的真實后驗概率可以計算,我們算法就可以工作得很好。尤其是如果參數(shù)的真實后驗分布是高斯分布,那么就可以在理論上證明算法收斂。應用中發(fā)現(xiàn)實際效果比理論更好。
機器之心:可以使用一個生成器來自動生成不同的預設密度嗎?可以變成完全的黑箱算法嗎?
吳翼:這是一個很有趣的問題,要讓算法真正完全黑箱(black-box),需要對任意近似分布(approximate distribution)都能進行統(tǒng)計量(sufficient statistics)的更新計算。對于任意指數(shù)類(exponential family)的分布,可以利用變分推理(variational inference)技術(shù)進行后驗概率計算。當然,自然而然的問題是:我們能不能用一個程序來幫助人自動做數(shù)學計算呢?從這個大的角度看,這是一個很難的問題,也是很有趣的問題。學術(shù)界有非常多的嘗試,比如大家熟知的 Mathematica 軟件就是一個成功的產(chǎn)品,現(xiàn)在大家也嘗試用深度學習的方法讓 AI 自動進行數(shù)學定理的證明。希望在不久的將來,AI 可以完成開放性問題的數(shù)學證明。
機器之心:今日頭條在這方面有哪些計劃和打算,會把這項研究應用到產(chǎn)品中嗎?
李磊:有好幾個可能應用,今日頭條的主產(chǎn)品是個性化內(nèi)容推薦,把推薦做好,需要對文章圖片視頻進行分析,理解文章里面有哪些人物和事件,多個文章里面的同一事件是如何演化的,這里需要時序模型;今日頭條的產(chǎn)品運營中有很多記錄的時間序列數(shù)據(jù),比如每個時刻各個地區(qū)的訪問量、閱讀停留時間,時間序列模型也可以對這些數(shù)據(jù)建模;我們的數(shù)據(jù)中心檢測同樣有很多數(shù)據(jù),比如每分每秒每個服務器的負載、流量、溫度等,通過時間序列對其建??梢宰鲱A測,進行災害預警。
關(guān)于概率編程
機器之心:聽說您們負責了一個 DARPA 項目的子項目 PPAML,能簡單介紹一下嗎?
吳翼:PPAML 的全名是 Probabilistic Programming for Advanced Machine Learning。是由 DARPA(Defense Advanced Research Projects Agency)推動的一項歷時 4 年的基礎(chǔ)科學研究。DARPA 中文名是國防高等研究計劃署,隸屬于美國國防部,致力于各種前瞻性研究,歷史上一直都是各種黑科技的孵化器和誕生器。從基礎(chǔ)的科學研究到美國絕密的武器裝備的研究,DARPA 都有涉及。比如互聯(lián)網(wǎng)的雛形就誕生于 DARPA,現(xiàn)在普及大眾的人臉識別技術(shù)也是 DARPA 最先推動的,美國的很多自動駕駛、機器人、無人機技術(shù)也是 DARPA 推動的。PPAML 項目作為一項基礎(chǔ)科學研究(當然不是絕密的軍工項目了,不然我作為中國人也不可能參與其中),旨在推動概率編程語言的進步和發(fā)展,來讓各個科學領(lǐng)域享受到計算機科學和機器學習科學的紅利,提高各個科學領(lǐng)域的數(shù)據(jù)分析效率以推動整個科學界的更快發(fā)展。
機器之心:請您簡要介紹一下概率編程(PP)和深度學習的區(qū)別,以及各自的優(yōu)勢和劣勢。
李磊:概率編程是通過程序語言來定義概率模型,由通用的概率推理系統(tǒng)來自動求解。深度學習的模型也可以通過程序來定義和求解,這一點上兩者是相似的。最大的區(qū)別在表達能力和推理算法,深度學習的模型是可導(或次可導)函數(shù)構(gòu)成的,概率程序表達能力通常更強,神經(jīng)網(wǎng)絡模型可以表達成為概率程序的一個特殊子類別。
由于深度學習的模型具有很強的特殊性,因此深度學習系統(tǒng)可以相對容易地采用梯度下降算法來求解。而概率程序的通用算法通常基于馬爾可夫鏈蒙特卡羅法(MCMC)。廣義而言,概率編程語言考慮的模型是任意可以用程序表達的結(jié)構(gòu):而我們知道程序中有分支(if)、循環(huán)(for loop)、遞歸(recursion),一個圖靈完備(Turing complete)的編程語言需要能夠表達任意可在圖靈機上執(zhí)行的程序。由于概率編程語言具有極強的表達性,這給自動推斷系統(tǒng)帶來了很大的難度——當然,因為通用,最大的局限是推理速度緩慢。
我們的工作就是在保持概率編程表達性的前提下提高推理速度。也正是由于概率編程強大的表達能力,可以讓概率編程惠及更多的受眾,比如其他領(lǐng)域的科學家、認知科學家、數(shù)據(jù)科學家等等。使用者不需要對機器學習的推理算法有深入了解,只需要掌握建模語言,即可方便快速地構(gòu)建和應用機器學習模型。
機器之心:您認為用編譯的方法來優(yōu)化機器學習的意義大嗎?
吳翼:由于概率編程語言強大的模型表示能力,其背后的通用推理系統(tǒng)往往效率低下。系統(tǒng)的效率低下往往有著兩個方面的原因:1. 推斷算法收斂速度慢; 2. 算法執(zhí)行和系統(tǒng)實現(xiàn)效率低下。要提高概率編程語言的推斷效率,顯然我們需要雙管齊下。概率編程語言和普通的編程語言(比如 Python、C、Java)的編譯有著本質(zhì)的不同。對于普通編程語言(例如 C 語言),編譯器并不會更改程序員寫的代碼語義,只是在代碼上做同語義的改寫。比如程序員寫了 print('hello world!'),那么正確的編譯器不論怎么改寫,用戶執(zhí)行編譯后的可執(zhí)行代碼,執(zhí)行的結(jié)果都是在屏幕上顯示「hello world」。然而對于概率編程語言卻并不是這樣:程序員只是用編程語言描述了模型是什么,至于怎么根據(jù)這個模型計算、算法怎么實現(xiàn),都是編譯器需要操心的事情。
一般來說概率編程語言所采用的系統(tǒng)設計,往往是讀入用戶輸入的模型,并存儲成某種數(shù)據(jù)結(jié)構(gòu),然后選用開發(fā)人員預先寫好的某個算法,在這個數(shù)據(jù)結(jié)構(gòu)上進行計算。這樣的執(zhí)行方式是解釋性的(interpretive,比如 Python 就是解釋性的語言),有很多的冗余。而一個好的概率編程語言編譯器,需要對于用戶輸入的不同模型結(jié)合選用的算法做深度的分析和優(yōu)化,并自動生成專門對于當前模型定制的算法實現(xiàn)。比如我們的 Swift 編譯器,就可以在采用相同算法的前提下,將概率編程語言的推斷速度提高 100 倍以上。
機器之心:這個研究在哪些方向上還能繼續(xù)拓展?
Yusuf Erol:非常高維的狀態(tài)空間模型中的推理算法,理論上更強的結(jié)果等。
吳翼:引入更多程序語言編譯優(yōu)化的算法來加速推理。比如部分計算。我們也在一直完善和加強 compiler,增加特性,提高性能,增加可用性等等。我們也在考加更多的算法讓整個概率編程語言系統(tǒng)有更多的算法可用。
其它問題
機器之心:您如何評價這屆 AAAI 會議中的華人力量(華人的論文數(shù)量和質(zhì)量以及代表性論文)?
李磊:現(xiàn)在人工智能領(lǐng)域的研究者越來越多,也越來越多樣化,他們研究著更多樣的問題,產(chǎn)出著更多更好的成果,這是很好的趨勢。但作為科研工作者,我們更關(guān)注研究本身,但不關(guān)注這個研究是什么種族的人做的。當然,我們也盡一切努力推動中國的人工智能研究,這也是為科學進步做貢獻。
機器之心:科學理念上的信仰對您搞研究重要嗎?對不同理念的研究應該持什么態(tài)度?
李磊:之前做時間序列用貝葉斯模型多,最近幾年做自然語言的問題用神經(jīng)網(wǎng)絡模型多。派別之爭對我來說意義不大,但我喜歡貝葉斯模型的清晰結(jié)構(gòu)和可解釋性,也喜歡神經(jīng)網(wǎng)絡在大量標注數(shù)據(jù)下的效果,F(xiàn)requentist 方法用得少卻不排斥。科學研究講求方法論,多樣化才有可持續(xù)性。
機器之心:在您看來人工智能現(xiàn)階段是更受限于算法還是運算力?
李磊:人工智能模型、推理算法、計算速度一直是緊密關(guān)聯(lián),螺旋上升的。目前三者都各自有挑戰(zhàn)。
機器之心:今日頭條在人工智能上主要有哪些方向的研究?
李磊:圍繞自然語言理解和圖像視覺做了一些研究,自然語言理解方面,比如新聞生成、自動摘要、文本分類、自動問答、評論分析;圖像視覺方面,比如視頻內(nèi)容理解、分類、相似和重復內(nèi)容識別、物體檢測追蹤等。
機器之心:您還希望通過人工智能幫助哪些其它方向上的發(fā)展?
李磊:比如醫(yī)療監(jiān)控、輔助診斷、心理建模分析、環(huán)境變量建模分析等。
本文為機器之心原創(chuàng),轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
聯(lián)系客服