言有三
畢業(yè)于中國科學(xué)院,計算機視覺方向從業(yè)者,有三工作室等創(chuàng)始人
作者 | 言有三
編輯 | 言有三
接著上一篇介紹國內(nèi)的重要研究院,今天開始第一期正式的介紹,先說歷史最悠久的微軟亞洲研究院
01
簡介
微軟亞洲研究院,即Microsoft Research Asia(MSRA),是本系列中唯一一個非中國本土的研究院,但是因為它落地生根都是在中國,培養(yǎng)出大量優(yōu)秀的華人學(xué)者,被稱為中國IT界的黃埔軍校。世界上計算機視覺領(lǐng)域排名前三的研究中心之一,因此我們先介紹它,有官方公眾號“微軟研究院AI頭條”,官網(wǎng)鏈接https://www.msra.cn/,知乎鏈接https://www.zhihu.com/org/wei-ruan-ya-zhou-yan-jiu-yuan/activities,github鏈接https://github.com/msracver。
1998年7月,李開復(fù)加入微軟并在中國創(chuàng)建并領(lǐng)導(dǎo)微軟中國研究院,2001年11月,微軟中國研究院升級為微軟亞洲研究院,2004年,微軟亞洲研究院被MIT Technology Review評為全球最頂級的計算機科學(xué)研究院。
MSRA至今已經(jīng)20年,國內(nèi)其他本土研究院還沒有幾個歷史比得上它的一半。
02
領(lǐng)導(dǎo)團隊
首任院長李開復(fù),大家不能更熟悉了,讀書的時候在語音領(lǐng)域作出了開創(chuàng)性的貢獻,隨后活躍在工業(yè)界,讀大學(xué)的時候在學(xué)校見過本人一次,聽其演講很受鼓舞。身體得病前非?;钴S,休息復(fù)出后現(xiàn)在是創(chuàng)新工場CEO,幫助年輕人創(chuàng)業(yè),我輩偶像 。
第二任院長張亞勤,也是微軟亞洲研究院的首任院長。12歲進入中國科技大學(xué)少年班,23歲的張亞勤獲得喬治華盛頓大學(xué)博士學(xué)位,現(xiàn)任百度公司總裁。
第三任院長沈向洋,微軟全球執(zhí)行副總裁,目前是微軟核心管理層唯一的大陸華人高管,也是美國科技行業(yè)的華人最高職位者。
第四任院長洪小文,也是現(xiàn)任院長,微軟公司資深副總裁,曾任蘋果公司的Apple-ISS研究中心的技術(shù)總監(jiān)。
除了以上這些人,還有湯曉鷗,何凱明等,基本上都是AI屆的重量級人物,可自行了解,目前官網(wǎng)有它的組織架構(gòu),可以數(shù)數(shù)自己認識哪些人。
03
研究領(lǐng)域
MSRA的研究領(lǐng)域很多,有以下研究組
幾乎覆蓋了所有計算機應(yīng)用領(lǐng)域,在大數(shù)據(jù)(城市計算),智慧醫(yī)療,知識圖譜(微軟認知服務(wù)),NLP(機器翻譯、實時語音翻譯、微軟小英、微信小冰),計算機視覺等領(lǐng)域都建樹頗多。
04
研究成果
1.1 微軟小冰
微軟小冰,一個非常調(diào)皮的AI,想必很多人都調(diào)戲過。微軟小冰是一個領(lǐng)先的跨平臺人工智能機器人。目前在微信、QQ、Windows 10、美拍、京東、米聊、米家、優(yōu)酷等都可以使用。
目前已經(jīng)到第6代了,如果你想初次了解人工智能能干什么,不如去好好了解一下。
1.2 微軟小英
沒錯,又是一個機器人,而且名字同樣么么噠。微軟小英是一款融合了語音識別、口語評測,自然語言處理、語音合成等人工智能技術(shù)而實現(xiàn)的智能人機交互服務(wù),有同名官方公眾號。
口語練習(xí),拍照翻譯,有它就夠了,隨時學(xué)習(xí),不用報班。
1.3 語音識別
在使用深度學(xué)習(xí)上,微軟首先其實是在語音上發(fā)力,在NIPS 2009 會議上,鄧力和Hinton聯(lián)合組織了Deep Learning for Speech Recognition and Related Applications workshop,首次證明使用新方法訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在大量語音識別基準上優(yōu)于之前的方法,之后 2012 年發(fā)表了著名論文《Deep Neural Networks for Acoustic Modeling in Speech Recognition》,由 Hinton和鄧力合著。
下面這本書也是我看的第一本深度學(xué)習(xí)書,由鄧力和俞棟合著,都是MSRA的語音識別專家。由于語音不是我研究方向,就不做過多介紹,可以去用用Skype Translator,直接用不同語言做語音對話。
1.4 MS COCO數(shù)據(jù)集
大家都知道數(shù)據(jù)集的重要性,在深度學(xué)習(xí)圖像方向,如MNIST,CIFAR,PASCAL VOC,ImageNet,MS COCO都是具有里程碑意義的數(shù)據(jù)集,也是論文中評測經(jīng)常使用的。
COCO從全稱Common Objects in Context可以看出,這個數(shù)據(jù)集以場景理解為目標,特別選取比較復(fù)雜的日常場景,相比于pascal的建立是為了推進目標檢測任務(wù),coco的建立則是為了推進自然背景下的定位與分割任務(wù),很多方法在VOC,ImageNet上work,到了這里就不行了的,關(guān)于數(shù)據(jù)集的重要性,可以去看我以前的一篇文章。
1.5 ResNet
2015年何凱明,孫劍等人提出了ResNet網(wǎng)絡(luò)拿下了當年ImageNet幾大單元的冠軍,也被成為殘差網(wǎng)絡(luò),這是第一個達到1000層以上的神經(jīng)網(wǎng)絡(luò)。今天的計算機視覺模型,很少有不使用殘差連接的網(wǎng)絡(luò)了,如果想對殘差網(wǎng)絡(luò)了解更深,可以閱讀我以前的一篇分析。
1.6 文本理解
微軟在今年年初提交的R-NET模型在SQuAD挑戰(zhàn)賽的EM值(Exact Match, 表示預(yù)測答案和真實答案完全匹配)上以82.650的最高分領(lǐng)先并率先超越人類分數(shù)82.304,這對于自然語言處理研究領(lǐng)域來說是一個重要的里程碑。
SQuAD挑戰(zhàn)賽被稱為機器閱讀理解界的ImageNet,由斯坦福大學(xué)自然語言計算組發(fā)起,它通過眾包的方式構(gòu)建了一個大規(guī)模的機器閱讀理解數(shù)據(jù)集(包含10萬個問題),更多可自行了解。
1.7 機器翻譯
MSRA的研究幾乎覆蓋所有智能計算方向而且都處于領(lǐng)先位置,對于機器翻譯這個任務(wù)也是。也是今年早期的時候,在通用新聞報道測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平,注意,有許多的限定不用過于驚嘆,但是仍然是比較大的突破。關(guān)于使用的對偶學(xué)習(xí)技術(shù),可以自行關(guān)注。
1.8 CNTK
Microsoft Cognitive Toolkit(CNTK),https://github.com/Microsoft/CNTK
目前深度學(xué)習(xí)框架百花齊放,caffe,tensorflow,pytorch人盡皆知,微軟雖然沒有宣傳自家的CNTK深度學(xué)習(xí)框架,但是它在github上面也超過15000個star,不過據(jù)說使用成本高,反正我是沒用過,似乎更合適做語音,畢竟是語音組開發(fā)的。
1.9 MMDnn
MMdnn是一套能讓用戶在不同深度學(xué)習(xí)框架間進行轉(zhuǎn)換以及可視化的工作,包括Caffe、Keras、MXNet、Tensorflow、CNTK、PyTorch 和 CoreML等。
已經(jīng)支持以下模型
1.10 微軟收購了Github
哈哈哈哈,這個鍋你背了吧MSRA!因為后面還有太多不知道寫什么了,期待MSRA開源更多優(yōu)秀的研究項目(包括數(shù)據(jù)集),看起來Microsoft Research Open Data是個好苗頭。
更多請移步知乎專欄。
聯(lián)系客服