本文源自 太平洋證券 人工智能專(zhuān)題研究之一
證券分析師 王文龍、徐中華
信息化顧問(wèn)團(tuán) 楊凱 整理
百度AI平臺(tái)將逐步開(kāi)放,助力構(gòu)建百度AI生態(tài)圈
“云+大腦”打磨升級(jí)構(gòu)成百度AI平臺(tái)
百度AI開(kāi)發(fā)者大會(huì)(Baidu Create 2017)上,百度AI平臺(tái)架構(gòu)圖首次完整亮相,全新開(kāi)放了視頻、語(yǔ)音、AR/VR、機(jī)器人視覺(jué)、自然語(yǔ)音處理等五大類(lèi)目共14項(xiàng)全新能力,此次開(kāi)放的技術(shù)能力總共有60個(gè),是目前最全面的AI技術(shù)開(kāi)放平臺(tái)。百度AI平臺(tái)由百度大腦及百度云組成,分為云、大數(shù)據(jù)、算法層、感知層、認(rèn)知層、平臺(tái)層五大層次,核心能力的開(kāi)放已達(dá)60余項(xiàng)。
圖表1:百度AI平臺(tái)的架構(gòu)
作為百度AI平臺(tái)的核心,百度大腦由算法層、感知層、認(rèn)知層、平臺(tái)層共同組成,是業(yè)界第一個(gè)完整清晰地把認(rèn)知層和感知層放在一起的人工智能平臺(tái)。
算法層包括大數(shù)據(jù)、深度學(xué)習(xí),是百度大腦的底層基礎(chǔ)。
感知層包括語(yǔ)音識(shí)別、圖像識(shí)別、視頻理解和增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)4大核心技術(shù)能力,賦予機(jī)器“聽(tīng)懂、看懂”的能力;
認(rèn)知層包括領(lǐng)先的自然語(yǔ)言處理、知識(shí)圖譜、用戶畫(huà)像能力,賦予機(jī)器“理解”能力。
平臺(tái)層即百度AI開(kāi)放平臺(tái),集合了百度所有的AI能力并將逐漸開(kāi)放給所有開(kāi)發(fā)者。
圖表2:百度大腦各層次能力
多領(lǐng)域在人工智能方向進(jìn)行戰(zhàn)略構(gòu)建
百度自2013年1月組建專(zhuān)注于Deep Learning(深度學(xué)習(xí))的研究院—Institute of Deep Learning(簡(jiǎn)稱(chēng)IDL)開(kāi)始,百度便已經(jīng)積極布局人工智能:
機(jī)構(gòu)設(shè)立方面:公司先后成立自然語(yǔ)言處理部(2010年)、百度硅谷人工智能實(shí)驗(yàn)室(2014年)、自動(dòng)駕駛事業(yè)部(2015年)、度秘事業(yè)部(2017年)、AR實(shí)驗(yàn)室(2017年)、智能駕駛事業(yè)群組(IDG,2017年)、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室(2017年)等。其中:今年3月22日,百度通過(guò)內(nèi)部郵件宣布進(jìn)一步深度整合包括NLP、KG、IDL、Speech、Big Data等在內(nèi)的百度核心技術(shù),組成百度AI技術(shù)平臺(tái)體系(Artificial Intelligence Group,簡(jiǎn)稱(chēng)“AIG”)。近期,百度對(duì)AIG進(jìn)行了調(diào)整:
單獨(dú)成立智慧機(jī)場(chǎng)業(yè)務(wù)部、智能客服與金牌銷(xiāo)售業(yè)務(wù)部。智慧機(jī)場(chǎng)業(yè)務(wù)部重點(diǎn)面向航空服務(wù)領(lǐng)域;智能客服與金牌銷(xiāo)售業(yè)務(wù)部,融合語(yǔ)音識(shí)別、自然語(yǔ)言處理等前沿技術(shù),提升企業(yè)與客戶電話溝通中的效率和效能。該技術(shù)通過(guò)對(duì)呼叫中心的通話歷史語(yǔ)音進(jìn)行分析,提取客戶畫(huà)像、優(yōu)秀銷(xiāo)售經(jīng)驗(yàn),并在通話過(guò)程中進(jìn)行實(shí)時(shí)語(yǔ)音識(shí)別及分析等方式,結(jié)合當(dāng)前客戶情況與銷(xiāo)售特點(diǎn),個(gè)性化推薦適合的銷(xiāo)售思路與話術(shù)要點(diǎn)。
強(qiáng)化了AI應(yīng)用技術(shù)研發(fā),原隸屬于研究院的幾個(gè)技術(shù)團(tuán)隊(duì)升格為獨(dú)立的技術(shù)部門(mén),包括視覺(jué)技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部等。
成立AI技術(shù)平臺(tái)與生態(tài)部,進(jìn)一步整合推動(dòng)百度所擁有的自然語(yǔ)言處理、知識(shí)圖譜、深度學(xué)習(xí)、語(yǔ)音圖像、大數(shù)據(jù)等技術(shù)。
人才儲(chǔ)備方面:2017年,百度與北京航空航天大學(xué)合作設(shè)立人工智能專(zhuān)業(yè);目前,BAT的AI人才布局中百度總數(shù)領(lǐng)先,占比2.54%。
技術(shù)落地方面:語(yǔ)音開(kāi)放平臺(tái)上線(2013年)、DeepSpeech深度語(yǔ)音識(shí)別系統(tǒng)(2014年)、小度機(jī)器人(2014年)、全球首個(gè)基于深度學(xué)習(xí)的大規(guī)模在線翻譯系統(tǒng)(2015年)、機(jī)器人助理“度秘”(2015年)、無(wú)人駕駛汽車(chē)相關(guān)技術(shù)(2015年)、AR技術(shù)幫助伊利等零售商進(jìn)行營(yíng)銷(xiāo)(2016年)、針對(duì)移動(dòng)設(shè)備打造的增強(qiáng)現(xiàn)實(shí)平臺(tái)“度視”(2016年)、醫(yī)療大腦等百度大腦(2016年)、百度輸入法4.0引入人工智能(2016年)、百度AR先后與歐萊雅合作,帶來(lái)全新廣告營(yíng)銷(xiāo)方式(2016年)、與KFC合智能推薦點(diǎn)餐(2016年)、與神農(nóng)架合作AR觀山(2016年)、《但丁密碼》AR面具海報(bào)(2016年)、G-1智能高清機(jī)頂盒(2016年)、烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)人臉識(shí)別閘機(jī)(2016年)、海爾與美的搭載DuerOS打造智能家居(2017年)、家庭陪伴型機(jī)器人“分身魚(yú)”(2017年)、國(guó)航用人工智能進(jìn)行人臉識(shí)別(2017年)。
資本投入方面:自2016年開(kāi)始,公司先后投資美國(guó)科技公司ZestFinance、激光雷達(dá)公司Velodyne LiDAR、人工智能語(yǔ)音助手平臺(tái)開(kāi)發(fā)商Raven Tech、計(jì)算機(jī)視覺(jué)公司xPerception、以色列視頻捕捉技術(shù)公司Pixellot、投資上海漢楓科技及室內(nèi)導(dǎo)航公司IndoorAtlas、參股新西蘭VR/AR/3D成像公司8i、收購(gòu)專(zhuān)注于語(yǔ)音喚醒和自然語(yǔ)言理解的人工智能創(chuàng)業(yè)公司KITT.AI(2017年)等。
2017年1月,陸奇先生加入百度擔(dān)任集團(tuán)總裁兼CEO,圍繞人工智能在集團(tuán)架構(gòu)、業(yè)務(wù)以及人事方面大刀闊斧進(jìn)行改革,包括將自動(dòng)駕駛事業(yè)部(L4)、智能汽車(chē)事業(yè)部(L3)、車(chē)聯(lián)網(wǎng)業(yè)務(wù)(Car Life etc)合并組建新的智能駕駛事業(yè)群組(IDG),并向汽車(chē)行業(yè)及自動(dòng)駕駛領(lǐng)域的合作伙伴提供一款名叫Apollo的開(kāi)放軟件平臺(tái)。
國(guó)外方面,Amazon、Facebook布局人工智能主要是為了智能其各自的傳統(tǒng)主業(yè)以使自身在各自領(lǐng)域保持競(jìng)爭(zhēng)力,而Google及IBM則是從集團(tuán)層面對(duì)其人工智能生態(tài)建設(shè)進(jìn)行了整體規(guī)劃。國(guó)內(nèi)方面,阿里巴巴在人工智能方面的行動(dòng)主要是針對(duì)具體的應(yīng)用場(chǎng)景進(jìn)行智能化,而騰訊則主要是通過(guò)在各事業(yè)部組建AI團(tuán)隊(duì)來(lái)推進(jìn)集團(tuán)人工智能的發(fā)展。
圖表3:其他科技巨頭在AI的布局概況
公司名稱(chēng) | 布局細(xì)節(jié) |
1、谷歌大腦:創(chuàng)建于2011年,目標(biāo)是創(chuàng)造更智能的軟件和系統(tǒng),從而改善人的生活。研究領(lǐng)域包括機(jī)器學(xué)習(xí)算法和技術(shù)、用于機(jī)器學(xué)習(xí)的計(jì)算機(jī)系統(tǒng)、自然語(yǔ)言理解、感知、醫(yī)療、機(jī)器人、音樂(lè)與藝術(shù)生成等。TPU、TensorFlow均來(lái)自谷歌大腦。2、谷歌NLU:專(zhuān)注于自然語(yǔ)言理解的團(tuán)隊(duì),與谷歌大腦是并列存在的關(guān)系。最新研究興趣包括句法、語(yǔ)篇、對(duì)話、多語(yǔ)言建模、情緒分析、問(wèn)答、概述、使用有標(biāo)記和未標(biāo)記的數(shù)據(jù)與最先進(jìn)的模型和間接監(jiān)督來(lái)構(gòu)建更好的學(xué)習(xí)系統(tǒng)。目前公開(kāi)的最重要的成果就是被稱(chēng)為“世界準(zhǔn)確度最高的自然語(yǔ)言解析器SyntaxNet”。這是一個(gè)基于TensorFlow的自然語(yǔ)言理解神經(jīng)網(wǎng)絡(luò)。谷歌在該平臺(tái)上訓(xùn)練的模型的語(yǔ)言理解準(zhǔn)確率超過(guò)90%。3、谷歌歐洲研究院:2016年6月在蘇黎世成立,研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、自然語(yǔ)言理解、機(jī)器感知及數(shù)據(jù)壓縮。4、DeepMind:2010年在英國(guó)成立,2014年被谷歌以4億英鎊收購(gòu),收購(gòu)后仍保持獨(dú)立運(yùn)行,專(zhuān)注于深度強(qiáng)化學(xué)習(xí),研究目標(biāo)是通用人工智能。AlphaGo是DeepMind最知名的項(xiàng)目。2017年7月5日,DeepMind表示將在加拿大埃德蒙頓開(kāi)設(shè)第一家AI研究中心。5、機(jī)器學(xué)習(xí)忍者項(xiàng)目:從谷歌內(nèi)部團(tuán)隊(duì)挑選有天賦的約20名程序員,為期6個(gè)月的人工智能人才培養(yǎng)項(xiàng)目。與谷歌大腦有合作關(guān)系。6、工程師團(tuán)隊(duì):谷歌25000名工程師中,有數(shù)以千計(jì)的人熟練掌握機(jī)器學(xué)習(xí)。7、應(yīng)用:谷歌云機(jī)器學(xué)習(xí)API、翻譯、Waymo(前谷歌無(wú)人車(chē)部門(mén),現(xiàn)在是Alphabet子公司)、Inbox等。8、收購(gòu):語(yǔ)言與圖像識(shí)別、生物識(shí)別、深度學(xué)習(xí)、智能家居、機(jī)器人領(lǐng)域的公司。 | |
1、Facebook人工智能實(shí)驗(yàn)室(FAIR):2013年12月成立,是Facebook的AI基礎(chǔ)研究實(shí)驗(yàn)室,目標(biāo)是推動(dòng)機(jī)器智能領(lǐng)域的進(jìn)步。這是Facebook人工智能技術(shù)的核心部門(mén)。2、工程團(tuán)隊(duì):直接負(fù)責(zé)對(duì)接到Facebook的核心功能,比如廣告、搜索、新聞流、密鑰和Instagram。3、FBLearner Flow平臺(tái):于2014年底在FAIR內(nèi)部研究,后轉(zhuǎn)交給AML團(tuán)隊(duì),是Facebook研發(fā)基于AI的產(chǎn)品的支柱。這個(gè)平臺(tái)能幫助任何工程師輕松地開(kāi)啟和管理機(jī)器學(xué)習(xí)實(shí)驗(yàn),而無(wú)需處理硬件基礎(chǔ)架構(gòu)。每月運(yùn)行約120萬(wàn)的實(shí)驗(yàn)。4、應(yīng)用機(jī)器學(xué)習(xí)部門(mén)(AML):成立于2015年9月,是科學(xué)突破與產(chǎn)品使用連接起來(lái)的部門(mén)。包括4個(gè)主要團(tuán)隊(duì):核心機(jī)器學(xué)習(xí)、計(jì)算攝影、語(yǔ)言技術(shù)及自然語(yǔ)音識(shí)別。5、Language Technology團(tuán)隊(duì):該團(tuán)隊(duì)在AML保護(hù)傘下,專(zhuān)注于開(kāi)發(fā)翻譯、語(yǔ)音識(shí)別和自然語(yǔ)言理解,是部署實(shí)際軟件的地方,而FAIR是推動(dòng)Facebook人工智能實(shí)驗(yàn)的地方。6、Lumos:2016年11月首次披露,構(gòu)建在FBLearnerFlow之上,是專(zhuān)用語(yǔ)圖像和視頻理解的AI平臺(tái)。7、收購(gòu):圖像和語(yǔ)言理解領(lǐng)域的公司。 | |
IBM | 1、商業(yè)解決方案Watson:2014年1月初,IBM宣布組建“Watson Group”,旨在進(jìn)一步開(kāi)發(fā)、商用及增強(qiáng)“Watson”及其他認(rèn)知技術(shù)。同時(shí),IBM還推出了兩項(xiàng)Watson數(shù)字顧問(wèn)服務(wù),一項(xiàng)用于幫助企業(yè)從海量數(shù)據(jù)獲得洞見(jiàn),另一項(xiàng)則旨在使得數(shù)據(jù)可視化。2014年3月,Waston開(kāi)始與紐約基因中心合作。5月,IBM通過(guò)Watson收購(gòu)了人工智能創(chuàng)業(yè)公司Cognea,該公司為用戶提供個(gè)性化虛擬助手服務(wù)。2015年,Watson被部署在IBM 2014年收購(gòu)的云計(jì)算基礎(chǔ)設(shè)施業(yè)務(wù)Softlayer上。2016年,以腫瘤為重心,Watson在慢病管理、精準(zhǔn)醫(yī)療、體外檢測(cè)等九大醫(yī)療領(lǐng)域中實(shí)現(xiàn)了突破。2、AI技術(shù):語(yǔ)音語(yǔ)義、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(收購(gòu)了AIchemyAPI)3、云平臺(tái):IBM Bluemix開(kāi)放云技術(shù)平臺(tái)(PaaS+7種IBM Watson服務(wù))、機(jī)器學(xué)習(xí)平臺(tái)SystemML4、硬件:TrueNorth(SyNapse成果)5、產(chǎn)業(yè)布局:深藍(lán)、與蘋(píng)果、軟銀進(jìn)行智能機(jī)器人合作、VR游戲、物聯(lián)網(wǎng)、醫(yī)療服務(wù)6、收購(gòu):認(rèn)知計(jì)算、搜索、人機(jī)對(duì)話、數(shù)據(jù)分析領(lǐng)域的公司 |
Amazon | 1、服務(wù):Amazon Lex、Amazon Polly以及Amazon Rekognition,分別定位于可編寫(xiě)自然人機(jī)交互、語(yǔ)音轉(zhuǎn)換服務(wù)以及圖像識(shí)別。2、平臺(tái):Amazon ML、Spark & EMR、Kinesis流數(shù)據(jù)處理平臺(tái)、Batch批次處理、ECS3、引擎:MXNet、TensorFlow、Caffe、Theano、Pytorch、CNTK4、基礎(chǔ)設(shè)施:GPU、CPU、IoT、移動(dòng)5、1492團(tuán)隊(duì):旨在發(fā)掘醫(yī)療行業(yè)中的新機(jī)會(huì),同時(shí)關(guān)注軟件和硬件項(xiàng)目。目前,他們正在試圖從傳統(tǒng)電子醫(yī)療檔案中挖取和整合數(shù)據(jù);希望建立一個(gè)遠(yuǎn)程醫(yī)療的平臺(tái);探索基于Echo和Dash Wand的醫(yī)療應(yīng)用等6、收購(gòu):圖像識(shí)別、圖像與語(yǔ)言理解領(lǐng)域的公司 |
阿里巴巴 | 1、AI部門(mén):iDST(數(shù)據(jù)科學(xué)與技術(shù)研究院)、阿里人工智能實(shí)驗(yàn)室、NASA計(jì)劃、參與“工業(yè)大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室”、與清華北大一起搭建大數(shù)據(jù)系統(tǒng)軟件國(guó)家工程實(shí)驗(yàn)室2、AI產(chǎn)品線:ET大腦(工業(yè)、醫(yī)療、環(huán)境)、ET基礎(chǔ)服務(wù)(機(jī)器學(xué)習(xí)、智能語(yǔ)音、人臉識(shí)別、印刷文字識(shí)別、人機(jī)對(duì)話)3、資本布局:戰(zhàn)略投資日本機(jī)器人公司SBRH、入股山西嘉世達(dá)機(jī)器人 |
騰訊 | 1、AI機(jī)構(gòu):人工智能實(shí)驗(yàn)室(AI Lab,負(fù)責(zé)基礎(chǔ)性研究工作)、各個(gè)事業(yè)部都有AI團(tuán)隊(duì)(負(fù)責(zé)AI應(yīng)用研究)2、應(yīng)用方向:游戲AI、社交AI、內(nèi)容AI、工具型AI3、智能產(chǎn)品:小冰、小微、云搜和文智、優(yōu)圖人臉識(shí)別、QQ物聯(lián)、微信硬件平臺(tái)、叮當(dāng)智能語(yǔ)音助手、絕藝(類(lèi)似AlphaGo)、深度學(xué)習(xí)平臺(tái)DI-X4、資本布局:投資Diffbot、iCarbonX(碳云智能)、CloudMedX、Skymind、Scaled Inference;戰(zhàn)略入股搜狗;購(gòu)買(mǎi)特斯拉5%股票。 |
可以看到,百度在AI方面的布局已經(jīng)相對(duì)完善,無(wú)論是從AI部門(mén)的設(shè)置、集團(tuán)戰(zhàn)略定位,還是從開(kāi)放的各類(lèi)技術(shù)平臺(tái),均能夠幫助百度更快地構(gòu)建生態(tài)圈,以此帶來(lái)更多場(chǎng)景應(yīng)用的落地。
AI平臺(tái)開(kāi)放、百度生態(tài)建設(shè)延伸至端
百度AI平臺(tái)以百度智能云為基礎(chǔ)、百度大腦為核心,目前開(kāi)放DuerOS和Apollo兩大平臺(tái)向終端下沉,與云端一起初步構(gòu)建起AI生態(tài)圈。同時(shí),深度學(xué)習(xí)開(kāi)放平臺(tái)PaddlePaddle具備易用、高效、靈活和可伸縮等特點(diǎn),使程序員可以快速應(yīng)用深度學(xué)習(xí)模型來(lái)解決各種實(shí)際問(wèn)題,加快實(shí)驗(yàn)室技術(shù)在各類(lèi)場(chǎng)景的應(yīng)用落地,促進(jìn)百度AI生態(tài)的擴(kuò)散。
圖表4:百度AI平臺(tái)與生態(tài)構(gòu)建
百度AI平臺(tái)的開(kāi)源有助于百度吸引更多優(yōu)秀的開(kāi)發(fā)者參與進(jìn)來(lái),在幫助完善AI平臺(tái)功能的同時(shí),培養(yǎng)用戶的使用習(xí)慣,構(gòu)建起開(kāi)發(fā)者生態(tài)。此外,還可以通過(guò)開(kāi)發(fā)者使實(shí)驗(yàn)室技術(shù)更快地在具體場(chǎng)景落地。百度可憑借開(kāi)放的平臺(tái)尋找到更多的合作者,構(gòu)建起合作伙伴生態(tài),共同推出行業(yè)解決方案和生態(tài)合作方案。
DuerOS:開(kāi)放的對(duì)話式人工智能系統(tǒng)
百度在2017CES上推出了DuerOS。此外,百度還發(fā)布了DuerOS智慧芯片,具有:“三低、三高”的特點(diǎn)—低成本、低門(mén)檻、低消耗、高安全、高集成、高附加。這款DuerOS智慧芯片已將DuerOS與紫光展銳RDA5981完美集成;還采用了ARM公司mbed OS內(nèi)核及其安全網(wǎng)絡(luò)協(xié)議棧,實(shí)現(xiàn)了與云端的安全連接,降低了設(shè)備商應(yīng)用開(kāi)發(fā)門(mén)檻。
7月15日,在Baidu Create 2017上,度秘事業(yè)部總經(jīng)理景鯤發(fā)布了DuerOS開(kāi)放平臺(tái)。該平臺(tái)以DuerOS對(duì)話系統(tǒng)為核心層,應(yīng)用層為智能設(shè)備開(kāi)放平臺(tái),能力層為技能開(kāi)放平臺(tái)。其中技能開(kāi)放平臺(tái)目前已經(jīng)擁有10大品類(lèi)、100多項(xiàng)原生技能且支持第三方資源和內(nèi)容接入。作為中國(guó)版Alexa,未來(lái)百度將以DuerOS為切入點(diǎn),進(jìn)一步推動(dòng)集團(tuán)人工智能生態(tài)的構(gòu)建。
圖表5:DuerOS開(kāi)放平臺(tái)整體架構(gòu)
【參考資料:Alexa】
Alexa是Amazon推出的一款語(yǔ)音助手,可以對(duì)語(yǔ)音指令進(jìn)行處理并做出語(yǔ)音回復(fù)或執(zhí)行相應(yīng)操作,截止2017年6月底,Alexa語(yǔ)音助手已擁有超過(guò)1.5萬(wàn)項(xiàng)技能,比官方2月份公布的1萬(wàn)多項(xiàng)增長(zhǎng)了一半多。
圖表6:語(yǔ)音助手技能數(shù)量(單位:項(xiàng))
目前Alexa主要應(yīng)用于智能音箱、智能家居、可穿戴設(shè)備、購(gòu)物助手等。亞馬遜允許設(shè)備制造商通過(guò)使用Alexa語(yǔ)音服務(wù)(AVS)將Alexa不斷增長(zhǎng)的語(yǔ)音功能集成到自己的連接產(chǎn)品中。該語(yǔ)音服務(wù)(AVS)是一種云服務(wù),提供基于云的自動(dòng)語(yǔ)音識(shí)別(ASR)和自然語(yǔ)言理解(NLP)。
Alexa的語(yǔ)音識(shí)別系統(tǒng)框架主要包括四大塊:信號(hào)處理(Signal processing)、聲學(xué)模型(Acoustic model)、解碼器(Decoder)和后處理(Post processing)。
首先將收集來(lái)的聲音進(jìn)行一些信號(hào)處理,將語(yǔ)音信號(hào)轉(zhuǎn)化到頻域,每10毫秒的語(yǔ)音生成一個(gè)特征向量,發(fā)送到后面的聲學(xué)模型。聲學(xué)模型把音頻分成不同的音素。接下來(lái)解碼器可以解出概率最高的詞串。最后一步是后處理,把單詞組合成易讀取的文本。
圖表7:Alexa語(yǔ)音識(shí)別步驟
其中,聲學(xué)模型就是一個(gè)分類(lèi)器,輸入的是向量,輸出的是音頻類(lèi)別對(duì)應(yīng)的概率。該模型是一個(gè)典型的神經(jīng)網(wǎng)絡(luò),底部是輸入的信息,隱藏層將向量轉(zhuǎn)化到最后一層里的音素概率。
一個(gè)美式英語(yǔ)的Alexa語(yǔ)音識(shí)別系統(tǒng),會(huì)輸出美式英語(yǔ)的音素。以美式英語(yǔ)為基礎(chǔ)的Echo,錄了幾千小時(shí)的美式英語(yǔ)語(yǔ)音來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,這個(gè)成本非常高。但是,世界上還有很多其它的語(yǔ)言,比如德語(yǔ),如果再?gòu)念^用幾千小時(shí)的德語(yǔ)語(yǔ)音訓(xùn)練,成本太高。所以,這個(gè)神經(jīng)網(wǎng)絡(luò)模型有趣的地方就是可以“遷移學(xué)習(xí)”,它可以保持原有模型中其它層不變,只把最后一層換成德語(yǔ)。兩種不同的語(yǔ)言,音素大部分是不一樣的,但是仍然有不少相同的部分。因此,僅使用少量的德語(yǔ)語(yǔ)音數(shù)據(jù),就可以在稍作改變的模型上得到較準(zhǔn)確的德語(yǔ)結(jié)果。
現(xiàn)在,DuerOS可以將搭載Alexa的智能音箱變成能聽(tīng)懂中文。未來(lái),百度將把DuerOS打造成AI時(shí)代的“安卓”,為AI開(kāi)發(fā)者鋪墊好技術(shù)基礎(chǔ),幫助其更方便快捷地開(kāi)發(fā)智能語(yǔ)音交互設(shè)備,從而打造以DuerOS為入口的智能語(yǔ)音生態(tài)鏈。
Apollo:自動(dòng)駕駛開(kāi)放平臺(tái)
百度AI的核心突破口當(dāng)屬自動(dòng)駕駛,首先是成立智能駕駛事業(yè)群組(IDG)。緊接著于今年4月在上海車(chē)展上發(fā)布了“Apollo”計(jì)劃,向汽車(chē)行業(yè)及自動(dòng)駕駛領(lǐng)域的合作伙伴提供開(kāi)放的、完整的、安全的軟件平臺(tái),幫助他們快速搭建一套屬于自己的自動(dòng)駕駛系統(tǒng)。Apollo開(kāi)放平臺(tái)的發(fā)布標(biāo)志著百度在人工智能的系統(tǒng)級(jí)開(kāi)放進(jìn)程更進(jìn)一步,這也是全球范圍內(nèi)自動(dòng)駕駛技術(shù)的第一次系統(tǒng)級(jí)開(kāi)放。百度將致力于將Apollo打造成汽車(chē)工業(yè)時(shí)代的安卓,但是比安卓更開(kāi)放、能量更大。
7月5日百度AI開(kāi)發(fā)者大會(huì)上,百度首次對(duì)外公布Apollo詳細(xì)的路線圖、技術(shù)框架以及首期開(kāi)放Apollo 1.0的能力。會(huì)上,百度宣布Apollo生態(tài)合作伙伴聯(lián)盟規(guī)模超50家,目前Apollo生態(tài)合作伙伴聯(lián)盟已輻射OEM、Tier1、地圖公司、芯片公司、基金投資、個(gè)人開(kāi)發(fā)者、創(chuàng)業(yè)公司、研究機(jī)構(gòu)及政府機(jī)構(gòu)等,成為全球最強(qiáng)大的自動(dòng)駕駛生態(tài)。
Apollo將提供一套完整的軟硬件和服務(wù)系統(tǒng),包括車(chē)輛平臺(tái)、硬件平臺(tái)、軟件平臺(tái)、云端數(shù)據(jù)服務(wù)等四大部分。此外,百度還將開(kāi)放環(huán)境感知、路徑規(guī)劃、車(chē)輛控制、車(chē)載操作系統(tǒng)等功能的代碼或能力,并且提供完整的開(kāi)發(fā)測(cè)試工具。并且,百度還會(huì)在車(chē)輛和傳感器等領(lǐng)域選擇協(xié)同度和兼容性最好的合作伙伴,推薦給接入Apollo開(kāi)放平臺(tái)的第三方合作伙伴使用,進(jìn)一步降低自動(dòng)駕駛的研發(fā)門(mén)檻。
Apollo核心技術(shù)的總體技術(shù)框架由4個(gè)部分組成:
Apollo的開(kāi)放的軟件平臺(tái),核心有四個(gè)模塊:
(1)自定位模塊,百度具備業(yè)界領(lǐng)先的高精地圖與傳感器的能力融合,能夠?yàn)槊恳粋€(gè)車(chē)輛提供低成本、全天候的精準(zhǔn)定位。
(2)感知模塊,感知是自動(dòng)駕駛工業(yè)當(dāng)前的創(chuàng)新重點(diǎn),百度的感知模塊將多個(gè)傳感器組合在一起,通過(guò)人工智能技術(shù),使每一輛車(chē)都能看清、看懂路況,看到每一個(gè)行人、每一個(gè)車(chē)輛、每一個(gè)障礙物。
(3)車(chē)輛規(guī)劃控制,使用AI+大數(shù)據(jù)以及最安全的駕駛策略,可以精準(zhǔn)控制每一輛車(chē),同時(shí)可以適合各個(gè)不同的路況。
(4)底層的運(yùn)行框架,核心是安全性、可靠性和實(shí)時(shí)控制,能支持Intel和NVIDIA不同的芯片。
Apollo的服務(wù)平臺(tái):
(1)高精地圖服務(wù),是自動(dòng)駕駛的基礎(chǔ)。
(2)仿真引擎,快速累積海量的數(shù)據(jù),能夠使開(kāi)發(fā)者日行百萬(wàn)公里。
(3)安全服務(wù)。百度將為開(kāi)發(fā)者提供持續(xù)、高度安全的服務(wù)。
(4)DuerOS,為每一輛提供智能化車(chē)內(nèi)體驗(yàn)。參考硬件平臺(tái)和參考車(chē)輛平臺(tái),能支持各種各樣的不同的計(jì)算硬件,從CPU到GPU到FPGA。同時(shí)還支持各種不同的傳感器,從GPS到IMU到攝像頭、激光雷達(dá)、雷達(dá)等等。通過(guò)將各個(gè)模塊的融合,Apollo為每一個(gè)開(kāi)發(fā)者提供了從零到一的能力進(jìn)入自動(dòng)駕駛研發(fā)。
圖表8:2017年7月發(fā)布的Apollo路線圖
圖表9:Apollo平臺(tái)開(kāi)放情況(紫色為Apollo1.0開(kāi)放部分,紅色部分為Apollo1.5開(kāi)放部分)
2017年9月20日,百度宣布Apollo1.5正式開(kāi)放,包含障礙物感知、決策規(guī)劃、云端仿真、高精地圖服務(wù)、端到端的深度學(xué)習(xí)(End-to-End)等五大核心開(kāi)放能力,并支持晝夜定車(chē)道自動(dòng)駕駛。其中,原本計(jì)劃于年底開(kāi)放的端到端的深度學(xué)習(xí)(End-to-End)在9月20日宣布提前開(kāi)放。
能力一:障礙物感知
感知模塊的目標(biāo)是在給定從激光雷達(dá)傳感器獲得的三維點(diǎn)云數(shù)據(jù)后提供感知障礙的能力。它能檢測(cè)、分段和跟蹤以高精度地圖ROI方式定義的障礙。此外,它預(yù)測(cè)障礙物的運(yùn)動(dòng)和姿態(tài)信息(如航向、速度等)。核心的3D感知模塊是基于大規(guī)模點(diǎn)云數(shù)據(jù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的障礙物檢測(cè)和分割算法,包括高精地圖ROI過(guò)濾、基于CNN的障礙物檢測(cè)與分割、MinBox障礙物框構(gòu)建和HM物體跟蹤。
圖表10:3D感知模塊的組成部分
模塊 | 子模塊 | 描述 |
感知核心模塊 | 高精地圖ROI過(guò)濾 | 高精地圖ROI過(guò)濾算法根據(jù)地圖定義的ROI,對(duì)其外部的點(diǎn)云進(jìn)行過(guò)濾。它的主要目標(biāo)在于過(guò)濾掉一些無(wú)人車(chē)不關(guān)注的背景物體(例如道路周?chē)慕ㄖ铩?shù)木等),以便讓后續(xù)算法只關(guān)注道路上的障礙物。 |
基于CNN的障礙物檢測(cè)與分割 | 經(jīng)過(guò)高精地圖ROI過(guò)濾后,不在ROI區(qū)域內(nèi)的背景障礙物(比如建筑物,樹(shù)木等)已去除。因此,對(duì)ROI內(nèi)部(比如可行駛道路和交叉口)的點(diǎn)云進(jìn)行物體檢測(cè)和分割,從而得到前景障礙物例如小轎車(chē)、卡車(chē)、自行車(chē)、行人等。該算法基于全卷積深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)云特征并預(yù)測(cè)障礙物的相關(guān)屬性,并根據(jù)這些屬性建構(gòu)鄰接圖進(jìn)行基于連通片分析的障礙物分割。該算法將先進(jìn)的深度學(xué)習(xí)技術(shù)引入到點(diǎn)云障礙物檢測(cè)領(lǐng)域,能夠從大量數(shù)據(jù)中學(xué)習(xí)有效特征進(jìn)行障礙物的檢測(cè)與分割,其分割精度遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法。 | |
MinBox障礙物框構(gòu)建 | MinBox障礙物框構(gòu)建3D框構(gòu)架算法為檢測(cè)和分割出的障礙物建立相應(yīng)的邊界框。由于遮擋和離LiDar距離較遠(yuǎn)問(wèn)題等問(wèn)題,障礙物的點(diǎn)云可能非常稀疏或者只覆蓋某一部分。inBox障礙物框算法能夠根據(jù)檢測(cè)到的障礙物點(diǎn)構(gòu)建出最符合其朝向的邊界框。 | |
HM物體跟蹤 | HM目標(biāo)物體算法用于跟蹤ROI中檢測(cè)和分割得到的障礙物。該算法將當(dāng)前幀檢測(cè)到的障礙物與之前跟蹤到的物體進(jìn)行關(guān)聯(lián)、刪除老的跟蹤物體、生成新的跟蹤物體,形成最終的跟蹤表輸出,并預(yù)測(cè)障礙物的位置,速度和朝向等信息 |
止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主機(jī)廠、Tier1供應(yīng)商、開(kāi)發(fā)者生態(tài)公司。同時(shí)百度宣布Apollo基金“雙百計(jì)劃”,將在三年內(nèi)投入100億資金,完成超過(guò)100家項(xiàng)目的投資,未來(lái)將進(jìn)一步壯大Apollo平臺(tái)的生態(tài)聯(lián)盟。
能力二:決策規(guī)劃
決策規(guī)劃模塊根據(jù)實(shí)時(shí)路況、感知模塊輸出的信息、道路限速等信息做出相應(yīng)的軌跡預(yù)測(cè)和智能規(guī)劃,同時(shí)兼顧安全性和舒適性,提高行駛效率。決策規(guī)劃模塊主要由障礙物檢測(cè)、路徑規(guī)劃、選擇與控制三部分組成。
圖表11:決策規(guī)劃模塊的組成部分
模塊 | 子模塊 | 描述 |
決策規(guī)劃模塊 | 障礙物預(yù)測(cè) | 將位置模塊得到的定位信息(車(chē)輛的位置、速度與加速度)與感知核心模塊中得到的障礙物信息(如位置、方向、速度、加速度)結(jié)合,預(yù)測(cè)障礙物之后一系列可能的運(yùn)動(dòng)方式(如速度和路徑)及各種運(yùn)動(dòng)方式對(duì)應(yīng)的概率。目前預(yù)測(cè)方式有三種:路徑預(yù)測(cè)、自由(隨機(jī))移動(dòng)預(yù)測(cè)、障礙物運(yùn)動(dòng)區(qū)域預(yù)測(cè)。 |
路徑規(guī)劃 | 基于定位信息、感知核心模塊提供的障礙物信息、對(duì)障礙物運(yùn)動(dòng)的預(yù)測(cè),同時(shí)考慮安全與舒適度,計(jì)算出車(chē)輛運(yùn)行的無(wú)障礙路徑。 | |
選擇與控制 | 根據(jù)當(dāng)前車(chē)輛的狀態(tài)、規(guī)劃功能給出的路徑以及車(chē)上人員發(fā)出的指令,運(yùn)用不同控制算法生成指令(如轉(zhuǎn)向、減速、剎車(chē))并傳遞給汽車(chē)。 |
能力三:高精度地圖
高精度地圖與普通電子地圖的主要區(qū)別是高精度地圖擁有更精確的車(chē)輛位置信息和更豐富的道路元素?cái)?shù)據(jù)信息,起到構(gòu)建類(lèi)似于人腦對(duì)于空間的整體記憶與認(rèn)知的功能,可以幫助汽車(chē)預(yù)知路面復(fù)雜信息,如坡度、曲率、航向等,更好地規(guī)避潛在的風(fēng)險(xiǎn)。是實(shí)現(xiàn)自動(dòng)駕駛的關(guān)鍵所在。此外,高精度地圖還起到了車(chē)輛間共享路況信息、識(shí)別交通標(biāo)志的作用。
能力四:云端仿真
其中開(kāi)放云端仿真功能作用極為重要,在正常的產(chǎn)品開(kāi)發(fā)過(guò)程中,良好的仿真測(cè)試環(huán)境將方便產(chǎn)品開(kāi)發(fā)者在模擬環(huán)境中快速測(cè)試產(chǎn)品的性能、可靠性等,加快產(chǎn)品的迭代測(cè)試周期從而提高產(chǎn)品測(cè)試效率:
圖表12:云端仿真功能的作用
開(kāi)放內(nèi)容 | 功能模塊 | 功能子模塊 | 描述 |
開(kāi)放功能 | 內(nèi)置高精地圖的仿真場(chǎng)景 | 基于不同的路型,基于不同的障礙物類(lèi)型,基于不同的道路規(guī)劃,基于不同的紅綠燈信號(hào)。 | |
場(chǎng)景上傳調(diào)試 | 支持同時(shí)多場(chǎng)景的高速運(yùn)行,支持單算法模塊的上傳運(yùn)行,支持系統(tǒng)整套算法和運(yùn)行環(huán)境的上傳與運(yùn)行。 | ||
智能場(chǎng)景通過(guò)判別系統(tǒng) | 本期開(kāi)放5個(gè)判別標(biāo)準(zhǔn):碰撞檢測(cè),闖紅燈檢測(cè),限速檢測(cè),在路檢測(cè),到達(dá)目的地檢測(cè) | ||
3D展示功能 | 提供實(shí)時(shí)路況,算法模塊輸出的可視化信息,以及無(wú)人車(chē)本身狀態(tài)的全局信息。 | ||
開(kāi)放能力 | 核心能力 | 智能陪練 | 該功能可以讓自動(dòng)駕駛路測(cè)更安全。 |
真實(shí)場(chǎng)景重建和多算法認(rèn)證 | 在真實(shí)交通流復(fù)現(xiàn)的基礎(chǔ)上,支持感知、規(guī)劃、控制多算法模塊驗(yàn)證,讓自動(dòng)駕駛算法驗(yàn)證更為嚴(yán)謹(jǐn)。 | ||
日行百萬(wàn) | 提供不間斷的仿真測(cè)試,通過(guò)多次快速迭代來(lái)自動(dòng)優(yōu)化算法結(jié)果,讓自動(dòng)駕駛技術(shù)的發(fā)展更高效。 | ||
解決方案 | 發(fā)現(xiàn)問(wèn)題 | 允許開(kāi)發(fā)者定義和選擇各類(lèi)評(píng)判打分標(biāo)準(zhǔn),在云端仿真器中運(yùn)行場(chǎng)景并發(fā)現(xiàn)問(wèn)題。 | |
解決問(wèn)題 | 查問(wèn)題場(chǎng)景反映出的現(xiàn)象,進(jìn)而改進(jìn)或替換系統(tǒng)里的相應(yīng)模塊,再次運(yùn)行場(chǎng)景,直到問(wèn)題解決。 | ||
驗(yàn)證問(wèn)題 | 可自動(dòng)拉取核心場(chǎng)景資源,針對(duì)測(cè)試中產(chǎn)生的問(wèn)題,快速驗(yàn)證新算法,并支持單步調(diào)試與驗(yàn)證。此外,還提供不間斷的仿真測(cè)試,通過(guò)多次快速迭代來(lái)自動(dòng)優(yōu)化算法結(jié)果,做到研發(fā)全流程支持。 |
能力五:端到端
按照2017年7月百度發(fā)布的規(guī)劃,端到端深度學(xué)習(xí)能力比原定的2017年12月提前了3個(gè)月,開(kāi)放速度有所加快。本次開(kāi)放的障礙物感知和決策規(guī)劃能力使車(chē)輛能夠?qū)崿F(xiàn)不分晝夜的精準(zhǔn)障礙物識(shí)別,并能通過(guò)深度神經(jīng)網(wǎng)絡(luò)精準(zhǔn)預(yù)測(cè)行駛路徑,從而做出最終的駕駛決策。
百度IDG部門(mén)的郁浩在百度技術(shù)沙龍上的演講中提到,和Apollo中端到端學(xué)習(xí)相對(duì)的是傳統(tǒng)無(wú)人駕駛項(xiàng)目中主要使用的規(guī)則式系統(tǒng),這是過(guò)去二十多年無(wú)人駕駛研究的主流方向。規(guī)則式系統(tǒng)從車(chē)輛開(kāi)始是一個(gè)閉環(huán):從車(chē)輛到車(chē)上的傳感器,獲取輸入信息,這些信息經(jīng)過(guò)感知層處理,提取出道路、行人和車(chē)輛等各種信息。在感知到的信息的基礎(chǔ)之上,再加入高精地圖等一些靜態(tài)信息,把動(dòng)態(tài)信息和靜態(tài)信息結(jié)合到一起形成較完備的世界模型(World Model)——對(duì)外部環(huán)境的完備描述。在此基礎(chǔ)之上就可以進(jìn)入到?jīng)Q策模塊產(chǎn)生決策,然后控制模塊把決策信號(hào)傳遞給車(chē)輛。
圖表13:規(guī)則式系統(tǒng)
上圖是一個(gè)很簡(jiǎn)單的閉環(huán)模式,也有很多人提出了相關(guān)的或類(lèi)似的架構(gòu),比如國(guó)際汽車(chē)工程師學(xué)會(huì)(SAE)在上邊閉環(huán)的基礎(chǔ)上,更細(xì)化分成大環(huán)、小環(huán)和各個(gè)模塊之間的關(guān)系。
圖表14:國(guó)際汽車(chē)工程師學(xué)會(huì)(SAE)推薦的系統(tǒng)架構(gòu)圖
為了使規(guī)則式系統(tǒng)能夠滿足自動(dòng)駕駛的需要,需要不斷細(xì)化、得到更復(fù)雜的功能模塊圖,真正系統(tǒng)落地時(shí)往往有上千個(gè)模塊。因此規(guī)則式系統(tǒng)有3個(gè)特點(diǎn):
系統(tǒng)十分復(fù)雜,需要人工設(shè)計(jì)上千個(gè)模塊;
高精地圖成本很高:規(guī)則式系統(tǒng)對(duì)外界有很大依賴(lài),高精地圖精度要到厘米級(jí)。這也帶來(lái)需要及時(shí)更新等問(wèn)題;
對(duì)車(chē)載硬件計(jì)算能力要求很高,規(guī)則式系統(tǒng)中每一個(gè)模塊都有相應(yīng)的深度學(xué)習(xí)應(yīng)用,部署在車(chē)上的每個(gè)模塊都對(duì)計(jì)算資源需求很高,車(chē)上可能需要運(yùn)行幾個(gè),甚至十幾個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)。
簡(jiǎn)單地歸納一下,與規(guī)則式系統(tǒng)相比,端到端學(xué)習(xí)更像是在模擬、貼合人的思考過(guò)程,包括人的下意識(shí)思考。相對(duì)規(guī)則式系統(tǒng)而言,端到端學(xué)習(xí)成本更低,但需要大量?jī)?yōu)質(zhì)數(shù)據(jù)來(lái)讓機(jī)器進(jìn)行學(xué)習(xí)、篩選各種情況下有效的路徑。
圖表15:Rule based與End-to-End比較
端到端的已有案例
Apollo1.5的合作者M(jìn)omenta基于定車(chē)道晝夜自動(dòng)駕駛能力,很快完成了實(shí)車(chē)驗(yàn)證。實(shí)際道路測(cè)試表明,搭載了Apollo1.5的平臺(tái)即使在夜間可視度不佳的情形下,依舊能完成各種復(fù)雜的交通場(chǎng)景識(shí)別。
另一個(gè)合作伙伴智行者科技在Apollo平臺(tái)上打造的無(wú)人駕駛掃路車(chē),目前已經(jīng)在北京一家園區(qū)正式落地,開(kāi)創(chuàng)了Apollo自動(dòng)駕駛作業(yè)車(chē)的先例。2017 CES Asia展會(huì)上,百度聯(lián)合長(zhǎng)城汽車(chē)、NVIDIA,在哈弗H7展示了基于單目攝像頭+百度深度學(xué)習(xí)技術(shù)的端到端自動(dòng)駕駛解決方案,進(jìn)行了公開(kāi)試乘。
圖表16:封閉園區(qū)的固定路線的接駁
Apollo平臺(tái)目標(biāo)實(shí)現(xiàn)生態(tài),開(kāi)源廣納合作者參與
自Apollo1.0發(fā)布2個(gè)多月后,其在知名開(kāi)源平臺(tái)Github上已經(jīng)聚集了6000多的開(kāi)發(fā)者,位居開(kāi)源平臺(tái)前列。Apollo GitHub將自己定義為一個(gè)開(kāi)放的、完整的、安全的自動(dòng)駕駛平臺(tái),以靈活和高性能的技術(shù)架構(gòu),為全自動(dòng)駕駛提供支持。
Apollo開(kāi)源代碼資源可以分為三部分,分別是apollo、apollo-platform、apollo-kernel。
第一部分,apollo該部分有入門(mén)文檔,介紹了Apollo的基本信息。modules文件夾中是各個(gè)模塊(如感知模塊perception,預(yù)測(cè)模塊prediction,端到端e2e)的開(kāi)源內(nèi)容。還有一些其他文件夾:docker沙箱,scripts腳本,third_party第三方開(kāi)源代碼,tools工具。說(shuō)明文檔推薦使用已經(jīng)設(shè)置好的沙箱模式。
第二部分,apollo-platform該部分內(nèi)容用來(lái)提供平臺(tái)支持,目前主要是一套經(jīng)過(guò)修改的ROS(機(jī)器人操作系統(tǒng))。
第三部分apollo-kernel,該部分內(nèi)容用來(lái)提供核心支持,目前Apollo核心使用的是修改過(guò)的Linux Kernel 4.4.32。
Apollo生態(tài)鏈及標(biāo)的公司
無(wú)人駕駛快速落地,行業(yè)生態(tài)起到了關(guān)鍵性作用,對(duì)比手機(jī)的Android系統(tǒng)來(lái)看,在Android系統(tǒng)2009年面世之前,各個(gè)手機(jī)廠家都有自己的操作系統(tǒng),而在Android系統(tǒng)出來(lái)后,短短幾年內(nèi),各大手機(jī)廠商操作系統(tǒng)都統(tǒng)一在開(kāi)源的Android系統(tǒng)之下(蘋(píng)果公司的IOS除外),而沒(méi)有跟上這個(gè)趨勢(shì)的廠商(如諾基亞、摩托羅拉等)很快就銷(xiāo)聲匿跡了。現(xiàn)在Apollo平臺(tái),正如Android系統(tǒng)初生之時(shí),在國(guó)內(nèi)有一統(tǒng)平臺(tái)的潛質(zhì),Apollo目前已經(jīng)擁有70多家合作伙伴,已有多家合作伙伴采用公司的平臺(tái)進(jìn)行產(chǎn)品研發(fā),未來(lái)前景良好。因此,如果關(guān)注A股上市公司,建議投資者重點(diǎn)關(guān)注參與到Apollo產(chǎn)業(yè)鏈的公司,尤其是那些細(xì)分行業(yè)的龍頭,具有良好的爆發(fā)性機(jī)會(huì)。
圖表17:Apollo合作伙伴分類(lèi)
分類(lèi) | 合作伙伴 | 當(dāng)前及潛在合作機(jī)會(huì) |
高校(5家) | 北京航空航天大學(xué)、北京理工大學(xué)、清華大學(xué)、上海交通大學(xué)、同濟(jì)大學(xué) | 前沿技術(shù)探索及研發(fā)合作等 |
政府相關(guān)(5家) | 北京亦莊等 | 場(chǎng)地支持及政策支持等。如在北京亦莊示范區(qū)封閉試驗(yàn)場(chǎng)預(yù)計(jì)將于2017年底建成并對(duì)外提供服務(wù),其一期建設(shè)內(nèi)容為占地面積600畝的模擬特大城市交通場(chǎng)景的智能網(wǎng)聯(lián)汽車(chē)測(cè)試基地,將容納國(guó)內(nèi)外各類(lèi)車(chē)型進(jìn)行研發(fā)試驗(yàn)與測(cè)試。 |
汽車(chē)制造商(19家) | 北京汽車(chē)、北汽新能源等 | 在智能汽車(chē)的多領(lǐng)域進(jìn)行合作,重點(diǎn)在于Apollo平臺(tái)在各個(gè)汽車(chē)廠的汽車(chē)產(chǎn)品上的落地,這需要車(chē)廠提供相關(guān)的接口和研發(fā)支持。如何北京汽車(chē)的合作內(nèi)容包括在智能汽車(chē)、車(chē)聯(lián)網(wǎng)、L3級(jí)智能駕駛、高精度地圖及車(chē)載地圖、聯(lián)合品牌運(yùn)營(yíng)等領(lǐng)域展開(kāi)合作等。 |
分類(lèi) | 合作伙伴 | 當(dāng)前及潛在合作機(jī)會(huì) |
汽車(chē)租賃、打車(chē)企業(yè) | 一嗨租車(chē)、首汽租車(chē)等 | 智能駕駛汽車(chē)的終端用戶 |
自動(dòng)駕駛相關(guān)企業(yè) | AutonomouStuff | 利用Apollo開(kāi)放能力改裝自動(dòng)駕駛車(chē) |
地平線機(jī)器人 | 基于車(chē)機(jī)或自動(dòng)駕駛系統(tǒng)合作 | |
路暢科技 | ||
MOMENTA | ||
VIRES | ||
智行者科技 | 合作的無(wú)人駕駛掃路機(jī)已投放 | |
芯片供應(yīng)商 | 英特爾 | 提供自動(dòng)駕駛相關(guān)芯片 |
紫光展銳 | ||
英偉達(dá) | ||
軟件及解決方案供應(yīng)商 | 微軟 | 基于自動(dòng)駕駛相關(guān)系統(tǒng)軟件及解決方案合作 |
中科創(chuàng)達(dá) | ||
博世 | ||
車(chē)聯(lián)網(wǎng)企業(yè) | 博泰 | 合作提供更為安全、便捷、經(jīng)濟(jì)的智能駕駛方案 |
同行者 | ||
遠(yuǎn)特科技 | ||
通訊供應(yīng)商 | 中興通訊 | 綜合通信解決方案提供商 |
IT學(xué)習(xí)、社區(qū) | 極客幫 | 技術(shù)學(xué)習(xí)、交流服務(wù) |
優(yōu)達(dá)學(xué)城 | ||
CSDN |
Apollo保持著每周數(shù)十次頻率的代碼更新,從2017年7月到9月兩個(gè)多月時(shí)間新增6.5萬(wàn)行代碼。同時(shí),Apollo獲得全球開(kāi)發(fā)者的積極響應(yīng)。截止2017年9月20日,共有1300多個(gè)合作伙伴下載使用了Apollo開(kāi)源代碼,近百個(gè)合作伙伴通過(guò)Apollo官網(wǎng)申請(qǐng)開(kāi)放數(shù)據(jù)。上線當(dāng)月,在全球最大的開(kāi)源社區(qū)Github的全球C++類(lèi)項(xiàng)目中排名第一,6000多個(gè)開(kāi)發(fā)者推薦使用Apollo開(kāi)源軟件。
PaddlePaddle:深度學(xué)習(xí)開(kāi)放平臺(tái)
PaddlePaddle前身是百度于2013年自主研發(fā)的深度學(xué)習(xí)平臺(tái),一直為百度內(nèi)部工程師研發(fā)使用。2016年9月,百度宣布其深度學(xué)習(xí)平臺(tái)PaddlePaddle在開(kāi)源社區(qū)Github及百度大腦平臺(tái)開(kāi)放。2017年年初,PaddlePaddle可在Google開(kāi)源的Docker容器集群管理系統(tǒng)Kubernetes運(yùn)行,并成為目前唯一官方支持Kubernetes的深度學(xué)習(xí)框架,兩個(gè)開(kāi)源項(xiàng)目的結(jié)合意味著深度學(xué)習(xí)對(duì)于廣大開(kāi)發(fā)者正變得“觸手可及”。
PaddlePaddle具備5大優(yōu)勢(shì):
靈活:PaddlePaddle支持大量的神經(jīng)網(wǎng)絡(luò)架構(gòu)和優(yōu)化算法,支持任意復(fù)雜RNNs結(jié)構(gòu)。
高效:PaddlePaddle會(huì)每一級(jí)的計(jì)算、內(nèi)存、架構(gòu)及通信進(jìn)行優(yōu)化,以充分利用異構(gòu)計(jì)算資源。
可擴(kuò)展:PaddlePaddle能通過(guò)優(yōu)化通信,獲得高吞吐量和性能。
易用:Paddlepaddle可以使開(kāi)發(fā)者更加專(zhuān)注于模型的高層結(jié)構(gòu)。
可快速部署:由于PaddlePaddle簡(jiǎn)單、可擴(kuò)展的特性,因此可被快速部署到各類(lèi)應(yīng)用場(chǎng)景中。
圖表18:幾類(lèi)深度學(xué)習(xí)平臺(tái)的比較
TensorFlow:大部分功能可以通過(guò)從庫(kù)里直接調(diào)取代碼實(shí)現(xiàn),不需要手動(dòng)編程。內(nèi)存占用較大,且不支持時(shí)間序列的卷積。
Theano:相較于深度學(xué)習(xí),其更適合數(shù)值計(jì)算優(yōu)化。它允許自動(dòng)功能梯度計(jì)算。但目前不具備多GPU支持和水平功能。
Caffe:注重計(jì)算機(jī)視覺(jué),靈活性不夠,安裝過(guò)程較繁瑣。如果有新的改動(dòng),需要使用C++和CUDA進(jìn)行編程;對(duì)于較小的改動(dòng),可以使用其Python或Matlab來(lái)完成。
Torch:是一個(gè)很好的平臺(tái),但是開(kāi)發(fā)語(yǔ)言Lua較小眾,學(xué)習(xí)成本大。實(shí)現(xiàn)并且優(yōu)化了基本的計(jì)算單元,使用者可以在此基礎(chǔ)上編寫(xiě)自己的算法。
MXNet:支持Python、R、C++等多種語(yǔ)言,特別受R語(yǔ)言使用者的歡迎,并且有獨(dú)特的多GPU擴(kuò)展功能。
PaddlePaddle:使用界面類(lèi)似于Caffe,并且較好地支持RNN與NLP以及多CPU/GPU并行計(jì)算。相較于較TensorFlow,PaddlePaddle能幫助開(kāi)發(fā)者聚焦于構(gòu)建深度學(xué)習(xí)模型;相較Caffe,PaddlePaddle支持更多應(yīng)用場(chǎng)景。
圖表19:Paddle與TensorFlow在RNN下的表現(xiàn)
目前,PaddlePaddle已經(jīng)被應(yīng)用于百度的30多個(gè)主要產(chǎn)品,如外賣(mài)菜品識(shí)別、預(yù)估出餐時(shí)間、海量圖像識(shí)別分類(lèi)、字符識(shí)別(OCR)、機(jī)器翻譯和自動(dòng)駕駛等領(lǐng)域。
百度“能聽(tīng)會(huì)看”作為觸手、帶動(dòng)技術(shù)領(lǐng)域的商業(yè)化落地
從“能聽(tīng)”走向“能聽(tīng)懂”的學(xué)習(xí)之路
1、百度以語(yǔ)音識(shí)別為切入點(diǎn),構(gòu)建人工智能生態(tài)圈。
2017年,百度語(yǔ)音開(kāi)放生態(tài)2.0。目前,百度語(yǔ)音開(kāi)放生態(tài)已經(jīng)構(gòu)建起包括模型層、功能層、交互層、接入層的四層開(kāi)放架構(gòu),已有近25萬(wàn)開(kāi)發(fā)者納入生態(tài)圈,日調(diào)用總數(shù)達(dá)20億次。在開(kāi)放生態(tài)2.0中,百度將開(kāi)放遠(yuǎn)場(chǎng)識(shí)別及喚醒技術(shù)、定制化語(yǔ)音合成、語(yǔ)音合成音色等技術(shù):
遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別及喚醒技術(shù):百度通過(guò)數(shù)據(jù)增強(qiáng)技術(shù),復(fù)用百度積累的海量搜索語(yǔ)音數(shù)據(jù)和世界領(lǐng)先的語(yǔ)音模型識(shí)別,將近場(chǎng)語(yǔ)音技術(shù)完整遷移到遠(yuǎn)場(chǎng)。此外還適配包括Intel、科大訊飛、科勝訊在內(nèi)的主流麥克風(fēng)陳列。同時(shí)對(duì)家居場(chǎng)景進(jìn)行定向噪聲優(yōu)化;
定制化語(yǔ)音合成技術(shù):包括定制化文本轉(zhuǎn)語(yǔ)音技術(shù)、語(yǔ)音合成標(biāo)注語(yǔ)言標(biāo)簽語(yǔ)言、基礎(chǔ)標(biāo)簽及百度擴(kuò)展內(nèi)容;
開(kāi)放音色合成:包括自然音色和個(gè)性化及明星合成音色;
圖表20:語(yǔ)音技術(shù)開(kāi)放現(xiàn)狀
目前,百度已與聯(lián)想、中興、長(zhǎng)虹、索尼、iReader、攜程、特斯拉等品牌合作,構(gòu)建包含模型層、功能層、交互層、接入層的語(yǔ)音開(kāi)放架構(gòu)。
語(yǔ)音識(shí)別的目標(biāo)是以電腦自動(dòng)將人類(lèi)的語(yǔ)音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字,其應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。
直到第三次人工智能熱潮來(lái)臨,深度學(xué)習(xí)的崛起、高性能計(jì)算和大數(shù)據(jù)的迅速發(fā)展才使語(yǔ)音識(shí)別從實(shí)驗(yàn)室走出并開(kāi)始實(shí)現(xiàn)商業(yè)落地。近年來(lái)語(yǔ)音識(shí)別準(zhǔn)確率得到了極大的提升。2016年11月,搜狗、百度、科大訊飛相繼宣布其中文語(yǔ)音識(shí)別率達(dá)到了97%。
圖表21:語(yǔ)音識(shí)別錯(cuò)誤率在近幾年得到了極大降低
語(yǔ)音識(shí)別作為人工智能核心技術(shù)之一,目前各科技巨頭都將其作為切入點(diǎn),積極布局人工智能。在智能語(yǔ)音領(lǐng)域方面的布局,科技巨頭和初創(chuàng)公司的打法有所差異,具體表現(xiàn)為:
科技巨頭:圍繞主業(yè),開(kāi)放應(yīng)用平臺(tái),同時(shí)通過(guò)收購(gòu)、戰(zhàn)略合作等手段補(bǔ)齊短板,打造人工智能生態(tài)圈;
智能語(yǔ)音成熟公司:基于原有技術(shù)優(yōu)勢(shì),從單一技術(shù)廠商向人工智能產(chǎn)業(yè)生態(tài)構(gòu)建者進(jìn)軍;
其他創(chuàng)業(yè)公司:深耕細(xì)分領(lǐng)域,重點(diǎn)布局家居、車(chē)載、機(jī)器人。
2、自然語(yǔ)言處理技術(shù)賦予機(jī)器認(rèn)知能力
人類(lèi)語(yǔ)言與計(jì)算機(jī)之間相互作用的研究領(lǐng)域稱(chēng)為自然語(yǔ)言處理(簡(jiǎn)稱(chēng)NLP)。它結(jié)合了計(jì)算機(jī)科學(xué)、人工智能和計(jì)算語(yǔ)言學(xué)。開(kāi)發(fā)人員利用NLP可以組織和構(gòu)建知識(shí),執(zhí)行自動(dòng)總結(jié)、翻譯、命名實(shí)體識(shí)別、關(guān)系提取、情感分析、語(yǔ)音識(shí)別和主題分割等任務(wù)。目前,中國(guó)在自然語(yǔ)言處理領(lǐng)域的專(zhuān)利數(shù)量占比僅次于美國(guó)。
自百度誕生之日起,中文分詞這種的基礎(chǔ)NLP技術(shù)便已經(jīng)應(yīng)用于搜索引擎。自然語(yǔ)言處理專(zhuān)家王海峰博士加入百度后對(duì)百度NLP工作進(jìn)行了重新梳理。在加強(qiáng)分詞、專(zhuān)名識(shí)別、query需求分析、query改寫(xiě)等傳統(tǒng)方向的同時(shí)還拓展了機(jī)器翻譯、機(jī)器學(xué)習(xí)、語(yǔ)義搜索、語(yǔ)義理解、智能交互、深度問(wèn)答、篇章理解等新的技術(shù)方向。在他的帶領(lǐng)下,NLP團(tuán)隊(duì)已經(jīng)包括了算法開(kāi)發(fā)、系統(tǒng)實(shí)現(xiàn)、學(xué)術(shù)研究、語(yǔ)言學(xué)、產(chǎn)品設(shè)計(jì)和架構(gòu)、前端、客戶端工程開(kāi)發(fā)等多領(lǐng)域的人才,全面支持百度各種產(chǎn)品應(yīng)用。
圖表22:百度自然語(yǔ)言處理技術(shù)概要
歷經(jīng)17年的積累,2013年百度首次開(kāi)發(fā)了NLP Cloud平臺(tái),擁有20多種NLP模塊,每天的請(qǐng)求數(shù)超1000億次,每日流量達(dá)數(shù)十億次,已為超2萬(wàn)個(gè)企業(yè)和開(kāi)發(fā)者提供百度翻譯API,應(yīng)用于百度搜索、Feed、O2O和廣告等業(yè)務(wù)與產(chǎn)品方向。此外,百度還提供語(yǔ)音翻譯及利用字符識(shí)別技術(shù)進(jìn)行的圖片內(nèi)容翻譯。
在Baidu Create 2017上,百度開(kāi)放了基于百度自然語(yǔ)言處理技術(shù)的理解與交互技術(shù)平臺(tái)UNIT(Understanding and Interaction Technology Platform),包括詞法分析、情感分析、機(jī)器翻譯、語(yǔ)義表示、語(yǔ)言模型、語(yǔ)義相似度等技術(shù),為機(jī)器賦予“理解”能力。
圖表23:UNIT整體框架
UNIT基于百度海量的搜索數(shù)據(jù)、問(wèn)答數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù)等為對(duì)話系統(tǒng)的開(kāi)發(fā)提供大數(shù)據(jù)保障,為每個(gè)不同的對(duì)話任務(wù)智能推薦相關(guān)數(shù)據(jù),以供進(jìn)一步的訓(xùn)練數(shù)據(jù)標(biāo)注。并首次推出理解與交互“對(duì)話訓(xùn)練師”模式讓普通開(kāi)發(fā)者乃至零編程基礎(chǔ)的人都能成為訓(xùn)練師。對(duì)話系統(tǒng)通過(guò)與訓(xùn)練師對(duì)話便可不斷完善系統(tǒng)功能、提升對(duì)話能力。目前,UNIT已經(jīng)應(yīng)用于車(chē)載、客服、家居等場(chǎng)景。
圖表24:訓(xùn)練師模式
全方位視頻理解技術(shù)使機(jī)器不僅“會(huì)看”,還會(huì)理解
在Baidu Create 2017上,百度發(fā)布了全方位視頻理解技術(shù),包括視頻分割技術(shù)、語(yǔ)義理解、人臉識(shí)別及機(jī)器人視覺(jué)等。
視頻分割技術(shù)是無(wú)人駕駛/機(jī)器人的核心技術(shù),對(duì)數(shù)據(jù)和精度要求很高,需要像素級(jí)別的輸出信息和更多的視頻訓(xùn)練數(shù)據(jù)。目前百度具有世界第一個(gè)室外語(yǔ)義分割RGBD視頻數(shù)據(jù)集。
語(yǔ)義理解技術(shù)包括視頻封面選摘技術(shù)、視頻分類(lèi)/標(biāo)簽技術(shù)、視頻智能對(duì)比技術(shù)、視頻審核色情識(shí)別技術(shù)、視頻公眾人物識(shí)別技術(shù)、視頻結(jié)構(gòu)化分析技術(shù),并將上線視頻細(xì)粒度識(shí)別技術(shù)。
人臉識(shí)別:百度已經(jīng)運(yùn)用200萬(wàn)人的2億張照片進(jìn)行人臉識(shí)別基礎(chǔ)模型訓(xùn)練,實(shí)現(xiàn)人臉檢測(cè)、人臉對(duì)比及人臉查找,并已應(yīng)用于百度魔圖、百度網(wǎng)盤(pán)、百度識(shí)圖等產(chǎn)品中。此外,百度人臉識(shí)別還具備活體識(shí)別功能。
機(jī)器人視覺(jué)開(kāi)放平臺(tái)由攝像機(jī)IMU模組、SLAM、障礙物檢測(cè)、地圖重建、語(yǔ)義識(shí)別5大部分構(gòu)成且已開(kāi)源。其中,SLAM采用雙目視覺(jué)慣性算法,定位結(jié)果延遲小誤差低;云端API提供人臉識(shí)別、物體檢測(cè)和字符識(shí)別功能。
計(jì)算機(jī)視覺(jué)是最主要的人工智能基礎(chǔ)技術(shù)之一,主要包括信息采集、模型訓(xùn)練及識(shí)別。目前,計(jì)算機(jī)視覺(jué)在圖像識(shí)別和人臉識(shí)別兩大領(lǐng)域的準(zhǔn)確率都已經(jīng)超過(guò)人類(lèi)極限。計(jì)算機(jī)視覺(jué)技術(shù)主要包括圖像及視頻處理、人臉識(shí)別、文字識(shí)別、智能監(jiān)控等,其中人臉識(shí)別已經(jīng)廣泛應(yīng)用于安防、公安、金融等行業(yè)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,我國(guó)與國(guó)外的差距較小。2014年3月,香港中文大學(xué)湯曉鷗教授團(tuán)隊(duì)的GaussianFace算法在人臉識(shí)別數(shù)據(jù)庫(kù)LFW上準(zhǔn)確率達(dá)98.52%,在全球首次突破人眼識(shí)別能力。目前,中國(guó)在計(jì)算機(jī)視覺(jué)方面的專(zhuān)利已躍居世界第一,占當(dāng)前全球?qū)@_(kāi)數(shù)量的55%,并且增長(zhǎng)勢(shì)頭強(qiáng)勁。
圖表25:計(jì)算機(jī)視覺(jué)專(zhuān)利數(shù)量分布(單位:%)
今年1月,百度研究院成立AR實(shí)驗(yàn)室,同時(shí)推出AR開(kāi)放平臺(tái)DuMix供開(kāi)發(fā)者及內(nèi)容創(chuàng)作者使用。在Baidu Create 2017上,百度發(fā)布全新DuMix AR開(kāi)放平臺(tái),提供基礎(chǔ)的AR技術(shù),包括AR SDK、內(nèi)容制作工具、云端內(nèi)容平臺(tái)和內(nèi)容分發(fā)服務(wù)4大部分:
Dumix AR SDK:支持本地識(shí)別跟蹤、語(yǔ)音交互、SLAM等20多項(xiàng)功能,幫助移動(dòng)APP集成AR。
內(nèi)容制作工具:開(kāi)發(fā)者可以使用素材模版庫(kù)和制作工具開(kāi)發(fā)AR內(nèi)容,也可以使用百度認(rèn)證的內(nèi)容供應(yīng)商體系,快速為開(kāi)發(fā)者提供全面專(zhuān)業(yè)的內(nèi)容制作服務(wù)。
云端內(nèi)容管理平臺(tái):通過(guò)云平臺(tái)方式,提供內(nèi)容管理、更新,渠道管理,數(shù)據(jù)統(tǒng)計(jì)等多種內(nèi)容管理服務(wù);
內(nèi)容分發(fā)服務(wù):百度還會(huì)在手機(jī)百度APP、搜索/Feed等百度系入口上提供優(yōu)質(zhì)AR體驗(yàn)的分發(fā)服務(wù),通過(guò)Dumix AR制作和接入的AR,將可以觸達(dá)百度的億級(jí)用戶。
圖表26:DuMix AR的能力特點(diǎn)和技術(shù)優(yōu)勢(shì)
未來(lái),DuMix AR開(kāi)放平臺(tái)將通過(guò)打通手機(jī)百度上內(nèi)容分發(fā)渠道,提供更多場(chǎng)景的AR行業(yè)解決方案,賦能各行各業(yè),共同探索AR價(jià)值。
總結(jié):人工智能仍在探索階段,各家技術(shù)方向并不完全趨同,又涉及整個(gè)產(chǎn)業(yè)鏈的融合能力,因此,最終落地形態(tài)和成熟的商業(yè)場(chǎng)景存在較大的不確定性。
聯(lián)系客服