新智元 AI 技術(shù)峰會
【新智元導讀】3月29日,阿里巴巴副總裁、達摩院機器智能技術(shù)實驗室副主任華先勝出席 2018 新智元 AI 產(chǎn)業(yè)躍遷峰會,做了題為《深入行業(yè),智創(chuàng)未來》的演講。華先勝分享了視覺智能技術(shù)在阿里巴巴的應(yīng)用實例,對智能設(shè)計、拍照搜索、視覺診斷和城市大腦四個領(lǐng)域做重點介紹。本文帶來精彩演講實錄。
華先勝:非常高興有機會來到這里分享阿里巴巴在人工智能方面的研發(fā)和實踐,前不久我們看到美國總結(jié)了二十項在未來三十年可能會改變世界的技術(shù),我把前十項列在了這里。可以看到多多少少都和人工智能直接或者間接相關(guān),也就是說人工智能會是將來改變世界的重大動力。
人工智能在歷史上有三次黃金時期,前兩次被證明人工智能只是一個夢想,今天我們正在經(jīng)歷的是第三次。這一次還是有些不一樣的地方,比如深度學習技術(shù)的提出、超強計算能力的獲取、大量的數(shù)據(jù)以及不少成功的案例,包括搜索引擎、AlphaGo、安防領(lǐng)域、電商當中的推薦等等。這些領(lǐng)域已經(jīng)取得了很多的成功,人工智能正在滲透到各行各業(yè),可是要在行業(yè)當中取得成功其中一個很關(guān)鍵的要素就是要在商業(yè)上取得成功。今天的人工智能可以說是風光無限,常言道“無限風光在險峰,卻是容易翻車處”,怎樣保證在看上去很風光的這樣一條道路上真正獲得成功而不至于翻車呢?我覺得很重要的一個因素就是要在商業(yè)上獲得成功,商業(yè)上的成功說白了就是要有人為它買單,但這個單應(yīng)該由客戶來買,而不應(yīng)該由VC來買。
怎樣才能獲得商業(yè)上的成功呢?刷榜、融資、PR、估值還是為客戶帶來真正的價值?我想答案應(yīng)該是顯而易見的。怎樣才能為客戶帶來價值?什么樣的價值才是真正的價值?解決一個錦上添花的問題還是解決一個雪中送炭的問題?解決一個個人的問題還是解決大量的問題?作為創(chuàng)業(yè)公司和作為大公司,這個方面的看法和選擇的道路可能也會不太一樣。想在商業(yè)上取得成功的話絕對不能是曇花一現(xiàn),要有一定的壁壘才能在一定的時間內(nèi)都能獲得成功,這個壁壘到底是什么?算法、系統(tǒng)、商業(yè)模式還是客戶關(guān)系?今天我想借著剛才IBM總裁講的課題提出我們要深入行業(yè),這個行業(yè)也是可以見到壁壘的。當然,不是指行業(yè)的客戶關(guān)系,而是指深入行業(yè)、理解行業(yè)、為行業(yè)解決實實在在的問題、為用戶帶來實實在在的價值。
今天我想舉的是四個比較典型的例子,智能設(shè)計和視覺診斷是第一次講,拍照搜索和城市大腦之前講得比較多,背后其實還有很多不成功的例子,但今天主要還是講一講成功的部分。
首先是智能設(shè)計。這是人工智能還沒有太多觸及的行業(yè),也有人認為這是有點偏藝術(shù)的行業(yè),人工智能和藝術(shù)還有一點距離,實際上還是有很多很有意思的事情可以去做。設(shè)計行業(yè)的從業(yè)人員大概有4000萬,整個中國市場容量是3000億元。它的難度在于設(shè)計的效率是非常低的,有很多繁瑣的體力勞動,因此我們需要設(shè)計師的支持。今天我會講其中的一個平面設(shè)計的例子,比如電商的網(wǎng)站上經(jīng)??梢钥吹胶芏嗟膹V告圖,我們把它叫做Banner,要有商品的名稱、推廣詞和各種各樣吸引用戶點擊購買的詞語。這樣的Banner過去都是要由人來設(shè)計的,大家可能不知道“雙11”這一天需要多少Banner,大概是7個多億的級別,過去都是需要人工來完成的。這里給大家播放一部短視頻,看一看這樣的設(shè)計是不是可以通過機器來完成。
我們有了這種自動設(shè)計以后,可以實現(xiàn)千人千面、千貨千面,也就是說不同的人看到同一個貨物會看到不同的廣告,合起來就是千人千貨千千面。去年“雙11”的時候是有7億多個的Banner,其中4.1億是通過算法完成的,幾天的時間當中每天產(chǎn)生5000萬個Banner,產(chǎn)生以后就上線使用,沒有任何人工干預,所以也是有很多的技術(shù)難題。
大家可能會覺得很奇怪,我們到底是怎么做出來的?是和設(shè)計師合作嗎?當然,我們一定要和一流的設(shè)計師合作,選擇合作伙伴也是非常重要的,一定要選擇最頂級的設(shè)計師。同時我們提供兩種工作模式:一種是像剛才講的大批量的模式,一下子生成幾千萬。另一種是交互的模式,提供工具讓設(shè)計師的工作變得更為便捷和高效,也讓他們的飯碗變得更好。
另一個例子是拍照搜索,解決的問題就是用不同搜索商品的入口,看到好東西拍照就可以了,不需要輸入文字。這個技術(shù)以前我也講過,通過拍照片分析物品的種類,然后識別它的位置,最后突出它的特征,然后在大量的搜索庫里面進行檢索,最后把結(jié)果呈現(xiàn)給大家。
視覺診斷其實有兩類:一類是醫(yī)療行業(yè)的診斷,我們講的更多的是機器設(shè)備的診斷。這是一個大海撈針的問題,因為需要檢測的樣本是非常多的,可是有毛病的并不是很多,為了保證把有毛病的找出來不得不挨個去看。我們的技術(shù)就是要做到從大海撈針變成桌面找針,這是其中的價值,就是節(jié)省了人力,可能也會提升質(zhì)量、節(jié)省成本、增加安全性。
電池板瑕疵的檢測、蠶絲瑕疵診斷、列車故障診斷,這些也是比較直觀的,但我們要深入理解行業(yè)的問題才能為客戶解決真正的痛點?,F(xiàn)在行業(yè)診斷的現(xiàn)狀有三種模式:首先是全人力,成本的消耗是非常高的。如果有攝像頭,人不需要到實地,但還是要有人在屋子里看,這也是非常繁瑣的活,每天對著枯燥的樣本看的話會漏掉很多東西?;蛘咚鼈冇幸欢ǖ闹悄埽珱]有達到全自動的目標。
這里也有很多類似的問題,有些是視覺可做的,比如鐵路路軌的松動、電池裂紋、芯片溢膠量等等;有些是比較難做的,但還是比較靠譜的,肉眼能夠分辨但有一定困難,比如組件毛發(fā)連接、拉鏈方塊斷裂,還有一些就不太容易了,比如內(nèi)胎壁厚薄檢測、稻殼含水量計算。之前有個生產(chǎn)線上的問題,就是裝肥皂的盒子里面沒裝,怎么檢測出來呢?一堆博士設(shè)計了很復雜的方案,包括X光等等,花了很多的錢,最后有個工人在旁邊放了個電扇,一吹就把它吹下去了。有些問題不見得要用這么復雜的方法解決,所以我們要選擇人工智能可以帶來真正價值的問題。
這是太陽能電池片裂紋的檢測,每年在行業(yè)當中要花千萬級別的人力去做人工檢查,今天機器就可以做到非常高精準,基本上沒有漏的,誤報也是比較低的,誤報率將近3%的情況下節(jié)省的人力目前還沒有達到理想的階段,大概相當于原來1/10到1/20,再進一步下降的話人力就完全實現(xiàn)自動。
列車故障診斷也是一個例子,我們經(jīng)常坐火車,如果不檢查的話是很危險的,其實在列車進站的時候都是會有人檢查的,最早的時候是人要到站臺檢查,后來是拍很多的照片,列車進站的時候拍上萬張照片送到一個屋子里面由人來檢查,大家就知道這個工作有多么枯燥無味了?,F(xiàn)在我們通過算法,人檢上報68%,機檢上報更多,人的漏檢是非常多的,大概是141個,機器可以非常客觀地把故障檢測出來。
現(xiàn)在我們正在各行各業(yè)去試,我們推出一個阿里視覺診斷的引擎,希望能夠在各行各業(yè)把這些技術(shù)總結(jié)起來,支撐更多、更好、更便捷的應(yīng)用場景。
很多人都知道城市大腦這個項目。兩年前我們開始這個項目的時候很多人覺得不太靠譜,現(xiàn)在外面的形勢發(fā)生了很大的變化。解決了什么問題呢?其實解決的就是城市大量數(shù)據(jù)價值挖掘的問題。每天城市有大量的數(shù)據(jù)在積累,尤其是視覺的數(shù)據(jù),今天視覺的數(shù)據(jù)可以用來干什么?可能是交通罰款,可能是事后斷案,這里巨大的潛力遠遠沒有被挖掘出來,今天AI的技術(shù)和計算的能力能不能進一步挖掘這些數(shù)據(jù)的價值?包括帶來城市服務(wù)智能化、數(shù)據(jù)化,實施高效低耗,省人力又便捷的服務(wù),也就是城市治理模式、服務(wù)模式和產(chǎn)業(yè)發(fā)展的突破。
業(yè)界的現(xiàn)狀是怎樣的?雖然城市有很多的監(jiān)控,或者說感知的設(shè)備,但還是有三個問題:首先是盲人摸象,就是單點的信息,大量的物理設(shè)備是損壞的,視頻設(shè)備還遠遠沒有被利用起來。另外就是燈下黑,設(shè)備當中智能的含量是非常少的,即便有智能,它的水準也是值得進一步改進的。在這種情況下,大量的攝像頭需要人去看,但人沒有這么多精力去看,今天我們是不是可以用技術(shù)自動去做全量攝像頭的智能分析?霧里看花,已有的感知手段難以發(fā)現(xiàn)這些現(xiàn)象,比如不安全因素背后的原因。
我們的城市大腦要做的是什么事情呢?目前城市大腦主要有這樣幾個應(yīng)用場景:
數(shù)據(jù)出來以后要對整個城市進行全面、實時、全量的感知,攝像頭看到的所有事情,包括人、車、物、事四個要素,全部都要了如指掌。有了這些以后就可以進行決策和優(yōu)化,比如實時事故的報警、交通信號燈的優(yōu)化。有了這些以后我們還可以把所有的視覺對象放到搜索引擎里面,就像剛才電商的搜索一樣,城市當中的所有目標放到搜索引擎當中,這樣可以很容易地找到肇事車輛和丟失的兒童和老人。
雖然我們沒有預測每一個人的行為,但我們可以預測群體的趨勢,比如預測二十分鐘后交通的流量是怎樣的。有了這些預測,甚至可以進行更長時間的預測,比如對明天的預測,如果預測的情況不太好的話可以提前干預,不要讓不太好的事情發(fā)生,比如事故的概率增加、交通擁堵嚴重等等,進行提前的交通管控和疏導的處理,使得交通不要出那么多的問題。
最早的感知其實叫做無感無知、感而不知和感而略知,今天我們在云上做的城市大腦是要做到感而全面知、感而全量知和感而實時知。因為今天的技術(shù)發(fā)展和算力的提升可以對整個道路的情況進行更詳細、更準確的感知,包括車、人和物,包括各種事件的檢測。
全量實時的感知其實是依賴于系統(tǒng),我們是建立在阿里云的實時計算系統(tǒng),建立大規(guī)模的實時視頻處理系統(tǒng)。這里很重要的就是效力要足夠高,當時我們做了很多的工作,其中的一個功能就是用機器替代交警的行為。
有這么多的球機需要我們?nèi)タ矗贾菀粋€很小的范圍有兩百多個球機進行巡邏,可以代替兩百多個交警的人力。發(fā)生交通事故以后,我們很快就可以判斷哪里出了事情,一輛車停在哪里。全天候全面的交通事件感知,不同的天氣、不同的光照當中非常小的目標都可以進行精準的檢測和事件事故的報警。
如果要對一個地方的事件事故報警進行長期的統(tǒng)計,我們可以看出一些規(guī)律,哪里經(jīng)常有報警就說明有些問題,我們就要進行線下的處理和改善,改善之后報警的情況就會發(fā)生變化。
我們利用城市大腦既有的監(jiān)控設(shè)備發(fā)揮最大的效力,解決了交警的痛點問題,在不增加外場設(shè)備、不改變現(xiàn)有鏈路的情況下,通過視覺云計算、物聯(lián)網(wǎng)技術(shù)迎來了一次新的性能提升。我們也在開始做AI芯片的嘗試,使得成本進一步降低。
我們不僅是為城市解決這些問題,同時還要構(gòu)建一個平臺,使得城市的計算和場景成為人工智能的開放創(chuàng)新平臺。這里黃色的部分其實是留給第三方一起創(chuàng)建城市計算的智能。剛才講的人工智能是在各行各業(yè),我們必須深入這個行業(yè)。
Intelligence Everywhere是不可替代的趨勢,一些復雜的腦力勞動只要是有規(guī)律的,也有可能會被替代,更高大上的可能還有空間,但人工智能會成為他們的助力,從業(yè)人員如果要人工智能真正落到實處,就要深入行業(yè),去創(chuàng)造一個未來。
聯(lián)系客服