正文共:18935字 50圖
預(yù)估閱讀時(shí)間:48 分鐘
本文整理自騰訊云AI和大數(shù)據(jù)中心AI技術(shù)專家-葉聰在極客說上的精彩分享。
葉聰, 現(xiàn)任騰訊云AI產(chǎn)品中心高級研發(fā)工程師,前美國亞馬遜 AWS 人工智能技術(shù)經(jīng)理,負(fù)責(zé)領(lǐng)導(dǎo)開發(fā)了 Amazon Alexa 智能語音助手背后的AI云服務(wù)Lex。在多年的云計(jì)算系統(tǒng)研發(fā)經(jīng)歷中,負(fù)責(zé)了領(lǐng)導(dǎo)了多個(gè)百萬用戶級產(chǎn)品的架構(gòu)設(shè)計(jì)和開發(fā),并且具有豐富的跨國團(tuán)隊(duì)和項(xiàng)目管理經(jīng)驗(yàn)。美國明尼蘇達(dá)大學(xué)電子工程及計(jì)算機(jī)系碩士,其后在斯坦福大學(xué)攻讀研究生證書。
1
朋友圈爆款活動(dòng)背后的秘密
很榮幸受到云加社區(qū)邀請來做這次分享。我們將主要分六個(gè)部分來介紹,首先我想和大家介紹一下最近風(fēng)靡朋友圈的爆款計(jì)算機(jī)視覺小游戲的背后是怎么回事兒。然后會由淺入深一步步從最基礎(chǔ)的計(jì)算機(jī)視覺技術(shù)知識,快速地帶大家去了解一些學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)需要哪些技術(shù)知識。之后會再談?wù)動(dòng)?jì)算機(jī)視覺技術(shù)的歷史和最近興起的深度學(xué)習(xí)方法。同時(shí)會告訴大家在這背后的云端AI能力是如何支撐的,最后會給不同層次的想要學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)的朋友們一些技能進(jìn)階的建議。
今年我們組織了一場五四青年節(jié)的活動(dòng),大家上傳自己的照片,就能匹配到民國時(shí)期的一些人物。這個(gè)應(yīng)用背后就利用到了人臉匹配技術(shù),我們會利用一些算法來匹配到跟你長相最相似的人物。這個(gè)活動(dòng)當(dāng)時(shí)反應(yīng)可以說是非常熱烈的,相信不少人也參與過這個(gè)活動(dòng)。
其實(shí)類似的活動(dòng)還有很多,比如軍裝照等,回到人臉融合等等。這些應(yīng)用都是運(yùn)用了人臉融合的技術(shù)。
2
計(jì)算機(jī)視覺基礎(chǔ)知識
如果我們想要去學(xué)習(xí)一些計(jì)算機(jī)視覺技術(shù)的話,我們要先從歷史上了解計(jì)算機(jī)視覺技術(shù)是如何從幕后走到臺前來的。首先計(jì)算機(jī)視覺定義是怎么樣的?其實(shí)從很多的書上不同的材料上都會對這些區(qū)別有不同的定義。
我比較喜歡的定義是從工程學(xué)的角度來講,計(jì)算機(jī)視覺是使機(jī)器模仿人的視覺的能力和任務(wù)變成自動(dòng)化。我們?nèi)丝梢酝ㄟ^我們的視覺去理解信息?,F(xiàn)在的計(jì)算機(jī)視覺機(jī)器學(xué)習(xí)算法,可以把這個(gè)流程變成一個(gè)自動(dòng)的形式。
計(jì)算機(jī)視覺其實(shí)呢包含很多的分支,包括比如物體識別、語義分割、運(yùn)動(dòng)追蹤、三維重建、視覺問答(VQA)、還有動(dòng)作識別等等。
隨著計(jì)算機(jī)視覺算法模型的日漸強(qiáng)大,它的使用面越來越廣,幾乎在所有我們?nèi)搜劭梢宰R別的領(lǐng)域,計(jì)算機(jī)視覺將會逐步的一個(gè)一個(gè)的去替換掉。所以從總體來說這個(gè)場景是非常廣闊的,潛力是非常巨大的。
底下有幾張照片,左下角那張呢是非常經(jīng)典的應(yīng)用叫人臉識別(Facial Recognition),中間的是現(xiàn)在非?;馃岬臒o人駕駛,右邊的就是是情景分割(Semantic Segmentation)。情景分割這個(gè)詞其實(shí)是有一些不同的含義的,在LP領(lǐng)域也有情景分割這個(gè)說法,不過他是對一句話中的不同的詞或詞性,甚至是一些語義進(jìn)行一些分割。
而計(jì)算機(jī)視覺領(lǐng)域的語義分割稍微有些不同,它是對一個(gè)圖像里的元素進(jìn)行像素層面的細(xì)致的區(qū)分。上面右邊這張圖我們可以看到比如植物是綠色的,道路是灰色的,人是紅色的,然后汽車是藍(lán)色的,這些都是一些非常細(xì)致的Pixel Level。
非常有意思件事是我們?nèi)祟惾チ私庖粋€(gè)東西的顏色,我們是可以通過我們的眼睛的視網(wǎng)膜成像的,但是機(jī)器它是怎么去讀這個(gè)圖像的呢?這就要提出一個(gè)叫做RGB的概念。
什么是RGB?RGB就是Red,Green and Blue紅綠藍(lán)三種顏色。理論上自然界的所有的色彩都可以用這三種顏色來進(jìn)行描述,計(jì)算機(jī)會把每種顏色給予一個(gè)八位的一個(gè)二進(jìn)制去表示,也就是25種不同的數(shù)字去描述一個(gè)像素點(diǎn)。
這就非常有意思了,3*8位是24位,那但是現(xiàn)在我們大家所說的這個(gè)真彩色是32位,那這里的八位是什么?其實(shí)它是一個(gè)叫Alpha channel。它是一個(gè)代表一個(gè)圖像,某個(gè)像素是不是透明的,它是一個(gè)透明值,所以就是3×8+8,最后就是32位。 24位的顏色我們以前叫做全彩色,而32位是真彩色,現(xiàn)在大家只要用RGB去表示圖像,那基本上我們說32位的話都是帶著個(gè)八位的Alpha Channel的。
我們可以看到PPT上面右邊有三張圖。最上面那張就是黑白的灰度圖,中間一張呢就是我們剛才說的全彩圖,而下面一張就是真彩圖,這張圖加了八位的透明Channel在里面。
計(jì)算機(jī)視覺的素材還是非常多的,不僅僅是剛才看到那些大家用手機(jī)單反相機(jī)拍攝出來的照片,我們還有很多在大氣天文醫(yī)療領(lǐng)域的。比如左邊是航拍熱成像圖,中間有我們的胸的這種ct圖X光圖,然后還有右下角的是一些超倍顯微鏡看到的一些非常小的細(xì)微的人眼無法看到的圖,這些都是計(jì)算機(jī)視覺可以去學(xué)習(xí)去應(yīng)用的素材。接下來聊一下計(jì)算機(jī)視覺的處理的分級。
(計(jì)算機(jī)視覺處理分級)
這個(gè)分級其實(shí)是為了幫助我們更好的去理解計(jì)算機(jī)視覺所要解決的一個(gè)任務(wù),它分為Low Level, Mid Level和High Level.聽名字好像他們分別對應(yīng)的就是低中高三個(gè)級別,但其實(shí)Low Level意思是我們離這個(gè)問題的細(xì)節(jié)比較近,而High Level比較遠(yuǎn),比如像Low Level中間有降噪這一項(xiàng)。大家可以試想一個(gè)場景,我們離這個(gè)照片的每個(gè)細(xì)節(jié)非常近的情況下,我們才可以處理這些噪點(diǎn),反過來講High Level的話就比較高,比如像Scene Understanding就是對這個(gè)情景的理解,這種情況是需要我們要對整個(gè)圖有個(gè)宏觀理解才能進(jìn)行處理。
我們先來看看Low Level Processing中的一些常見例子,它包括降噪,強(qiáng)化,壓縮和標(biāo)記,可以說它的使用范圍已經(jīng)非常廣泛了。比如左邊一張是我們拍的胸部的X光圖。如果我們?nèi)メt(yī)院拍張片子,基本上就是我們看到的是下面一張圖,而不是上面那張。但上面那張其實(shí)是原片,計(jì)算機(jī)視覺的Low Level Processing可以利用各種算法對這個(gè)圖片的景深進(jìn)行加強(qiáng),在一些暗部進(jìn)行強(qiáng)化,在一些亮部進(jìn)行減弱,從而使這張圖片變得很清晰。我們由一張比較混沌的圖片中間經(jīng)過優(yōu)化,可以看到他非常清晰的骨骼血管這些脈絡(luò),這就是圖像處理的厲害的地方。
右邊是一個(gè)pcb板的圖,這是一個(gè)工業(yè)界的應(yīng)用,原片上面充滿了噪點(diǎn)。很多素質(zhì)并不高的照相機(jī)拍出來的效果基本上就是這樣,經(jīng)過降噪的處理之后,它就可以變成非常清晰的pcb的圖。我們可以清晰地看到每一條電路,每一個(gè)模塊。
底下一張是航拍圖,由于云和霧霾等各種因素,這種航拍圖是非常模糊的,那經(jīng)過將近十節(jié)的enhancement的強(qiáng)化之后,我們可以加強(qiáng)景深對比路,能夠很清晰地看到圖上對象的實(shí)體,包括建筑和機(jī)場。右邊是registration,它等于把兩張不同角度的圖給對應(yīng)上進(jìn)行匹配,這也是一個(gè)很常見的應(yīng)用。
Mid Level Processing包括Classification、Segmentation這些。我很喜歡左下角這張圖,這張圖是來源于斯坦福大學(xué)李飛飛教授的一門計(jì)算機(jī)視覺的入門課程,最左下角的這張圖計(jì)算機(jī)識別處理叫分類(Classification),它僅僅從圖片上識別出來這里有一只貓,并不知道這個(gè)貓的位置或者這只是什么貓,這是一個(gè)分類的問題,是屬于Classification。
進(jìn)一步的第二張圖有個(gè)紅色的框框,這個(gè)就是已經(jīng)對圖上的貓進(jìn)行了一個(gè)定位,是Classification加上Localization,就是對圖上的對象的定位。再進(jìn)一步的話,我們從圖上不僅看到了有貓,還有狗,還有小鴨子。整張圖所有的對象都被識別出來了,這是一個(gè)典型的Object Detection場景,也就是對象檢測。我們把圖片上所有的對象很清晰地識別了出來。再進(jìn)一步的話叫對象檢測Instance Segmentation,這個(gè)意思就是我們不單知道圖像上有哪些對象,我們還把它進(jìn)行了一些劃分。 劃分的意思就是把一張圖上的不同的元素可以區(qū)分出來并標(biāo)注。
右邊是我剛才我們之前復(fù)用的一張情景識別的圖,它包括了行人,還有各種車輛。情景識別其實(shí)是左邊所有的這個(gè)應(yīng)用的一個(gè)更高層次的進(jìn)化。從左到右可以看出,我們從只知道這個(gè)圖上有什么發(fā)展到了我們能知道這個(gè)圖上有所有的東西,包括在什么位置都可以知道,這就是我們在Mid Level Processing中是怎么一步一步的把一個(gè)圖的所有信息給挖掘出來。
接下來我們會聊一下High Level Processing,這也是目前最火熱的一個(gè)部分,包括左邊的人臉識別。人臉識別其實(shí)就是根據(jù)我們?nèi)四樀囊恍┠P停瑥哪樕蠈ふ业胶芏嗟奶卣鼽c(diǎn),即關(guān)鍵點(diǎn),包括呢眉毛,眼睛的邊框,然后對它進(jìn)行匹配建模。
人臉底下是非常經(jīng)典的人無人駕駛的圖,這方面有非常多不同的實(shí)現(xiàn)方式,總體來說包括用激光雷達(dá)和無激光雷達(dá)兩種,無人駕駛也是未來的一個(gè)趨勢?,F(xiàn)在全世界范圍內(nèi)做無人駕駛的公司非常多,國外比較出名的包括特斯拉,這是一家非常執(zhí)著于不使用激光雷達(dá),只是用計(jì)算機(jī)視覺方式去解決無人駕駛問題的公司。其他用雷達(dá)公司就非常多,比如通用汽車福特,包括歐洲的一些公司,國內(nèi)的話也有很多。
中間這張呢是Scene Understanding,它其實(shí)就是對畫面里的所有的元素和它們之間的關(guān)系以及他的行為進(jìn)行全面識別。,和之前識別小貓小狗的區(qū)別在于,這張圖片上面呢我們不僅識別到了有兩個(gè)孩子,我們還識別到了他們手上拿的是什么,以及他在什么地方,甚至還有他們要做什么這一系列信息,,并把這些信息形成了一個(gè)對象樹,上面不同的顏色代表不同的詞性,比如誰在什么地方做什么,這些東西我們都從這個(gè)圖上獲得了。
這就是High Level Processing我們希望得到的一個(gè)結(jié)果。它不是簡單的對一個(gè)圖片或是單純的對象的一個(gè)匹配和識別,而是對整張圖片有一個(gè)全面的了解。
最右邊一張是醫(yī)學(xué)上心臟血管的這個(gè)造影圖,這好像是英國某大學(xué)和英國皇家醫(yī)學(xué)會合作做的一個(gè)項(xiàng)目。利用計(jì)算機(jī)識別的成像,可以在手術(shù)前讓醫(yī)生對患者的整個(gè)心血管有非常清晰的了解。因?yàn)樗梢灾烂總€(gè)血管的血寬,在哪里可能有風(fēng)險(xiǎn),利用這個(gè)技術(shù)的話,醫(yī)生在做手術(shù)就可以大大的降低手術(shù)失敗的風(fēng)險(xiǎn),也可以大大的降低后續(xù)并發(fā)癥的影響。這些都是High Level Processing的一些應(yīng)用。
其他常見的計(jì)算機(jī)視覺的例子有人臉識別,OCR文本的識別,圖上展示的是一個(gè)比較老的技術(shù),它是用一個(gè)激光筆,可能比較老的一些公司會使用這種方式。用激光筆去掃描文字,然后把掃描的文字轉(zhuǎn)換成文本?,F(xiàn)在基本上已經(jīng)不需要這種方法了,因?yàn)镺CR技術(shù)已經(jīng)非常成熟,只要大家清晰的拍一張照片,不管是中文還是英文,它都可以轉(zhuǎn)換成一段非常清晰的文字,并沒有任何什么問題,而速度會非???。
右邊的車牌識別,就是大家如果吃罰單但沒看到交警,很多時(shí)候是由于這個(gè)技術(shù)。
接下來聊一個(gè)比較有趣的話題——目標(biāo)跟蹤。我對它評價(jià)是Full of potentials, but chanllenged.這個(gè)技術(shù)本身我覺得是非常有前景的,但是非常難。因?yàn)橹虚g過程會有很多的因素影響最后的效果,所以目前來說這是一個(gè)很多人都在研究的熱點(diǎn),并且目前還沒有。
首先我們上面看到這是一場NBA球賽的視頻的截圖,假如我們想追蹤其中某一個(gè)球員的話,它會出現(xiàn)什么問題呢?首先它是在不斷的移動(dòng)的,對于攝像頭而言它的位置是不斷在變化的,所以會出現(xiàn)各種不同的形變,運(yùn)動(dòng)員的姿勢也是在變的。
右邊這張圖也是由于各種燈光角度的照射強(qiáng)弱的問題,運(yùn)動(dòng)員在視頻的截圖上的看起來的樣子是不一樣的,它的光感也是不一樣的,這也是一個(gè)匹配的難點(diǎn)。然后底下幾張圖顯示圖上可能會出現(xiàn)什么問題,比如人在快速移動(dòng)的時(shí)候,視頻中間會出現(xiàn)模糊,這是一個(gè)非常常見的現(xiàn)象,然后由于背景色可能跟前景色太過接近,背景可能會影響到前景色產(chǎn)生干擾,這也是非常常見的,那這幾種情況呢都會影響目標(biāo)跟蹤的效果。
右邊則是一些其他的例子,比如不同的角度,人的頭可以旋轉(zhuǎn),可以遮擋,甚至在有些時(shí)候它會出在畫面之外,這些情況都可以讓一個(gè)目標(biāo)跟蹤算法的失敗。如果大家對這個(gè)領(lǐng)域很有興趣的話,可以考慮一下在這個(gè)領(lǐng)域做一些研究,因?yàn)槟壳皝碚f并沒有某一種算法可以很好很完美地解決這些問題,也說明這個(gè)方向的研究的潛力還是比較大的。
其實(shí)不僅是一個(gè)問題,我把這類問題統(tǒng)稱為多模態(tài)問題——Multi-modal Problem.意思就是在解決問題的時(shí)候,我們需要不止一種機(jī)器學(xué)習(xí)的能力,還需要結(jié)合多種能力去實(shí)現(xiàn)。比如左邊那個(gè)VQA,就是我們給出一張圖片,任何的人可以去問一個(gè)問題,我們的模型要從圖片中去識別,針對我們問的問題給出一個(gè)合理的答案。
比如這個(gè)右上角有兩個(gè)寶寶,一個(gè)坐在冰箱里,一個(gè)在媽媽的懷抱里。 那如果我們問這個(gè)孩子坐在哪?首先第一步要有一個(gè)情景識別的一個(gè)引擎去理解這個(gè)圖片,知道這圖片里面有什么,比如有孩子,他在干什么,他坐在什么上,坐在冰箱里或者坐在媽媽懷抱里。另外呢還要有一個(gè)模型能去理解我們的這個(gè)問句,這個(gè)問題是什么?問的是在哪里?不是問是誰也不是問怎么樣。而且對象是這個(gè)孩子,需要知道他在哪里坐著。這個(gè)例子等于需要兩個(gè)模型來解決我們的問題,一個(gè)理解圖,一個(gè)理解文字,還需要去匹配他們,它是一系列的不同的模型結(jié)合在一起,一個(gè)這個(gè)圖像的識別的引擎,加上一個(gè)NLPU識別的引擎,還有一個(gè)匹配引擎,一起去協(xié)作才能解決這個(gè)問題。這就是很典型的一個(gè)多模態(tài)問題。
右邊是Caption Generation的示例。 Caption Generation.就是根據(jù)圖像自動(dòng)生成一段描述該圖像的文本語言。上面的這兩張圖片左邊是一個(gè)女士在一個(gè)沙灘邊散步,根據(jù)我們不同的情況,, 輸入了不同的訓(xùn)練文本,我們就可以生成一些話去描述這個(gè)情景,右邊是在公園也是一樣的,后面我可以詳細(xì)再聊一下機(jī)器是如何實(shí)現(xiàn)。
如果要想了解到機(jī)器學(xué)習(xí)每一步的發(fā)展,首先我們就要聊一聊一些為我們實(shí)現(xiàn)這個(gè)目的一些算法,也就是機(jī)器學(xué)習(xí)的圖像應(yīng)用的傳統(tǒng)方法。
3
曾經(jīng)的圖像處理- 傳統(tǒng)方法
首先我們要去做圖像處理的時(shí)候,機(jī)器去理解圖像的時(shí)候無法像人類一樣去讀取信息,我們必須要把它轉(zhuǎn)化成機(jī)器能理解的這些數(shù)據(jù),那應(yīng)該怎么做呢?
首先我們就需要用一些濾波器從這圖片中提取信息,把模擬的信號轉(zhuǎn)換成數(shù)字信號。這些濾波器并不僅僅是使用在圖像處理這個(gè)領(lǐng)域,包括信號處理,還有一些其他語音處理中間都會使用。常見的濾波器有幾種,比如空間,傅里葉,還有小波濾波器等等,這幾種是比較常見的。
那如果我們想要去對圖像進(jìn)一步的利用,我們還需要什么呢?首先我們要能夠理解到這個(gè)圖片中間它到底是怎么回事,達(dá)到這個(gè)目的的方式,就是我們要從這個(gè)圖片中抓取一些特征,我們首先要設(shè)計(jì)這個(gè)特征。設(shè)計(jì)特征的方法有很多種,包括比如像SIFT,對稱特性還有HOG。
拿到所有圖片的特征以后,我們會做進(jìn)一步的處理,使用的傳統(tǒng)方法包括,比如SVM,AdaBoost,Bayesian等等。這些算法本身也不是圖像識別領(lǐng)域而獨(dú)有的,也是在長時(shí)間的過程中間,我們在不同的領(lǐng)域,包括語音LP我們都會去使用這種類似的方法。
大家會發(fā)現(xiàn)最終我們解決問題是可以歸納成一些比較統(tǒng)一的問題的,再進(jìn)一步的話我們需要做這個(gè)圖像對象的劃分,還有識別的時(shí)候,還有一些很經(jīng)典的一些算法。
這是一個(gè)非常好用也非常簡單的一個(gè)提取圖像特征的方法,叫做Edge Detection邊緣檢測,比如說左邊這張圖片是一個(gè)很多硬幣的照片,我們可以其中提取到整個(gè)硬幣的邊緣,還有它其中花紋的邊緣,這樣我們就把這個(gè)圖片的最重要的信息提取出來了。
這個(gè)叫Haar特征,Haar特征適用的場景會跟精確一些,整張圖片在不同的地方會有不同的灰度變化,Haar特征其實(shí)就是描述反應(yīng)灰度變化的。
它一般會分為幾種描述的特征,包括邊緣特征,線性特征,還有中心和對角的特征,這種特征會用黑和白來表示。一般定義的這種模板特征,白色減去黑色就是它的特征值相似和。整個(gè)Haar特征其實(shí)是反映這個(gè)圖片的灰度變化的。
可能有人就會問了,說那很多時(shí)候圖像的灰度變化并不完全是水平和垂直,所以Haar特征其實(shí)有一個(gè)進(jìn)化的算法就是Haar like呢就是加入了45度角這個(gè)特性。
不管如何,它是有限度的方向,所以這就引出來后面幾種算法,在Haar特征的解決不了問題或者效果不好的情況下,這些算法可以發(fā)揮效果。
比如像這種叫Local Symmetric局部對稱性算法。局部對稱性算法可以解決很多Haar特征提取效果不好的情況。它是根據(jù)我們一個(gè)對象的重心點(diǎn)的位置,越靠近重心點(diǎn)的越亮,越靠近邊緣的話越暗,用一個(gè)重心的這個(gè)特征去代表這個(gè)對象。很多圖片實(shí)際上是有一定的對稱性的,比如像我們拍照的人,拍攝的一些房子,在物理上它都是有對稱的特性的。所以利用這種局部特征對稱性,就很容易提取這些照片中的一些有效信息。
下面聊聊到一個(gè)非常經(jīng)典的算法叫尺度不變性,這里可能就要牽扯到一個(gè)尺度的概念。
什么是尺度?尺度空間其實(shí)是描述我們?nèi)藦倪h(yuǎn)到近看待事物的一個(gè)過程。比如我們看一片樹林,我們只能看到樹的輪廓,我們看不到每片葉子。但如果我們慢慢的靠近這個(gè)樹,我們就能看到每個(gè)葉片,甚至能看到兩片葉片的區(qū)別,看到葉片上的紋路是什么樣的。其實(shí)這整個(gè)的變化就是一個(gè)尺度的一個(gè)變化。
尺度不變特性的使用方式是,我們會在這個(gè)圖片上面去提取一些關(guān)鍵的尺度的點(diǎn),在變化的時(shí)候,我們就嘗試用這些不變的點(diǎn)去做匹配,在每個(gè)方向向量上去獲得一些參數(shù)。然后利用這樣的情況我們就可以去識別一些角度或是旋轉(zhuǎn)之后都不太一樣的照片。即使這個(gè)圖片可能會有一些遮擋,只要它的尺度性的那個(gè)點(diǎn)沒有被遮蔽,我們一樣是可以去得獲得識別的這種效果的。
還有一種跟灰度有關(guān)的方法叫HOG方向梯度直方圖,它也是利用灰度的原理,把整個(gè)圖形分成很多塊,描述里面灰度變化最小的或者最大的。一般選用最小的方向。好處是它計(jì)算起來的成本比較靠譜的,比如這張圖上,人穿黑色的衣服,所以在黑色衣服上它的灰度變化最小一定是垂直的。到了旁邊白色背景可能就是水平的。利用它這個(gè)HOG的梯度圖的方向,很容易把這個(gè)人從背景中間區(qū)分出來。
這個(gè)和剛才我們聊到的海爾特征區(qū)別在于,它其實(shí)對整個(gè)圖像進(jìn)行了一個(gè)全面的一個(gè)掃描。我們對圖像進(jìn)行掃描以后,就可以清楚地得到一個(gè)圖像的灰度變化曲線。比如像這個(gè)圖上的人,一般情況下同樣一個(gè)類別的對象,他身上的灰度相對來說比較統(tǒng)一的。我們就把灰度變化最小的方向作為這個(gè)梯度的方向。這樣的話這個(gè)圖上的不同區(qū)間就會得到很好的劃分。比如像人那他從他的臂膀到他的腿,整個(gè)的話都是一個(gè)灰度,基本上是不變的,在人身上的梯度的方向就是垂直的。
背景由于打光的各種的原因,它的方向一般是比較分散的,在各個(gè)方向都有。這樣的話呢我們根據(jù)它梯度的變化方向,我們就可以把這個(gè)人從背景中很完美的摳出來,也就能識別到這個(gè)人。所以其實(shí)對象檢測整個(gè)過程呢就是第一是要設(shè)計(jì)這個(gè)特征,第二呢就是做分類。把兩個(gè)結(jié)合起來,我們就能實(shí)現(xiàn)對象檢測的這個(gè)目的。
在對象檢測之下,我們可能想要做分割,或者是其他的一些更高級一點(diǎn)的應(yīng)用,那我們應(yīng)該怎么辦呢?
有一些比較經(jīng)典算法,比如像分水嶺算法,它其實(shí)也是基于一個(gè)灰度的變換的。我們會對整個(gè)圖像進(jìn)灰進(jìn)行度掃描以后,可以把灰度深的地方想象成一個(gè)比較深的水溝,灰度淺的地方變成一個(gè)比較淺的水溝。在相鄰的兩個(gè)區(qū)域之間灰度聯(lián)通的地方,我們可以去建一個(gè)水壩把他們給隔開。大家可以想象一幅圖轉(zhuǎn)換成了好多不同盆地的曲線圖,然后我們慢慢往里面灌水。
應(yīng)該說所有區(qū)域都是分開的,雖然我們灌水的程度慢慢變多,總會有兩個(gè)相鄰的區(qū)域相對來說要變連通,那這種情況我們需要在其中建一個(gè)大壩,然后把這個(gè)本來要連起來的區(qū)域我們?nèi)藶楦糸_,然后我們繼續(xù)往里灌水,就會有新的區(qū)域又被聯(lián)通,然后我們再把它隔開。其實(shí)我們在放這個(gè)水壩隔開這個(gè)區(qū)域的時(shí)候,我們就把這個(gè)圖片上的一個(gè)區(qū)域給分開了,這就是分層與算法也非常巧妙。
還有一個(gè)做對象檢測的算法叫做ASM主觀形狀模型。
它就是把一個(gè)我們想要匹配對象的輪廓全部識別出來以后,進(jìn)行各種的形變。然后嘗試和我們一個(gè)想要去核對的一個(gè)目標(biāo)進(jìn)行匹配。但大家也能很容易想到說,有的時(shí)候我們往往兩個(gè)想要匹配的圖片并不完全是同樣一個(gè)方向的,他可能在側(cè)面或者說他的表現(xiàn)不一定完全一樣,這種情況下面這個(gè)模型就很容易失敗。這也是為什么很多傳統(tǒng)的圖像識別的方法的效果并不是特別好,而到了深度學(xué)習(xí)的興起以后,整個(gè)領(lǐng)域才變得這個(gè)突飛猛進(jìn)起來,因?yàn)樗褂脠鼍笆怯芯窒扌缘摹?/span>
下面我們聊一下關(guān)于深度學(xué)習(xí)的圖像處理,什么是深度學(xué)習(xí)?
下面我們聊一下關(guān)于深度學(xué)習(xí)的圖像處理,什么是深度學(xué)習(xí)?
其實(shí)所謂深度學(xué)習(xí)就是深度神經(jīng)網(wǎng)絡(luò),我們首先了解一下神經(jīng)網(wǎng)絡(luò)到底是怎么回事。
神經(jīng)網(wǎng)絡(luò)本身并不是一個(gè)全新的技術(shù),它大概在三四十年前就存在了。我們?nèi)四X是是由一個(gè)神經(jīng)網(wǎng)絡(luò)來形成的,我們的各種神經(jīng)元激凸通過之間的互相的傳導(dǎo)信息,讓我們?nèi)丝梢匀ダ斫膺@個(gè)世界。那大家就在說我們有沒有可能去模擬這個(gè)過程,就有人發(fā)明了這個(gè)神經(jīng)網(wǎng)絡(luò)。
圖上左右邊其實(shí)都是非常簡單的神經(jīng)網(wǎng)絡(luò),左邊是一個(gè)兩層的神經(jīng)網(wǎng),這里大家注意一下,就是一般我們說神經(jīng)網(wǎng)絡(luò)時(shí)候是不算輸入層的,這里一個(gè)是兩層的神經(jīng)網(wǎng)絡(luò),右邊那個(gè)是個(gè)三層的那最開始的一層,我們一般叫Input Layer輸入層,我們可以直接拿到結(jié)果的一般叫做Output Layer,就是輸出層。除了輸入和輸出場的都叫Hidden Layer隱藏層。
那是不是神經(jīng)網(wǎng)絡(luò)就是一個(gè)全新的東西?其實(shí)并不是的。如果大家熟悉邏輯回歸和支撐向量積的話可以試著匹配一下,會發(fā)現(xiàn)其實(shí)邏輯回歸和支撐向量是非常特殊例子上的單層的神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)其實(shí)有的時(shí)候并沒有那么玄幻,它很多時(shí)候也是一步步隨著我們類去了解,去使用機(jī)器理解一些事物的過程中間慢慢的進(jìn)化出來。
剛才我們看到的這個(gè)神經(jīng)網(wǎng)絡(luò)是非常簡單的,那實(shí)際應(yīng)用中間我們?nèi)绻胍プ鲆粋€(gè)人臉匹配,比如像人臉門禁,我們需要的網(wǎng)絡(luò)是更復(fù)雜的,比如像上圖這樣。
它的input layer首先可能就有很多層,因?yàn)闉榱颂崛〔煌膱D片里面的特征,hidden layer整個(gè)的計(jì)算層又分很多層,可能不同的層中間還有不同的目的。有的時(shí)候識別病人特征,有的時(shí)候是去識別一些特殊的特征。整個(gè)output layer也可能分很多層,因?yàn)樗M(jìn)行一些數(shù)據(jù)擬合,然后分類結(jié)果的合成這樣一些東西。
其實(shí)神經(jīng)網(wǎng)絡(luò)并不僅僅有剛才我們就是看到的那些類型,,并不完全是一個(gè)金字塔型的。其實(shí)很多網(wǎng)絡(luò)的形式是有多樣性的。比如像上圖這個(gè)。它就是很多不同神經(jīng)網(wǎng)絡(luò)一個(gè)綜合的圖,包括感知器,應(yīng)該是最原始的神經(jīng)網(wǎng)絡(luò)樣子。其實(shí)我們還會有一些像梯形的神經(jīng)網(wǎng)絡(luò),然后網(wǎng)狀的神經(jīng)網(wǎng)絡(luò),矩形神經(jīng)網(wǎng)絡(luò),這些都有屬于他們自己的名字,他們都能解決一些特定的問題。
傳統(tǒng)機(jī)器學(xué)習(xí)方法是去理解我應(yīng)該用什么樣的一個(gè)模型去解決問題,要什么樣的一個(gè)算法,是用支撐向量機(jī)還是用邏輯,大家想的是這個(gè)問題。
到了深度學(xué)習(xí)時(shí)代科學(xué)家們想的問題是我應(yīng)該要用什么網(wǎng)絡(luò)去解決問題,比如我選擇了一種網(wǎng)絡(luò)中介,我應(yīng)該怎么去細(xì)化這個(gè)網(wǎng)絡(luò)結(jié)構(gòu),每一層應(yīng)該怎么去設(shè)計(jì),我的那個(gè)激活因子應(yīng)該選哪一個(gè),是利用這種方式。其實(shí)思維模式是產(chǎn)生了變換,所以從傳統(tǒng)機(jī)器學(xué)習(xí)的人去轉(zhuǎn)換成一個(gè)學(xué)深度學(xué)習(xí),有的時(shí)候他能夠重新利用的信息知識并沒有很多,所以深度學(xué)習(xí)往往是一個(gè)新的開始。
深度學(xué)習(xí)去做圖像類的應(yīng)用。它常用的一個(gè)網(wǎng)絡(luò)叫做卷積神經(jīng)網(wǎng)絡(luò)。那為什么叫卷積神經(jīng)網(wǎng)絡(luò)?為什么要使用卷積?
大家如果有一定數(shù)學(xué)基礎(chǔ)的話,可能會了解。我們使用卷機(jī)去對一個(gè)圖片進(jìn)行處理,其實(shí)是想要對這個(gè)圖片中的信息得到一個(gè)全方位的一個(gè)了解。就比如我想要去識別圖片上的一條狗,那他有可能在這個(gè)圖片的任何一個(gè)位置以任何一個(gè)大小任何一個(gè)角度來呈現(xiàn)。所以我想盡量多的去圖片上抓到可能的信息,那我就會采用卷積這種方式。
一般一個(gè)經(jīng)典的這個(gè)卷積神經(jīng)網(wǎng)絡(luò)圖是什么樣的?就是上圖這樣的。
首先會有卷積層,整個(gè)圖片的所有的信息獲取是來源于這個(gè)卷積層的(Convolution layer)。第二步我們會在學(xué)習(xí)過程中間要盡量的去減少數(shù)據(jù)量,因?yàn)槿绻覀儼褕D片整個(gè)Convolution layer出來的數(shù)據(jù)從頭帶到尾,不去做任何的降維的話,這個(gè)數(shù)據(jù)量是海量的,可能我們的機(jī)器根本就無法承載。而往往這個(gè)其中的很多信息在后續(xù)的學(xué)習(xí)中并沒有這么重要。那怎么辦?
我們就會采用一個(gè)叫池化層(Pooling Layer),在這過程中對我們一些矩陣進(jìn)行采樣,只使用其中的一些關(guān)鍵信息,或者把一些并不關(guān)鍵的信息給合并成一個(gè)比較關(guān)鍵的信息,把它作為特征值再進(jìn)行下一步傳遞。這樣的話呢就大大降低了我們整體的運(yùn)算量,也讓神經(jīng)網(wǎng)絡(luò)變得比較可行。
最后為了輸出結(jié)果,我們一般還會有一個(gè)叫全連接層(Full Connection Layer)。全連接層就是把之前所有層的信息進(jìn)行全部的連接,然后產(chǎn)生一個(gè)結(jié)果。有點(diǎn)相當(dāng)于我們在做邏輯回歸時(shí)的那個(gè)softmax。它其實(shí)是一個(gè)歷史遺留產(chǎn)物,是從經(jīng)典機(jī)器學(xué)習(xí)中間牽引過來的。所以現(xiàn)在也有很多人在挑戰(zhàn)這一點(diǎn),說我們?yōu)槭裁葱枰粋€(gè)全連接層。往往在一個(gè)網(wǎng)絡(luò)中間,全連接層可能會占整個(gè)網(wǎng)絡(luò)中間80%的神經(jīng)元的量。 它一大部分網(wǎng)絡(luò)是在生成一個(gè)結(jié)果。很多人就會在這說我們?yōu)槭裁匆@么做?我們能不能不要這個(gè)權(quán)力階層,這樣可以把這個(gè)網(wǎng)絡(luò)變得簡單很多。就會有人開始把全連接層的工作慢慢的分散在不同的層,分別去做。不是一次性的把所有層進(jìn)行連接,而在過程中間逐層的去做連接,去降維,去產(chǎn)生一定的中間結(jié)果。這也是現(xiàn)在很流行的一個(gè)趨勢。上圖是一個(gè)很經(jīng)典的一個(gè)CNN的圖,但已經(jīng)不是我們現(xiàn)在使用的圖的樣子。
在CNN之后非常聰明的科學(xué)家們就發(fā)現(xiàn)了很多可以更加優(yōu)化的點(diǎn),所以CNN其實(shí)只是整個(gè)深度學(xué)習(xí)做圖像識別的一個(gè)起點(diǎn),終點(diǎn)是應(yīng)該遠(yuǎn)遠(yuǎn)還沒有到。
CNN之后,大家想到了就是R-CNN,加入了Region Proposal Network(RPN)。大家可以這么理解,如果單純的用神經(jīng)網(wǎng)絡(luò)去識別圖片上的一些信息的話,它的起點(diǎn)其實(shí)是非常寬泛的,是以整個(gè)圖片作為單位的。如果我們能加一個(gè)局部的一個(gè)層,我們就可以把一些根本不需要目標(biāo)的區(qū)域給排除掉,可以提前縮小這個(gè)范圍。 只讓這個(gè)模型在這個(gè)我們確定一定會有something happen的地方去進(jìn)行掃描,這樣的話再做后續(xù)的處理,就大大的降低了整個(gè)神經(jīng)網(wǎng)絡(luò)的運(yùn)算量,也讓速度變得很快。
RCNN之后也出現(xiàn)了很多其他的網(wǎng)絡(luò),包括SPPNET,還有剛剛圖上的Faster-RCNN。這些都是我們在一步步地優(yōu)化網(wǎng)絡(luò),不斷的往里面加一些東西。主要是為了兩個(gè)目的,一個(gè)是降低網(wǎng)絡(luò)的復(fù)雜度,提高運(yùn)算速度,第二就是提升結(jié)果,提高這個(gè)模型算法的適應(yīng)性。其實(shí)從CNN到Faster-RCNN都是同樣一種解決問題的思維方式,叫Detection對象識別的方式。Faster-RCNN出現(xiàn)以后,有一個(gè)非常天才的人想到,也是他發(fā)明的CNN和Faster-RCNN的科學(xué)家。他就想到我們是不是一定要用對象識別的方式去解決這個(gè)問題,我們有沒有可能回歸到最初用分類的方式Classification去解決問題,比如對象檢測這種問題。
最后呢他就想到了一種新的算法叫YOLO。這就有趣了,我們當(dāng)時(shí)把這些問題分類,把分割分類,對象識別問題都拆分開,是希望可以讓算法更好的為我們服務(wù),讓某一類型的算法模型解決一個(gè)類型的問題達(dá)到更好的效果。但隨著技術(shù)的發(fā)展,硬件資源的提升,我們可能發(fā)現(xiàn)之前走不通的路變成了可能。也許大自然的規(guī)律就是如此,一切都是循環(huán)往復(fù)。
接下來談一下在有了一個(gè)模型算法以后,應(yīng)該如何做應(yīng)用。
講幾個(gè)騰訊云這邊支持過的AI應(yīng)用的例子。首先是五四青年的活動(dòng),它是圖像匹配應(yīng)用的一個(gè)活動(dòng)例子。那這個(gè)整個(gè)的流程大概是怎么進(jìn)行的?首先我們會有一些標(biāo)簽好的數(shù)據(jù),就是一些民國的人物圖,包括他們的一些名稱。然后我們會把這些東西送我們的模型去訓(xùn)練,機(jī)器會對圖片本身進(jìn)行一個(gè)相當(dāng)于數(shù)據(jù)項(xiàng)量化的一個(gè)提取,把圖片轉(zhuǎn)換成數(shù)據(jù)向量,再用我們剛才的一些特征提取的方式把其中的特征提取出來。然后和標(biāo)簽匹配在一起以后,就會用我們的算法訓(xùn)練產(chǎn)生一個(gè)模型。用戶在用的時(shí)候,比如小程序,可以上傳我們的照片,我們的模型就會從我們的照片里面提取特征值,然后和本來預(yù)存的這些已經(jīng)訓(xùn)練好的數(shù)據(jù)進(jìn)行各種匹配。最后返回的結(jié)果一般是這種詞典形式的,會有一個(gè)分類的ID加上一個(gè)置信度分?jǐn)?shù)。
這個(gè)分?jǐn)?shù)我們一般稱之為置信度,但它其實(shí)并不是直接能代表它的準(zhǔn)確度。假設(shè)我們返回來的數(shù)據(jù)是0.8,它是一類。然后0.7是二類這樣。并不是說它們加起來總和是一,有80%可能性它是第一類的。這個(gè)只是代表我們對他比較確信,所以一般我們會返回確信度最高的那個(gè)分類作為它的主分類,然后前端上面就會去搜索這個(gè)分類上的照片,把它顯示給大家,這就是整個(gè)這個(gè)應(yīng)用的流程。
第二個(gè)應(yīng)用也比較流行:人臉融合的一個(gè)應(yīng)用。類似軍裝照這類,但它使用的方式和思維模式是截然不同的。
首先我們會有一個(gè)模板圖,還會有大家上傳的照片圖。前一半是處理我們用戶上傳的照片,后一半做我們兩個(gè)照片的融合。大家上傳完照片以后,我們的模型會對人臉的關(guān)鍵點(diǎn)進(jìn)行一個(gè)定位,但往往大家上傳的照片的這個(gè)角度或者圖片并不是正中的,有可能左30度角右30度角。這種情況我們會對圖片進(jìn)行一定程度的旋轉(zhuǎn),讓它達(dá)到居中。下一步我們會把人臉非常完整的摳出來,再和我們的模板圖進(jìn)行一個(gè)匹配。而這個(gè)匹配只是初步的匹配,它只是看起來好像是兩個(gè)東西合成一個(gè)了,但實(shí)際上圖片的邊緣,包括色差光影都并不完美。
很多的工作其實(shí)是在最后一步——圖片校正。在這個(gè)領(lǐng)域要把兩個(gè)圖片要調(diào)成同樣色調(diào),光線也要重新調(diào)整,其他的一些細(xì)節(jié)我們都會去做一些調(diào)整。
經(jīng)過這一系列完整的過程,我們就可以擁有一個(gè)非常完美的人臉融合的照片。
另外一個(gè)應(yīng)用是我之前提到的一些照片,比如給出一個(gè)圖片,最后摘取了一段文字的。
圖上這個(gè)是我之前在斯坦福的時(shí)候做的一個(gè)項(xiàng)目,就是給出一個(gè)圖片以后,我們會根據(jù)這個(gè)圖片講一段故事,這個(gè)可以幫助一些像有抑郁癥的孩子,或是一些老人。我們可以傳個(gè)圖片,然后我們的story teller就會生成一段故事。而且這個(gè)故事是非常符合情景的,能夠反映圖片上的信息的。這就是一個(gè)多模態(tài)應(yīng)用的一個(gè)例子。
整個(gè)這個(gè)項(xiàng)目中間基本上都是無監(jiān)督學(xué)習(xí)。這里跟大家聊一下監(jiān)督有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)。
比如我們?nèi)四樒ヅ涞倪@些應(yīng)用,其實(shí)它都是一個(gè)有監(jiān)督學(xué)習(xí),我們模型在生成的時(shí)候都是有已經(jīng)標(biāo)注好的數(shù)據(jù)去生成的這個(gè)模型。
像這個(gè)應(yīng)用的話,除了我們的文字庫訓(xùn)練的時(shí)候用的是一個(gè)有監(jiān)督的,其他比如圖片的理解什么都是無監(jiān)督的,所以它的適用場景是非常廣泛的。而通過我們調(diào)整輸入文本的不同的類型,比如我們的文本庫,從浪漫小說改成科幻小說,那我們的文本生成器生成的文本就會從浪漫范變成了一個(gè)科幻范,它的靈活性彈性是非常強(qiáng)的。
這后面有幾個(gè)例子,像剛才兩張照片,一個(gè)是在在海邊散步的,還有公園的。底下的文字都是非常完美的反映了圖上的情景,還有寫詩一樣的意境在。
那如果大家想要去做一些研究,去了解最新的計(jì)算機(jī)視覺,或者是其他的整個(gè)機(jī)器學(xué)習(xí)人工智能領(lǐng)域一些東西,我應(yīng)該去哪里去看?除了看公眾號以外,有沒有一些更專業(yè)的地方?
那這里跟大家推薦一個(gè)很好的論文庫,叫Arxiv。這個(gè)論文庫跟我們平常的這些論壇期刊有什么不同呢?Arxiv上面所有的論文都是最新的。這個(gè)論文庫之所以存在,其實(shí)是因?yàn)楹芏嗟目茖W(xué)家他們在研究出來一個(gè)東西以后,由于期刊發(fā)表或者會議發(fā)表的審稿周期的很長。他們研究的東西還沒有讓全世界人知道之前,就有人也在同樣的時(shí)候差不多時(shí)間也研究出來了,早他們一步發(fā)表。這樣的話他們一下子從全世界第一個(gè)發(fā)現(xiàn)第一個(gè)做好的人變成了一個(gè)追隨者。
所以康奈爾大學(xué)就支持了這個(gè)project,這是一個(gè)讓大家可以第一時(shí)間不經(jīng)過復(fù)雜的審稿機(jī)制,就可以發(fā)表自己論文的地方,就是這個(gè)Arxiv數(shù)據(jù)庫。所有人都可以訪問,沒有密碼也不需要錢。而且大家不用擔(dān)心上面的論文的質(zhì)量,都是非常高的。在上面發(fā)表論文的很多科學(xué)家都是世界最頂級的科學(xué)家,他們把所有論文都丟進(jìn)去就是希望讓全世界人知道我是第一個(gè)把這東西做出來的。
我最近讀到一篇非常有意思關(guān)于無人駕駛的論文。我們知道全世界范圍內(nèi),做無人駕駛的公司一般有兩種流派,一種是用激光雷達(dá),還有一種呢是堅(jiān)信不用激光雷達(dá),單純的用機(jī)器視覺的方式,我們就可以實(shí)現(xiàn)這個(gè)目的。因?yàn)榧す饫走_(dá)成本還是比較高的,所以但很多車廠在使用激光雷達(dá)的時(shí)候還是非常的謹(jǐn)慎。一旦裝了激光雷達(dá)車的價(jià)格就會很高,那銷量就很難提高上去,所獲得數(shù)據(jù)量也會受到影響。
特斯拉是非常堅(jiān)定支持不用激光雷達(dá)的,它也是世界上目前生產(chǎn)有L3或者以上潛力的無人駕駛能力汽車最多的一個(gè)公司。他當(dāng)時(shí)不使用激光雷達(dá),原因就是馬斯克是堅(jiān)定地覺得不使用激光雷達(dá)的機(jī)器識別的算法也是實(shí)現(xiàn)的。目前看來是有可能的,我們要使用激光雷達(dá)是想要實(shí)現(xiàn)一個(gè)什么目的?是希望得到整個(gè)汽車運(yùn)行場景的一個(gè)鳥瞰圖。比如從上往下看,我們周圍的對象在什么位置?它的大小是怎么樣?激光雷達(dá)由于它本身的掃描特性和在車頂?shù)倪@個(gè)高度,它是可以得到一個(gè)多維度的一個(gè)場景的繪制圖。
而如果是一張單純的照片,就像我們攝像頭車上攝像頭拍的照片,它只是一個(gè)二維的圖,本質(zhì)上來說是得不到距離的信息的和東西相對之間距離的。
那有沒有方法可以幫助我們從一個(gè)二維圖中獲得三維地址信息呢?這篇論文就非常有意思地闡述了一個(gè)算法,就是去模擬人眼去理解二維圖的方式。比如我們?nèi)巳タ磦€(gè)二維圖的時(shí)候,其實(shí)我們能夠把它想象成一個(gè)三維圖的。 我們會根據(jù)一個(gè)圖片的景深和他們物體之間的形變,在腦子中間會對這個(gè)圖片上的對象進(jìn)行三維建模。雖然我們看的是二維的,但在我們腦中它其實(shí)形成了一個(gè)三維的形象,這個(gè)算法就是模擬。
它其中的關(guān)鍵點(diǎn)是一個(gè)叫正交變換。就是他會拿了一張圖以后,利用幾何學(xué)的一些方式,從中去提取特性,然后把兩個(gè)相鄰的對象之間的距離關(guān)系和位置關(guān)系給模擬出來。
上面這幾張圖相當(dāng)于是其中一些過程,大概的意思就是說先提取所有東西之間相對位置的一些信息,然后利用這個(gè)位置信息倒推出,它如果在三維圖上的位置應(yīng)該是怎么樣的?其中分分了大概四個(gè)步驟,這種方式目前的效果是超過了業(yè)界使用2D圖模擬3D圖的算法叫Mono3D。
這個(gè)OFT的方法目前的性能是全面的已經(jīng)超過Mono3D,我覺得這個(gè)算法的應(yīng)用可能會為用2D攝像頭的無人駕駛汽車公司技術(shù)實(shí)現(xiàn)一個(gè)小飛躍。
上圖是一個(gè)比較圖,不包括剛才我提到的OFT的算法。是目前所有2D實(shí)現(xiàn)3D模擬圖的算法的性能,但目前為止,OFT超越了這里面所有的算法。
5
解析云端AI能力支撐
剛才我們聊了很多的這種機(jī)器學(xué)習(xí)圖像方面的一些算法,包括傳統(tǒng)的和深度的。那如果我們想要擁有或者自己可以搭建一個(gè)機(jī)器視覺的應(yīng)用,不管是小程序,還是網(wǎng)站什么的,我們需要什么?
只有算法模型是遠(yuǎn)遠(yuǎn)不夠的。像我們剛才聊到的朋友圈爆款產(chǎn)品的背后,其實(shí)是由我們整個(gè)的云網(wǎng)絡(luò)在支撐的。我們使用了很多云上的一些組件和一些技術(shù)服務(wù)去支撐我們整個(gè)活動(dòng)。包括我們使用SCD去做DNS的分發(fā),ERB去做負(fù)載均衡。包括虛擬機(jī)去支撐我們的使用量,還有GPU,去快速的跑我們的模型。 我們所有的數(shù)據(jù)會存在cos的對象存儲里,所有的虛擬集群都是自動(dòng)可伸縮的。這就是我們整個(gè)云上去實(shí)現(xiàn)一個(gè)應(yīng)用的背后的例子。
實(shí)際上大家看到的很多的應(yīng)用只是在水面上的冰山的那個(gè)一角,但能夠讓我們很流暢的去使用應(yīng)用,更多的是因?yàn)樵诒澈笪覀兛床坏降牟糠?。其?shí)我們做了很多的工作,包括跨地域的負(fù)載均衡,因?yàn)槌丝紤]到全國各地的用戶之外還要考慮海外的用戶。同時(shí)我們做了動(dòng)態(tài)的擴(kuò)容,還有各種防雪崩的機(jī)制。在我們的服務(wù)熱點(diǎn)期過了以后,我們會逐次的降級,把一些不用的機(jī)器給釋放掉,這也可以是降低成本。
這就是我們支撐一個(gè)爆款應(yīng)用上線和下線的整個(gè)過程背后的機(jī)制。
再來介紹一下我們騰訊云的人工智能產(chǎn)品的矩陣。我們大概分幾個(gè)不同的領(lǐng)域,包括像人臉(計(jì)算機(jī)視覺)。這個(gè)里面包括人臉和聲,身份證識別,還有各種基于場景的,比如智能門禁物流。語音領(lǐng)域,我們也有ASR(語音-文字)和TTS(文字-語音)的能力。底層我們會有積極學(xué)習(xí)的平臺,還有大數(shù)據(jù)的平臺去支撐?;A(chǔ)建設(shè)就包括我們剛才提到的CPU、GPU,還有FPGA的各種服務(wù)器,還有我們裸金屬的這個(gè)黑石的服務(wù)器。所以大家如果在開公司創(chuàng)業(yè)時(shí)候,想要去很快的搭建底層的這些技術(shù)能力,使用它們?nèi)プ瞿愕腁PP,其實(shí)使用云服務(wù)是最快,也是目前最流行的方式。
我們目前計(jì)算機(jī)視覺的產(chǎn)品呢大概分四類,其中包括云智的慧眼,它是實(shí)名認(rèn)證的身份核驗(yàn)的產(chǎn)品。神圖是關(guān)于多場景的人臉的識別,比如考勤簽到,還有我們支付用的人臉支付。明視是OCR的結(jié)構(gòu)化,它包括我們的身份證識別,銀行卡識別名片識別這些。魔鏡主要是內(nèi)容審核,比如識別各種視頻圖片的鑒黃鑒恐鑒暴等敏感信息。這就是我們產(chǎn)品的一個(gè)舉證。
介紹一下幾個(gè)例子,比如大家平時(shí)會用到人臉付款,或者去一些政府部門去簽到等等都會用到。
圖上這是1比N的一個(gè)人臉檢測。這個(gè)場館領(lǐng)域,可以去尋找走失人口,或是運(yùn)用在一些公安體系上。這個(gè)就類似在海量人中間去匹配少量的人,即1:N的人臉?biāo)惴P?。目前的場景使用也非常多?/span>
OCR我就不細(xì)說了,像快遞單這些,我們大家每天都會用到,基本上是已經(jīng)離不開了。
除此之外我們還有一個(gè)私有化的視頻管理平臺,叫云智平臺(TIMatrix)。它是針對各種智能樓宇園區(qū)的一個(gè)產(chǎn)品。它可以幫助一個(gè)主題公園,一個(gè)廠區(qū)或者一個(gè)公司快速地搭建起一整套的視頻監(jiān)控體系。我們背后也有各種的A.I.引擎去做大數(shù)據(jù)的分析,客戶畫像熱力圖等等非常適合to B的一些場景。
6
技能進(jìn)階建議
然后聊完我們今天這些話題以后,可能有些小伙伴會問如果我想要做一些東西,但目前好像會的并不是很多的話,我應(yīng)該怎么樣去學(xué)習(xí)?這里會給出一些小建議小tips
我們可以把AI領(lǐng)域分成幾層。首先是算法,這大家都知道,我們要怎么樣寫模型,怎么樣去選擇不同的神經(jīng)網(wǎng)絡(luò),怎么樣去用傳統(tǒng)機(jī)器學(xué)習(xí)方法,怎么樣去做Feature Design,怎么樣去把這個(gè)模型給搞出來,這是算法研究方向。
其實(shí)這個(gè)并不是完整的A.I.的版圖的樣子,只是有算法離落地AI場景其實(shí)還有非常遠(yuǎn)的距離。有了算法以后我們還需要什么?我們需要有工程實(shí)踐,就要把一個(gè)算法可以真的變成一個(gè)能用的東西,不管是一個(gè)服務(wù)是個(gè)微服務(wù),還是一個(gè)SARS軟件還是一個(gè)客戶端軟件。我們需要有這個(gè)轉(zhuǎn)換的過程,但工程實(shí)踐其實(shí)非常的吃人力,它需要的人力其實(shí)是比算法更多的。
然后再上一層就是我做出了一個(gè)東西之后,那怎么去定義它,怎么做市場推廣,怎么做產(chǎn)品定義。我把這一步叫做AI產(chǎn)品開發(fā)及應(yīng)用,這也是另外一層。
其實(shí)大家如果想要進(jìn)入AI領(lǐng)域,并不完全只能靠搞算法這條路,從工程實(shí)踐和產(chǎn)品開發(fā)及應(yīng)用的領(lǐng)域,大家一樣是有這個(gè)潛力和機(jī)會可以進(jìn)入AI這個(gè)領(lǐng)域的。
針對不同領(lǐng)域的人的話,我的建議是首先是,如果大家想搞AI算法的話,需要打好數(shù)學(xué)基礎(chǔ),積累算法的理論知識是必不可少的。同時(shí)還要鍛煉自己對新學(xué)術(shù)的一些成果的快速理解和吸收的能力。不管是論文期刊,還是剛剛提到的論文庫。都需要有快速的讀論文,理解論文,把算法簡單地從模型給實(shí)現(xiàn)出來的這個(gè)能力。
如果是想從工程實(shí)踐方向著手,就需要鍛煉邏輯算法封裝的能力。比如別人給了你預(yù)算,怎么樣能快速很好的把它部署成一個(gè)服務(wù),而且可以承載海量的訪問量和吞吐量。同時(shí)還要比較好的模型訓(xùn)練和優(yōu)化的能力,這個(gè)都是可以從工程實(shí)踐角度去著手提高自己的部分。
從產(chǎn)品角度話,如果想做一個(gè)AI的產(chǎn)品經(jīng)理,更多時(shí)候是要提高對AI產(chǎn)品場景和應(yīng)用的理解,去提升自己對復(fù)雜系統(tǒng)的構(gòu)建和和理解能力。 由于人工智能的產(chǎn)品和場景和傳統(tǒng)的產(chǎn)品和場景是不太一樣的。我們理解的維度和角度其實(shí)是有很大的區(qū)別的。很多時(shí)候,傳統(tǒng)的產(chǎn)品經(jīng)理想要進(jìn)入領(lǐng)域,需要對自己的很多固有觀念進(jìn)行一個(gè)更新,甚至是完全推翻重來。
舉個(gè)簡單的例子來說,比如當(dāng)時(shí)國際巨頭在想要進(jìn)入AI領(lǐng)域去做智能交互,他們都從不同的角度進(jìn)行切入。像蘋果當(dāng)時(shí)做了siri智能助手,谷歌則是做了Google Assistant嵌入到了一個(gè)當(dāng)時(shí)美國很流行的溫度的控制器上面。微軟是從操作系統(tǒng)著手,把??加入到了Windows操作系統(tǒng)里面,但事實(shí)證明這些都并不是很成功。最成功的是亞馬遜,它做了一款智能音箱,也是目前全世界第一款智能音箱,叫Amazon Echo。從此開啟了AI到底如何跟人交互的答案。其實(shí)這么多全球巨頭在尋找一個(gè)場景的時(shí)候,花了多少時(shí)間,走了多少彎路,所以很多時(shí)候?qū)σ粋€(gè)AI產(chǎn)品的定義是可以直接決定他的這個(gè)產(chǎn)品的最終的結(jié)局和生死的。
所以如果大家想往AI產(chǎn)品方面去發(fā)展轉(zhuǎn),這里面的空間也非常大,有很多的資料可以去學(xué)習(xí),有很多的場景可以去考慮,有很多國家的公司的一些競品可以去研究。,我覺得這都是非常有意思的。
如果從技術(shù)角度入門的話,可以參考右邊這張圖。這個(gè)是比較常見的機(jī)計(jì)算機(jī)視覺的各種庫,包括open cv,大家只要接觸過一段時(shí)間都會用到的。中間一層是各種機(jī)器學(xué)習(xí)的框架,包括谷歌,Tensorflow,亞馬遜支持的MX net,F(xiàn)acebook目前的是Caffe。底層就是各種的不同的進(jìn)一步的數(shù)學(xué)庫。
關(guān)于課程的話,計(jì)算機(jī)視覺領(lǐng)域我有幾門比較推薦的課程。首先CS131,231A,231N。這幾個(gè)都是斯坦福機(jī)器學(xué)習(xí)實(shí)驗(yàn)室一系列的課程。這個(gè)課程的老師是李飛飛教授,他的這些課程是非常系統(tǒng)的,如果從頭到尾大家去學(xué)一遍的話,會對計(jì)算機(jī)視覺整個(gè)領(lǐng)域有一個(gè)清楚的脈絡(luò)的認(rèn)識,非常好。
而且很多的課程它是在網(wǎng)上是開源的,都可以免費(fèi)可以看到,可能有些作業(yè)什么的不一定開源,但是基本上大家想搜都是可以拿到。其他還有一些網(wǎng)站,我覺得是非常好的資源匯總的地方。它把很多不同的資源放到了一個(gè)像維基百科一樣的地方,大家可以快速的去找。
推薦PPT上的這幾本書給喜歡讀書的小伙伴們:
Computer Vision: Algorithms and Application
Computer Vision: Models, Learning, and Inference
Multiple View Geometry in Computer Vision
前兩本書其實(shí)不是一個(gè)系列的,只是名字有點(diǎn)像是兩個(gè)不同人寫的,第一個(gè)相對來說比較系統(tǒng),第二個(gè)會比較深入一些。第三本書書是從另外一個(gè)維度,更多的牽涉到一些數(shù)學(xué)的知識。大家有興趣的話都可以借來看一看。
Q&A環(huán)節(jié)
Q:有人問激光雷達(dá)在識別技術(shù)上跟計(jì)算機(jī)視覺技術(shù)上有沒有什么區(qū)別,哪個(gè)技術(shù)在應(yīng)用上能夠更準(zhǔn)確一些?
A:首先激光雷達(dá)LiDAR在識別技術(shù)上跟計(jì)算機(jī)視覺是有很大區(qū)別的。激光雷達(dá)由于雷達(dá)的特性,它很容易把整個(gè)周圍場景的3D圖給建模出來,這部分對算法的要求并沒有那么高,整個(gè)雷達(dá)技術(shù)已經(jīng)是很成熟的。利用這種激光雷達(dá),可以快速地把周圍的場景3D的建模出來。但是如果我們想用一個(gè)2D的圖片從中去獲得3D的信息,這個(gè)就得純靠算法。這里面的難度和整個(gè)的工作量就會很大。從目前的情況上來看,激光雷達(dá)更準(zhǔn)確。畢竟它的造價(jià)很高,而且它可以直接達(dá)到識別的目的。我們用2D建3D模的方式,很多時(shí)候是一個(gè)曲線救國,是一個(gè)間接的方法。激光雷達(dá)是一個(gè)直接的方法,所以目前來說激光雷達(dá)是更好的。但我覺得最終2D的方法也會慢慢的接近激光雷達(dá)效果。
Q: 嘉賓能不能為我們簡單分析一下,計(jì)算機(jī)視覺技術(shù),未來的市場會是什么樣子的?
A: 從我的理解上來看,首先計(jì)算機(jī)視覺應(yīng)用目前是屬于逐漸成熟的階段。大家可能會了解到,所有的技術(shù)從萌芽到最后被廣泛使用,都會經(jīng)歷一個(gè)Hyperloop曲線。計(jì)算機(jī)視覺已經(jīng)到了趨向于成熟的階段,它會慢慢涉及到我們生活的各個(gè)方面。基本上人腦可以通過我們的視覺去理解的東西,計(jì)算機(jī)視覺慢慢都可以代替,這個(gè)的潛力是非常大的。而且它的顛覆已經(jīng)開始了,所以我覺得未來在5到10年之內(nèi),它能夠顛覆的領(lǐng)域會非常多的,很有潛力。
Q: 除了剛剛說的一些獨(dú)立的應(yīng)用場景,然后我們知道騰訊有一些通用印刷體識別和通用手寫體識別,因?yàn)橄襁@種關(guān)于手寫體的識別的話,它具體是怎么樣進(jìn)行對它進(jìn)行識別的?
A: 其實(shí)本質(zhì)上這種識別類的應(yīng)用都是類似的。首先我們會輸入很多海量不同的手寫體文字。比如我們想要識別數(shù)字一的時(shí)候,我們訓(xùn)練集中會全世界不同的人用各種方式,各種筆寫的數(shù)字一。然后等我們模型訓(xùn)練好以后,我們就會進(jìn)行各種Classification去匹配,去分類。
由于我們有海量的數(shù)據(jù),加上我們模型會有很強(qiáng)的適應(yīng)性,所以大家基本上不管怎么寫我們都是可以識別出來這個(gè)文字的。
Q:騰訊有圖片標(biāo)簽識別的功能,那有沒有場景識別功能,呢比如說像火災(zāi)檢測,看看工人有沒有安戴安全帽之類的場景,有沒有這一塊相關(guān)的業(yè)務(wù)是這樣的?
A:我們騰訊云提供了很多最核心的基礎(chǔ)能力,包括圖片的標(biāo)簽識別這樣的一個(gè)能力。.那這個(gè)能力在具體的場景中間可以使用的方式是非常多的。這里提到的火災(zāi)檢測,是一個(gè)非常細(xì)分的場景,安全帽這個(gè)對象也是很特殊的一個(gè)對象。從技術(shù)上來說我們都是可以實(shí)現(xiàn)的。更多的時(shí)候是說從商業(yè)上來看客戶的需求量有多大,訓(xùn)練集及是否充沛,這些問題解決的話,原理上來說都是可以實(shí)現(xiàn)的。
聯(lián)系客服