本文屬于個(gè)人觀點(diǎn),跟本人在職公司的立場(chǎng)無關(guān)。由于最近 GitHub 服務(wù)器在國內(nèi)訪問速度嚴(yán)重變慢,雖然經(jīng)過大幅度壓縮尺寸,文中的圖片仍然可能需要比較長(zhǎng)時(shí)間才能加載。這篇文章揭示了 AI 領(lǐng)域重要的謬誤和不實(shí)宣傳,為了阻止愚昧的蔓延,我鼓勵(lì)大家轉(zhuǎn)發(fā)這篇文章和它的后續(xù),轉(zhuǎn)發(fā)時(shí)只需要注明作者和出處就行。
很多人以為人工智能就快實(shí)現(xiàn)了,往往是因?yàn)樗麄兓煜恕白R(shí)別”和“理解”。現(xiàn)在所謂的“人工智能”都是在做識(shí)別:語音識(shí)別,圖像識(shí)別,而真正的智能是需要理解能力的。我們離理解有多遠(yuǎn)呢?恐怕真正的工作根本就沒開始。
很長(zhǎng)時(shí)間以來,我都在思索理解與識(shí)別的差別。理解與識(shí)別是很不一樣的,卻總是被人混為一談。我深刻的明白理解的重要性,可是我發(fā)現(xiàn)很少有其他人知道“理解”是什么。AI 領(lǐng)域因?yàn)榛煜俗R(shí)別和理解,一直以來處于混沌之中。
最近因?yàn)閳D像識(shí)別等領(lǐng)域有了比較大的進(jìn)展,人們對(duì) AI 產(chǎn)生了很多科幻似的,盲目的信心,出現(xiàn)了自 1980 年代以來最大的一次“AI 熱”。很多人以為 AI 真的要實(shí)現(xiàn)了,被各大公司鼓吹的“黑科技”沖昏了頭腦,卻看不到現(xiàn)有的 AI 方法與人類智能之間的巨大鴻溝。所以下面我想介紹一下我所領(lǐng)悟到的機(jī)器和人類在視覺能力方面的差距,希望一些人看到之后,能夠再次擁有冷靜的頭腦。
在之前一篇文章《人工智能的局限性》中,我已經(jīng)闡述了對(duì)自然語言處理領(lǐng)域誤區(qū)的看法。當(dāng)時(shí)因?yàn)閷?duì)計(jì)算機(jī)視覺方面了解不多,所以沒有包含視覺方面的內(nèi)容。熟悉了機(jī)器視覺的各種做法之后,我想在這篇文章里詳述一下視覺方面的內(nèi)容。這兩篇文章加在一起,可以說概括了我對(duì) AI 語言和視覺兩個(gè)方面的領(lǐng)悟。
對(duì)于視覺,AI 領(lǐng)域混淆了“圖像識(shí)別”和“視覺理解”?,F(xiàn)在熱門的所謂 “AI” 都是“圖像識(shí)別”,而動(dòng)物的視覺系統(tǒng)具有強(qiáng)大的“視覺理解”。視覺理解和圖像識(shí)別有著本質(zhì)的不同。
深度學(xué)習(xí)視覺模型(CNN一類的)只是從大量數(shù)據(jù)擬合出從“像素=>名字”的函數(shù)。它也許能從一堆像素猜出圖中物體的“名字”,但它卻不知道那個(gè)物體“是什么”,無法對(duì)物體進(jìn)行操作。注意我是特意使用了“猜”這個(gè)字,因?yàn)樗娴氖窃诓?,而不像人一樣?zhǔn)確的知道。
“圖像識(shí)別”跟“語音識(shí)別”處于同樣的級(jí)別,停留在語法(字面)層面,而沒有接觸到“語義”。語音識(shí)別是“語音=>文字”的轉(zhuǎn)換,而圖像識(shí)別則是“圖像=>文字”的轉(zhuǎn)換。兩者都輸出文字,而“文字”跟“理解”處于兩個(gè)不同的層面。文字是表面的符號(hào),你得理解了它才會(huì)有意義。
怎樣才算是“理解了物體”呢?至少,你得知道它是什么形狀的,有哪些組成部分,各部分的位置和邊界在哪里,大概是什么材料做成的,有什么性質(zhì)。這樣你才能有效的對(duì)它采取行動(dòng),達(dá)到需要的效果。否則這個(gè)物體只是一個(gè)方框上面加個(gè)標(biāo)簽,不能精確地進(jìn)行判斷和操作。
想想面對(duì)各種日常事物的時(shí)候,你的腦子里出現(xiàn)的是它們的名字嗎?比如你拿起刀準(zhǔn)備切水果,旁邊沒有人跟你說話,你的腦子里出現(xiàn)了“刀”這個(gè)字嗎?一般是沒有的。你的腦子里出現(xiàn)的不是名字,而是“常識(shí)”。常識(shí)不是文字,而是一種抽象而具體的數(shù)據(jù)。
你知道這是一把刀,可是你的頭腦提取的不是“刀”這個(gè)字,而是刀“是什么”。你的視覺系統(tǒng)告訴你它的結(jié)構(gòu)是什么樣的。你知道它是金屬做的,你看到刀尖,刀刃,刀把,它也許是折疊的。經(jīng)驗(yàn)告訴你,刀刃是鋒利的可以切東西的部分,碰到可能會(huì)受傷,刀把是可以拿的地方。如果刀是折起來的,你得先把它翻開,那么你從哪一頭動(dòng)手才能把它翻開,它的軸在哪里?
你順利拿起刀,開始切水果??墒悄愕念^腦里仍然沒有出現(xiàn)“刀”這個(gè)字,也沒有“刀刃”,“刀把”之類的詞。在切水果的同時(shí),你大腦的“語言中心”可能在哼一首最近喜歡的歌詞,它跟刀沒有任何關(guān)系。語言只是與其他人溝通的時(shí)候需要的工具,自己做事的時(shí)候我們并不需要語言。完成切水果的動(dòng)作,你需要的是由視覺產(chǎn)生的對(duì)物體結(jié)構(gòu)的理解,而不是語言。
你不需要知道一個(gè)物品叫什么名字就能正確使用它。同樣的,光是知道一個(gè)物品的名字,并不能幫助你使用它??吹揭粋€(gè)物體,如果腦子里首先出現(xiàn)的是它的名字,那么你肯定是很愚鈍的人,無法料理自己的生活?,F(xiàn)在的“機(jī)器視覺”基本就是那樣的。機(jī)器也許能得出圖片上物體的名字,卻不知道它是什么,無法操作它。
試想一下,一個(gè)不能理解物體結(jié)構(gòu)的機(jī)器人,它只會(huì)使用圖像識(shí)別技術(shù),在你的頭上識(shí)別出一個(gè)個(gè)的區(qū)域,標(biāo)注為“額頭”,“頭發(fā)”,“耳朵”…… 你敢讓它給你理發(fā)嗎?
這就是我所謂的“視覺理解”與“圖像識(shí)別”的差別。你會(huì)意識(shí)到,這種差別是巨大的。
如果我們降低標(biāo)準(zhǔn),只要求識(shí)別出物體的名字,那么以像素為基礎(chǔ)的圖像識(shí)別,比如卷積神經(jīng)網(wǎng)絡(luò)(CNN),也是沒法像人一樣準(zhǔn)確識(shí)別物體的。人識(shí)別物體并不是像神經(jīng)網(wǎng)絡(luò)那樣的“拍照,識(shí)別”兩節(jié)拍動(dòng)作,而是一個(gè)動(dòng)態(tài)的,連續(xù)的過程:觀察,理解,觀察,理解,觀察,理解……
感官接受信息,中間穿插著理解,理解反過來又控制著觀察的方向和順序。理解穿插在了識(shí)別物體的過程中,“觀察/理解”成為不可分割的整體。人看到物體的一部分,理解了那是什么,然后繼續(xù)觀察它周圍是什么,反復(fù)這個(gè)過程,最后才判斷出物體是什么。機(jī)器在識(shí)別的過程中沒有理解的成分存在,這就是為什么機(jī)器在圖像識(shí)別能力上無法與人類匹敵。
這個(gè)“觀察/理解”的過程發(fā)生的如此之快,眨眼間就完成了,以至于很多人都沒察覺到其中“理解成分”的存在。所以我們現(xiàn)在放慢這個(gè)過程,來一個(gè)慢鏡頭特寫,看看到底發(fā)生了什么。假設(shè)你從來沒見過下面這個(gè)東西,你知道它是什么嗎?
一個(gè)從沒見過這東西的人,也會(huì)知道這是個(gè)“車”。為什么呢?因?yàn)樗休喿印槭裁茨阒滥鞘禽喿幽??仔?xì)一想,因?yàn)樗菆A的,中間有軸,所以好像能在地面上滾動(dòng)。為什么你知道那是“軸”呢?我就不繼續(xù)折騰你了,自己想一下吧。所有這些分析都是“視覺理解”所產(chǎn)生的,而這些理解依賴于你一生積累的經(jīng)驗(yàn),也就是我所謂的“常識(shí)”。
其實(shí)為了識(shí)別這個(gè)東西,你并不需要分析這么多。你之所以做這些分析,是因?yàn)榱硪粋€(gè)人問你“你怎么知道的?” 人識(shí)別物體靠的是所謂“直覺”。一看到這個(gè)圖片,你的腦子里自然產(chǎn)生了一個(gè) 3D 模型。一瞬間之后,你意識(shí)到這個(gè)模型符合“車”的機(jī)械運(yùn)動(dòng)原理,因?yàn)槟阋郧翱匆娺^汽車,火車,拖拉機(jī)…… 你的腦子里浮現(xiàn)出這東西可能的運(yùn)動(dòng)鏡頭,你仿佛看到它隨著輪子在動(dòng)。你甚至看到其中一個(gè)輪子壓到巖石,隨著連桿抬了起來,而整個(gè)車仍然保持平衡,沒有反倒,所以這車也許能對(duì)付崎嶇的野外環(huán)境。
這里有一個(gè)容易忽視的要點(diǎn),那就是輪子的軸必須和車體連在一起。如果輪子跟車體沒有連接,或者位置不對(duì),看起來無法帶著車體一起運(yùn)動(dòng),人都是知道的。這種輪軸與車身的連接關(guān)系,屬于一種叫“拓?fù)洹保╰opology)的概念。
拓?fù)鋵W(xué)是一門難度挺高的數(shù)學(xué)分支,但人似乎天生就理解某些淺顯的拓?fù)涓拍?。?shí)際上似乎高等動(dòng)物都或多或少理解一些拓?fù)涓拍?,它們一看就知道哪些東西是連在一起的,哪些是分開的。捕獵的動(dòng)物都知道,獵物的尾巴是跟它們身體連在一起的,所以咬住它們的尾巴就能抓住它們。
拓?fù)鋵W(xué)還有一個(gè)重要的概念,那就是“洞”。聰明一點(diǎn)的動(dòng)物基本上都理解“洞”的概念。很顯然老鼠,兔子等穴居動(dòng)物必須理解洞是什么。它們的天敵,貓科動(dòng)物等,也理解洞是什么。如果我拿一個(gè)紙箱給我的貓玩,我在上面挖一個(gè)洞,等他鉆進(jìn)去,他是不會(huì)進(jìn)去的。我必須在上面挖兩個(gè)洞,他才會(huì)進(jìn)去。為什么呢?因?yàn)樗?,要是箱子上面只有一個(gè)洞,要是他進(jìn)去之后洞被堵上,他就出不來了!
機(jī)器如何才能理解洞這個(gè)概念呢?它如何理解“連續(xù)”?
總之,人看到物體,他看到的是一個(gè) 3D 模型,他理解其中的拓?fù)潢P(guān)系和幾何性質(zhì),所以一個(gè)人遇到前所未見的物體,他也能知道它大概是什么,推斷出如何使用它。理解使得人可以非常準(zhǔn)確地識(shí)別物體。沒有理解能力的機(jī)器是做不到這一點(diǎn)的。
人的眼睛與攝像頭有著本質(zhì)的差異。眼睛的視網(wǎng)膜中央非常小的一塊區(qū)域叫做“fovea”,里面有密度非常高的感光細(xì)胞,而其它部分感光細(xì)胞少很多,是模糊的??墒茄劬κ菚?huì)轉(zhuǎn)動(dòng)的,它被腦神經(jīng)控制,敏捷地跟蹤著感興趣的部分:線條,平面,立體結(jié)構(gòu)…… 人的視覺系統(tǒng)能夠精確地理解物體的形狀,理解拓?fù)洌疫@些都是 3D 的。人腦看到的不是像素,而是一個(gè) 3D 拓?fù)淠P汀?/p>
眼睛觀察的順序,不是一行一行從上往下把每個(gè)“像素”都記下來,做成 6000x4000 像素的圖片,而是聚焦在重點(diǎn)上。它可以沿著直線,也可以沿著弧線觀察,可以轉(zhuǎn)著圈,也可以跳來跳去的。人腦通過自己的理解能力,控制著眼睛的運(yùn)動(dòng),讓它去觀察所需要的重點(diǎn)。由于視網(wǎng)膜中央分辨率極高,所以人腦可以得到精度非常高的信息。然而由于不是每個(gè)地方都看的那么仔細(xì),所以眼睛采集的信息量可能不大,人腦需要處理的信息也不會(huì)很多。
人的視覺系統(tǒng)能理解點(diǎn),線,面的概念,理解物體的表面是連續(xù)的還是有洞,是凹陷的還是凸起的,分得清里和外,遠(yuǎn)和近,上下左右…… 他能理解物體的表面是什么質(zhì)地,如果用手去拿會(huì)有什么樣的反應(yīng)。他能想象出物體的背面大概是什么樣子,他能在頭腦中旋轉(zhuǎn)或者扭曲物體的模型。如果物體中間有缺損,他甚至能猜出那位置之前什么樣子。
人的視覺系統(tǒng)比攝像頭有趣的多。很多人都看過“光學(xué)幻覺”(optical illusion)的圖片,它們從一個(gè)角度揭示了人的視覺系統(tǒng)背后在做什么。比如下圖本來是一個(gè)靜態(tài)的圖片,可是你會(huì)感覺有很多暗點(diǎn)在白線的交叉處,但如果你仔細(xì)看某一個(gè)交叉處,暗點(diǎn)卻又不見了。這個(gè)幻覺很經(jīng)典,被叫做 Herman grid,在神經(jīng)科學(xué)界被廣泛研究。稍后我還會(huì)提到這個(gè)東西。
本來是靜態(tài)圖片,你卻感覺它在轉(zhuǎn)。
本來上下兩塊東西是一樣的顏色,可是看起來下面的顏色卻要淺一些。如果你用手指擋住中間的高亮部分,就會(huì)發(fā)現(xiàn)上下兩塊的顏色其實(shí)是一樣的。
另一個(gè)類似的幻覺,是著名的“Abelson 棋盤幻覺”。圖中 A 和 B 兩個(gè)棋盤格子的顏色是一樣的,你卻覺得 A 是黑色,而 B 是白色。不信的話你可以用軟件把這兩塊格子從圖片上切下來,挨在一起對(duì)比一下。如果你好奇這是為什么,可以參考這篇文章。
在下圖里,你會(huì)覺得看見了一個(gè)黑色的倒三角形,可是其實(shí)它并不存在。
很多的光學(xué)幻覺都說明人的視覺系統(tǒng)不是簡(jiǎn)單的攝像頭一樣的東西,它具有某些特殊功能。這些特殊功能和機(jī)制導(dǎo)致了這些幻覺。這使得人類視覺不同于機(jī)器,使得人能夠提取出物體的結(jié)構(gòu)信息,而不是只看到像素。
提取物體的拓?fù)浣Y(jié)構(gòu)特征,這就是為什么人可以理解抽象畫,漫畫,玩具。雖然世界上沒有貓和老鼠長(zhǎng)那個(gè)樣子,一個(gè)從來沒看過《貓和老鼠》動(dòng)畫片的小孩,卻知道這是一只貓和一只老鼠,后面有個(gè)房子。你試試讓一個(gè)沒有拿《貓和老鼠》劇照訓(xùn)練過的深度學(xué)習(xí)模型來識(shí)別這幅圖?
更加抽象的玩具,人也能識(shí)別出它們是哪些人物。頭和四肢都變成了方的,居然還是覺得很“像”。你不覺得這很神奇嗎?
人腦理解“拓?fù)洹钡母拍?,這使得人能夠不受具體像素干擾而正確處理各種物體。對(duì)拓?fù)浣Y(jié)構(gòu)的理解使得人對(duì)物體的識(shí)別非常準(zhǔn)確,甚至可以在信息不完整,模糊,扭曲的情況下工作,在惡劣的天氣環(huán)境下,有反光,有影子的情況下也能識(shí)別物體。
說到反光,你有想過機(jī)器要如何才能識(shí)別出場(chǎng)景里有一面鏡子或者玻璃嗎?如果場(chǎng)景中有反光的物體,比如鏡子,平靜的水面,鍍鉻的物品,神經(jīng)網(wǎng)絡(luò)(CNN)那種依靠像素濾鏡訓(xùn)練出來的函數(shù)還會(huì)有用嗎?要知道它們看到的像素,可能有一大片是通過鏡面反射形成的,所以無法通過局部的紋理識(shí)別出這種情況來。
這是個(gè)現(xiàn)實(shí)的問題。自動(dòng)車或者機(jī)器人要如何知道前面的路面上有積水或者結(jié)冰了?它們要如何知道從水面反射過來的鏡像不是真實(shí)的物體?比如,它們?nèi)绾沃老聢D里路面上的倒影不是真正的樹呢?要知道,倒影的像素紋理,跟真實(shí)的場(chǎng)景可能是非常相似的。
人是通過對(duì)光的理解,各種常識(shí)來識(shí)別鏡子,玻璃,地上的水和冰的存在。一個(gè)不理解光和水的性質(zhì)的機(jī)器,它能察覺這些東西的存在嗎?靠像素分析能知道這些?要知道,這些東西在某些地方出現(xiàn),可以是致命的危險(xiǎn)。
很有趣的事情,理解光線的反射和折射,似乎已經(jīng)固化到了每個(gè)動(dòng)物的視覺系統(tǒng)里面。我觀察到這一點(diǎn),是因?yàn)槲业呐P室和客廳之間的櫥柜門上有兩面大鏡子。我的貓?jiān)谂P室里,能夠從鏡子里看見我在客廳拿著逗貓繩。他沖過來的時(shí)候卻不會(huì)撞到鏡子上面,而是出了臥室門立馬轉(zhuǎn)一個(gè)角度,沖向我的方向。我每次看到他敏捷的動(dòng)作都會(huì)思考,他是如何知道鏡子的存在呢?他是如何知道鏡子里的貓就是他自己,而不是另一只貓?
說了光,再來說影吧。畫過素描的人都知道,開頭勾勒出的輪廓是沒有立體感的,然后你往恰當(dāng)?shù)奈恢眉右恍╆幱?,就有了立體感。所以動(dòng)物的視覺系統(tǒng)里存在對(duì)影子的分析處理,而且這種功能我們似乎從來沒需要學(xué)習(xí),生下來就有?!傲Ⅲw視覺”是如此強(qiáng)烈的固化到了我們的頭腦里,一旦產(chǎn)生了立體感,你就很難再看見平面的像素。
靠著光和影的組合,人和動(dòng)物能得到很多信息。比如上圖,我們不但看得出這是一個(gè)立體的雞蛋,而且能推斷出雞蛋下面是一個(gè)平面,可能是一張桌子,因?yàn)橛嘘幱巴对诹松厦妗?/p>
神經(jīng)網(wǎng)絡(luò)知道什么是影子嗎?它如何知道影子不是實(shí)際存在的物體呢?它能從影子得到有用的信息嗎?
神經(jīng)網(wǎng)絡(luò)根本不知道影子是什么。早就有人發(fā)現(xiàn),Tesla 基于圖像識(shí)別的 Autopilot 系統(tǒng)會(huì)被陰影所迷惑,以為路面上的樹影是一個(gè)障礙物,試圖避開它,卻差點(diǎn)撞上迎面來的車。我在很早的一篇文章已經(jīng)談過這個(gè)問題。
再來一個(gè)關(guān)于繪畫的話題。學(xué)畫的初期,很多人都發(fā)現(xiàn)畫“透視”特別困難。所謂透視就是“近大遠(yuǎn)小”。本來房子的幾堵墻都是長(zhǎng)方形,是一樣高的,可是你得把遠(yuǎn)的那一邊畫短一些,而且相關(guān)部分的比例都要畫對(duì),就像照片上那樣,所以墻就成了梯形的。房頂,窗戶等,也全都得做相應(yīng)的調(diào)整。你得這樣畫,看畫的人才會(huì)感覺是對(duì)的,不然就會(huì)感覺哪里不對(duì)勁,不真實(shí)。
這件事真的很難,大部分人(包括我)一輩子都沒學(xué)會(huì)畫透視。雖然拿起筆來量一下,我確實(shí)看到遠(yuǎn)的那一邊要短一些,可是我的腦子似乎會(huì)“自動(dòng)糾錯(cuò)”,讓我認(rèn)為它們都是一樣長(zhǎng)的。所以要是光靠眼睛徒手作畫,我會(huì)把那些邊都畫成一樣長(zhǎng)。我似乎永遠(yuǎn)學(xué)不會(huì)畫畫!
畫透視是如此困難的事情,以至于 16 世紀(jì)的德國畫家丟勒為此設(shè)計(jì)了一種專門的設(shè)備。
你可能沒有想到,這個(gè)使得我們學(xué)畫困難的罪魁禍?zhǔn)?,其?shí)是人類視覺系統(tǒng)的一項(xiàng)重要功能,它幫助我們理解身邊的環(huán)境。雖然眼睛看到的物體是近大遠(yuǎn)小,可是人腦會(huì)自動(dòng)調(diào)整它們?cè)谀恪邦^腦里的長(zhǎng)度”,所以你知道它們是一樣長(zhǎng)的。
這也許就是為什么人能從近大遠(yuǎn)小的光學(xué)成像還原出正確的 3D 模型。在你頭腦中的模型里面,房子的幾堵墻是一樣高的,就像它們?cè)诂F(xiàn)實(shí)中的情況一樣。有了準(zhǔn)確的 3D 模型,人才能正確地控制自己在房子周圍的運(yùn)動(dòng)。
這種導(dǎo)致我們學(xué)畫困難的“3D 自動(dòng)糾錯(cuò)”功能,似乎固化到了每個(gè)人,每個(gè)高等動(dòng)物的視覺系統(tǒng)里。我們并不需要學(xué)習(xí)就有這種能力,它一直都在起作用。反倒是我們要想“關(guān)掉”這個(gè)功能的時(shí)候,需要付出非常多的努力!
為什么人想要畫出透視效果那么困難呢?因?yàn)橐话闳水嫯?,都不是在畫他們頭上那兩只眼睛看到的東西,而是在畫他們的“心之眼”(mind’s eye)看到的東西——他們頭腦中的那個(gè) 3D 模型。這個(gè) 3D 模型是跟現(xiàn)實(shí)“同構(gòu)”的,模型里房子的墻壁都是一樣高的,他們畫出來也是一樣高的,所以就畫錯(cuò)了。只有經(jīng)過專業(yè)訓(xùn)練的畫家,才有能力關(guān)閉“心之眼”,直接畫出眼睛看到的東西。
我猜想,每一種高等動(dòng)物的視覺系統(tǒng)都有類似的機(jī)制,使得它們從光學(xué)成像“重構(gòu)”出與現(xiàn)實(shí)同構(gòu)的 3D 模型。缺乏 3D 建模能力的機(jī)器,是無法準(zhǔn)確理解看到的物體的。
現(xiàn)在很多自動(dòng)駕駛車用激光雷達(dá)構(gòu)造 3D 模型,可是相對(duì)于人類視覺形成的模型,真是太粗糙了。激光雷達(dá)靠主動(dòng)發(fā)射激光,產(chǎn)生一個(gè)掃描后的“點(diǎn)云”,分辨率很低,只能形成一個(gè)粗糙的 3D 輪廓,無法識(shí)別物體,也無法理解它的結(jié)構(gòu)。我們應(yīng)該好好思考一下,為什么人僅靠被動(dòng)接收光線就能構(gòu)造出如此精密的 3D 模型,理解物體的結(jié)構(gòu),而且能精確地控制自己的動(dòng)作來操作這些物體。
現(xiàn)在的深度學(xué)習(xí)模型都是基于像素的,沒有抽象能力,不能構(gòu)造 3D 拓?fù)淠P?,甚至連位置關(guān)系都分不清楚。缺乏人類視覺系統(tǒng)的這種“結(jié)構(gòu)理解”能力,可能就是為什么深度學(xué)習(xí)模型需要那么多的數(shù)據(jù),那么多的計(jì)算,才勉強(qiáng)能得出物體的名字。而小孩子識(shí)別物體根本不需要那么多數(shù)據(jù)和計(jì)算,看一兩次就知道這東西是什么了。
人腦提取了物體的要素,所以很多信息都可以忽略了,所以人需要處理的數(shù)據(jù)量,可能比深度學(xué)習(xí)模型小很多。深度學(xué)習(xí)領(lǐng)域盲目地強(qiáng)調(diào)提高算力,制造出越來越大規(guī)模的計(jì)算芯片,GPU,TPU…… 可是大家想過人腦到底有多大計(jì)算能力嗎?它可能并不需要很多計(jì)算。
從上面的各種現(xiàn)象,我們也許已經(jīng)看明白了,人類視覺系統(tǒng)是很神奇的?,F(xiàn)有的機(jī)器視覺研究并沒有理解人類視覺的這些能力是怎么實(shí)現(xiàn)的。在接下來的續(xù)集中我們會(huì)詳細(xì)的看清楚,AI 領(lǐng)域到底理解多少人類神經(jīng)系統(tǒng)的構(gòu)造。
聯(lián)系客服