視覺方式的概念
“視覺方式”的概念意味著我們的“看”并不是單純的,“看”是一種方法,是一種方式。我們不是用這個方式在看,就是用那種方式在看。而且每個人的看的方式有其相通之處,也往往有其個性特征。看并不是一個自然而然的過程,而是一種積極的建構性的行動。我們進的觀看方式、觀看能力,首先是長期的生命進化和自然選擇的結果,而進入文明史以來,人類的文化又深深地介入了觀看,影響了觀看。因此,觀看也是可以塑造和訓練的,即使一定程度上先天的視覺方式,也是可以進行研究、加以拓展和重塑的。
視覺方式的生理基礎
11世紀初的阿拉伯醫(yī)圣阿維森納說“眼睛好比一面鏡子,看得見的東西好比鏡子里的東西。”
眼睛究竟是不是鏡子?如果是一面鏡子,這是一面怎樣的鏡子呢?蒼蠅和蜻蜓或者三葉蟲們會同意這種說法嗎?
達爾文曾經(jīng)給他的一位朋友寫信贊嘆眼睛的精妙程度,幾乎是他的進化論理論所能達到的最不可思議的“近乎荒謬”的程度。確實是,進入晶狀體的光線能夠準確地聚焦在視網(wǎng)膜上,而瞳孔的開合能夠控制進入的光線的多少。阿維森納錯了,我們的眼睛其實并不像鏡子更像照相機,而且這臺照相機還是數(shù)字照相機——畢竟我們不需要像更換柯達膠卷一樣地更換我們的視網(wǎng)膜——我們的視網(wǎng)膜只是一個陣列的感光元件,一個生理CCD或CMos,它負責把光電信號傳輸給大腦中的視覺神經(jīng),最后“看到了什么”是在大腦那里成像的,就像我們在電腦屏幕上看到了物像。此時,同一個視網(wǎng)膜這個CCD已經(jīng)在忙著承擔最新的任務。
而且達爾文已經(jīng)意識到:從最原始的眼睛到最完美的眼睛存在“無數(shù)等級” ,其中每一個如此微小的變化都為擁有微妙變化形式的有機體提供了生存優(yōu)勢。當然他這么說,主要是為了否定“智慧設計論”者的斷言——他們斷言如此精妙的眼睛不可能是進化出來的。當達爾文這么說的時候,他并不擁有非常多的證據(jù),而只是一個才華橫溢的理論猜想。但是今天我們已經(jīng)有非常多的證據(jù)了:眼睛的進化,是一部可歌可泣的史詩。
進化生物學家們曾經(jīng)以為,世界上各種各樣的的動物多種多樣的眼睛是各自獨立的進化出來的,但是像目前更新的研究表明,每一種有眼睛的動物,都來自一位共同祖先的最原始的視覺蛋白。
我們這位共同祖先已經(jīng)擁有感光細胞,它可能是一支單細胞眼蟲。這個感光細胞可能晝夜節(jié)律。然而,“成像視覺”還沒有進化出來,還看不到形狀或顏色,但能夠確定外面是亮還是暗。它只能完成非定向光接收。通過僅監(jiān)測環(huán)境光強度,在水里的可以控制深度,穴居免得被太陽曬死。這點點感光能力的差別可是賦予了它明顯的生存優(yōu)勢。今天科學家恒星??偷I砩弦舶l(fā)現(xiàn)了這種簡單的視蛋白基因。水螅沒有眼睛,但在強光下會收縮成一個球。
下一場更難的考試是“定向感光”。光感受器的方向性與身體方向的變化相結合,這些物種出現(xiàn)了趨光性,使動物可以向光移動或?qū)ふ液诎档谋茈y所。
那么顯然方向性變得足夠窄的時候,方向的變化就更敏銳。我們用長焦鏡頭,對面那個美女稍微走兩步你就拍不到著。要是用一個魚眼鏡頭,她就是狂奔你也來得及拍到她。顯然長焦鏡頭比魚眼鏡頭對于角度來說更敏感。
于是,在光敏感點周圍形成了一個凹坑,變成杯眼。渦蟲和原始蝸??梢陨晕^(qū)分光的方向和強度,因為它們呈杯狀、色素沉著的視網(wǎng)膜細胞可以保護感光細胞免受所有方向的照射。一些扁蟲有一對大杯形眼睛,每個眼中都有許多視網(wǎng)膜細胞。而另一些則有很多個較小的眼杯,每個眼杯中甚至只有一個視網(wǎng)膜細胞。這就分化出了兩種基本解決方案的:單眼和復眼。
如此簡陋的視覺器官至今仍被水母、扁蟲等原始群體所使用,足以讓他們以更大的優(yōu)勢生存下來。隨著眼窩的加深和感光細胞數(shù)量的增加,視覺信息會越來愈精確。
最終,坑的開口可能會越來越窄,形成一個可供光線進入的小孔,就像針孔相機一樣。這是一大創(chuàng)新,今天在鮑魚和鸚鵡螺身上發(fā)現(xiàn)了沒有鏡片和角膜的針孔照相機眼睛。這是第三級考試:低分辨率視覺,已經(jīng)具有立體視覺,足夠防止碰撞,足夠讓視力模糊的獵物從視力模糊的獵人眼皮底下逃脫。
視網(wǎng)膜在發(fā)育,不斷提高CCD的像素。而在前面,眼窩的前段,針孔相機的小孔上長出了晶狀體。箱形水母就是這么做的,不過它晶狀體眼聚焦不清,其實它也用不著---清晰聚焦導致太大的數(shù)據(jù)處理量,而它沒有腦子。水母的眼睛直接將信息傳遞給肌肉,而無需大腦提供的中間處理。
三葉蟲的晶狀體是一種方解石,但是后來更高級的“鏡頭”是神奇的透明的晶體蛋白做成的。
所以,下一步的進化是調(diào)焦功能的出現(xiàn)。有的靠移動晶狀體,通過利用虹膜括約肌,一些物種來回移動晶狀體。有的靠晶狀體有彈性地變形(當變形功能喪失,無法聚焦在視網(wǎng)膜上,我們就近視或者遠視了)。晶體蛋白也是體內(nèi)最穩(wěn)定的蛋白質(zhì),可以連續(xù)使用數(shù)十年(白內(nèi)障是晚年晶體蛋白變質(zhì)引起的——鏡頭被磨砂了)。
這時候,大約5.4萬年前的寒武紀,高分辨率視覺出現(xiàn)了。這時候,進化露出了它殘忍的面目,進化的目標只是活下去——這就是劉慈欣的“黑暗森林法則”——眼睛的發(fā)展的唯一目的是:成為好獵人,避免成為獵物。
精準的視覺使動物成為活躍的獵人,捕食者通常將眼睛放在頭部的前面,以便更好地感知獵物。被獵食物的眼睛往往在頭部的一側,提供廣闊的視野,以便從任何方向檢測捕食者,及時跑路。一些蜘蛛,尤其跳蛛和狼蛛已經(jīng)長出了極好的眼睛,可以在向前方向進行高分辨率視覺。
寒武紀之前,軟體生物們溫順而懶散在海中游蕩,那是生命的田園牧歌時代。眼睛的發(fā)明帶來了一場進化軍備競賽。一個更加殘酷的地球。
在37個多細胞動物門類中,只有6種進化出了眼睛,但有眼睛的這六種占了地球動物的96%,成為地球上最成功的動物。對獵物的探測與追捕、捕食者的探測與逃跑、配偶識別與視覺交流都因為高分辨率成為可能。蜜蜂和蝴蝶的花卉檢測和鳥類這些種子食客們的種子檢測也是明顯依賴于高分辨率的眼睛。因此,它們也不得不運動得更快。
眼睛之路并沒有就此停止。有些物種進化出了在紫外線下看東西的能力,有些魚類進化出雙晶狀體,這使得它們可以同時看到水面的上方和下方。
我們?nèi)祟愲p眼向前,雖然我們后來改口說我們“人性本善”,但我們是成功的掠食者。雙眼視差建立了立體視覺。我們沒有像蒼蠅一樣長著復眼,我們也沒有像魚一樣把眼睛長在兩旁。除了發(fā)育出鏡頭蓋--眼簾,我們還發(fā)育出鏡頭清潔劑--淚腺。
選擇性的眼睛
達爾文理論成功了。眼睛的每一步升級都帶來巨大的競爭優(yōu)勢。但是這樣一來,眼睛提供給神經(jīng)系統(tǒng)的信息量和速率隨著每個更高類別的行為急劇增加。每次升級,信息速率增加幾個數(shù)量級,于是你就需要一個更大的大腦,是眼睛促成了大腦的發(fā)展。
但是我們的眼睛比大腦設計得更好,眼睛提供給大腦的信息太多,以至于大腦對付不過來了。如果要處理這么高幀率和高像素的眼睛提供的數(shù)據(jù),我們的大腦得有一座建筑這么大。偏偏大腦又特別高能耗,為了供得起這樣豪華的大腦,先別說骨骼扛不住,我們得獵食多少能量才養(yǎng)得起它!
所以我們經(jīng)常“視而不見”。我們其實看了,但是我們不知道我們看到了。我們其實“看了”,但沒有“看出來”。光線和圖像落在我們的視網(wǎng)膜上并且傳輸給大腦,但大腦選擇忽視,就像導師沒有及時回你的微信。她不能不這么做,否則算力跟不上。和我們的屏幕一樣,大腦使用壓縮算法,它不會給我們看RAW原始圖像。它選擇性地觀看,只看到自己需要看到的,只愿意看到自己想要看到的。
作為領導,大腦是很累的。它不光得管看,還得聽,還得說話,還得認路走路,不把一些呼吸、心跳之類工作設定為無意識地自動進行,領導哪里忙得過來呢?
人腦總是采用省力模式,所以大腦還想出更厲害的一招,今天的人工智能科學家們剛剛悟出這一招,那就是要使用“預訓練模型”。“預訓練模型的提出就是為了建立原任務和目標任務的橋梁,先在多元任務上預訓練獲得通用知識,然后使用少量目標任務上的標注數(shù)據(jù)進行微調(diào),使得微調(diào)的模型能夠很好地處理目標任務”。也就是用較低成本采集數(shù)據(jù),在預訓練中先獲得正確的知識,養(yǎng)成良好的習慣,到了執(zhí)行特定任務的時候,部分工作由這些習慣自動執(zhí)行,這使得任務的負擔變輕。視覺中的預訓練模型,似乎就是我們這里所說的視覺方式。
我們?nèi)セ疖囌窘尤?,火車站出口處萬頭攢動,我們一眼就認出要迎接的人,遠遠地就開始激動地招手。反之,如果我們是要去揍一個人,也會一眼就認出他來--別忘了我們擁有的是一雙獵人的眼睛。我們的眼睛是一種帶面孔識別和預對焦功能的相機,極其智能。這種相機在最近二十年才剛剛開發(fā)出來。
而在眼睛不夠用的地方,領導也會出來救場。如果你看到一棵大樹的左邊露出鹿角,右邊露出鹿尾巴。大腦會堅定地判斷樹后面有一整只肥鹿。這也是一種省力的方式,根據(jù)我們過去的經(jīng)驗預測我們將看到的內(nèi)容,然后將這些預期巧妙地投射到我們所看到的內(nèi)容上。霧氣朦朧中和幽暗中,我們都看到了伊人在水一方,你確實看到了你想看到的東西。這個后來被稱為完形心理學。我們在本課程的視錯覺環(huán)節(jié)中還會遭遇“卡尼薩三角形”。
兩歲的孩子拿筆胡亂轉(zhuǎn)圈涂鴉,但是他會告訴你他正在畫的是“房子”或“爸爸”,他不會說我在畫“線”或者“紅色的線”。三歲的孩子畫了兩張畫,這兩幅畫看起來幾乎是一模一樣的,都是一個圓圈,但是他會告訴你,這張是一個水果,那一張是一個氣球。繪畫總是在畫某物,看東西也總是在看某物。觀看總是緊緊連接著識別和判斷,必須在觀看的同時識別出“這是什么東西”,這是本能----我們控制不住地把某個圖形或者看成鴨子,或者看成兔子---這是獵人和獵物的本能。對不起,進化生理學讓抽象畫家失望了,號稱只看得到線條、色塊和紋理,而不去進一步判定“這是什么東西”,這種努力是很晚以后才開始的游戲。
在原始人那里,造型、色彩和紋理都是為了判斷對面的這個視覺對象是不是可以吃的野果,或者是不是應該趕緊轉(zhuǎn)身跑路的惹不起的劍齒虎。這只兔子打不著,家里的孩子就得餓死,事關生死,不能臨時才判斷這是什么,必須幾乎是本能反應,必須快得不過腦子。所以必須使用預訓練模型。正是這種識別傾向,讓我們在一塊石頭中看到了五花肉和文字,讓我們有了一些“猴子觀海”、“望夫石”之類的擬人化景點。讓我們在火星上看到人臉。
在所有的預訓練模型中,最成功的就是面孔識別。因為我們最想看到的就是人臉。
社會性的眼睛:面孔傾向
我們?nèi)祟惻c其他靈長類動物共享某種檢測面部的先天能力。這種能力很可能在靈長類動物中進化,因為我們生活在復雜的社會群體中,因此我們可以這么說,我們的眼睛和大腦都是社會性的。為了社會生活,我們的眼睛和大腦需要可靠地區(qū)分每個群體成員。認出這是我家的孩子還是別人家的孩子。這比認出是老虎還是蜜蜂,顯然需要更好的視力和更強的腦力。不但要認出,而且還得記住。
從出生開始,嬰兒和小猴子就對面部刺激有視覺偏好,他們本能地一看見人臉就樂呵。而人類的小孩本能地在三歲的時候開始畫人臉。經(jīng)常沒有鼻子和耳朵,但是一定會有眼睛和嘴巴。許多藝術形式都放大了這些特征——世界各地的面具往往會夸大眼睛和嘴巴的大小,對眉毛、睫毛、臉頰或鼻子的關注要少得多。想想阿茲特克馬賽克面具,或者我們這個時代的? Emoji表情符號吧。
??????????????????????????????
這個強大的“預訓練模型”讓我們身不由己地在一切東西上面看到人臉。人們會覺得某些紋理像什么,像心電圖,像動物,像文字……但是統(tǒng)計數(shù)據(jù)表明,看到人臉的機會是34% 。你在很多地方都會看到一張臉在看著你,有時是被嚇一跳。
當人們看到抽象的紋理、圖像和輪廓的時候,初級視覺皮層的活躍度很高。但是當他們報告說自己看到了一張人臉的時候,掃描圖像顯示額葉和枕骨區(qū)域開始被激活,尤其是右梭形面部區(qū)域——這是大腦中對真實面孔做出反應的部分。這個區(qū)域是更高級的思維活動--計劃和記憶發(fā)生的地方。
我們在建筑、俯視的帳篷,樹洞、水龍頭、充電器、餅干、書包、云朵、樹葉……幾乎一切上面都能發(fā)現(xiàn)人臉。但是被報告得最多的是汽車和門。當然了,兩個車燈實在太像眼睛了,而排氣格柵實在是太像大嘴了。畢竟,我們在日??谡Z中,都把房子的前面和汽車前面都叫做“前臉”,也有一個詞叫做“門面”。維也納大學的一個家伙專門前往埃塞俄比亞農(nóng)村,想看看那邊的人是否無法從汽車上看到臉。人們一開始確實覺得西方人有毛病,但很快就入局加入這場游戲。因為即使不是汽車,他們從各種東西上也看到了臉。有預訓練模型在,遷移學習就不是問題。
據(jù)說這種長得像是臉的東西,會造成一種“老大哥盯著你”的感覺,這會讓人變得誠實。這個說法太不靠譜了!畢竟久經(jīng)沙場的說謊者經(jīng)常是對著真人的眼睛撒謊的,我就不信把他拉到汽車前面說話他就能變誠實。
韓國藝術家申承帛與金容動(Shinseungback& Kimyonghun)是首爾的韓國藝術家團體。申承帛學習計算機科學,金容動完成了視覺藝術學士學位。他們在韓國科學技術院文化技術研究生院學習時相識,于 2012 年開始組成藝術小組。他們以計算機科學和視覺藝術的背景,就我們認為是常識的視覺圖像提出問題?!对颇槨稢loud Face是一組照片。人類在云中看到人物:動物、面孔甚至上帝。這種感知也出現(xiàn)在機器視覺中,人臉檢測算法有時會在沒有人臉的地方找到人臉。
“云臉”是一組被人工智能識別為人臉的云圖像。這是人工智能錯誤的結果。人類也可以從一些圖像中看到面孔,但人類并不認為它們是真實的面孔。人類更愿意從云端想象面孔。機器的錯誤和人類的想象力在這里相遇。
申承帛與金容動《云臉》
作業(yè)1:尋找像眼睛的東西,拍照并拼貼一張畫。
作業(yè)2:尋找?guī)в邢袷俏淖值募y理的東西,拍照并拼貼一張畫,使之形成一個句子。
聯(lián)系客服