中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
迄今為止,虛擬現(xiàn)實(shí)還面臨那些技術(shù)瓶頸需要突破?
 觀察菌 
VR我們已經(jīng)很熟悉,大家也一致認(rèn)為現(xiàn)階段我們面臨的困境還是技術(shù)與時(shí)間賽跑的問題,今天我們來復(fù)盤一下,到目前為止,整個(gè)行業(yè)的技術(shù)瓶頸現(xiàn)在到哪里了,那些地方還需要突破,才能根本上滑上下一代計(jì)算機(jī)平臺(tái)的軌道?感謝科技導(dǎo)報(bào)記者曹煊老師的這篇好文。

來源:《科技導(dǎo)報(bào)》2016年第15期,原題目為《虛擬現(xiàn)實(shí)的技術(shù)瓶頸》

作者:曹煊



在技術(shù)變革和資本力量的雙重推動(dòng)下,虛擬現(xiàn)實(shí)(Virtual Reality)技術(shù)在近幾年發(fā)展迅速,初步達(dá)到了可商業(yè)化的程度。虛擬現(xiàn)實(shí)和 3D 電影院都是通過雙目視差實(shí)現(xiàn)三維成像,但虛擬現(xiàn)實(shí)提供了 3D 電影院所不具備的移動(dòng)視差并提供了強(qiáng)烈的沉浸感。


現(xiàn)階段虛擬現(xiàn)實(shí)技術(shù)仍面臨著一系列技術(shù)難題,其中眩暈和人眼疲勞尤其明顯,是虛擬現(xiàn)實(shí)的技術(shù)瓶頸。本文從介紹三維視覺感知開始,分析了虛擬現(xiàn)實(shí)造成眩暈和人眼疲勞的根本原因。同時(shí)給出了解決這一技術(shù)瓶頸的答案——?jiǎng)討B(tài)光場,并從光場采集和顯示兩方面分析了多種光場技術(shù)的優(yōu)缺點(diǎn)。


本文最后列舉了增強(qiáng)現(xiàn)實(shí)(Augmented Reality)技術(shù)的三種實(shí)現(xiàn)形式,并從人與人交互和通信的角度對(duì)比了虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)在未來的發(fā)展趨勢(shì)。

1、虛擬現(xiàn)實(shí)一直存在

近幾年,虛擬現(xiàn)實(shí)(Virtual Reality,VR)技術(shù)發(fā)展迅猛,商業(yè)化、市場化和產(chǎn)品化的趨勢(shì)日益明顯。然而,早在 50 多年前,科學(xué)家們就已經(jīng)提出了虛擬現(xiàn)實(shí)的技術(shù)構(gòu)想。美國計(jì)算機(jī)圖形學(xué)之父 Ivan Sutherland 在 1968 年開發(fā)了第一個(gè)圖形可視化的 “虛擬現(xiàn)實(shí)” 設(shè)備,但在當(dāng)時(shí)還不叫 “虛擬現(xiàn)實(shí)”,而是被稱為“頭戴顯示” 或“頭盔顯示”(Head-Mounted Display,HMD)。就技術(shù)層面而言,現(xiàn)階段的虛擬現(xiàn)實(shí)眼鏡或者虛擬現(xiàn)實(shí)頭盔仍可劃分為 HMD 的范疇。

2013 年谷歌眼鏡(Google Glass)面市,“虛擬現(xiàn)實(shí)” 這個(gè)術(shù)語開始進(jìn)入公眾視野。但當(dāng)時(shí)的谷歌眼鏡沒有雙目立體視覺,所以稱為 Google Glass 而不是 Google Glasses。盡管谷歌眼鏡的整體顯示效果低于同一時(shí)期的手機(jī)和電腦,但其新穎的成像方式引起了人們的極大關(guān)注。這背后揭示了人們對(duì)于已經(jīng)沿用了二十多年的傳統(tǒng)平面顯示方式的審美疲勞和對(duì)新穎顯示方式的強(qiáng)烈期待。

總體來說,現(xiàn)階段虛擬現(xiàn)實(shí)有三大顯著特點(diǎn)(簡稱為 3I):

  • 沉浸感(Immersion)

  • 交互性(Interaction)

  • 構(gòu)想性(Imagination)

視覺是人類最敏感,捕獲信息量最大的 “傳感器”。VR 眼鏡隔絕了人眼接收外部視覺信息的通道,取而代之的是虛擬的視覺內(nèi)容。當(dāng)人眼受到來自 VR 眼鏡的視覺刺激時(shí),大腦會(huì)自動(dòng) “繪制” 出虛擬的環(huán)境,從而使人沉浸在了一個(gè)全新的環(huán)境中。

相比于傳統(tǒng)的顯示方式,交互性并不是 VR 所特有的。電視可以借助遙控器交互,電腦可以借助鼠標(biāo)鍵盤來輸入。目前虛擬現(xiàn)實(shí)還沒有統(tǒng)一的輸入設(shè)備,交互方式可以根據(jù)虛擬場景來設(shè)置,更具靈活性和多樣性。例如在士兵培訓(xùn)中,VR 交互方式可以是一把槍;在模擬外科手術(shù)中,交互方式可以是手術(shù)刀。

人們借助 VR 可以以第一人稱視角去探索未知的環(huán)境,包括一些人類難以到達(dá)的環(huán)境,例如深海、外太空;甚至包括一些人類無法到達(dá)的或抽象的環(huán)境,例如細(xì)胞、黑洞、一個(gè)數(shù)學(xué)模型。VR 技術(shù)給了我們一個(gè)可以去徜徉在任何環(huán)境中的機(jī)會(huì)。在這樣一個(gè)從未到達(dá)的環(huán)境中,人類的視野和想象力得到了極大的延展。

既然虛擬現(xiàn)實(shí)早就存在,但為什么直到現(xiàn)在才爆發(fā)呢?一方面是因?yàn)樘摂M現(xiàn)實(shí)作為一種全新的顯示方式,正好滿足了人們對(duì)于信息可視化變革的期待。另一方面也是因?yàn)榧夹g(shù)變革和資本力量的共同驅(qū)動(dòng)。

2、VR 背后的支撐

在此之前,大規(guī)模普及虛擬現(xiàn)實(shí)還只是一個(gè)美麗的夢(mèng),因?yàn)槭艿接?jì)算性能、工業(yè)集成化、可視化技術(shù)發(fā)展的限制。而近 10 年來,相關(guān)的技術(shù)得到了迅猛的發(fā)展,為 VR 的商業(yè)化和產(chǎn)品化奠定了技術(shù)基礎(chǔ)。除此之外,有一股不可忽視的力量在推動(dòng) VR 加速發(fā)展,那就是大資本。

(1)VR 背后的技術(shù)變革

顯示技術(shù)的發(fā)展可以劃分為 4 個(gè)階段:平面 2D> 曲面 2.5D> 頭戴顯示 3D> 裸眼全息。

人類生存的世界是三維的,但自從相機(jī)和顯示器誕生以來,一直以二維平面的方式來記錄和顯示這個(gè)三維世界,這是一種降維后的表現(xiàn)方式。從早期的陰極射線管顯示器(CRT)到輕薄的液晶顯示器(LCD),從黑白顯示到彩色顯示,每一次技術(shù)變革都沒有突破顯示維度的限制。全世界的科學(xué)家們都在努力嘗試打破這一困境,試圖還原一個(gè)真實(shí)的 3D 世界。

在虛擬現(xiàn)實(shí)技術(shù)出現(xiàn)在公眾視野之前,有另外兩種突破二維顯示的技術(shù)出現(xiàn)在了消費(fèi)市場,包括曲面 2.5D 顯示和裸眼 3D 顯示,但這兩種技術(shù)都未能獲得消費(fèi)者的 “芳心”。

  • 曲面 2.5D 顯示技術(shù)并沒有帶來信息可視化在維度上的突破,人們并不能從該顯示器中感知到第三維度的信息(視覺深度感)。

  • 裸眼 3D 顯示技術(shù)為觀看者帶來了視覺深度感,但目前的裸眼 3D 顯示技術(shù)還存在很多的技術(shù)難點(diǎn)有待突破,包括分辨率損失嚴(yán)重、觀看視角狹窄、相鄰視點(diǎn)跳躍等。在可預(yù)見的未來,裸眼 3D 技術(shù)還無法達(dá)到令消費(fèi)者滿意的效果。

因此,上述兩種超二維顯示技術(shù)都未能調(diào)和技術(shù)可行性和市場期待之間的矛盾。在這樣的局面下,虛擬現(xiàn)實(shí)應(yīng)運(yùn)而生,它是技術(shù)可行性和市場期待的折中產(chǎn)物。

(2)VR 背后的資本力量

除了相關(guān)技術(shù)的變革和發(fā)展,資本力量的推動(dòng)也是 VR 蓬勃發(fā)展的另一重要因素。如果說 2013 年谷歌眼鏡的推出是行業(yè)大鱷窺視頭戴顯示巨大寶藏的一隅,那么 2014 年 Facebook 斥資 20 億美金收購 Oculus 就是巨大資本撬開虛擬現(xiàn)實(shí)潘多拉魔盒的開始(注:Oculus 是一家專注于虛擬現(xiàn)實(shí)技術(shù)的公司)。

隨著資本的進(jìn)入,更多的科研力量、工程技術(shù)以及 3D 內(nèi)容開發(fā)都紛紛進(jìn)入了該領(lǐng)域。2016 年被稱為虛擬現(xiàn)實(shí)元年,HTC、Facebook、Sony 等國際巨頭,以及國內(nèi)的部分虛擬現(xiàn)實(shí)公司都將自己的 VR 產(chǎn)品正式推向了市場。在這樣的國際格局下,國內(nèi)的部分資金也開始瘋狂投向虛擬現(xiàn)實(shí)領(lǐng)域。

3、為什么能感知到三維

我們生活的世界是一個(gè)四維空間,包括水平維度、垂直維度、縱深維度和時(shí)間維度。例如在圖書館尋找一本書需要知道書籍處于第幾排、第幾列的書架,以及處于書架的第幾層。并且還需要知道這本書是否已經(jīng)借出,什么時(shí)候會(huì)出現(xiàn)在該書架。

通過視覺觀察物理世界時(shí)具有即時(shí)性,一般假設(shè)光線從環(huán)境中發(fā)出到人眼接收的時(shí)間為零,因此不用考慮時(shí)間維度,用前三個(gè)維度來描述所觀察的世界。例如伸手拿杯子時(shí),視覺系統(tǒng)會(huì)幫助我們判斷杯子處于手的左邊還是右邊,上邊還是下邊,前面還是后面。

在一個(gè)平面上可以很容易地感知到水平維度和垂直維度,但如何感知到第三維度——視覺深度呢?

眾所周知,雙目視差是提供視覺深度的重要途徑,但視覺深度不僅僅由雙目差來體現(xiàn),單眼也能感知到深度。深度信息(depth cues)有很多種 [1],主要包括以下信息。

1)雙目視差(binocular parallax),也稱為左右視差或雙目匯聚。所觀察的物體越近,視差越大(圖 1),雙眼匯聚角度越大(圖 2);所觀察的物體越遠(yuǎn),視差越小,雙眼匯聚角度越小。必須依靠雙目協(xié)同工作才能感知到雙目視差。


(圖 1 雙目視差)


(圖 2 雙目匯聚)

2)移動(dòng)視差(motion parallax),當(dāng)觀察視點(diǎn)改變后,遠(yuǎn)近不同的物體在人眼中產(chǎn)生的位移會(huì)不同,如圖 3 所示。經(jīng)過相同的視點(diǎn)改變,遠(yuǎn)處的物體在人眼中產(chǎn)生的位移更小,近處的物體在人眼中產(chǎn)生的位移更大。雙目和單目都可以感知到移動(dòng)視差。


(圖 3 移動(dòng)視差)

3)聚焦模糊(focus-blur),人眼的工作原理可以簡化為一個(gè)照相機(jī)。當(dāng)改變相機(jī)鏡頭的焦距時(shí),相機(jī)可以聚焦在遠(yuǎn)近不同的平面上,從而使聚焦平面上的物體清晰成像,非聚焦平面的物體成像模糊。人眼的睫狀肌就扮演著 “相機(jī)鏡頭” 的角色。

如圖 4 所示,當(dāng)睫狀肌緊繃時(shí),人眼聚焦在近處平面;當(dāng)睫狀肌舒張時(shí),人眼聚焦在遠(yuǎn)處平面。根據(jù)睫狀肌的屈張程度,視覺系統(tǒng)可以判斷出物體的相對(duì)遠(yuǎn)近。單目即可明顯感知到聚焦模糊。


(圖 4 聚焦模糊)

除了上述 3 種主要的深度信息,大腦會(huì)根據(jù)一些視覺經(jīng)驗(yàn)來判斷物體遠(yuǎn)近,例如遮擋關(guān)系、近大遠(yuǎn)小關(guān)系;同時(shí)也會(huì)根據(jù)一些先驗(yàn)知識(shí)作為輔助判斷,例如看到一個(gè)杯子,先驗(yàn)知識(shí)會(huì)告訴大腦杯子不會(huì)太遠(yuǎn);若看到一座高山,先驗(yàn)知識(shí)會(huì)告訴大腦高山在很遠(yuǎn)的地方。

4、VR 的基本原理


虛擬現(xiàn)實(shí)的三維成像原理并不復(fù)雜,其基本原理和 3D 電影院一致,如圖 5 所示,都是給左右眼分別呈現(xiàn)不同的圖像,從而產(chǎn)生雙目視差。當(dāng)大腦在合成左右眼的圖像時(shí),會(huì)根據(jù)視差大小判斷出物體的遠(yuǎn)近 [1]。

虛擬現(xiàn)實(shí)眼鏡不僅提供了雙目視差,還提供了 3D 電影院所不具備的移動(dòng)視差信息。當(dāng)坐在 3D 電影院的第一排最左邊和最右邊的位置時(shí),所看到的 3D 內(nèi)容是一樣的。但正確的 3D 成像方式應(yīng)該是:坐在最左排的觀看者看見物體的左側(cè)面,坐在最右排的觀看者看見物體的右側(cè)面。例如觀看桌面上的茶杯時(shí),左右移動(dòng)頭部會(huì)看見茶杯的不同側(cè)面。

如圖 6 所示,虛擬現(xiàn)實(shí)眼鏡同時(shí)提供了雙目視差和移動(dòng)視差,不僅左右眼圖像不同,而且當(dāng)旋轉(zhuǎn)或平移頭部時(shí)看見的 3D 內(nèi)容也不同。


(圖 5 3D 電影院成像原理)


圖 6 虛擬現(xiàn)實(shí)頭戴顯示設(shè)備 Oculus Rift(圖片來源于 Oculus 官方網(wǎng)站)

當(dāng)前 VR 產(chǎn)品形態(tài)主要分為 3 種:基于手機(jī)的 VR、VR 一體機(jī)、基于 PC 機(jī)的 VR,主要特點(diǎn)如表 1 所示。由于技術(shù)和成本的限制,當(dāng)前的 VR 產(chǎn)品都在價(jià)格、性能、舒適度三者之間平衡,上述 3 種形態(tài)的 VR 產(chǎn)品只是在不同的方面有所側(cè)重。

目前消費(fèi)市場中尚未出現(xiàn)低價(jià)格、高性能的輕薄 VR 眼鏡。同時(shí)從表 1 中也可以看出,從低廉的到昂貴的 VR 產(chǎn)品都會(huì)引起眩暈和人眼疲勞。高性能的 VR 產(chǎn)品在眩暈的耐受時(shí)間上稍微有所延長,但仍然無法達(dá)到像智能手機(jī)一樣長時(shí)間使用。


虛擬現(xiàn)實(shí)根據(jù)使用場景大致可以分為座椅式、站立式,場地式。

顧名思義,座椅式 VR 限制用戶位在座椅上,只能檢測到視點(diǎn)的姿態(tài)旋轉(zhuǎn)變換(Pitch,Yaw,Roll),而忽略視點(diǎn)平移變化。如圖 7 所示,Pitch 圍繞 x 軸旋轉(zhuǎn),也叫做俯仰角,Yaw 是圍繞 y 軸旋轉(zhuǎn),也叫偏航角,Roll 是圍繞 z 軸旋轉(zhuǎn),也叫翻滾角。

而站立式 VR 和場地式 VR 都能同時(shí)檢測到視點(diǎn)的姿態(tài)旋轉(zhuǎn)變化和平移變化。

站立式 VR 允許用戶在獨(dú)立的房間內(nèi)(一般為 10 mx10 m 以內(nèi))自由走動(dòng),活動(dòng)范圍較狹窄,不適用于模擬大范圍的場景。場地式 VR 理論上允許用戶可以在無限范圍內(nèi)自由走動(dòng),是真正意義上的虛擬世界。但鑒于場地有限,傳感器的工作范圍有限。實(shí)際(運(yùn)用)中場地式 VR 需要萬向跑步機(jī)的支撐,將跑步機(jī)履帶的平移數(shù)據(jù)轉(zhuǎn)化為人體的移動(dòng)數(shù)據(jù)。

表 2 中所列舉的交互方式是對(duì)應(yīng)場景下的主要交互方式而非唯一交互方式。

目前虛擬現(xiàn)實(shí)還沒有標(biāo)準(zhǔn)的輸入設(shè)備。在傳統(tǒng)手柄的基礎(chǔ)上,出現(xiàn)了一些新穎的 VR 輸入方式。頭控是指通過頭部的運(yùn)動(dòng)改變指針位置,通過懸停表示確認(rèn)。線控是指通過現(xiàn)有的連接線(例如耳機(jī)線)來實(shí)現(xiàn)簡單的按鍵操作。觸摸板一般位于 VR 頭盔的側(cè)面,與筆記本電腦的觸摸板實(shí)現(xiàn)相同的功能。根據(jù) VR 場景,交互方式也可以是彷手型手柄,例如槍械、手術(shù)刀等。



圖 7 頭部姿態(tài)變化的三個(gè)自由度(圖片來源:Oculus Rift SDK 文檔插圖)

5、VR 的技術(shù)瓶頸

虛擬現(xiàn)實(shí)技術(shù)經(jīng)過近幾年的快速發(fā)展,各方面性能逐步完善,但仍然面臨著一些關(guān)鍵技術(shù)有待改進(jìn)和突破。主要可以概括為下列 3 個(gè)方面。

1)大范圍多目標(biāo)精確實(shí)時(shí)定位。目前在已經(jīng)面向市場的 VR 產(chǎn)品中,當(dāng)屬 HTC Vive Pre 的定位精度最高,時(shí)延最低。HTC Vive Pre 的定位主要依靠 Light House 來完成。Light House 包括紅外發(fā)射裝置和紅外接收裝置。紅外發(fā)射裝置沿著水平和垂直兩個(gè)方向高速掃描特定空間,在頭盔和手柄上均布有不少于 3 個(gè)紅外接收器,且頭盔(手柄)上所有的紅外接收器之間的相對(duì)位置保持不變。當(dāng)紅外激光掃過頭盔或手柄上的紅外接收器時(shí),接收器會(huì)立即響應(yīng)。根據(jù)多個(gè)紅外接收器之間的響應(yīng)時(shí)間差,不僅可以計(jì)算出頭盔(手柄)的空間位置信息還能得出姿態(tài)角度信息。

目前 HTC Vive Pre 只能工作于一個(gè)獨(dú)立的空曠房間中。障礙物會(huì)阻擋紅外光的傳播。而大范圍、復(fù)雜場景中的定位技術(shù)仍需突破。多目標(biāo)定位對(duì)于多人同時(shí)參與的應(yīng)用場景至關(guān)重要。當(dāng)前的虛擬現(xiàn)實(shí)系統(tǒng)主要為個(gè)人提供沉浸式體驗(yàn),例如單個(gè)士兵作戰(zhàn)訓(xùn)練。當(dāng)多個(gè)士兵同時(shí)參與時(shí),彼此希望看見隊(duì)友,從而到達(dá)一種更真實(shí)的群體作戰(zhàn)訓(xùn)練,這不僅需要對(duì)多個(gè)目標(biāo)進(jìn)行定位,還需要實(shí)現(xiàn)多個(gè)目標(biāo)的數(shù)據(jù)共享。

2)感知的延伸。視覺是人體最重要、最復(fù)雜、信息量最大的傳感器。人類大部分行為的執(zhí)行都需要依賴視覺,例如日常的避障、捉取、識(shí)圖等。但視覺并不是人類的唯一的感知通道。虛擬現(xiàn)實(shí)所創(chuàng)造的模擬環(huán)境不應(yīng)僅僅局限于視覺刺激,還應(yīng)包括其他的感知,例如觸覺、嗅覺等。

3)減輕眩暈和人眼疲勞。目前所有在售的 VR 產(chǎn)品都存在導(dǎo)致佩戴者眩暈和人眼疲勞的問題。其耐受時(shí)間與 VR 畫面內(nèi)容有關(guān),且因人而異,一般耐受時(shí)間為 5~20 min;對(duì)于畫面過度平緩的 VR 內(nèi)容,部分人群可以耐受數(shù)小時(shí)。

上述的技術(shù)瓶頸中,大范圍多目標(biāo)精確實(shí)時(shí)定位已經(jīng)取得了一定的突破,在成本允許的情況下,通過大面積的部署傳感器是可以解決這一問題的。感知的延伸還存在較大的技術(shù)難度,尤其是觸覺;但當(dāng)前的 VR 應(yīng)用對(duì)感知的延伸并沒有迫切的需求。相比之下,眩暈和人眼疲勞卻是一個(gè)到目前為止還沒有解決但又迫切需要解決的問題,是現(xiàn)階段虛擬現(xiàn)實(shí)的技術(shù)禁地。

為什么會(huì)眩暈?

如第 4 節(jié)所述,虛擬現(xiàn)實(shí)比 3D 電影提供了更豐富的三維感知信息,更逼近于人眼觀看三維物理世界的方式。但為什么 VR 眼鏡在佩戴一段時(shí)間后會(huì)導(dǎo)致眩暈和人眼疲勞呢?其原因是多樣的,主要包括如下三方面。

  • 1)身已動(dòng)而畫面未動(dòng)。如果無法獲取 VR 眼鏡的姿態(tài)和平移信息,則無法感知到移動(dòng)視差。身體移動(dòng)后,觀看視點(diǎn)的位置和觀看角度也隨之改變,但人眼看見的 3D 畫面并沒有相應(yīng)的改變。這會(huì)導(dǎo)致大腦在處理視覺信息和肢體運(yùn)動(dòng)信息時(shí)產(chǎn)生沖突,從而在一定程度上導(dǎo)致眩暈不適。

  • 2)畫面已動(dòng)而身未動(dòng)。目前虛擬現(xiàn)實(shí)的應(yīng)用還局限在一個(gè)非常有限的物理空間內(nèi)。當(dāng)畫面快速變化時(shí),我們身體的運(yùn)動(dòng)也應(yīng)該與之匹配,但受到運(yùn)動(dòng)范圍的限制,身體并沒有產(chǎn)生對(duì)應(yīng)幅度的運(yùn)動(dòng),從而在大腦中產(chǎn)生了肢體運(yùn)動(dòng)信息和視覺信息的沖突。例如,通過虛擬現(xiàn)實(shí)體驗(yàn)過山車時(shí),觀看視點(diǎn)和角度在快速地變化,但身體卻保持不變。當(dāng) VR 畫面變化(過度)越快時(shí),大腦產(chǎn)生的沖突越明顯。

上述兩種眩暈都是由視覺信息與肢體運(yùn)動(dòng)信息之間的沖突造成的,統(tǒng)稱為暈動(dòng)癥。產(chǎn)生暈動(dòng)癥的技術(shù)原因是多方面的。

(1)空間位置定位和姿態(tài)角度定位的精度和速度。

慣性測量裝置(inertial measurement unit,IMU)是一種微機(jī)電(MEMS)模塊,也是當(dāng)前 VR 眼鏡測量角度姿態(tài)的主要技術(shù)手段。但 IMU 只能測量姿態(tài)角度,不能測量空間位移。多個(gè) IMU 組合可以實(shí)現(xiàn)空間位移測量,但積累誤差大且難以消除,暫不適用于 VR 眼鏡。

另一種定位技術(shù)是基于傳統(tǒng)攝像頭的 SLAM(simultaneous localization and mapping)算法 [2],可以同時(shí)實(shí)現(xiàn)空間位置定位和姿態(tài)角度定位且適用于復(fù)雜場景,但目前 SLAM 算法在精度、速度和穩(wěn)定性上都有待提高?;陔p目相機(jī)或深度相機(jī)的 SLAM 是一個(gè)有價(jià)值的潛在研究方向。

目前最實(shí)用的定位技術(shù)是 HTC Vive Pre 中應(yīng)用的紅外激光定位技術(shù),硬件成本低且同時(shí)具備高精度低時(shí)延的空間位置定位和姿態(tài)角度定位,但其應(yīng)用局限于小范圍的空曠場景中。

(2)顯示器件的刷新頻率。

目前頭戴顯示(HMD)的像源主要包括微投影儀和顯示屏兩種。其中微投影儀主要應(yīng)用在增強(qiáng)現(xiàn)實(shí)(AR,Argumented Reality)中,例如 Google Glass,Hololens,Meta,Lumus,Magic Leap 等。虛擬現(xiàn)實(shí)主要采用小尺寸顯示屏(6 寸以下)作為像源,其中顯示屏又分為液晶顯示屏(LCD,Liquid Crystal Display)和有機(jī)自發(fā)光顯示屏(OLED,organic light-emitting diode)。

目前 LCD 和 OLED 屏幕的刷新率普遍能達(dá)到 60 Hz 以上,部分型號(hào)甚至能達(dá)到 90 Hz 以上。OLED 采用自發(fā)光成像,因此余暉比 LCD 更小,上一幀圖像的殘影更小。

(3)圖像渲染時(shí)延。

虛擬現(xiàn)實(shí)所創(chuàng)建的模擬環(huán)境是經(jīng)計(jì)算機(jī)圖形圖像學(xué)渲染生成得到。渲染的速度直接由計(jì)算機(jī)性能決定,尤其依賴于計(jì)算機(jī)中的顯卡(graphic processing unit,GPU)性能。目前高性能的 GPU 渲染一個(gè)復(fù)雜場景已能達(dá)到全高清(Full HD)90fps 以上。

VR 眼鏡的圖像刷新速度取決于上述 3 個(gè)技術(shù)指標(biāo)的最低值。也即,上述 3 個(gè)環(huán)節(jié)中,任何 1 個(gè)環(huán)節(jié)速度慢都會(huì)導(dǎo)致圖像刷新率降低,從而出現(xiàn)暈動(dòng)癥。在前幾年,VR 設(shè)備廠商將 VR 眼鏡的眩暈歸因于 “圖像刷新太慢”。但目前最新的 VR 眼鏡在空間位置定位和姿態(tài)角度定位的速度、顯示器件的刷新頻率,圖像渲染速率 3 個(gè)指標(biāo)均能達(dá)到 90 Hz,遠(yuǎn)高于人眼時(shí)間暫留的刷新閾值(24 Hz)。

為什么還是會(huì)眩暈?zāi)??有人懷疑是活?dòng)范圍有限導(dǎo)致身體移動(dòng)的幅度與畫面變化幅度不一致。萬向跑步機(jī)無限延伸了活動(dòng)范圍,但眩暈的問題依然存在。由此可見,上述兩個(gè)方面是造成了眩暈的表象原因,并不是根本原因。

  • 3)聚焦與視差沖突。對(duì)照第 3 節(jié)中提到的 3 種主要深度信息,當(dāng)前的頭戴顯示設(shè)備只提供了前兩種,也即 “雙目視差” 和“移動(dòng)視差”,而沒有提供 “聚焦模糊”。聚焦丟失(聚焦錯(cuò)亂)是產(chǎn)生眩暈的“罪魁禍?zhǔn)住薄?/span>

“聚焦模糊” 真的就這么重要嗎?眾所周知,雙眼能感知物體遠(yuǎn)近,但其實(shí)單眼也可以。當(dāng)伸出手指,只用一只眼注視手指時(shí),前方的景物模糊了;而當(dāng)注視前方景物時(shí),手指變的模糊,這是由眼睛的睫狀肌屈張調(diào)節(jié)來實(shí)現(xiàn)的。眼鏡聚焦在近處時(shí),睫狀肌收縮,近處的物體清晰而遠(yuǎn)處的場景模糊;眼鏡聚焦在遠(yuǎn)處時(shí),睫狀肌舒張,遠(yuǎn)處的場景清晰而近處的物體模糊。通過睫狀肌的屈張程度能粗略感知到物體的遠(yuǎn)近,因此單眼也能感知到立體三維信息。

如圖 8 所示,現(xiàn)階段的虛擬現(xiàn)實(shí)頭顯設(shè)備只提供單一景深的圖片,且圖片的景深固定。這導(dǎo)致人眼始終聚焦在固定距離的平面上。當(dāng)通過 “聚焦模糊” 感知到的深度信息與通過 “雙目視差” 感知到的深度信息不一致時(shí),就會(huì)在大腦中產(chǎn)生嚴(yán)重的沖突,稱為“聚焦與視差沖突”(accommodation-convergence conflict,ACC)[3~6]。而且當(dāng)大腦檢測到 ACC 時(shí),會(huì)強(qiáng)迫睫狀肌調(diào)節(jié)到新的屈張水平使之與雙目視差所提供的深度信息相匹配。當(dāng)睫狀肌被強(qiáng)迫調(diào)節(jié)后,因?yàn)榫劢瑰e(cuò)亂,圖像會(huì)變的模糊;此時(shí)大腦會(huì)重新命令睫狀肌調(diào)節(jié)到之前的屈張水平。如此周而復(fù)始,大腦就 “燒” 了。


圖 8 現(xiàn)階段的虛擬現(xiàn)實(shí)頭顯設(shè)備只提供單一景深畫面(圖片來源:Yule

回到之前 3D 電影眩暈的問題,當(dāng)觀看者坐在第一排中間位置時(shí),雙眼到大熒幕距離為 10 m 且保持不變。當(dāng) 3D 內(nèi)容為遠(yuǎn)處的高山時(shí),雙目視差較小,會(huì)引導(dǎo)人眼注視于前方幾百米處。而人眼接收的光線都來自 10 m 處的大熒幕,左眼和右眼會(huì)自主地聚焦在 10 m 處的平面上以便能清晰地看見圖像。此時(shí)雙目的匯聚和睫狀肌的屈張水平不一致,從而導(dǎo)致了人眼不適。同理,當(dāng) 3D 內(nèi)容為眼前 1 m 處的一條蛇時(shí),人眼仍然聚焦在 10 m 處的平面,從而產(chǎn)生類似的聚焦與視差沖突。

聚焦與視差之間的沖突比視覺信息與肢體運(yùn)動(dòng)信息之間的沖突更嚴(yán)重。舉個(gè)例子,反恐精英(Counter-Strike,CS)是一款風(fēng)靡世界的射擊類游戲,玩家以第一人稱視點(diǎn)在虛擬環(huán)境中奔跑,跳躍和射擊。當(dāng)畫面變化時(shí),玩家仍然靜坐在電腦前,并沒有實(shí)際的跑動(dòng)和跳躍。此時(shí)玩家并沒有產(chǎn)生眩暈的感覺,甚至能長時(shí)間沉浸其中。

其原因在于玩家經(jīng)過一段時(shí)間的訓(xùn)練以后,在大腦中建立了肢體運(yùn)動(dòng)與鼠標(biāo)鍵盤操作之間的映射關(guān)系,比如前后左右跑動(dòng)與鍵盤 W、S、A、D 按鍵對(duì)應(yīng),跳躍與空格按鍵對(duì)應(yīng)。因此,通過運(yùn)動(dòng)關(guān)系的映射,視覺信息與肢體運(yùn)動(dòng)信息之間的沖突(暈動(dòng)癥)得以大大減輕,但睫狀肌的屈張是一種自發(fā)行為。睫狀肌會(huì)自主地屈張到正確的水平,以保證人眼聚焦在所關(guān)注物體的表面。并且人眼總是趨向于得到最清晰的視覺成像,這也會(huì)促使睫狀肌處于與之匹配的屈張水平。因此強(qiáng)迫睫狀肌處于非正確的屈張水平或被錯(cuò)誤地引導(dǎo)到不匹配的屈張水平都會(huì)導(dǎo)致上述的沖突,從而導(dǎo)致眩暈和人眼疲勞。

通過訓(xùn)練來建立類似于 “反恐精英” 中的大腦映射是無法解決此類沖突的,只能通過頭戴顯示設(shè)備產(chǎn)生不同深度的圖片去引導(dǎo)人眼自然地聚焦在遠(yuǎn)近不同的平面上才能從根本上解決這一沖突,從而解決眩暈和人眼疲勞。

VR 眼鏡的嚴(yán)重眩暈問題引發(fā)了對(duì)另一個(gè)問題的思考,為什么 3D 電影在數(shù)小時(shí)后才出現(xiàn)眩暈或人眼疲勞,而 VR 眼鏡的耐受時(shí)間一般只有 5~20 min?

  • 一方面是因?yàn)?3D 電影已經(jīng)普及多年,能適應(yīng) 3D 電影的人群已經(jīng)變得更加適應(yīng),不能適應(yīng) 3D 電影的人群已經(jīng)不再去 3D 電影院,所以造成所有人都能耐受 3D 電影數(shù)小時(shí)的假象。

  • 另一方面,3D 電影是第三人稱視角觀看,而虛擬現(xiàn)實(shí)使觀看者處于第一人稱視角,暈動(dòng)癥更加明顯。

  • 再一方面,3D 電影的熒幕距離人眼較遠(yuǎn)(一般十米到幾十米不等),雖然聚焦錯(cuò)亂的問題依然存在,但睫狀肌始終處于較舒張的狀態(tài)。而 VR 眼鏡的屏幕經(jīng)準(zhǔn)直透鏡放大以后,一般等效在較近處(一般 2~5 m),睫狀肌始終保持緊繃的狀態(tài),人眼更易疲勞。

上述 3 個(gè)原因?qū)е铝颂摂M現(xiàn)實(shí)的耐受時(shí)間相比于 3D 電影縮短了很多。

眩暈是目前虛擬現(xiàn)實(shí)最大的技術(shù)瓶頸,大大限制了虛擬現(xiàn)實(shí)產(chǎn)業(yè)的長足發(fā)展,并且會(huì)對(duì)人眼造成傷害。在 VR 眼鏡佩戴的全過程中都會(huì)強(qiáng)迫人眼處于錯(cuò)誤的聚焦平面,睫狀肌得不到連續(xù)自然的舒張和收縮。

長此以往,睫狀肌彈性下降,失去了自主調(diào)節(jié)的能力,從而導(dǎo)致近視。尤其對(duì)于 12 歲以下兒童,人眼器官正處于生長發(fā)育階段,VR 眼鏡會(huì)大大增加患近視的可能性。即使是成人,長期佩戴也會(huì)導(dǎo)致視力下降。因此虛擬現(xiàn)實(shí)應(yīng)用于幼教領(lǐng)域需嚴(yán)格控制佩戴時(shí)間。幼兒應(yīng)盡可能減少甚至不佩戴 VR 眼鏡,直到突破這一技術(shù)瓶頸。

光場顯示技術(shù)

在討論如何解決虛擬現(xiàn)實(shí)的眩暈問題之前,先思考人眼是如何觀看三維物理世界的?

環(huán)境表面的每一個(gè)點(diǎn)都會(huì)在半球范圍內(nèi)發(fā)出光線(自發(fā)光或反射光)??臻g中的點(diǎn)可以通過三維坐標(biāo) (x,y,z) 來唯一表示;每個(gè)點(diǎn)在半球范圍內(nèi)發(fā)出的光線通過水平夾角ф和垂直夾角φ來描述;光線的顏色通過波長λ表示(光線還包括亮度信息,這里用λ統(tǒng)一表示);環(huán)境光線隨著時(shí)間是變化的,不同時(shí)刻 t 下的光線也不一樣。因此,環(huán)境光線可以通過 7 個(gè)維度的變量來描述 [7],稱為全光函數(shù) P=(x,y,z,ф,φ,λ,t)。假設(shè)環(huán)境光線在一定時(shí)間內(nèi)穩(wěn)定不變,則每條光線的波長可以用 5D 函數(shù)表示為λ=F(x,y,z,ф,φ)。


(圖 9 全光函數(shù)模型)

如果顯示器能產(chǎn)生上述 5D 函數(shù)中所有的光線,則觀看者通過該顯示器能在視覺上感知到與真實(shí)世界中一樣的三維環(huán)境。但遺憾的是,目前全世界都沒有這樣的顯示器。當(dāng)前的電視、電腦、手機(jī)等平面顯示屏只實(shí)現(xiàn)了上述 5D 函數(shù)中的 2 個(gè)維度,也即λ=F(x,y)。

近幾年出現(xiàn)的曲面顯示屏增加了維度 Z 上的像素點(diǎn),但在維度 Z 上并不完備。因此,曲面顯示屏不是 3D 顯示器,只能算作 2.5D 顯示器??茖W(xué)家們?cè)鴩L試了多種方法從傳統(tǒng)的 2 個(gè)維度顯示提升到更高維度顯示,但目前仍停留在實(shí)驗(yàn)室階段,尚無可商業(yè)化的產(chǎn)品。例如:

  • 1)體三維顯示 [8](Volumetric3D Display)在空間中不同位置發(fā)出光線,實(shí)現(xiàn)了 F(x,y,z)3 個(gè)維度的顯示,但依賴于機(jī)械運(yùn)動(dòng),且無法呈現(xiàn)正確的遮擋關(guān)系;

  • 2)基于微透鏡陣列的集成成像 [9](Integral Imaging)需要將一層特殊的光學(xué)膜貼在平面顯示屏上,實(shí)現(xiàn)了 F(x,y,ф,φ)4 個(gè)維度的顯示,但圖像分辨率大大降低,且在 (ф,φ) 維度上采樣率越高,圖像的分辨率損失越嚴(yán)重;

  • 3)投影儀陣列 [10](Projector Array)從不同的方向發(fā)出不同的光線,實(shí)現(xiàn)了 F(x,y,ф,φ)4 個(gè)維度的顯示且分辨率不損失,但硬件成本高昂且體積大。

如果能將傳統(tǒng)的 2D 平面顯示提升到 5D 顯示,人眼將不借助任何頭戴設(shè)備而獲得類似全息顯示的效果。但根據(jù)顯示領(lǐng)域目前的技術(shù)發(fā)展,在未來較長一段時(shí)間內(nèi)難以實(shí)現(xiàn)輕便低廉的 5D 全光顯示器。

如圖 10 所示,上述的 5D 全光函數(shù)是從 “環(huán)境表面發(fā)出了什么光線?” 這一角度來建立數(shù)學(xué)模型。但從另一個(gè)角度來建模將會(huì)簡化問題——“觀看環(huán)境時(shí),人眼接收了什么光線?”。如果頭戴顯示器能重現(xiàn)出人眼應(yīng)該接收的全部光線,人眼將從頭戴顯示器中看到真實(shí)的三維場景。


(圖 10 環(huán)境表面發(fā)出的光線和人眼接收到的光線)

5D 全光函數(shù)描述了環(huán)境表面發(fā)出的所有光線,但并不是所有的光線都進(jìn)入了人眼,只有部分光線最終被人眼接收。因此進(jìn)入人眼的光線是 5D 全光函數(shù)的一個(gè)子集。且隨著人眼位置和注視方向的不同,人眼接收到不同子集的光線。

將人眼的瞳孔分為 Nx×Ny 個(gè)子區(qū),用(x,y)表示橫向第 x 個(gè),縱向第 y 個(gè)瞳孔子區(qū),圖 11 中左圖展示了一個(gè) 4×4 瞳孔分區(qū)的視覺成像模型。

如果瞳孔的分區(qū) Nx=1,Ny=1;也即整個(gè)瞳孔作為一個(gè)區(qū),這與傳統(tǒng)的小孔成像模型是等效的。每個(gè)子區(qū)都會(huì)接收到很多從不同角度入射的光線,入射角度用 (α,β) 表示。因此,進(jìn)入人眼的光線可以通過一個(gè) 4D 函數(shù)來描述,可以稱之為全視函數(shù)λ=F(x,y,α,β)。光線進(jìn)入人眼的位置 (x,y) 和進(jìn)入的角度 (α,β) 共同決定了光線會(huì)落在視網(wǎng)膜上的什么位置。如果不考慮與眼睛注視方向垂直的光線,5D 全光函數(shù)可以降維到 4D 光線集合,一般用兩個(gè)平面 (u,v) 和 (s,t) 來表示,稱為 “光場”[11]。

本文中采用一個(gè)平面 (x,y) 和一對(duì)角度 (α,β) 表示人眼接收光線的集合,是一種更適合于頭戴顯示的光場定義。

頭戴顯示設(shè)備如何投射出 4D 光場呢?假設(shè)光線在傳播過程中被看作一條射線,且沿著射線的方向上亮度和顏色不改變。例如圖 11 左圖中藍(lán)點(diǎn)發(fā)出的第二條光線(藍(lán)色粗線)與其射線方向上投影儀發(fā)出的光線是等效的,這樣的假設(shè)對(duì)于日常環(huán)境中的光線傳播完全合理。

基于上述合理假設(shè),采用投影儀陣列可以模擬重現(xiàn)出 4D 光場,如圖 11 中右圖所示。當(dāng)投影儀足夠多、足夠密集時(shí),就可以在一定視野范圍內(nèi)無限逼近地投射出人眼應(yīng)該接收到的全部光線。但投影儀體積較大,無法密集排列,且硬件成本高。值得一提的是,美國 Magic Leap 公司在 2015 年展示了一種基于光纖微型投影儀陣列的動(dòng)態(tài)光場成像技術(shù),大大減小了投影儀陣列的體積,提高了投影儀排列密度,但硬件成本仍然高昂。


(圖 11 全視函數(shù)模型)

投影陣列通過增加顯示器件來提高成像維度,這是一種最直接的將傳統(tǒng) 2D 顯示提升到 4D 光場顯示的方法。但是通過不斷增加硬件設(shè)備來增加像源的自由度并不是一種高效的解決方案。首先硬件成本會(huì)急劇增加,例如實(shí)現(xiàn)圖 11 右圖中 4×4 投影陣列的光場,需要 16 倍的硬件成本;且數(shù)據(jù)的存儲(chǔ)和傳輸也會(huì)增加到 16 倍。

光場顯示為什么能解決頭戴顯示的眩暈問題呢?

如上所述,光場顯示提供了真實(shí)環(huán)境中發(fā)出的并由人眼接收的全部光線。人眼在觀看真實(shí)環(huán)境時(shí)不眩暈,那么通過光場頭顯設(shè)備也就不會(huì)眩暈。如圖 4 中,遠(yuǎn)近不同的點(diǎn)進(jìn)入人眼的角度不同,這在 4D 光場λ=F(x,y,α,β) 中通過角度參數(shù) (α,β) 來體現(xiàn)。因此,通過光場顯示,人眼能自然的聚焦在遠(yuǎn)近不同的發(fā)光點(diǎn)上。從而睫狀肌的屈張水平始終與雙目視差保持一致,避免在大腦中產(chǎn)生 ACC 沖突。

如圖 12 所示,當(dāng)同時(shí)呈現(xiàn)遠(yuǎn)近不同的圖像層時(shí),人眼能夠自主地選擇聚焦平面。真實(shí)環(huán)境中,圖像層數(shù)達(dá)到無窮多層,由近及遠(yuǎn)連續(xù)分布。這意味著需要無窮多臺(tái)投影儀才能重現(xiàn)連續(xù)分布的圖像層,這顯然是不切實(shí)際的。因此,在實(shí)際的光場顯示中采用離散的圖像層去近似逼近連續(xù)的圖像層。當(dāng)圖像層數(shù)達(dá)到 8 層及以上時(shí),人眼就能獲得近似的聚焦感知。當(dāng)然,圖像層數(shù)越多,聚焦越連續(xù),視覺效果越自然,眩暈改善越顯著。當(dāng)前所有在售的頭戴顯示設(shè)備都只提供了 1 層圖像,還遠(yuǎn)遠(yuǎn)不能達(dá)到近似連續(xù)聚焦的成像效果。


(圖 12 支持多層聚焦成像的光場顯示)

除了投影陣列,還有多種技術(shù)可以實(shí)現(xiàn)光場顯示。例如,時(shí)分復(fù)用的投影技術(shù)采用一臺(tái)高速投影儀從空間中不同位置投射圖像,通過復(fù)用一臺(tái)高速投影儀去 “頂替” 投影儀陣列 [12]。但目前實(shí)現(xiàn)微型化的高精度機(jī)械控制比較困難,因此該技術(shù)不適用于頭戴顯示。

斷層成像 [13,14] 技術(shù)實(shí)現(xiàn)了數(shù)字化的空間光調(diào)制,只需要 2~3 倍的硬件成本就能實(shí)現(xiàn) 5×5 的光場成像,但計(jì)算量大、算法復(fù)雜度高,當(dāng)前的個(gè)人計(jì)算機(jī)還無法實(shí)現(xiàn)在線高分辨的光場計(jì)算。該技術(shù)適用于離線應(yīng)用(如光場電影)或者可在云端計(jì)算完成的應(yīng)用(如光場虛擬現(xiàn)實(shí)直播)。

綜上所述,光場是最接近人眼觀看自然環(huán)境的成像方式,彌補(bǔ)了當(dāng)前頭戴顯示都不具備的 “聚焦模糊”,將人眼睫狀肌從固定的屈張水平中解放出來,消除了眩暈,減輕了人眼疲勞。實(shí)現(xiàn)光場成像已有多種技術(shù)手段,但都有各自的缺陷。受成本、計(jì)算量、設(shè)備體積的限制,當(dāng)前的光場成像技術(shù)還只能在部分行業(yè)應(yīng)用。

目前在售的 VR 眼鏡普遍都比較厚重,輕薄化是虛擬現(xiàn)實(shí)設(shè)備未來的必然趨勢(shì)??梢酝ㄟ^優(yōu)化光學(xué)設(shè)計(jì),減小透鏡的焦距來縮短光程,從而減小 VR 眼鏡的厚度,但短焦距的透鏡會(huì)帶來色差和畸變等其他光學(xué)問題,且透鏡重量會(huì)隨著焦距的縮短而增加。

光場成像不僅解決了眩暈問題,還能使頭顯設(shè)備變得更輕更薄?;谏鲜龉饩€在射線傳播方向上具有不變性的假設(shè),投影陣列可以移動(dòng)到更靠近眼睛的位置,在不改變透鏡焦距的前提下可以縮短光程,只需要根據(jù)投影陣列與透鏡的相對(duì)位置對(duì)光線進(jìn)行反向追跡渲染即可獲得等效的光場成像。

最近出現(xiàn)了一些基于眼球追蹤的光場顯示技術(shù),其根據(jù)人眼的注視方向,選擇性的模糊掉人眼并不關(guān)注的像素塊,從而造成一種人眼可以主動(dòng)選擇聚焦的假象。這一類技術(shù)可以歸為偽光場成像。究其本質(zhì),偽光場成像技術(shù)仍然只提供了λ=F(x,y) 兩個(gè)維度上的光線。換言之,偽光場成像技術(shù)只提供了 1 層圖像,人眼仍然無法主動(dòng)選擇性聚焦,眩暈的問題依然沒有得到解決。

計(jì)算攝像

光場成像技術(shù)顯示了 4 個(gè)維度的光線,但如何采集 4D 光線呢?在計(jì)算機(jī)中可以對(duì)三維模型直接渲染得到 4D 光場,但是如何拍攝真實(shí)場景中的 4D 光場呢?

可以明確的是,傳統(tǒng)的攝像技術(shù)是無法采集 4D 光場的。攝像技術(shù)最早可以追溯到小孔成像,現(xiàn)今使用的相機(jī)仍然沿用著小孔成像模型。如圖 12 中所示,光場成像技術(shù)在不同深度上呈現(xiàn)多幅圖片。而傳統(tǒng)的相機(jī)只在一個(gè)聚焦平面上采集圖像。傳統(tǒng)相機(jī)拍攝的平面 2D 圖片只是 4D 光場的一個(gè)子集。因此大量的光線信息在拍攝過程中丟失了。要顯示光場,首先要解決如何采集光場的問題,否則 “巧婦難為無米之炊”。

光場采集依賴于一門稱為計(jì)算攝像(computational photography)的學(xué)科。最早的計(jì)算攝像是基于大量的相機(jī)從不同的角度分別拍攝來采集光場,也稱之為相機(jī)陣列 [15,16]。當(dāng)然也可以采用單個(gè)相機(jī)移動(dòng)拍攝,但只能采集靜態(tài)場景的光場。相機(jī)陣列是早期形態(tài)的光場相機(jī),占地面積大,操作復(fù)雜,成本昂貴。

目前市面上已經(jīng)出現(xiàn)了消費(fèi)級(jí)的光場相機(jī)(如 Lytro [17])可以在單次拍攝中采集光場。Lytro 光場相機(jī)采用微透鏡陣列(microlens array)采集不同角度入射的光線。相比于相機(jī)陣列,Lytro 光場相機(jī)體積大大減小,硬件成本降低,但分辨率也大大降低。

基于上述兩種光場相機(jī)的優(yōu)缺點(diǎn),科學(xué)家們提出了一種基于壓縮感知的光場相機(jī) [18,19]。該光場相機(jī)通過 “學(xué)習(xí)” 已采集的光場,訓(xùn)練得到光場字典。利用訓(xùn)練得到的光場字典去恢復(fù)出待采集的光場?;趬嚎s感知的光場相機(jī)同時(shí)具有小體積和分辨率不損失的優(yōu)點(diǎn),但需要改造相機(jī)(在 CCD 表面插入一塊編碼過濾片),且其算法復(fù)雜度高、運(yùn)算量大,目前還難以推向消費(fèi)市場。

6、VR 與 AR/MR

虛擬現(xiàn)實(shí)提供了強(qiáng)烈的沉浸感。佩戴者借助 VR 頭顯 “穿越” 到了一個(gè)完全由虛擬元素構(gòu)成的世界中,但同時(shí)也把佩戴者與現(xiàn)實(shí)世界隔離開。

在 Virtual Reality 的基礎(chǔ)上,Augmented Reality(AR)應(yīng)運(yùn)而生。按照實(shí)現(xiàn)的技術(shù)方式,AR 分為三類,包括 Video-based AR,Optical-based AR 和 Projection-based AR。這三類 AR 都能實(shí)現(xiàn)真實(shí)場景和虛擬信息同時(shí)被人眼看見的視覺效果,但技術(shù)手段不同。


圖 13 基于 Video-based AR 的手表試戴(圖片來源于 Cyingcg )

Video-based AR 是對(duì)圖片(或圖片序列構(gòu)成的視頻)進(jìn)行處理,在圖片中添加虛擬信息,以幫助觀看者進(jìn)行分析和獲得更多的信息。如圖 13 所示,在手腕上添加不同款式的虛擬手表來幫助消費(fèi)者挑選合適的手表。再如時(shí)下熱門的 Faceu 手機(jī) app,能在手機(jī)拍攝的圖中添加諸如兔耳朵等可愛的虛擬元素。Video-based AR 不需要佩戴特殊的眼鏡,與觀看傳統(tǒng)平面圖片方式一致,且允許非實(shí)時(shí)離線完成。

Optical-based AR 通過類似半透半反的介質(zhì)使人眼同時(shí)接收來自真實(shí)場景和像源的光線,從而使得人眼同時(shí)看見真實(shí)場景和虛擬信息。Optical-based AR 給人一種虛擬物體仿佛就位于真實(shí)場景中的視覺體驗(yàn),但真實(shí)的場景中并不存在所看見的虛擬物體。且只有佩戴特殊頭顯設(shè)備(如 Hololens,Meta)的人才能看見虛擬物體,沒有佩戴頭顯設(shè)備的人不能看見虛擬物體。

如圖 14 所示,火箭模型并非真正存在于桌面上,且未帶頭顯設(shè)備的人不能看見火箭。Optical-based AR 相比于 Video-based AR 技術(shù)難度更大,需要三維環(huán)境感知。且從環(huán)境感知到增強(qiáng)顯示都需要實(shí)時(shí)完成。

在虛擬現(xiàn)實(shí)行業(yè)出現(xiàn)了一個(gè) “新” 的概念——MR(Mixed Reality),但這其實(shí)就是上述的 Optical-based AR。圖 15 是本文作者在實(shí)驗(yàn)室通過 MR 眼鏡拍攝的照片,通過 MR 眼鏡能同時(shí)看見真實(shí)的場景和虛擬的汽車。


圖 14 Optical-based AR 概念圖(圖片來源于微軟 Hololens 宣傳視頻)


圖 15 混合虛擬現(xiàn)實(shí)—懸浮的小車(戴上眼鏡后觀看效果)

Projection-based AR 將虛擬信息直接投影到真實(shí)場景中物體的表面或等效的光路上。相比于 Optical-based AR,Projection-based AR 不需要佩戴頭顯設(shè)備卻能獲得與之類似的增強(qiáng)現(xiàn)實(shí)效果,且允許多人在一定角度范圍內(nèi)同時(shí)觀看。

如圖 16 所示,是本人拍攝的基于投影增強(qiáng)現(xiàn)實(shí)的車載導(dǎo)航儀。路基線、車速、天氣、來電等信息被投影在司機(jī)觀看路面的等效光路上,司機(jī)不需要佩戴頭顯設(shè)備即可看見上述輔助信息。


圖 16 基于 Projection-based AR 的車載導(dǎo)航(不佩戴眼鏡觀看效果)

虛擬現(xiàn)實(shí)帶來了強(qiáng)烈的沉浸感但也隔斷了人與人之間的聯(lián)系。雖然人與人可以在虛擬世界中產(chǎn)生交互,但其交互手段有限,且交互的真實(shí)性和自然性都大打折扣??v觀歷史上任何技術(shù)得以大面積普及的關(guān)鍵都在于密切的聯(lián)系(Dense Communication)。

從早期的互聯(lián)網(wǎng)到智能手機(jī)以及當(dāng)前的移動(dòng)互聯(lián)網(wǎng),得以迅猛發(fā)展都離不開大量人群之間的通信。如果失去了人與人之間的通信也就失去成為大平臺(tái)的基礎(chǔ)。虛擬現(xiàn)實(shí)的隔斷性注定了 VR 不會(huì)成為下一個(gè)智能手機(jī)。而 MR 彌補(bǔ)了 VR 的這一重大缺陷,能同時(shí)具備視覺信息增強(qiáng)和人人通信這兩大特點(diǎn)。MR 比 VR 有更高的幾率成為智能手機(jī)在未來的新形態(tài)。

參考文獻(xiàn)(References)

  • [1] Geng J.Three-dimensional display technologies[J]. Advances in Optics and Photonics, 2013,5(4): 456-535.

  • [2] DavisonA J, Reid I D, Molton N D, et al. MonoSLAM: Real-Time Single Camera SLAM[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(6): 1052-1067.

  • [3]MackenzieK J, Watt S J. Eliminating accommodation-convergence conflicts in stereoscopicdisplays: Can multiple-focal-plane displays elicit continuous and consistentvergence and accommodation responses?[J]. Proceedings of SPIE, TheInternational Society for Optical Engineering, 2010, 7524:752417-752417-10.

  • [4] VienneC, Sorin L, Blondé L, et al. Effect of the accommodation-vergence conflict onvergence eye movements[J]. Vision Research, 2014, 100: 124-133.

  • [5] HoffmanD M, Banks M S. Disparity scaling in the presence of accommodation-vergenceconflict[J]. Journal of Vision, 2010, 7(9): 824.

  • [6] TakakiY. Generation of natural three-dimensional image by directional display:Solving accommodation-vergence conflict[J]. Ieice Technical Report ElectronicInformation Displays, 2006, 106: 21-26.

  • [7] Gershun A. The light field[J]. MathematicalPhysics, 1939,18: 51-151.

  • [8] Geng J.Volumetric 3D display for radiation therapy planning[J]. Journal of DisplayTechnology, 2009, 4(4): 437-450.

  • [9] VanBerkel C. Image Preparation for 3D-LCD[C]//StereoscopicDisplays and Virtual Reality Systems VI, 1999: 10.1117/12.349368.

  • [10] ZhangZ X, Geng Z, Zhang M, et al. An interactive multiview 3D display system, Proc.SPIE 8618, 86180P (2013).

  • [11] M.Levoy and P. Hanrahan, Light field rendering[C]. Proceedings of ACM SIGGRAPH, 1996.

  • [12]Jones A, McDowall I, Yamada H, et al. Rendering for an interactive 360 lightfield display[C]//ACM SIGGRAPH 2007. New York: ACM, 2007.

  • [13] Cao X, Geng Z, Zhang M, et al. Load-balancing multi-LCD lightfield display[C]. Proceedings of SPIE, The International Society for OpticalEngineering, March 17, 2015.

  • [14] Cao X, Geng Z, Li T, et al. Accelerating decomposition oflight field video for compressive multi-layer display[J]. Optics Express, 2015,23(26): 34007-34022.

  • [15] Bennett Wilburn, Neel Joshi,Vaibhav Vaish, Marc Levoy, and Mark Horowitz. High-speed videography using adense camera array[C]// Proceeding CVPR’04 Proceedings of the 2004 IEEEComputer Society Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE ComputerSociety, 2004.

  • [16] Wilburn B, Joshi N, Vaish V, et al.High performance imaging using large camera arrays[J]. ACMTransactionson Graphics,2005, 24(3): 765-776.

  • [17] RenNg, Levoy M, Bredif M, et al. Light field photography with a hand-heldplenoptic camera[R]. StanfordUniversity Computer Science Tech Report CSTR 2005-02, 2005.

  • [18] Marwah K, Wetzstein G, Bando Y, etal. Compressive light field photographyusing overcomplete dictionaries and optimized projections[J]. ACMTransactionson Graphics, 2013, 32(4): 46.

  • [19] Cao X, Geng Z, Li T. Dictionary-based light field acquisitionusing sparse camera array[J]. Optics Express, 2014, 22(20): 24081-24095.

(本文來源于@科技導(dǎo)報(bào)專欄作者曹煊授權(quán)轉(zhuǎn)載

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
造就 | 虞晶怡:我要制造像人眼一樣的VR技術(shù)
進(jìn)入虛擬現(xiàn)實(shí)世界,開啟非凡冒險(xiǎn)!
一直困擾虛擬現(xiàn)實(shí)的VAC現(xiàn)象,真的無解么?
[首藏作品](1042)光場技術(shù):給人類打開一個(gè)全新視界
虛擬現(xiàn)實(shí)(VR):虛擬全新的現(xiàn)實(shí)世界
vr眼鏡對(duì)眼睛傷害大嗎 vr眼鏡對(duì)眼睛有什么影響
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服