很多玩家在置身VR游戲中的時(shí)候,總是會(huì)因?yàn)楦杏X(jué)不到自己的身體而“出戲”,使其無(wú)法完全沉浸在游戲中。為了解決這個(gè)問(wèn)題,研發(fā)團(tuán)隊(duì)通過(guò)在游戲當(dāng)中加入全身追蹤技術(shù),讓玩家在游戲中也能夠感受到“虛擬”身體。
不過(guò),這類(lèi)技術(shù)難度太大,而且需要花費(fèi)開(kāi)發(fā)者很多的時(shí)間和精力,因此在目前的VR體驗(yàn)中中,更多地是只針對(duì)用戶手部及手臂進(jìn)行追蹤。比如,Leap Motion一直致力于研發(fā)手部追蹤技術(shù),其Orion手部追蹤技術(shù)能夠精準(zhǔn)捕捉手部動(dòng)作,為用戶帶來(lái)更自然的交互體驗(yàn)。
而最近,英特爾Realsense團(tuán)隊(duì)軟件工程師Philip Krejov向大家展示了一種通過(guò)攝像頭追蹤全身的方案。據(jù)悉,這是一種基于深度學(xué)習(xí)的VR/AR人體動(dòng)作識(shí)別技術(shù),使用的硬件包括攝像機(jī)和HTC Vive追蹤器,在性?xún)r(jià)比方面比全身服更有優(yōu)勢(shì)。
早在之前,許多VR公司就曾嘗試融入全身追蹤技術(shù),比如OptiTrack開(kāi)發(fā)全身動(dòng)捕解決方案、Kaaya Tech推出的動(dòng)作捕捉全身服Holosuit等。
那么 ,到底如何將全身追蹤技術(shù)與VR體驗(yàn)相結(jié)合呢?
集成6個(gè)RealSense深感相機(jī)
據(jù)悉,Krejov使用了6個(gè)RealSense深感相機(jī),Realsense相機(jī)在30分鐘內(nèi)提供了大約50,000張?zhí)幚磉^(guò)的訓(xùn)練圖像,而無(wú)需手動(dòng)準(zhǔn)備。
不過(guò),多個(gè)相機(jī)同時(shí)使用就需要考慮時(shí)間同步的問(wèn)題,還需要將它們校準(zhǔn)到同一坐標(biāo)空間。使用三角測(cè)量法時(shí),可以采用軟件同步的方式,但是對(duì)于這種更復(fù)雜的任務(wù)來(lái)說(shuō),為減少偽影的出現(xiàn),就不得不考慮同步攝像頭觸發(fā)裝置的方法。
Krejov的多視角捕捉法,需要將六臺(tái)攝像機(jī)等距擺放在追蹤目標(biāo)周?chē)?。他表示,這時(shí)多臺(tái)相機(jī)可以同時(shí)工作,甚至為每臺(tái)相機(jī)設(shè)定需要捕捉的專(zhuān)屬節(jié)點(diǎn)。
他還表示,這些相機(jī)需要通過(guò)校準(zhǔn),與統(tǒng)一的坐標(biāo)系對(duì)齊,于是談對(duì)將HTC Vive追蹤器裝在校準(zhǔn)圖表上,通過(guò)移動(dòng)來(lái)校準(zhǔn)相機(jī)攝像頭和HTC Vive。這項(xiàng)多視角捕捉技術(shù)可實(shí)現(xiàn)更準(zhǔn)確的自動(dòng)標(biāo)記,比如聳肩、抬腿等細(xì)微的動(dòng)作。
多視角捕捉
Krejov提出的動(dòng)作識(shí)別方案需要收集RGB和深度圖像數(shù)據(jù)生成點(diǎn)云,這樣每一個(gè)樣本就各代表了人體表面的一點(diǎn)。與真實(shí)數(shù)據(jù)相比,合成的訓(xùn)練數(shù)據(jù)缺少了噪點(diǎn)等特性,這些噪點(diǎn)是很難模仿合成的。但是真實(shí)數(shù)據(jù)需要人工標(biāo)記,因此在時(shí)間、成本和準(zhǔn)確性上都有局限。
為了采集動(dòng)作數(shù)據(jù),美國(guó)卡內(nèi)基梅隆大學(xué)曾研發(fā)全景式三角測(cè)量法,即先繪制手上關(guān)節(jié)的平面圖,接著制作成手的3D模型,然后再重新投射到2D平面上,反復(fù)優(yōu)化。
在全景式三角測(cè)量法基礎(chǔ)上,Krejov提出了多視角捕捉的概念,這就需要使用更多攝像機(jī),不過(guò)好處是能夠采集到更準(zhǔn)確的數(shù)據(jù)。另外,由于采集到的數(shù)據(jù)中動(dòng)作比較單一,重新采集數(shù)據(jù)的情況也不可避免,目的是為了確保不同動(dòng)作的數(shù)據(jù)量平均。
Krejov稱(chēng),使用這種方法,就不再需要手動(dòng)標(biāo)記,只需監(jiān)督拍攝過(guò)程,而且在30分鐘內(nèi),就能夠采集到5萬(wàn)張完成標(biāo)記的訓(xùn)練樣本。
手勢(shì)和動(dòng)作識(shí)別
這類(lèi)型的識(shí)別技術(shù)分為機(jī)器學(xué)習(xí)法和模型擬合兩大類(lèi),前者通過(guò)數(shù)據(jù)訓(xùn)練來(lái)識(shí)別身體部位(可估計(jì)每幀的關(guān)節(jié)位置),優(yōu)點(diǎn)是能夠達(dá)到很高的幀率,缺點(diǎn)是訓(xùn)練需要數(shù)百萬(wàn)張圖片;后者利用符號(hào)距離轉(zhuǎn)化功能將預(yù)先構(gòu)建的人體或手部模型向點(diǎn)云數(shù)據(jù)靠近,缺點(diǎn)是需要多次模擬。
Krejov曾將機(jī)器學(xué)習(xí)和模型擬合相結(jié)合,編寫(xiě)了一款能夠在40fps的CPU上運(yùn)行的手勢(shì)識(shí)別算法。他通過(guò)收集手部數(shù)據(jù),然后將數(shù)據(jù)與模型擬合。同樣適用這種方式的DoubleFusion技術(shù),能夠預(yù)測(cè)人體的動(dòng)作,不過(guò)局限依然是對(duì)計(jì)算要求高。
通過(guò)以上方案,Krejov提出了全身動(dòng)捕解決方案,為用戶帶來(lái)更為沉浸式的體驗(yàn)。
來(lái)源:87870