中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
一文看盡 CVPR 2022 最新 20 篇 Oral 論文

本文首發(fā)極市平臺公眾號,轉(zhuǎn)載請獲得授權(quán)并標明出處。

極市導讀

 

極市平臺一直在對CVPR 2022的論文進行分方向的整理,目前已累計更新了535篇,本文為最新的CVPR 2022 Oral 論文,包含目標檢測、圖像處理等方向,附打包下載鏈接。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

CVPR 2022 已經(jīng)放榜,本次一共有2067篇論文被接收,接收論文數(shù)量相比去年增長了24%。在CVPR2022正式會議召開前,為了讓大家更快地獲取和學習到計算機視覺前沿技術(shù),極市對CVPR022 最新論文進行追蹤,包括分研究方向的論文、代碼匯總以及論文技術(shù)直播分享。
CVPR 2022 論文分方向整理目前在極市社區(qū)持續(xù)更新中,已累計更新了535篇,項目地址:https://www.cvmart.net/community/detail/6124

【1】Marginal Contrastive Correspondence for Guided Image Generation

paper:https://arxiv.org/abs/2204.00442

基于示例的圖像翻譯在條件輸入和示例(來自兩個不同的域)之間建立了密集的對應關(guān)系,以利用詳細的示例樣式來實現(xiàn)逼真的圖像翻譯?,F(xiàn)有工作通過最小化兩個域之間的特征距離來隱式地建立跨域?qū)P(guān)系。如果沒有明確利用域不變特征,這種方法可能無法有效地減少域間隙,這通常會導致次優(yōu)的對應和圖像翻譯。
本文設(shè)計了一個邊際對比學習網(wǎng)絡(luò)(MCL-Net),它通過對比學習來學習領(lǐng)域不變的特征,以此進行基于真實示例的圖像翻譯。具體來說,作者設(shè)計了一種創(chuàng)新的邊際對比損失,指導明確地建立密集對應。然而,僅與域不變語義建立對應關(guān)系可能會損害紋理模式并導致紋理生成質(zhì)量下降。因此,作者設(shè)計了一個自相關(guān)圖(SCM),它結(jié)合了場景結(jié)構(gòu)作為輔助信息,大大改善了構(gòu)建的對應關(guān)系。對各種圖像翻譯任務(wù)的定量和定性實驗表明,所提出的方法始終優(yōu)于最先進的方法。

【2】TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting

paper:https://arxiv.org/abs/2204.01018
dataset:https://svip-lab.github.io/dataset/RepCount_dataset.html
code:https://github.com/SvipRepetitionCounting/TransRAC

計算重復動作在體育鍛煉等人類活動中很常見?,F(xiàn)有方法側(cè)重于在短視頻中執(zhí)行重復動作計數(shù),這對于在真實的場景中處理更長的視頻是很困難的。在數(shù)據(jù)驅(qū)的時代,這種泛化能力的退化主要歸因于缺乏長視頻數(shù)據(jù)集。
因此,本文構(gòu)建了一個新的大規(guī)模重復動作計數(shù)數(shù)據(jù)集,涵蓋了各種視頻長度,以及視頻中出現(xiàn)動作中斷或動作不一致等更現(xiàn)實的情況。此外,作者還提供了動作周期的細粒度標簽,而不是僅僅計算注釋和數(shù)值。這一數(shù)據(jù)集包含 1,451 個視頻和大約 20,000 個標注。對于更現(xiàn)實場景的重復動作,作者建議使用可以同時考慮性能和效率的Transformer編碼多尺度時間相關(guān)性。此外,在動作周期的細粒度注釋的幫助下,本文提出了一種基于密度圖回歸的方法來預測動作周期,從而產(chǎn)生更好的性能和足夠的可解釋性。

【3】Learning Part Segmentation through Unsupervised Domain Adaptation from Synthetic Vehicles

paper:https://arxiv.org/abs/2103.14098
dataset:https://qliu24.github.io/udapart

局部分割提供了對象的豐富而詳細的局部級描述。然而,局部分割的注釋需要大量的工作,這使得很難使用標準的深度學習方法。在本文中,作者提出了通過合成數(shù)據(jù)中的無監(jiān)督域適應 (UDA) 來學習局部分割的想法。本文首先介紹了 UDA-Part,這是一個全面的車輛局部分割數(shù)據(jù)集,可以作為 UDA1 的基準。在 UDA-Part 中,作者在 3D CAD 模型上標注局部,來生成大量帶注釋的合成圖像。本文還在許多真實圖像上標注局部來提供真實的測試集。其次,為了推進從合成數(shù)據(jù)訓練的局部模型對真實圖像的適應,作者引入了一種新的 UDA 算法,該算法利用對象的空間結(jié)構(gòu)來指導適應過程。本文在兩個真實測試數(shù)據(jù)集上的實驗結(jié)果證實了我們的方法優(yōu)于現(xiàn)有工作,并證明了從合成數(shù)據(jù)中學習一般對象的局部分割的前景。

【4】Semantic-Aware Domain Generalized Segmentation

paper:https://arxiv.org/abs/2204.00822
code:https://github.com/leolyj/SAN-SAW

當在具有不同數(shù)據(jù)分布的看不見的目標域上進行評估時,在源域上訓練的深度模型缺乏泛化性。當我們無法訪問目標域樣本進行適應時,問題變得更加突出。在本文中,作者解決了域泛化語義分割問題,其中分割模型被訓練為域不變,而不使用任何目標域數(shù)據(jù)。解決此問題的現(xiàn)有方法將數(shù)據(jù)標準化為統(tǒng)一分布。作者認為,雖然這樣的標準化促進了全局標準化,但由此產(chǎn)生的特征沒有足夠的辨別力來獲得清晰的分割邊界。
為了增強類別之間的分離,同時促進域不變性,本文提出了一個框架,包括兩個新模塊:語義感知標準化(SAN)和語義感知白化(SAW)。具體來說,SAN 專注于來自不同圖像風格的特征之間的類別級中心對齊,而 SAW 對已經(jīng)中心對齊的特征強制執(zhí)行分布式對齊。在 SAN 和 SAW 的幫助下,促進類別內(nèi)的緊湊性和類別間的可分離性。

【5】Revisiting Skeleton-based Action Recognition

paper:https://arxiv.org/abs/2104.13586
code:https://github.com/kennymckormick/pyskl

人體骨骼作為人類動作的重要特征,近年來受到越來越多的關(guān)注。許多基于骨骼的動作識別方法采用 GCN 在人體骨骼上提取特征。盡管這些嘗試獲得了積極的結(jié)果,但基于 GCN 的方法在魯棒性、互操作性和可擴展性方面受到限制。
這項工作提出了 PoseConv3D,一種基于骨架的動作識別的新方法。PoseConv3D 依賴于 3D 熱圖體積而不是圖形序列作為人體骨骼的基本表示。與基于 GCN 的方法相比,PoseConv3D 在學習時空特征方面更有效,對姿態(tài)估計噪聲更魯棒,并且在跨數(shù)據(jù)集中泛化效果更好。此外,PoseConv3D 可以處理多人場景而無需額外的計算成本。分層特征可以在早期融合階段輕松地與其他模式集成,為提高性能提供了巨大的設(shè)計空間。PoseConv3D 在六個標準的基于骨架的動作識別基準中的五個上達到了最先進的水平。一旦與其他模態(tài)融合,它在所有八個多模態(tài)動作識別基準上都達到了最先進的水平。

【6】MAXIM: Multi-Axis MLP for Image Processing

papar:https://arxiv.org/abs/2201.02973
code:https://github.com/google-research/maxim

006C3FgEgy1h12cmurshpj31ba0gkdpc
Transformers 和多層感知器 (MLP) 模型的最新進展為計算機視覺任務(wù)提供了新的網(wǎng)絡(luò)架構(gòu)設(shè)計。盡管這些模型在圖像識別等許多視覺任務(wù)中被證明是有效的,但在將它們用于底層視覺方面仍然存在挑戰(zhàn)。支持高分辨率圖像的不靈活性和局部注意力的限制可能是主要瓶頸。
本文提出了一種基于多軸 MLP 的架構(gòu),稱為 MAXIM,它可以作為圖像處理任務(wù)的高效靈活的通用視覺骨干。MAXIM 使用 UNet 形層次結(jié)構(gòu)并支持由空間門控 MLP 實現(xiàn)的遠程交互。具體來說,MAXIM 包含兩個基于 MLP 的構(gòu)建塊:一個多軸門控 MLP,允許對局部和全局視覺線索進行有效和可擴展的空間混合,以及一個交叉門控塊,它是交叉注意力的替代方案,它解釋了用于交叉特征調(diào)節(jié)。這兩個模塊都完全基于 MLP,但也受益于全局和“完全卷積”,這是圖像處理所需的兩個屬性。實驗結(jié)果表明,所提出的 MAXIM 模型在一系列圖像處理任務(wù)(包括去噪、去模糊、去雨、去霧和增強)的十多個基準上實現(xiàn)了最先進的性能。

【7】Rethinking Minimal Sufficient Representation in Contrastive Learning

paper:https://arxiv.org/abs/2203.07004
code:https://github.com/Haoqing-Wang/InfoCL

不同數(shù)據(jù)視圖之間的對比學習在自監(jiān)督表示學習領(lǐng)域取得了顯著成功,并且學習的表示在廣泛的下游任務(wù)中很有用。由于一個視圖的所有監(jiān)督信息都來自另一個視圖,因此對比學習近似地獲得了包含共享信息的最小充分表示,并消除了視圖之間的非共享信息。考慮到下游任務(wù)的多樣性,不能保證所有與任務(wù)相關(guān)的信息在視圖之間共享。因此,作者假設(shè)不能忽略非共享任務(wù)相關(guān)信息,并從理論上證明對比學習中的最小充分表示不足以滿足下游任務(wù),從而導致性能下降。這揭示了一個新問題,即對比學習模型存在過度擬合視圖之間共享信息的風險。為了緩解這個問題,作者建議增加表示和輸入之間的互信息作為正則化,以近似引入更多與任務(wù)相關(guān)的信息,因為在訓練期間不能利用任何下游任務(wù)信息。大量的實驗驗證了本文分析的合理性以及方法的有效性。它顯著提高了幾種經(jīng)典對比學習模型在下游任務(wù)中的性能。

【8】 I M Avatar: Implicit Morphable Head Avatars from Videos

paper:https://arxiv.org/abs/2112.07471
project:https://ait.ethz.ch/projects/2022/IMavatar/

傳統(tǒng)的 3D 可變形人臉模型 (3DMM) 提供了對表情的細粒度控制,但無法輕松捕獲幾何和外觀細節(jié)。神經(jīng)體積表示接近真實感,但難以動畫化并且不能很好地推廣到看不見的表達。
為了解決這個問題,本文提出了 IMavatar(隱式可變形化身),這是一種從單目視頻中學習隱式頭部化身的新方法。受傳統(tǒng) 3DMM 提供的細粒度控制機制的啟發(fā),作者通過學習的混合形狀和蒙皮字段來表示與表情和姿勢相關(guān)的變形。這些屬性與姿勢無關(guān),可用于在給定新的表達式和姿勢參數(shù)的情況下變形規(guī)范幾何和紋理場。本文采用光線行進和迭代尋根來定位每個像素的規(guī)范表面交點。本文關(guān)鍵貢獻是新穎的梯度分析公式,它可以從視頻中對 IMavatar 進行端到端訓練。定量和定性結(jié)果表明,與最先進的方法相比,本文方法改進了幾何結(jié)構(gòu)并覆蓋了更完整的表達空間。

【9】Parameter-free Online Test-time Adaptation

paper:https://arxiv.org/abs/2201.05718
code:https://github.com/fiveai/LAME

對于研究人員和從業(yè)者來說,訓練最先進的視覺模型已經(jīng)變得非常昂貴。為了可訪問性和資源重用,需要重點關(guān)注這些模型在各種下游場景的適應性。一個有趣且實用的范例是在線測試時間適應,根據(jù)該范式,無法訪問訓練數(shù)據(jù),沒有來自測試分布的標記數(shù)據(jù)可用,并且適應只能在測試時間和少數(shù)樣本上發(fā)生。
本文研究了測試時適應方法如何在各種現(xiàn)實世界場景中對許多預訓練模型產(chǎn)生影響,顯著擴展了它們最初的評估方式。作者表明,它們僅在狹義的實驗設(shè)置中表現(xiàn)良好,并且當它們的超參數(shù)沒有被選擇用于測試它們的相同場景時,它們有時會發(fā)生災難性的失敗。受測試時最終會遇到的條件的固有不確定性的啟發(fā),本文提出了一種特別“保守”的方法,該方法通過拉普拉斯調(diào)整最大似然估計 (LAME) 目標來解決問題。通過調(diào)整模型的輸出(而不是其參數(shù)),并通過有效的凹凸程序解決目標。本文方法在各種場景中表現(xiàn)出比現(xiàn)有方法高得多的平均準確度,同時顯著更快并且具有更低的內(nèi)存占用。

【10】Correlation Verification for Image Retrieval

paper:https://arxiv.org/abs/2204.01458
code:https://github.com/sungonce/CVNet

幾何驗證被認為是圖像檢索中重新排序任務(wù)的解決方案。在這項研究中,作者提出了一種名為 Correlation Verification Networks (CVNet) 的新型圖像檢索重新排序網(wǎng)絡(luò)。本文提出的網(wǎng)絡(luò)由深度堆疊的 4D 卷積層組成,逐漸將密集的特征相關(guān)性壓縮為圖像相似性,同時從各種圖像對中學習不同的幾何匹配模式。為了實現(xiàn)跨尺度匹配,它構(gòu)建了特征金字塔,并在單個推理中構(gòu)建了跨尺度特征相關(guān)性,取代了昂貴的多尺度推理。此外,我們使用課程學習與難負挖掘和隱藏策略來處理難樣本而不失一般性。

【11】Rethinking Semantic Segmentation: A Prototype View

paper:https://arxiv.org/abs/2203.15102
code:https://github.com/tfzhou/ProtoSeg

近期流行的語義分割解決方案盡管有不同的網(wǎng)絡(luò)設(shè)計(基于 FCN 或基于注意力)和掩碼解碼策略(基于參數(shù) softmax 或基于像素查詢),但可以通過將 softmax 權(quán)重或查詢向量視為一類可學習的類原型。鑒于這種原型觀點,本研究揭示了這種參數(shù)分割方案的幾個局限性,并提出了一種基于不可學習原型的非參數(shù)替代方案。
本文的模型不是過去以完全參數(shù)化的方式為每個類學習單個權(quán)重/查詢向量的方法,而是將每個類表示為一組不可學習的原型,僅依賴于其中幾個訓練像素的平均特征類型。因此,密集預測是通過非參數(shù)最近原型檢索來實現(xiàn)的。這允許本文模型通過優(yōu)化嵌入像素和錨定原型之間的排列來直接塑造像素嵌入空間。它能夠處理具有恒定數(shù)量可學習參數(shù)的任意數(shù)量的類。憑經(jīng)驗證明,使用基于 FCN 和基于注意力的分割模型(即 HR-Net、Swin、SegFormer)和主干網(wǎng)絡(luò)(即 ResNet、HRNet、 Swin, MiT),本文的非參數(shù)框架在多個數(shù)據(jù)集上產(chǎn)生了令人信服的結(jié)果。

【12】SNUG: Self-Supervised Neural Dynamic Garments

paper:https://arxiv.org/abs/2204.02219
project:http://mslab.es/projects/SNUG/

本文提出了一種我監(jiān)督的方法,來學習參數(shù)人體所穿服裝的動態(tài) 3D 變形。最先進的 3D 服裝變形模型數(shù)據(jù)驅(qū)動方法,是使用需要大型數(shù)據(jù)集的監(jiān)督策略進行訓練的,這些數(shù)據(jù)集往往通過昂貴的基于物理的模擬方法或?qū)I(yè)的多攝像頭捕獲設(shè)置獲得。相比之下,本文提出了一種新的訓練方案,去除了對真實樣本的需求,實現(xiàn)了動態(tài) 3D 服裝變形的自監(jiān)督訓練
本文主要貢獻是認識到傳統(tǒng)上由隱式積分器逐幀求解的基于物理的變形模型可以重鑄為優(yōu)化問題。作者利用這種基于優(yōu)化的方案來制定一組基于物理的損失項,可用于訓練神經(jīng)網(wǎng)絡(luò),而無需預先計算真實數(shù)據(jù),這使我們能夠?qū)W習交互式服裝的模型,包括動態(tài)變形和細皺紋。

【13】SelfRecon: Self Reconstruction Your Digital Avatar from Monocular Video

paper:https://arxiv.org/abs/2201.12792
code:https://github.com/jby1993/SelfReconCode

本文提出了一種穿著衣服的人體重建方法 SelfRecon,它結(jié)合了隱式和顯式表示,從單目自旋轉(zhuǎn)人體視頻中恢復時空相干幾何圖形。顯式方法需要為給定序列預定義模板網(wǎng)格,而對于特定主題很難獲取模板。同時,固定拓撲限制了重建精度和服裝類型。隱式表示支持任意拓撲,并且由于其連續(xù)性可以表示高保真幾何形狀。然而,很難整合多幀信息來為下游應用程序生成一致的注冊序列。作者建議結(jié)合兩種表示的優(yōu)點。利用顯式網(wǎng)格的微分掩模損失來獲得連貫的整體形狀,而隱式表面上的細節(jié)則通過可微分的神經(jīng)渲染進行細化。同時,顯式網(wǎng)格會定期更新以調(diào)整其拓撲變化,并設(shè)計一致性損失來匹配兩種表示。與現(xiàn)有方法相比,SelfRecon 可以通過自監(jiān)督優(yōu)化為任意穿衣服的人生成高保真表面。廣泛的實驗結(jié)果證明了它對真實捕獲的單目視頻的有效性。

【14】Dual-AI: Dual-path Action Interaction Learning for Group Activity Recognition

paper:https://arxiv.org/abs/2204.02148
project:https://arxiv.org/pdf/2204.02148

學習多個參與者之間的時空關(guān)系對于群體活動識別至關(guān)重要。不同的團體活動往往表現(xiàn)出視頻中演員之間的多樣化互動。因此,通常很難從時空參與者演化的單一視圖中對復雜的群體活動進行建模。為了解決這個問題,本文提出了一個獨特的雙路徑演員交互(Dual-AI)框架,它以兩個互補的順序靈活地安排空間和時間轉(zhuǎn)換器,通過整合來自不同時空路徑的優(yōu)點來增強演員關(guān)系。此外,在 Dual-AI 的兩條交互路徑之間引入了一種新穎的多尺度 Actor 對比損失(MAC-Loss)。通過幀和視頻級別的自監(jiān)督演員一致性,MAC-Loss 可以有效地區(qū)分個體演員表示,以減少不同演員之間的動作混淆。因此,Dual-AI 可以通過融合不同參與者的這種區(qū)分特征來提高群體活動識別。

【15】3D Common Corruptions and Data Augmentation

paper:https://arxiv.org/abs/2203.01441
project:https://3dcommoncorruptions.epfl.ch/

本文引入了一組圖像轉(zhuǎn)換,可用作評估模型魯棒性的損壞以及用于訓練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強機制。所提出的轉(zhuǎn)換與現(xiàn)有方法在于場景的幾何形狀被納入轉(zhuǎn)換中,從而導致更可能發(fā)生在現(xiàn)實世界中的損壞。此外還引入了一組語義損壞。本文證明了這些轉(zhuǎn)換是“高效的”(可以即時計算)、“可擴展”(可以應用于大多數(shù)圖像數(shù)據(jù)集),并暴露了現(xiàn)有模型的脆弱性。

【16】GAN-Supervised Dense Visual Alignment

paper:https://arxiv.org/abs/2112.05143
code:https://www.github.com/wpeebles/gangealing
project:https://www.wpeebles.com/gangealing

本文提出了一個用于學習判別模型及其 GAN 生成的訓練數(shù)據(jù)端到端聯(lián)合的框架。并將此框架應用于密集的視覺對齊問題。受經(jīng)典 Congealing 方法的啟發(fā),GANgealing 算法訓練了一個空間Transformer,把來自在未對齊數(shù)據(jù)上訓練的 GAN 中的隨機樣本映射到一個常見的聯(lián)合學習目標模式。文章展示了八個數(shù)據(jù)集的結(jié)果,均證明了本文方法成功地對齊了復雜的數(shù)據(jù)并發(fā)現(xiàn)了密集的對應關(guān)系。GANgealing 顯著優(yōu)于過去的自監(jiān)督對應算法,并且在多個數(shù)據(jù)集上的性能與(有時甚至超過)最先進的監(jiān)督對應算法相當——不使用任何對應監(jiān)督或數(shù)據(jù)增強,盡管專門針對 GAN 生成的數(shù)據(jù)進行訓練。

【17】It's All In the Teacher: Zero-Shot Quantization Brought Closer to the Teacher

paper:https://arxiv.org/abs/2203.17008

模型量化被認為是一種很有前途的方法,可以大大降低深度神經(jīng)網(wǎng)絡(luò)的資源需求。為了應對量化誤差導致的性能下降,一種流行的方法是使用訓練數(shù)據(jù)對量化網(wǎng)絡(luò)進行微調(diào)。然而,在現(xiàn)實世界環(huán)境中,這種方法通常是不可行的,因為由于安全、隱私或機密性問題,訓練數(shù)據(jù)不可用。零樣本量化解決了此類問題,通常通過從全精度教師網(wǎng)絡(luò)的權(quán)重中獲取信息來補償量化網(wǎng)絡(luò)的性能下降。
在本文中,作者首先分析了最先進的零樣本量化技術(shù)的損失面,并提供了一些發(fā)現(xiàn)。與通常的知識蒸餾問題相比,零樣本量化通常存在以下問題:1難以同時優(yōu)化多個損失項,以及由于使用合成樣本,泛化能力較差。此外,作者觀察到許多權(quán)重在訓練量化網(wǎng)絡(luò)期間未能跨越舍入閾值,即使有必要這樣做以獲得更好的性能。
基于觀察,本文提出了 AIT,這是一種簡單而強大的零樣本量化技術(shù),它通過以下方式解決上述兩個問題:AIT 僅使用 KL 距離損失而沒有交叉熵損失,以及操縱梯度以保證在超過舍入閾值后正確更新權(quán)重的某一部分。實驗表明,AIT 大大優(yōu)于許多現(xiàn)有方法的性能。

【18】AdaMixer: A Fast-Converging Query-Based Object Detector

paper:https://arxiv.org/abs/2203.16507
code:https://github.com/MCG-NJU/AdaMixer

傳統(tǒng)的物體檢測器采用密集模式掃描圖像中的位置和尺度。最近基于查詢的對象檢測器通過使用一組可學習的查詢解碼圖像特征來打破這一慣例。然而,這種范式仍然存在收斂速度慢、性能有限以及骨干網(wǎng)和解碼器之間額外網(wǎng)絡(luò)的設(shè)計復雜性的問題。在本文中,我們發(fā)現(xiàn)解決這些問題的關(guān)鍵是解碼器對將查詢轉(zhuǎn)換為不同對象的適應性。
因此,本文提出了一種快速收斂的基于查詢的檢測器AdaMixer,在兩個方面提高基于查詢的解碼過程的適應性:首先,每個查詢都根據(jù)估計的偏移量自適應地對空間和尺度上的特征進行采樣,這使得 AdaMixer 能夠有效地處理對象的連貫區(qū)域。然后,在每個查詢的指導下使用自適應 MLP-Mixer 動態(tài)解碼這些采樣特征。由于這兩個關(guān)鍵設(shè)計,AdaMixer 享有架構(gòu)簡單性,而不需要密集的注意力編碼器或顯式金字塔網(wǎng)絡(luò)。

【19】Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry

paper:https://arxiv.org/abs/2112.08177
code:https://github.com/baegwangbin/MaGNet

多視圖深度估計方法通常需要計算多視圖成本量,這會導致巨大的內(nèi)存消耗和緩慢的推理。此外,對于無紋理表面、反射表面和移動物體,多視圖匹配可能會失敗。對于這種故障模式,單視圖深度估計方法通常更可靠。為此,本文提出了 MaGNet,這是一種將單視圖深度概率與多視圖幾何融合的新框架,以提高多視圖深度估計的準確性、魯棒性和效率。對于每一幀,MaGNet 估計一個單視圖深度概率分布,參數(shù)化為像素級高斯分布。然后使用為參考幀估計的分布來對每個像素的深度候選進行采樣。這種概率采樣使網(wǎng)絡(luò)能夠在評估更少的深度候選時獲得更高的準確度。本文還提出了多視圖匹配分數(shù)的深度一致性加權(quán),以確保多視圖深度與單視圖預測一致。

【20】 What to look at and where: Semantic and Spatial Refined Transformer for detecting human-object interactions

paper:https://arxiv.org/abs/2204.00746
我們提出了一種新穎的基于 Transformer 的語義和空間精煉Transformer (SSRT) 來解決人與對象交互檢測任務(wù),該任務(wù)需要定位人和對象,并預測它們的交互。與以前的基于 Transformer 的 HOI 方法不同,這些方法主要側(cè)重于改進解碼器輸出的設(shè)計以進行最終檢測,SSRT 引入了兩個新模塊來幫助選擇圖像中最相關(guān)的對象-動作對并優(yōu)化查詢。使用豐富的語義和空間特征表示。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一文概覽 CVPR2021 最新18篇 Oral 論文
CVPR 2021 論文大盤點-文本圖像篇
CVPR2020 最全整理:全部論文下載GitHub 源碼匯總
2019年十大精彩AI學術(shù)論文盤點
Github大盤點!2021年最驚艷的38篇AI論文
增量學習(Incremental Learning)小綜述
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服