<pre id="j9nnl"></pre>
        <ruby id="j9nnl"></ruby>
          <pre id="j9nnl"></pre><ruby id="j9nnl"><mark id="j9nnl"></mark></ruby>
          <p id="j9nnl"><mark id="j9nnl"><progress id="j9nnl"></progress></mark></p>

              <p id="j9nnl"><cite id="j9nnl"></cite></p>

                  <ruby id="j9nnl"></ruby>

                  <del id="j9nnl"><dfn id="j9nnl"><th id="j9nnl"></th></dfn></del>

                        <ruby id="j9nnl"><mark id="j9nnl"><thead id="j9nnl"></thead></mark></ruby>
                        <p id="j9nnl"></p>

                        <p id="j9nnl"><mark id="j9nnl"></mark></p>
                          <p id="j9nnl"><del id="j9nnl"><thead id="j9nnl"></thead></del></p>

                          新聞動態

                          Dynamics

                          首頁 >  新聞動態  > 詳情

                          SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍 | 論文解讀

                          計算機視覺領域頂級會議 ICCV(國際計算機視覺大會) 于10月11日至17日正式召開。據大會官方統計,ICCV 2021共收到6236篇投稿,其中1617篇論文被接收,接收率為25.9%。上海人工智能實驗室多篇論文入選ICCV 2021,本期與讀者分享論文解讀:《Fast Convergence of DETR with Spatially Modulated Co-Attention》。該論文提出了SMCA,一種即插即用的簡單的共同注意力模型,通過在共同注意力機制中引入待檢測物體的高斯分布權重,SMCA可使DETR的解碼器能更快地在全局特征中定位待檢測的物體特征,從而加速DETR收斂。SMCA-DETR在物體檢測和全景分割中可以快速收斂,并且取得優秀的檢測和分割結果

                          1的副本.png

                          論文鏈接:https://arxiv.org/pdf/2101.07448.pdf

                          代碼連接:https://github.com/gaopengcuhk/SMCA-DETR


                          圖1    SMCA和DETR收斂速度的對比


                          1.        Motivation

                          最近提出的DETR[1]將Transformer結構引入了目標檢測任務,并實現了與Faster-RCNN[2]等兩階段目標檢測算法相當的性能。同時,DETR去除了以往目標檢測算法中需要人工設計的Anchor和NMS等操作,大大簡化了目標檢測算法的流程。然而,DETR緩慢的收斂速度限制了其進一步的研究及應用。為了取得較高的檢測精度,DETR需要訓練500個epoch,遠慢于其他目標檢測算法。

                          論文認為DETR收斂速度較慢的原因之一來自于其中的共同注意力(Co-Attention)機制。不同于以往基于局部特征的目標檢測算法,DETR使用了一系列物體查詢向量(Object Queries)與圖像的全局特征進行交互,基于共同注意力機制自適應地從圖像的不同位置獲取物體特征,從而預測物體的邊界框坐標及其類別。然而在這一過程中,與每個物體查詢向量進行交互的特征區域可能包含大范圍的背景,或其他無關的物體。因此,DETR的解碼器(Decoder)需要更長的訓練時間來使物體查詢向量能較為準確的定位物體。

                          為了解決上述問題,論文提出了一種即插即用的空間調制共同注意力模塊(Spatially Modulated Co-attention, SMCA),通過在共同注意力機制中引入物體的高斯分布模型,將每個物體查詢向量在共同注意力機制中的搜索范圍調整到物體中心附近的一定距離內,從而加速了DETR的收斂。另一方面,受到特征金字塔網絡(FPN)[3]等工作在多尺度特征上研究的啟發,在編碼器(Encoder)中引入了對多尺度特征的編碼。通過層內(Intra-Scale Self-Attention)和層間(Multi-Scale Self-Attention)自注意力機制以及尺度選擇注意力機制,SMCA可以高效地編碼圖像的多尺度信息,并在解碼器中自適應地選擇合適尺度的特征,從而提高檢測精度。

                          圖2    SMCA的結構示意圖


                          2.    SMCA

                          1)空間調制的共同注意力模型

                          論文首先對DETR中解碼器的共同注意力機制進行回顧。對于給定的物體查詢向量Oq?N×C和編碼器輸出的全局圖像特征E∈?L×C,DETR根據變換后兩者的注意力矩陣對全局特征進行聚合,從而更新物體查詢向量。在這一過程中,共同注意力機制中的特征聚合范圍可以直接通過調整注意力矩陣的權重來進行改變。

                          1.png

                          因此,SMCA的核心就是通過將可學習的共同注意力權重與預先設定的物體查詢向量的空間先驗相結合,將特征聚合的范圍限制在查詢向量估計的物體位置周圍,從而加快特征的聚合過程。

                          SMCA的共同注意力模型如圖 2中橙色部分所示。對于每一個給定的物體查詢向量Oq?N×C,SMCA首先對物體的中心位置(ch,cw)以及尺度(sh,sw)進行預測。

                          2.png

                          并使用預測值生成物體的二維高斯分布G(iJ j),其中,β用以調節高斯分布的帶寬。

                          3.png

                          最后,將物體的二維高斯分布與共同注意力模型中的注意力矩陣結合,得到空間調制的多頭注意力矩陣如下:

                          4.png5.png

                          值得注意的是,SMCA在多頭注意力模型中的每一分支使用了不同的空間位置估計,分別聚焦于物體上不同的位置,從而更全面地提取物體特征。

                          2)多尺度融合的共同注意力模型

                          受到特征金字塔網絡的啟發,論文進一步在SMCA中引入了多尺度特征的融合機制。如圖 2下半部分所示,SMCA首先從Backbone網絡中獲得下采樣16倍,32倍和64倍的三個不同尺度的特征圖作為解碼器的輸入。然后在解碼器中交替使用層內和層間的自注意力機制(不同尺度的特征分別進行編碼/多層特征統一進行編碼)編碼特征,在這一過程中不同尺度的參數進行了共享。

                          在解碼器中,SMCA引入了相對應的尺度選擇機制。對于編碼器輸出的三種不同尺度的特征,SMCA首先根據物體查詢向量預測尺度選擇的權重:

                          6.png

                          隨后在不同尺度的特征上分別進行特征聚合,最后加權求和得到輸出的物體特征。


                          7.png




                          3.    Performance

                          首先,論文將SMCA與基礎的DETR模型進行了比較。實驗結果如表1所示,通過簡單地替換DETR中現有的共同注意力機制并使用多尺度特征,SMCA將DETR的收斂速度提升了接近10倍,并取得了更高的性能。


                          表1    與DETR的對比

                          其次,論文在下游任務,如全景分割上也對SMCA機制進行了測試。基于MaskFormer [4]ResNet50模型,在將網絡中的共同注意力機制替換為SMCA后(未使用多尺度特征融合),論文中的方法僅使用1/6的訓練時間即取得了和原模型相當的結果。


                          表2    SMCA在Panoptic Segmentation任務上的結果

                          此外,為了進一步驗證本文所提出的共同注意力機制的有效性,論文對解碼器中的注意力權重以及預測的物體位置進行了可視化。如圖 3所示,相較于原始的DETR,通過在多頭注意力模型的每一分支中對位置和尺寸分別進行預測,SMCA可以產生更加準確和緊湊的注意力權重分布,加速了對于物體特征的提取過程。


                          圖3    SMCA中共同注意力機制的可視化

                          最后,如表3所示,與其他同類方法相比,SMCA可以使用類似或更少的訓練時間取得相當的檢測結果,證明了本文所提出方法的有效性。


                          表3    與其他模型的比較


                          圖4    可視化結果


                          [1]  N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, “End-to-End Object Detection with Transformers,” in In European Conference on Computer Vision, 2020, pp. 213–229.

                          [2] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in Advances in Neural Information Processing Systems, 2015, vol. 2015-January.

                          [3] T. Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, vol. 2017-Janua, pp. 936–944.

                          [4] B.Cheng, A. G. Schwing, and A. Kirillov, “Per-Pixel Classification is Not All YouNeed for Semantic Segmentation,” arXiv, 2021.


                          如需了解更多詳情,可訪問本文第一作者,上海人工智能實驗室青年科學家高鵬的個人主頁 https://gaopengcuhk.github.io/


                          comm@pjlab.org.cn

                          上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                          滬ICP備2021009351號-1

                          <pre id="j9nnl"></pre>
                                <ruby id="j9nnl"></ruby>
                                  <pre id="j9nnl"></pre><ruby id="j9nnl"><mark id="j9nnl"></mark></ruby>
                                  <p id="j9nnl"><mark id="j9nnl"><progress id="j9nnl"></progress></mark></p>

                                      <p id="j9nnl"><cite id="j9nnl"></cite></p>

                                          <ruby id="j9nnl"></ruby>

                                          <del id="j9nnl"><dfn id="j9nnl"><th id="j9nnl"></th></dfn></del>

                                                <ruby id="j9nnl"><mark id="j9nnl"><thead id="j9nnl"></thead></mark></ruby>
                                                <p id="j9nnl"></p>

                                                <p id="j9nnl"><mark id="j9nnl"></mark></p>
                                                  <p id="j9nnl"><del id="j9nnl"><thead id="j9nnl"></thead></del></p>
                                                  韩国伦理电影