概要と1. はじめに
関連研究
2.1 オープンワールドビデオインスタンスセグメンテーション
2.2 密なビデオオブジェクトキャプショニングと2.3 オブジェクトクエリのコントラスト損失
2.4 一般化されたビデオ理解と2.5 クローズドワールドビデオインスタンスセグメンテーション
アプローチ
3.1 概要
3.2 オープンワールドオブジェクトクエリ
3.3 キャプショニングヘッド
3.4 クエリ間コントラスト損失と3.5 トレーニング
実験と4.1 データセットと評価指標
4.2 主な結果
4.3 アブレーション研究と4.4 定性的結果
結論、謝辞、参考文献
\ 補足資料
A. 追加分析
B. 実装の詳細
C. 制限事項
ビデオが与えられた場合、私たちの目標はビデオに存在するオブジェクトインスタンスを共同で検出、セグメント化、キャプション付けすることです。重要なのは、オブジェクトインスタンスのカテゴリがトレーニングセットの一部ではない可能性があることです(例えば、図3(上段)に示されているパラシュート)。これにより、私たちの目標はオープンワールド設定に置かれます。この目標を達成するために、与えられたビデオはまず短いクリップに分割され、それぞれがTフレームで構成されます。各クリップは私たちのアプローチOW-VISCapを使用して処理されます。各クリップの結果のマージについては、セクション4で説明します。
\ セクション3.1では、各クリップを処理するためのOW-VISCapの概要を提供します。次に、私たちの貢献について説明します:(a) セクション3.2でのオープンワールドオブジェクトクエリの導入、(b) セクション3.3でのオブジェクト中心のキャプショニングのためのマスク付き注意の使用、(c) セクション3.4でのオブジェクトクエリが互いに異なることを確保するためのクエリ間コントラスト損失の使用。セクション3.5では、最終的なトレーニング目標について説明します。
\ オープンワールドとクローズドワールドの両方のオブジェクトクエリは、オブジェクト中心のキャプションを生成する特別に設計されたキャプショニングヘッド、カテゴリラベルを生成する分類ヘッド、セグメンテーションマスクまたはバウンディングボックスを生成する検出ヘッドによって処理されます。
\ 
\ オブジェクトクエリが互いに異なるように促すために、クエリ間コントラスト損失を導入します。詳細はセクション3.4で提供します。クローズドワールドオブジェクトの場合、この損失は高度に重複する偽陽性の除去に役立ちます。オープンワールドオブジェクトの場合、新しいオブジェクトの発見に役立ちます。
\ 最後に、セクション3.5で完全なトレーニング目標を提供します。
\
\ 
\ 
\ まず、ハンガリーアルゴリズム[34]を使用してマッチングコストを最小化することにより、真のオブジェクトとオープンワールド予測をマッチングします。最適なマッチングは、最終的なオープンワールド損失を計算するために使用されます。
\ 
\
\ 
\
\ 
\
私たちの総トレーニング損失は
\ 
\ ![表2:VidSTG [57]データセットにおける密なビデオオブジェクトキャプショニングの結果。Off.はオフライン方法を示し、onl.はオンライン方法を指します。](https://cdn.hackernoon.com/images/null-0v3336a.png)
\
:::info 著者:
(1) Anwesa Choudhuri、イリノイ大学アーバナ・シャンペーン校(anwesac2@illinois.edu);
(2) Girish Chowdhary、イリノイ大学アーバナ・シャンペーン校(girishc@illinois.edu);
(3) Alexander G. Schwing、イリノイ大学アーバナ・シャンペーン校(aschwing@illinois.edu)。
:::
:::info この論文はarxivで入手可能であり、CC by 4.0 Deed(Attribution 4.0 International)ライセンスの下で提供されています。
:::
\


