この記事では、OW-VISCapフレームワークについて概説しています。このフレームワークは、ビデオ内の既知および未知の物体を同時に検出、セグメント化、およびキャプション付けを行います。この記事では、OW-VISCapフレームワークについて概説しています。このフレームワークは、ビデオ内の既知および未知の物体を同時に検出、セグメント化、およびキャプション付けを行います。

AIに見ることと話すことを教える:OW‑VISCapアプローチの内部

2025/11/04 17:46
7 分で読めます
本コンテンツに関するご意見・ご感想は、crypto.news@mexc.comまでご連絡ください。

概要と1. はじめに

  1. 関連研究

    2.1 オープンワールドビデオインスタンスセグメンテーション

    2.2 密なビデオオブジェクトキャプショニングと2.3 オブジェクトクエリのコントラスト損失

    2.4 一般化されたビデオ理解と2.5 クローズドワールドビデオインスタンスセグメンテーション

  2. アプローチ

    3.1 概要

    3.2 オープンワールドオブジェクトクエリ

    3.3 キャプショニングヘッド

    3.4 クエリ間コントラスト損失と3.5 トレーニング

  3. 実験と4.1 データセットと評価指標

    4.2 主な結果

    4.3 アブレーション研究と4.4 定性的結果

  4. 結論、謝辞、参考文献

\ 補足資料

A. 追加分析

B. 実装の詳細

C. 制限事項

3 アプローチ

ビデオが与えられた場合、私たちの目標はビデオに存在するオブジェクトインスタンスを共同で検出、セグメント化、キャプション付けすることです。重要なのは、オブジェクトインスタンスのカテゴリがトレーニングセットの一部ではない可能性があることです(例えば、図3(上段)に示されているパラシュート)。これにより、私たちの目標はオープンワールド設定に置かれます。この目標を達成するために、与えられたビデオはまず短いクリップに分割され、それぞれがTフレームで構成されます。各クリップは私たちのアプローチOW-VISCapを使用して処理されます。各クリップの結果のマージについては、セクション4で説明します。

\ セクション3.1では、各クリップを処理するためのOW-VISCapの概要を提供します。次に、私たちの貢献について説明します:(a) セクション3.2でのオープンワールドオブジェクトクエリの導入、(b) セクション3.3でのオブジェクト中心のキャプショニングのためのマスク付き注意の使用、(c) セクション3.4でのオブジェクトクエリが互いに異なることを確保するためのクエリ間コントラスト損失の使用。セクション3.5では、最終的なトレーニング目標について説明します。

3.1 概要

\ オープンワールドとクローズドワールドの両方のオブジェクトクエリは、オブジェクト中心のキャプションを生成する特別に設計されたキャプショニングヘッド、カテゴリラベルを生成する分類ヘッド、セグメンテーションマスクまたはバウンディングボックスを生成する検出ヘッドによって処理されます。

\

\ オブジェクトクエリが互いに異なるように促すために、クエリ間コントラスト損失を導入します。詳細はセクション3.4で提供します。クローズドワールドオブジェクトの場合、この損失は高度に重複する偽陽性の除去に役立ちます。オープンワールドオブジェクトの場合、新しいオブジェクトの発見に役立ちます。

\ 最後に、セクション3.5で完全なトレーニング目標を提供します。

\

3.2 オープンワールドオブジェクトクエリ

\

\

\ まず、ハンガリーアルゴリズム[34]を使用してマッチングコストを最小化することにより、真のオブジェクトとオープンワールド予測をマッチングします。最適なマッチングは、最終的なオープンワールド損失を計算するために使用されます。

\

\

3.3 キャプショニングヘッド

\

\

3.4 クエリ間コントラスト損失

\

\

3.5 トレーニング

私たちの総トレーニング損失は

\ 表1:BURSTの検証セットとテストセットにおけるすべての、一般的な(comm.)および珍しい(unc.)オブジェクトカテゴリのオープンワールドトラッキング精度(OWTA)。Onl.はオンラインのフレームバイフレーム処理を指します。最高のスコアは太字でハイライトされ、2番目に高いスコアには下線が引かれています。

\ 表2:VidSTG [57]データセットにおける密なビデオオブジェクトキャプショニングの結果。Off.はオフライン方法を示し、onl.はオンライン方法を指します。

\

:::info 著者:

(1) Anwesa Choudhuri、イリノイ大学アーバナ・シャンペーン校(anwesac2@illinois.edu);

(2) Girish Chowdhary、イリノイ大学アーバナ・シャンペーン校(girishc@illinois.edu);

(3) Alexander G. Schwing、イリノイ大学アーバナ・シャンペーン校(aschwing@illinois.edu)。

:::


:::info この論文はarxivで入手可能であり、CC by 4.0 Deed(Attribution 4.0 International)ライセンスの下で提供されています。

:::

\

市場の機会
Sleepless AI ロゴ
Sleepless AI価格(SLEEPLESSAI)
$0.03068
$0.03068$0.03068
-2.13%
USD
Sleepless AI (SLEEPLESSAI) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために crypto.news@mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

チャートが読めなくても利益を狙える

チャートが読めなくても利益を狙えるチャートが読めなくても利益を狙える

自動取引でトップトレーダーを3秒でコピー!