C09

人工知能/計算機に思考させる

Artificial intelligence 

視聴覚クロスモーダル検索

audio-visual cross-modal retrieval

視聴覚クロスモーダル検索のための共同埋め込みの学習

learning joint embedding for audio-visual cross-modal retrieval

代表者名

ドンホ ゼン

Donghuo Zeng

共同発表者名

ドンホ ゼン、イ ユ、大山敬三

Donghuo Zeng, Yi Yu, Keizo Oyama

所属分野

コンテンツ科学研究系|総合研究大学院大学

Digital Content and Media Sciences Research Division|SOKENDAI|The Graduate University for Advanced Studies

pdf-image

要旨

クロスモーダル検索とは、あるモダリティのデータをクエリとして、それに関連する、別のモダリティのデータを取得することです。どのようにモダリティのギャップを跨いで 異質データ間の類似度を算出するか、大きな課題である。イメージとテキスト、オーディオとテキスト、およびビデオとテキストのクロスモーダル検索については近年広く議論されていますが、オーディオとビジュアルのクロスモーダル検索については、時間的クロスモーダル構造の特徴がありますが、アラインメント関係を表すデータがないため、あまり検討されていません。そこで、本研究では、オーディオとビジュアルのクロスモール検索を実現するために、その間の時間的構造を考慮した相関関係を学習することに焦点を当てています。

A cross-modal retrieval process is to use a query in one modality to obtain relevant data in another modality. The challenging issue of cross-modal retrieval lies in bridging the heterogeneous gap for similarity computation, which has been broadly discussed in image-text, audio-text, and video-text cross-modal multimedia data mining and retrieval. However, the gap in temporal structures of different data modalities is not well addressed due to the lack of alignment relationship between temporal cross-modal structures. Our research focuses on learning the correlation between audio and visual for the task of cross-modal retrieval.

関連動画