D03

映像・音・メディア/みる・きく・はなす・さがす

Visual, audio, media

テキストで画像を編集する

セマンティック画像生成

Semantic Image Synthesis

代表者名

杉本 晃宏

Akihiro Sugimoto

共同発表者名

Minh Duc Vo

所属分野

コンテンツ科学研究系|総合研究大学院大学

Digital Content and Media Sciences Research Division|SOKENDAI|The Graduate University for Advanced Studies

pdf-image

要旨

深層ネットワークにおける敵対的学習を用いると、テキストで画像を編集することができます。ここでは、前景用と背景用に識別器を用意し、生成器を含めた三つ組ネットワークの敵対的学習によって、よりリアルな画像を生成することができる技術を紹介します。(英語での発表になります)

Semantic image synthesis is to render foreground (object) given as a text description into a given source image. This has a wide range of applications such as intelligent image manipulation, and is helpful to those who are not good at painting. We propose a generative adversarial network having a pair of discriminators with different architectures, called Paired-D GAN, for semantic image synthesis where the two discriminators make different judgments: one for foreground synthesis and the other for background synthesis.

関連動画