【論文メモ:CycleGAN】Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

論文
著者
背景
目的とアプローチ
- 目的
- アプローチ
提案手法
評価
課題
実装
試しに回してみた結果
感想

論文

[1703.10593] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

著者

Jun-Yan Zhu∗ Taesung Park∗ Phillip Isola Alexei A. Efros

Berkeley AI Research (BAIR) laboratory, UC Berkeley

背景

画像を別の画像ヘ変換（image-to-image translation）は、コンピュータビジョンの大きな分野の一つとなっており、これには整備されたデータセットを使用して入力画像と出力画像のマッピングを学習させる必要がある。しかし、多くの場合トレーニングデータが利用できない場合が多いという問題がある。

目的とアプローチ

目的

image-to-image translationの学習における学習データセットの削減 (対になるデータセットを用意する必要がない)

アプローチ

CycleGAN(循環による首尾一貫性の利用)

提案手法

学習プロセス

学習の考え方の概要について下記に示す。 f:id:nogawanogawa:20180402171949j:plain

上図のように、提案手法では二種類の画像の集合をX、Yに対してX➝Y、Y➝Xの変換を行うGeneratorを用意する。加えて、双方に対応するDiscriminatorも2つ用意する。

提案手法では二種類のloss(Adversarial Loss, Cycle Consistency Loss)を考慮する。ネットワーク全体でのlossを下記に示す。 f:id:nogawanogawa:20180402171356j:plain

上記のlossを下記の目的関数を満たすように学習を行う。 f:id:nogawanogawa:20180402171626j:plain

補足

全体の構成の概念図を下記に示す。 f:id:nogawanogawa:20180407144816j:plain

図のようにGenerator2つ（G1, G2）とDiscriminator2つ（D1, D2）を組み合わせて学習行う。そのため、入力は常に画像となる。

Adversarial Loss

Adversarial Lossについて下記に示す。 f:id:nogawanogawa:20180402170530j:plain

Adversarial Lossは入力画像をもとにGenerator (G)が画像を生成した際に生じるlossを表す。

Cycle Consistency Loss

Cycle Consistency Lossについて下記に示す。 f:id:nogawanogawa:20180402171021j:plain

Cycle Consistency LossはGenerator (G)が生成した画像を入力画像に戻した際に生じるlossを表す。

Cycle Consistency Lossでは、循環して生成された分布を教師データと比較させることで、lossを算出する。そのため、Cycle Consistency Lossを求める際にはDiscriminatorは使用しない。

実装

ネットワーク構造

実装は下記の論文を参考にする。

https://arxiv.org/abs/1603.08155

ビルディングブロックとしてストライド2の畳み込み層、いくつかの剰余区画そしてストライド1/2の畳み込みを組み合わせて使用する。

128×128の画像に対して6層ネットワーク、256×256の画像に対して9層ネットワークを使用する。

Discriminatorとして、70×70のPatchGANを使用する。

その他

Lossとして、クロスエントロピーではなく、最小2乗を使用(参考：https://arxiv.org/abs/1611.04076)
学習の擾乱を低減するためにShrivastava et al’s strategyを採用する。(参考：https://arxiv.org/abs/1612.07828)
λ=10
Adam Optimizer(バッチサイズ= 1)を使用
始め100epochは学習率は0.0002とし、その後の100epochで0に向けて値を減少させる