ニュース

グーグル、「Pixel 6」のポートレートモードに導入されている技術を紹介

 グーグル(Google)は、同社のスマートフォン「Pixel 6」のポートレートモードに導入されている技術を紹介している。

 Pixel 6は、セルフィーから高解像度で正確なアルファマットを推定する新しいアプローチが導入されている。これにより、ポートレートモードで撮影したセルフィーの見栄えを大幅に向上させることが可能になったという。

 被写界深度効果を合成する際、アルファマットを使用することで、撮影した被写体のシルエットをより正確に抽出し、前景と背景をより正確に分離させることができる。

 最近の深層学習技術は、画像マット処理において、正確なグランドトゥルースアルファマットの生成や多くの一般的な画像解析技術改善、モバイルデバイス上での高解像度画像解析など、多くの課題が残されているという。

ポートレートマット

 ポートレートマットの設計では、高品質なアルファマットを段階的に推定するために、一連のエンコーダ-デコーダブロックからなる完全畳み込みニューラルネットワークを学習させた。ニューラルネットワークアーキテクチャは、ディープラーニングのフレームワーク「Tensorflow Lite」を使用してPixel 6上で効率的に実行されるという。

 また、ポートレートマットは、カスタムボリューメトリックキャプチャシステム「Light Stage」を用いて生成された高品質なデータセットを用いて学習させている。

グランドトゥルースデータの生成

 Light Stageはフォトリアリスティックに近い人物モデルを作成し、正確なグランドトゥルースデータを生成する。Light Stageのデータとともに、時間多重化された光と事前に記録された「クリーンプレート」を使って正確なアルファマットを計算する。

 そして、撮影したクリーンプレートを入力として活用する深層学習ベースのマットネットワークを用いて、記録したアルファマットをLight Stageのすべてのカメラ視点に外挿する。これにより、特殊な時間多重照明やきれいな背景を必要とせず、制約のない背景にアルファマット計算を拡張することができる。

実写の肖像画を用いたスーパービジョンの学習

 Light Stageで生成されたポートレートとそうでないポートレートとのギャップを埋めるため、粗野な写真に自動的にアノテーションを施し、実写に近いアルファマットを生成するパイプラインを作成した。