ニュース

グーグル、テキストから動画を生成できる「VideoPoet」発表

 グーグル(Google)は、リサーチラボの成果として、テキストや画像から動画を生成できる「VideoPoet」を発表した。同社ブログで紹介されている。

「Google Research Blog」より

 「VideoPoet」は、動画生成機能を備えた大規模言語モデル(LLM)。取り扱うことのできる媒体は、動画や文章、画像、音声など多岐にわたる。

 英文を入力すると動画が生成できる機能、画像から動画が生成できる機能、動画のスタイルを変更できる機能、動画の修正や加筆ができる機能、そして動画から音声を生成する機能などが用意されている。

 たとえば、「カードで遊ぶ2匹のパンダ」というフレーズを入力すると、木のテーブルで2匹のパンダがトランプをしている動画が生成される。

 また、リサーチラボは「VideoPoet」の機能を紹介する動画を作成した。グーグルの生成AI「Bard」でアライグマの旅物語を生成し、その文章を「VideoPoet」が動画として生成した結果を、リサーチラボがつなぎ合わせ制作した。

 「VideoPoet」は複数のトークナイザーを使用している。動画と画像には「MAGVIT V2」、音声には「SoundStream」を使うことで、入力された文章や画像などをトークンに分解し、複雑な動画生成が可能となっている。

ユーザーの評価は

 リサーチラボは「VideoPoet」のユーザー評価を調査した。「VideoPoet」で文章から動画を生成し、競合モデルの生成結果と比較してどちらが好みかをユーザーが回答した。緑が「VidoePoet」への好感度、ピンクが競合モデルへの好感度を示す。

文章への忠実さ
動画の面白さ

 生成された動画がどれほど文章に忠実かという質問では、過半数のユーザーが「どちらも変わらない」と回答した。一方で、動画の面白さという観点では、4割から5割のユーザーが「VideoPoet」を好むという結果となった。

 リサーチラボは今後の展開として、文章から音声を生成、音声から動画を生成するなど「any-to-any」な生成技術の開発を進めるとする。