スタパ齋藤の「スタパトロニクスMobile」

人工知能ChatGPTの姿を可視化・アニメ化してみた!!!

ChatGPTの姿をAIが寄ってたかってアニメーション化

 対話型AIことChatGPT。OpenAIが2022年11月に公開し、誰もが使えるようになった人工知能だが、半年経たずに世界は騒然であり、さらには「もう後戻りできないかも」的な見解もありつつ、こういった人工知能(GPT-4より強力なAI技術)の開発停止の声も上がり始めている。

 そんな様相をドキドキ&ワクワクしつつ見ている俺だが、それはそれとして、俺はAIとの遊びを継続中。最近では、ChatGPTをほかのAIと連携させつつ、ChatGPTを人と見立てて可視化してみた。

 具体的には、ChatGPTに自分の容姿を創作させ、その発言を翻訳AIのDeepLに英文にしてもらい、英文をプロンプトとして画像生成AIに入力した。詳細は下記リンクの記事に書いたが、以下のようにChatGPTを可視化できた。

ChatGPTに自分の容姿を創作させ、その発言を翻訳AIで英文化。これを手動で簡潔にまとめてプロンプトとし、各画像生成AIに入力した。各画像生成AIに入力したプロンプトは同一で「Woman, 6 feet tall, slim, hair is short, black, slightly thick, stylishly coiffed, round face, beautiful blue eyes, small nose, Large mouth, thin lips, smooth skin, healthy complexion, few moles on face, wears simple stylishly designed jeans and t-shirts.」というもの。ネガティブプロンプトは使っていない。
DiffusionBeeによるChatGPT容姿可視化の例。俺的には最も「ChatGPTらしい!」と感じられた生成結果となった。DiffusionBeeは、デファクトスタンダードな画像生成AI「Stable Diffusion」を組み込んだMac用アプリ。GUIで手軽に画像生成できる。

 ChatGPTねえさん! すごいインパクト! 平気でウソつきそうな雰囲気が気に入った!

 ちなみにChatGPTが女性になっているのは、ChatGPTによる自らの容姿の創作をDeepL(翻訳AI)に英文化させたら、ChatGPTについて“she”と翻訳したからだ。たぶんDeepLの“幻覚”だと思うが、おもしろいからその英文を(手動で少し短くまとめて)プロンプトとした。

 ちなみに、女子中学生マンガ家改めママさんマンガ家の餅月あんこ先生界隈では“ChatGPT子ちゃん”と呼ばれているらしい! ソレをゼヒ採用してゆきたい! で、上のようなやや不気味っぽいChatGPT子ちゃん以外にも、いろいろ生成されたので、それらもご紹介。

同じくDiffusionBeeによるChatGPT子ちゃん容姿可視化の例。
有名な画像生成AIのMidjourney(バージョン5/現最新版)による可視化例。
画像生成AIのStable Diffusionの現最新版Stable Diffusion XL(Beta/Preview)による可視化例。DreamStudioを使った。

 Stable DiffusionもMidjourneyもどんどん絵が巧くなっている感じですな。ともあれ、ChatGPT子ちゃんのいろいろな姿を生成させていたら、ChatGPT子ちゃんを動かしたくなってきた。アニメ化である。現在のAIを使うと容易にアニメ化できるので、実際にそうしてみた。

「Creative Reality Studio」でChatGPT子ちゃんをアニメート!

 ChatGPT子ちゃんの画像をどうやってアニメーション化するのか? 方法はいくつかあると思うが、今回は手っ取り早くD-IDの「Creative Reality Studio」というサービスを使ってみた。
 Creative Reality Studioは、リアルなアバターが自然な雰囲気で喋る動画をAIが生成するサービス。基本的に3つのAIを統合したサービスで、Open AI「GPT-3」、Stability AI「Stable Diffusion」、そしてD-ID独自のジェネレーティブAI技術を使った動画生成サービスだ。上記リンク先の動画などを見れば、「あーなるほど、こう使えるのか」と雰囲気を掴めると思う。

D-ID「Creative Reality Studio」はWebブラウザで使えるスピーチ動画生成サービスだ。用意されたアバターからひとつ選ぶか、AIでアバターを生成させて使用開始。テキストを入れて言語と性別と発音スタイルを選ぶと、そのテキストをアバターが読み上げる動画が生成される。テキストを入力する代わりにスピーチ音声ファイルをアップロードしてもいい。無料トライアルで使用することもできる。
ただし商用利用ではProプラン以上での契約が必要になる。プランごとの機能などはコチラ
Creative Reality Studioで生成した動画を本記事に掲載することは商用利用なので、商用利用可能なProプランを契約した。

 つーか最近のAI系サービスって片っ端からApple Pay対応になっていて、ついつい有料プランで使いたくなって、iPhoneの電源ボタンダブルクリックでAI貧乏っすわ〜って話は置いといて、さっそくCreative Reality Studioを使用。ChatGPT子ちゃんをアニメ化してみた。

Creative Reality Studio使用開始。アバターとしてChatGPT子ちゃんの画像をアップロードして適用。さらに喋らせるテキストを書き込み、言語(国)を選び、声や発音スタイルを選ぶ。そして「GENERATE VIDEO」をクリックすればビデオ生成が始まる。
喋らせる長さによってビデオの生成時間は異なるが、今回のような短いビデオ(約38秒)なら十数秒生成されることが多い。そのままWebサイト上で動画の完成を待ってももいいが、生成と同時にメールが送られてくるのでほかの作業をしていてもいい。
できあがったビデオがこちら。喋らせた内容は「私は身長が約6フィートで、スリムな体型をしています。髪は短く黒く、やや厚みがあり、スタイリッシュな髪型で整えられています。顔は丸みを帯びた形で、美しい青色の瞳を持ち、穏やかな表情をしています。鼻は小さくて、口はやや大きめで、唇は薄いです。肌は滑らかで、健康的な肌色をしており、顔にはほくろがいくつかあります。服装はシンプルで、スタイリッシュなデザインのジーンズとTシャツを着用しています」という、ChatGPT子ちゃんの自己紹介……ていうか自己の容姿の創作だ。

 あ〜ら簡単。あっ、商用利用対応動画だからか、端に「AI」って入ってますな。トライアル版では確か「AI」って入らなかったような……。確認したらトライアル版では「AI」ではなく「D-ID」と表示されていた。

 ともあれ、非常にお手軽に静止画(の顔)をアニメ化しつつ喋らせることができた。途中、人間が手動で行ったことも少々あるが、AIに人物像の生成からそのアニメ化までほとんどを任せることができた。こういうことが去年後半あたりからスゴい勢いでできるようになって、さらに高度化しつつあるんだから驚く。

顔もセリフも入れ替えまくり、30秒程度のアニメーションを15秒くらいで生成

 前出のChatGPT子ちゃんアニメだが、改めて見ると、言ってることと自分の姿がかなり食い違っている。しかも文章自体はChatGPTのフツーの文章なので、味も素っ気もない。そこで人間っつーか俺が、ChatGPT周辺のネットのアレコレを少し交えつつスピーチ内容を考えて、それを喋らせてみた。

 文章の内容は「あたし、チャットジーピーティー子。よろしく! あたしは自分の外見を創作して文章で説明したんだ!

 それをディープエルちゃんが英文にしてくれたの。その英文からステーブルビーちゃんが画像を作って、あたしの外観が可視化されたんだよ。どう? ステキでしょ? あたしのことはチャッピーって呼んでね! これからもあたしと喋ること、つまり「ジピる」ことを楽しんでね!」としてみた。どうなるだろう?

ふたたびCreative Reality Studioを使用。文章だけ差し替えて新しいビデオを作らせてみた。
作ったビデオがこちら。Creative Reality Studioで「GENERATE VIDEO」をクリックして15秒程度で生成された。

 ユーザーが喋らせたいことをしっかり喋ってくれるアバター。時間帯などにもよると思うが、30秒くらいの(顔の)アニメーションが15秒くらいで生成されて、しかもけっこう自然な感じ。スゴ!

 ちなみに、Creative Reality Studioでのスピーチアニメーション、人物がこちらを向いていると、より自然なアニメーションになるようだ。例えば、こんな画像↓を使ってみると……。

前出の「ChatGPTを可視化するために画像生成AIに入力したプロンプト」と同じものをMidjourney子ちゃんに入力したら、こんなChatGPT子ちゃんが! ちなみにMidjourney子ちゃんの有料プランで生成したので、この画像は商用利用可能だ。え? ……Midjourney子ちゃん?
それをCreative Reality Studio子ちゃんでアニメ化したのがこの動画。え? ……Creative Reality Studio子ちゃん?

 やはりまっすぐにコチラを見ている顔の映像だと、よりリアルなスピーチ動画が生成される。まあそういう目的のCreative Reality Studioですもんネ。

 ちなみに、Creative Reality Studioでは動画を生成すると動画の長さに合わせたクレジット(Credits)が引かれていく。クレジットを払って動画を生成させるというわけだが、商用利用可能なProプランには60クレジットが付与されていた。動画を作るたびにクレジットが減っていく。

Creative Reality Studioで画像生成時に表示されるウィンドウ。右下に3(54 left)とあるが、3が消費されるクレジットだ。15秒の動画を作成するごとに1クレジットが消費される。

 先日見た某社の新入社員に対する社長の祝辞的なスピーチは、もしかしたらCreative Reality Studioで作ったアニメーションかもしれない、とか思った。ら、その後にその社長がインタビューを受けていて、「AIで作った」的なことを言っていた。SFっぽい未来にすでに足を踏み入れたような気がする。

人間は監督になり、特化型AIが協力して作る

 前出のCreative Reality Studioによるスピーチ動画、音声合成によるスピーチなので、イントネーションがヘンなところが少々見つかる。日本語だからなのかはわからないが、やはりビミョーに「あれっ?」と違和感が残る。

 Creative Reality Studioの最もラクな使い方はたぶん「アバターを選んでテキストをドーッと流し込んで「GENERATE VIDEO」をクリックするだけ」というスタイルだと思う。できるだけAI任せにしちゃうわけですな。

 一方、Creative Reality Studioは入力したテキストをスピーチさせるのではなく、入力した音声に合わせてアバターの顔や口を動かすという使い方もできる。この使い方なら、ヘンなイントネーションが発生してしまうことはない。

 たとえば、AHSの入力文字読み上げソフト「voicepeak」。これを使えばテキストを入力してのスピーチ音声を作ったり、作られる音声のイントネーションの微調整を行うことができる。また商用利用可能なバージョンやライセンスもある。ほかにもいろいろ「日本語をキレイに喋るアプリ」が存在する。ともあれ、実際にvoicepeakでスピーチ音声を作り、それをCreative Reality Studioにアップロードし、アニメーションを作成してみた。

voicepeakアプリでテキストからスピーチ音声ファイル(.wav)を作成する。逐一合成される音声を聞きながら、「ここのイントネーションがヘン」と思ったら微調整。正しかったり好みだったりするイントネーションで喋る音声ファイルを手に入れられる。
作成した音声ファイルをCreative Reality Studioにアップロード。音声ファイルからスピーチ動画を作る場合、言語などを選ぶ必要はないようだ。
できあがったアニメーションがこちら。

 イイですね〜。バッチリ。ChatGPTの容姿の説明、その映像化、そして映像のアニメーション化。アニメ化完了までに俺がやったことは、ChatGPTへの容姿創作リクエスト、英語プロンプトの整理(長すぎたので削った程度)、スピーチ原稿の作成と音声化時の調整といったところ。

 上のアニメーションをひとりでイチから作ろうとすると……もーのすごい手間と苦労と技術と時間が必要になる。てか、無理。

 その無理が可能になってしまった。数人の特化型AIのおかげで。

 今回もまた、フザケた方向性でAIを動かして遊んだ感じだが、しかしそんな遊びをしているだけで「人間が監督になってAIを使っていく時代なんだろうな」と思う。AIの猛スピードでの進歩について怖い想像をしてしまうこともあるわけだが、これまで人間の前にあった“障壁”がAIによって次々と取り払われることからくる楽しみのほうが大きいような気もする俺なのであった。

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。