スタパ齋藤の「スタパトロニクスMobile」
人工知能ChatGPTの姿を可視化・アニメ化してみた!!!
2023年4月10日 00:00
ChatGPTの姿をAIが寄ってたかってアニメーション化
対話型AIことChatGPT。OpenAIが2022年11月に公開し、誰もが使えるようになった人工知能だが、半年経たずに世界は騒然であり、さらには「もう後戻りできないかも」的な見解もありつつ、こういった人工知能(GPT-4より強力なAI技術)の開発停止の声も上がり始めている。
そんな様相をドキドキ&ワクワクしつつ見ている俺だが、それはそれとして、俺はAIとの遊びを継続中。最近では、ChatGPTをほかのAIと連携させつつ、ChatGPTを人と見立てて可視化してみた。
具体的には、ChatGPTに自分の容姿を創作させ、その発言を翻訳AIのDeepLに英文にしてもらい、英文をプロンプトとして画像生成AIに入力した。詳細は下記リンクの記事に書いたが、以下のようにChatGPTを可視化できた。
ChatGPTねえさん! すごいインパクト! 平気でウソつきそうな雰囲気が気に入った!
ちなみにChatGPTが女性になっているのは、ChatGPTによる自らの容姿の創作をDeepL(翻訳AI)に英文化させたら、ChatGPTについて“she”と翻訳したからだ。たぶんDeepLの“幻覚”だと思うが、おもしろいからその英文を(手動で少し短くまとめて)プロンプトとした。
ちなみに、女子中学生マンガ家改めママさんマンガ家の餅月あんこ先生界隈では“ChatGPT子ちゃん”と呼ばれているらしい! ソレをゼヒ採用してゆきたい! で、上のようなやや不気味っぽいChatGPT子ちゃん以外にも、いろいろ生成されたので、それらもご紹介。
Stable DiffusionもMidjourneyもどんどん絵が巧くなっている感じですな。ともあれ、ChatGPT子ちゃんのいろいろな姿を生成させていたら、ChatGPT子ちゃんを動かしたくなってきた。アニメ化である。現在のAIを使うと容易にアニメ化できるので、実際にそうしてみた。
「Creative Reality Studio」でChatGPT子ちゃんをアニメート!
ChatGPT子ちゃんの画像をどうやってアニメーション化するのか? 方法はいくつかあると思うが、今回は手っ取り早くD-IDの「Creative Reality Studio」というサービスを使ってみた。
Creative Reality Studioは、リアルなアバターが自然な雰囲気で喋る動画をAIが生成するサービス。基本的に3つのAIを統合したサービスで、Open AI「GPT-3」、Stability AI「Stable Diffusion」、そしてD-ID独自のジェネレーティブAI技術を使った動画生成サービスだ。上記リンク先の動画などを見れば、「あーなるほど、こう使えるのか」と雰囲気を掴めると思う。
つーか最近のAI系サービスって片っ端からApple Pay対応になっていて、ついつい有料プランで使いたくなって、iPhoneの電源ボタンダブルクリックでAI貧乏っすわ〜って話は置いといて、さっそくCreative Reality Studioを使用。ChatGPT子ちゃんをアニメ化してみた。
あ〜ら簡単。あっ、商用利用対応動画だからか、端に「AI」って入ってますな。トライアル版では確か「AI」って入らなかったような……。確認したらトライアル版では「AI」ではなく「D-ID」と表示されていた。
ともあれ、非常にお手軽に静止画(の顔)をアニメ化しつつ喋らせることができた。途中、人間が手動で行ったことも少々あるが、AIに人物像の生成からそのアニメ化までほとんどを任せることができた。こういうことが去年後半あたりからスゴい勢いでできるようになって、さらに高度化しつつあるんだから驚く。
顔もセリフも入れ替えまくり、30秒程度のアニメーションを15秒くらいで生成
前出のChatGPT子ちゃんアニメだが、改めて見ると、言ってることと自分の姿がかなり食い違っている。しかも文章自体はChatGPTのフツーの文章なので、味も素っ気もない。そこで人間っつーか俺が、ChatGPT周辺のネットのアレコレを少し交えつつスピーチ内容を考えて、それを喋らせてみた。
文章の内容は「あたし、チャットジーピーティー子。よろしく! あたしは自分の外見を創作して文章で説明したんだ!
それをディープエルちゃんが英文にしてくれたの。その英文からステーブルビーちゃんが画像を作って、あたしの外観が可視化されたんだよ。どう? ステキでしょ? あたしのことはチャッピーって呼んでね! これからもあたしと喋ること、つまり「ジピる」ことを楽しんでね!」としてみた。どうなるだろう?
ユーザーが喋らせたいことをしっかり喋ってくれるアバター。時間帯などにもよると思うが、30秒くらいの(顔の)アニメーションが15秒くらいで生成されて、しかもけっこう自然な感じ。スゴ!
ちなみに、Creative Reality Studioでのスピーチアニメーション、人物がこちらを向いていると、より自然なアニメーションになるようだ。例えば、こんな画像↓を使ってみると……。
やはりまっすぐにコチラを見ている顔の映像だと、よりリアルなスピーチ動画が生成される。まあそういう目的のCreative Reality Studioですもんネ。
ちなみに、Creative Reality Studioでは動画を生成すると動画の長さに合わせたクレジット(Credits)が引かれていく。クレジットを払って動画を生成させるというわけだが、商用利用可能なProプランには60クレジットが付与されていた。動画を作るたびにクレジットが減っていく。
先日見た某社の新入社員に対する社長の祝辞的なスピーチは、もしかしたらCreative Reality Studioで作ったアニメーションかもしれない、とか思った。ら、その後にその社長がインタビューを受けていて、「AIで作った」的なことを言っていた。SFっぽい未来にすでに足を踏み入れたような気がする。
人間は監督になり、特化型AIが協力して作る
前出のCreative Reality Studioによるスピーチ動画、音声合成によるスピーチなので、イントネーションがヘンなところが少々見つかる。日本語だからなのかはわからないが、やはりビミョーに「あれっ?」と違和感が残る。
Creative Reality Studioの最もラクな使い方はたぶん「アバターを選んでテキストをドーッと流し込んで「GENERATE VIDEO」をクリックするだけ」というスタイルだと思う。できるだけAI任せにしちゃうわけですな。
一方、Creative Reality Studioは入力したテキストをスピーチさせるのではなく、入力した音声に合わせてアバターの顔や口を動かすという使い方もできる。この使い方なら、ヘンなイントネーションが発生してしまうことはない。
たとえば、AHSの入力文字読み上げソフト「voicepeak」。これを使えばテキストを入力してのスピーチ音声を作ったり、作られる音声のイントネーションの微調整を行うことができる。また商用利用可能なバージョンやライセンスもある。ほかにもいろいろ「日本語をキレイに喋るアプリ」が存在する。ともあれ、実際にvoicepeakでスピーチ音声を作り、それをCreative Reality Studioにアップロードし、アニメーションを作成してみた。
イイですね〜。バッチリ。ChatGPTの容姿の説明、その映像化、そして映像のアニメーション化。アニメ化完了までに俺がやったことは、ChatGPTへの容姿創作リクエスト、英語プロンプトの整理(長すぎたので削った程度)、スピーチ原稿の作成と音声化時の調整といったところ。
上のアニメーションをひとりでイチから作ろうとすると……もーのすごい手間と苦労と技術と時間が必要になる。てか、無理。
その無理が可能になってしまった。数人の特化型AIのおかげで。
今回もまた、フザケた方向性でAIを動かして遊んだ感じだが、しかしそんな遊びをしているだけで「人間が監督になってAIを使っていく時代なんだろうな」と思う。AIの猛スピードでの進歩について怖い想像をしてしまうこともあるわけだが、これまで人間の前にあった“障壁”がAIによって次々と取り払われることからくる楽しみのほうが大きいような気もする俺なのであった。