スタパ齋藤の「スタパトロニクスMobile」

画像生成AIの進歩が著しいッ!!! Gemini 2.0 Flashがスゴすぎた

 GoogleのAIことGemini。その最新AIモデルは「Gemini 2.5」だが、バージョンとしてはひとつ前のモデルとなる「Gemini 2.0 Flash」がSNSなどで大きな話題になっている。いろいろな人がイロイロな観点で話題にしているが、「元画像を提示してテキストで指示すれば、その画像を見る角度を変えられたり、人物などキャラクターの向きや服装や表情を変えることができる」のが話題の中心となっている。

 どういうことがデキるのか? まずデキた結果からご覧いただきたい。

これはMidjourneyで生成した女性。これをGemini 2.0 Flashに与え(具体的にはGoogle AI Studioで使用)、テキストで求める変化などを入力(チャット)する。
テキストで「side shot」と入力した。日本語で「横向きにして」とかでも大丈夫。結果、斜め横向きの画像が得られた。
真横を向かせたかったので「one more back shot」と入力した。結果真横を向いた。
「back shot」と入力したら後ろ姿になった。

 凄くないですかぁ~? こういうコトこれまで面倒だったり整合性が取れなかったりしたのに、AIに写真見せてチャットで指示するだけでデキるなんて!!!

 ちなみに、Gemini 2.0 Flashは、「Google AI Studio」で使える。Google AI Studioは開発者向けのサービスではあるが、一般のユーザーでも利用できる。

WebブラウザでGoogle AI Studioを使っている様子。右の黄枠設定で、ModelをGemini 2.0 Flash(Image Generation)Experimentalとし、Output formatをImages&textとする。その後、下の黄枠に写真などをドラッグ&ドロップするか(+)ボタンを押して各種ファイルをアップロードし、さらにその枠内にテキストを打ち込めば画像などを変化させられる。

 GeminiはマルチモーダルAIなので、上記のような画像生成のほか、もちろんチャットでのやりとりもできるし、音声データなども扱える。Web UIは一見複雑そうではあるが、使ってみればカンタンなので、ぜひお試しいただきたいッ!!!

 なお、AIモデルのModelをGemini 2.0 Flash(Image Generation)Experimentalは、その名のとおり実験レベルのサービスで、商利用可能かどうかも明示されていない。生成された画像にはGeminiの★みたいなマークも入るので、生成画像そのものを商品とするような商利用はできないと考えたほうが無難だろう。

 と言いつつこの記事ではGemini 2.0 Flash(Image Generation)Experimental生成画像が掲載されているが、これはあくまで検証のための画像引用ということでご理解いただければと思う。

驚きの丸投げ生成!!! 顔ソックリ!!! AIに言えば変更自由自在!!! ヤバいフェーズがキた!!!

 現在、AI生成画像の各種コンテンツが凄いスピードで市場に溢れてきている。たとえばマンガ。AI生成のキャラクターを登場・演技などさせて構成する「絵のほとんどをAI画像生成で行っているマンガ」だ。画像をAIに生成させた後で、レタッチか描き込みなどしている作品も多いようだ。

 作成方法を調べてみると、多くのケースで「顔や服装が同じキャラクターを大量に生成し、ストーリー上で必要な生成画像を選び出して使う」というもの。また、使う生成画像は絵的な統一感の精度を高めるために描き込みやレタッチなどを行っているらしい。

 そういったコンテンツ作りに使われているAIはさまざまだが、調べた範疇では、多くのケースでStable Diffusionが使われているようだ。またクリエイターたちの多くは、自前の強力GPU搭載PCで、ローカルでStable Diffusionを使っているっぽい。

 キャラクターの顔や衣服などを統一するためにLoRA(ファインチューニング手法/絵の場合は顔や衣服を似通わせるために使われることが多い)や、キャラクターのポーズなどを制御するためにControlNet(厳密なポーズが得られるStable Diffusionの拡張機能/これもいろいろなモデルがある)を使っているようだ。

 俺もそういうのを使ったりしたが、正直なところ、メンドクサイし時間がかかるし、生成速度を得ようとすると「えっ?」ってくらい(ローカルでAI生成させるPCのための)コストがかかるのである。そこまでするなら、まあまあ適切なポーズの体部分と、統一性がある顔と、服装などと、背景を、Photoshopで自力合成したほうが低コストで合理的で早いなぁ、と。

 上記で「顔や服装が同じキャラクターを大量生成」と書いたが、10枚や20枚ではなく、100~1000といったレベルでの生成だそうだ。物凄く多く「ガチャする」らしい。いや、詳しいことはよく知らんが、そういう世界らしい。

この記事で使う人物写真の元画像として、Midjourneyで生成した女性の画像。Midjourneyには参照画像を与えてそれに近い画像を生成するというimg2img的な機能があるが「リアルで高画質な似た顔」を生成してくれて実用的だ。

 似通った顔や服装の人物を生成するだけなら、Midjourneyのような既存サービスを使うとわりと効率がいい。ほかのサービスでも同様だ。

 だが、顔の向きやポーズのコントロールはそれなりに難しく、メンドクサく、結局はガチャを回すような作業になりがち。比較的に安価に使えるサービスでソレをやっていると、生成時間もそれなりにかかり、やっぱり時間の無駄って感じになるので、結局は手作業で合成して求める画像を作ったほうが早いかな、と。

 だがしかし、そーゆー「メンドクサさ」や「合わないコスト」などなど諸問題っていうか各種不都合を、Gemini 2.0 Flashが一気に解決してくれちゃった。使うたびに「やっばGemini 2.0 Flashスゲ過ぎ!」と感動するほどなのである。どういう感動があるのか、以下にGemini 2.0 Flashによる生成画像とともにお伝えしたい。

Midjourneyに生成させた女性の画像。プロンプトは「Beautiful Japanese woman, 18 years old, long, straight hair, white t-shirt, jeans, smiling, live action, very realistic photographic description, simple background(日本人女性、18歳、ストレートロングヘアー、白いTシャツ、ジーンズ、笑顔、実写、とてもリアルな写真描写、シンプルな背景)」だ。単語羅列のプロンプトのほうが希望するイメージに近い画像が出るような気がしている。ともあれ、これを元の写真としてGemini 2.0 Flashに与えた。
元画像がやや斜め向きだったので、Gemini 2.0 Flashに「front shot」と指示し、できたのがこの画像。
さらに「side shot」と指示してできたのがこれ。
続いて後ろ姿を描かせようと「back shot」と入力。だが向きを変えただけだった。こういう意図に沿わない生成も少なくない。
そこで「one more back shot」と入力。ちゃんと後ろ姿が出た。
じゃあ笑顔で手を振らせようと「Look at me and wave. Smile」と入力。そうそう、そういうの、という画像が生成された。
じゃあ手でハートマークやって! 「It is looking at us. Heart mark gesture with hand.」と入力。一発で生成された。
Geminiは日本語でも使える。そこで「赤いTシャツにしてください」と指示した結果がコレ。Tシャツだけ赤にしてくれた!
「キャップをかぶせて」と指示したら……簡易コラージュ的ではあるが、一発でキャップ装着。

 スゴくないですかぁ~コレっ!!! 画像1枚用意して、あとは簡単な指示だけで、同じキャラクターのバリエーションをこーんなに生成してくれる!

 ちなみに、画像の生成が進むにつれて、キャラクターの顔が元画像と少しずつ違ってきている。恐らくこれは、生成してきた画像のうち新しい画像を参照して新たな画像を生成しているからと想像される。

 顔などの統一感をさらに高めたい場合、いろいろな方法がある。効果的だったのは最初に与えた画像について「この画像をベース画像と定義します。ベース画像についての新たな生成は、必ずこのベース画像を参照してください」などとAIに説明すればいいと思う。

 ほかにもたくさん方法があると思うが。また、生成するたびに、新たなチャットを開始して、そこに元画像をアップロードするというのもアリと思うが、チャットのライブラリが増え過ぎて、生成画像の整理が面倒になるかもしれない。

 それとこの「同じキャラを生成させる使い方」は、アニメ・マンガキャラ的な絵柄のほうが実用的かもしれない。アニメ・マンガキャラって髪や目の色、服装など、特徴の集合体なので、多少顔が似てなくても「あぁ同じキャラか」と鑑賞者に思わせる記号的な力がある。

Midjourneyのアニメ・マンガキャラ版こと「にじジャーニー(niji・journey)」に生成させたキャラ。前出の赤いTシャツでロングヘアの女性画像をMidjourneyに与え、プロンプトを「Make it anime style, pink hair, blue eyes」とした。「Make it anime styleは不要だったかも。
上記画像をGemini 2.0 Flashに与え、「side shot」と指示して得られた画像。
「back shot」と指示して得られた画像。

 ねえぇぇ~コレ、ヤバくないですかぁ? 一連の画像を作った俺は、Midjourneyに顔写真っていうか顔画像を与えてソレにかなり似た人物像を生成させて、その生成画像をまた別のAIに与えてさまざまなポーズや表情(表情もかなりコントロール可能)を得て、キャラクター作れまくりなんですがッ!!!

 これイロイロな観点でヤバい。イイ意味でも悪い意味でもヤバいが、多くのケースで「作りたいけど作り至るまでの技術がまだないっ!」という人に福音をもたらすのではないだろうか、とか思ったりして。

ChatGPTの「4o Image Generation」もスゴい!

 すっげぃ~Gemini 2.0 Flash、スゴ過ぎてやっべ~Gemini 2.0 Flash! なんて思って連日Geminiで遊んでたら、先月末に似たようにスゴいAIが登場していた。ご存知ChatGPTの「4o Image Generation」である。ChatGPTと話しながら画像生成をさせるというもので、前述のGemini 2.0 Flashのような非常に実用的な機能になっている。

 どんな感じで使えるのか? どういう生成がなされるのか、以下にてご覧いただきたい。

前出と同じ赤いTシャツの女性を与え、画像のような指示を与えた。すると女性の3面図が生成された。バッチリじゃ~ん!
表情も変えることができる。ディテイルを見ると画像全体を描き直しているようだが、服装や髪型などの統一感は保たれている。
ChatGPTは「それコンテンツポリシーに抵触だし」的に言ってくることが多い。どこが抵触したのか? でもAdobeの生成AIのFireflyは、もっと抵触抵触抵触~って言ってくる。一方でMidjourneyはけっこうきわどい画像を(指示していないのに)出してくる。なんなんスかねえ。
チャットするだけでポーズ変えられるのラクだわ~ヤバいわ~時代が変わったわ~、と思う。

 思うに、たぶん、多くの人が苦手なのが、文章の記述と、描画。文章書くのはメンドクサいしカッタリぃわけだが、特に作文については業務内容にきっと含まれている。それをAIがハイレベルで肩代わりしてくれるんだから、これは便利である。まあ人間によるチェックは必須だが。

 描画も同様で、キレイに絵を描けない人が大半だと思う。じゃあ写真を使えば? これもまたキレイに撮れない人が多いのだと思う。でもAIが指示に近い描画をしてくれるようになったんだから、これも非常に便利である。

 また、こういった生成AIは、これまで人類が残してきた作品などを、すーごい密度・範疇で学習し尽くしている。人類の成果物を、ユーザーのリクエストに応じて、収集・再構成して見せてくれる、とも言えるのではないだろうか? やっぱり結局、凄まじく高度な検索エンジンであり、これまでの情報の再構成ソフトウェアと言えそうな気がする。

 余談だが、Gemini 2.0 FlashもChatGPTの4o Image Generationも、人間の手指の生成が非常にしっかりしていることが多い。指の本数や方向を間違えることのない生成をする。とても自然な手指。ずーっと「AIは手指の生成がダメ」って感じだったが、急激に良好化していると感じられた。それとともに箸を持って食事するようなシーンについて、Gemini 2.0 FlashもChatGPTの4o Image Generationも正しく描き出すと感じられる。

 いや~しかし、この3年足らずで画像生成AIの進歩が著しいッ!!! 凄いスピード!!!

2022年2月頃のMidjourney V1による生成。
2022年7月頃のMidjourney V3による生成。
2023年3月頃のMidjourney V5による生成。「AIがここまでリアルな絵を生成するのか!」と感じられることがあったが、現実的な完成度の低さも多く見られた。
2024年1月頃のMidjourney V6による生成。スゲくリアル……だけどまた商利用完全不可能っぽいの出す(のでモザイク)!

 最近では生成画像のリアリティとしてはあまり伸びしろがないのかなーという感じであった。だが、前述のようにリアリティの次にくる利便を実装し始めている。また、動画生成も実用域に入ってきていて、「えっ、こんな簡単な操作でリアルな動画できちゃうの?」ってほど。

 そのあたりは追ってレビューしてみたいが、まぁしかし、生成AIって世の中をけっこう大きく変えてしまうのだなぁ、とエキサイティングだが複雑でもあるインパクトを与えまくってくれて、新奇性追求という観点では非常に興味深いのであった。

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。

ケータイ Watchをフォローして最新記事をチェック!