スタパ齋藤の「スタパトロニクスMobile」

画像生成AIの進歩が著しいッ!!! Gemini 2.0 Flashがスゴすぎた
2025年4月7日 00:00
GoogleのAIことGemini。その最新AIモデルは「Gemini 2.5」だが、バージョンとしてはひとつ前のモデルとなる「Gemini 2.0 Flash」がSNSなどで大きな話題になっている。いろいろな人がイロイロな観点で話題にしているが、「元画像を提示してテキストで指示すれば、その画像を見る角度を変えられたり、人物などキャラクターの向きや服装や表情を変えることができる」のが話題の中心となっている。
どういうことがデキるのか? まずデキた結果からご覧いただきたい。
凄くないですかぁ~? こういうコトこれまで面倒だったり整合性が取れなかったりしたのに、AIに写真見せてチャットで指示するだけでデキるなんて!!!
ちなみに、Gemini 2.0 Flashは、「Google AI Studio」で使える。Google AI Studioは開発者向けのサービスではあるが、一般のユーザーでも利用できる。
GeminiはマルチモーダルAIなので、上記のような画像生成のほか、もちろんチャットでのやりとりもできるし、音声データなども扱える。Web UIは一見複雑そうではあるが、使ってみればカンタンなので、ぜひお試しいただきたいッ!!!
なお、AIモデルのModelをGemini 2.0 Flash(Image Generation)Experimentalは、その名のとおり実験レベルのサービスで、商利用可能かどうかも明示されていない。生成された画像にはGeminiの★みたいなマークも入るので、生成画像そのものを商品とするような商利用はできないと考えたほうが無難だろう。
と言いつつこの記事ではGemini 2.0 Flash(Image Generation)Experimental生成画像が掲載されているが、これはあくまで検証のための画像引用ということでご理解いただければと思う。
驚きの丸投げ生成!!! 顔ソックリ!!! AIに言えば変更自由自在!!! ヤバいフェーズがキた!!!
現在、AI生成画像の各種コンテンツが凄いスピードで市場に溢れてきている。たとえばマンガ。AI生成のキャラクターを登場・演技などさせて構成する「絵のほとんどをAI画像生成で行っているマンガ」だ。画像をAIに生成させた後で、レタッチか描き込みなどしている作品も多いようだ。
作成方法を調べてみると、多くのケースで「顔や服装が同じキャラクターを大量に生成し、ストーリー上で必要な生成画像を選び出して使う」というもの。また、使う生成画像は絵的な統一感の精度を高めるために描き込みやレタッチなどを行っているらしい。
そういったコンテンツ作りに使われているAIはさまざまだが、調べた範疇では、多くのケースでStable Diffusionが使われているようだ。またクリエイターたちの多くは、自前の強力GPU搭載PCで、ローカルでStable Diffusionを使っているっぽい。
キャラクターの顔や衣服などを統一するためにLoRA(ファインチューニング手法/絵の場合は顔や衣服を似通わせるために使われることが多い)や、キャラクターのポーズなどを制御するためにControlNet(厳密なポーズが得られるStable Diffusionの拡張機能/これもいろいろなモデルがある)を使っているようだ。
俺もそういうのを使ったりしたが、正直なところ、メンドクサイし時間がかかるし、生成速度を得ようとすると「えっ?」ってくらい(ローカルでAI生成させるPCのための)コストがかかるのである。そこまでするなら、まあまあ適切なポーズの体部分と、統一性がある顔と、服装などと、背景を、Photoshopで自力合成したほうが低コストで合理的で早いなぁ、と。
上記で「顔や服装が同じキャラクターを大量生成」と書いたが、10枚や20枚ではなく、100~1000といったレベルでの生成だそうだ。物凄く多く「ガチャする」らしい。いや、詳しいことはよく知らんが、そういう世界らしい。
似通った顔や服装の人物を生成するだけなら、Midjourneyのような既存サービスを使うとわりと効率がいい。ほかのサービスでも同様だ。
だが、顔の向きやポーズのコントロールはそれなりに難しく、メンドクサく、結局はガチャを回すような作業になりがち。比較的に安価に使えるサービスでソレをやっていると、生成時間もそれなりにかかり、やっぱり時間の無駄って感じになるので、結局は手作業で合成して求める画像を作ったほうが早いかな、と。
だがしかし、そーゆー「メンドクサさ」や「合わないコスト」などなど諸問題っていうか各種不都合を、Gemini 2.0 Flashが一気に解決してくれちゃった。使うたびに「やっばGemini 2.0 Flashスゲ過ぎ!」と感動するほどなのである。どういう感動があるのか、以下にGemini 2.0 Flashによる生成画像とともにお伝えしたい。
スゴくないですかぁ~コレっ!!! 画像1枚用意して、あとは簡単な指示だけで、同じキャラクターのバリエーションをこーんなに生成してくれる!
ちなみに、画像の生成が進むにつれて、キャラクターの顔が元画像と少しずつ違ってきている。恐らくこれは、生成してきた画像のうち新しい画像を参照して新たな画像を生成しているからと想像される。
顔などの統一感をさらに高めたい場合、いろいろな方法がある。効果的だったのは最初に与えた画像について「この画像をベース画像と定義します。ベース画像についての新たな生成は、必ずこのベース画像を参照してください」などとAIに説明すればいいと思う。
ほかにもたくさん方法があると思うが。また、生成するたびに、新たなチャットを開始して、そこに元画像をアップロードするというのもアリと思うが、チャットのライブラリが増え過ぎて、生成画像の整理が面倒になるかもしれない。
それとこの「同じキャラを生成させる使い方」は、アニメ・マンガキャラ的な絵柄のほうが実用的かもしれない。アニメ・マンガキャラって髪や目の色、服装など、特徴の集合体なので、多少顔が似てなくても「あぁ同じキャラか」と鑑賞者に思わせる記号的な力がある。
ねえぇぇ~コレ、ヤバくないですかぁ? 一連の画像を作った俺は、Midjourneyに顔写真っていうか顔画像を与えてソレにかなり似た人物像を生成させて、その生成画像をまた別のAIに与えてさまざまなポーズや表情(表情もかなりコントロール可能)を得て、キャラクター作れまくりなんですがッ!!!
これイロイロな観点でヤバい。イイ意味でも悪い意味でもヤバいが、多くのケースで「作りたいけど作り至るまでの技術がまだないっ!」という人に福音をもたらすのではないだろうか、とか思ったりして。
ChatGPTの「4o Image Generation」もスゴい!
すっげぃ~Gemini 2.0 Flash、スゴ過ぎてやっべ~Gemini 2.0 Flash! なんて思って連日Geminiで遊んでたら、先月末に似たようにスゴいAIが登場していた。ご存知ChatGPTの「4o Image Generation」である。ChatGPTと話しながら画像生成をさせるというもので、前述のGemini 2.0 Flashのような非常に実用的な機能になっている。
どんな感じで使えるのか? どういう生成がなされるのか、以下にてご覧いただきたい。
思うに、たぶん、多くの人が苦手なのが、文章の記述と、描画。文章書くのはメンドクサいしカッタリぃわけだが、特に作文については業務内容にきっと含まれている。それをAIがハイレベルで肩代わりしてくれるんだから、これは便利である。まあ人間によるチェックは必須だが。
描画も同様で、キレイに絵を描けない人が大半だと思う。じゃあ写真を使えば? これもまたキレイに撮れない人が多いのだと思う。でもAIが指示に近い描画をしてくれるようになったんだから、これも非常に便利である。
また、こういった生成AIは、これまで人類が残してきた作品などを、すーごい密度・範疇で学習し尽くしている。人類の成果物を、ユーザーのリクエストに応じて、収集・再構成して見せてくれる、とも言えるのではないだろうか? やっぱり結局、凄まじく高度な検索エンジンであり、これまでの情報の再構成ソフトウェアと言えそうな気がする。
余談だが、Gemini 2.0 FlashもChatGPTの4o Image Generationも、人間の手指の生成が非常にしっかりしていることが多い。指の本数や方向を間違えることのない生成をする。とても自然な手指。ずーっと「AIは手指の生成がダメ」って感じだったが、急激に良好化していると感じられた。それとともに箸を持って食事するようなシーンについて、Gemini 2.0 FlashもChatGPTの4o Image Generationも正しく描き出すと感じられる。
いや~しかし、この3年足らずで画像生成AIの進歩が著しいッ!!! 凄いスピード!!!
最近では生成画像のリアリティとしてはあまり伸びしろがないのかなーという感じであった。だが、前述のようにリアリティの次にくる利便を実装し始めている。また、動画生成も実用域に入ってきていて、「えっ、こんな簡単な操作でリアルな動画できちゃうの?」ってほど。
そのあたりは追ってレビューしてみたいが、まぁしかし、生成AIって世の中をけっこう大きく変えてしまうのだなぁ、とエキサイティングだが複雑でもあるインパクトを与えまくってくれて、新奇性追求という観点では非常に興味深いのであった。
ケータイ Watchをフォローして最新記事をチェック!
Follow @ktai_watch