スタパ齋藤のApple野郎

画像生成AI「Midjourney」の最新バージョンがスゴい! 劇的に変わったポイントは!?

 2023年12月末にリリースされた「Midjourney V6(アルファ版)」。有名な画像生成AIの「Midjourney(ミッドジャーニー)」の最新バージョンだ。

 Midjourney V6はゼロから学習させたモデルで、同様のモデルは歴代Midjourneyにおいて3番目となる。開発には9カ月かかったそうだ。

 年末にMidjourney V6が使えるようになったことを知り、「久々のアップデート……なのか? ふーん」程度に思っていた俺。だが年末年始にかけてちょっと使ってみたら、あらビックリ!!! ユーザーの立場からすると「いろいろな箇所がかなり劇的に変わった! しかもイイ方向で!」という感じ。

 とりあえず、そのMidjourney V6(アルファ版)で生成した画像をば。以下の画像、全然苦労せずに生成できた。しかもだいたい一発で。

プロンプトは「Realistic photos of Japanese robot heroes.(日本のロボットヒーローのリアルな写真)」とした。あーっ右下は危険なほど似てるやつ! モザイクをかけてゆきたいッ!!! しかしまあ周囲の雰囲気まで含めて超リアルですな。
もうちょっと現実的なヤツを。プロンプトは「A young man playing guitar on a sunny summer beach.(晴れた夏のビーチでギターを弾く青年)」。以前はギターとかかなり苦手だったと思うが、V6ではしっかり生成。ギターの弦が6本あるし、手もヘンじゃナーイ!
じゃあ、夏のビーチじゃなくて「雨の中」だと……プロンプトを「A young man playing guitar in the rain. (雨の中でギターを弾く青年)」にしてみた。すっご!
じゃあ雪だと? 「A young man playing guitar in the snow.(雪の中でギターを弾く青年)」にしてみた。ちゃんと冬服!

 これはイイ! と思ったのは、簡潔なプロンプトで生成できること。短いプロンプトだけでMidjourney V6がだいたい良好な判断をしてくれて、「そうそう、そういうの!」と納得できる画像を生成してくれる。

 また、以前は「4k」「8k」「photorealistic」など「Midjourney」でより高画質の画像を生成するための呪文的なプロンプトを追加するケースが多かったが、そーゆーのはほとんど必要なくなった。より人間にとってわかりやすいプロンプトで、高画質な生成ができるようになったというわけだ。

 ただ、「Realistic photos of 〜(リアルな写真で〜を)」といった一部プロンプトを追加しないと、「写真っぽい画像が欲しいのに、イラストっぽいなあ」みたいなコトが起きることもある。でもまあ、Midjourney V6はほとんどの画像を写真だと思ってしまうようなリアルさで生成してはくれる。

 Midjourney V6は細部までリアルな画像を生成しまくる。これの直前のバージョンであるMidjourney 5.2も写真のようにリアルだったが、さらにリアル。ユーザー的には「ここまでリアルになるんだ!」と驚かされる。ちょっと両者の生成画像を比較してみよう。

Midjourney V6による画像。プロンプトは「A photo of a woman's face in a suit. Close-up of her face.(スーツ姿の女性の顔写真。顔のアップ)」とした。目の下の微細なシワや「ゴルゴ線(ゴルゴライン)」(目頭から下から頬にかけて斜めに伸びる線)、ソバカスやシミ、髪の細部や衣服の乱れまで生成していて、もう写真と区別がつかない〜!
同じプロンプトをMidjourney V5.2に与えて生成したもの。V6と比べると、V5.2は「クリーン過ぎ」という点でリアルさに欠けていたことがわかる。V5.2は「広告写真かなんかなの? あーもしかしてAI?」と気づける余地がまだあるのかもしれない。

 もちろん、さらに「こういう要素も描いて」的なプロンプトを追加すれば、リアルさを保ったままいろいろな画像を生成していける。だいたいの画像が非常にリアル。……ヤバ。また画像生成AIで時間が溶けてゆく〜!

 なお、Midjourney V6による画像をもっと見たい! という場合は「Midjourney Showcase」Webページにアクセスするといい。Midjourney公式画像共有サイトだが、MidjourneyユーザーたちはV6登場後にガンガン生成させまくっており、それら画像を見ることができる。

前のバージョンのMidjourneyって、どうだったの?

 Midjourneyは古いバージョンでも生成できる。バージョンは、古い順にV1、V2、V3、V4、V5、V5.1、V5.2、V6とあり、どれでも使えるようになっている。

 以下、(ある意味の「出オチ」を避けるため)新しいバージョンの生成画像から見ていこう。プロンプトは「Realistic photos of Japanese robot heroes.(日本のロボットヒーローのリアルな写真)」としてみた。……古めのバージョンのMidjourneyにとっては短かすぎるかもしれないが、あえて。

Midjourney V6による生成。スゲくリアル……だけどまた生成(はいいけど商利用は)ダメっぽいの出してる! モザイクをかけてゆきたいッ!!! ほかの画像は周囲の雰囲気まで含めてリアルだ。
Midjourney V5.2による生成。このバージョンは昨年末まで最新だったもの。とてもリアルだが、「日本のロボットヒーローのリアルな写真」としては、ちょっと微妙。もっと詳しいプロンプトが必要なのだと思われる。
Midjourney V5による生成。このバージョンは2023年3月ごろに登場したもの。「AIがここまでリアルな絵を生成するのか!」と多くの人を驚かせたバージョンだ。V5系は「ヒーロー」が入ると人物を生成しがちなのかもしれない。
Midjourney V4による生成。2022年11月ごろのバージョンだ。わりと「アリ」だと思う。世界観が独特という感じもして悪くない。
Midjourney V3による生成。2022年7月ごろのバージョン。
Midjourney V2による生成。2022年4月ごろのバージョン。
Midjourney V1による生成。2022年2月ごろのバージョン。

 今からすれば、V1〜V4あたりはホントに画像生成AI黎明期って感じがする。当時は好奇心からおもしろがって見ていたが、正直、現在では話にならない生成物かもしれない。

 しかし、たった2年弱で物凄い進歩だ。今後も進歩して……いくんだろうなぁ。

Midjourneyでも「文字入れ」ができる! アップスケールも強力に

 Midjourney V6では、(ほかの画像生成AIにはすでにある)生成画像内に正しいテキストを入れられる機能が加わった。画像内に入れたいテキストを“”(ダブルクォーテーション )でくくってプロンプトに入れるだけでOK。

 やった! ついに文字入れ対応! どんな感じか見ていこう。

プロンプトは「Realistic photo of a man wearing a T-shirt with "Thunder" written across his chest.(胸に「Thunder」と書かれたTシャツを着た男のリアルな写真)」。うは! リアルなうえに文字もだいたい正しい。でもまだスペルミスをすることも少なくない。
日本語は出せるのか? プロンプトを「Realistic photo of a man wearing a T-shirt with "Thunder" written in Japanese on his chest.(胸に日本語で「雷」と書かれたTシャツを着た男性のリアルな写真)」にしてみると……。日本語は(まだ?)ダメのようだ。でも、もしかして、「Tシャツ」「Thunder」でちょっと荒くれた雰囲気に統一してくれてるの?

 画像内に文字が入るとリアルさが増すが、デザインツールとしてのMidjourneyがより実用的になったのもナイス。たとえばロゴマークやポスター作成により役立つようになった。

プロンプトは「Logo design for an Italian restaurant. The symbol mark features a pasta. The word "STAPA" is written on the symbol mark.(イタリアンレストランのロゴデザイン。パスタをモチーフにしたシンボルマーク。「STAPA」の文字が入っている)」。一部スペルミスがあったりするが、AI生成物を素材に……と考えると、デザインの現場がザワついているように思う。
プロンプトは「A paper cup from a coffee chain. The paper cup says "STAPA" on it.(コーヒーチェーン店の紙コップ。紙コップには「STAPA」と書かれている)」とした。さらに紙コップの色やデザインについてのプロンプトを加えていけば、プロダクトデザインにも使えちゃうかもしれない。
プロンプトを「Poster for advertising french fries. The poster says "Macintosh" in large letters.(フライドポテトの宣伝用ポスター。ポスターには大きく「マッキントッシュ」と書かれている)」とした。左下のは、フライドポテトが非常にリアルでテキストも正しい! お見事〜!
入れるテキストをちょっと変えて。プロンプトを「Poster for advertising french fries. The poster says "STAPA" in large letters.(フライドポテトの宣伝用ポスター。ポスターには大きく「STAPA」と書かれている)とした。

 これで日本語にも対応するようになったら日本がけっこー変わっちゃいますな〜。今後のMidjourney文字入れ機能アップに大期待である。

 それからアップスケール機能も少し高性能化されたようだ。V5には、生成画像を2倍や4倍のサイズに拡大して高解像度化するアップスケール機能があった。V6では同様の高解像を縦横各2倍にするのに加え、画像のディテールをより繊細にアップスケールしたり、少しテイストを変えつつアップスケールするようになっていた。

前出のプロンプト「Realistic photos of Japanese robot heroes.(日本のロボットヒーローのリアルな写真)」で生成させた画像をアップスケールしてみる。Discordの生成画像表示からひとつ選ぶ。右上のロボットをアップスケールしたいので、ここで「U2」をクリックする。
するとこんな表示になる。Upscale(Subtle)とUpscale(Creative)が、Midjourney V6のアップスケール機能。Upscale(Subtle)は、緻密で繊細なアップスケールが行われる。Upscale(Creative)では、一部を新たな要素で描き直しつつのアップスケールが行われる。
アップスケール前の画像。解像度は1024×1024ピクセル。
Upscale(Subtle)でアップスケールしたもの。解像度は2048×2048ピクセル。細部の要素はあまり変えず、細部の曖昧だった描写を克明に描き直している。
Upscale(Creative)でアップスケールしたもの。解像度は2048×2048ピクセル。あまり大きくは描き直さないものの、一部ディテールを別の要素で描き直している。

 なかなか実用的なアップスケール機能。解像度は2048×2048ピクセルとなるので、Web媒体などインターネット上で「高解像度画像」として使うのに適するようになった。また、Midjourneyでアップスケール出力した画像を、さらに「Topaz Photo AI」などのアップスケールAIなどで処理すれば、より活用範囲が広がると思う。

 余談だが、Topaz Photo AIは3倍アップスケールくらいが画質的にもアプリの安定性的にもちょうどいいかもしれない。Topaz Photo AIで6倍とかにアップスケールすると画質も曖昧になりがちで、けっこークラッシュする。のだが、3倍くらいまででアップスケールすると、画質も良好でほとんどクラッシュしなくなる感じ。

 ともあれ、Midjourney V6の非常に写真ライクな生成画像、Midjourney V6でアップスケールするとさらにキレイになる。ほんの十数カ月前にAI生成させた画像とは別の次元に入っている。すごーい! 今後も生成系AIをオモシロがってゆきたいッ!!!

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。