スタパ齋藤のApple野郎

画像生成AI「Midjourney」をiPhoneやiPadで使い倒す!!!

この3月〜4月でMidjourneyが急激にスゴまった!!!

 ChatGPT登場後、さまざまなAIを試している俺。毎日のようにAIで遊んで時間が超溶けている感じだが、最近とくに凄いと感じられるのが画像生成AI(お絵描きAI)の「Midjourney(ミッドジャーニー)」だ。

MidjourneyをDiscordアプリで使っている様子。Discordはアメリカの無料チャットサービスで、Midjourneyに対する操作はDiscord上でのチャット形式で行う。最新版(V5)になってから生成される画像がとても自然になった。なお、Midjourneyを有料プランで使って生成した画像は商用利用が可能で、本記事でも有料版のMidjourneyを使っている。
こちらは二次元系画像生成に特化した「niji・journey」。Midjourneyの有料プランを使っていれば、niji・journeyも有料プランの条件で使える。

 それで、最新バージョンのMidjourney V5の画像生成能力が凄いのだ。生成される画像の品質が、前のバージョンのV4より明らかに高いと感じられる(ことが非常に多い)。雑なプロンプトでもビシッとキマった画像を作ってくれるという印象がある。たとえば↓コレ。

ニャわいい猫ちゃん描いて〜! ということで、プロンプトを「cute cat」として入力した。50秒程度(fastモード)でラフ4枚が生成された。
その画像がコチラ。「猫記事用の賑やかし添え写真」とかなら、もうMidjourney V5だけでイケてしまうように思う。

 現在最新版となるMidjourneyのバージョンはV5。MidjourneyはV1からV5まで5世代があるが、現在でも古いバージョンを使って画像を生成させることができる。

 バージョン違いで画質・生成結果的にどういう差があるのか? 各バージョンのMidjourneyに同じプロンプトを入れて画像を生成させ、その違いを見てみよう。

 使うプロンプトは、「A girl with black hair. The girl is a beautiful japanese girl. She has black eyes. Her clothes are plain but beautiful. (黒髪の少女。その少女は、美しい日本人の少女。目は黒。服は地味だが美しい)」としている(思いついた画像イメージを日本語で書いてDeepLに翻訳してもらっただけだが)。で、生成結果が↓コチラ。

最新版であるMidjourney V5による生成結果。もはや写真。ディテイルも美しい。
ひとつ前のバージョンであるMidjourney V4による生成結果。これはこれとしてアーティスティックで非常にイイ。
Midjourney V3によるもの。このバージョンも味がありますな。ただし、このバージョン以前はホラーな感じのディテイルを描きがちという印象がある。
Midjourney V2によるもの。部分的に「記事に掲載するにはそぐわない描写」と思われる箇所があったので、モザイクで処理している。
Midjourney V1によるもの。ほぼ全部ホラー要素が入ってしまったのでモザイク処理も多くしている。ただ、V1やV2は、「恐怖」「奇譚」みたいな方向性で描かせたい人には魅力的かもしれない。
これはMidjourney V5に「japanese girl」というプロンプトを入力して生成した画像。2022年の中頃から1年経たずして、こんなにクオリティが高まった。すっご!

 あとMidjourney V5は画像入力にも対応した。写真などをアップロードすると、その写真をプロンプトとして表現してくれる「/describe」機能(コマンド)が追加されたのだ。これがけっこう衝撃的。

Midjourney Botに「/describe」というコマンドを送ると、写真などの画像をアップロードできるようになる。アップロードすると、その画像をプロンプトとして表現してくれる。また、そのプロンプトを使って新たな画像を生成させることができる。
葉っぱの上に小さなカエルがいる写真(撮影者=俺)をアップロードしたら、このようなプロンプトが生成された。
生成されたプロンプトのうち、2番目のプロンプトを適用して画像を生成してみた。
非常に高いクオリティの画像が生成された。すごっ!

 手持ちの写真をいろいろ試してみたが、なーるほど、ツカエる。「この写真のようなイメージを描いてほしい」とか、「この落書きをキレイな絵にしてよ」とか、いろいろな画像をもとにして新たな画像を生成していけるようになった。

 この機能で、「AIはこういう画像はこういうプロンプトと判断している」もしくは「こういうプロンプトからAIが表現するのがこういう画像」ということがわかる。AIが生成する画像からプロンプトを割り出すリバースエンジニアリング的なことをしつつ、目的の画像をAIに生成させるための「より強いプロンプト」を探していける……ような気もする。

 ところで、この「/describe」機能について「コレもアリかな?」と思って試したことがある。前出のMidjourney V1が出力した「ディテイルにホラー要素が入ったのでモザイク処理が多発した画像」をアップロードしてプロンプトを生成させたのだ。そしてそのプロンプトをもとに生成した画像が↓コチラ。

 少女が4人いる画像をアップロードし、それをもとにプロンプトを生成。生成したプロンプトをMidjourney V5に渡して描かせた。元画像の少女ひとりについて、複数人のバリエーションを生成してきた。そうした理由は謎だが、元画像の各少女の特徴をほんのりと引き継いだりしつつ、魅力的と感じさせる画像が多くて……Midjourney V5、おそろしい子! って感じである。

 てな感じでスゴまっている最近のMidjourneyなので、時間があればいつもMidjourney! みたいな感じになっている俺。そしてモバイルでもMidjourneyしたいニャ〜ということで、iPhoneやiPadでもMidjourney遊びをしまくりなのであった。

iPhoneに「Discord」と「DeepL」を入れてモバイルMidjourney!

 あっ! こういうプロンプトをMidjourneyに渡したらどうなるだろう? とか思う頻度がスゲく高まってきた頃から、iPhoneでMidjourneyを使うようになった。

 前述のとおりMidjourneyは「Discord」というチャットサービス経由で使う。DiscordはWebブラウザから使えるほか、Windows/macOS/Linux/Android/iOS用アプリも用意されている。Discordチャットサービスの利用は基本的に無料だ。

DiscordをWebブラウザで使っている様子。各プラットフォーム向けアプリが用意されているチャットサービスで、ユーザー数は、累計登録者数は3億5000万人、月間アクティブユーザーは推計1億5000万人(2022年/Infulencer Marketing Hubによる統計)。ゲームやアートなどさまざまなコミュニティがあり参加できる。

 俺の場合、Midjourneyを使う時は翻訳AIの「DeepL」も併用している。プロンプトを作成するとき、とりあえず日本語でプロンプトを書いてDeepLに英文へと翻訳させ、その英文を必要に応じて修正してプロンプトとしている。

アプリ版(macOS)のDeepLを使っている様子。Webブラウザでも使える。

 この2本のアプリをiPhoneに入れ、モバイルでMidjourneyしている。どんな感じで使えるのかスクリーンショットでご紹介。

左がDeepLで日本語英訳してプロンプトを作っているところ。DeepLへの日本語入力は音声入力を使うとなかなか快適。そして翻訳結果をコピー。次にDiscordアプリに移行し、コピーしたプロンプトをペースト。生成を実行して1分程度で4枚のラフ画像が得られた。

 細かいコトを書くと、日本語IMEに「/imagine 」(eの後に半角スペース)を単語登録しておくと便利。DeepLでは日本語入力をし、出てきた英文をコピーしてすぐにDiscordに移行するのでキーボードの入力モードは日本語のままになる。そこから入力モードを変えたり「/imagine 」と入力するのは少々手間だが、単語登録しておけばスムーズにプロンプトをペーストできる。

 あと、サーバー側で処理をする画像生成系AIは、モバイルで気軽に使えて実用性も高い。PCで使おうとモバイルデバイスで使おうと、生成処理はサーバーで行われ、生成時間は変わらないし、端末の性能もほぼ関係ない。外出先で時間を持て余した場合、iPhone上でMidjourneyを使えば、プロンプトの発案から画像の出力までやっても数分。楽しい暇つぶしになる。

 と同時に、ユーザーの作成結果がサーバー上にあるので、Midjourneyの出力結果にほかのデバイスからアクセスできて便利。出先で「イイのができた!」という場合は、帰宅後にPCを使ってその画像をさらに突き詰めるようなことが容易にできるわけですな。ローカルで動作するモバイルデバイス向け画像生成AIアプリのように「驚くほどバッテリーを消費する」こともないってのもイイところ。

 そのかわり、サーバー上で動く画像生成系AIは、「GPUをどれだけ使えるか」がポイントになり、結局は料金を払って使うことになりがち。まあ、GPUを使わせてもらうんだから、しょうがないけれど。

第6世代「12.9インチiPad Pro」で夜な夜なMidjourney

 最近やりまくりなのは「第6世代 12.9インチiPad Pro」でのMidjourney使用。アプリの構成はiPhoneと同様にDiscordとDeepL。なんとなくiPhoneと似たような使い勝手になりそうだが……しかし実際は全然違うのであった。

 というのは、iPadではSplit Viewが使えるからだ。Split Viewは2つのAppを左右に並べて表示・使用できるというiPadOSのマルチタスク機能。左右のアプリの表示サイズも調整できる。

 そして俺の場合、左に大きくDiscordを表示させ、右に小さくDeepLを表示させていて、これが非常に使いやすい。実際にスクリーンショットなどでご説明したい。

12.9インチiPad ProでDiscordとDeepLを使っている様子。Split Viewによりアプリ間の移動の手間はほとんどない。
画像生成結果の拡大表示も、画面が大きいのでとても見やすい。
ピンチアウトしての画像拡大も実用的。
Smart Keyboard Folioと併用しているので、文字入力もスムーズだ。音声入力もときどき使用。

 こんな感じで12.9インチiPad Proを使い、夜な夜なMidjourney。ちょっと前まで、仕事が終わると晩酌しつつテレビのニュースをチョイ見したりしていた。だが、iPad&Midjourneyにより、その時間帯の生活が一変。Midjourney画像生成呑みであり、テレビとかは画像生成待ちの暇つぶしとなった。

 強力なAIが人々の生活を変えるという。まさか強力な画像生成AIのMidjourneyが、最初に俺の生活を変えるとは! やるなMidjourney。でもまだまだ遊ぶゼ!

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。