スタパ齋藤の「スタパトロニクスMobile」

人気AI「Midjourney」課金で使って感じたアレコレ

画像生成AI「Midjourney」は楽しいのか? 役立っているのか?

Midjourneyで作った猫ちゃん写真。プロンプトは「Sandy beach at the end of summer. The wind is strong and the waves are rough. Cumulonimbus clouds rise in the bright blue sky. Strong sunlight. A black cat on the beach. No one is around.(夏の終わりの砂浜。風は強く、波は荒い。真っ青な空に積乱雲が立ち上がる。強い日差し。浜辺の黒猫。周囲には誰もいない)」。アスペクト比3:2でMidjourney V5にて約1分で生成したものをトリミング。
上の写真と同じプロンプトを使い、niji・journeyにて「--style scenic」オプションを追加してエモーショナルなあるアニメ風イラストにしたもの。フルプロンプトとしては「Sandy beach at the end of summer. The wind is strong and the waves are rough. Cumulonimbus clouds rise in the bright blue sky. Strong sunlight. A black cat on the beach. No one is around. --style scenic --ar 3:2 --niji 5」となる。

 機能アップが重なり再び話題となっている有名画像生成AI「Midjourney」

 2022年7月13日にオープンベータ版への移行が発表された画像生成AIサービスだが、2022年11月にはバージョン4(V4)が登場し、生成される画像のクオリティがグッと高まった。2023年3月にはバージョン5(V5)が登場し、画像クオリティが格段に高まりつつ細部の問題が大きく解消された。

 俺の場合、現在はMidjourneyを有料会員として使っている。具体的には月額US30$の「Standard Plan」だ。このプランでは15時間の高速画像生成時間を使える。

 Midjourney有料プランでは、画像生成1枚につき1分の高速画像生成時間が消費されると言われており、15時間ぶんだと900枚の画像が生成できることになる。高速での生成については1ヶ月900枚が上限だが、Standard Plan以上では「Relax mode」と呼ばれる「生成にやや時間がかかるが枚数制限がない生成モード」も使える。またStandard Plan以上では、生成した画像の商用利用も可能となる。

Midjourney有料プランとしてStandard Planを使っている。月ごとにUS30$が課金される。原稿執筆時のレートでは約4000円。
1年ぶん一括支払いだと、各プランとも20%引きとなる。

 俺がMidjourneyの有料会員となったのは2023年3月26日。この原稿を書いているのが2023年4月25日。明日で課金Midjourneyが1ヶ月! おめでとう1ヶ月! ありがとう1ヶ月!

 ってコトではなく、Midjourneyを課金されつつ使って1ヶ月経って、どうたったのか? それを今回の記事で書いてゆきたいッ!!!

 そして満足度的な結論から言えば、課金されながら使ったMidjourney、ヒッジョーに満足している。サイコーと言えよう。なので来月も有料会員を継続する予定。年間契約しちゃおうかなーとも考えている。

 満足だと感じられるのは、まず画質。生成される写真やイラストの画質が高く、内容的なクオリティも高いこと。とくにV5になってからは良好。画像によっては、Topaz Labs「Topaz Photo AI」で4倍などに高画素化して(入稿用データとして)使うこともできる。

 Midjourneyで生成させた画像を、何に使っているか? 仕事では1枚絵の挿絵を作成している。もはや「言わなければAI生成とわからないレベル」なので、記事の文脈から「この画像はAI生成らしい」と読み取れない場合、画像に「Made by Midjourney AI」とか入れようかどうか、現在考え中でもある。

 遊びでも使用中。ちょっとした趣味で使ったり、「プロンプトをこう変えたらどうなるか?」といった実験を多々している。

 ただ、テキストのプロンプトにはあまり大きな期待はしておらず、Midjourney運営サイドも言っているように、今後は画像プロンプトが主流になりそう。なので、画像プロンプト+それを修正するためのテキストプロンプトという使い方になるのかなーと想像しつつも、いまはテキストプロンプト主体で使っている。

 ともあれMidjourney、たいへん役立っているし楽しませてもらっている。現在も毎日使っているが、今後も毎日使うと思う。

課金で月15時間、足りてる? 画像が生成される時間は?

課金でMidjourneyを使い始めた頃、テキストプロンプトを書くのが面倒になって「cyborg!」とだけ入力して出てきたのがこれ。こわっ! でも単語一発でコレって凄いな、とか思ってその後もこのプロンプトで描かせている。Midjourneyにサイボーグを描かせると、(プロンプトが単純だと)ターミネーター的なのを描く傾向があるようだ。
上のは怖いので、プロンプトを「Friendly cyborg girl」としたら、こんなのが出た。短いプロンプトでもキレイなグラフィックが出るMidjourney V5は愉快である。

 ひと月あたり15時間の高速生成時間を利用できるStandard Planを使っているが、これで生成できる画像は900枚の計算となる。ひと月に900枚。それで足りているのか?

 今月の俺の場合、ギリギリ足りたという感じ。じつは使い始めの頃は毎日20枚くらいしか生成していなかったので「これは月末に高速生成時間が余っちゃうな」と思っていた。

 だが今月はMidjourneyのアニメ漫画特化版であるniji・journeyの機能アップ月間で、後半はniji・journeyの画像生成結果がかなり大きく変わってきたので鋭意試した。

 また月の後半にはPermutations機能(プロンプト中の一部単語を自動的に置き換えて複数の画像を生成させる機能)や「--repeat」パラメーター(画像生成を指定回数自動で行わせるパラメーター)を多用したため、ギリギリとなった。↓こんな感じ。

2023年4月25日16:00頃のスクリーンショット。サブスクリプション期限まで残すところ約24時間だが、残りの高速生成時間は1.47時間(約88分)となっていた。今日明日で使い切りそう。

 1ヶ月のサブスクリプションの期限まであと24時間くらいで、残りの高速生成時間は約88分。ちょうどピッタリって感じではあるが、現在の調子で使い続けていたら、来月は時間が足りなくなりそう。

 高速生成時間は1時間US4$(約540円)で買えるが、けっこー割高。生成が低速な「Relax mode」を使えば追加課金ナシで使えるが、ちょっと急いでいると「もぉーまだぁ〜?」って感じになる(とは言っても数分で生成される)。毎月、高速生成時間が足りなくなっちゃうような場合、思い切ってPro Planにしたほうがいいのかも? と思ったりする。

 それから画像生成にかかる時間。Midjourneyでの画像生成は、プロンプト入力後から生成が始まるまでに、待たされる時間があったりする(即座に始まったりもする)。使い始めの頃はプロンプト入力後に即座に生成が始まって、1分せず画像生成(4枚組)が完了して「うぉっ速っ!」と思ったが、最近はちょっと遅くなったような気もするし、逆に時間帯によっては「相変わらず速い」と感じられたりもする。

 最近の生成時間を正直な印象で書くと、「有料プランなのに(処理開始を)もう3分くらい待たされている〜」みたいなことがポチポチとあって、若干不満。ただ時間帯によっては速い。

 大雑把な印象ではあるが、この1ヶ月でちょっと生成速度が落ちてるという印象なので、やはり不満が残る。なお、Midjourneyの混雑度合い(現在の画像生成が始まるまでの待ち時間)は公式のステータスページで確認できる。

「https://status.midjourney.com」にアクセスすると、Midjourneyが動作しているか、待ち時間はどのくらいか、といったリアルタイムの情報が得られる。

 Midjourneyを使っていて、困るようなエラーが出た経験はない。エラーはたいていプロンプトのミスだったりして、サーバー側が云々みたいなのは未経験。数日前に「プロンプトに二重の否定があり矛盾しているので、開発者に報告しました」的なメッセージが出て、入力したプロンプトが無効になったことがあるが……なんだったのかよくわからない。

「プロンプト」「手」、いろいろ興味深いMidjourney

窓際の猫を描こうと、プロンプト「A beautiful Russian Blue sitting by a bright window.(明るい窓際に座る美しいロシアンブルー)」と入力した結果。簡素なプロンプトなのに、なかなかイイ!
ロシアンブルーという猫種は微かに笑みを浮かべたような顔で、その微笑みっぽい表情を「ロシアンスマイル」という。これをMidjourneyに描いてもらおう! とプロンプト「Russian Blue with a Russian smile. Closed mouth. Realistic photo.(ロシアンブルーにロシアンスマイル。閉じた口元。リアルな写真)」としたらコレが出た。コレは「笑顔で話すロシアンブルー by Pixar」みたいなコトでは? Midjourneyにはまだまだ学びの余地がある。

 Midjourneyを使っていて「便利」と思うのは、短めのプロンプトで「まあコレでいいかな」というレベルの画像が得られること。画像カテゴリーによってはStable Diffusion XLでもそうなったりするが、Midjourneyはいろいろなカテゴリーで「手短なプロンプトでうまくいく」ということが多い。

 なので、そこからプロンプトを足したり引いたり変えたりしつつ、さらにネガティブプロンプトを追加しての「生成物の調整」を行いやすいと感じる。まあ頑張っても「目的のイメージん全然近づかない〜助けてドラえもん……あっじゃあドラえもん似のサイボーグでも生成して気分転換するか」ってこともあるが。

ドラえもん……ではなく、昭和の時代にあったブリキのおもちゃのロボットみたいなのを生成させようと、「Old style mechanical robot. Tubular body. Tubular and extending limbs. Hands are C-shaped clamps. Silver body with red and yellow accents. Realistic photo.(旧式の機械式ロボット。筒状の胴体。筒状で伸びる手足。手はC型クランプ。シルバーのボディに赤と黄色のアクセント。リアルな写真で)」というプロンプトを使用。結果、全然昭和じゃないけど……なんかカッコイイのが出た。見たことがない美しいビジュアルを多々見られるのもMidjourneyの魅力だ。
でもロボットがいいなーと思って「二足歩行」という言葉を追加。上記プロンプトに「Bipedal(二足歩行)」という単語を追加しただけだ。右上はやや昭和っぽい?

 基本的に短いプロンプトで済むMidjourneyって雰囲気なので、その後の修正でも「この単語を入れた(消した)からこの結果なのか」的に、プロンプトと生成結果の関係を掴みやすいような気がする。しかしAIがノイズからどう画像を削り出しているかよくわからないので、そういうプロンプトへの考察も曖昧で不確かだったりするわけだが。

プロンプト「Small plates with dips arranged in an orderly fashion. French fries.(ディップが整然と並べられた小皿。フライドポテト)」で生成。
上から見た写真が欲しいナと思い、上記プロンプトに「View from above.(上からの眺め)」を追加して生成。希望に近い写真が得られた。

 Midjourney以外にも画像生成AIをいくつか使っている。Midjourneyはアート風味強めの画像をよく生成し、美しくて雰囲気のある写真や絵が得られることが多い。それはサービス提供側が目指しているところだと思うが、もうひとつ、Midjourneyらしさが感じられることがある。

 それは、人間を描かせたときにミュータント的な形状を生成しにくい点だ。画像生成AIで人を描かせたら「手や足が何本も」「体が捻れているし超長い」みたいな違和感があまりない、と感じる。

自転車に乗る男性。プロンプトは「Man riding a bicycle」。ほぼ完璧。自転車自体も、自転車と人間の形状的関係にも違和感がない。
こちらは「Woman riding a bicycle」。右上の女性が超越的念動力とかで傘を浮遊させていると考えれば、これもほぼ完璧。

 ただ、手に関してはやや違和感を感じることが少なくない。「どうしても手が現れてしまうシーン」では、手の形状や状態がオカシなことになりがち。

プロンプト「A woman eating pasta.」で生成したもの。手自体の表現は「非常によくできた部類」で、手の形状などもまずまず違和感がない(よく見ると一部の指の本数が多いが)。ただ、パスタと手とフォークという複雑性があるからか、まともな食べ方をしている映像は出にくかったりもする。
プロンプト「A woman eating a burger.」で生成したもの。これは「けっこうよくできた部類」で、一見自然に見える。だがよく見ると指の本数や食べ方などに違和感が。

 手が逆とか指が多量にあるとか、現在の画像生成系AIのクセみたいなモンかもしれない。手という複雑な形状の部位が、非常に複雑な動きをする。手のバリエーションについての学習は、まだまだ足りてないんでしょうな。

 そんな現状なので、「このAI生成画像は記事に使おう」という場合に手指などの違和感問題があったとき、フツーにPhotoshopで加工修正している俺なのであった。「片手にお箸が5本も!」みたいな場合もPhotoshopで2本へと修正。でもまあ、これって現在だけの問題で、すぐに「以前は手がヘンとかお箸多いとかあったよね〜」という懐かし話になるような気がする。

進化著しいniji・journey、でもコレってアリ?

niji・journeyにパスタに囲まれた若き女子を描いてもらった。フルプロンプトは「A young Japanese woman surrounded by pasta in tomato sauce. She looks happy to be covered in pasta. Pasta pasta pasta. --ar 16:9 --s 1000 --niji 5」で「トマトソースのパスタに囲まれた若い日本人女性。パスタにまみれて嬉しそうな彼女。パスタパスタパスタパスタ」って感じ。
「--style expressive」を使って最初のパスタの子を描かせてみた。上記プロンプトに「--style expressive」パラメーターを追加しただけ。元気なパスタまみれっ子となった。

 Midjourneyの別の顔こと「niji・journey(にじジャーニー)」。niji・journeyはアニメ・マンガ版のMidjourneyという位置付けで、生成されるのはアニメ調やマンガ調の画像だ。2023年4月には、niji・journey(V5)のイベントが開かれ、1週間ごとに新機能が公開された。

2023年4月のniji・journeyイベントバナー。※niji・journey公式Discordより抜粋。

 新機能は、バージョン5(V5/パラメーターは --niji 5)の登場と、描画スタイルを指定できる3つのパラメーター( --style expressive , --style cute , --style scenic )の追加だ。パラメーターによりかなり絵柄が変わるので、生成例を見てみよう。どれもプロンプトは「A schoolgirl is wearing a uniform. She is jumping. Looks so fun!(制服の女子生徒。ジャンプしている。とても楽しそう!)」とした。

niji・journey V5での(デフォルト)生成。niji・journeyは萌え系イラストを生成する傾向が強いようだ。
プロンプトに「--style expressive」というパラメーターを追加したもの。より表現豊かな表情や姿勢になるようだ。あとボン・キュッ・ボンな感じにもなりがち。
プロンプトに「--style cute」というパラメーターを追加したもの。「--style expressive」の対極にある的な、可愛らしく幼い感じのイラストになる。
プロンプトに「--style scenic」というパラメーターを追加したもの。デフォルトのniji・journey生成の背景がより写実的になり、エモーショナルな雰囲気のイラストになる。

 スゲいな、niji・journey! とか思ったが、↑の「--style cute」パラメーター使用時に「!?」と思う生成物が。左下のキャラって女子山登りマンガ・アニメの……似てるけど違うかな……!?

 しかし、その後に「やっぱりマズい」という生成物が。それはDiscordのniji・journeyチャットで見た「あぁそのプロンプトでソレが」という発見をして試したとき。「Playsuit」という単語で、タイトな宇宙服っぽい着衣を表現させていたのだ。そして試して出てきた画像が↓こちら。

フルプロンプトは「A girl in a white Playsuit. It stands tall. The whole body is visible. --style expressive --ar 2:3 --niji 5」。「白いプレイスーツを着た少女。背筋が伸びている。全身が見える」って感じですな。

 あーらカッコイイ! と思ったが、いやカッコイイが、右下の人ってエヴァンゲリオンの……違うか。顔も違うし髪の色も違うし。

 とは思ったんだが、もう一度同じプロンプトで出力したら、モロに綾波レイな二次創作物が出た! てかソレ似すぎ! でも超絶巧い……んだけど、商用媒体にはちょっと掲載できない(二次創作については作品のガイドラインにもよるものの、個人の趣味の範囲での使用のみならOKであることが多く、二次創作をお金儲けに絡めたら基本的に違法になりがち)。

 出ちゃうか。そうか。

 さておき、じゃプレイスーツの色を赤にしたら? あんたバカぁ!? のアノ人が出る? 試してみたら……。

フルプロンプトは「A girl in a red Playsuit. It stands tall. The whole body is visible. --style expressive --ar 2:3 --niji 5」。プレイスーツの色を赤に変更しただけだが、3人のアスカの二次創作な感じに! 意匠の描写が本物と酷似しており法的にアレなのでモザイク処理を施した。右上はヤッターマンの人……違うか。

 ちなみに、このほか「イカ娘」とか「聖闘士星矢」とか「テンタクルズ」とかをDeepLで英訳したものをプロンプトに入れたりしたら、著作権的にヤバげな二次創作的画像が生成された。テンタクルズは「シオカラーズ」と間違えてたが。

 こういう「ソックリなのが出ちゃった件」について、Midjourney運営サイドでは「プロンプトとともにご報告ください」としており、そうならないように対処する手段があるようだ。

 報告はDiscord上でできるもよう。「ある商用ベースのキャラクターを知らずにそのキャラクターに酷似した画像を得てそれを商用利用してしまって裁判沙汰に」といったことなどを防ぎつつ安心して利用できるよう、こういった問題点は運営側へと鋭意報告したいものだ。

Stable Diffusion XL(SDXL)と比べてみると……

 生成系AIはいくつか使っていて、たとえば画像生成系だとローカルPCで「DiffusionBee」を使っている。Macで手軽にStable Diffusionを使えるアプリだ。ネット上にあるさまざまなAIモデルを追加して使うこともできる。

 あるいは「Stable Diffusion Web UI」。AUTOMATIC1111氏が開発・配布しているツールで、Stable Diffusionやほかの多数AIモデルをWebブラウザ上/ローカルPCで使うことができる。多くの“フリーな生成系AIモデル”を使えるが、ローカルで動作させるにはPCにある程度強力なGPUが搭載されている必要がある。

DiffusionBeeをmacOS上で使っている様子。MacStudioで使っているが、そこそこ高速で快適に使える。
Stable Diffusion Web UIをmacOSのSafariで使っている様子。これもMacStudioで使っているが、多くのAIモデルがけっこう高速にて動作している。

 ただ、現在はネット上で使える生成系AIサービスばかり利用している。上記2つの生成系AI利用方法はローカルで使えるので無料なのが魅力的ではあるが、モデルごとに少々使うコツが異なったり、商用利用に関してグレーだったり曖昧な部分が多かったりする。生成結果の画像の商用利用を目的としている俺にとっては手間がかかりすぎる感がある。

 ほかにもモバイルで使えないと(仕事の進行上)効率が悪いし……などいろいろな理由があり、ネット上で使えるAIサービスの利用が主になっている。課金されるサービスだと提供側が鋭意アップデートを行うので、最新のAI性能を知るうえでもスムーズで便利だと感じている。

 で、課金状態で使っている画像生成系AIは、MidjourneyのほかにDreamStudioがある。DreamStudioは、オープンソースのStable Diffusionの開発元であるStability AIが提供するAI画像生成サービスだ。

 DreamStudioでは最新のStable DiffusionであるStable Diffusion XL(SDXL)が使える。ユーザー登録すると初期の少量のクレジット(画像を生成するとき支払う架空通貨的なもの)があり、それでStable Diffusion XL(SDXL)を試すことができる。Stable Diffusion XL(SDXL)は、現行のStable Diffusion 2.1よりさらに詳細で正確な画像を生成することができる。

WebブラウザでDreamStudioを使っている様子。Stable Diffusion XL(SDXL)を使うと、以前のバージョンのStable Diffusionとは比較にならないほど人間の顔がしっかり生成されることに驚かされる。静物もキレイ生成されることが多い。

 で、このStable Diffusion XL(SDXL)とMidjourneyを比べてみると、どうか? 両方とも課金されるサービスなので、どちらかに絞りたいなーとさんざん比べた結果から言ってしまうと、「生成物による」「使い分けがいい」というのが俺的結論だ。

 たとえば、人間入りの画像を生成させると、Midjourneyのほうが圧倒的と言えるほど違和感がない。一方でDreamStudioは、まだまだミュータント的な画像を生成してしまいがち。

 もちろんプロンプトにもよるが……総じてMidjourneyが良好な結果を出すと感じられる。

 たとえばプロンプト「A Japanese woman with black hair. Her eyes are black. She smiles a little. She is wearing simple clothes. She is lying on the bed. Her whole body is visible. It is a realistic photograph.(黒髪の日本人女性。彼女の目は黒。少し微笑んでいる。シンプルな服を着ている。ベッドの上に横たわっている。全身が見えている。リアルな写真で)」を入力して生成してみると……。

Midjourneyで生成した結果。なかなか良好。しっかり日本人顔だ。なお、何度か再生成させたが、全身は現れなかった。
同じプロンプトでDreamStudioのStable Diffusion XL(SDXL)にて生成した結果。腕や手がまだ微妙なのであった。Stable Diffusion XL(SDXL)はBeta版なので、正式版で改善されることを期待したい。

 ただ、人が入っていない静物を描かせると、Stable Diffusion XL(SDXL)のほうが良好な結果が出たりもする。たとえばプロンプト「Fried eggs and bacon breakfast. Looks delicious. Hot coffee. A sizzling photo.(目玉焼きとベーコンの朝食。おいしそう。ホットコーヒー。シズル感のある写真)」として画像を生成してみると……。

Midjourneyで生成した結果。Midjourneyらしい深みのある渋い写真となった。
DreamStudioのStable Diffusion XL(SDXL)で生成した結果。こっちのほうが朝食っぽいし、シズル感があると感じられた。

 透明感のある飲み物も。プロンプト「Whiskey in a glass. On the rocks. Beautiful amber color. The counter of the bar.(ウイスキーをグラスで。オン・ザ・ロック。美しい琥珀色。バーのカウンター)」で生成し比べてみた。

Midjourneyで生成した結果。雰囲気はある。でも、ちょーっと暗い? まあイイ感じだが。
DreamStudioのStable Diffusion XL(SDXL)で生成した結果。すごい背景のバーではあるが、ウィスキーと氷の透明感がステキ。

 こんな感じで、生成するものによってだいぶ方向性……というかAIの性格が出る。ので、「複数の画像生成AIを使い分けるのがいい」というのが現時点での俺的結論。

 やや余談だが、最近のMidjourneyは処理がちょっと重く感じられるのに対し、DreamStudioは軽くて速いという印象がある。フリーで使えるStable Diffusionが多いので、あえて課金されてまでDreamStudioを使おうと思う人は多くない、ということかもしれない。

 また、DreamStudioはUS10$で1000クレジットを購入でき、4枚セットの絵を生成させると約6.5クレジットが消費され、Midjourneyより絵の単価が高い。しかし「生成物によっては非常に高いクオリティとなる」ので、Stable Diffusion XL(SDXL)が一般に配布されるまでDreamStudioの存在を頭の片隅に入れておくといいかもしれない。

 てな感じで課金状態にて1ヶ月使ってきたMidjourney。満足度が高く、気が向けばniji・journeyも使えて、いつでもどこでものモバイル利用が現実的で、そーんなに高くない。非常に気に入っている実用的なサービスなので、今後も使い続けてゆきたいッ!!!

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。