スタパ齋藤の「スタパトロニクスMobile」
人気AI「Midjourney」課金で使って感じたアレコレ
2023年5月1日 00:00
画像生成AI「Midjourney」は楽しいのか? 役立っているのか?
機能アップが重なり再び話題となっている有名画像生成AI「Midjourney」。
2022年7月13日にオープンベータ版への移行が発表された画像生成AIサービスだが、2022年11月にはバージョン4(V4)が登場し、生成される画像のクオリティがグッと高まった。2023年3月にはバージョン5(V5)が登場し、画像クオリティが格段に高まりつつ細部の問題が大きく解消された。
俺の場合、現在はMidjourneyを有料会員として使っている。具体的には月額US30$の「Standard Plan」だ。このプランでは15時間の高速画像生成時間を使える。
Midjourney有料プランでは、画像生成1枚につき1分の高速画像生成時間が消費されると言われており、15時間ぶんだと900枚の画像が生成できることになる。高速での生成については1ヶ月900枚が上限だが、Standard Plan以上では「Relax mode」と呼ばれる「生成にやや時間がかかるが枚数制限がない生成モード」も使える。またStandard Plan以上では、生成した画像の商用利用も可能となる。
俺がMidjourneyの有料会員となったのは2023年3月26日。この原稿を書いているのが2023年4月25日。明日で課金Midjourneyが1ヶ月! おめでとう1ヶ月! ありがとう1ヶ月!
ってコトではなく、Midjourneyを課金されつつ使って1ヶ月経って、どうたったのか? それを今回の記事で書いてゆきたいッ!!!
そして満足度的な結論から言えば、課金されながら使ったMidjourney、ヒッジョーに満足している。サイコーと言えよう。なので来月も有料会員を継続する予定。年間契約しちゃおうかなーとも考えている。
満足だと感じられるのは、まず画質。生成される写真やイラストの画質が高く、内容的なクオリティも高いこと。とくにV5になってからは良好。画像によっては、Topaz Labs「Topaz Photo AI」で4倍などに高画素化して(入稿用データとして)使うこともできる。
Midjourneyで生成させた画像を、何に使っているか? 仕事では1枚絵の挿絵を作成している。もはや「言わなければAI生成とわからないレベル」なので、記事の文脈から「この画像はAI生成らしい」と読み取れない場合、画像に「Made by Midjourney AI」とか入れようかどうか、現在考え中でもある。
遊びでも使用中。ちょっとした趣味で使ったり、「プロンプトをこう変えたらどうなるか?」といった実験を多々している。
ただ、テキストのプロンプトにはあまり大きな期待はしておらず、Midjourney運営サイドも言っているように、今後は画像プロンプトが主流になりそう。なので、画像プロンプト+それを修正するためのテキストプロンプトという使い方になるのかなーと想像しつつも、いまはテキストプロンプト主体で使っている。
ともあれMidjourney、たいへん役立っているし楽しませてもらっている。現在も毎日使っているが、今後も毎日使うと思う。
課金で月15時間、足りてる? 画像が生成される時間は?
ひと月あたり15時間の高速生成時間を利用できるStandard Planを使っているが、これで生成できる画像は900枚の計算となる。ひと月に900枚。それで足りているのか?
今月の俺の場合、ギリギリ足りたという感じ。じつは使い始めの頃は毎日20枚くらいしか生成していなかったので「これは月末に高速生成時間が余っちゃうな」と思っていた。
だが今月はMidjourneyのアニメ漫画特化版であるniji・journeyの機能アップ月間で、後半はniji・journeyの画像生成結果がかなり大きく変わってきたので鋭意試した。
また月の後半にはPermutations機能(プロンプト中の一部単語を自動的に置き換えて複数の画像を生成させる機能)や「--repeat」パラメーター(画像生成を指定回数自動で行わせるパラメーター)を多用したため、ギリギリとなった。↓こんな感じ。
1ヶ月のサブスクリプションの期限まであと24時間くらいで、残りの高速生成時間は約88分。ちょうどピッタリって感じではあるが、現在の調子で使い続けていたら、来月は時間が足りなくなりそう。
高速生成時間は1時間US4$(約540円)で買えるが、けっこー割高。生成が低速な「Relax mode」を使えば追加課金ナシで使えるが、ちょっと急いでいると「もぉーまだぁ〜?」って感じになる(とは言っても数分で生成される)。毎月、高速生成時間が足りなくなっちゃうような場合、思い切ってPro Planにしたほうがいいのかも? と思ったりする。
それから画像生成にかかる時間。Midjourneyでの画像生成は、プロンプト入力後から生成が始まるまでに、待たされる時間があったりする(即座に始まったりもする)。使い始めの頃はプロンプト入力後に即座に生成が始まって、1分せず画像生成(4枚組)が完了して「うぉっ速っ!」と思ったが、最近はちょっと遅くなったような気もするし、逆に時間帯によっては「相変わらず速い」と感じられたりもする。
最近の生成時間を正直な印象で書くと、「有料プランなのに(処理開始を)もう3分くらい待たされている〜」みたいなことがポチポチとあって、若干不満。ただ時間帯によっては速い。
大雑把な印象ではあるが、この1ヶ月でちょっと生成速度が落ちてるという印象なので、やはり不満が残る。なお、Midjourneyの混雑度合い(現在の画像生成が始まるまでの待ち時間)は公式のステータスページで確認できる。
Midjourneyを使っていて、困るようなエラーが出た経験はない。エラーはたいていプロンプトのミスだったりして、サーバー側が云々みたいなのは未経験。数日前に「プロンプトに二重の否定があり矛盾しているので、開発者に報告しました」的なメッセージが出て、入力したプロンプトが無効になったことがあるが……なんだったのかよくわからない。
「プロンプト」「手」、いろいろ興味深いMidjourney
Midjourneyを使っていて「便利」と思うのは、短めのプロンプトで「まあコレでいいかな」というレベルの画像が得られること。画像カテゴリーによってはStable Diffusion XLでもそうなったりするが、Midjourneyはいろいろなカテゴリーで「手短なプロンプトでうまくいく」ということが多い。
なので、そこからプロンプトを足したり引いたり変えたりしつつ、さらにネガティブプロンプトを追加しての「生成物の調整」を行いやすいと感じる。まあ頑張っても「目的のイメージん全然近づかない〜助けてドラえもん……あっじゃあドラえもん似のサイボーグでも生成して気分転換するか」ってこともあるが。
基本的に短いプロンプトで済むMidjourneyって雰囲気なので、その後の修正でも「この単語を入れた(消した)からこの結果なのか」的に、プロンプトと生成結果の関係を掴みやすいような気がする。しかしAIがノイズからどう画像を削り出しているかよくわからないので、そういうプロンプトへの考察も曖昧で不確かだったりするわけだが。
Midjourney以外にも画像生成AIをいくつか使っている。Midjourneyはアート風味強めの画像をよく生成し、美しくて雰囲気のある写真や絵が得られることが多い。それはサービス提供側が目指しているところだと思うが、もうひとつ、Midjourneyらしさが感じられることがある。
それは、人間を描かせたときにミュータント的な形状を生成しにくい点だ。画像生成AIで人を描かせたら「手や足が何本も」「体が捻れているし超長い」みたいな違和感があまりない、と感じる。
ただ、手に関してはやや違和感を感じることが少なくない。「どうしても手が現れてしまうシーン」では、手の形状や状態がオカシなことになりがち。
手が逆とか指が多量にあるとか、現在の画像生成系AIのクセみたいなモンかもしれない。手という複雑な形状の部位が、非常に複雑な動きをする。手のバリエーションについての学習は、まだまだ足りてないんでしょうな。
そんな現状なので、「このAI生成画像は記事に使おう」という場合に手指などの違和感問題があったとき、フツーにPhotoshopで加工修正している俺なのであった。「片手にお箸が5本も!」みたいな場合もPhotoshopで2本へと修正。でもまあ、これって現在だけの問題で、すぐに「以前は手がヘンとかお箸多いとかあったよね〜」という懐かし話になるような気がする。
進化著しいniji・journey、でもコレってアリ?
Midjourneyの別の顔こと「niji・journey(にじジャーニー)」。niji・journeyはアニメ・マンガ版のMidjourneyという位置付けで、生成されるのはアニメ調やマンガ調の画像だ。2023年4月には、niji・journey(V5)のイベントが開かれ、1週間ごとに新機能が公開された。
新機能は、バージョン5(V5/パラメーターは --niji 5)の登場と、描画スタイルを指定できる3つのパラメーター( --style expressive , --style cute , --style scenic )の追加だ。パラメーターによりかなり絵柄が変わるので、生成例を見てみよう。どれもプロンプトは「A schoolgirl is wearing a uniform. She is jumping. Looks so fun!(制服の女子生徒。ジャンプしている。とても楽しそう!)」とした。
スゲいな、niji・journey! とか思ったが、↑の「--style cute」パラメーター使用時に「!?」と思う生成物が。左下のキャラって女子山登りマンガ・アニメの……似てるけど違うかな……!?
しかし、その後に「やっぱりマズい」という生成物が。それはDiscordのniji・journeyチャットで見た「あぁそのプロンプトでソレが」という発見をして試したとき。「Playsuit」という単語で、タイトな宇宙服っぽい着衣を表現させていたのだ。そして試して出てきた画像が↓こちら。
あーらカッコイイ! と思ったが、いやカッコイイが、右下の人ってエヴァンゲリオンの……違うか。顔も違うし髪の色も違うし。
とは思ったんだが、もう一度同じプロンプトで出力したら、モロに綾波レイな二次創作物が出た! てかソレ似すぎ! でも超絶巧い……んだけど、商用媒体にはちょっと掲載できない(二次創作については作品のガイドラインにもよるものの、個人の趣味の範囲での使用のみならOKであることが多く、二次創作をお金儲けに絡めたら基本的に違法になりがち)。
出ちゃうか。そうか。
さておき、じゃプレイスーツの色を赤にしたら? あんたバカぁ!? のアノ人が出る? 試してみたら……。
ちなみに、このほか「イカ娘」とか「聖闘士星矢」とか「テンタクルズ」とかをDeepLで英訳したものをプロンプトに入れたりしたら、著作権的にヤバげな二次創作的画像が生成された。テンタクルズは「シオカラーズ」と間違えてたが。
こういう「ソックリなのが出ちゃった件」について、Midjourney運営サイドでは「プロンプトとともにご報告ください」としており、そうならないように対処する手段があるようだ。
報告はDiscord上でできるもよう。「ある商用ベースのキャラクターを知らずにそのキャラクターに酷似した画像を得てそれを商用利用してしまって裁判沙汰に」といったことなどを防ぎつつ安心して利用できるよう、こういった問題点は運営側へと鋭意報告したいものだ。
Stable Diffusion XL(SDXL)と比べてみると……
生成系AIはいくつか使っていて、たとえば画像生成系だとローカルPCで「DiffusionBee」を使っている。Macで手軽にStable Diffusionを使えるアプリだ。ネット上にあるさまざまなAIモデルを追加して使うこともできる。
あるいは「Stable Diffusion Web UI」。AUTOMATIC1111氏が開発・配布しているツールで、Stable Diffusionやほかの多数AIモデルをWebブラウザ上/ローカルPCで使うことができる。多くの“フリーな生成系AIモデル”を使えるが、ローカルで動作させるにはPCにある程度強力なGPUが搭載されている必要がある。
ただ、現在はネット上で使える生成系AIサービスばかり利用している。上記2つの生成系AI利用方法はローカルで使えるので無料なのが魅力的ではあるが、モデルごとに少々使うコツが異なったり、商用利用に関してグレーだったり曖昧な部分が多かったりする。生成結果の画像の商用利用を目的としている俺にとっては手間がかかりすぎる感がある。
ほかにもモバイルで使えないと(仕事の進行上)効率が悪いし……などいろいろな理由があり、ネット上で使えるAIサービスの利用が主になっている。課金されるサービスだと提供側が鋭意アップデートを行うので、最新のAI性能を知るうえでもスムーズで便利だと感じている。
で、課金状態で使っている画像生成系AIは、MidjourneyのほかにDreamStudioがある。DreamStudioは、オープンソースのStable Diffusionの開発元であるStability AIが提供するAI画像生成サービスだ。
DreamStudioでは最新のStable DiffusionであるStable Diffusion XL(SDXL)が使える。ユーザー登録すると初期の少量のクレジット(画像を生成するとき支払う架空通貨的なもの)があり、それでStable Diffusion XL(SDXL)を試すことができる。Stable Diffusion XL(SDXL)は、現行のStable Diffusion 2.1よりさらに詳細で正確な画像を生成することができる。
で、このStable Diffusion XL(SDXL)とMidjourneyを比べてみると、どうか? 両方とも課金されるサービスなので、どちらかに絞りたいなーとさんざん比べた結果から言ってしまうと、「生成物による」「使い分けがいい」というのが俺的結論だ。
たとえば、人間入りの画像を生成させると、Midjourneyのほうが圧倒的と言えるほど違和感がない。一方でDreamStudioは、まだまだミュータント的な画像を生成してしまいがち。
もちろんプロンプトにもよるが……総じてMidjourneyが良好な結果を出すと感じられる。
たとえばプロンプト「A Japanese woman with black hair. Her eyes are black. She smiles a little. She is wearing simple clothes. She is lying on the bed. Her whole body is visible. It is a realistic photograph.(黒髪の日本人女性。彼女の目は黒。少し微笑んでいる。シンプルな服を着ている。ベッドの上に横たわっている。全身が見えている。リアルな写真で)」を入力して生成してみると……。
ただ、人が入っていない静物を描かせると、Stable Diffusion XL(SDXL)のほうが良好な結果が出たりもする。たとえばプロンプト「Fried eggs and bacon breakfast. Looks delicious. Hot coffee. A sizzling photo.(目玉焼きとベーコンの朝食。おいしそう。ホットコーヒー。シズル感のある写真)」として画像を生成してみると……。
透明感のある飲み物も。プロンプト「Whiskey in a glass. On the rocks. Beautiful amber color. The counter of the bar.(ウイスキーをグラスで。オン・ザ・ロック。美しい琥珀色。バーのカウンター)」で生成し比べてみた。
こんな感じで、生成するものによってだいぶ方向性……というかAIの性格が出る。ので、「複数の画像生成AIを使い分けるのがいい」というのが現時点での俺的結論。
やや余談だが、最近のMidjourneyは処理がちょっと重く感じられるのに対し、DreamStudioは軽くて速いという印象がある。フリーで使えるStable Diffusionが多いので、あえて課金されてまでDreamStudioを使おうと思う人は多くない、ということかもしれない。
また、DreamStudioはUS10$で1000クレジットを購入でき、4枚セットの絵を生成させると約6.5クレジットが消費され、Midjourneyより絵の単価が高い。しかし「生成物によっては非常に高いクオリティとなる」ので、Stable Diffusion XL(SDXL)が一般に配布されるまでDreamStudioの存在を頭の片隅に入れておくといいかもしれない。
てな感じで課金状態にて1ヶ月使ってきたMidjourney。満足度が高く、気が向けばniji・journeyも使えて、いつでもどこでものモバイル利用が現実的で、そーんなに高くない。非常に気に入っている実用的なサービスなので、今後も使い続けてゆきたいッ!!!