スタパ齋藤のApple野郎
画像生成AI「Midjourney」で時間が溶けまくる! 最近の俺は“生成物の校正”に夢中!!!
2023年6月21日 00:00
有名な画像生成系AI「Midjourney」。俺の場合、2023年3月頃からMidjourneyを無料トライアルで使い始め、その後、間もなく課金契約で使い始めた。その描画性能は徐々に進化しており、最近ではも〜最高に最強な感じの絵やイラストや写真を生成してくれて、ほぼ毎日楽しんでいる。
Midjourneyはバージョン1から段階的にバージョンアップし、現在は5.1となっている。俺的印象では、バージョンアップするごとに描写力が上がっていって美しい映像を出力するということがひとつ。
もうひとつは、バージョンアップするごとにプロンプト(画像生成のための指示文章)が短くてもそこそこの画像を出力してくれるようになったと感じる。緻密なプロンプトを巧く書けばそれだけ目的のイメージが生成されやすいが、短いプロンプトでもザックリしたイメージを出せるのは便利だ。
そんなMidjourney、飽きちゃう人もいるようだが、ハマっている人はハマっている。俺もハマっているユーザーのひとりだと思う。ナニカと「Midjourneyならこれはどういう風に画像化してくれるのだろう?」と思いつき、Midjourneyにプロンプトを打ち込む日々。
すると、見たことのないような新しいビジュアルをすぐ生成してくれる。「こんなイメージ初めて見た!」というものも多々出力される。たとえば……。
どれも短いプロンプト。なにか思いついて「猫に囲まれた●●大統領をリアルな写真で」くらいのプロンプトを入れると、上のような「見たことのない画像」が生成される。そんな調子で、毎日「この絵柄は初めて見た!」という画像を楽しんでいる。
ただ、最近のMidjourney、公序良俗に反するようなキーワードによりいっそう厳しい。「えっ、いま入れたプロンプトのどこがダメなの? Midjourneyが考え過ぎなのでは?」ということが多い。
また、Midjourneyは高性能化著しいとは思うものの、まだまだツッコミどころが残されていたりする。入力しているプロンプトが悪いといえばそれまでだが、「こーゆーところ、もうちょっとどうにかならない?」みたいにモヤモヤする生成をしたりする。
とまあ、思い通りにいかないこともあるわけだが、それでも楽しいMidjourney。やはり「初めて目にする光景」がどんどん出てきて、そーゆーのが好きな人は、新光景が出力されるたびに脳内麻薬とかが出ているんだと思う。そしてハマるのだと思う。
愉快で刺激的なMidjourneyだが、これだけは許せん!
しばらく以前に試したのは、Midjourneyに街の様子を描かせること。ほかユーザーの生成を見ると、非常に美しい都市やサイバー空間を描いていて、「おもしろそう!」と思って試した。
だが、プロンプトの差か、全然そういうのは出なかった。なので、すぐに諦めてしまったプロンプトに対する探究心が浅い俺であった。
しかし最近はそういうのが簡単に出る的な話を聞いて、試してみた。すると短いプロンプトでもそれらしい街の風景が出た。
てな感じで、いろいろな街を描かせたら、どれもそこそこ雰囲気のある街が出る。サイバーシティーも短いプロンプトで出せた。
あっ、じゃあ日本の街を……昭和時代とかのを描かせてみよう! とか思った俺。
いつから、こんなに昭和日本の画像を生成できるようになったの、Midjourney? しかも短いプロンプトだし。「昭和の商店街を。買い物客が歩いている」くらいのプロンプトで上の画像が生成される。こりゃ楽しい!
調子に乗って、いろいろな日本の街を描かせた。のだが、徐々に「?」が頭上に浮かぶようになった。
と喜んでいた頃に「?」が湧いてきた。ん? コレって……。
いや雰囲気はイイんだが、日本語が1個もナーイ! んーどの文字も日本語のような感じのようなアジアっぽい雰囲気はあるが、デタラメな感じ。
その後も、どうやっても日本語は出てこない。マグレでもいいから日本語描いてよーっていうか書いてよーMidjourney! でも全然出ない日本語。なかば諦め始めた俺。
なんか、少し、Midjourneyが許せなくなってきた。日本語を絶対書かない。日本語というか漢字に酷似した謎の記号は出現することがある。「テ」とか「ト」とか。「キ」みたいなのも見たことがある。
だが前後の文字的な記号と組み合わせても意味不明なので、たぶん偶然。AIがテキトーに書いて、いや描いてやがるのだ。
ぐぬぬぬ。愛すべき日本語をテキトーに処理するとは! 許せんMidjourney!
ん〜、怒りの俺をよく表現している。こーゆーのは巧いんだよなMidjourney。でも右側は西田敏行さんでは?
Midjourneyの出力を強制的に校正してゆきたい!!!
日本の街の風景をMidjourneyに描いてもらうのは非常に好きだが、街並みが間近に見える様子を描かせるとエセ日本語が多々描かれてムカつく。Midjourneyが大好きなのに、Midjourneyの生成物にムカつくというのは、精神衛生上、非常によろしくない。
そこで、Midjourneyがエセ日本語を描いた場合、それを強制的に校正してゆきたい!!! このように↓校正していく。
と思ったのだが、具合が悪い。Midjourneyが生成する画像は正方形だと1024×1024ピクセル。そのなかに点在するエセ文字列を、Photoshopの文字描画機能で上書きしようと考えたのだが……文字が小さ過ぎて編集に非常に手間がかかるのだ。
そこで、手を加える画像をアップスケールしてから加工することにした。アップスケールにもAIを使う。手持ちの「Topaz Photo AI」というアプリを使うのだ。コレがけっこう高性能。
このTopaz Photo AIも、文字をアップスケールするのが苦手。アップスケール倍率つまり拡大率を高くすると「あり得なかったエセ文字列」を生成しがちなのだ。画像生成系AIって文字が苦手云々ではなく、人間の脳が文字列に対する感受性がとりわけ高いのだろう。手や足や顔の違和感をすぐ発見するように。ともあれ、アップスケールして校正開始!
Midjourneyが生成したグラフィックで気に入ったものは保存しておいて(Discordだと過去生成画像の閲覧がしづらい)、ときどき眺めて楽しんでいる。気に入ってはいるものの、エセ文字列が気に入れない微妙なグラフィックを楽しく鑑賞するために、この校正作業を始めたのだが……。
一度始めたら楽しくて! さらに気に入らない描画を再度Midjourneyに描かせて合成しつつ、また文字列校正。そんなことをしているうちに、この文字列校正および画像合成が趣味と化してしまった。
結果、Midjourneyを使う時間も、それで得た画像をどうこうする時間も倍に! ヤバい。時間がさらに溶けまくる〜。
のだが、そうして遊んでいるうちに、画像生成AIの使い方として、上記がひとつの正解という気がしてきた。AIにざっくりとしたものを生成してもらい、人間がそこに手を加え、目的のイメージに近づけていく。AIと人のコラボ、みたいな。ディレクターである人間と、助手であるAI、かも。
まあ昔からよくある写真のコラージュのようなものだが、コラージュの部分素材をAIでガンガン生成できる。これは画像生成AI時代ならでは、である。たまには「どうしてもイメージに合う素材が生成されない」ということもあるが、でもだいたいは満足のいく素材を生成できる。
これも近い未来「素材単位ならかなりイメージどおりのものを生成できるようになった」というときが来るだろう。そのとき、たぶん、俺のこういう校正&コラージュ遊びはもっとおもしろくなり、時間が溶けまくって、仕事の進行に大影響しまくりそうなので、できるだけAI画像遊びは抑えてゆきたい……が、超絶楽しいので無理だと思う。AIで自滅するかも俺。