スタパ齋藤のApple野郎

画像生成AI「Midjourney」で時間が溶けまくる! 最近の俺は“生成物の校正”に夢中!!!

 有名な画像生成系AI「Midjourney」。俺の場合、2023年3月頃からMidjourneyを無料トライアルで使い始め、その後、間もなく課金契約で使い始めた。その描画性能は徐々に進化しており、最近ではも〜最高に最強な感じの絵やイラストや写真を生成してくれて、ほぼ毎日楽しんでいる。

 Midjourneyはバージョン1から段階的にバージョンアップし、現在は5.1となっている。俺的印象では、バージョンアップするごとに描写力が上がっていって美しい映像を出力するということがひとつ。

 もうひとつは、バージョンアップするごとにプロンプト(画像生成のための指示文章)が短くてもそこそこの画像を出力してくれるようになったと感じる。緻密なプロンプトを巧く書けばそれだけ目的のイメージが生成されやすいが、短いプロンプトでもザックリしたイメージを出せるのは便利だ。

 そんなMidjourney、飽きちゃう人もいるようだが、ハマっている人はハマっている。俺もハマっているユーザーのひとりだと思う。ナニカと「Midjourneyならこれはどういう風に画像化してくれるのだろう?」と思いつき、Midjourneyにプロンプトを打ち込む日々。

 すると、見たことのないような新しいビジュアルをすぐ生成してくれる。「こんなイメージ初めて見た!」というものも多々出力される。たとえば……。

わりと頻繁に出力させている「ウィスキーシリーズ」。以前はやや単調なイメージを生成しがちだったような気がするが、最近はわりと多種多様でメリハリの効いたイメージが出てくるような気がする。人と絡んだときに指や姿勢が破綻するようなことも減った。
大仏が走るというプロンプトがおもしろいと聞き、マネしてみたら、あら走った! 周囲の人も一緒に走った! 右はサイズ的にカブリモノっぽい。
毎日のように世界中のテレビ画面に登場する大統領を生成。たくさんの猫に囲まれた某大統領、くらいのプロンプトでこれが生成される。すっげー、なんかこの人が平和的に見えてくる。
起訴されたり敗訴したりしている元大統領を生成。満面の笑み!

 どれも短いプロンプト。なにか思いついて「猫に囲まれた●●大統領をリアルな写真で」くらいのプロンプトを入れると、上のような「見たことのない画像」が生成される。そんな調子で、毎日「この絵柄は初めて見た!」という画像を楽しんでいる。

 ただ、最近のMidjourney、公序良俗に反するようなキーワードによりいっそう厳しい。「えっ、いま入れたプロンプトのどこがダメなの? Midjourneyが考え過ぎなのでは?」ということが多い。

 また、Midjourneyは高性能化著しいとは思うものの、まだまだツッコミどころが残されていたりする。入力しているプロンプトが悪いといえばそれまでだが、「こーゆーところ、もうちょっとどうにかならない?」みたいにモヤモヤする生成をしたりする。

最近のMidjourneyは「東京タワー」をかなりそれっぽく描くようになったと思う。ので、出力されるとすぐに「お〜イイねぇ」と感嘆する。のだが、「キレイだけどその方向で東京タワー見たらすぐ横に麻布台ヒルズが……」とか「東京タワーの横に水辺はないんですが……」といった矛盾が見つかりがち。
ジャミロクワイの「ヴァーチャル・インサニティ」のビデオに出てくるような白い部屋を描かせてみたら、一発で近いイメージが出力された。すごいなMidjourney!
そう思ってプロンプトを詰めていったら、どうやってもソファーが消えてしまう状態に。「黒いソファがある」みたいなプロンプトをどう入れ込んでも、そうなってはくれなかった。一発目のイメージはまぐれだったのか?

 とまあ、思い通りにいかないこともあるわけだが、それでも楽しいMidjourney。やはり「初めて目にする光景」がどんどん出てきて、そーゆーのが好きな人は、新光景が出力されるたびに脳内麻薬とかが出ているんだと思う。そしてハマるのだと思う。

愉快で刺激的なMidjourneyだが、これだけは許せん!

 しばらく以前に試したのは、Midjourneyに街の様子を描かせること。ほかユーザーの生成を見ると、非常に美しい都市やサイバー空間を描いていて、「おもしろそう!」と思って試した。

 だが、プロンプトの差か、全然そういうのは出なかった。なので、すぐに諦めてしまったプロンプトに対する探究心が浅い俺であった。

 しかし最近はそういうのが簡単に出る的な話を聞いて、試してみた。すると短いプロンプトでもそれらしい街の風景が出た。

これは「メガネ専門店ばかりがある街」などとしたら生成されたもの。あら、メガネの看板が! すごいじゃ〜んMidjourney!

 てな感じで、いろいろな街を描かせたら、どれもそこそこ雰囲気のある街が出る。サイバーシティーも短いプロンプトで出せた。

 あっ、じゃあ日本の街を……昭和時代とかのを描かせてみよう! とか思った俺。

ん〜これはちょっと昭和じゃないね。それ以前な感じ? 右は昭和っぽいが……。大正時代が混ざってない?
プロンプトをちょっと細かく調整すると……おーそうそう、こういう感じだよ昭和! 地元の商店街もこんな雰囲気だったと記憶している。50年くらい前だが。いやーでもよく日本の昭和の街を知ってるなーMidjourney!

 いつから、こんなに昭和日本の画像を生成できるようになったの、Midjourney? しかも短いプロンプトだし。「昭和の商店街を。買い物客が歩いている」くらいのプロンプトで上の画像が生成される。こりゃ楽しい!

 調子に乗って、いろいろな日本の街を描かせた。のだが、徐々に「?」が頭上に浮かぶようになった。

そうそうコレコレ。これが昭和だし。左の3眼のクルマは知らないけど、こういう雰囲気だった。クルマと人でごった返している、的な。右には看板建築っぽい家も……。
温泉街とかの歓楽街って昔多かったけど、そういうの描けるかな? と思って描かせたのがコレ。すっごいなMidjourney! まさにこんな雰囲気だった……という記憶すら曖昧だが、こんなふーだよ!

 と喜んでいた頃に「?」が湧いてきた。ん? コレって……。

今度は東京都内の観光地を描かせてみた。浅草とかスカイツリーといったキーワードを交えつつ。まさにコレって感じの雰囲気を備えた風景が生成されたのだが……。

 いや雰囲気はイイんだが、日本語が1個もナーイ! んーどの文字も日本語のような感じのようなアジアっぽい雰囲気はあるが、デタラメな感じ。

 その後も、どうやっても日本語は出てこない。マグレでもいいから日本語描いてよーっていうか書いてよーMidjourney! でも全然出ない日本語。なかば諦め始めた俺。

あっ、じゃあこうすれば? こんなふうに、美女観光客を手前に描かせて、背景が日本の街角、みたいな。そうすれば美女に目が行って、日本語じゃない謎の文字列に注意が行かないっていう……チガーウ! そういうコトじゃナーイ!
あっじゃあコレは? 清涼飲料水の向こうに日本の街の風景があるっていう。これなら……って清涼飲料水のラベルにも日本語じゃない謎の文字列書くんかーい!

 なんか、少し、Midjourneyが許せなくなってきた。日本語を絶対書かない。日本語というか漢字に酷似した謎の記号は出現することがある。「テ」とか「ト」とか。「キ」みたいなのも見たことがある。

 だが前後の文字的な記号と組み合わせても意味不明なので、たぶん偶然。AIがテキトーに書いて、いや描いてやがるのだ。

 ぐぬぬぬ。愛すべき日本語をテキトーに処理するとは! 許せんMidjourney!

Midjourneyが日本語を微塵も出力しない俺の怒りをプロンプトにし、俺の顔画像とともに入力し、生成されたのがコチラ。

 ん〜、怒りの俺をよく表現している。こーゆーのは巧いんだよなMidjourney。でも右側は西田敏行さんでは?

Midjourneyの出力を強制的に校正してゆきたい!!!

 日本の街の風景をMidjourneyに描いてもらうのは非常に好きだが、街並みが間近に見える様子を描かせるとエセ日本語が多々描かれてムカつく。Midjourneyが大好きなのに、Midjourneyの生成物にムカつくというのは、精神衛生上、非常によろしくない。

 そこで、Midjourneyがエセ日本語を描いた場合、それを強制的に校正してゆきたい!!! このように↓校正していく。

まずは日本の街角を生成。観光地の繁華街にある狭い商店といった設定だ。またエセ日本語だらけである。ともあれ、左側のを使うことに。つまり校正することに。
この画像のエセ日本語っていうかエセ文字列の上に日本語を貼り付けて、完全に日本語化してゆくッ!!!

 と思ったのだが、具合が悪い。Midjourneyが生成する画像は正方形だと1024×1024ピクセル。そのなかに点在するエセ文字列を、Photoshopの文字描画機能で上書きしようと考えたのだが……文字が小さ過ぎて編集に非常に手間がかかるのだ。

 そこで、手を加える画像をアップスケールしてから加工することにした。アップスケールにもAIを使う。手持ちの「Topaz Photo AI」というアプリを使うのだ。コレがけっこう高性能。

 このTopaz Photo AIも、文字をアップスケールするのが苦手。アップスケール倍率つまり拡大率を高くすると「あり得なかったエセ文字列」を生成しがちなのだ。画像生成系AIって文字が苦手云々ではなく、人間の脳が文字列に対する感受性がとりわけ高いのだろう。手や足や顔の違和感をすぐ発見するように。ともあれ、アップスケールして校正開始!

左がMidjourneyが生成した最大ピクセルの画像。左がTopaz Photo AIで縦横それぞれ2倍に拡大した画像。これなら日本語を書き込んでの校正がしやすい解像度だ。
あらためて、こちらが校正前の元画像。Topaz Photo AIで拡大して4096×4096ピクセルになったが、掲載のためそれを1920×1920ピクセルにしている。
このように、エセ文字列だった箇所を日本語文字列に書き換えていく。日本語であればなんでもいいと考えた。
フォントは、この画像にもともとあったエセ文字列に合わせたものを選択。絵柄に溶け込むだろうと考えた。
パッと見は日本語で、よく見ても日本語だが、その日本語をよく読むと「こんなコト日本では書いてナーイ!」というテイストにしてみた。
日本の街の風景には自動販売機が必須だろう! ということで、Midjourneyに自販機を生成していただき、これを画像中に入れ込むことにした。
こんなふうに入れ込んだ。加速的に「日本への校正」が楽しくなってきた!
そしてできあがったのがコチラ。異世界の「千と千尋の神隠し」みたいになった。

 Midjourneyが生成したグラフィックで気に入ったものは保存しておいて(Discordだと過去生成画像の閲覧がしづらい)、ときどき眺めて楽しんでいる。気に入ってはいるものの、エセ文字列が気に入れない微妙なグラフィックを楽しく鑑賞するために、この校正作業を始めたのだが……。

 一度始めたら楽しくて! さらに気に入らない描画を再度Midjourneyに描かせて合成しつつ、また文字列校正。そんなことをしているうちに、この文字列校正および画像合成が趣味と化してしまった。

 結果、Midjourneyを使う時間も、それで得た画像をどうこうする時間も倍に! ヤバい。時間がさらに溶けまくる〜。

 のだが、そうして遊んでいるうちに、画像生成AIの使い方として、上記がひとつの正解という気がしてきた。AIにざっくりとしたものを生成してもらい、人間がそこに手を加え、目的のイメージに近づけていく。AIと人のコラボ、みたいな。ディレクターである人間と、助手であるAI、かも。

 まあ昔からよくある写真のコラージュのようなものだが、コラージュの部分素材をAIでガンガン生成できる。これは画像生成AI時代ならでは、である。たまには「どうしてもイメージに合う素材が生成されない」ということもあるが、でもだいたいは満足のいく素材を生成できる。

 これも近い未来「素材単位ならかなりイメージどおりのものを生成できるようになった」というときが来るだろう。そのとき、たぶん、俺のこういう校正&コラージュ遊びはもっとおもしろくなり、時間が溶けまくって、仕事の進行に大影響しまくりそうなので、できるだけAI画像遊びは抑えてゆきたい……が、超絶楽しいので無理だと思う。AIで自滅するかも俺。

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。