スタパ齋藤の「スタパトロニクスMobile」

いろいろスゴい音声合成アプリ「VOICEPEAK」がズギアっと爆誕!!! 即買いしたゼっ!!!

商利用可能、6人+1少女声、なのに安いAI音声合成ソフト

 コンピュータの音声合成アプリや歌唱アプリに対し、常に緩〜い視線を送っている俺。昔から「コンピュータがしゃべる」ということが非常に好きであり、数年ごとにレビューしたりもしてきた。

 そして2022年2月17日、ネットで新しい音声合成アプリのプレスリリースを見つけた。AHSの「VOICEPEAK 商用可能 6ナレーターセット」が2022年3月11日から発売されますヨというリリースであった。

 ふぅ〜ん、と思って緩〜い視線でそのプレスリリースを読んだ俺は、アーッ!!! ナニコレーッ!!! と思い目を見開き心拍を上げ、プレスリリース内の文字列を二度見三度見四度見した。いやいやいや……マジすかコレ。ヤバくないこれ?

 つーか買うしか!!! そして「VOICEPEAK 商用可能 6ナレーターセット」(以下、VOICEPEAK)を予約したのであった。初回限定優待ダウンロード版、税込1万5800円。やった! 買った! てか、なんか、勝った!

製品版のVOICEPEAKを予約。いや〜ガンガン使うという予定はナイんだが、あまりにも衝撃的なアプリだったので久々に気絶して購入、みたいな。

 しゃべる系の音声合成アプリにおいて、このVOICEPEAKはスゴいんである。まず最強に凄いのは「個人だろうが法人だろうが商利用可能」という点。

 これまでの多くの音声合成アプリでは「個人の趣味や同人といった範疇での利用ならご自由に」であり「商利用するならソレナリのお代をいただきます」だった。しかし、VOICEPEAKはいきなり“個人・法人・教育機関を問わず商用・業務利用が可能”なのである。

 なので3月11日以降、VOICEPEAKにより「いろ〜んなナレーションがVOICEPEAKで行われまくる」ことが予想される。音声合成界の「いらすとや」みたいな? 全然違うか。ともかく、多くの人が求めてきた「安く商利用できる高品位な音声合成アプリ」がまさにVOICEPEAKなのであり、YouTubeとかでもガンガン使われるだろうし、いろ〜んな音声アナウンスがVOICEPEAKで行われるようになるだろう。

 そして合成される音声の質も凄い。入力した文章をいきなり非常に流暢かつ自然に読み上げてくれる。感情による発声の違いを細かくコントロールできるのが特に凄い。

VOICEPEAKには一定の条件と制限がある体験版が用意されている。↑はその体験版の表示例。原稿の一部をコピペして読み上げさせたが、全体的に非常に良好な読み上げ結果となった。

 どのくらい良好な読み上げ結果となるかは後ほど動画でご紹介するが、俺がこれまでに試したアプリのなかでは最高レベル。ほぼ手直し不要。言われて初めて「えっコレって人間が朗読してんじゃなかったの?」と気づくようなことも多いと思われる。

 それからキャラクター(声質)の多さも凄い。男性×3人+女性×3人+少女×1人で合計7人の声が用意されている。いきなりこんな多くのバリエーションを使えちゃうなんて!

 あと対応OSも凄い。Windows版に加え、macOS版やLinux版もある。まあ凄いってほどでもないかもだが、VOICEPEAKはさまざまな環境で使える高品位音声合成アプリというわけだ。

 さておき以降、VOICEPEAK体験版を使いつつレビューしていきたい。どんな音声品質なのか、何ができるのか、そんなあたりをイロイロと。

 なお、2022年4月30日23時50分までは「初回限定優待版」として優待価格で予約販売されており、パッケージ版が1万9800円、ダウンロード版が1万5800円となっている。その後は通常価格となり、パッケージ版が2万4800円、ダウンロード版が2万3800円となる。欲しいならいちばん安い「初回限定優待版・ダウンロード版」(1万5800円)がいいかも!

どんな声でしゃべる? やっぱり多少は人工的な声質だったりする?

 まずはVOICEPEAK(の体験版)で、どの程度リアルな音声合成が行われるのか? 実際にテキストを入力し、それを読み上げさせてみよう。なお、製品版VOICEPEAKでは合計7人の声を使えるが、体験版は男女1人ずつの2人の声が使える。

「みなさん、おはようございます。本日も、安全第一で、気を引き締めてまいりましょう。では、よろしくお願いいたします」というテキストを入力し、男性の声と女性の声で読み上げさせてみた。

 といった感じ。普通で常識的な文章なら、何ら問題なく読み上げてくれる。声を変えつつ会話のような読み上げをさせることもできる。

「おはようございます。ご気分はどうですか?」「あっ、おはようございます。気分は爽快ですよ」「そうですか。それは良かったです」といった会話をさせてみた。

 体験版ではブロック数が5つまで、1ブロックについて100文字までという制限があるが、製品版にはそういった制限はない。自然で流暢な読み上げができ、複数の声で会話させるようなこともできるので、この時点で「やべぇVOICEPEAKで夢が膨らむ!」と感じる方は少なくないと思う。

感情がある声で読み上げることも可能

 VOICEPEAKでは、読み上げる声の高さ(ピッチ)や速度を変えられるほか、感情を込めた声にすることもできる。感情は「幸せ」「楽しみ」「怒り」「悲しみ」を複合的に入れ込むことができる。また、感情はブロックごとに異なる設定にできる。

「はーい、みなさん、こんにちは! 今日もケータイウォッチにアクセスしてくださって、ありがとうございます!」を読み上げさせてみた。上のブロックでは感情の設定をとくに行わず、下のブロックでは「幸せ」と「楽しみ」を最大に上げてみた。同じキャラクターでも感情を変えると読み上げ結果が大きく変わる。

 NHKこども向け番組のお姉さんとかですかっ? 軽くトキメいたゼ! ともあれ、正統派の感情のこもり方と言えよう。いや〜読み上げも自然だし、感情の出方も自然だし、なにこれ? 神アプリ? こういった正確なイントネーションや感情による音声変化はAI技術によるものだそうだ。

 同じテキストでも、感情のパラメータを変えるだけで、かなり印象が変わる。予想外の声にも変わる。試していたらちょっと興味深い感情的音声が出た。↓こんなの。

「とても良好な読み上げ結果になっていると思う。俺がこれまでに試したアプリのなかでは最高レベルだ」「マジですか? 本当にそう思いますか?」「思うって言ってんだろ!」という会話。男性の声は「幸せ」「楽しみ」「怒り」「悲しみ」を全部最大に上げている。女性の声は「怒り」「悲しみ」を最大に上げている。理由はわからないが、男性の声が少し小さめになってしまった。音声ダイナミックレンジ幅が最大に使われている?

 すっごーい!!! いやーこの感情全パラメータ最大の声で、俺の原稿読ませて推敲してみたいわ〜。おもしろ過ぎだわこのアプリ〜。ちなみに、大元となる声は声優が提供しており、そこからデジタル処理されてイントネーションや感情が加えられているそうだ。声優は「ぷろだくしょんバオバブ」の方々。

大元となる声は声優が提供している。

細かなイントネーションの調整や、新たな単語の登録なども可能

 VOICEPEAKでは非常に自然で違和感のない読み上げをするが、場合によっては不自然なイントネーションとなることがある。そのような場合は手動での補正が可能だ。また、VOICEPEAKで読み上げに対応していない単語があり、その場合は単語の部分が無音になるが、手動で登録することで読み上げてくれるようになる。

ウィンドウ下部の赤枠で示したエリアにテキストおよびイントネーション(声の上がり下がり)が表示される。この表示の場合は抑揚が「上か下か」の2段階調節で、これを変えることで違和感のあるイントネーションを修正できる。細かな抑揚はAIが微調整してくれているようだ。
より細かくイントネーションを調節することができる。この表示の場合は無段階で行える。2段階の調整だと違和感が残るという場合、無段階での調整を行うといいようだ。
単語登録も可能。「爆誕」が発音されなかったので、新たに登録してみたら、正しく発音されるようになった。単語のイントネーションを変えることもできる。

 イントネーションを無段階で調節していくと、標準語の「なんですか?」を大阪弁の「なんですか?」に変えて発音させることもできる。しかも、かな〜り自然な発音。興味のある方はぜひVOICEPEAK体験版を試してみてほしい。

 なお、VOICEPEAK体験版は動作確認と製品の評価のためにあるソフトウェア。今回は、「ケータイ Watch」でのレビューにあたり、AHSに許諾を得た上で掲出しているが、体験版で出力した音声を商用・業務利用することは許可されていないのでご注意を。

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。