■ 今時の音声合成ソフトウェア
思い出したように時々、突然、猛然とハマる趣味(!?)と言えば、音声合成ソフトウェアいじりだ。本連載のバックナンバー「喋るコンピュータにハマる年末の俺」でも書いたが、いわゆるテキスト読み上げソフト。Text-to-Speech(TTS)ソフトってやつですな。
このテのソフト、主な目的はパソコン等のテキストを自動的に読み上げてのユーザー支援にある。テキストを読むのが困難である場合、発音するのが困難なケース、そういった状況で、人間の変わりにテキストを読み上げるのだ。
が、拙者の場合、コンピュータという装置が人間に近い声を発するというサイバーさというかオモシロみだけで、このテのソフトをアレコレといじっている。コンピュータに喋らせて遊んでるんですな。AMIGAの時代からコンピュータによる音声合成・テキスト読み上げに対するミョーに強い興味があり、断続的にTTSソフトを見てきた感じである。
で、久々に「最近のテキスト読み上げソフトはどーなのか?」と思い立ち、調べてみた途端、最近のTTSソフトはスゲぇクオリティだなぁと驚いた。
まずはペンタックスの音声合成システムから衝撃を受けた。その音声合成の品位・実用性、百聞は一見にしかず。ペンタックスのWebサイトの無料デモンストレーション機能で試せるので、ちょっと音声合成してみて欲しい。
……ね、スゴいでしょ? この音質・韻律のリアルさを体験した途端、俺の音声合成ソフトウェア欲がマキシマムへと高まったという話はさておき、このペンタックスの音声合成、コーパスベースという方式で行なっているそうで。
ムツカシーことはよくわからないが、入力されたテキストに対し、テキストと音声のデータベースを参照し、あらかじめ録音された音声をつなぎ合わせる方式らしい。韻律モデル等に基づいてイチから音声を合成するのとは違い、録音済みの細かな生声をうまくつなぎ合わせるので、とても自然に聞こえる音声になるそうだ。
■ GlobalvoiceEnglishを買ってみた
ペンタックスのWebサイトで無料デモンストレーションおよび多種多様なサンプル音声そして別のデモンストレーションを試した俺は、もーこの音声合成システムを手に入れたくてしょーがなくなった。欲しぇーッ!! と。
でも、こういうシステム、どちらかと言えば組み込み用や企業向けに売られているケースが多い。テキスト読み上げシステムは多々あるものの、個人向けに売られている製品パッケージはごく僅かだ。が、ペンタックスはGlobalvoice Englishという製品として、前述のリアルなテキスト読み上げエンジンを搭載したソフトウェアを発売していた。ので、後先考えずに速攻で購入!!
|
|
|
Globalvoice Englishのパッケージ。ペンタックスオンラインショップにて31,500円(税込)で購入
|
パッケージの中身は2枚のCD-Rだった!! CD-Rかよ!! って、案の定ですな。フツーの人は買わないソフトなのであろー
|
Globalvoice Englishソフトウェアの表示例。テキスト読み上げ音声は英語女性(KATE)、英語男性(PAUL)、日本語女性(MIYU)の3種類だ
|
Globalvoice Englishは“英語学習に最適なソフト”として販売されている。機能としては、英語・日本語の文章読み上げの文書モード、Webページを(Globalvoice Englishウィンドウ内に)表示してのページ読み上げさせるWebモード、複数の音声で対話を行なわせる対話モードがある。ユーザー発音辞書を作成し、イントネーション等のユーザー設定が行なえたり、あるいは発音(テキスト読み上げ音声)の録音ができたりもする。操作性は至って平易で、機能的にもわりあい簡素なソフトウェアだが、キッチリ作られているという印象がある。
|
|
|
Webページ読み上げをしているところ。範囲指定されたテキストを読み上げてくれる。お気に入り(URL)はIEのそれが適用され、既に作成したお気に入りをそのまま利用できる
|
日本語ユーザー発音辞書に新しい単語を登録しているところ。アクセント記号として「^」(強く発音する音)や「/」(合成語等の単語と単語の境界)を使える
|
英語による読み上げ音声は.WAVファイルとして保存することができる。が、日本語は保存できない
|
発音もキレイだし、文章によってはコンピュータが喋っていると思わせないほど自然なイントネーションで喋りまくるGlobalvoice English。価格はさておき、個人的に気になったのは、ます、“日本語による読み上げ音声だけがファイルとして保存できない”という仕様。
ま、このクオリティのテキスト読み上げをしちゃうゆえ、ファイル化されて違法に商利用されたら、ペンタックス音声合成ソフトウェアとしての本業に影響が出ちゃうってのはわかる。が、例えば青空文庫の読み上げをファイル保存し、ポータブルプレーヤーで聞きたい、てなユーザーにとっては非常に残念な仕様だと言えよう。
もうひとつ、ペンタックス音声合成ソフトウェアの個人向け(!?)パッケージとして売られているGlobalvoice Englishには、日本語音声エンジンとして“MIYUバージョンしかない”という点。前述のペンタックスの無料デモンストレーションページで聞ける声の多くは“MISAKIバージョン”である。どうも、MIYUが旧バージョンで、MISAKIが新バージョンのようだ。
ていうか新・旧はあまり関係なく、両バージョンともリアルな音声合成を実現しまくり中であるが、ぶっちゃけた話、なんかMIYUよりMISAKIのほーが好みの声なんですけど。独断と偏見で言えば、MIYUはちょっと落ち着いた感じのマダムチックな声で、MISAKIはわりあい若い感じの声。Globalvoice English上でもMISAKIの声を使いたかったなぁ、とか思った。
■ あら、電子かたりべ上でMISAKI声が!!
……に、しても、MISAKIボイスには妙味があるのう、とかキッパリと諦められずにいた拙者は、電子かたりべというサービスを発見した。
電子かたりべは、流暢な声で電子書籍コンテンツ(電子かたりべコンテンツ)やテキストファイルを読んで聞かせてくれるという、日本語のテキスト読み上げサービス・ソフトウェアだ。詳しい内容は西野滋仁氏がBroadBand Watchにてレポートしているので割愛する。
俺的にピンとキちゃったのは、電子かたりべのプレーヤー(コンテンツやテキストファイルを読み上げるソフト)の音声に、ペンタックスのMISAKIバージョンが採用されているという点である。
電子かたりべで聞ける合成音声や、コンテンツ毎の録音音声は、電子かたりべから体験版等を入手すればすぐ聞けるので、興味のある方はお試しいただきたい。音声合成という見地からも、新しい本のスタイルという観点からも、非常に興味深いサービスだったりする。
が、単に自由気まま好き勝手に音声合成して合成音声を聞いて遊びたい俺にとっては、若干面倒な電子かたりべプレーヤーなのであった。
|
|
|
電子かたりべプレーヤーの表示例。テキストファイルを読み込み、日本語テキストを日本語で発音させることができる。これもまた、かなり流暢に読み上げる
|
合成音声の声質は変更できないようだ。デフォルトでMISAKIボイスが設定されている
|
|
ひとつは、自由なテキストをMISAKI声で喋らせるのに若干の手間が要ること。喋らせたいテキストをテキストファイルとして保存し、これを電子かたりべプレーヤーで開く必要がある。電子かたりべプレーヤーに対する直接のテキスト入力はできないもよう。
もうひとつは、どうやらテキストファイルの“音声吐き出し”に対応していないとう点。つまりテキストファイルの読み上げ音声をサウンドファイルとして保存することができないようなのだ。
ま、そーゆー機能を電子かたりべプレーヤーに求めるほーがどーかしているとも言える。もともと、コンテンツを読み上げさせたり(コンテンツ上の絵を表示させたり)するためのプレーヤー。音声合成はひとつの手段であり、音声合成を目的とする輩がこのソフトを使うのはちょいとズレているのかもしれない。
■ 各国語対応のTTSソフト、TextAloud
Globalvoice Englishも、電子かたりべプレーヤーも悪くないんだけど、音声合成遊びマニアとしては、なんかこー、もっと自由に、柔軟に、好き放題、音声合成をしたいフィーリングなんだよなぁ、と考えてさらに調べていった。
手軽なフリーソフトや研究方面で公開されているものまで、いくつかのTTSソフトウェアを試した結果、「これはイイ感じ」と思えるものが見つかった。ご存じの方もあると思うが、NextUp.comというサイトで買えるTextAloudというテキスト読み上げソフトだ。
非常に多機能なソフトなので、興味のある方はフリートライアル版をお試しいただきたいが、合成音声野郎として気に入ったのは、自由度の高さだ。ハナから、読み上げたテキストをサウンドファイルとして利用することをひとつの目的としている。TextAloudで読み上げさせた音声は、.WAV、.MP3、.WMAのサウンドファイルとして保存できる。
|
|
|
TextAloudの表示例。ウィンドウ上にテキストを直接書いたり、コピー&ペーストしたり、あるいはテキストファイルを読み込ませたりして、読み上げさせることができる
|
読み上げ音声のサウンドファイル化にも対応している。ファイル形式は、.WAV、.MP3、.WMAに対応し、ビットレート等も比較的に細かく設定できる
|
音声を選択するプルダウンメニュー。インストールしたTTSエンジンに応じ、選べる音声が増減する。拙者はデフォルトのAnna以外に6種類ほど購入してみた
|
それから、利用できるTTSエンジンが多い──各国語の様々な声質の音声で読み上げを行なうことができる点。日本語に関してはNeoSpeech VoicesのMiyuとShow、Nuance RealSpeak SoloのKyokoが用意されている。これらリンク先でサンプル音声を聞けるのでお試しいただきたい。
ちなみに、TextAloudソフトウェアは約30ドル程度以上(購入パターンにより若干異なる)の製品版ソフト。また、TextAloudにはAnnaという英語・女性の音声がデフォルトで含まれているようだが、それ以外の音声を追加する場合、それぞれ35~45ドル程度かかる。
合成音声のクオリティに関しては、音声毎に違うので何とも言えないが、上記リンクで聞けるとおり、実用的なレベルだと思う。日本語に関しては、ペンタックスのTTSエンジンを使っていると思われるMiyuとShowは(所々イントネーションに違和感を感じるものの)十分流暢に発音していると感じる。ただ、Kyokoは……何となく1世代前のエンジン!? みたいな気が。ちょいとクセがあ(り過ぎ!?)る。
てなわけで、いくつかの音声合成ソフトを見てきたが、ここ数年でずいぶん高音質化が進み、イントネーションも自然になってきてますな。今後もこの分野、突然思い出したように調べ、何か見つけたらまたレポートしてみたい。
■ URL
ペンタックスの音声合成ソフトウェア「VoiceText」製品情報
http://voice.pentax.co.jp/
ペンタックス「Globalvoice English」製品情報
http://voice.pentax.co.jp/blog/25.html
電子かたりべ
http://www.e-kataribe.com/portal/
TextAloud(英文)
http://www.nextup.com/TextAloud/
2007/07/23 14:29
|