ニュース

わずか3分の音声データで「自分の声を合成」できる、KDDI総研が新技術

 KDDI総合研究所は、3分程度の少量の音声データから、その人の声質に似た音声を合成する「高効率声質再現音声合成技術」を9月に開発した。

 音声収録に要する時間の軽減につながる技術で、独自の声質を使った音声対話システムやチャットシステムなどへの応用が期待される。

 KDDI総合研究所は日本語テキスト音声合成ソフトウェア「N2」をはじめとして、音声合成技術を普及させるための技術開発に取り組んできた。しかし、あらかじめ用意された声質以外での音声合成に課題を残していたという。

 そこで同研究所は、深層ニューラルネットワーク(DNN)を用いた「DNN-HSMM音声合成方式」の採用などにより、今回の「高効率声質再現音声合成技術」を開発した。

 短時間の音声からその声質を効率的に再現することが可能になり、再現結果の検証でも高い再現精度を確認できたとのこと。

 KDDI総合研究所は今回の技術について、プラットフォーム化を検討していくほか、パソコンやスマートフォンなどでスタンドアローンとして動作する音声合成システムの開発も進めるとしている。