ニュース

NTT、声を好みのスタイルに一瞬で変える「リアルタイム音声変換」技術

 NTT(持株)は、ある話者の声を、まるで他の話者が話しているかのような声に変換する、高音質と低遅延を両立した「リアルタイム音声変換技術」を開発した。

 これにより、Web会議やライブ配信などでのリアルタイム音声変換が可能になり、今後はスマートフォンやVRデバイス上での利用など、さまざまな場面での応用が期待される。

 たとえば、コールセンターでの利用場面においては、顧客の声を聞き取りやすく変換することで、さらに円滑なコミュニケーションに繋げることができる。

 声質だけでなく抑揚やリズムなどを柔軟に変換できる「特徴量変換技術」と、音声特徴から音声波形を生成する「波形合成技術」の研究成果を融合させることで、今回の新技術が開発された。

 この技術は、24日から開催される、コミュニケーション科学基礎研究所オープンハウス2024に出展される。

 今後の展開として、ネイティブに近い流暢な英語の発音、説得力のあるスピーチ、緊張による声の震えの解消など、さまざまな場面での利用が期待される。

 さらに、実環境使用を想定した対雑音性向上や安定性向上、なりすましへの対策などにも力を入れ、安心した好みの音声でコミュニケーションできる未来をめざすとしている。