ニュース

グーグルから音声向け大規模言語モデル「AudioPaLM」、翻訳アプリなどを支援

 グーグル(Google)は、新たな大規模言語モデルとして「AudioPaLM」を紹介している。テキストと音声を処理・生成するもので、音声認識や音声翻訳などのアプリでの活用が期待される。

 「AudioPaLM」は、テキストベースと音声ベースの言語モデル「PaLM-2」と「AudioLM」を統合したマルチモーダルアーキテクチャ。「PaLM-2」のようなテキスト大規模言語モデルにのみ存在する言語知識を受け継ぐ。また、「AudioLM」からは、話者の同一性やイントネーションなどのパラ言語情報を保持する機能を継承している。

「AudioPaLM」は、事前にトレーニングされたテキストのみのモデルを用いて、その埋め込み行列を拡張し、新しい音声トークンのセットをモデル化する。テキストと音声トークンの混合シーケンスが入力として与えられ、テキストまたは音声トークンをデコードする。音声トークンは、「AudioLM」ステージで生の音声に変換される

 「AudioPaLM」は、音声翻訳タスクにおいて既存のシステムを大幅に上回るとされる。トレーニングの段階で入力言語とターゲット言語の組み合わせがなかった多くの言語に対し、音声テキスト翻訳を実行する能力を備えている。また、元の話者の音声を保持したまま、音声翻訳を行う。

 「AudioPaLM」が紹介されているWebページでは、デモンストレーション動画のほか、音声から音声への翻訳、音声からテキストへの翻訳の例が示されている。