グーグルから音声向け大規模言語モデル「AudioPaLM」、翻訳アプリなどを支援(2/2)

「AudioPaLM」は、事前にトレーニングされたテキストのみのモデルを用いて、その埋め込み行列を拡張し、新しい音声トークンのセットをモデル化する。テキストと音声トークンの混合シーケンスが入力として与えられ、テキストまたは音声トークンをデコードする。音声トークンは、「AudioLM」ステージで生の音声に変換される