「AudioPaLM」は、事前にトレーニングされたテキストのみのモデルを用いて、その埋め込み行列を拡張し、新しい音声トークンのセットをモデル化する。テキストと音声トークンの混合シーケンスが入力として与えられ、テキストまたは音声トークンをデコードする。音声トークンは、「AudioLM」ステージで生の音声に変換される

「AudioPaLM」は、事前にトレーニングされたテキストのみのモデルを用いて、その埋め込み行列を拡張し、新しい音声トークンのセットをモデル化する。テキストと音声トークンの混合シーケンスが入力として与えられ、テキストまたは音声トークンをデコードする。音声トークンは、「AudioLM」ステージで生の音声に変換される