ニュース

Google翻訳アプリで70言語のリアルタイム音声翻訳が可能に、新モデル「Gemini 3.5 Live Translate」登場

 グーグルは9日(現地時間)、70以上の言語を自動検出してリアルタイムに翻訳する音声モデル「Gemini 3.5 Live Translate」の提供を開始した。話者の声のトーンやペースを保ちながら連続的に翻訳を生成し、自然な対話を実現する。

自然な対話を実現する連続翻訳

 「Gemini 3.5 Live Translate」は、話者が話し終わるのを待たずに音声を連続処理する。文脈の理解と即時性のバランスをとり、数秒の遅れで自然な翻訳音声を生成。従来のシステム特有の対話の合間に生じる不自然な間を解消した。

 入力言語を自動認識するため事前の設定は不要で、騒音の多い環境でも正確に機能し、話者のイントネーションや声の高さも忠実に再現する。また、悪用を防ぐ取り組みとして、生成した音声にはすべて電子透かし「SynthID」を付与し、AIによる生成物であることを識別可能にした。

Google翻訳アプリやMeetに順次導入

 一般向けには、Android版とiOS版のGoogle翻訳アプリで提供を開始した。イヤホンを接続して利用できる。

 さらに、Android版には「リスニングモード」を追加。スマートフォンを耳に当てるだけで、翻訳された音声がスピーカーから直接流れる。そのため、周囲に聞かれることなく、手軽に翻訳を聞きたい場面や、イヤホンがない場面で活用できる。

 企業向けには、6月よりGoogle Meetのプライベートプレビューとして提供を開始した。年内には一般提供へ移行する予定。対応言語が従来の5言語から70言語以上に拡大し、2000以上の言語の組み合わせで会議を進行できる。

配車アプリや動画配信でテスト進行中

 開発者向けには「Gemini Live API」および「Google AI Studio」を通じてパブリックプレビュー版を公開。AgoraやLiveKitといったプラットフォームへの統合も進む。複雑なストリーミングインフラの構築を肩代わりし、開発者が音声翻訳アプリを容易に開発できる環境を整えた。

 GrabやCJ ENM、LiveKitなどのパートナー企業は、すでに同モデルの実証実験を進めている。配車サービスを展開するGrabでは、月に1000万回以上行われるドライバーと乗客の通話において、多言語コミュニケーションを支援する目的でテストを実施した。

 Grabの最高製品責任者(CPO)を務めるフィリップ・カンダル氏は、「複数言語の自動検出と、低遅延で正確な音声翻訳能力を高く評価している」と語る。