ニュース

グーグル、「AI Now」で言語と文化の多様性をテーマにしたAI活用事例を紹介

 グーグルは6日、AIに関する最新事例を紹介するイベント「AI Now」を開催し、最先端のAI技術が現実世界でどのように活用されているかを紹介した。今回は「言語」をテーマに掲げ、アジアにおける表現力の向上や文化的配慮を重視した翻訳の重要性が強調された。

インドの言語多様性のデジタル化「Project Vaani」

 最初に紹介されたのは、インド国内の言語的多様性を反映し、デジタル・インディアの実現を目指す「Project Vaani」。インドでは22の公用語を含む1300以上の言語が存在するが、これらをカバーする既存の音声データセットは限定的で、AIモデルの訓練に必要なカバー率は5%未満にとどまっている。

 この課題に対応するため、グーグルはインド科学大学と共同で3年前に「Project Vaani」を開始。全国773地区を対象に、地域や人口統計の多様性を反映した約15万6000時間分の音声データを収集することを目指している。

 これまでに、59のインド言語からなる第1フェーズの音声データが公開済みで、2万1500時間の音声と835時間の転写音声が、11万2000人以上の話者から収集された。これらのデータは、企業や研究機関、スタートアップにより幅広く活用されている。

東南アジアの多言語LLM開発を支える「SEALD」

 次に紹介されたのは、東南アジア地域における多言語データ収集プロジェクト「SEALD」。11カ国・5億人以上が暮らすこの地域は、世界で最も言語的に多様とされるが、LLM開発に使われる高品質なオープンデータの99%以上は英語であり、現地言語はほとんど含まれていない。しかも多くが広告やギャンブル関連で、文化的代表性に欠ける。

 こうした課題に対して「SEALD」では、まず現地の言語や文化、価値観を真正面から捉える中核的なコーパスを構築し、それをモデル開発に実装していく。そして、モデルの利用が想定される具体的な文脈に沿って、地域の企業、大学、行政などと連携しながら検証・運用を進めるという、三層構造のアプローチが取られている。

 このプロジェクトでは特に、社会規範や文化的アイデンティティを反映する「文化的代表データ」、および公共性の高いデータの収集に力を入れている。たとえば、シンガポールでは移民家事労働者が母国語で行政制度などを理解できるようにするチャットボット開発のため、丁寧なデータ構築が進められているという。

 また、言語リソースの整備における重複を避け、地域コミュニティの貢献を促進するため、オープンデータプラットフォーム「Aquarium」の構築も進められている。これは、言語データのマッピング、カタログ化、ライセンス管理といった基本機能に加え、主要言語を理解するチャットボットを搭載し、誰でも直感的にデータセットを扱えるよう設計されている。

 今後は、音声や映像といったマルチモーダル対応の拡充や、非国家言語の収集、文化的価値観に配慮した安全なモデルの開発、地域パートナーとの連携強化などが予定されており、プロジェクトの広がりが期待されている。

 また、絶滅危惧言語や低リソース言語に関しても、現地の専門家の協力のもと、古い録音のデジタル化や、画像・テキストから音声を生成するプロンプトを使ったデータ構築などにより、少量の高品質データでもAIによる翻訳が可能になってきている。AIがより公平な言語モデルを提供できるようになれば、母語を話し続けることへのインセンティブが生まれ、言語の保存にもつながると指摘された。

日本の「CHAD 2」でお笑いを世界に届ける試み

 最後に紹介されたのは、吉本興業とグーグルが共同開発する字幕AI「CHAD 2」による、日本のコメディのグローバル展開に向けた取り組み。登壇した吉本興業のチャド・マレーン氏は、日本の「お笑い」はゲーム、アニメ、マンガに続くポップカルチャーの柱となり得るとしながらも、これまで日本語を前提とした展開が主だったため、海外ではその魅力が十分に伝わってこなかったと指摘した。

 その背景には、文化的文脈や日本独特の話法に強く依存した「ハイコンテキスト」な構成や、日本語・英語双方に堪能な話者が少ないといった言語の壁がある。さらに、字幕の翻訳にも課題が多く、タイミングや語彙の選定、非言語要素とのバランスを取るためには、短く鋭い表現でありながら原意を保つ高度な翻訳力が求められる。

 これらを解決するために開発された「CHAD 2」は、コメディ独自の構造を理解するAI字幕生成システムで、「フリ」や「オチ」などの特有の展開、方言や業界用語に対応する辞書、そして字幕の長さ調整による可読性の最適化といった機能を備えている。コメディ作家による監修も取り入れられ、実際の字幕生成に深く関与している。

 現在は吉本の10人の芸人がYouTubeチャンネルでクローズドキャプションとして利用しており、今後は社内での利用拡大とともに、商用展開や多言語対応の強化も視野に入れている。最終的には、日本のお笑いが世界中どこでも、誰にでもリアルタイムで理解されるようになることを目指しているという。

 トレーニングには、既存の字幕付き動画100本以上に加え、ジョークやコントの構成パターンといった創作的な素材も使用されており、最大の技術的課題としては「タイミングの調整」が挙げられた。

 CHAD 2の導入によって、これまで最も翻訳が難しいとされてきた日本のコメディに対応できる可能性が示されつつあり、それが実現すれば、世界で最も洗練された字幕生成システムのひとつになると期待されている。