ニュース

GalaxyのAIアシスタント「Bixby」が日本語対応、研究員が語る日本語対応への課題とは

Bixby日本語対応に携わるサムスン日本研究所 Mobile Solution Lab Artificial Intelligence Part長の赤迫貴行氏

 サムスン電子が1月に発表した「Galaxy S25」シリーズでは、多彩な生成AI機能が発表され注目された。その一方、ユーザーの発話でさまざまなタスクをこなせる同社の“AIアシスタント”「Bixby(ビクスビー)」が2月に日本語対応した。同社は、Bixbyを“AIエージェント”と称しており、2017年以降、韓国や中国などグローバルでの展開が進められてきており、今回の日本語対応はGalaxyユーザーにとっても待望のニュースだっただろう。

 日本語環境でのローカライズにあたっては、韓国本社や中国の研究所での開発を経て、日本語ネイティブの研究者が多いサムスン日本研究所で開発、実装された。今回の日本語対応にあたりどのような点で苦労があったのだろうか。

サムスン日本研究所

 説明したのは、サムスン日本研究所 Mobile Solution Lab Artificial Intelligence Part長の赤迫貴行氏。同氏は、日本研究所による初のソフトウェア開発チームの立ち上げと同時に入社したといい、現在は日本語のGalaxy AIやBixbyの日本語対応を担当している。日本研究所では、生活家電やディスプレイ、カメラ関連の画像処理、ロボット関連のメカトロニクスなどを研究開発領域として関わっている。

 日本研究所は、1992年8月に前身となる研究会社「AITECH」が設立され、その後、紆余曲折を経て2013年からはSamsung Research傘下の「サムスン日本研究所」として、研究開発が進められている。

サムスン日本研究所

 生成AIを含めたAIでは、処理する場所に応じて“オンデバイスAI”と“クラウドベースAI”に分けられる。

 オンデバイスAIは、端末上のチップを使って処理するもので、ネットワークにデータを出さないため安全で、軽量かつ高速で処理ができる。また、ネットワーク状況の影響を受けない。

 一方、クラウドベースAIでは、ネットワーク上のAIサーバーが処理をするため、大規模な処理もでき、Web上の情報を活用したり巨大なLLM(大規模言語モデル)が利用できたりする。

 オンデバイスAIはメリットが多いものの、デバイス上で処理するため、スマートフォンなどのモバイル端末では特に電池消費を抑制する必要があり、ファイルサイズの軽量化など性能面では妥協しなければならないと赤迫氏は語る。

 同社では、オンデバイスAIの開発に注力しているといい、特に他言語対応にあたっては、拠点でその言語のエキスパートや専門家を多数配置することで、その言語に最適な開発を進めているという。

日本語対応の難しさ

アプリ間連携でさまざまな機能が利用できるAI機能だが、根幹には音声認識エンジンの性能がカギを握る

 生成AI以外でもさまざまなものが日本語対応されている。その筆頭とも言えるのが、音声翻訳機能だ。

 同社の音声翻訳機能は、旅行中に現地の人と会話するシーンを想定して設計されている。たとえば、「Hello」と発話すると、端末の音声認識エンジンが“テキスト”に変換する。次に、文字列「Hello」を機械翻訳エンジンが日本語のテキスト「こんにちは」に変換する。最後に、テキストを音声合成エンジンが変換し、デバイスから「こんにちは」が音声で出力される。

音声翻訳の流れ(英語→日本語)
  1. 音声認識:ユーザーの発話をテキストに変換
    例:音声「Hello(ハロー)」→テキスト「Hello」
  2. 機械翻訳:テキストを日本語に翻訳
    例:テキスト「Hello」→テキスト「こんにちは」
  3. 音声合成:テキストの訳文を音声に変換
    例:テキスト「こんにちは」→音声「こんにちは(こんにちは)」

 赤迫氏によると、日本語の音声認識にあたっては、ほかの言語とは異なり気をつけるべきポイントがいくつかあるという。

 まずは、「同音異義語が多い」こと。同じ読み方の単語でも、違う意味を持つことがあり、単語だけ認識しても文脈から意味を判断しなければならない。また、人名になると、有名人以外は文脈から見ても判断することが難しい。

 次に「アラビア数字」。たとえば、「Galaxy S25」の読み方は「ぎゃらくしー えす とぅえんてぃふぁいぶ」と読んだり「えす にじゅうご」と日本語読みしたり、「えす にー ごー」と読んだり、人によってさまざまな呼び方ができる。

 3つ目は「同形異音語が多い」点。たとえば「方」という漢字は、「かた」や「ほう」など同じ字でも違う読み方がある。文脈により読み方が変わってくるため、それを考慮してエンジンを開発しなければならない。

 最後に、日本語の「ハイコンテクスト性」だ。ハイコンテクストとは、“高い”“文脈”と直訳でき、言語外の情報の重要度が高い文化を意味する。日本語では、主語を省略するなど、言語だけであまり正確に表現しない言語であるため、音声だけで処理する機能では、大きな障壁になっている。

 このほかにも、スペースで単語を区切らなかったり、文章の区切り方に特徴があったり、文脈やシナリオによっても機械が言語を理解するシーンでも大きく影響するという。

 同社では、翻訳精度を高めるために、先述の“旅行中の会話”シナリオ以外にも、2024年開催のパリ五輪を踏まえ“オリンピックにちなんだシナリオ”も想定され、高品質化が進められた。

 同社AIの日本語対応にあたっては、2024年3月までは、中国・北京の研究所で開発が進められ、24年4月に日本研究所に技術移管され、開発が進められている。また、機械翻訳エンジンと音声合成エンジンの開発は、韓国本社の開発チームと合同で進められた。日本研究所に移管することで、多くの日本語ネイティブエンジニアが開発に関われるようになった。赤迫氏は「日本語特有の課題を早期に発見でき、品質向上スピードがより加速した」と、日本国内での開発の重要性をアピールする。

Bixbyにおける処理の流れ

 では、Bixbyではどのような処理がなされているのか。

 Bixbyでは、「音声認識」の後、「言語理解」、「タスク実行」、「言語生成」、「音声合成」の流れで処理が進められる。

 ユーザーが発話すると、音声認識エンジンがその言葉をテキスト変換する。その後、テキストからユーザーが発話した内容を理解、特定した“ユーザーの意図”に従い、適切なタスクを選択し、実行する。その後、実行結果を“Bixbyの回答”としてふさわしい返事をテキストで生成し、出力されたテキストを音声に変換し、ユーザーに返事する、という流れだ。

Bixbyの流れ
  1. 音声認識:音声認識エンジンがテキスト変換
    例:音声をテキスト変換「ランニングの記録を開始して」
  2. 言語理解:テキストからユーザーの意図を理解
    例:「ランニングを記録したい」という意図を理解
  3. タスク実行:“特定した意図”に従って適切なタスクを選択し実行
    例:「Samsung Healthのランニング記録開始タスク」を実行
  4. 言語生成:“Bixbyの回答としてふさわしい”実行結果をテキストで出力
    例:タスクの実行結果をテキストで生成
  5. 音声合成:出力したテキストを音声に合成し、Bixbyの回答として返信する
    例:音声で「ランニングを始めます」と返答

 先述の音声翻訳機能でも、音声認識と音声合成の処理が含まれていたが、「根本は同じもの」と赤迫氏は語る。

 Bixbyでは、デバイスにプリインストールされているサムスンアプリなど、端末の機能を呼び出したり、天気アプリや動画アプリといったサードパーティ製アプリを使ったサービスの呼び出しなどをサポートする。直近では、ウォレットアプリ「Samsung Wallet」との連携強化や、複数のタスクを連続して処理できるなど、品質向上や機能拡充に継続して取り組んでいる。

Galaxy S25シリーズが発表された1月のイベントでも、新機能が発表されたAI機能

 赤迫氏は、Bixbyについて、ほかのAIアシスタントと違い「ユーザーと対話するというよりも、より具体的なタスク処理にフォーカスを当てて開発している」と説明。今後も、日本ユーザーに合わせた“高品質で有用な日本語AIの開発”を進めると話す。

ケータイ Watchをフォローして最新記事をチェック!