ニュース

NTTの新たな言語モデル「tsuzumi」は何がすごい? 島田社長らが語った展望とは

 NTT(持株)は1日、大規模言語モデル(LLM)「tsuzumi」について、2024年3月に商用サービスとして提供を開始することを発表した。法人への提供を想定する。

 日本語に特に強いこと、小型軽量であること、チューニング(調律)が容易であること――これらの特長により、和楽器「鼓」に由来するネーミングが採用されたtsuzumi。すでに米OpenAIのLLM「GPT-3.5」に比肩する能力を有しており、今後は「GPT-4」を目指して性能向上が図られるという。

 NTTが40年以上の自然言語処理技術研究のノウハウを注いだというtsuzumiは、一体どのように活用されていくのだろうか。島田明代表取締役社長と、木下真吾執行役員 研究企画部門長が、今後の展望を語った。

島田社長
木下氏

島田社長が語る展望

 米OpenAIの「ChatGPT」をはじめとするLLMは、膨大な知識をモデル内に有することで高い言語処理性能を示す一方、学習に要するエネルギー量や運用コストなどが課題とされている。こうした課題を解決すべく開発されたのがtsuzumiだ。

 島田社長は、tsuzumiの4つの特長として、「日英対応と、世界トップクラスの日本語処理能力」「軽量で高いコストパフォーマンス」「カスタマイズ性」「図表への対応」を挙げた。

 tsuzumiは日本語と英語に対応し、特に日本語処理性能に優れる。生成AI向けのベンチマークである「Rakuda」では、GPT-3.5や、国産でトップとされるLLM群を上回ることが確認されたという。今後は多言語への対応も予定されている。

 まずは、パラメーターサイズが6億の超軽量版と、70億の軽量版が用意される。NTTでは、OpenAIの「GPT-3」の1750億パラメーターと比べ、およそ約1/300(超軽量版)および1/25(軽量版)と軽量であるとアピール。また、学習コストや推論コストも低減され、高いコストパフォーマンスを実現する。

 tsuzumiのユースケースとして想定されるのは、メディカル領域やソフトウェア開発、コンタクトセンターなど。業界特有の言語表現や知識に対しても、カスタマイズで対応できるという。

 NTTはすでに、京都大学医学部附属病院や東京海上日動火災保険などのパートナーと、先行トライアルを実施。また、NTTグループ各社でもtsuzumiの活用を進めていく。

 島田氏はNTTドコモでのオンライン手続きサポートを例に挙げ、「tsuzumiを使うことによって利用イメージが大きく変わる」と語った。

 たとえば料金プランの相談では、提示された選択肢をユーザーが選び、望む答えにたどり着くまで、サポートとのやり取りとして14往復以上を要することもある。高い日本語能力を有するtsuzumiによって、これが2往復に短縮されるという。将来的には、tsuzumiをベースにコミュニケーターとAIが協力するような世界が想定されている。

木下氏が見据える世界とは

 木下氏はGPT-3について、「学習に膨大なエネルギーが必要で、サステナビリティの観点から課題がある」と警鐘を鳴らす。1回の学習に必要なエネルギーは約1300MWhで、これは原子力発電所1基が1時間に消費する電力と近い数値になる。

 tsuzumiのアプローチは、パラメーターサイズを増やすのではなく、言語学習データの質と量を徹底的に向上させるというもの。

 こうしたアプローチにより、軽量化が実現した。また、NTTが培ってきたノウハウにより、同時に高性能化も達成。日本語のチューニングを強化したLLMでありながら、英語でも高い性能を発揮するという。

 チューニング方法としては「プロンプトエンジニアリング」「フルファインチューニング」「アダプタチューニング」の3つが用意され、精度やコストなど、要件の違いに柔軟に応える。

 今後は、テキスト情報に加え、図表のような視覚情報なども利用できるマルチモーダルへの対応が予定されている。将来的には聴覚情報やユーザーの状況などへの対応も想定し、さらなる進化が図られる。

tsuzumiのデモの様子。恋愛相談に答えている
たとえば三段階の料金プランの図を提示し、「プレゼンター用のスクリプトを書いてほしい」と依頼すると、図に応じたスクリプトが作られる
答えとなる「45%」の近くに「55%」という紛らわしい数字が表示されているが、正確に判断できる様子が示された

 tsuzumiは、11月14日~17日に開催予定の「NTT R&D FORUM 2023 — IOWN ACCELERATION」で展示される。

 木下氏はNTTが推し進める次世代ネットワーク構想「IOWN」にも触れ、「大きなLLMをひとつ作るのではなく、小さなLLMを複数集めて有機的につなぎ、社会課題を解決する。LLMの連携基盤としてIOWNが重要な役目を果たす」と紹介した。

tsuzumiのプロダクトライン。中型版の開発も予定されている

質疑応答

――ビジネスモデルはどうなるのか。

島田氏
 売るのはNTTグループの各社です。NTTコミュニケーションズ、NTT東西、NTTデータ……そこが販売を担いますが、まずは基本的に法人のお客さまに対して販売したい。ニーズに合わせて、必要なものにフォーカスして提供するという形式です。

――日本語のLLMで目指すポジションは。

島田氏
 我々の中期戦略では2027年をターゲットにしていますが、2027年の売上が1000億円以上になるよう努力していきたいと思っています。

――将来的にはスマートフォンで動くと考えていいのか。

木下氏
 もちろん、それをターゲットにしてやっています。言語モデルではまだなんですが、音声認識のエンジンについては、スマートフォンどころかApple Watchで動かすことができている。小型化は非常に得意なので、頑張っていきたいと思います。

――NTTのノウハウを他社がキャッチアップできる可能性は。

木下氏
 日本語処理において、いろいろな技術の組み合わせと言いましたが、特定の技術があれば(処理が)完璧になるかと言えば、それはまったく違います。

 研究者でさえすべてを挙げられないようなノウハウを、歴代の先輩から結構引き継いでいる。明文化できないので、キャッチアップは難しいところもあります。

――多言語対応するときには、コストは上がるのか。

木下氏
 基本的には、学習コストは上がっていく可能性が高いです。

 ただ、我々も研究中なんですが……日本語をあまり学習させず、ほとんど英語だけを学習させても、日本語が得意になる現象も実はありまして。

 もしかすると表面的な言語以外に、もう少し上位の言語の概念があって、そこを獲得してるんじゃないかと。であれば、非常に少ない量の学習で多言語に拡張できる可能性がありますので、そこも含めて研究していきたいと思っています。

――企業で使うことになると、データモデルの透明性などが重要になると思うが。

木下氏
 事前学習についてはWebなどのデータを使っていて、他社が活用しているデータよりもかなり慎重に、安全なデータを使うようにしています。ただ、どれがグレーでどれがホワイトかというのは線引きが難しいところもあり、世の中の風潮を見ながら検討していきます。

――ハルシネーション対策などはどうしているのか。

木下氏
 LLM単体で言うと、インストラクションチューニングのところで、倫理性の学習は徹底的にやっています。

 さらに、LLMを使ったNTTグループとしてのアプリケーションについては、セキュリティ上のフィルターをかけますので、二重、三重のチェックでお客さまにご迷惑をかけない体制は整えていきたいです。

 一方、最終的なコンシューマーの方に直接アウトプットが行くモデルと、コールセンターのように内部で使うモデルがありまして、要求されるレベルも違ってくる。適用先によっても対策の方法は変わってくると思っています。

――各社が独自のLLMを作って独自に戦うのは、不毛に思えるところもある。協調の必要性は。

木下氏
 おっしゃる通りです。我々、まずは自分たちのビジネスに使いやすいようなLLMを目指していますが、IOWNとの関係のところでもお伝えした通り、最終的にはいろいろなLLMが連携する世界を見据えています。そういう世界では、LLMの連携も考えられるのかなと思います。

島田氏
 我々はサステナビリティを追求していく必要があると思っています。これからは消費電力などの社会的な課題を解決することが重要。今回のtsuzumiについては、そうした気概を持って開発していることをご認識いただければありがたいです。