ニュース

NTT、LLM「tsuzumi 2 Vision」にアップデート 世界トップクラスの図表入り日本語文書読解性能

 NTTは、大規模言語モデル(LLM)「tsuzumi 2」のアップデート版として、図や表が含まれる日本語ビジネス文書の読み取りに特化した「tsuzumi 2 Vision」を発表した。

 機密情報を含む日本のビジネス文書には、帳票や会議資料などに図や表が複雑に混在しているケースが多い。従来のテキスト専用モデルでは、これらの電子化や内容のデータベース化において、目視確認などの手間が課題となっていた。

 この課題を解決するため、高い日本語処理能力を持つ「tsuzumi 2」をベースに、独自開発した文字や図表を理解するアダプタを組み合わせ、視覚情報を直接処理できるVisionモデルが開発された。

 「tsuzumi 2 Vision」は、従来通り1基のGPU(40GBメモリ)で動作する軽量モデルでありながら、オンプレミスやプライベートクラウド環境での構築に対応。社外へデータを送信できない機密情報を扱う業務のデジタルトランスフォーメーションに最適化されている。

 同モデルは、社内スライド資料のレイアウトを認識してタグ付けする索引付与や、フローチャート画像を読み取って現在の状況から適切な対応策を回答する業務問い合わせ支援などが可能となる。さらに、源泉徴収票からの正確な金額抽出や、チェックボックスが含まれる問診票の意図を理解した表形式への出力にも対応する。

索引付与
業務フローの理解
登録データと証憑書類の照合
源泉徴収票の読み取り
問診票の読み取り

 さらに社内ベンチマークテストでは、図表入りドキュメントやスライド、グラフの理解度において、OpenAIのGPT-5など数倍のパラメータ数を持つ大型グローバルモデルに匹敵、あるいは上回る高い日本語処理能力を記録した。

 Visionモデルの追加に合わせて、テキスト専用モデルのアップデートも実施された。金額や性能値といった数値情報の理解および計算能力が向上したほか、APIやドキュメントを参照して外部ツールを呼び出す機能など、論理的な理解力が強化されている。

 NTTは、引き続き研究開発を進めるほか、グループ各社を通じて新モデルを順次サービス提供していく。