文教速報デジタル版

BUNKYO DIGITAL

文教速報デジタル版

BUNKYO DIGITAL
視覚情報で理解する「視覚読解技術」を開発 文章だけでなく図表も理解 NTT

日本電信電話株式会社(NTT)は、大規模言語モデル(LLM)によって文書を視覚情報も含めて理解する「視覚読解技術」を実現した。人工知能(AI)の実現への可能性を示唆する結果が得られており、デジタルトランスフォーメーション(DX)におけるコア技術として期待されている。

実世界の文書を読解し理解する技術の実現は、AI 分野における重要課題の1つ。一方で、LLM を始めとする現在の AI は、人間の読解能力を超えるなど大きく発展してきた。だが、文書中の文字情報しか理解できない限界があった。これに対して視覚情報から理解する視覚読解技術を提唱し、この実現を目指して研究開発を進めている。

研究では汎用な言語理解・生成能力を持つ LLM をベースとして、任意のタスク用の学習をしなくても応答できる視覚読解モデルで実現することを目指した。テキスト情報しか理解できない LLM に対し、どのように文書画像に含まれる図表などの視覚情報をLLMに理解させるかが、研究で解決を目指した課題であった。

試行錯誤の結果、視覚的に内容を理解する新たな視覚読解技術を世界に先駆けて開発することに成功した。新たなアダプタと多様な指示遂行データセットの構築により、任意の課題を追加学習なしで遂行できるようになったという。

研究グループは「作業自動化をはじめ、人と協働し価値を生み出す AI の実現に向けて技術確立を目指す」とコメントしている。