国立研究開発法人情報通信研究機構(以下、NICT)と東芝デジタルソリューションズ株式会社(以下、TDSL)は、2025年4月1日、大規模言語モデル(LLM:Large Language Model)を用いた検索拡張生成(RAG:Retrieval-Augmented Generation)の品質向上に関する共同研究(以下、本研究)を開始しました。本研究では、NICTがこれまでに整備した大量の言語データの学習により開発してきた日本語特化型のLLMや検索ツールを活用し、より正確で有益な情報を得るための生成AI周辺技術の高度化を目的とします。これにより、組織内に蓄積された大量の文書を活用した知識継承や業務効率化の実現を目指します。
これまで、NICTは、過去15年に亘って日本語を中心に収集した660億ページのWebデータからLLMの事前学習に用いる大規模で高品質な日本語データを整備し、130億パラメータから3,110億パラメータまで、パラメータ数や学習データ量の異なる様々なNICT独自のLLMを試作しています。合わせて、総務省とも連携し、NICTで収集・開発したWebデータや日本語学習データ、NICT LLMの民間企業、国研等への提供を、共同研究の枠組みの元で開始してきました。さらには、大規模なWeb情報を対象とした検索ベースの質問応答システムWISDOM Xなどの開発済みのツールを活用し、LLMが生成するテキストの根拠をWebから発見する「裏取り」システムも開発中です。
一方、TDSLは、社内業務の効率化や、エネルギー、社会インフラ、製造、ITサービス等の東芝グループの事業分野へのLLMなどの生成AI技術の活用を進めています(*)。これらの事業分野では、少子高齢化による労働力不足や熟練者の後継者不足が深刻な課題となっており、生成AI技術を活用した知識継承や業務効率化がその解決策として期待されています。
LLMは、事前に学習した膨大なデータに基づいて、様々な公知の専門知識も含めた回答が可能です。しかし、最新の情報や一般には入手できない組織内にしかない情報に基づく回答は困難です。これを補うために、組織内に蓄積される文書等のデータベースから情報を検索し、その情報を基に正確な応答を生成するRAGへの期待が高まっています。RAGを活用した技術の研究開発はまだ発展途上の段階にあり、回答品質を向上させるための取り組みが必要です。
本研究では、大量の日本語データで学習されたNICTの日本語特化型LLMや検索ツールを活用し、東芝グループが保有する自社の製品・サービスに関わる設計、製造、保守等の長年にわたる膨大なデータを利用して、RAGの高精度化技術を研究開発し、業務効率化や知識継承に活用できる生成AI技術の確立を目指します。