国立研究開発法人情報通信研究機構(NICT、理事長: 徳田 英幸)は、KDDI株式会社(KDDI)と大規模言語モデル(LLM)に関する共同研究を開始します。この共同研究では、NICTがこれまでに蓄積してきた600億件以上のWebページ等と、KDDIが開発してきたハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現するための研究開発を実施します。LLMの課題となっているハルシネーションの抑制や、多様なマルチモーダルデータの取扱いが可能な高性能なLLMを用いることで、特定の目的の対話を行うシステムや雑談を行うシステムの信頼性を向上させ、マルチモーダルデータを扱えるようにすることで、システムとのやり取りをより豊かにすることを目指します。
背景
NICTでは、2023年からLLMに関する研究開発を本格化させ、2023年7月にLLMの試作について報道発表をしました。NICTがこれまでに蓄積してきた600億件以上のWebページを活用し、LLMの事前学習に用いるデータの整備と並行して、130億パラメータから日本語特化型では世界最大規模となる3,110億パラメータまで1年余りで合計17個のLLMの事前学習を完了させてきました。政府では、我が国におけるAI開発力強化のため、学習用言語データの整備・拡充を目指しており、総務省・NICTにおいて、令和5年度補正予算を活用し、これらのWebページのデータやそこから作成した学習用データ等を民間企業、国研、大学等と共同研究等を通して活用いただく上での法的課題について整理した上で、共同研究を実施するための準備を進めてきました。
共同研究の概要
この度、共同研究を実施するための準備が整い、KDDIと共同研究を開始する運びとなりました。この共同研究では、NICTが長年蓄積してきた膨大なWebデータやそこから作成したLLMの事前学習用データ等をKDDIと共有し、共同研究を進めます。これらのデータ等と、KDDIのハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現することを目指します。具体的には、LLMで課題となっているハルシネーションを抑制する技術を対象とするLLMの傾向に合わせて高度化する技術を研究開発するとともに、テキストに加えて日本の地理空間情報などのマルチモーダルデータをLLMで取り扱う技術を研究開発します。これらの技術により、例えば、特定の目的のための対話システムや雑談システムにおいて、ハルシネーションが抑制されることでシステムの信頼性が向上し、対話における対象の位置関係の把握がより適切に行えるようになります。
今後の展望
今後、より多くの機関にNICTが有する膨大なWebデータ等を活用いただき、日本におけるLLMの研究開発力の向上に貢献していきます。
各機関の役割分担
- NICT: LLMのための学習データの開発、LLMの事前学習の実施及びその評価
- KDDI: ハルシネーション抑制技術及びマルチモーダルAI技術の高度化・評価
関連する過去のNICTの報道発表
- 2023年7月4日 「日本語に特化した大規模言語モデル(生成AI)を試作」
https://www.nict.go.jp/press/2023/07/04-1.html