官庁通信デジタル

KANCHO TSUSHIN DIGITAL

官庁通信デジタル

BUNKYO DIGITAL
国語研が高品質日本語DBを一般公開開始 2億語規模の言語資源を研究・産業界へ(第18939号)

国立国語研究所は今年3月、『現代日本語 書き言葉均衡コーパス第2部』(BCCWJ2)の一般公開を開始した。文化庁委託事業により構築するBCCWJ2は、従来のBCCWJ1と統合することで、高品質な2億語規模の書き言葉のデータを提供するもの。言語研究に加え、生成AI開発、言語教育、辞書編纂、言語政策など、幅広い分野での活用が期待される。

コーパスとは、書籍やウェブなどで実際に使われた言葉を大量に収集、整理したデータベース。言葉の使われ方や意味の変化を客観的に調査・分析することができ、研究や産業分野で広く活用されている。

BCCWJ2は21世紀の日本語の変化を可視化していることが特徴。BCCWJ1と合わせて利用することで、2001~2025年の日本語の変化を分析できる。BCCWJ1(2011年公開)では見られなかった「スマートフォン」「ツイッター」「iPad」「LCC(ローコストキャリア)」などの用例も確認できるようになった。

また、BCCWJ2は生成AI時代以前の日本語を収録した最後のコーパスとなっている。BCCWJ2には、生成AIによる文章生成が普及する以前の書き言葉が収録されている。このため、「人によって書かれた日本語」を体系的に収録した最後の大規模コーパスと位置づけられ、高品質な日本語AI開発を支える基盤データとして、大規模言語モデルの再学習や性能 評価への活用が期待される。