ことばの波止場

Vol. 11 (2022年3月発行)

特集 : コーパスで日本語の歴史を一望する

「コーパスで日本語の歴史を一望する」小木曽智信(OGISO Toshinobu)
特集:①多様な言語資源に基づく総合的日本語研究の開拓6基幹プロジェクト
通時コーパスの構築と日本語史研究の新展開(プロジェクトリーダー 小木曽智信)

日本語歴史コーパス

このプロジェクトでは奈良時代以前から明治・大正時代までの千数百年の日本語の歴史を研究することのできる通時コーパスの構築を進めてきました。『日本語歴史コーパス(CHJ)』と名付けたこのコーパスは順調に構築が進み、計画以上の規模で公開されています(図1)。

『日本語歴史コーパス』の収録資料と語数表 : 奈良時代の収録資料は、万葉集(9.8万語) 、宣命(1.8万語) 、祝詞(0.9万語)。平安時代の収録資料は、仮名⽂学(85.7万語) 、訓点資料(0.9万語) 。平安から鎌倉時代にかけての収録資料は、和歌集、和歌集(26.2万語)。鎌倉時代の収録資料は、説話・随筆 (71.3万語) 、⽇記・紀⾏ (11.0万語) 、軍記 (28.1万語) 。室町時代の収録資料は、狂⾔(23.5万語) 、キリシタン資料(12.3万語)。江⼾時代の収録資料は、洒落本(20.4万語) 、⼈情本(37.3万語) 、近松浄瑠璃(23.1万語)、随筆・紀行(1.4万語)。明治・⼤正の収録資料は、雑誌(1274.8万語) 、教科書(70.9万語) 、明治初期⼝語資料(20.1万語)、近代小説(69.7万語) 、新聞(38.6万語) 、落語SP盤(9.3万語)
図1 : 日本語歴史コーパス 収録資料と語数

登録ユーザーは2万人以上となり、年間50万回以上検索され、CHJを使った研究が毎年100件以上発表されるようになりました。最近では海外で発表される研究も増えてきました。
「まとめて検索KOTONOHA」を使えば誰でも簡単に単語の使用頻度の歴史的な推移を見ることができ、研究者以外の人にも使っていただけるようになりました。

コーパスが可能にしたこと

CHJ の利用の広がりの背景として、これまでは難しかった用例の調査が容易に迅速に行えるようになったことが挙げられます。従来、用例検索のために紙の本や索引を使って長い時間をかけて調査しなければならなかったものが、コンピュータ上でたちどころに結果を出して集計まで行うことができるようになりました。

このことは、単に調査・研究を楽にしただけでなく研究の方法・内容にも変化をもたらしました。さまざまな試行錯誤が可能になったことで、コーパスをあれこれ検索・集計する中から発見を見いだしていく新しいタイプの研究・コーパス駆動型の探索的研究が増えてきました。

日本語歴史コーパスによる、「秋」のコロケーションの歴史的推移(万葉、平安、江戸、明治大正)、順位18位までを表示
図2 : 「秋」のコロケーションの歴史的推移

統計的な見方の導入

資料に現れる全ての語を考慮に入れて統計的な調査が行えるようになったのも新しい点です。上の図は時代ごとに「秋」という語と結びつきの強い語を調査した結果です。コロケーション強度という指標を用いることで、千年以上も変わらずに結びつきが強い語が残る一方で、時代ごとに新しい結びつきが生まれ次代へ引き継がれていることが分かります。

このような見方は、近年注目されている自然言語処理技術を使った言語変化の研究につながるものです。今後、こうした新しい方法を導入しCHJを活用した研究が発展していくことを期待しています。

(小木曽智信/言語変化研究領域・教授)