Vol. 11 (2022年3月発行)
このプロジェクトでは奈良時代以前から明治・大正時代までの千数百年の日本語の歴史を研究することのできる通時コーパスの構築を進めてきました。『日本語歴史コーパス(CHJ)』と名付けたこのコーパスは順調に構築が進み、計画以上の規模で公開されています(図1)。
登録ユーザーは2万人以上となり、年間50万回以上検索され、CHJを使った研究が毎年100件以上発表されるようになりました。最近では海外で発表される研究も増えてきました。
「まとめて検索KOTONOHA」を使えば誰でも簡単に単語の使用頻度の歴史的な推移を見ることができ、研究者以外の人にも使っていただけるようになりました。
CHJ の利用の広がりの背景として、これまでは難しかった用例の調査が容易に迅速に行えるようになったことが挙げられます。従来、用例検索のために紙の本や索引を使って長い時間をかけて調査しなければならなかったものが、コンピュータ上でたちどころに結果を出して集計まで行うことができるようになりました。
このことは、単に調査・研究を楽にしただけでなく研究の方法・内容にも変化をもたらしました。さまざまな試行錯誤が可能になったことで、コーパスをあれこれ検索・集計する中から発見を見いだしていく新しいタイプの研究・コーパス駆動型の探索的研究が増えてきました。
資料に現れる全ての語を考慮に入れて統計的な調査が行えるようになったのも新しい点です。上の図は時代ごとに「秋」という語と結びつきの強い語を調査した結果です。コロケーション強度という指標を用いることで、千年以上も変わらずに結びつきが強い語が残る一方で、時代ごとに新しい結びつきが生まれ次代へ引き継がれていることが分かります。
このような見方は、近年注目されている自然言語処理技術を使った言語変化の研究につながるものです。今後、こうした新しい方法を導入しCHJを活用した研究が発展していくことを期待しています。
(小木曽智信/言語変化研究領域・教授)