国語研の窓

第2号(2000年1月1日発行)

事業の新展開:国語研コーパスの構想

国語研コーパスの構想〈国語辞典編集室〉

1 コーパスとは

ことばの研究を高度に行うためには、質のよいデータを大量に用意する必要があります。一定の方針に沿って書きことばや話しことばを大量に集め、コンピュータを使って必要な情報を自在にとりだせるようにしたものをコーパスといいます。コーパスの作成や研究は、英語をはじめとした欧米の言語学が進んでいますが、最近は、中国語や韓国語などアジアの言語でもコーパスの作成が本格的に進められるようになっています。

日本語についても、これまで、色々なコーパスがつくられてきましたが、大規模なものは、機械翻訳や、ワープロの仮名漢字変換装置などの開発を目的とするものでした。ところが、英語などでは、ここ10年ぐらいの間に、そうした機械への応用ということではなく、英語の研究や教育、辞典の編集などのために、何十億語もの用例からなるコーパスが国家規模で組織的に作られ、広く利用されるようになってきています。おそらく21世紀のはじめには、日本語でも、コーパスが利用される範囲は、大きく広がっていくでしょう。

2 国立国語研究所のコーパス構想

国立国語研究所は、創立以来、日本人の言語生活ではどのような単語がどれぐらい使われているのかについて、大量のデータを利用した統計的な調査を重ねてきました。また、10年程前からは国語辞典編集室を設置し、日本語でこれまでに使用されてきたすべての単語を集積した大辞典を編集することを目指し、さまざまな資料から用例を採集してコンピュータに蓄積することを始めました。いずれも、個人の研究者や大学の研究室では行うことができない大きな事業です。こうして蓄積されてきている大量のデータを、一定の形式にとりそろえ、一つの集合体にとりまとめ統合して、目的に応じて自在にデータを引き出せるようにしようというのが、国立国語研究所のコーパス構想です。

国語辞典編集室で採集した用例を核として、各研究室で作成されたデータをあわせ、さらに、所外の研究者と共同で進めている研究プロジェクトで作成されたデータもとりこんで、「国語研コーパス」を作成します。こうして作られたコーパスから、企業や他機関に情報を提供し、また、反対にデータの提供を受けることで、コーパスの質を高め、規模を拡大していくことができると考えています。

国語研コーパスの構想〈国語辞典編集室〉

  国語研究所の言語コーパス整備計画KOTONOHA:http://www.ninjal.ac.jp/corpus_center/kotonoha.html

『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。