Vol. 3 (2018年3月発行)
日本語研究に本格的にコーパスが使われるようになって十数年ほどたちました。若い研究者を中心にコーパスの利用が広がってきており、コーパスを利用した研究も数多く公開されています。しかしまだ、コーパスはハードルが高いと感じている方もいるようです。そのような場合は、まず自分の興味のあることを確かめるような使い方から入ることをお勧めします。とくに、日本語史はもともと文献資料に基づく研究分野ですから、コーパスとの相性は非常によいと言えます。また、検索用のツール「中納言」を使えば、プログラミング等の必要がないため、比較的直感的に知りたい結果を得ることができます。
(http://chunagon.ninjal.ac.jp)
日本語の語彙には、大きく分けて、和語、漢語、外来語という3つの語のグループがあります。これらはそれぞれ、大和言葉、(古代)中国語、西洋語(主として英語)、に対応しており、表記の面からも容易に区別できるものが多くあります。このような語の違いのことを語種と言い、日本語研究の多くの場面で利用されています。漢語は、もともとは「外来語」なのですが、取り入れられてからの年月が長く、語数も多いことから、和語と並ぶ一つの大きなグループを構成しています。その漢語がどのようにして日本語語彙の中で勢力を伸ばしていったか、コーパスを使って調べてみましょう。
下の図(図1)は、「日本語歴史コーパス」を使って、時代別に名詞における語種の割合の変化を示したものです。割合は延べ語数で算出しています。
「日本語歴史コーパス」には、2018年1月時点で奈良時代から明治・大正時代にいたる34作品、約1456万語(句読点などを除く)が収められています。図1からは室町期(資料としては「虎明本狂言集」)から漢語が増え始め、それと反比例して和語が少なくなっていることが分かります。なお、外来語は、明治・大正時代には約1.1%ですが、現代では、約8.8%に増えています(「現代日本語書き言葉均衡コーパス」による)。
次に、平安時代の随筆「枕草子」の有名な一節「春はあけぼの」を取り上げます。現代語でも容易に意味が通じるこの文は、「AはBだ。」という単純な構造であり、コピュラ文と呼ばれます。コピュラ文にもいくつかのタイプがありますが、上記のようなコピュラ文がいつごろからどれくらい使われていたのかを中納言で調べてみます。以下の表に結果を示します。これは、中納言で、「名詞+は+名詞+。」と「名詞+は+名詞+なり+。」という2つの検索を行い、その結果を足し合わせたものに基づいた表です。多くの古典の本文には句読点は存在しませんが、「日本語歴史コーパス」では、『新編日本古典文学全集』(小学館)などの校訂本文に拠って句読点を施しているため、この情報を利用します。
時代 | 作品名 | ジャンル | 用例数 |
---|---|---|---|
平安 | 落窪物語 | 作り物語 | 1 |
平安 | 枕草子 | 随筆 | 12 |
平安 | 源氏物語 | 作り物語 | 4 |
平安 | 紫式部日記 | 日記 | 3 |
平安 | 大鏡 | 歴史物語 | 1 |
平安 | 讃岐典侍日記 | 日記 | 1 |
鎌倉 | 今昔物語集 | 説話 | 8 |
鎌倉 | 宇治拾遺物語 | 説話 | 3 |
鎌倉 | 十訓抄 | 説話 | 1 |
鎌倉 | 徒然草 | 随筆 | 3 |
鎌倉 | とはずがたり | 日記 | 2 |
明治・大正 | 国民之友 | 非文芸 | 7 |
明治・大正 | 女学雑誌 | 文芸・非文芸 | 16 |
明治・大正 | 太陽 | 文芸・非文芸 | 165 |
明治・大正 | 女学世界 | 非文芸 | 6 |
明治・大正 | 婦人倶楽部 | 非文芸 | 1 |
合計 234 |
表からコピュラ文が意外に少ないという印象を受けます。平安時代の作品では「枕草子」が12例といちばん多くなっています。「枕草子」の7倍近い言語量がある「源氏物語」では4例と少ないこと、また、「源氏物語」と同じ作者による、「紫式部日記」では3例使われていることを考え合わせると、このタイプのコピュラ文は作り物語よりも随筆や日記になじむ文体的な特徴があったのではないかとも想像されます。
気になったことをすぐに調べられるのもコーパスの利点です。試しにいろいろな検索を試みてください。
山崎誠
YAMAZAKI Makoto
やまざき まこと●教授/専門は計量日本語学。東京学芸大学大学院修了、博士(学術)。1984年に本研究所着任。著書に『テキストにおける語彙的結束性の計量的研究』。言語処理学会第12回大会優秀発表賞受賞。