ことばの波止場

Vol. 5 (2019年3月発行)

特集 : ここまでできた!『日本語歴史コーパス』とその活用①

~通時コーパスの構築と日本語史研究の新展開~

日本語歴史コーパスの構築

「通時コーパス」プロジェクト

国立国語研究所の共同研究プロジェクト「通時コーパスの構築と日本語史研究の新展開」では、上代(奈良時代)から近代(明治・大正時代)までの日本語の歴史を研究するための“通時コーパス”を構築することを目標に、『日本語歴史コーパス』(CHJ : Corpus ofHistorical Japanese)と名付けたコーパスの整備を進めています。デジタル時代における日本語史研究の基礎資料として研究者に使われるインフラとなるように、また、広く海外の研究者や専門外の方にも使っていただけるように、インターネット上で無償で提供しています。このコーパスは全ての文章に単語の情報が付けられているのが特長で、高度な検索や集計が可能になっています。これによって、従来は、紙の本を使って行われてきた研究方法を大幅に効率化させるだけでなく、統計的な手法を含む新しい方法による研究が実現しつつあります。

2009年から前身となるプロジェクト(「通時コーパスの設計」リーダー : 近藤泰弘、田中牧郎)で準備が進められていたこともあり、構築は順調に進んでおり、2016年からの3年間で表の☑で示した資料群(サブコーパス)を整備し公開することができました。毎年2~3のサブコーパスの公開を進めており、残り3年の計画期間中に、表の全てのサブコーパスの構築・公開を行う予定です。

万葉集、仮名文学、和歌、説話・随筆、日記・紀行、軍記、狂言、キリシタン資料、洒落本、人情本、雑誌、教科書、明治初期口語資料にチェック
表 : 『日本語歴史コーパス』所収資料(2019.3)

公開済みのサブコーパス

CHJは、まだ一部の重要な資料が構築中であるものの、すでに奈良時代から明治・大正時代までの各時代をおおよそカバーできるところまでできており、多くの研究者に使われるようになってきました。すでに、次に示す作品・資料が公開されています。主として、これまでの研究で重視されてきた当時の口語を反映する資料から整備を進めていますが、今後できるだけジャンルの幅を広げていきたいと考えています。

  • 奈良時代編Ⅰ 万葉集 約10万語
  • 平安時代編 源氏物語等16作品、約100万語
  • 鎌倉時代編Ⅰ 説話・随筆 今昔物語集・徒然草等5作品、約71万語
  • 鎌倉時代編Ⅱ 日記・紀行 とはずがたり・十六夜日記等5作品、約11万語
  • 和歌集編 八代集、約26万語
  • 室町時代編Ⅰ 狂言 虎明本狂言集、約24万語
  • 室町時代編Ⅱ キリシタン資料 天草版平家物語・伊曽保物語、約14万語
  • 江戸時代編Ⅰ 洒落本 30作品(大坂・京都・江戸各10作品)、約21万語
  • 江戸時代編Ⅱ 人情本8 作品、約38万語
  • 明治・大正編Ⅰ 雑誌『明六雑誌』『東洋学芸雑誌』『国民之友』『太陽』等、約1420万語
  • 明治・大正編Ⅱ 教科書 小学校国語教科書、約70万語
  • 明治・大正編Ⅲ 明治初期口語資料 啓蒙書・安愚楽鍋等、約18万語

「中納言」による公開

CHJは国語研の他の多くのコーパスと同様に、コーパス検索アプリケーション「中納言」上で公開を行っています。登録が必要ですが利用は無料です。単語の情報を利用した検索など、現代語のコーパスと同じように利用できるようにしてありますが、歴史コーパスならではの特長もあります。

中納言で、蛙を検索した画面
『日本語歴史コーパス』中納言での検索結果表示(「蛙」の一部)

その一つが、「原文」の表示です。たとえば『万葉集』の原文は漢字だけの万葉仮名で書かれていますが、日本語の研究にとってどのような漢字によって書かれていたかはとても重要な情報です。その一方で、万葉仮名のままでは検索や集計が思うようにできません。そこで、CHJの検索結果では、漢字ひらがな混じりの本文と、万葉仮名の原文を併記する形で表示できるようになっています。キリシタン資料のローマ字で書かれた原文や、今昔物語集の漢字カタカナの原文なども同様に表示されます。

外部のサイトにリンクを付け、現代語訳や原本画像等を参照できるようにしたのも特長です。上代から鎌倉時代編までの本文は、小学館『新編日本古典文学全集』に基づいていますが、そのテキスト・現代語訳・注釈をJapanKnowledgeのサービスで参照できるようにしてあります(サービスの利用契約が必要です)。また、今昔物語集・キリシタン資料・洒落本・人情本・教科書については、インターネット上で公開されている原本の画像で当該箇所を確認することができるようになっています。

そのほか、検索結果の該当箇所が地の文なのか会話文なのか和歌なのかといった情報や発話者の情報、さらには振り仮名や洒落、掛詞などへの対応も一部で行っています。

『日本語歴史コーパス』の利用状況

「中納言」でCHJの利用を申請した登録ユーザー数は、2019年3月現在で約10,000人となっており、毎週、数十人ずつ増えています。現代語のコーパスと比べると想定されるユーザー数に限りがあるなかで、非常に多くの方に利用していただいています。

また、『日本語歴史コーパス』を活用した研究論文・研究発表の数は、こちらで把握できたものだけで、2016年に46本、2017年に48本、2018年に57本と推移しており、各時代の表記・語彙・文法など幅広い分野にわたり、毎年40件以上の研究に利用されています。専門の書籍としては2015年に刊行された『コーパスと日本語史研究』(ひつじ書房)がありましたが、今年1月には、国語(古典)教育への応用を目指した『新しい古典・言語文化の授業―コーパスを活用した実践と研究』(朝倉書店)も刊行されました。

プロジェクトのこれから

「通時コーパス」プロジェクトでは、引き続きコーパスの構築を続けるとともに、コーパスの統計情報を活用した「語誌データベース」の構築を行っていきます。また、コーパスを活用した研究発表会を開催し、その可能性を追求していきます。多くの方にコーパスを使ってもらえるように、講習会も開催します。皆様も『日本語歴史コーパス』をぜひご利用下さい。

▼日本語歴史コーパス
https://clrd.ninjal.ac.jp/chj/

NINJAL-Oxford「通時コーパス」国際シンポジウム

国語研とオックスフォード大学

2018年9月8日、9日の二日間、国立国語研究所で「NINJAL-Oxford 通時コーパス国際シンポジウム」が開催されました。

通時コーパスに基づく日本語文法研究ポスター
合同の国際シンポジウムのポスター

国立国語研究所とオックスフォード大学人文科学部は学術交流協定を結んでおり、先方の日本語研究センター長を務めたビャーケ・フレレスビッグ教授は、VSARPJプロジェクト(http://vsarpj.orinst.ox.ac.uk/)のリーダーとして、2011年より『オックスフォード上代日本語コーパス』(OCOJ)の構築を主導してきました。このコーパスは国立国語研究所の『日本語歴史コーパス』とほぼ同時期に構築作業をはじめており、二つのプロジェクトは共同しながらそれぞれのコーパスの構築と、コーパスを活用した研究を行ってきたのです。

この二日間のシンポジウムは、「通時コーパスに基づく日本語文法研究」と題して、これらの二つのコーパスを活用した研究成果を発表する機会となりました。「ノとガ、連体・終止形の合一、係り結び、疑問文」を中心テーマとして、二日間にわたり、二つの基調講演と10件の口頭発表が行われました。

国語研とオックスフォード大学は、2012年にも「通時コーパスと日本語史研究」をテーマとして国際シンポジウムを行っていますが、当時は通時コーパスの整備が十分でなかったため、コーパスの構築に関する発表や限られたコーパスを利用した研究が中心でした。それに対し、今回は、充実してきた通時コーパスを活用した研究が、共通のテーマのもとに展開され、コーパスを活用する日本語史研究者の国際的な交流の場となりました。

『オックスフォード・NINJAL上代語コーパス』

ビャーケ・フレレスビッグ教授の基調講演は、“The Oxford-NINJAL Corpusof Old Japanese”と題して、このコーパスの概要と活用事例を紹介するものでした。このコーパスは国語研との共同研究によりOCOJにさらに整備を加えたもので、今年より『オックスフォード・NINJAL 上代語コーパス』(ONCOJ)と改称して国立国語研究所から公開されています(http://oncoj.ninjal.ac.jp/)。

ONCOJ は、『万葉集』を中心とする上代日本語資料の統語情報付きのコーパスです。国語研の『日本語歴史コーパス』が上代から近代までの通時的な研究に主眼を置き、単語の情報を付与したものであるのに対して、ONCOJは上代語に特化し、単語情報だけでなく文法に関わる情報が付与されているのが特長です。今回のシンポジウムのうち3件の発表はこのコーパスを利用したものでした。

会場写真
上代語に関する研究発表

『日本語歴史コーパス』を使った研究

『日本語歴史コーパス』を活用した研究発表もたくさん行われました。大阪大学の金水敏教授(国立国語研究所客員教授)の講演は、「平安・鎌倉時代における連体形の機能変化」。12世紀~14世紀に述語の終止形が衰退し、連体形がその機能を吸収して今日に至るとされる日本語の文法史上の大きな変化について、『日本語歴史コーパス』を使って連体形述語の機能がどのように変化したかを計量的に調査した研究です。

このほかにも、上代から中世・近世にわたって、係り結び・疑問文等に関する7件の研究発表が行われ、活発に議論が交わされました。

通時コーパスが充実してきたことで、今後コーパスを活用した日本語の歴史研究がますます盛んになることが期待されます。

(言語変化研究領域・教授/ 小木曽智信)