ことばの波止場

Vol. 11 (2022年3月発行)

特集 : NINJAL Parsed Corpus of Modern Japanese(NPCMJ) : 書きことばの使用実態がわかるコーパス

「NINJAL Parsed Corpus of Modern Japanese(NPCMJ) : 書きことばの使用実態がわかるコーパス」プラシャント・パルデシ/吉本啓/長崎郁/アラステア・バトラー,Prashant PARDESHI, YOSHIMOTO Kei, NAGASAKI Iku, Alastair BUTLER
特集:①多様な言語資源に基づく総合的日本語研究の開拓6基幹プロジェクト
統語・意味解析コーパスの開発と言語研究(プロジェクトリーダー プラシャント・パルデシ)

統語・意味解析コーパス

言葉を文字で書きあらわそうとすると,文字が一直線にならぶだけです。ところが実際には,言語は直線ではなく階層的な構造を作っています。たとえば,「私が読む」は文字では4文字が並んでいますが,「私」は「が」と,「読」は「む」とくっついて,「私が」と「読む」という2つのまとまりを作っています。さらにその後ろに「本」をつけて「私が読む本」とすると,「私が読む」という全体に「本」がくっついていることが分かります。このような仕組みを<統語構造>といいます。構造の理解は人間の頭の中では無意識に行われるのですが,統語構造を操作する明確な規則の体系としてそれを再構成することにより,人間が言語を理解する過程を捉えることができます。「子供が本を読む。」という文は,おおよそ,次のようにカッコのまとまりごとに構造を成しています。

[[子供] が] [[[本]を]読む]

このうち,一番外側の赤カッコの部分,「子供が」と「本を読む」は,それぞれ主語(名詞句)と述語(動詞句)に相当します。

このような構造についての情報が注釈付けされた言語データを大量に集積したものが「統語・意味解析コーパス」です。本プロジェクトでは,現代語の書き言葉のデータに主語や目的語といった文法関係,名詞修飾構造,受身文,使役文,引用節,条件節などの副詞的な節といった文の統語・意味構造に関する様々な情報を注釈付けしたコーパス,NINJAL Parsed Corpus of Modern Japanese (NPCMJ)を開発してきました。

NPCMJ は,日本語のさまざまな文法現象の使用実態を調べることを可能にすること,また,注釈付けされた情報に基づく日本語のコンピュータ解析を可能にすることを目的に開発されています。

文法現象の検索が可能に

ここで,文法現象の使用実態の調査の例をひとつ挙げましょう。「太郎が花子に(間接目的語 : 間目)チョコレートを(直接目的語 : 直目)あげる」のような,2つの目的語を取る動詞の例について NPCMJ を検索してみました。

語順が「直目 間目」の場合,出現数は383,割合44%。語順が「間目 直目」の場合,出現数は490,割合56%

間目 < 直目 の語順の方がその逆よりも多く,このことは,大部分の研究者のこちらを基本語順とするという意見と一致します。ところが,動詞「伝える」だけについて調べてみると,直目< 間目 が10例なのに対し,間目 < 直目 は8例です。基本語順については,動詞の種類ごとのよりきめ細かい調査により,再検する必要がありそうです。このように文法情報を注釈付けしたコーパスの利用により,これまでに明らかにされなかった日本語の使用実態に迫ることができます。

プロジェクト終了の2022年3月時点で本コーパスは約9万文(130万語)規模に達する見込みです。データの構成も青空文庫,聖書,ブログ,書籍,国会会議録,エッセイ,フィクション,ノンフィクション,法律文,ニュース,会話,テッドトーク,辞書,教科書,ウィキペディアといった多様なジャンルからなるもので,オンライン上で複数の検索ツールとともに無償で利用することが可能です(https://npcmj.ninjal.ac.jp/)。是非試してみてください。

(プラシャント・パルデシ/国立国語研究所・教授,
吉本啓/東北大学・名誉教授,
長崎郁/名古屋大学・特任講師,
アラステア・バトラー/弘前大学・准教授)