ことばの波止場

Vol. 1 (創刊号 2017年3月発行)

特集 : 日本語の構造と意味が分かるコーパス

ROJECT 02 統語・意味解析コーパスの開発と言語研究

言葉の流れを構造に

言葉を文字で書き表わそうとすると、文字が一直線に並ぶだけです。ところが実際には、言語は直線ではなく階層的な構造を作っているというのが言語学の常識です。たとえば、「私が読む」は文字では4文字が並んでいますが、「私」は「が」と、「読」は「む」とくっついて、「私が」と「読む」という2つのまとまりを作っています。さらにその後ろに「本」をつけて「私が読む本」とすると、「私が読む」という全体に「本」がくっついていることが分かります。このような仕組みを<構造>といいます。構造の理解は人間の頭の中では無意識に行われるのですが、コンピュータにそれをさせることは至難の業です。

統語・意味解析コーパス

コーパスとは書かれた文章や話された言葉を大量かつ体系的に収集し、電子化により様々な検索ができるようにしたものです。今まで色々なコーパスが作られてきましたが、ことばの流れを直線的に捉えるだけで、構造を組み立てることはできませんでした。

もし構造の組み立てまで可能なコーパスができれば、大げさに言うと、人間の脳における言語処理に一歩近づくわけで、それにより、将来的には自動翻訳や人工知能の開発にも役立つはずです。

私のプロジェクトが取り組んでいるのは、主語や目的語の関係や、「魚が焼けるにおい」(名詞修飾)、「花子はバッグを盗まれた」(受身)、「子どもに本を読ませる」(使役)などの文構造をたちどころに表示してくれるような、高度な分析力と詳細な統語・意味情報を提供できるようなコーパスです。この種のコーパスは、日本語についても多くの諸外国語についても、まだ完成していません。このようなコーパスができれば、日本語の言語学的な分析が進むだけでなく、国語の勉強や、外国人の日本語学習にも貢献できるはずです。

文構造の解析結果

コーパスの構築と公開

このようなコーパスを構築するためには、言語学の専門的知識とコンピュータによる言語処理技術が不可欠ですが、それだけでなく、外国語について同様のコーパスを開発中の海外研究機関との協力関係が重要です。そのため、欧米の大学とも連携しながら研究を進めています。

完成は何年か先になりますが、できた部分から公開しています。

「統語・意味解析コーパスの開発と言語研究」
http://npcmj.ninjal.ac.jp/

特別なコンピュータ操作を必要としないインターフェイスを提供しています。是非、試してみてください。

ROJECT 02 統語・意味解析コーパスの開発と言語研究

特集:国語研では、いま、何を研究しているのか? 始動する「最先端基幹プロジェクト」

プラシャント・パルデシ
Prashant PARDESHI
プラシャント・パルデシ●理論・対照研究領域 教授。専門領域は言語学、言語類型論、対照言語学。神戸大学大学院人文学研究科講師、人間文化研究機構国立国語研究所准教授を経て、2011年4月から現職。