ことばの波止場

Vol. 3 (2018年3月発行)

特集 : 日本語の構造を探る

PROJECT 統語・意味解析コーパスの開発と言語研究 日本語の構造を探る

言葉の規則

私たち人間が日常物事を考え,互いにコミュニケーションを行うにあたって,言葉は欠くことのできない手段です。人間は幼児期から周囲で話される言葉を自然に覚え,それがその人の母語となります。これに対して,日本人が英語などの外国語を習い,また外国人が日本語を学ぶときには,「文法」と呼ばれる言葉の規則とともに学習する必要があります。

言葉を自然に習得し使用しているときには文法は意識されず,見えないところで働いているのですが,外国語として学ぶ際には表面に出て来ることになります。現代ではコンピュータによる言語情報処理が実用化されようとしていますが,そのように機械に言葉を「教える」ためにも文法が必要です。

文の構造とコーパス

私たちは学校で主語や述語,また関係代名詞を伴う文による名詞の修飾などを習いますが,これらの文法知識に共通していて,それらを支えているのが,文 (センテンス)を構成している単語やその集まりである句が互いに修飾したり修飾されたりする関係を持っている,という事実です。このことは,「文は構造を持つ」と言い換えることができます。文の構造に関する規則が文法に他なりません。このように構造を持つ文を話してコミュニケーションを行うことは,質的にも量的にも限界のある脳を使って周囲のありとあらゆる事柄を表現するために人間が進化の過程で身に付けた能力です。

例えば,「山の緑が美しく見える。」という文は,おおよそ,

[[[[山] の] 緑] が] [[美しく] 見える]

のように緑のカッコのまとまりごとに構造をなしています。このうち,一番外側のボールド体で示すかっこの部分,「山の緑が」と「美しく見える」は,それぞれ主語と述語に相当します。このような構造付けされた言語データを集積することで,簡単に言えば「文は主語と述語からなる」というような文法規則を抽出することができます。また逆に,そのような規則をコンピュータに与えて,主語と述語からなる文を作らせることもできるようになります。

元々人工知能の研究によって生まれた概念に「句構造」というものがあり,近年になってこれを文構造の表示に利用した様々な研究が行われてきました。句構造を使えば文の意味が正しく扱われることが知られています。

新聞記事や小説などのテクストに文法情報を注釈として付加した言語データベースはコーパスと呼ばれ,多様な言語研究に利用されています。句構造をテクスト中の文に付加したコーパスは,文法規則や文型が現実にどのように使われているかを解明するための強力な手段であり,英語をはじめとする世界の主要言語について整備が進められています。しかし,日本語についてはそのようなコーパスはこれまでに存在しませんでした。

私たちのプロジェクトで開発しているコーパスは,文の句構造に関する情報を持つ初の日本語コーパスであり,意味表示機能も兼ね備えています。これによって日本語の文法研究のための革新的なツールを提供することができます。また,外国人に対する日本語教育やコンピュータによる日本語情報処理にも貢献することができます。

私たちのコーパスで提供されている,上で引用した文の文法解析情報を「木構造」の形式で掲載しておきます。

コーパスの構築と利用

このようなコーパスの開発のためには,日本語文法の研究者だけでなく,コーパス言語学や言語情報処理など,様々な分野の研究者が知見を持ち寄って共同研究を行う必要があります。そのために国内の大学等の研究者と共同研究体制を作ると同時に,海外の研究機関との連携・協力を進めています。また,日本語文法の研究だけでなく,外国人に対する日本語教育や言語情報処理へのコーパスの応用も今後積極的に進めていきます。すでにできている部分については,以下のサイトで公開しているので,ぜひ試してみて下さい。

http://npcmj.ninjal.ac.jp/

PROJECT 統語・意味解析コーパスの開発と言語研究

特集 : 日本語の個性②

プラシャント・パルデシ
Prashant PARDESHI
●教授/専門は言語学,言語類型論,対照言語学。神戸大学大学院文化学研究科博士課程修了,博士(学術)。2009年に本研究所着任。国立国語研究所第1回所長賞,第12回特別所長賞受賞。