ことばの波止場

Vol. 3 (2018年3月発行)

鼎談 : プロジェクトリーダーが語る 日本語の個性 ②

プロジェクトリーダーが語る 日本語の個性(2)

−先生方に共通する研究として、 「コーパスの開発」がありますが、そもそもコーパスとはなんでしょうか。

小木曽簡単に言えば、実際に使われた言葉のデータをたくさん集めて、コンピュータで検索したりできるように蓄えて、かつ、特に言語研究のために必要な情報を付けたデータというふうに捉えておけばいいのかなと思います。要するに、たくさんの実際に使われた言葉が入っているデータベースです。

― 開発しているコーパスにはそれぞれ違う部分があると思います。担当しているプロジェクトの内容も兼ねて教えてください。

小木曽私は『日本語歴史コーパス』(https://clrd.ninjal.ac.jp/chj/)という名前の「通時コーパス」と呼ばれるものを作っています。古い時代から今までずっと時間を通して、時間の流れに沿って言葉を調べられるコーパスで、これを使えば、日本語の歴史が分かるといえるようなものを作りたいと思っています。万葉集の時代、奈良時代以前から大体近代、明治、大正ぐらいまでを対象として今コーパス化しています。

日本語の歴史は千年以上たどることができるので、千数百年分のいろんな時代のいろんな種類のテキストをコーパスにする、そういう仕事です。プロジェクトとしては、それを作るだけではなく、作ったものを使って、今までできなかったような研究を行うことも目的としています。

小磯花絵

小磯私のほうは、日常生活の中で私たちがどういう言葉を使っているのかという、話し言葉を調べるプロジェクトです。家族と何かしゃべったり、仕事の場面で使う言葉であったり、同僚と昼食を食べたり、あるいは飲みに行ったり、友だちと会ったりとか、いろんな場面の日常の中で交わされる会話を収録します。

書き言葉と違うのは、収録をし、それを文字に書き起こして、整理をして公開をしていくという点です。一般の方に調査協力をお願いして、収録機材を2、3カ月所有してもらい、一人の人にいろんな場面の会話を録ってもらっています。それを40人の方にお願いして、全体で200時間の会話のコーパスを作ろうとしています。例えば、自分のお母さんとしゃべるときと、旦那さんのお母さんとしゃべるときとでは話し方が違う人もいます。そういうふうに、場面や相手によって、どういうふうに話し方が異なってくるかというようなことを研究することができます。

それ以外にも、50〜60年前に、国語研が中心となって、井戸端会議やお魚屋さんなど、いろいろなところに行って録った話し言葉の音声データがあって、それと比べながら、50年ぐらいのスパンでどういうふうに話し言葉が変わってきたのかということも見ようとしています。

プラシャント「統語・意味コーパス」プロジェクトでは、新聞、聖書、教科書など種類はさまざまですが、現代語の書き言葉を対象にしています。統語的な構造(注:8ページの図をごらんください)を付けていって、言語の構造の研究ができるようなコーパスを作ろうとしています。

アメリカのホワイトハウスで報道官が、記者の歩きスマホを注意したんです。その記者はずっとポケモンをやっていて真面目に話を聞いてない。最後に皮肉ったジョークで、「Did you get one? (あなたは一匹捕まえたのか?)」と言うんです。その日本語の字幕は「捕まったの?」。動詞しか出てきてないんですね。「あなたが」「ポケモンを」という二つの項は隠れているけれど、潜在的にはそこにあります。

日本語のデータを英語で翻訳するときには、このような省略の問題が出てきます。だから省略されているものがわかるように、構造のついたコーパスを作ろうとしています。

それから、普通は、統語論の研究はほとんど内省で、都合のいい例文を作って行っているわけですが、そうではなくて、実際に使われている言語に基づいて統語の研究もやるべきだというふうに思っています。

小木曽、プラシャント

― 先生方のコーパスが、言語の研究、あるいは、一般社会において、どのように役立つかについて、ぜひ教えてください。

小木曽われわれは日本語の研究者なので、まずは言葉を研究するためにコーパスを作っているのですが、特に歴史コーパスということになってきますと、過去千年以上伝えられてきた貴重な資料を、「今の技術で使いやすい形にしていく」ということをしていることになると思うんですね。

特にもう千年以上前の言葉ともなれば、われわれ日本人、日本語をしゃべるものたちにとってすごい財産であり、宝物だと思うんです。ただし、その財産や宝物を箱に入れてとっておいてもその価値は気付かれなくなってしまうわけで、その時代、その時代で使えるように光を当てていくということは、大事なことだと思います。

今の時代、紙の本で読みましょうというだけではもうなくなっています。コンピュータを使って自由自在に調べられるようなものを作っていくというのは、ただ言語研究者だけではなくて、日本語を話すわれわれみんなにとって、おそらく価値のあるものになるんじゃないでしょうか。一種の文化財というか、それをただ保存しておくというのではなくて、使えるようにしていくという、そういう価値があるのではないかと。

そういう社会にとっての価値という意味でいうと、国語教育の中では中学生や高校生は古文を習いますが、そういう授業で、今までのやり方とはちょっと違う、情報教材として古典教育などに生かすということも、このコーパスの役割として考えられて、実際にそんな研究もプロジェクトの中で進めています。まずは、中学・高校の先生方にコーパスを利用してもらうことからはじめたいと思います。

小磯今回のデータは、映像も一緒に集めているので、私たちがどういう生活をしていて、そこの中でどういう言葉を使っているのかという、その文化を伝えていくことにつながります。何十年かたつと、やっぱり生活も変わり、それで使っている言葉も変わっていく。そういう記録をずっと残していくというのは、私たちがどういう文化の中で育っているのかということを伝える、貴重な資料になるだろうなと思います。

教育という面で言うと、生活の中で、どういう文脈の中でどういう言葉を使うのかということが非常に重要になってきます。例えば、日本語を学習する人の多くが、「ドラマを見るとすごく勉強になる」と言うのは、いろんなシチュエーションで、どういう言葉を使っているかというのが分かるからだと思います。また、最近AI(人工知能)スピーカーとか、介護ロボットとか、家庭の中にどんどんAIのものが入ってきています。それらと会話をしていくことが必要になったときに、技術をきちんと確立していくためには、家庭の場面でどういう話し言葉を使っているのかということが、とても重要になってくるんですね。

プラシャント・パルデシ

プラシャント日本語は他の言語とどう違っているんだろうか、どこが似ているんだろうかということを調べるのに役に立ちます。非常に簡単な日本語で、例えば、「太るお菓子」と言ったら、お菓子が太るわけではないということはみんな分かっているんですよね。この文は、英語で翻訳するときに大変苦労すると思います。だけど、「おいしいお菓子」というのは簡単に翻訳できるし、「昨日買ったお菓子」は簡単に翻訳できる。だけど、「太るお菓子」は難しいねと。同じお菓子が右側に来て、前に修飾語が付いていて、だけど構造が違っているということは、どこか教育の過程で学ぶ必要がある。そういうときに私のコーパスは役に立つのかなと思います。

― データを集めて、それに情報を与えていくという作業は、とても大変そうですが。

小磯日々大変です。

プラシャント完成したコーパスしか見えていないのですが、その裏にはものすごく苦労する場面があります。大学院生などがアノテーション作業を一生懸命に行っています。データは多種多様で、そのときそのときにいろいろ判断しないといけない。

小木曽本には書いた人などの権利がありますので、その内容をコーパスにするときには、許諾をいただいて使うということが必要になるのが大変です。

それから、特に江戸時代から明治のものについては、当時出版されたままの資料をコーパスにしています。明治のころの本は、活字であっても今のわれわれには非常に読みづらいというようなこともあります。江戸時代ですと、いわゆる続け字の変体仮名を含むくずし字で書かれていますので、まず解読して普通の文字に起こしてデータにしていくという作業になります。そうやって普通に読めるテキストのデータができた後に、それぞれに単語の情報を付けるところまでやっています。

全部のテキストに単語の切れ目を入れて、それぞれがどんな品詞でどんな読みでという、形態論情報と呼ぶものを付けます。それには形態素解析というコンピュータを使った言語処理の技術を使うのですが、古い時代のテキスト用の辞書は存在しないので、自分たちで作って、技術開発も行ってなんとかしなければなりません。そして、機械が処理をしたデータに人で直すという処理を加えて、最終的になんとか使える形になったものを公開するということをしています。大変です。

プラシャント機械が7割正しいとき、3割は人間が直さないといけない。一つ一つセンテンスごとに見ていって修正して、また機械にそれを学習させる作業をやらないといけないので、やっぱりアノテーション現場で行っている作業は、非常に大変です。

小磯音をとったものを聞いて、「何を言っているのか」を考えること自体が、解釈することなんです。みんながきれいに発音して明確な文章を発話していれば、そこには解釈は入らないかもしれませんが、普段の話し言葉では、音のレベルで言い間違えたり曖昧な話し方とかするので、それをどういうふうに書いていくのかというのも本当に解釈になるので、まず文字にするというところからして、実は研究なんですね。

それに加えて、単語に区切って品詞を付ける、そこまでは書き言葉のコーパスでもするんですが、音声の研究をやろうとすると、イントネーションも必要です。ここは上昇調のイントネーションだよとか。あるいは、「なんとかでー」「なんとかするとー」というように若者は上昇下降の音調を使うと言われますが、実際には、年配の方もかなり使うので、そういう音調を付けたりとか。

また、一部のデータには、今のフレーズが質問で、これはそれに対する応答であるとか、一部のデータには、そういう「行為」の情報を付けます。また、文節間の係り受けの関係などいろんなアノテーションが考えられます。どれも一個一個非常に大変です。ただ、そういうふうにいろいろなアノテーションがあると、例えば統語と韻律の関係をみるなど、様々な観点から研究することができるので、一部のデータには、いろんな情報を付けてます。

小木曽ちなみに、「アノテーション」という言葉は、われわれはよく使います。本文となるデータの上にいろんな情報を重ねて付けていくというものです。単語の情報もあれば、統語情報、文法的な情報もあれば、いろんなイントネーション、韻律の情報とか、そういうものを重ねて付けていきます。そういう「アノテーション」を付けたものをコーパスとして公開していくことになります。

― 「アノテーション」の難しさをもう少し聞かせてください。

プラシャント言語には様々な現象があります。それを全てアノテーションしているわけではありません。それをやると、たぶんわれわれの人生では終わらない。たぶん次の人の人生でも終わらないと思う。アノテーション作業は客観的かつ一貫性を保ちながら行わないといけない作業であり、かなり時間かかるということをみんなに理解していただきたいなというふうに思います。

小木曽コーパスに対するアノテーションというのは、大学院ぐらいまで行って日本語学、言語学の研究をしてきた人でないとできないことが多い。

プラシャント人同士で意見が違ったりすることもあります。そのときには、みんなで議論をして一貫性を保ちながら客観的にやる。一貫性をもってやるというのが非常に大変な作業です。

小磯アノテーションをするために基準を作るんですよね。その基準を作るというのは、ほとんど研究なんですよ。実は研究なので、結構みんな苦労してる。けど、ある意味楽しいところでも、もちろんあります。

−コーパスを作って、それを使って研究するだけではなく、作る過程で研究が生まれているんですね。

聞き手●折田知之さん(東京外国語大学大学院生)

特集 日本語の個性 ② PROJECT LEADER 鼎談

特集 : 日本語の個性②

小磯花絵
KOISO Hanae
こいそ はなえ●音声言語研究領域 准教授。専門は認知科学、言語学、日本語学。国立国語研究所理論・構造研究系准教授などを経て、2016年4月から現職。

プラシャント・パルデシ
Prashant PARDESHI
理論・対照研究領域教授・研究情報発信センター長。専門は言語学・英語学。 国立国語研究所言語対照研究系教授などを経て2016年4月から現職。

小木曽智信
OGISO Toshinobu
おぎそ としのぶ●言語変化研究領域教授。専門は日本語学、自然言語処理。明海大学講師、国立国語研究所准教授などを経て、2017年4月から現職。