ことばの波止場

Vol. 3 (2018年3月発行)

研究者紹介 : 前川喜久雄

コーパス整備の転換点にちょうど私がいたんです

― 音声学に長年関わっていらっしゃる印象があります。

学部の卒論から40年近く,音声学をやっています。400本近い論文を書きましたが,その9割弱は音声に絡んでいます。また,1999年に言語資源の設計や構築の仕事を国語研の仕事として任されました。言語資源とは,CSJ(日本語話し言葉コーパス,東京工業大学・情報通信研究機構との共同研究)やBCCWJ(現代日本語書き言葉均衡コーパス)と呼ばれるものですが,コーパスの構築を2016年まで続けました。

― 今一番興味をもっているご研究は?

言語資源,つまり,バランスの取れた大量のデータであるコーパスを使った自発音声の研究をするというのが,一番の興味の対象です。

音声研究は実験をかなり重視します。ただ,実験は仮説があって初めて成り立ちます。ということは,仮説に関係する部分だけを見るわけです。つまり,実験というのは,狙っている対象をコントロールしなければなりません。

ところが,話し言葉の中には,コントロールできない大事なコミュニケーション情報が山ほどあります。子音とか母音だったら,文字に書いて読んでくださいといえば大体そのとおりになりますが,イントネーション,口調や感情はそういうわけにはいきません。また,言い間違いを研究しようとして,「こう言い間違えて」と言うと,それは言い間違いではないわけです。

それらを研究するには,話しているデータを集めることが必要で,ものすごくデータの散らばりが大きいから,それを大量に集めなければいけないんです。大規模なデータがいったんできれば,実験では見つからない部分を,信頼性を持って分析することが可能になります。

― 自発音声の音声を解明するためにコーパスを作ったのでしょうか。

いや,実験を重視した研究に疑問を持ちはじめたのはアメリカから帰った後の1995年の頃です。この頃からパラ言語情報(イントネーションやリズムなど)を研究しはじめて,そのあとに偶然にも,99年からCSJをつくることになりました。CSJはもともとは音声認識のためのコーパスだったのですが,言語学の研究にも使えるように,いろいろ情報を付与して作ったんです。

あまり知られていませんが,国語研究所は,世界的にも古く1950年代からきちんとサンプリングされたデータを作っていました。ただそれは,今流に言う言語資源ではありません。作っただけではなく公開し誰でも使えるようにならなければ言語資源とはいえません。その第1号がいわばCSJで,その後関わったBCCWJもそうですが,そのあとは大体作ったものを公開する流れになってますよね。

― 言語系の学会では,コーパスの研究が多くなりました。流れの大本に,先生が関わっていたんですね。

誰かがやらなきゃいけないので。ただ,CSJとBCCWJは,少し性格が違うんです。BCCWJは,外国にはきちんとしたコーパスがあるんだけど,日本にないから作らなければ,という考えで進めました。CSJはそれとは違います。世界で誰もやったことのないことをしようと思って作りました。

今は,皆さんが使っているスマホを通じてGoogle などが桁違いの音声データを集めていて,音声認識用のためにデータを集めるという考えはなくなりました。例えば,スマホで認識しようとして間違っていたら,正解が出るまで話し続けますよね。どれが正解かをシステムに伝えているわけです。

ただ,それは音声認識のためのデータであって,話し言葉についてきちんとした付加情報,つまりアノテーションが付いているものはなく,CSJがいまだに世界で一番大きいんです。情報検索に使えるアノテーションの質が高く量が圧倒的に多いんです。CSJ のユーザは工学系の人たちで,彼らはいくらでも好きなように利用しています。

BCCWJは,機械翻訳の人も使いますが文系の人が多いようです。5〜600本は論文が出てると思いますが,分析が物足りない感じがします。その辺りは学会の課題だろうと思います。

言語資源がある程度できてきましたし,統計技術の理論も非常に進歩してきたので,ようやく言語学の面,統計学の面の双方からみて,いい時期になってる感じがします。次の世代に,新しいブレイクスルーをつくる人が出てくるんじゃないかという気がします。

そのためにこの研究所が役目を果たせるといいと思います。天才を生むことはできないけど,言語資源をつくる,整備することは地道にやってけばいいわけです。大学ではなく国語研だからこそできることがあると思います。

研究者紹介 007 : 前川喜久雄 「コーパス整備の転換点にちょうど私がいたんです」

音声言語研究領域 教授
前川喜久雄
まえかわ きくお●1956年京都府出身。鳥取大学講師などを経て,国立国語研究所には1989年から在籍。『講座日本語コーパス』(朝倉書店全8巻)の監修を務める。2011年,2012年日本音声学会 優秀論文賞を受賞。