Vol. 10 (2021年9月発行)
研究者になったきっかけ
人間の言語行動の背後にあるメカニズムを知りたいと思って、最初は心理学を勉強していたんです。でも実験中心のアプローチにあまり馴染めませんでした。それで哲学の研究室に出入りするようになり、その時に「コーパス」というものの存在を哲学の先生に教えてもらいました。British National Corpus (BNC)という1億語からなるコーパスがイギリスで作られていて、その中間レポートがあるから読んでごらんって渡されたんです。言語行動って色々な要因が関わってきますよね。そうした要因を大量のデータからボトムアップに探ったり、仮説を立てて検証したり、シミュレーションしたりするのに、コーパスは最適だなと思い、とても可能性を感じました。
いま思えば、これが研究者の道を歩むことになった最初のきっかけだと思います。「いま思えば」と言ったのは、「研究者になるぞ」と強く思ったことはなくて、色々な人や興味あるテーマに出会い、夢中になって研究に取り組んでいるうちに、気付いたらこの道に進んでいた、という感じです。
これまでのご研究について
修士課程で、言語学や心理学、認知科学、情報工学などさまざまな分野の先生や企業の研究者の方と交流する機会がありました。その活動の中で、みんなで使える対話コーパスを作ってみようという流れになり、エディンバラ大学のMapTask Corpusを参考にコーパスを作ることになったんです。当時、日本語のコーパスはほとんどなくて、コーパスの構築と共有化が重要視されていた頃でした。対話をどのように収録するか、転記・アノテーションの基準やツールをどうするか、これらの情報をコーパスとしてどう表現するかなど、分からないことばかり。多くの方と一緒に手探り状態でコーパスを作りました。
学生時代はコーパスを活用して話者交代が円滑に行われる仕組みの研究などをしていました。形態論・音声・韻律・相互行為情報などのアノテーションを行い、話者交替に関わる特徴をボトムアップに調べ、それに基づきモデルを作った上で、シミュレーションを通してモデルの妥当性を検証する、そんな内容です。コーパスの存在を知った時に、こんなことができるんじゃないかなと、漠然と考えていたことをなんとか形にすることができました。ただ、かなりまじめに取り組んでいましたが、分析できたのはたった2時間の会話、話者にして16人。とにかくアノテーションに膨大な時間がかかったんです。アノテーションが豊富についたコーパスが共有化されていれば、色々な研究ができたのに。当時、そんな思いがありました。
その後、国語研究所に入ってすぐに始まったのが『日本語話し言葉コーパス』(CSJ)のプロジェクトでした。ご縁というのは面白いもので、豊富なアノテーション付きのコーパスを構築・共有化するというプロジェクトに携わることができたんです。さらに1億語規模の書き言葉コーパスBCCWJの構築にも関わりました。BNCを知ってから15年以上が経過。ようやくここまで来たな、という思いでした。
いま、取り組んでいること
独話中心のCSJ、書き言葉対象のBCCWJと、もともと持っていた関心から少しずつ離れてしまったんですが、2016年度には、学生時代に必要性を感じていた会話コーパスの構築・共有化に向けたプロジェクトを始めることができました。リアルな日常生活における多様な場面・話者による会話を対象とする、映像付きの大規模コーパス(CEJC)です。CSJ、BCCWJの構築経験やその過程で築いた人脈があったからこそ、こうした挑戦的なコーパスの構築に挑むことができたと思っています。
今は、完成間近のCEJCを使って、時にはCSJの独話やBCCWJの書き言葉と比較しながら、日常会話におけることばの特徴を実証的に探る研究を進めています。今年度末には本公開となります。是非、多くの方に活用していただきたいと思っています。
これからしてみたいこと
学生時代にやっていたような、会話における人間の行動モデルをコーパスベースで研究したいと思っています。学生の頃はたったの2時間しか分析できませんでしたが、CEJCを活用することで、多様な場面、多様な話者を対象に分析できるようになります。
また、これまでさまざまな種類のコーパスの構築に携わってきて、コーパスが切り開く研究の可能性を見てきました。こうした経験を活かし、まだ十分に共有化が進んでいない分野のコーパスの構築にも携わって行きたいと思っています。
小磯花絵
こいそ はなえ●副所長・音声言語研究領域 教授。
1971年東京都出身。千葉大学・同大学院修士課程で認知科学を学んだのち、ATR知能映像通信研究所で研修研究員をしながら奈良先端科学技術大学院大学で博士号を取得。1998年10月より現職。