ことばの波止場

Vol. 6 (2019年9月発行)

特集 : コーパスを通して話し言葉をながめる

コーパスを通して話し言葉をながめる /執筆者:小磯花絵・丸山岳彦

西尾実 初代所長によるあいさつ
(国立国語研究所創立10周年祝賀式,1959年3月6日,学士会館)

コーパスで話し言葉を縦と横につなぐ

「会話コーパス」プロジェクト

国立国語研究所ではこれまで様々なコーパス(言葉のデータベース)を公開してきました。図1は,コーパス開発センターを中心に公開しているコーパスの一覧です。共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」(「会話コーパス」プロジェクト)が始まった当時,グレーで記したコーパスしかありませんでした。書き言葉のコーパス(上の段)は,小説や新聞,雑誌,行政白書など多様なジャンルのテキストをバランスよく収めた『現代日本語書き言葉均衡コーパス』(BCCWJ)や,奈良時代から大正時代までの書き言葉を対象とする『日本語歴史コーパス』(CHJ,構築中)など,とても充実していますが,話し言葉のコーパス(下の段)は,一人の人が話すスピーチを中心に集めた『日本語話し言葉コーパス』(CSJ)しかありませんでした。私たちが普段の会話でどのような言葉づかいをしているのか,また話し方がどのように変化してきたかを,コーパスを使って調べることが難しい状況だったのです。

コーパス開発センターを中心に公開しているコーパスの一覧
図1 研究所が公開している主要な書き言葉・話し言葉のコーパス。緑はこのプロジェクトで構築

そこで「会話コーパス」プロジェクトでは,2016年から2018年にかけ,グリーンで記した5種類の話し言葉のコーパスを公開してきました。この3年間で話し言葉のコーパスがかなり充実したことがわかります。これにより,コーパスを用いて,書き言葉と話し言葉を比べたり,話し言葉の時代による変化を調べたりすることができるようになりました。まさに書き言葉と合わせ,言葉の変化を縦の軸と横の軸でとらえることのできる環境が揃ったことになります。

ここでは昨年度公開した『日本語日常会話コーパス』(CEJC)と『昭和話し言葉コーパス』をご紹介します。

『日本語日常会話コーパス』

私たちは相手や場面によって言葉を使い分けています。こうしたことを調べるには,多様な場面における様々な人との会話を記録する必要があります。しかし,日常場面で交わされる会話を自然な状態で記録することは容易ではありません。

そこでこのプロジェクトでは,一般の方40名にお願いをし,様々な場面での様々な人との会話を,映像を含めて収録していただきました。ビデオカメラやICレコーダーなど多くの機材を使っての収録ですから,かなり大変だったと思いますが,多くの方にご協力いただいた結果,図2にあるように,実に多様な会話が集まりました。

日本語日常会話コーパス
図2 『日本語日常会話コーパス』(CEJC)

2021年度末に200時間の会話を収めたコーパスを公開する予定ですが,このうち50時間の会話を対象に,2018年度,試験的な公開を開始しました。

このコーパスでは,文字化テキストや単語情報だけでなく,音声や映像データも公開しています。そのため,イントネーションや身振りなども含め,色々な角度から会話の言葉や振る舞いを調べることができます。映像を含めて日常会話をこの規模で公開するのは,世界でもこのコーパスが初めてです。関心のある方は是非使ってみてください。

『昭和話し言葉コーパス』

本プロジェクトで構築を進めているもう一つのコーパスが,『昭和話し言葉コーパス』です。このコーパスは,1950年代から1970年代(昭和20年代後半から40年代後半)にかけて,当時の国立国語研究所で録音されていた音声資料を再編し,現代の技術でコーパス化しようとするものです。

国立国語研究所では,1952年,共通語の話し言葉研究を目的とした「第1研究室」を開設しました(1954年「話しことば研究室」に改称)。中村通夫,大石初太郎,飯豊毅一,宇野義方,進藤咲子といった当時の所員たちは,日常のさまざまな場面における会話や独話,約40時間分の音声をオープンリールテープに録音し,精密に書き起こしたうえで,そこに見られる韻律・語彙・文法などを定量的に分析するという,新しい研究を始めました(写真1)。当時の研究成果は,『談話語の実態』(1955年),『話しことばの文型(1)(2)』(1960年,1963年)という研究報告書として刊行されています。コンピュータもない時代,このような大規模な定量的研究が実現できていたことには,驚きを禁じえません。現代から見れば,この研究こそ,コーパスに基づく日本語話し言葉研究の源流として位置づけられると言えるでしょう。

写真1 『国立国語研究所要覧 昭和30年度』より,当時の録音風景

では,その時に録音された音声資料は,どこに行ったのでしょうか。当時オープンリールに録音された音声は,実は1990年代,DATにダビングされた後,研究資料庫に保存されていました。ただし,その音声を公開しようとする動きはなく,正に「お蔵入り」の状態だったのです。

そこで,1960年代以降も継続的に録音されていた音声資料を含め,過去の音声資料を現代の技術でコーパス化することを提案し,2016年,本プロジェクトにおいて『昭和話し言葉コーパス』の構築を開始しました。2018年度末には,独話17時間分の音声資料を試験的に公開しました。最終的には,会話25時間分の音声資料を加えて,『昭和話し言葉コーパス』として一般公開すべく,作業を進めています。

『日本語日常会話コーパス』を通して言葉をながめる

書き言葉や講演と比べると

多様なジャンルの書き言葉を含むBCCWJ,スピーチを中心とするCSJ,日常会話を収めたCEJCを比較することによって,言葉の使い方がどのように異なるかを見てみましょう。

図3 BCCWJ・CSJ・CEJCを用いた接続助詞「が」「けれども」類の分布の比較

図3は,「彼は若いが/けれども,とてもしっかりしている。」のような文に見られる,接続助詞「が」「けれども」類の使用率をグラフにしたものです。グラフから,硬い文体の行政白書では「が」しか使われないのに対し,コラムなどを含む新聞,雑誌,話し言葉に近いとされるブログになるにつれ,使用率が減っていくのが分かります。話し言葉では,改まり度の高い国会での答弁や学会講演よりも,個人的体験談などを語る模擬講演の方が「が」は減り,改まり度の最も低い日常会話ではほとんど使われなくなります。

「が」に代わって台頭するのは「けれども」類です。表現の内訳を見てみると,国会では「けれども」が,日常会話では「けど」が大半を占めています。「けれども」は改まった場で,「けど」はくだけた場で使われやすい表現であることが分かります。

複数のコーパスで言葉を「縦」につなぎ比べることによって,文体の硬軟や場の改まり度に応じて私たちが言葉を多彩に使い分けている様子が見えてきます。

日常会話の中での使い分け

「が」「けれども」では,日常会話を一まとまりにし,書き言葉やスピーチと比べましたが,一口に日常会話といっても,家族との雑談もあれば取引先との打合せなどもあります。日常会話の中にも,多彩な言葉の使い分けが見られそうです。

そこで,CEJCだけを用い,話し手の属性や場面などによって,私たちがどのように言葉を使っているかを見ていきましょう。

図4 「ありがとう」類の表現の分布:年齢・性別・聞き手の関係性・場面

図4は,感謝の表現「ありがとう」「ありがとうございます」,それから,「あざっす」「あざます」のようなくだけた表現(あざっす系)の使用の分布を,話者の年齢・性別・話し手から見た聞き手の関係性・場面ごとに比較したものです。

「あざっす」に着目すると,主として10~20代の若い男性が友人知人との雑談において用いていることが分かります。またどの年齢も,またいずれの性別も,ほぼ半数は丁寧な形である「ありがとうございます」を用いています。

この割合に影響するのは,聞き手の関係性や場面です。相手が家族よりも先生や取引先,同僚の場合に,また雑談よりも会議会合の場合に,「ありがとうございます」がより用いられていることが分かります。

多様な話者・多様な場面の会話を収めたコーパスだからこそ,私たちが日常の中で言葉を使い分けている実態を浮き彫りにできるのです。

▼『日本語日常会話コーパス』モニター版
https://www2.ninjal.ac.jp/conversation/cejc-monitor.html

『昭和話し言葉コーパス』を通して言葉をながめる

過去の音声から分かること

次に,『昭和話し言葉コーパス』を使うと,言葉のどのような姿が見えてくるのか,考えてみましょう。ここでは,(1)発話の急激な上昇調イントネーション,(2)文法形式のゆれ,という2つのトピックを取り上げることにします。

急激な上昇調

1950年代に録音された音声を聞いていると,現代では見られないイントネーションの型を見つけることがあります。図5は,1957年に録音された「3人の女性」という音声資料に記録された発話のピッチ曲線(音の高さの変化を表したもの)です。頭の中で,音を再現してみてください。

図5 発話中に見られる急激な上昇調(1957年録音「3人の女性」)

この発話では,「卵の黄身ね」の「ね」,「すり鉢でするのよ」の「よ」の部分で,イントネーションが急激に上昇していることが分かります。現代でも「ね」や「よ」は上昇することが多いですが,それと比べて上昇の程度がかなり激しいのです。

私がこの音声を聞いてすぐに思い出したのは,「銀幕の女優」たちの声でした。例えば,『東京物語』に主演した原節子は,映画の中でこのような「急激な上昇調」を多く使っています。このような上昇調は,昔の映画の中だけに見られる特徴的なイントネーションだと思っていた私にとって,この発見は大きな驚きでした。急激な上昇調は,映画特有のイントネーションというわけではなく,当時の若い女性たちが日常会話の中で使っていたものだったのです。

現在でも,例えば黒柳徹子氏など,高齢層の女性の発話には,急激な上昇調が見られることがあります。当時の「若者たち」が,当時のイントネーションを現代にまで引き継いでいる,と見ることができるでしょう。

文法形式のゆれ

次に,「文法形式のゆれ」という点について見ていきましょう。1950年代の音声資料の中には,以下のような例があります。

a. 非常に予算の窮屈な,あー,時代でありまするから,
b. 国語の問題というのは難しいんでありますから,

これらはどちらも,1959年「国立国語研究所10周年記念式典」で小説家の山本有三が祝辞を述べている発話です。同じスピーチの中で,山本は「ありまするから」「ありますから」という2つの形を使っています。

ある1つの文法形式が複数の形で実現される場合を,「文法形式のゆれ」と呼びます。上記の場合は,助動詞「ます」とその古い形「まする」の両者が,個人の中で「ゆれていた」ことを表しています。このような話し言葉の実態は,書かれた言葉から明らかにすることはできません。

現代の話し言葉では,「ありまする」という表現はまず使われないと考えられます。では,「ます」と「まする」はどう共存し,その分布はどう変化してきたのでしょうか。

そこで,1910年代から1940年代にかけてSP レコードに録音された演説を集めた『岡田コレクション』(「岡コレ」,18.5時間),そして2000年前後に録音された『日本語話し言葉コーパス』(CSJ,651時間)を『昭和話し言葉コーパス』の前後に配置し,「ます」と「まする」を検索して,その比率を算出してみました。表1を見ると,大正時代にはすでに5.9%だった「まする」が,時代を追うごとに減少していく様子を見て取ることができます。

表1 『岡田コレクション』,『昭和話し言葉コーパス』,CSJに現れた「ます」「まする」の分布

日本語の録音資料は,確認できる最古のもので1900年のパリ万博における録音だと言われています(清水康行氏の研究)。現在構築中の『昭和話し言葉コーパス』だけでなく,20世紀に録音された音声資料を総合的に集めて「横」の方向につなげれば,日本語の話し言葉がどのように変化してきたのか,その「経年変化」の実態を,コーパスをもとにして浮き彫りにできると考えられます。今後の研究にご期待ください。

▼『昭和話し言葉コーパス』
https://www2.ninjal.ac.jp/conversation/showaCorpus/

小磯花絵
KOISO Hanae
こいそ はなえ●音声言語研究領域 教授
丸山岳彦
MARUYAMA Takehiko
まるやま たけひこ●専修大学 教授/音声言語研究領域客員 教授