第17号(2003年10月1日発行)
およそ日本語にかぎらず言語研究の対象は,実際上その大部分が書き言葉であり,話し言葉の研究はかなり遅れています。その最大の原因はデータ作成のコストの高さにあります。
1時間の音声を書き起こすには,数十時間を要しますが,文字による書き起こしにはイントネーションやポーズなど話し言葉固有の現象は表現されていません。これらの現象まで含めて検索できるようなデータを一人で準備しようとすると,研究の準備だけに人生の大半を費やすことになりかねません。
表題に掲げた『日本語話し言葉コーパス』(以下本コーパスと略します)は,日本語の話し言葉を対象とした研究用のデータベースであり,話し言葉研究の確かなインフラを提供しようとするものです。
総務省の通信総合研究所および東京工業大学との共同研究として科学技術振興調整費の交付を受け,1999年から5年計画で構築を進めてきました。現在は,来春の一般公開にむけての準備を進めています。
本コーパスにはいくつかの画期的と言える特徴があります。まず,従来の音声データベースの大半が,新聞記事など,書き言葉の原稿をプロの発声者が読み上げた朗読音声を収録しているのに対して,より自発性の高い音声を収録しています。
また,従来のデータベースが高々数十時間程度の規模であるのに対して,650時間以上,単語数にして700万語以上の音声を収録しています。
研究用付加情報の豊富さも重要な特長で,音声の内容を精密かつ組織的に書き起こした転記テキストにくわえて,転記テキストを単語に区切って品詞分類した情報も提供します。
転記テキストは,講演の内容を単純に文字起こししたものではありません。言い直しや言い淀みは,そのまま正確に記録されていますし,講演者の発した笑いや咳などの非言語行動も記録されています。
さらに,各講演が聴き手に与える印象を収録技術者が主観的に評定したデータも提供します。その講演がどの程度自発的であるか,発話のスタイルがどの程度あらたまっているか等の評定です。
以上は650時間の音声全体に対して提供される情報ですが,データの一部,約44時間分に対しては,上記にくわえて精密な音声ラベルが提供されます。音声ラベルには二種類あり,ひとつは音声を構成する子音,母音,ポーズなどの分節特徴についてのラベル,もうひとつはイントネーションの特徴を記号化したラベルです。
下の表は,本コーパスに格納する音声の分量をジャンル毎に分類して示したものです。
音声の種類 | 話者数 | ファイル数 | 独話/対話の別 | 自発/朗読の別 | 時間数 |
---|---|---|---|---|---|
学会講演 | 838 | 1007 | 独話 | 自発音声 | 299.5 |
模擬講演 | 580 | 1699 | 独話 | 自発音声 | 324.1 |
朗読音声 | *(244) | 491 | 独話 | 朗読音声 | 14.1 |
インタビュー話者による模擬講演 | *(16) | 16 | 独話 | 自発音声 | 3.4 |
学会講演に関するインタビュー | *(10) | 10 | 対話 | 自発音声 | 2.1 |
模擬講演に関するインタビュー | *(16) | 16 | 対話 | 自発音声 | 3.4 |
課題指向対話 | *(16) | 16 | 対話 | 自発音声 | 3.1 |
自由対話 | *(16) | 16 | 対話 | 自発音声 | 3.6 |
再朗読 | *(16) | 16 | 独話 | 朗読音声 | 5.5 |
総時間数 | 658.8 |
*( )内の話者は学会講演ないし模擬講演話者と重複
「学会講演」は,種々の学会での口頭発表のライブ録音です。話者は大学院生が多く,理系の学会では大多数が男性です。「模擬講演」は,20代から60代まで,ほぼ男女同数の話者による,日常的な話題(例えば「人生で一番楽しかったこと」)についてのスピーチです。学会講演と模擬講演を比較すると,後者は前者よりも発話のスタイルが低く,より自発性の高いスピーチになっています。
この表からわかるように,本コーパスの95%は独話(モノローグ)です。しかし,完全に独話だけのデータベースでは,話し言葉全体のなかで独話が占める位置を推定することが困難になります。そこで,対話などの音声も対照用に収録することにしました。
この目的のために,「インタビュー話者による模擬講演」「インタビュー」「課題指向対話」「自由対話」「再朗読」のデータを16名分収録しました。
インタビューは,学会講演と模擬講演の内容についてインタビュワーの発する質問に,講演者が回答するものです。また課題指向対話は,二人の話者が協力して与えられた課題を解決してゆく過程でとりかわされる対話です。
再朗読は,先に収録されて既に書き起こされた学会ないし模擬講演の転記テキストを同じ話者が朗読した音声です。オリジナルと再朗読を聞き較べると,自発音声と朗読音声の相違を明瞭に聞き取ることができます。
最後に朗読音声とは,新書版で1ページ程度の書き言葉の文章2種類を模擬講演の話者に朗読してもらった音声です。こちらは244名分のデータがそろっています。
本コーパスに関しては現在までにも音声情報処理と言語学の領域でいくつかの成果が得られています。
言語学に関する成果のひとつは言語変異現象に関する分析です。言語変異というのは,簡単に言えば,語形のユレの現象です。「データ」と「データー」が共に用いられたり,「これは」が「コリャ」に融合したり,「僕のところ」が「僕ンところ」に転じたりするのは,すべて言語変異現象です。
言語変異研究の重要な目標は,複数の語形がどのような要因によって使い分けられているのかを知ることにありますが,要因としては,品詞や語種など,言語そのものの要因だけでなく,話者の性別,年齢,スピーチがおこなわれた状況など,言語以外の要因も候補となります。本コーパスを用いて,「では」が「ジャ」と発音される現象を分析した結果を簡単に報告しましょう。
この変異現象にとって最も強い要因は「で」の品詞でした。「で」が格助詞の場合(東京では雨だった→東京ジャ雨だった),ジャの生起率は平均で2%以下ですが,「で」が助動詞の場合(生まれたのは東京ではない→生まれたのは東京ジャない),生起率は40%を越します。
一方,品詞以外の有力な要因はすべて言語以外の要因でした。助詞の場合,印象評定された発話スタイルの高低と,話し手の年齢が有力で,その組み合わせによって最低0.3%(1950年以降に生まれた話者のスタイルが高い発話)から最高13%(年齢を問わずにスタイルの低い発話)まで生起率が変動します。助動詞の場合は,発話スタイルと年齢に加えて,講演のタイプ(学会講演か模擬講演か)と印象評定された発話の自発性の高低にも効果が認められ,これらの組み合わせによって最低1.7%から最高77%までの変動が生じます。
この分析結果はまだ予備的なものですが,従来の音声データベースでは,この程度の分析にも大きな困難がありました。本コーパスで種々の要因を総合的に検討することができるようになったのは,単に大量のデータが使えるだけでなく,転記テキストに言語変異が周到に記録されていること,発話のスタイルが組織的に変化するようにデータが収録されていること,さらに発話の印象が組織的に記録されていることなどの特長によるものです。
本コーパスは来年春の一般公開を予定しており,DVD-ROMで12枚程度の分量になるはずです。公開の時期と方法は,今後,国語研のホームページなどでお知らせします。
本コーパスについてさらに詳しくお知りになりたい方は,インターネットのブラウザで下記URLを参照してください。コーパスの設計と予備的解析結果について,詳しい情報が掲載されています。音声のサンプルも試聴できます。
http://www.kokken.go.jp/katsudo/seika/corpus/
(前川 喜久雄)
この『日本語話し言葉コーパス』をテーマに,12月20日,公開研究発表会を行います。詳しくは6ページをご覧ください。
『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。