国語研の窓

第1号(1999年10月1日発行)

研究プロジェクト紹介:話しことばのデータベース

前川 喜久雄(言語行動研究部第二研究室長)

話しことばは我々のもっとも基本的なコミュニケーションの道具です。しかし、話しことばの言語学的な研究には、書きことばに比べると様々な困難がともないます。なかでももっとも大きな困難はデータの作成にあります。

例えば、話しことばの文法を実際のデータに基づいて研究しようとする人は、録音された話しことばをそのまま利用するのではなく、何らかの形で文字に書き起こすのが普通でしょう。しかし、この作業に要する労力は大変なものです。簡単な書き起こしであっても録音時間の数十倍、精密な書き起こしであれば百倍以上に達する時間が必要となり、この作業量が話しことば研究の規模をおのずから制約しています。

このような労力は、少なくとも現代語に関するかぎり、書きことばの研究には必要とされません。特に現在では多くの書きことばが最初から電子媒体によって提供されるようになっていきていますから、それを言語研究用データとして整備する作業は、話しことばに比較すればはるかに少ない労力で実施することができます。

話しことばの研究データの整備にまつわる困難には、作業量のほかに話しことばと書きことばの本質的な相違に起因するものもあります。特に重要なのは話しことばには文字には書き起こせない情報が多量に含まれている点です。声の性別や個人性、あるいはイントネーションや話す速さの変化などがその典型ですが、話しことばの特質に即した研究を行うためには、こうした情報を抽出して研究に利用できる形に整理することも必要となってきます。

話しことば研究の進展を阻(はば)むこのような問題を解消するために、国語研究所では現代日本語の話しことばのデータベースを作成することを決定しました。書きことばの朗読ではない、多少とも自然な状況で発せられた自発的な音声を多量に収録し、付加情報と共にコンピュータに保存して種々の学術的利用に供しようというプロジェクトです。このプロジェクトは郵政省の通信総合研究所関西先端研究センターと共同で実施するもので、研究費は科学技術庁の開放的融合研究制度に依っています。正式名称は「話し言葉の言語的・パラ言語的構造の解明に基づく『話し言葉工学』の構築」、総括責任者は東京工業大学の古井貞煕教授です。

プロジェクト全体の目的は、通信総合研究所のもつ自然言語処理技術と国語研究所のもつ言語学的知見を融合して次世代の音声言語処理技術、例えばより本格的な音声認識技術やメッセージの要約技術を開発することにあります。そして国語研究所はその基礎となる話しことばデータの作成と解析に取り組みます。平成11年度から5年間の研究期間に約1000時間の音声を収録し、音声とその書き起こしテキストに加えてテキストの形態素解析結果を公開する計画です。さらに100時間程度については、上記の情報のほかにイントネーションや談話情報などの言語研究情報を付加することも予定しています。

プロジェクトの詳細と成果については今後さまざまな機会に報告したいと思いますが、このデータベースの公開が我が国における話しことば研究の起爆剤となることを期待しています。

講演音声の収録
講演音声の収録
研究発表の講演者にヘッドセット型マイクロホンを装着してもらい、デジタルテープレコーダに音声を収録する。

収録された音声の書き起こしと分析
収録された音声の書き起こしと分析
収録した音声をコンピュータに入力した後、文字に書き起こしたり音声の特徴を分析したりする。後方に見えるのは対話を収録するための専用防音室と録音録画装置。

  日本語話し言葉コーパス:/corpus_center/csj/

『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。