Vol. 12-2 (2023年4月公開)
国立国語研究所(国語研)は、ことばに関する研究機関です。
ことばを研究するには、研究対象であることばを集める必要があります。
では、どのように、ことばを集めるのでしょうか。
国語研の研究者たちが使っていることばを集める道具や方法の数々を紹介します。
ことばには、大きく分けて2種類あります。話しことばと、書きことばです。話しことばを集めるには、話者が発した音声(発話)を録音機器を使って記録します。場面や分析の方法、研究の目的に応じて、さまざまな機器を使い分けています。
「日本語日常会話コーパス(https://www2.ninjal.ac.jp/conversation/cejc.html)」を構築するため、さまざまな日常場面での会話の録音に使った ICレコーダーです。会話をしている一人一人の音声を大きく明瞭に録音するため、番号を付けた個人用 ICレコーダーをそれぞれ首に下げてもらいます。会話全体を録音できるように、会話者の中央にも ICレコーダーを置きます。
「日本語日常会話コーパス」の収録前、録音・録画機器の充電の様子。複数台を同時に充電できる充電器が欠かせません。
話者の口とマイクの距離が変わると、音声の周波数や強度が変化してしまいます。音響分析などのために高品質の音声データが必要な場合、話者の口とマイクの距離が常に一定になるように、マイクを頭部に固定できるヘッドセット型マイクを使って録音します。
音響分析を目的とするなど高品質の音声データが必要な場合、発話の録音にリニア PCMレコーダーを使用します。アナログ信号である音声をコンピュータで分析できるようにするには、デジタル変換を行う必要があります。リニア PCMレコーダーでは、変換の際にファイルのサイズを小さくする圧縮を行わず、高音質の録音ができます。
故障などに備え、録音機器を 2台使うこともあります。メインの録音機器(左)は高音質で録音できて保存・分析に向いている非圧縮形式で、サブの録音機器(右)はファイルサイズが小さくなる圧縮形式で、と録音形式を変えたりします。