ことばの波止場

Vol. 8 (2020年9月発行)

特集 : 世界最大規模のBTSJ日本語自然会話コーパス

BTSJ日本語自然会話コーパス』とは,『基本的な文字化の原則(BTSJ :  Basic Transcription System for Japanese)』というルールで文字化されたトランスクリプト(下図)と音声を含む世界最大規模の日本語自然会話コーパスです。現在,377会話,754名分の会話が公開されており,完成すると,1000名を超えるインフォーマントの会話が含まれるものになります。

『BTSJコーパス』会話データ例
『BTSJコーパス』会話データ例

条件が統制された会話群

本コーパスには,収集の目的や,会話の条件が統制されている様々なジャンルの会話が収録されているため,グループごとの収集目的・条件を確認した上で,話者の属性(年齢,性別等)や対話相手との関係など,話者の話し方に大きな影響を与える社会的要因を考慮に入れた分析をすることが可能です。

周辺言語情報を豊富に記載

また,BTSJという文字化には,「ええっと」などのフィラーや,間,沈黙,笑い,発話の重なり,割り込みなど,語用論的研究には必須であるにもかかわらず,他のコーパスには付与されていない情報が分析しやすい形で提供されていますので,言語的な特徴だけでなく,笑いや沈黙に反映された母語話者や学習者の心理に迫ることができます。このように,周辺言語情報もあわせて分析することによって,学習者の心理の動きとともに,そのコミュニケーションの実態や特徴が浮き彫りになってくるのです。

談話の流れがわかる

多くのコーパスでは,特定の単語の検索や,コロケーション(ある単語と単語のよく使われる組み合わせ)を調べることはできますが,その反面,長い「会話の流れ」や,話者同士で交わされることばや笑い,沈黙などの「やりとりの様子」は,分析することができません。しかし,このBTSJコーパスでは,談話の流れを追うことができ,しかも,周辺言語情報が記されているので,文脈としての談話の流れを考慮したより深い語用論的分析を行うことができます。

学習者の誤用の語用論

例えば,文レベルでは,「そうですね」も「そうなんですね」も問題ありませんが,「こういうことなんです」という発話に対して,「そうなんですね」は,自然ですが,「そうですね」では,不自然になります。このように,学習者の不自然な発話を研究するには,文法や語彙だけでなく,談話という流れ・文脈の中で判断しなければわからないことが多々あるのです。

コーディングの自動集計ツール

本コーパスは,一律にタグ付けをして提供するのではなく,各研究者が独自の観点からコーディングすることを推奨しています。また,その結果の基本的記述統計量を自動で計算してくれる『BTSJ文字化入力支援・自動集計・複数ファイル自動集計システムセット2019年改訂版』と連動しています。このツールは,これまでは,不定期に開催される『BTSJ活用方法講習会』に参加した本人のみに無償で配布していましたが,今後は,オンライン講習会を受講することで受領できるよう準備を進めています。

本コーパスの入手方法

以下のサイトから申し込むことによって,どなたでも無償で利用できます。これまで,既に,2000人近くの人が申し込み,本コーパスを使った研究も,200本にのぼっており,論文集も刊行されました(宇佐美 2020ab)。これからの日本語教育には,このような貴重な「自然会話データ」をフルに活用することが望まれています。これからの日本語教育は,自然会話コーパスで変わるのです。

【引用文献・資料】
宇佐美まゆみ(編)(2020a)『自然会話分析への語用論的アプローチ』 ひつじ書房
宇佐美まゆみ(編)(2020b)『日本語の自然会話分析』 くろしお出版

(日本語教育研究領域・教授/宇佐美まゆみ)