第31号(2007年4月1日発行)
『現代日本語書き言葉均衡コーパス』は,国立国語研究所が構築を進めている現代日本語の大規模なデータベースです。最終的な規模は1億語以上,本年度から2010年度までの五か年で構築を終え,2011年の春には一般公開する予定です。構築作業の一部は文部科学省科学研究費補助金特定領域研究「日本語コーパス」の補助によって実施しています。
『現代日本語書き言葉均衡コーパス』は,近現代の日本語全体をデータベース化しようとするKOTONOHA計画の一部として位置づけられています。図1はそのKOTONOHA計画の全体像を示しています。図の中央には時間軸が走っており,明治から現代までの時間をあらわしています。また時間軸の上部は書き言葉,下部は話し言葉に該当します。書き言葉を代表するジャンルには「書籍」「新聞」「雑誌」「ウェブ」を,また話し言葉のジャンルとして「モノローグ」「対話」「雑談」を認めています。
KOTONOHA計画は,今後数十年の間に一連のコーパスを構築することによって,近現代の日本語の全体像を可能な限り広く,また歪(ゆが)みのない形で記録に残すことをめざしており,これまでに『太陽コーパス』,『日本語話し言葉コーパス』のふたつを公開してきました。図1左上の「太陽」と記された楕円(だえん)と右下の「CSJ」(Corpus of Spontaneous Japanese)と記された楕円がこれに該当します。また図の下部には,近現代の日本語史における重要な出来事が記入されています。
明治・大正期の「言文一致」運動,終戦直後の「現代かなづかい」と「当用漢字」の告示(1946),そして1980年前後におけるJIS漢字コードの制定(1978,1983)と常用漢字の告示(1981)です。『現代日本語書き言葉均衡コーパス』はJISコード制定後の情報化社会における書き言葉のコーパスです。
『現代日本語書き言葉均衡コーパス』は三種類のサブコーパスから構成されています。
図2左上の「生産実態サブコーパス」は,2001年から2005年の間に出版されたすべての書籍,雑誌,新聞を母集団として,そこから約3500万語を無作為に抽出したコーパスです。テキストの内容による選別は行っていません。
図2右上の「流通実態サブコーパス」は東京都下の公共図書館に収蔵されている書籍を母集団として約3000万語をやはり無作為に抽出したコーパスです。最長で過去30年間分の書籍が対象となること,一定数(例えば10館以上)の公共図書館に所蔵されている図書のみが対象となる点で,生産実態サブコーパスの書籍部分とは異なっています。
最後に「非母集団サブコーパス」は,特定の母集団を設定することなく,国立国語研究所が実施する研究に必要な書き言葉データを格納しています。政府が刊行する白書,法律,国会の会議録,検定教科書,ベストセラーなどを予定しています。また現代の書き言葉の著しい特徴であるインターネット(WWW)上の書き言葉のデータも重要な対象です。非母集団サブコーパスの規模は約3500万語を予定しています。
以下では『現代日本語書き言葉均衡コーパス』を構築するプロセスを書籍を例にとって説明します。このような手順に沿って,2007年3月時点で,約1500科学研究費特定領域研究「日本語コーパス」万語相当のサンプルの著作権処理が終了し,そのうち500万語分の電子化が終了しています。
KOTONOHA計画:http://www.kokken.go.jp/kotonoha/
科学研究費特定領域研究「日本語コーパス」:http://www.tokuteicorpus.jp/ (廃止)
(前川 喜久雄・山崎 誠)
『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。