国語研の窓

第32号(2007年7月1日発行)

研究室から:大規模書き言葉コーパスのオンライン試験公開

~KOTONOHA「現代日本語書き言葉均衡コーパス」~

国立国語研究所は,明治から現代にいたる日本語の電子化資料をコンピュータ上で公開しようとするKOTONOHA計画を推進していますが,この度『現代日本語書き言葉均衡コーパス』のデータの一部,約1000万語分をウェブ上で試験公開しました (http://www.kotonoha.gr.jp/demo/)。

『現代日本語書き言葉均衡コーパス』はKOTONOHA計画の一環として昨2006年度から構築を開始したものであり,2011年の完成時には1億語を超える量の現代日本語の書き言葉データが一般に公開される予定です。

*コーパスとは,言語研究用に作られたデータベースで,体系的に収集され,研究用の情報を付加した言語資料のことです。

試験公開の目的

『現代日本語書き言葉均衡コーパス』をだれもが利用できるコーパスとするためには,全サンプルに著作権処理を行う必要があり,その総数はおよそ3万件に及ぶものと想定されます。しかし昨今では,著作権保護,個人情報保護意識の高まりを反映して,著作権者との連絡にかかる費用が著しく増大する傾向にあり,著作権処理の成否がプロジェクト全体に大きく影響する状況となっています。

今回オンラインでの試験公開を開始する目的の一つは,著作権者の方々にこのデモサイトを試していただき,御提供いただくサンプルが実際にどのような形で利用されるかについて理解を深めていただくことにあります。また,一般の不特定多数の方々に対してKOTONOHA計画で開発中のコーパスに関する情報を提供することも,もう一つの大切な目的です。

今回公開するデータ

現時点で検索することのできるデータは,各省庁が刊行した白書のデータ約500万語分と,ヤフー株式会社提供の「Yahoo!知恵袋」のデータ約500万語分の合計約1000万語です。それぞれについてもう少し詳しく説明します。

白書データの母集団は2001年から2005年の間に発行された白書と過去30年間に継続して発行され続けた白書の全体です。この母集団から無作為に約500万語分を抽出しています。サンプルは白書の対象分野にしたがって9個のカテゴリー(「安全」「科学技術」「外交」「環境」「教育」「経済」「国土交通」「農林水産」「福祉」)に分類されており,カテゴリーを限定して検索することも可能です。同様に白書の刊行年を限定した検索も可能です。白書は政府の刊行物ですが,やはり著作権は存在しますので,「著作権フリー」を宣言しているごく一部の白書を除いて,それ以外のサンプルについては関係省庁から書面ないし口頭で利用許諾をいただいています。

一方「Yahoo!知恵袋」は,参加者同士で知識を教えあうことを目的とした,Q&A形式のナレッジコミュニティサービスです。この種のデータについては,従来から言語研究上の重要性が指摘されてきていますが,今回,ヤフー株式会社の御厚意により,『現代日本語書き言葉均衡コーパス』のデータの一部として利用できることになりました。現在公開されているYahoo!知恵袋データの総量はそれだけで1億語を超える膨大なものですが,今回はそこから500万語分の質問と回答を無作為に選択して公開対象としました。

試験公開サイト
試験公開サイトでラ抜き言葉の「食べれる」を検索すると「Yahoo!知恵袋」から52件が見つかります。

白書とYahoo!知恵袋とはいろいろな面で対照的です。白書が硬い書き言葉の一つの典型であるのに対して,Yahoo!知恵袋はかなりくだけた話し言葉的な特徴を示します。表にいくつかの検索例を示しました。

白書にしか見つからない語,反対にYahoo!知恵袋にしか見つからない語があることがわかります。また,表記にゆれが見られる「ハナシアイ」では,「話し合い」と「話合い」に対する好みが,両者で異なっていることがわかります。なお「ハナシアイ」には名詞(「話し合いに参加する」)と動詞の連用形(「話し合いました」)とがありえますが,全文検索ではこれらを区別できません。表では手作業で名詞だけを選別して結果を示しています。

白書とYahoo!知恵袋の比較(件数)

検索した語句 白書 Yahoo!知恵袋
しちゃった 0 81
食べれる 0 52
喫緊の 19 0
真摯な 5 0
話し合い 25 82
話合い 73 3

今後の展開

試験公開のサイトには,著作権処理が完了したデータを順次追加していく予定です。今後追加を予定しているデータとしては,国会会議録(最大で500万語程度),新聞記事(最大で100万語程度),文芸作品(500万語程度)などがあります。

(前川 喜久雄)

5月28日に記者発表を行いました

このオンライン試験公開に関して,国立国語研究所は,5月28日,東京ミッドタウン内(東京・赤坂)のヤフー株式会社で記者発表を行いました。

当日は,9社10名のマスコミ関係者が取材に訪れ,当研究所研究開発部門言語資源グループの前川グループ長の説明に耳を傾けるとともに,説明終了後も熱心に質問が寄せられました。

発表の内容は,すぐにインターネット上のIT関連のニュースサイトや紙媒体の新聞などによって報道されました。報道された記事のブログなどでの引用も広がっているようで,試験公開サイトへのアクセス数も記者発表から2日で6000件を超えるなど,関心の高さがうかがえます。

コーパスを用いると,類義語の使い方の違いなど,語や句の特徴を,実際の用例を基に数量的に把握することができます。また,品詞情報や係り受けなどの文法情報を付加することで,言語研究や辞書作り,日本語教育や国語教育への応用,自然言語処理での利用などが期待されます。

コーパス作りは1960年代から欧米を中心に様々な言語圏で進んできました。しかし日本語では,各社の新聞記事や「青空文庫」などを利用することはできましたが,バランスのとれた均衡コーパスはないというのが現状でした。
著作権保護と学術利用・公共利用をどう両立させるかが課題ですが,今回の試験公開により,大規模コーパスを整備することの社会的意義をより多くの方に御理解いただければと願っています。

*報道発表資料及び当日の説明資料は国語研究所ホームページ上に掲載しています。http://www.www.kokken.go.jp/syokai/press/07_01/

記者発表の様子

『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。