国語研の窓

第37号(2008年10月1日発行)

研究室から:『現代日本語書き言葉均衡コーパス』進捗報告(2)

形態論情報の付与

言語研究では,例えば小説『明日の記憶』には,どの語がどのくらい使われているのか,「文化」という語は単独で使われることが多いのか,それとも「上方文化」のように他の語と複合して使われることが多いのかなど,“語 ”に着目した分析を行うことが多くあります。そのため,コーパスを日本語研究に活用できるようにするためには,コーパスに収録した文章を語に区切り,品詞などの情報を付けることが必要です。テキストに付与した単語や品詞などの情報を「形態論情報」と呼びます。

語の区切り方

日本語は英語と異なり,分かち書きをしない言語であるため,語に区切るといっても色々な区切り方が考えられます。

『現代日本語書き言葉均衡コーパス』では,2種類の区切り方で文章を語に区切ることにしました。一つは「国立国語研究所」を「/国立/国語/研究/所/」の4語とする区切り方で「短単位」と呼んでいます。もう一つは「国立国語研究所」を1語とする区切り方で「長単位」と呼んでいます。短単位・長単位それぞれに品詞などの情報を付けます。

自動形態素解析

『現代日本語書き言葉均衡コーパス』は1億語という大規模なコーパスであるため,手作業で形態論情報を付けることは不可能です。そこで『現代日本語書き言葉均衡コーパス』では,コンピューターを使って,形態論情報を自動付与します。これは自然言語処理の分野で開発された技術で,形態素解析と呼びます。

短単位への解析は,形態素解析ソフトウェア「茶筌」や「MeCab(めかぶ)」と,国立国語研究所で開発を進めている形態素解析用電子化辞書UniDic(ユニディック)とを組み合わせて行います。この自動解析の精度は現時点で98%以上です。今後も引き続き電子化辞書への単語登録などを進め,解析精度の向上を目指します。

長単位は,短単位に解析したデータを基にソフトウェアを使って自動構成します。現在,解析精度向上に必要なデータの整備等を行っています。

形態論情報から分かること ―「オレ」の表記―

形態論情報を使った日本語の実態調査の例として,代名詞「オレ」がどのような表記で用いられているかを見ていきます。

『現代日本語書き言葉均衡コーパス』の生産実態サブコーパスの書籍データ(約1,500万語)を使って,代名詞「オレ」がどのような表記で,どのくらい用いられているか調査しました。結果は下図のとおりです。

形態論情報から分かること ―「オレ」の表記―

「俺」は常用漢字表に掲げられていない漢字(表外漢字)ですから,常用漢字表に従えば,代名詞「オレ」は漢字を使わずに仮名書きすることになります。しかし実際には,平仮名表記は3割台で,表外漢字「俺」を使った表記が半数以上を占めます。代名詞「オレ」は,表外漢字「俺」で表記することが一般的になってきていると考えられます。

現在,文化審議会国語分科会では,常用漢字表の見直しに関する審議が行われています。平成20年7月31日の文化審議会国語分科会総会では,現行の常用漢字表に追加する漢字の候補188字が了承されましたが,この中に「俺」も入っています。「俺」を追加候補とするに際しては,上に示した代名詞「オレ」の表記調査のデータが参考にされました。このことから,『現代日本語書き言葉均衡コーパス』は学術研究だけでなく,国語施策といった実用的な面にも貢献し得る極めて有用なコーパスと言えます。

国立国語研究所が開発を進めている形態素解析用電子化辞書UniDicは,http://download.unidic.org/で公開しています。利用者登録をすれば,無料でダウンロードして利用できます。UniDicの利用登録者数は1,000名を超え,人文系から工学系まで幅広く利用されています。なお,このサイトでは,初心者でも簡単にUniDicを使った形態素解析ができるツール「茶まめ」(Windows版のみ)も公開しています。

(小椋 秀樹)

  国立国語研究所の言語コーパス整備計画KOTONOHA:http://www.kokken.go.jp/kotonoha/

  科学研究費特定領域研究「日本語コーパス」:http://www.tokuteicorpus.jp/

『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。