第24号(2005年7月1日発行)
国語研究所では,言葉に関する,さまざまな資料を電子的なテキストの形で一般に公開しています。例えば,20世紀初頭の総合雑誌『太陽』を収録した『太陽コーパス』や,類義語集である『分類語彙表』などです(「コーパス」とは言語研究用の資料です)。全文検索システム『ひまわり』は,このような言葉に関する資料から,指定された言葉を簡単に検索して,言葉に関する分析をするためのツールです。
『ひまわり』の特徴は,言葉の分析に適した検索機能を持っていることです。図1は,『太陽コーパス』から「國語」を検索した例です。検索結果には「國語」に対する前後文脈が表示されるので,「國語」がどのような文脈で用いられるかがすぐわかります。もっと広い範囲を閲覧する場合は,図1のようにWebブラウザに記事全文を表示することができます。また,コーパスには,言語の分析に役立つようなさまざまな情報が付加されていますが,それらを検索することも可能です。例えば,図1では「雑誌名」「年」「号」「著者」などが付加情報に当たります。このような情報は,年ごとの使用頻度の移り変わりなどを分析するのに役立ちます。
図1 『太陽コーパス』から「國語」を検索した結果
『ひまわり』のもう一つの大きな特徴は,異なった形式の資料でも検索できることです。図2は,「科学」が含まれる見出しを『分類語彙表』から検索した結果です。「表記」欄の左右の欄に,意味的に類似する語が数語表示されます。『分類語彙表』の中で「科学」が属している分類項目「学科・学問」に含まれる語全体もWebブラウザで表示できます。『太陽コーパス』と『分類語彙表』というように,資料の種類や記述方法が大きく異なっても,XML(現在広く用いられている文書記述言語)で記述されている資料であれば,『ひまわり』で検索し,資料に適した形で表示することができます。
図2 『分類語彙表』から「科学」を検索した結果
『ひまわり』は当研究所のWebページ(http://www.kokken.go.jp/lrc)から無料でダウンロードすることができます。ここで紹介した『太陽コーパス』,『分類語彙表』のサンプル版も『ひまわり』に同梱(どうこん)されています。ぜひ,試してみてください。
(山口 昌也)
『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。