国語研の窓

第15号(2003年4月1日発行)

ことば・社会・世界:「電子政府」を支える漢字研究

漢字情報を体系化する

国立国語研究所・情報処理学会・日本規格協会は,経済産業省の委託により,2002年9月から共同で「電子政府文字情報データベース」の構築に取り組んでいます。

このデータベースは,総務省や法務省が保有している住民基本台帳・戸籍などの電子化にかかわる文字すべてに対して,読み情報・文字コード番号などの情報を付与し,個々の漢字にどのような異体字があるかを示すもので,その情報は「電子政府文字情報データベースシステム」に登録され,国民全般の使用に供されることになっています。

三者の役割分担は,国立国語研究所が「文字の同定・検証」,情報処理学会が「データベースシステムの構築・試験運営」,日本規格協会が「文字グリフ(字体の骨組みを示す文字図形デジタルデータ)の作成」となっています。

国立国語研究所の役割

まず,日本規格協会作成の平成明朝体の文字(グリフと呼ばれます)と,総務省・法務省から提供される文字とを照合します。

次に,文部科学省による各種の国語(漢字)施策,経済産業省の文字コード規格,法務省通達,市販の漢和辞典などの内容を調査し,それにもとづき,個々の文字に対して,

  • 部首,画数,読み,何かの異体字かどうか。
  • 常用漢字表にあるか,表外漢字字体表ではどう扱われているか。
  • 国内規格のJISコード(第1~4水準)は何番で,国際規格のUCSコードは何番か。

といった客観的な属性情報を付与して,その情報を体系的に整理します。

さらに,各省庁から提供された原データを元に,一字一字について,「どういう用途で,いかなる語を表すために必要とされているのか」,「ほかの漢字とどのような関係を持つのか」といった点について言語学的な分析を加えます。

文字情報公開システムのあらまし

このデータベースには最先端の文字検索技術が用いられる予定です。そのシステムの特徴の一部を簡単に紹介しましょう。

(1)検索の簡便性

各地方自治体職員や一般市民等が電子申請などにおいて利用できるように,インターネット等を通じて必要な文字情報が検索できるようにします。その際,漢字に関する専門知識がなくても簡便迅速に目的の文字が検索できるように,たとえば,次のような工夫をおこなっています。

  • 部首や読みの特定が困難な文字について,よく知られた文字を入力し,その文字を分解して取り出した構成部品を検索キーとする「解字検索機能」。
  • 文字相互の異体字関係の確認や,規格内字と異体字との異同判別に役立つ異体字マップを表示する「関連字表示機能」。

 

(2)文字化けしない文字グリフの配信

検索画面に表示される文字は,一般市民になじみの深い明朝体(平成明朝体)でデザインし,文字グリフとして,1文字1ファイルの画像形式で一般に提供します。具体的には,インターネットを経由して文字配信サーバー内の文字(GIFファイルまたはビットマップファイル)にアクセスすると,その文字が手元のコンピュータに表示されるという仕組みになっています。

この技術の基礎は,国立国語研究所のJiBOOKSプロジェクト(http://www.kokken.go.jp/jibooks)などによって培われたものです。

世界規模の波及効果

このプロジェクトで得られた成果は,文字コードに関する日本工業規格の改正や,国際規格の提案に反映されます。このことは,日本の情報通信機器産業の国際競争力をより強化することにつながるだけでなく,漢字で書かれた情報資源を国際レベルで共有・活用するという文化的な側面でも,国内外に大きく貢献するものと期待されています。

(横山 詔一・笹原 宏之)

『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。