国語研の窓

第36号(2008年7月1日発行)

創立60周年に寄せて:「方言文法全国地図」データの電子化

国立国語研究所は今年12月20日,創立60周年を迎えます。今号と次号の2号にわたり,元所員の方々に,在職当時の国立国語研究所の調査研究事業の様子や思い出を紹介していただきます。

創立60周年に寄せて:「方言文法全国地図」データの電子化

沢木 幹栄(信州大学人文学部教授)

データの電子化とは

「方言文法全国地図」(以下 GAJと略 )のもとになったデータはすべて電子化されているがこれだけの規模の言語地図では世界的に見てもほかに例がないと思われる。ここでは,その経緯について簡単に述べたい。

「日本言語地図」(LAJ)のときもそうだったが,調査した結果はまず調査票に記入されそのあとで所定のカードに転記される。地方研究員からの報告はこのカードを提出することで行われる。言いかえれば,GAJの全データはカードの形でまず存在しているのである。

1984年から始まり 1988年ごろまで続いた作業(当時はコンピューター入力と言っていた)は,カードに記入された情報すべてをそのまま入力することをめざした。その目的は地図作成の機械化とデータベース化だったが,そのどちらも第 1集刊行時よりあとになって達成された。データの整備は地図集が順次刊行されている間も続き,最終的に現在の形になるが,私が関わったのはデータ整備より最初の入力作業の部分だった。

作業の流れ

入力そのものは業者に外注した。納品は最初はパンチカードで,その後は大型計算機用の磁気テープだったこともあるが,8インチのフロッピーディスクが一番多かった。そのどれも今では探し回っても見付けられない媒体である。調査項目の地点ごとの回答は音声記号で記録されているのだが,音声記号を英数字記号の組み合わせに置き換えて入力することにした。例を挙げると,スモールキャピタルの Nは N9になる。直接の担当は,当時の言語変化研究部第一研究室 (変化一研 )の私と白沢宏枝さん(元所員)だったが,その仕事はカードに鉛筆で記号化の仕方を書きいれることだった。入力業者には前処理をしたカードを渡し,業者は納品時にそのカードを返却するという流れになっていた。もちろん,データができたらそれを校正する作業も必須だ。

時代の制約

世の中のあらゆるものがそうであるように,我々の入力作業も当時の状況から来る制約から逃れることはできなかった。まず,音声記号の置き換え規則がそうである。変化一研で使っていたのは 8ビットではあったが,いわゆるパソコンで,大文字も小文字も使えた。しかし,入力業者は当時の業務用の主流であった大型計算機用の仕事が普通であり,そこで使われる EBCDICという記号体系でデータを作成する。 EBCDICでは大文字しか使えない。仮に大文字と小文字が同時に使える状況だったら,置き換え規則はかなり単純化され,分かりやすくなっていたはずだ。また,入力業者によって記号体系に微妙な点で違いがあることも悩みの種だった。

大型計算機のデータの入出力の標準になっていたのは 80桁のパンチカードで,納品が磁気テープであってもフロッピーであっても,80桁が基本だった。そこで, 80桁に収まるようにデータの構造を設計した。しかし,これも,固定長であるがための苦肉の策で,語形が例外的に長い場合や,回答語形の数が 3以上のときは特別な処理をしなければならなかった。

データの公開と活用

GAJの第 1集が刊行されるときにすべての回答を印刷して公開しようということになった。問題はプログラムで,私が作成したのだがこれが出版直前になってもなかなか完成しない。もし最後まで駄目だったら,せっかく入力したデータが日の目を見ずに朽ち果てるところだったが,ぎりぎりまで待ってもらってやっと動くものができた。

その後, GAJのすべての地図に対してはそのデータを印刷したものが資料一覧としてつけられるようになった。したがって,全データをほぼ記録された通りの形で見ることができる。また,その後の調査研究の中で電子化されたデータが整備され,直接いろいろな研究の材料として利用することができるようになった。所期の目的が達成されてうれしい限りである。

※「国語研の窓」掲載の原稿(上記)に加筆した原稿も掲載しています。あわせてご覧ください。
「方言文法全国地図」データの電子化(加筆原稿)[PDF/0.1MB]

「国語研の窓」第29号 「研究室から:『方言文法全国地図』の30年」:https://kokken.jp/mado/29/29-02/

方言研究の部屋:http://www.kokken.go.jp/hogen/

『国語研の窓』は1999年~2009年に発行された広報誌です。記事内のデータやURLは全て発行当時のものです。