国立国語研究所の浅原正幸教授(コーパス開発センター)が下記の2つの賞を受賞しました。
言語資源賞は、言語処理学会年次大会にて発表された論文の中から、優れた言語資源を作成したと認められるものに授与されます。言語処理学会と言語資源協会(GSK)の共同事業です。賞の選考対象となる論文は、言語資源(コーパス、辞書、ツールなど)に関するものであり、今回は85件の論文が対象となりました。(言語資源協会 サイトより)
本論文は『分類語彙表』の約10万の見出し語に対して単語親密度を付与したデータを構築しています。対象単語に対し、「知っている」「書く」「読む」「話す」「聞く」の5つの観点について、16名以上のクラウドワーカから回答された親密度を収集しました。
例えば「書く」の場合、作業者はその単語がどのくらい普段書くものに出現するかを5段階で回答します。これらの観点は、書記言語と音声言語(「書く」「読む」vs.「話す」「聞く」)、生産過程と受容過程(「書く」「話す」vs.「読む」「聞く」)の2軸で単語の親密度の違いを分析できるように設計されています。
さらに、クラウドワーカ間のバイアスを軽減するために、ベイジアン線形混合モデルにより単語ごとの評定値を推定することも試みています。単語親密度を付与した辞書はこれまでにも存在しますが、クラウドソーシングによって多数の被験者の単語親密度を調査している点、また5つの観点で単語親密度を測っている点に特長があります。
(言語資源協会 サイトより)
「論文賞」とは、言語処理学会が、各年の1月から12月に出版された論文から優秀な論文を選定し与える賞です。
眼球運動に基づいたヒトの言語処理研究に興味をもち、テキストの読み時間の収集とその分析を進めてます。1000Hz で計測した読み時間データと精緻化した情報構造アノテーションを用いて、名詞句の情報構造の違いにより、数十ミリ秒単位の読み時間の差があることを明らかにしました。視線走査装置の手技の習得や情報構造アノテーション基準の検討など、チャレンジしている間は、ずっと楽しいヒトトキでした。その楽しかった研究の成果を、このように評価してくださり、たいへん恐縮です。どうもありがとうございました。
本論文は、読み時間データに対して言語情報アノテーションを重ね合わせて、さまざまな言語現象に対するヒトの読み時間の差異を検討する3部作のうちの1つです。残り2論文「日本語の読み時間と節境界情報ー主辞後置言語における wrap-up effect の検証」(『自然言語処理』2019年6月)と「読み時間と統語・意味分類」(『認知科学』2019年6月)もご一読くだされば幸いです。
(言語処理学会 サイトより)