ニュース

2020.04.14 2020年04月14日 お知らせ

言語資源協会・言語処理学会「NLP2020 言語資源賞」受賞(浅原正幸 教授・加藤祥 さん)

国立国語研究所の浅原正幸 教授(コーパス開発センター)と加藤祥さん(国立国語研究所 プロジェクト非常勤研究員 [受賞当時] )が言語資源協会・言語処理学会「NLP2020 言語資源賞」を受賞しました。

BERTed-BCCWJ 言語資源協会・言語処理学会「NLP2020 言語資源賞」受賞(浅原正幸 教授・加藤祥 さん)

「NLP2020 言語資源賞」とは

言語資源賞は、言語処理学会年次大会にて発表された論文の中から、優れた言語資源を作成したと認められるものに授与される賞です。言語処理学会と言語資源協会(GSK)との共同事業です。賞の選考対象となる論文は、言語資源(コーパス、辞書、ツールなど)に関するものであり、著者が発表申込時に言語資源賞の審査を希望すると表明した論文です。今回は85件の論文が対象となり、そのうち3件への授賞が決まりました。(特定非営利活動法人 言語資源協会 サイトより)

受賞論文
  • 「BERTed-BCCWJ :  多層文脈化単語埋め込み情報を付与した『現代日本語書き言葉均衡コーパス』データ」 浅原正幸、 加藤祥 (国語研)
    https://www.anlp.jp/nlp2020/program.html#B4-4

授賞理由

本論文は、『現代日本語書き言葉均衡コーパス』(BCCWJ)に、『国語研日本語ウェブコーパス』(NWJC)12.8億文から訓練したBERTモデルによる多層文脈化単語埋め込み情報を付与した、BERTed-BCCWJについて報告しています。単語埋め込みの評価では、分類語彙表の現在・過去・未来の言語情報に、ベクトル空間上で異なるベクトルが付与されることが確認できています。多層文脈化単語埋め込み情報を付与したデータは、研究基盤として、工学・言語学・脳科学などの学際領域への活用が期待されます。

(特定非営利活動法人 言語資源協会 サイトより)

頭の中のイメージ

受賞のことば

単語埋め込みは、可変長離散系列である言語を数百次元の実ベクトル空間に写像する技術です。既存の単語埋め込み技術は語(タイプ)に対するベクトル表現でしたが、ELMo などに代表される文脈化単語埋め込みは語の出現(トークン)に対するベクトル表現をもたらします。また、 BERT と呼ばれる自然言語処理の事前学習モデルは、質問応答システムや自然言語推論(含意関係認識)などで既存手法を大幅に上回る性能を達成していますが、ELMoと同様に文脈化単語埋め込みを出力します。

この文脈化単語埋め込みは、語の出現同士の類似度を定量的に調査できることから
「多義語の語義間類似度をはかりたい」
「基本義から比喩表現(提喩・換喩を含む)への転換について定量的に評価したい」
といった言語研究者のわがままな願望をかなえる可能性がある重要な技術でもあります。

国立国語研究所コーパス開発センターでは、2011-2016年に整備した200億語・12億文を超える『国語研日本語ウェブコーパス (NWJC)』を用いて、『分類語彙表番号-UniDic語彙素番号対応表 (WLSP2UniDic)』の語彙素に対応する形式で、言語研究向けの BERT である NWJC-BERT を今回新たに構築しました。このモデルを『現代日本語書き言葉均衡コーパス』に適用して、各単語に 768次元のベクトル情報を付与したものが BERTed-BCCWJです。

図 : BERTed-BCCWJ (※図をクリックすると拡大PDFに遷移します)

評価においては、『現代日本語書き言葉均衡コーパスに対する分類語彙表番号付与データ (BCCWJ-WLSP)』における現在(分類番号 .1641)・過去(同 .1642)・未来(同 .1643) を抽出したうえで、「今度」(図上部 : 現在 or 未来)や「先」(図中央 : 過去 or 未来)の多義性が識別できることを確認しました。また「USAトゥデー」や「トゥモローランド」といった時間性を帯びない固有表現が他の表現から区別されることも確認しました(図左下)。

今後、同データと脳活動データとを対照することで、現在・過去・未来のことを考えているときに脳のどの部分が活動するのかという調査を行います。また『日本語歴史コーパス』にも文脈化単語埋め込み情報付与データ BERTed-CHJ を構築することで、語義の通時的な変遷の分析(語源の調査)を行うほか、基本義を同定したうえで語義の転換現象(比喩・換喩・提喩)の研究を進めます。

(国立国語研究所 コーパス開発センター 浅原正幸 教授)

関連情報

本研究は、下記の研究および国立国語研究所コーパス開発センター共同研究プロジェクトによるものです。