ことばの波止場

Vol. 11 (2022年3月発行)

特集 : コーパスアノテーションの拡張・統合・自動化に関する基礎研究

コーパス基礎研究
特集 : ②そのほか基幹プロジェクト・基礎研究

コーパス開発センターでは,コーパス検索系『中納言』『まとめて検索 KOTONOHA』の整備・開発と並行して,コーパス基礎研究共同研究プロジェクト「コーパスアノテーションの拡張・統合・自動化に関する基礎研究」を進めています。所外の研究者とともに音声班・統語班・意味班の3つに分かれて,先進的な言語資源整備に関する研究を進めました。音声班はリアルタイムMRI 動画撮像技術を用いて日本語の調音運動を観測した『リアルタイムMRI 調音運動データベース』を構築しました。調音音声学における新しい客観データとして期待されています。統語班は言語横断的な依存構造ツリーバンク構築プロジェクト『Universal Dependencies』に参画し,日本国内の研究者の取りまとめを行うとともに日本語 Universal Dependencies 言語資源を整備しました。同データは言語類型論・心理言語学で利用される世界最大規模のツリーバンク集となっています。意味班は『分類語彙表』に基づく語義データベースの構築を進め,国語辞典語釈・形態素解析辞書との対応付けや,単語親密度情報付与を進めました。また,『現代日本語書き言葉均衡コーパス』と『日本語歴史コーパス』の一部に対して,語義ラベルとして分類語彙表番号を付与しました。

いずれの研究も工学系研究者とともに深層学習に基づく言語資源構築の自動化についても研究しました。さらに,企業との共同研究を進め,様々なオープンソフトウェアとしての言語解析器を公開しました。

(浅原正幸/コーパス開発センター・教授)