国立国語研究所の田中弥生 プロジェクト非常勤研究員(音声言語研究領域)が、「言語処理学会第27回研究大会 優秀賞」を受賞しました。
2021年3月15~19日、言語処理学会第27回年次大会(NLP2021)が、主にZoomとSlackを利用したオンライン形式で開催されました。大会では5日間にわたり、論文の発表、講演、チュートリアルやワークショップなどが行われました。本賞は、同大会において内容に優れたものと認められた発表論文に与えられる賞です。授賞理由を含め、詳細は以下のサイトでご覧いただけます。
言語処理の学会でこのような研究を評価していただき大変ありがたく思います。いろいろな方にご指導やご協力をいただいて「脱文脈化」の観点からの研究を進められていることに、感謝しております。
(田中弥生 プロジェクト非常勤研究員)
受賞論文タイトルにある「児童作文」は私たちにとってなじみ深い対象ですが、「脱文脈化」は日常では耳にしないことばですよね。どういったものなのでしょうか。田中弥生さんご自身に、研究内容を教えてもらいました。
本研究における「脱文脈化」とは、「いま・ここ・わたし」からの隔たりを、空間と時間の観点から検討するものです。例えば、目の前の相手に向かって「その本を取って」と言ったり「お醤油をどうぞ」と言ったりするのは、「いま・ここ・わたし」のその場における文脈化した(つまり、最も脱文脈化程度が低い)内容ですが、「わたし昨日お醤油使い切っちゃった」であれば時間的に「いま」と離れていますし、「来年新しい図書館が駅前にできるんだって」の場合は、時間的にも空間的にも「いま・ここ・わたし」と距離があります。さらに、「醤油は、大豆や小麦から作られる調味料だ」のように成分や性質、定義などを述べるものは、「いま・ここ・わたし」に直接関わらない、最も脱文脈化程度の高い内容です。
幼児は目の前のことから話し始め、成長に従って、過去のことや、その場にいないおばあちゃまのことを話したり、戦隊モノの説明をしてくれたりするようになります。今回、児童の作文をこの脱文脈化程度の観点から検討してみたところ、作文のテーマや学年層によって、使用される脱文脈化程度が異なり、また、作文の中での、脱文脈化程度の推移にも特徴が見られることがわかりました。今後、現場の先生方の評価との関連や、作文指導への応用の可能性などについても、さらに検討していく予定です。
この他、『日本語日常会話コーパス』のデータを使用した職場での打ち合わせや、手順を説明する談話、認知症予防の取り組みの談話なども対象にして、様々な談話やテキストにおける脱文脈化の観点からの分析の可能性を検討しています。
本研究は、下記の研究によるものです。
実はわたしたちのごく身近にある技術です。例えば、みなさんはコンピュータやスマートフォンから日本語の文字を入力した後、当たり前のように、かな漢字交じり文へと変換を行っていませんか。インターネットを使って検索をしたり、外国語のサイトを自動翻訳を使って閲覧したり、中には音声を使って家電の操作をしている人もいることでしょう。それら全ての技術に「自然言語処理」が関わっています。
わたしたちが普段、日常で使っている「ことば=自然言語」には、大変曖昧な部分が含まれています。そのため、そのままの形では機械(AI)が理解できるプログラミング言語に変換することはできません。そこで、人が使う膨大なことばを収集・分析して、処理をする技術が必要となります。それが自然言語処理(NLP)です。その研究には「人はことばをどのように理解しているのか」といった言語学の研究も欠かせません。