ことばの波止場

特集 : AIは皮肉を理解する？日本語の間接発話理解 : 第一言語、第二言語、人工知能における習得メカニズムの認知科学的比較研究

AIは皮肉を理解する？

皮肉がわかるAIが求められている

皮肉とは、現実に反することを意図的に言うことで、話し手の否定的な態度を間接的に伝える表現である。例えば、いつも時間にルーズで、今日も待ち合わせの時間に遅れてきた友人に対する「今日も時間ぴったりだね」という発話を考えてみるとよい。友人どうしの会話であれば軽い冗談として受け流すことも可能であるが、それでも相手が快く思っていないことは伝わるであろう。私たちが日常的に会話を交わす中で、あまり皮肉を言う／言われることはない。一日に何回も皮肉を言う皮肉屋さんとは、あまり付き合いたくないのが人情である。では、なぜそんなニッチな表現をAIに理解させる必要があるのだろうか。

2014年6月に米国のシークレットサービス（要人の警護や捜査・諜報を行う機関）がソーシャルメディアにおける皮肉的な発言を検出するソフトウェアを求めているというニュースが報じられた。シークレットサービスは、犯罪やテロなどの予兆を把握するために、常時Twitterなどのソーシャルメディアに投稿される発言を注視している。その際に、センチメント分析という手法を用いて、発言の極性（発言内容がポジティブかネガティブか）を自動で判断している。しかし、皮肉の場合には（前述の例のように）表面的にはポジティブなことを言いながら、真意はネガティブである。よって、通常のセンチメント分析では誤ってポジティブな内容（＝問題ない発言）と判断してしまうため、その前に皮肉かどうかを検出することが求められるのである。

AIは教師データから皮肉を理解する

このようなニーズもあって、自然言語処理（言語を扱うAIの一分野）では、ソーシャルメディアの発言を対象とした皮肉検出の研究が盛んに行われている。そこでは、大量の皮肉発言と皮肉でない発言を収集して教師データとし、ディープラーニングなどの機械学習に基づく手法を適用して、皮肉かどうかを判定する分類モデルを自動で学習する。その性能は、現在では少なくても80％以上の発言を正しく判定することができる。

一方で、学習された分類モデルは一般的に中身はブラックボックスであって、私たちが理解できる形でどのように皮肉と判断したかを知るのは容易ではない。また、Twitterでの皮肉は日常会話の皮肉とは異なる性質をもっている。例えば、「今日も遅れて来るなんて、何て時間に正確なんだろう」というように、言語表現内に矛盾する内容を含めるような表現が多用される。これは、その場で発話のやり取りをする日常の会話とは異なり、あくまでも単発の「つぶやき」であるという性質による誤解を避けるためであろう。（このような現象は言語学の研究対象として興味深い。）

人間の皮肉理解をモデル化する

そこで、私たち人間が皮肉をどのように理解しているかという認知プロセスを考えて、それをモデル化するというアプローチを考えてみる。皮肉が発話される場面を観察すると、話し手はあることを期待していながらそれが満たされておらず、その現実に対して否定的な態度を持っているという特徴がある。このような状況をアイロニー環境と呼ぼう。アイロニー環境を相手に暗黙的に提示するのが皮肉であり、そのための発話は期待に言及しつつどこか逸脱を含むという特徴が見られる。皮肉を言われた側は、その表現上の手がかりを参照しつつ、今の状況が皮肉を言いやすい状況かどうかを判断して、皮肉かどうかを理解している。これが、私が提案している暗黙的提示理論という枠組みである。

この枠組みをベイズモデルという統計的な手法を援用してモデル化してみよう（図1）。

求めたいのは、ある状況Cで発話Uが皮肉と判断される確率である。この確率は、状況Cで皮肉が発話される確率（事前確率と呼ばれる）と状況Cで皮肉を意図するときに発話Uを用いる確率（尤度と呼ばれる）の積で計算できる。暗黙的提示理論と照らしあわせて大雑把に言うと、事前確率は状況Cがアイロニー環境となる確率を表し、尤度は状況Cでの発話Uが暗黙的提示になる確率を表している。

このモデルを用いて、以下のような文章における発話の皮肉確率を推定する。

状況 : あなたは、友だちの引っ越しの手伝いに行きました。あなたはすぐに疲れてしまい、みんなの邪魔になっていました。友だちはあなたに言いました。

発話 : 「手伝ってもらって本当に助かったわ」

また、同じ文章を読んだときに皮肉であるかどうかを5段階（0〜4）で複数の人に尋ねた。40件の文章に対する結果が図2である。全体的に皮肉確率は低く見積もられているが、人間の判断と弱い相関（r＝0.39）が見られた。また確率0.1以上で皮肉と判断すると、27件（67.5%）が正解となった。性能としてはまだ不十分であるが、大量の訓練データから分類モデルを学習しなくても、理論に基づくモデル化でこのくらいの判断ができるのである。

グラフ（縦軸は皮肉確率、横軸はひとの評定値） — 図2 同じ文章を読んだときの皮肉確率と人の評定値

AIは皮肉を理解できるか

さて、表題の問いに戻ろう。現在のAIは、皮肉である／ないとわかっている訓練データからその違いを見つけ出すことで、分類モデルを学習する。しかし、そのモデルはあくまでも皮肉かどうかを答えることしかできない。一方で人間は、皮肉かどうかを答えるだけではなく、なぜ皮肉と思うのかや、相手が自分に対してどう思っているのかなども答えることができる。また、人間は皮肉かどうかを絶えず判断しているわけではなく、様々な可能性を総合的に判断している。そういう意味では、人間と同等の「理解」をしているとは、まだ言えないであろう。計算機科学の創始者であるアラン・チューリングは、今から70年前に「ある人が、相手が見えない状態で1人の人間と1台のAIとことばで自由に会話をして、人間とAIが区別できなければ、そのAI は人間と同じ知能を持つと言える」というチューリングテストを提案した。チューリングテストを真の意味でパスするような、総合的な判断のできるAIが誕生して初めて、AIは皮肉を理解できるのかもしれない。

（電気通信大学・教授／内海彰）