ニュース

2020.03.30 2020年03月30日 イベント報告

第38回人文機構シンポジウム「~ コンピュータがひもとく歴史の世界 ~デジタル・ヒューマニティーズってなに?」を開催しました

いま、人文学の世界にも新たな波が起こっています。その中の一つに人文学に情報学の手法を応用し、新たな発見や分析を行う「デジタル・ヒューマニティーズ」があります。コンピュータを使うことで人文学はどのように変わっていくのでしょうか。2020年1月25日(土)、日比谷図書文化館(東京都千代田区)にて第38回人文機構シンポジウム「~ コンピュータがひもとく歴史の世界 ~デジタル・ヒューマニティーズってなに?」が開催されました。

朝日祥之准教授による講演
人文機構シンポジウムにて講演をする朝日祥之 准教授
デジタル・ヒューマニティーズとは
人文学の課題に対して情報技術を応用する学問で、大きく蓄積系(大規模データベースなど)、解析系(コンピュータによる量的な解析や統計処理)、可視化系(地図、VR [仮想現実]、AR [拡張現実]、 3D化など)に分かれます。

シンポジウムでは人間文化研究機構の研究者2名に他分野のコメンテーター3名を迎え、双方の立場から「AIの可能性、限界、課題」について、熱のこもった議論が交わされました。参加者はコメンテーターの鋭い突っ込みに感心したり爆笑したりと、終了時間まで存分に楽しんでいた様子でした。今回は、国立国語研究所の朝日祥之 准教授(言語変異研究領域)の講演をメインにシンポジウムの様子をご紹介します。

コンピュータが読む写真
(朝日祥之 国立国語研究所 言語変異研究領域 准教授)

最近の私たちの生活では、スマートフォン(スマホ)の普及により気軽に写真撮影ができるようになりました。みなさんが撮影しているそのスマホには、いったい何枚の写真が入っていますか? 撮影した写真にテーマはあるのでしょうか? 人物? 風景? 食べ物? どれが一番多いですか?

朝日 祥之 准教授

多くの人はあまり意識しないで写真を撮っているため、自分のスマホやパソコンに入っている写真の傾向を問われても困ってしまうことでしょう。ましてや自分の写真ですらない、見知らぬ人が撮影した写真となるとどうでしょうか。撮影者も撮影場所もわからない昔の写真を分類するとなると、きっと途方に暮れてしまいます。

今回の朝日先生の講演は、このような写真や映像を、コンピュータの自動処理により分析・資料化していくお話でした。

コンピュータによる処理。1.写真を対象とした処理(写真に何が写っているか)人の作業ではなく、コンピュータによる。2.モノクロ画像を対象とした処理(映像をカラー化させる)ディープラーニングによる処理。カラー化(カラー化することでわかること)

比嘉太郎の写真を分類する

朝日先生が研究しているテーマのひとつに、ハワイ日系社会の歴史と言語文化があります。以前、国立歴史民俗博物館で行われたハワイ展でも紹介しましたが、その研究をする上で重要な人物のひとりに、沖縄にルーツを持つ日系アメリカ人兵士 比嘉太郎がいます。彼が残した資料は現在、日米の資料館に分散して保管されているそうですが、背景の情報がよくわからない写真も数多く残されていました。それらをいかに分析・データ化していけばいいのでしょうか。

AIを使って画像を分析する

さまざまな処理の仕方がある中で、今回、朝日先生が紹介したのは「Clarifai」という画像識別サービスです。これはインターネット上に提供されているサービスで、AIが画像を分析し、自動的にキーワード付けを行ってくれる機能があります。

「Clarifai」に写真を読み込ませると、AIが自動的に20のキーワードを付けてくれます

二人の兵士
「Clarifai」で画像を分析した画面例(※講演で使用された写真ではありません)
Clarifai (https://www.clarifai.com/)

さらに、写真についたキーワードを集めていくと、リアルタイムでビビッドに動く図が出来上がります。頻度の多いキーワードは集まるに連れて画面上に大きな円を作っていくため、たとえ大量の写真データがあろうとも、私たちは「何が一番大きなコンセプトになるのか」を瞬時に、視覚的に把握できるのです。

Clarifaiの画面 : キーワードの視覚化

まとまった量の画像を処理することで「初めて見えてくるもの」がある、と朝日先生は続けます。例えば「コーパス」は大量の言語データを処理するのですが、そのことにより、手作業ではわからない面白い発見があったそうです。画像処理におけるClarifaiの認識技術にも、同様の貢献が期待されます。

コーパスとは、
言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。詳しくは、国立国語研究所で構築したコーパス(https://clrd.ninjal.ac.jp/)をご覧ください。

モノクロ映像(写真)のカラー化

ディープラーニングによる処理

次に、NHKアーカイブスの協力により、生前の比嘉太郎が話しているモノクロ映像をカラー化した話が披露されました。映像は当時のベータマックス形式で撮影されていたため変換には大変苦労したとのことでしたが、ディープラーニングで学習したAIの機械処理により、映像に自動で色を付けることに成功したということです。

映像や画像をカラー化することで何が起こるのでしょうか。下の写真を比較してみてください。モノクロとカラー写真、みなさんが細かい部分に気づくのはどちらでしょうか。

モノクロとカラー写真の比較(ガイドブックを見る外国人観光客)
モノクロとカラー写真の比較例(※実際のカラー化画像ではありません)

画像をカラー化することにより、人は、中にある情報をより多く読み取る傾向があるようです。研究においても、カラー化によりこれまで失われていた情報が復活する可能性があり、資料の可視化・高度化にも大変有効だということです。

写真読み取りのこれから

では、AIによる自動認識処理は万能なのでしょうか。残念ながら、現在では万能の自動認識システムは開発されていません。

例えば、次のようなシーンを考えてみてください。飲食店の「ユーモラスな看板」を気に入って撮影したスナップショットに、たまたま通行人が大きく写り込んでしまいました。これを「Clarifai」で分析したら、Clarifai は撮影意図に沿ったキーワードを提示してくれるのでしょうか。

ユーモラスな看板のある居酒屋の写真をClarifaiで分析した画面
例に類似するイメージ写真を作成しClarifaiで分析した画面 (※実際の講演に使用された写真ではありません)

残念ながら、このような状況では難しいようです。AIには「撮影者の意図」までは汲み取れないのです。つまり撮影者がどういう思いで何のために撮影したのかは、私たち人間が考えなくてはいけないのだ、と朝日先生は続けます。

「AIのディープラーニングによる写真認識技術の向上には、今後も期待しています。私たちはAIがどこまではでき、どこまではできないのかを知った上で、私たち使い手がどういう風にAIに写真を認識させたいのか、何に利用するのかを考え、発信していくことが大事です。」

より良い技術を期待して。ディープラーニングの技術の向上に期待。学習させたリソースでできることを知る(できないこともあることを知る)。利用者がどうしたいのか。私は私のためにやる。

最善主義と完璧主義

総合討論においても、北本朝展 センター長(情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター)の提言された「最善主義と完璧主義」をキーワードに、多くの議論が交わされました。これは、AIが 20%の時間で 80%の成果を上げたとすると効率化の面で AIは有効と考えられる(最善主義)が、人文学研究で100%を目指す場合(完璧主義)はその後の20%が大変厳しい作業となってくる。下手をするとAIを使わない方が効率的ということも起こりうる、というものです。

人文学研究独特の難しさに言及しながらも、AIは自動で何でもできるコンピュータではないが、人間(研究)の苦痛を軽減するツールとしての価値があり、多くの可能性がある。AIを利用することで、研究者は人にしかできない価値づくりに専念し、大いに学問を発展させていけるのではないかという総括をもって、このシンポジウムは結ばれました。

朝日祥之 准教授のコメント

コンピュータを使い、大量の情報を自動で処理することで、これまで知りたかったことがわかったり、これまであまり気にならなかったことを発見したりします。コーパスを使った研究ももちろんですが、この処理は写真資料にも当てはめられます。
特に近代以降の資料には大量の写真が存在しています。その資料の性格を知る出発点として、写真の自動認識を活用することが考えられます。使用した写真に共通しているもの(人物の写真が多いか、風景の写真が多いのか)を調べることができるからです。

今の技術ができることを的確に把握した上で、写真資料の理解を深めていきたいと思います。

(朝日祥之 国立国語研究所 言語変異研究領域 准教授)

『Nihuマガジン』

  • 大学共同利用機関法人 人間文化研究機構 『Nihuマガジン』
    「vol.047 – ~ コンピュータがひもとく歴史の世界 ~デジタル・ヒューマニティーズってなに? 第38回人文機構シンポジウムについて」
    https://www.nihu.jp/ja/publication/nihu_magazine/047

今回のシンポジウムで紹介されたサイトやプロジェクト

  • 国立歴史民俗博物館 監修、後藤 真・橋本雄太 編『歴史情報学の教科書 歴史のデータが世界をひらく』全文公開https://bungaku-report.com/metaresource.html
    人文学に必要なこれからの情報基盤の作り方とは。複数の手段を用いて、新たな歴史像に迫るために。情報を共有して、課題を解決するプラットフォームを構築するために。情報を可視化して、社会の深層にコミットしていくために。歴史情報学で出来ることを、知るところからはじめよう!
    ※ 文学通信より書籍も出版されています
  • みんなで翻刻https://honkoku.org/
    市民のボランティア参加によるクラウド翻刻。地震関係の古文書を対象に、現代の文字に置き換えて多くのデータを蓄積していくプロジェクト
  • KuroNetくずし字認識サービスhttps://mp.ex.nii.ac.jp/kuronet/
    ディープラーニングを用いた多文字くずし字OCRサービス
  • ROIS-DS人文学オープンデータ共同利用センターhttp://codh.rois.ac.jp/
    情報学・統計学の最新技術を用いて人文学資料(史料)を分析する「データ駆動型人文学」や、人文学研究の成果に基づき構築したデータセットを超学際的に活用する「人文学ビッグデータ」など
  • Wikipediahttps://ja.wikipedia.org/wiki/
    誰でも編集できるフリー百科事典
  • 青空文庫https://www.aozora.gr.jp/
    インターネットさえあれば誰にでもアクセスできる〈青空〉をひとつの公開書架として、自由な電子本を集める活動
  • Open Street Map 自由な地図をみんなの手に(https://openstreetmap.jp/
    誰でも自由に地図を使えるよう、みんなでオープンデータの地理情報を作るプロジェクト

人間文化研究機構が提供する 便利なデータベース検索サービス

総合検索システム nifuINT

国内の人間文化に関する研究資料を横断的に検索できる無償のウェブサービスです。日本国内の8つの組織・研究機関が保有している膨大な研究資料のデータベースにアクセスして、お探しの資料の保管場所や基本情報を調べることができます。

総合検索システム nifuINT パンフレット
https://int.nihu.jp/
以下の8組織・研究機関のデータベースを横断的に検索できます
  • 大学共同利用機関法人 人間文化研究機構 (国立歴史民俗博物館、国文学研究資料館、国立国語研究所、国際日本文化研究センター、総合地球環境学研究所、国立民族学博物館)
  • 国立国会図書館
  • 京都大学東南アジア地域研究研究所
総合検索システム nifuINTのパンフレット
第38回人文機構シンポジウム「~ コンピュータがひもとく歴史の世界 ~デジタル・ヒューマニティーズってなに?」

【講演者】後藤真 准教授(国立歴史民俗博物館)、朝日祥之 准教授(国立国語研究所)
【コメンテーター 】北本朝展 センター長(情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター)、霜山文雄 氏(NHK 知財センター アーカイブス部チーフディレクター)、日下九八 氏(元ウィキペディア管理者)
【 総合討論 司会】岸上伸啓 理事(人間文化研究機構)