言語処理学会の発表に見る機械学習のトレンド(1)感情分析(2)機械読解(3)質問応答 #Zaim

はじめまして、Zaim で機械学習を担当している @rin です。言語処理学会が 2019 年 3 月 12 日〜15 日に開催した「第 25 会年次大会」のうち、13 日と 14 日の本会議に参加してきましたので、その様子をレポートしたいと思います。

「年次大会」は年に一度の大きな発表の場

言語処理学会は、自然言語に関する理論から応用まで幅広い研究成果発表の場として設立された社団法人です。毎年 3 月に大規模な発表の場として年次大会を開催しています。

今年の会場は名古屋でした。初日の前夜祭ではチュートリアル、2 日目以降の本会議では口頭発表とポスター発表があり、私は今回、本会議のみ参加してきました。

テーマの主流は、機械学習。中でも(1)感情分析(2)機械読解(3)質問応答の三つがトレンドであることを強く感じました。

感情分析
人間の自然言語からコンピュータが喜怒哀楽などの感情を推測する技術のこと。顧客の好みの特定や SNS の分析など、さまざまな場面での応用が始まっている。

機械読解

コンピュータに文章を読ませて質問を答えさせる技術。2018 年 Google が公開した BERT(Bidirectional Encoder Representations from Transformers)というアルゴリズムが SQuAD 1.1(The Stanford Question Answering Dataset)という読解力テストで人間の正答率を超えたことがきっかけで、注目が高まっている。

質問応答
自由度の高い質問やチャットの文章から、適切な回答を導き出す技術。ユーザーの質問によって回答を変えるなど、定型的な文章を扱う「チャットボット」の進化系に当たる。

口頭発表でも、そのトレンドは色濃く出ていました。口頭発表は、15 分間のプレゼンテーションと 5 分間の質疑応答で、一人 20 分持ち時間です。中でも、上記三分野における印象に残ったセッションをご紹介します。

感情分析のセッション
「文書と絵からの感情認識手法の開発」

秋田県立大による発表です。

心理学者であるロバート・プルチックによると、人間の感情は「怒り、恐れ、期待、驚き、喜び、悲しみ、信頼、嫌悪」の 8 種類があるそうです。これに「感情なし」を加えた合計 9 種類の感情を、文書と絵のペアに当てはめるという手法の提案でした。

文書と絵を入力として使うことで、文書だけ・絵だけで判定よりも、感情認識の曖昧性が解消されるとのことです。

具体的な分類は、ざっくりと以下のような手法でした。

感情極性(ポジティブ・ネガティブ)認識器に文書と絵の特徴量を入力

感情三極性(ポジティブ・ネガティブ・ニュートラル)の確率分布を計算

上記を新しい特徴量として文書・絵の特徴量と 9 感情の感情認識器を入力

文書の特徴量は、 Facebook が開発した機械学習ライブラリである fastText を採用し、Wikipedia の概要を事前学習したモデルで作ったベクトルを使っていました。

機械読解のセッション
「機械読解によるWikipediaからの情報抽出」

日本ユニシスによる研究で、SQuAD のような読解力テストの「質問」と「回答」を Wikipedia から生成する手法の説明でした。

具体的には Wikipedia の「本文」をドキュメント、右カラムに表示される「属性名」を質問、「属性値」を回答と見なし、機械読解タスクとして取り扱います。

詳細には、以下のような方法での実装としていました。

Wikipedia のデータセットを機械読解の形式に変換

機械読解モデルの DrQA の Document Reader をベースにしたモデルで学習

補正ルールを適用し回答を抽出

質問応答のセッション
「Learning-to-Suggest: Product Recommendation via Several Questions」

マイクロソフト社による、

彼女にプレゼントしたいけれど、検索しても何をあげていいかが分からない

という課題を、どう解決するかという発表でした。何のキーワードで検索していいか分からないようなケースは、チャットボットによる提案の方が、よりニーズに沿った結果に近づけるかもしれません。

ただ、ユーザー自身は「彼女」の属性を知っていますが、十分な商品の知識はありません。一方、チャットボットは商品情報はいくらでも保持できますが「彼女」がどんな人かは分かりません。こうした「チャットボットとユーザー間の情報非対称問題」は、チャットボットがユーザーに適切な質問を繰り返し、「彼女」に関する必要な情報を取得していくことで解消されます。

そこでポイントとなるのが、質問の質です。強化学習によりニーズを探る質問を投げかけ、「彼女」の属性を学習しながら、データベースから最適な商品を推薦する仕組みについて紹介していました。

ポスター発表は満員御礼・すごい熱気!

別会場では、大きな紙にまとめた研究内容を展示しながら、見に来た人に説明したり質問に答えたりするポスター発表がありました。会場はすごい熱気で、常に満員状態でした。

学生や研究者以外にも企業による成果発表も目立っていました。テーマとしてはディープラーニングや機械学習がほとんどですが、心理学や語学に関連したものから化粧品レビューテキストを使った評価推定、Wikipedia のデータ構造化など、幅広い分野からのデータを使った研究が数多く展示されていました。

所感

機械学習やディープラーニングの盛り上がりを肌で感じられる 2 日間でした。データ処理は多くの手法の提案があったものの、性質や目的によって最適な方法が変わるので「試行錯誤こそ機械学習の醍醐味」というのを改めて感じました。

とてもいい刺激になったので、Zaim の中でも機械学習をどんどん取り組んでいきたいと考えています!

最後に

Zaim に興味がある方は、ぜひ!


この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

25

rin

#機械学習 #データサイエンティスト 記事まとめ

機械学習やデータサイエンティスト関連の記事を収集してまとめるマガジンです。
1つ のマガジンに含まれています
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。