”Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems"

https://arxiv.org/pdf/1906.09308.pdf

章立て

  1. Introduction
  2. Related work
  3. Knowledge distillation for sentiment and semantic regularization
  4. Interactive evaluation methodologies
  5. Experiments
  6. Conclusions

概要

"対話システムで、発話に対する人間の評価を予測する関数を作り、それに基づき自己対話(Self-Play)で学習したという研究。評価関数は感情、文関係、質問らしさ(?を含むか)を組み合わせた線形関数。再現可能なよう学習済みモデル+ルールで構成され実装も公開されている。" by https://github.com/arXivTimes/arXivTimes/issues/1352

手法

会話の質を評価する {\displaystyle M_H} という新たな指標を導入。 {\displaystyle M_H} をself-play(botが生成した応答軌跡)に適用させ、判定結果が人間による評価とどう関連しているかを調査した。なお評価対象の会話は複数ターンのものを用いた。

結果

新指標 {\displaystyle M_H} の評価は、人間による評価と強い相関(r>.7)を示した。

コメント

会話の質を判定する新指標{\displaystyle M_H}を導入し、これまで人間による評価に頼っていたところを機械に代替させようとする研究であることまでは容易に読み取れたが、botの会話トレーニングもこの新指標結果を最適化させる方法で行なっているのか、それとも別の評価指標を使ってやっているのか分かりにくい。