[論文紹介]“What is your data worth? Equitable Valuation of Data"

https://arxiv.org/pdf/1904.02868.pdf

概要

教師あり機械学習を各データポイントによる共同作業と見なす。各データポイントはプレイヤーであり、学習アルゴリズムを通して共同して予測スコアの向上を目指す。ゲーム理論で提案されたシャープレイ値を用いてプレイヤーである各データポイントが得るべき公平な報酬額を計算することで各データピントの学習への寄与度を定量的に評価する。

手法

教師ラベル付き学習データ(D), 学習アルゴリズム(A), 予測スコア(V)の3要素を用いてデータシャープレイ値φ(D, A, V)を求める。φを求める式はゲーム理論のシャープレイ値とほぼ同一。ただし、この式で全体の報酬額を計算しようとすると、データポイント一つ一つ計算しなければならず計算量的に大変なので、モンテカルロ近似を用いる。 f:id:HealthcareIT_interpreter:20190823082917p:plain

結果

誤ったラベルを付けられたデータポイントのデータシャープレイ値は低くなる。これにより正しいラベル付けがなされているか定量的に評価できるようになる。

低いデータシャープレイ値を持つデータポイントを学習データから除外するとモデルのパフォーマンスは向上する。逆に高いデータシャープレイ値を持つデータポイントを除外するとモデルのパフォーマンスは低下する。

コメント

ゲーム理論において協力によって得られた利得を各プレイヤーに後世に分配する方法の一案として1953年に提案されたシャープレイ値を機械学習領域に拡張しデータシャープレイ値とした発想には脱帽する。各プレイヤーがそのまま各データポイントに置き換えられた。ゲーム理論においては各プレイヤーは協力によって報酬を得られるため、協力にインセンティブが働くが、機械学習の場合、各データポイントを提供するデータ提供者(各プレイヤー)が同様に報酬を期待してモデルの学習に有利なデータを優先的に集めるようになると、観測分布と真の分布に乖離が生じさせてしまう恐れはある。その点も考慮してか著者はDiscussionで「データ提供者がデータシャープレイ値に応じて報酬を得るべきと提案しているのではなく、単に各データポイントの定量的評価指標として有意義に利用できると考えている」としている。そのような憂慮がある一方、学習に有効なデータが欠乏している状況下でデータを追加的に集める段階においては、データ収集者(およびデータ提供者)にインセンティブを与えることで経済合理性を働かせてデータ収集業務を劇的に効率化させることが可能になるのではないだろうか。