論文紹介: "Towards Automated Machine Learning: Evaluation and Comparison of AutoML Approaches and Tools"

下記論文の紹介
https://arxiv.org/pdf/1908.05557.pdf

概要

Auto-MLを実現する各種ツールの機能と、様々なデータセットに対するパフォーマンスを調査したサーベイ

手法

各種データセットを独自の指標に基づいてセグメント分けして様々な比較をした。各種ツールのパフォーマンスを比較し、強みと弱みを炙り出した。

対象としたツール:

  • TransmogrifAI
  • H20-AutoML
  • Darwin
  • DataRobot
  • Google AutoML
  • Auto-sklearn
  • MLjar
  • Auto_ml
  • TPOT
  • Auto-keras
  • Ludwig
  • Auto-Weka
  • Azure ML
  • Sagemaker
  • H2O-Driverless AI

結果

ツールによって得意不得意があり(二値分類に強いけどマルチラベルに弱いなど)、また実行時間にも差がある。商用のツールは前処理やデータ構造の分析もサポートしていることが多い模様。 f:id:HealthcareIT_interpreter:20190820224404p:plain

コメント

AutoML系のツールを共通の指標で横断的に比較した研究はありそうで無かった。DataRobotが対象になっているのがありがたい。ところで(DataRobotの宿敵とされる)SAS Viyaは入ってなかったけどAutoML系ツールとして見なされてないのかな?