2018年,谷歌推出Cloud AutoML,宣称不论有没有机器学习相关的背景,哪怕是个IT“小白”,都可以通过 AutoML 简单、高效地进行工作所需的模型训练,AutoML甚至被称为“下一代”机器学习系统。此后,有关AutoML的消息层出不穷,InfoQ更是进行了专题报道。
然而,近期的一篇文章却认为:AutoML似乎有些炒作过度。该文章的作者更是对此进行了一番实验:他的方案在几乎所有测试场景下都获得了高于AutoML的分数。
我在自己的日常工作中使用过AutoML,参加过几次ML竞赛,外加两次AutoML技术比赛。我觉得AutoML提出的建模流程自动化概念非常重要,但多少还是有点吹过头的感觉。虽然特征工程以及用于超参数优化的元学习等关键概念值得肯定,而且拥有可观的潜力,但就目前来讲,购买打包出售的AutoML工具基本上就是在浪费金钱。
以下所有内容都以数据为基础。
AutoML是什么?
数据科学项目
一切数据科学项目都涉及几个基本步骤:从业务角度提出问题(选择任务与成功指标)、收集数据(收集、清洁、探索)、建立模型并评估性能、在生产场景中部署模型并观察模型的实际表现。