12. 小结:设置开发集和测试集

  • 从能反映你将来希望获得哪些数据并想做得更好的分布中选取开发集和测试集。这可能不同于你的训练集。

  • 如果可能,从同一分布中选取开发集和测试集。

  • 为你的团队选择单数评估指标进行优化。如果你的关心目标有多个,请考虑将他们组合成一个公式(例如求多个错误标准的平均值)或定义满意标准和优化标准。

  • 机器学习是一个高度迭代的过程:你可能尝试很多想法,然后找到你最满意的一个。

  • 具有开发/测试集和单数评估指标可以帮你快速评估算法,从而更快的迭代。

  • 当开始新的应用程序是,尽量在不到一周的时间内建立开发/测试集和度量标准。在成熟的应用上花费更长的时间可能也是可以的。

  • 当你有大量的数据时,以往的70%/30%的训练/测试集的拆分方式就不适用了;开发集和测试集可能远远少于30%的数据。

  • 你的开发集应该足够大到足以检测算法在准确率上的有意义变化,但也不一定非要特别大。你的测试集应该足够大,以便对你的系统性能有一个充分的估计。

  • 如果的开发集和评估指标不再能指引你的团队向着正确的方向发展,请尽快更改它们:(i)如果过拟合了开发集,请获取更多数据。(ii)如果你关心的实际分布与开发集/测试集分布不同,请或许新的开发集/测试集。(iii)如果你的评估指标不能衡量对你重要的内容,更换评估指标。

Last updated