19. 基本错误分析

  • 当你开始一个新项目时,特别是当你并不是该领域的专家时,很难正确猜测最有希望的方向。

  • 所以不要试图设计和构建完美的系统。相反,可能会在几天内尽快建立和训练一个集训系统。然后使用错误分析帮你确定最有前途的方向并从哪里迭代改进你的算法。

  • 通过手动检查大约100个开发集上算法误分类的样本并计算错误的主要类别。使用这些信息来确定需要修复的错误优先级。

  • 考虑将开发集分成需要手动检查的眼球开发集和不会手动检查的黑盒开发集。如果算法在眼球开发集的表现比黑盒开发集的表现好的多,那么你已经过拟合了眼球开发集,并应考虑为眼球开发集获取更多的数据。

  • 眼球开发集应该足够大以便你的算法提供足够的误分类样本供你分析。对于很多应用程序来将,1000-10000个样本的黑盒开发集已经足够。

  • 如果你的开发集不够大,将无法按照这种方式拆分,只需眼球开发集进行手动错误分析,模型选择和超参数调整。

Last updated