题目
模型先在测试集上评估,随后发现一个 bug,修复代码后又用同一测试集来验证修复并在两个修正版之间做选择。为什么第二次使用已经不是干净的测试?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。