← 返回数学题库
5089机器学习困难essaymedium

强化学习训练诊断 23

题目

为什么当函数逼近、bootstrapping 和分布偏移同时出现时,off-policy 学习会变得脆弱?

解题计时

0:00

提交作答时记录,用于后续平均用时统计。