5073机器学习简单数值题short
由 Q-learning 更新反推未来最优值 8
题目
一次表格型 Q-learning 从旧值 Q=-0.4 开始,使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max_a' Q(s',a') 是多少?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案
题目
一次表格型 Q-learning 从旧值 Q=-0.4 开始,使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max_a' Q(s',a') 是多少?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案