5071机器学习简单数值题short

由 Q-learning 更新反推未来最优值 6

题目

一次表格型 Q-learning 从旧值 Q=0.2 开始，使用学习率 alpha=1、奖励 0.5、折扣因子 gamma=0.9。更新后 Q 值变为 2.9。算法隐含使用的 max_a' Q(s',a') 是多少？

解题计时

0:00

提交作答时记录，用于后续平均用时统计。

你的答案

数值

支持题库 schema 允许的整数、小数、分数或四则表达式。