GLOBAL SEARCH

搜索课程、模块、题目与收藏题单

搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。

找到 30 个结果

English questions
题目5071 · 机器学习

由 Q-learning 更新反推未来最优值 6

一次表格型 Q-learning 从旧值 Q=0.2 开始,使用学习率 alpha=1、奖励 0.5、折扣因子 gamma=0.9。更新后 Q 值变为 2.9。算法隐含使用的 max_a' Q(s',a') 是多少?

打开 →
题目5072 · 机器学习

由 Q-learning 更新反推未来最优值 7

一次表格型 Q-learning 从旧值 Q=1.1 开始,使用学习率 alpha=0.5、奖励 0.2、折扣因子 gamma=0.8。更新后 Q 值变为 1.6。算法隐含使用的 max_a' Q(s',a') 是多少?

打开 →
题目5073 · 机器学习

由 Q-learning 更新反推未来最优值 8

一次表格型 Q-learning 从旧值 Q=-0.4 开始,使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max_a' Q(s',a') 是多少?

打开 →
题目5074 · 机器学习

由 Q-learning 更新反推未来最优值 9

一次表格型 Q-learning 从旧值 Q=0.7 开始,使用学习率 alpha=0.4、奖励 0.3、折扣因子 gamma=0.9。更新后 Q 值变为 2。算法隐含使用的 max_a' Q(s',a') 是多少?

打开 →
题目5161 · 金融与交易

为什么陡峭曲线重要

为什么在其他条件不变时,向上倾斜的收益率曲线通常意味着持有债券会有正的 roll-down carry?

打开 →