5066机器学习简单数值题short
由 Bellman 价值反推自循环概率 1
题目
在固定策略下,状态 s 每一步都会给出即时奖励 1。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.9,且状态价值被报告为 V(s)=2.5,由此隐含的 p 是多少?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案
题目
在固定策略下,状态 s 每一步都会给出即时奖励 1。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.9,且状态价值被报告为 V(s)=2.5,由此隐含的 p 是多少?
解题计时
0:00
提交作答时记录,用于后续平均用时统计。
你的答案