INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 17

第 1 / 1 页

非代码面试题

显示 17 / 17 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

5066由 Bellman 价值反推自循环概率 1在固定策略下，状态 s 每一步都会给出即时奖励 1。下一步以概率 p 回到 s，否则回合结束。若折扣因子为 0.9，且状态价值被报告为 V(s)=2.5，由此隐含的 p 是多少？机器学习简单数值题未尝试面试订阅 5067由 Bellman 价值反推自循环概率 2在固定策略下，状态 s 每一步都会给出即时奖励 0.5。下一步以概率 p 回到 s，否则回合结束。若折扣因子为 0.95，且状态价值被报告为 V(s)=2，由此隐含的 p 是多少？机器学习简单数值题未尝试面试订阅 5068由 Bellman 价值反推自循环概率 3在固定策略下，状态 s 每一步都会给出即时奖励 2。下一步以概率 p 回到 s，否则回合结束。若折扣因子为 0.8，且状态价值被报告为 V(s)=4，由此隐含的 p 是多少？机器学习简单数值题未尝试面试订阅 5069由 Bellman 价值反推自循环概率 4在固定策略下，状态 s 每一步都会给出即时奖励 1.2。下一步以概率 p 回到 s，否则回合结束。若折扣因子为 0.85，且状态价值被报告为 V(s)=2.4，由此隐含的 p 是多少？机器学习简单数值题未尝试面试订阅 5071由 Q-learning 更新反推未来最优值 6一次表格型 Q-learning 从旧值 Q=0.2 开始，使用学习率 alpha=1、奖励 0.5、折扣因子 gamma=0.9。更新后 Q 值变为 2.9。算法隐含使用的 max a' Q(s',a') 是多少？机器学习简单数值题未尝试面试订阅 5072由 Q-learning 更新反推未来最优值 7一次表格型 Q-learning 从旧值 Q=1.1 开始，使用学习率 alpha=0.5、奖励 0.2、折扣因子 gamma=0.8。更新后 Q 值变为 1.6。算法隐含使用的 max a' Q(s',a') 是多少？机器学习简单数值题未尝试面试订阅 5073由 Q-learning 更新反推未来最优值 8一次表格型 Q-learning 从旧值 Q=-0.4 开始，使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max a' Q(s',a') 是多少？机器学习简单数值题未尝试面试订阅 5074由 Q-learning 更新反推未来最优值 9一次表格型 Q-learning 从旧值 Q=0.7 开始，使用学习率 alpha=0.4、奖励 0.3、折扣因子 gamma=0.9。更新后 Q 值变为 2。算法隐含使用的 max a' Q(s',a') 是多少？机器学习简单数值题未尝试面试订阅 5075由 Q-learning 更新反推未来最优值 10一次表格型 Q-learning 从旧值 Q=0 开始，使用学习率 alpha=0.5、奖励 0.1、折扣因子 gamma=0.99。更新后 Q 值变为 3。算法隐含使用的 max a' Q(s',a') 是多少？机器学习简单数值题未尝试面试订阅 5076选择贪心备份动作 11在某个状态中，动作 1 先给出即时奖励 0.6，之后以概率 0.4 转到价值为 3 的状态，否则转到价值为 1 的状态。动作 2 先给出即时奖励 0.9，之后以概率 0.1 转到价值为 0.2 的状态，否则转到价值为 2 的状态。若 gamma=0.9，哪一个动作是贪心动作？对应的备份值是多少？机器学习中等数值题未尝试面试订阅 5079选择贪心备份动作 14在某个状态中，动作 1 先给出即时奖励 0.8，之后以概率 0.2 转到价值为 6 的状态，否则转到价值为 1 的状态。动作 2 先给出即时奖励 0.5，之后以概率 0.5 转到价值为 2 的状态，否则转到价值为 3 的状态。若 gamma=0.75，哪一个动作是贪心动作？对应的备份值是多少？机器学习中等数值题未尝试面试订阅 5081由日志中的动作概率反推 epsilon 16一个 epsilon-greedy 策略共有 5 个可选动作，且只有一个贪心动作。日志显示该贪心动作被选中的概率为 0.84。由此隐含的 epsilon 是多少？机器学习简单数值题未尝试面试订阅 5086强化学习训练诊断 21为什么即使一条轨迹还没终止，bootstrapping 也能帮助价值估计？机器学习困难essay未尝试面试订阅 5087强化学习训练诊断 22为什么 RL 智能体通常仍然需要显式探索，即使当前的贪心动作看起来已经很好？机器学习困难essay未尝试面试订阅 5088折现因子的直觉为什么提高折现因子，往往会让价值估计对长期模型错设更加敏感？机器学习困难essay未尝试面试订阅 5089强化学习训练诊断 23为什么当函数逼近、bootstrapping 和分布偏移同时出现时，off-policy 学习会变得脆弱？机器学习困难essay未尝试面试订阅 5090交易中的 RL 注意点为什么 quant 在把玩具 MDP 的直觉直接搬到真实交易时必须谨慎？机器学习困难essay未尝试面试订阅