INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
17

1 / 1

非代码面试题

显示 17 / 17 道匹配题目

答题状态:未尝试未正确已正确
5066由 Bellman 价值反推自循环概率 1在固定策略下,状态 s 每一步都会给出即时奖励 1。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.9,且状态价值被报告为 V(s)=2.5,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5067由 Bellman 价值反推自循环概率 2在固定策略下,状态 s 每一步都会给出即时奖励 0.5。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.95,且状态价值被报告为 V(s)=2,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5068由 Bellman 价值反推自循环概率 3在固定策略下,状态 s 每一步都会给出即时奖励 2。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.8,且状态价值被报告为 V(s)=4,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5069由 Bellman 价值反推自循环概率 4在固定策略下,状态 s 每一步都会给出即时奖励 1.2。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.85,且状态价值被报告为 V(s)=2.4,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5071由 Q-learning 更新反推未来最优值 6一次表格型 Q-learning 从旧值 Q=0.2 开始,使用学习率 alpha=1、奖励 0.5、折扣因子 gamma=0.9。更新后 Q 值变为 2.9。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5072由 Q-learning 更新反推未来最优值 7一次表格型 Q-learning 从旧值 Q=1.1 开始,使用学习率 alpha=0.5、奖励 0.2、折扣因子 gamma=0.8。更新后 Q 值变为 1.6。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5073由 Q-learning 更新反推未来最优值 8一次表格型 Q-learning 从旧值 Q=-0.4 开始,使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5074由 Q-learning 更新反推未来最优值 9一次表格型 Q-learning 从旧值 Q=0.7 开始,使用学习率 alpha=0.4、奖励 0.3、折扣因子 gamma=0.9。更新后 Q 值变为 2。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5075由 Q-learning 更新反推未来最优值 10一次表格型 Q-learning 从旧值 Q=0 开始,使用学习率 alpha=0.5、奖励 0.1、折扣因子 gamma=0.99。更新后 Q 值变为 3。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5076选择贪心备份动作 11在某个状态中,动作 1 先给出即时奖励 0.6,之后以概率 0.4 转到价值为 3 的状态,否则转到价值为 1 的状态。动作 2 先给出即时奖励 0.9,之后以概率 0.1 转到价值为 0.2 的状态,否则转到价值为 2 的状态。若 gamma=0.9,哪一个动作是贪心动作?对应的备份值是多少?机器学习中等数值题未尝试面试订阅5079选择贪心备份动作 14在某个状态中,动作 1 先给出即时奖励 0.8,之后以概率 0.2 转到价值为 6 的状态,否则转到价值为 1 的状态。动作 2 先给出即时奖励 0.5,之后以概率 0.5 转到价值为 2 的状态,否则转到价值为 3 的状态。若 gamma=0.75,哪一个动作是贪心动作?对应的备份值是多少?机器学习中等数值题未尝试面试订阅5081由日志中的动作概率反推 epsilon 16一个 epsilon-greedy 策略共有 5 个可选动作,且只有一个贪心动作。日志显示该贪心动作被选中的概率为 0.84。由此隐含的 epsilon 是多少?机器学习简单数值题未尝试面试订阅5086强化学习训练诊断 21为什么即使一条轨迹还没终止,bootstrapping 也能帮助价值估计?机器学习困难essay未尝试面试订阅5087强化学习训练诊断 22为什么 RL 智能体通常仍然需要显式探索,即使当前的贪心动作看起来已经很好?机器学习困难essay未尝试面试订阅5088折现因子的直觉为什么提高折现因子,往往会让价值估计对长期模型错设更加敏感?机器学习困难essay未尝试面试订阅5089强化学习训练诊断 23为什么当函数逼近、bootstrapping 和分布偏移同时出现时,off-policy 学习会变得脆弱?机器学习困难essay未尝试面试订阅5090交易中的 RL 注意点为什么 quant 在把玩具 MDP 的直觉直接搬到真实交易时必须谨慎?机器学习困难essay未尝试面试订阅