INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
811

31 / 41

非代码面试题

显示 20 / 811 道匹配题目

答题状态:未尝试未正确已正确
4983由期望击中时间反推回跳率 17一个 CTMC 有状态 0、1、2,其中 2 为吸收态。从 0 到 1 的跳转率为 a=0.5;从 1 到 2 的跳转率为 b=1;从 1 回到 0 的跳转率为 c。若从 0 出发击中 2 的期望时间为 4,则 c 是多少?随机过程困难数值题未尝试面试订阅4984短时落入某个状态子集的概率某个 CTMC 从状态 i 出发。从 i 到 j、k、l 的速率分别为 0.7、0.2、0.1。用 Delta t = 0.2 的一阶近似,X Delta t 落在子集 j,k 中的概率是多少?随机过程困难数值题未尝试面试订阅4985由期望击中时间反推回跳率 19一个 CTMC 有状态 0、1、2,其中 2 为吸收态。从 0 到 1 的速率为 a=1.5,从 1 到 2 的速率为 b=0.5。若从 0 出发到达状态 2 的期望时间为 3,则从 1 回到 0 的速率 c 是多少?随机过程困难数值题未尝试面试订阅4986为什么固定等待时间会破坏 CTMC 性质某个模拟器把跳链的路由概率做对了,但把每个状态中的指数等待时间都替换成固定的一分钟等待。为什么这样得到的日历时间过程通常就不再是 CTMC 了?随机过程困难essay未尝试面试订阅4987为什么 uniformization 可以只用一个泊松时钟为什么一个不同状态下离开速率不一样的 CTMC,仍然可以通过一个共同的泊松时钟再配合虚拟自跳来模拟?随机过程困难essay未尝试面试订阅4988平稳不等于慢为什么一个状态即使退出强度很大,也可能仍然只有很小的平稳概率?随机过程困难essay未尝试面试订阅4989相同跳链却有不同日历时间行为为什么两个跳转过程即使拥有完全相同的跳链,在真实时间下看起来仍可能非常不同?随机过程困难essay未尝试面试订阅4990为什么一阶分析有效为什么在跳过程中,一阶分析特别适合求期望到达时间?随机过程困难essay未尝试面试订阅5066由 Bellman 价值反推自循环概率 1在固定策略下,状态 s 每一步都会给出即时奖励 1。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.9,且状态价值被报告为 V(s)=2.5,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5067由 Bellman 价值反推自循环概率 2在固定策略下,状态 s 每一步都会给出即时奖励 0.5。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.95,且状态价值被报告为 V(s)=2,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5068由 Bellman 价值反推自循环概率 3在固定策略下,状态 s 每一步都会给出即时奖励 2。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.8,且状态价值被报告为 V(s)=4,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5069由 Bellman 价值反推自循环概率 4在固定策略下,状态 s 每一步都会给出即时奖励 1.2。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.85,且状态价值被报告为 V(s)=2.4,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5071由 Q-learning 更新反推未来最优值 6一次表格型 Q-learning 从旧值 Q=0.2 开始,使用学习率 alpha=1、奖励 0.5、折扣因子 gamma=0.9。更新后 Q 值变为 2.9。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5072由 Q-learning 更新反推未来最优值 7一次表格型 Q-learning 从旧值 Q=1.1 开始,使用学习率 alpha=0.5、奖励 0.2、折扣因子 gamma=0.8。更新后 Q 值变为 1.6。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5073由 Q-learning 更新反推未来最优值 8一次表格型 Q-learning 从旧值 Q=-0.4 开始,使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5074由 Q-learning 更新反推未来最优值 9一次表格型 Q-learning 从旧值 Q=0.7 开始,使用学习率 alpha=0.4、奖励 0.3、折扣因子 gamma=0.9。更新后 Q 值变为 2。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5075由 Q-learning 更新反推未来最优值 10一次表格型 Q-learning 从旧值 Q=0 开始,使用学习率 alpha=0.5、奖励 0.1、折扣因子 gamma=0.99。更新后 Q 值变为 3。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5086强化学习训练诊断 21为什么即使一条轨迹还没终止,bootstrapping 也能帮助价值估计?机器学习困难essay未尝试面试订阅5087强化学习训练诊断 22为什么 RL 智能体通常仍然需要显式探索,即使当前的贪心动作看起来已经很好?机器学习困难essay未尝试面试订阅5088折现因子的直觉为什么提高折现因子,往往会让价值估计对长期模型错设更加敏感?机器学习困难essay未尝试面试订阅