第 24 / 38 页
非代码面试题
显示 20 / 756 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
5051成本敏感部署选择 11模型 A 在验证集上产生 8 个假阳性和 2 个假阴性;模型 B 产生 6 个假阳性和 5 个假阴性。若一个假阴性的成本是 10,一个假阳性的成本是 1,哪一个模型的验证成本更低?两者成本分别是多少?机器学习中等数值题未尝试面试订阅5061为什么嵌套评估重要为什么把两个已经调过参的模型,直接拿在同一组“调参时用过的验证折”上比较,会是不公平的?机器学习困难essay未尝试面试订阅5062为什么相关性重要为什么当模型评分来自相互重叠的滚动窗口时,标准 iid 显著性论证往往会过于乐观?机器学习困难essay未尝试面试订阅5063指标选择会改变赢家为什么一个在 AUC 上获胜的模型,仍可能在业务效用上输掉?机器学习困难essay未尝试面试订阅5064多重比较陷阱为什么即使某个模型在大规模模型竞赛中的验证分数明显最高,你也仍然应该保持怀疑?机器学习困难essay未尝试面试订阅5065为什么一个数字不够为什么单个保留集分数往往不足以支持“某模型绝对更好”的结论?机器学习困难essay未尝试面试订阅5066由 Bellman 价值反推自循环概率 1在固定策略下,状态 s 每一步都会给出即时奖励 1。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.9,且状态价值被报告为 V(s)=2.5,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5067由 Bellman 价值反推自循环概率 2在固定策略下,状态 s 每一步都会给出即时奖励 0.5。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.95,且状态价值被报告为 V(s)=2,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5068由 Bellman 价值反推自循环概率 3在固定策略下,状态 s 每一步都会给出即时奖励 2。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.8,且状态价值被报告为 V(s)=4,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5069由 Bellman 价值反推自循环概率 4在固定策略下,状态 s 每一步都会给出即时奖励 1.2。下一步以概率 p 回到 s,否则回合结束。若折扣因子为 0.85,且状态价值被报告为 V(s)=2.4,由此隐含的 p 是多少?机器学习简单数值题未尝试面试订阅5071由 Q-learning 更新反推未来最优值 6一次表格型 Q-learning 从旧值 Q=0.2 开始,使用学习率 alpha=1、奖励 0.5、折扣因子 gamma=0.9。更新后 Q 值变为 2.9。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5072由 Q-learning 更新反推未来最优值 7一次表格型 Q-learning 从旧值 Q=1.1 开始,使用学习率 alpha=0.5、奖励 0.2、折扣因子 gamma=0.8。更新后 Q 值变为 1.6。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5073由 Q-learning 更新反推未来最优值 8一次表格型 Q-learning 从旧值 Q=-0.4 开始,使用学习率 alpha=0.25、奖励 1、折扣因子 gamma=0.95。更新后 Q 值变为 1.2。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5074由 Q-learning 更新反推未来最优值 9一次表格型 Q-learning 从旧值 Q=0.7 开始,使用学习率 alpha=0.4、奖励 0.3、折扣因子 gamma=0.9。更新后 Q 值变为 2。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5075由 Q-learning 更新反推未来最优值 10一次表格型 Q-learning 从旧值 Q=0 开始,使用学习率 alpha=0.5、奖励 0.1、折扣因子 gamma=0.99。更新后 Q 值变为 3。算法隐含使用的 max a' Q(s',a') 是多少?机器学习简单数值题未尝试面试订阅5076选择贪心备份动作 11在某个状态中,动作 1 先给出即时奖励 0.6,之后以概率 0.4 转到价值为 3 的状态,否则转到价值为 1 的状态。动作 2 先给出即时奖励 0.9,之后以概率 0.1 转到价值为 0.2 的状态,否则转到价值为 2 的状态。若 gamma=0.9,哪一个动作是贪心动作?对应的备份值是多少?机器学习中等数值题未尝试面试订阅5079选择贪心备份动作 14在某个状态中,动作 1 先给出即时奖励 0.8,之后以概率 0.2 转到价值为 6 的状态,否则转到价值为 1 的状态。动作 2 先给出即时奖励 0.5,之后以概率 0.5 转到价值为 2 的状态,否则转到价值为 3 的状态。若 gamma=0.75,哪一个动作是贪心动作?对应的备份值是多少?机器学习中等数值题未尝试面试订阅5081由日志中的动作概率反推 epsilon 16一个 epsilon-greedy 策略共有 5 个可选动作,且只有一个贪心动作。日志显示该贪心动作被选中的概率为 0.84。由此隐含的 epsilon 是多少?机器学习简单数值题未尝试面试订阅5086强化学习训练诊断 21为什么即使一条轨迹还没终止,bootstrapping 也能帮助价值估计?机器学习困难essay未尝试面试订阅5087强化学习训练诊断 22为什么 RL 智能体通常仍然需要显式探索,即使当前的贪心动作看起来已经很好?机器学习困难essay未尝试面试订阅