pinball 损失在拐点处的次梯度 9
对 pinball 损失 rho_tau(r)=tau r(当 r>=0)且 (tau-1)r(当 r<0),在 r=0 处的次梯度集合是什么?
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questions对 pinball 损失 rho_tau(r)=tau r(当 r>=0)且 (tau-1)r(当 r<0),在 r=0 处的次梯度集合是什么?
打开 →你的验证指标每天噪声都很大。在把第一个局部峰值当作停止点之前,应该先校准什么?
打开 →为什么即使一条轨迹还没终止,bootstrapping 也能帮助价值估计?
打开 →为什么当函数逼近、bootstrapping 和分布偏移同时出现时,off-policy 学习会变得脆弱?
打开 →为什么在停时无界时,机械地套用可选停止定理会有风险?
打开 →为什么收益率曲线的引导法通常先解短端,再一档一档往长端推进?
打开 →为什么在面试题里,有界停时是应用可选停止定理最干净的场景?
打开 →为什么在布朗运动的命中问题里,有界区间是最适合安全使用可选停止论证的场景?
打开 →为什么在其他条件不变时,向上倾斜的收益率曲线通常意味着持有债券会有正的 roll-down carry?
打开 →为什么 quant 在把玩具 MDP 的直觉直接搬到真实交易时必须谨慎?
打开 →一个赌徒初始净值 $0,在一列公平硬币上做公平的 $1 加倍下注(先押 1,再 2,再 4,...),在首次赢一局时停止(保证净赢 +$1)。设 T 为该停时。求 E[T 时刻的净财富],并说明它是否如朴素可选停止所暗示的等于时刻 0 的净值。
打开 →一个过程按轮进行。每一轮独立地:以概率 1/2 休息(位置不变),以概率 1/2 走一步(等概率 +1 或 -1)。当走者完成第 8 次真实(非休息)步时,在该轮停止。设 S 为此停止时刻的位置。求 E[S^2]。
打开 →你逐个观察至多三个来自 Uniform(0,1) 的独立抽样,每次抽样后可停止并取走刚看到的值,或弃之继续(不可回取已弃值)。若到达第三个抽样必须接受。已知分布精确形式,什么停止策略能最大化所取期望值,该期望值是多少?
打开 →设 X_1, X_2, ... 为独立同分布的公平 +-1 步,定义乘积 P_n = prod_{i=1}^n (1 + (1/2) X_i),P_0 = 1。设 N 为任意几乎必然有限的停时。把 P_n 视为鞅,求 E[P_N]。
打开 →对称简单随机游走从 0 出发,首次到达 +3 或 -3 时停止。由对称性与可选停止,停止时刻游走值的期望 E[S_T] 是多少?
打开 →每期到来一个报价,独立同分布于 Uniform(0,1)。若你在第 t 期接受价值 x 的报价,你获得 beta^{t} * x,其中 beta = 0.9 为每期折现因子(等待会缩小未来任何接受的价值)。不可回取,无限期。求最优稳态接受阈值及从起点算起的期望折现收益。
打开 →独立同分布地抽取 $X_1,X_2,\dots$,在 $\{1,2,3\}$ 上均匀(故 $E[X_i]=2$)。定义 $N$ 如下:持续抽取直到首次抽到 $3$ 时停止,$N$ 为抽取次数。令 $S_N=\sum_{i=1}^N X_i$。某候选人计算 $E[N]E[X_1]=3\cdot 2=6$ 并断言 $E[S_N]=6$。求 $E[S_N]$ 的正确值,并用一句话解释为何此处需谨慎看待逐项条件均值。
打开 →五个交易依次出现。每个交易独立地以概率 0.2 为“有效”(否则为“无效”);交易出现时你立即得知有效/无效,并须不可撤回地接受或放弃,不可回取。当且仅当你接受了五个交易中的最后一个有效交易时获胜。用此类问题的赔率算法逻辑(从末端起累加赔率 r_i = p_i/(1-p_i),直到累计首次达到 1,从该位置起接受任何有效交易),求最优停止位置及获胜概率。
打开 →你可以抽取任意多个独立的 Uniform(0,1) 值,每抽一次支付成本 c。允许回取,故任何时刻你都可停止并收取迄今所见最大值。对 c = 0.125,求最优停止规则(停止的保留水平 r)以及期望净收益(所收最大值减去总抽样成本)。
打开 →一条公平随机游走从 4 出发,每一步以相等概率向右走 4 或向左走 4。它在首次达到 0 或 16 时停止。停止时间的期望是多少?
打开 →一个罐子初始有 1 红 2 蓝。每步均匀随机抽一球,观察后连同一个同色球一起放回。设 R_n/T_n 为 n 次抽取后红球比例。该比例是有界鞅,收敛到极限 L。用可选停止/鞅收敛,求 E[L]。
打开 →设 X_1,X_2,... 独立同分布,均值为 4;设 N 是关于这些 X 的停时,且 E[N]=10。利用鞅 M_n = sum_{i<=n} X_i - 4n 与可选停止,求 E[X_1+...+X_N]。
打开 →选举中候选人 A 得 7 票、B 得 3 票;这 10 张票以均匀随机顺序计数。用鞅/可选停止方法,求在整个计票过程中 A 始终严格领先 B 的概率。
打开 →马尔可夫链在 $\{0,1,2,3\}$ 上,从 $i$($0<i<3$)以概率 $2/3$ 跳至 $i+1$,$1/3$ 跳至 $i-1$。$0$ 和 $3$ 吸收。令 $T = \inf\{n: X_n \in \{0,3\}\}$。 (a) 用鞅 $M_n = X_{n\wedge T} - (p-q)(n\wedge T)$ 和 OST 求 $E[T \mid X_0=2]$。 (b) 用鞅 $N_n = M_n^2 - 4pq(n\wedge T)$ 求 $\mathrm{Var}(T \mid X_0=2)$。 (c) 用一步分析验证 $E[
打开 →设 $X_1,X_2,\dots$ 为独立同分布随机变量,均值为 $\mu$、方差为 $4$。再设 $N$ 与这些增量独立,且服从 Geometric(\frac{1}{3})。对中心化停和 $M_N=\sum_{i=1}^N (X_i-\mu)$,求 $E[M_N^2]$。
打开 →一位赌徒下注直到某随机停止规则终止游戏;下注笔数 $N$ 是对独立同分布下注结果而言的停时,且 $E[N]=8$。每笔下注的净结果 $X_i$ 独立同分布,满足 $E[X_i]=-0.05$(每单位注金 $5\%$ 的庄家优势,注金为单位),且在第 $n$ 笔后是否停止仅依赖于前 $n$ 笔的结果。求赌徒的期望总盈利 $E\!\left[\sum_{i=1}^N X_i\right]$,并说明在 $E[N]=8$ 的约束下是否存在能使其为正的停止规则。
打开 →四状态链 $\{0,1,2,3\}$:$p(1,0)=1/3, p(1,2)=2/3, p(2,1)=1/2, p(2,3)=1/2$。$0$ 吸收,$3$ 反射($p(3,2)=1$)。$T=\inf\{n: X_n=0\}$。(a) 构造鞅 $M_n=f(X_{n\wedge T})-(n\wedge T)c$ 求 $E[T|X_0=2]$。(b) 类似方法求 $\text{Var}(T|X_0=2)$。
打开 →赌徒初始 $\$4$,每轮赌 $\$1$,正面概率 $p=0.55$。资金到 $\$0$ 或 $\$10$ 时停止。用鞅 $(q/p)^{X_n}$ 和可选停时定理求她到达 $\$10$ 的概率。
打开 →有偏随机游走在 $\{0,\ldots,10\}$ 上,$p=0.6$,从状态 $3$ 出发。用鞅 $M_n = X_n - 0.2n$ 和 OST 求期望吸收时间。
打开 →三位质量各异且未知的候选人以均匀随机的顺序到来。每次面试后你只知道该候选人相对于已见者的名次,并且必须立即不可撤回地录用或拒绝。你希望最大化录用到唯一最优候选人的概率。最优策略是什么,相应的成功概率是多少?
打开 →