面向最优化的微积分
calculus · gradient · directional-derivative · optimization · chain-rule · jacobian · backpropagation · taylor-expansion
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questionscalculus · gradient · directional-derivative · optimization · chain-rule · jacobian · backpropagation · taylor-expansion
打开 →若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i,请用单样本梯度推导 dL/dw。
打开 →某个 BatchNorm 层按 mu_new = m mu_old + (1-m) mu_batch 更新运行均值。这个公式在操作上意味着什么?
打开 →某个 CIR 过程满足 dX_t = 1.2(4 - X_t)dt + 0.5 sqrt(X_t)dW_t。若 Y_t = e^{1.2 t} X_t,Y_t 满足什么 SDE?
打开 →为什么把每一轮的叶节点更新 gamma_m 都乘以 c,同时把学习率 eta 除以 c,会让最终加性得分保持不变?
打开 →设 $X_1, \ldots, X_n$ 为 i.i.d. $\mathrm{Gamma}(2,1)$($E[X_i]=2$,$\mathrm{Var}(X_i)=2$)。定义 $W_n = \ln(\bar{X}_n)$。 **(a)** 用 Delta 方法求 $\sqrt{n}(W_n - \ln 2)$ 的渐近分布。 **(b)** $n = 200$ 时,近似 $P(W_n < 0.6)$。 可使用 $\ln 2 \approx 0.6931$,$\Phi(-1.86) \approx 0.0314$。
打开 →某个 GBM 满足 dS_t = 0.08 S_t dt + 0.3 S_t dW_t。若 Y_t = log S_t,Y_t 的漂移项和扩散项分别是什么?
打开 →请简要解释:为什么应把 It\^o 公式看成随机版的 Taylor 展开,而不是普通链式法则的小修补?
打开 →证明 ell(r)=ln cosh(r) 关于残差 r 是凸函数。
打开 →一个微观结构噪声模型使用 Y_t = e_t + 1 e_(t-1)。它的一阶自相关 rho(1) 是多少?
打开 →如果二者在同一个根附近都表现良好,为什么 Newton 通常比朴素不动点迭代更快?
打开 →为什么简单根 f'(r) != 0 是 Newton 快速收敛的标准干净场景?
打开 →在 Newton 迭代里,如果修正量 |x_{n+1}-x_n| 很小,这通常说明什么?
打开 →在 Newton 求解中,|f(x_n)| 很小意味着什么?
打开 →某个 OU 过程满足 dX_t = 0.9(2 - X_t)dt + 1.1 dW_t。若 Z_t = e^{0.9 t}(X_t - 2),Z_t 满足什么 SDE?
打开 →交易台用“clients * average posted margin”来近似估计总已缴保证金。若总量是 $3.128 billion,且 clients 为 920,则隐含的 average posted margin 是多少?
打开 →对 pinball 损失 rho_tau(r)=tau r(当 r>=0)且 (tau-1)r(当 r<0),在 r=0 处的次梯度集合是什么?
打开 →对于 ReLU(z)=max(0,z),在 z>0 与 z<0 两种情况下,反向传播分别使用什么导数?
打开 →设 $X_1, \ldots, X_n$ 为 i.i.d.(均值 $\mu$,方差 $\sigma^2$),$S_n^2$ 为样本方差,$T_n = \sqrt{n}(\bar{X}_n - \mu)/S_n$。 **(a)** 用 LLN 和 Slutsky 定理证明 $T_n \xrightarrow{d} N(0,1)$。 **(b)** $n=100$,$\bar{X}=12.5$,$S=3.0$,$\mu_0=12$。近似 $P(\bar{X}>12.5)$。 可使用 $\Phi(1.67) \approx 0.9525$。
打开 →使用近似 vega ~= 0.4 * S * sqrt(T)。若 S=95,T=1 年,则 vega 估计是多少?
打开 →设 W_t 为标准布朗运动。当常数 c 取何值时,过程 M_t = W_t^2 - c t 是鞅?
打开 →某个线性 warmup 会在 10 个 step 内把学习率从 0 拉到 0.001。warmup 的第 t=3 步使用的学习率是多少?
打开 →Hook:两个看起来都「会优化」的求解器 上海某私募基金的两位研究员同时打开 Python,一位在跑一个标的为沪深300 成分股、目标为均值方差优化(mean variance optimization)的组合优化(portfolio optimization)问题,另一位在调一个三层的因子神经网络。两人用的迭代算法是同一份梯度下降代码,第一位 200 步就...
打开 →求曲面 $w=x^2+y^2+z^2$ 在 $(1,1,2,6)$ 处的切平面。
打开 →取什么 a,能使 M_t = W_t^3 + a t W_t 成为鞅?
打开 →某一账本每单位名义金额对目标的推动更快,因此优化器必须在加载效率和成本之间折中。 在约束 1x + 3y = 9 下,最小化 L(x,y) = 3x^2 + 1y^2。
打开 →计算 lim_(x->0) [sin(2x + 7x^2) - 2x] / x^2。
打开 →计算 lim_(x->0) [arctan(5x) - 5x] / x^3。
打开 →第三条资产线单独来看更贵,但总敞口项并不会破坏凸性。 证明 F(w_1,w_2,w_3) = 1w_1^2 + 4w_2^2 + 9w_3^2 + 2(w_1+w_2+w_3)^2 是凸函数。
打开 →某个 boosting 模型从 F_0(x)=10 开始。对某个观测而言,连续三轮落到的叶节点更新分别是 +1.2、-0.5、+0.8,且每轮学习率 eta=0.1。最终预测是多少?
打开 →