一阶最优性与凸性
Hook:两个看起来都「会优化」的求解器 上海某私募基金的两位研究员同时打开 Python,一位在跑一个标的为沪深300 成分股、目标为均值方差优化(mean variance optimization)的组合优化(portfolio optimization)问题,另一位在调一个三层的因子神经网络。两人用的迭代算法是同一份梯度下降代码,第一位 200 步就...
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questionsHook:两个看起来都「会优化」的求解器 上海某私募基金的两位研究员同时打开 Python,一位在跑一个标的为沪深300 成分股、目标为均值方差优化(mean variance optimization)的组合优化(portfolio optimization)问题,另一位在调一个三层的因子神经网络。两人用的迭代算法是同一份梯度下降代码,第一位 200 步就...
打开 →开篇场景(Hook):基数约束如何把 MVO 从 QP 推到 MIP 周二下午,你在一家百亿规模的私募(private fund)量化部门里,给沪深300 成分股做一只全仓做多组合。脚本是教科书版本的均值方差优化(mean variance optimization, MVO):最小化 公式,约束 公式、公式。CVXPY 在 80ms 内返回全局最优。你顺手...
打开 →portfolio-optimization · constrained-mv · quadratic-programming · qp · cvxpy · osqp · long-only · leverage-cap
打开 →optimization · gradient-descent · line-search · convergence · iterative-methods · newton-method · quasi-newton · bfgs
打开 →calculus · gradient · directional-derivative · optimization · chain-rule · jacobian · backpropagation · taylor-expansion
打开 →为什么在很多凸优化问题里,KKT 条件不只是必要条件,而且也是充分条件?
打开 →某沪深300指增私募的中级量化研究员,用 L1 的「无成本」约束 MV 优化器跑 30 只 CSI 300 行业龙头基础上的 12 1 截面动量信号,样本内纸面 Sharpe(paper Sharpe)= 1.4。她把同样的换仓单丢进自家交易台的事后成本归因系统,扣掉佣金、印花税、半价差(half spread)和 Almgren Chriss 市场冲击之后...
打开 →某沪深300指增公募的高级量化研究员,把 4.4.1 的均值方差闭式解 w = (1/gamma) Sigma^ (mu lambda 1) 直接套到她管理的 30 只 CSI 300 成分股核心仓上。闭式解给出的结果:招商银行 600036 做空 300%、宁德时代 300750 多头 +250%、组合 78% 的仓位扎堆在前三只动量名上。她的产品合同写得...
打开 →开篇场景(Hook):一位 PM 的两份委托书 周一上午,你在一家 沪深300 指数增强 私募 基金的研究台收到两份新增的客户委托书。第一份要求满仓多头、公式、公式、行业偏离度上限 ±3%(一组线性不等式)——干净的二次规划(quadratic program, QP):二次目标 + 仿射约束,求解器十秒出结果。第二份加了一句「持仓数不得超过 50 只」,可...
打开 →开篇场景(Hook):PM 真正想要的那个数 上海一家中型私募的 PM 周一早盘正在跟风控拉锯:当前组合的总杠杆(gross leverage)顶在 200% 的合规上限,他想申请抬到 220%。风控的问题不是「能不能」,而是「值不值」——多 20 个百分点能换多少边际信息比率(marginal information ratio)?答案其实早就躺在凸求解器...
打开 →某沪深300指增私募的策略部署组组长周一早会带着三份交付物走进风控委员会。PM 刚审批通过一只新主动股票策略,研究组把 4.2 alpha 管线(截面动量 + 质量 + 价值的复合 alpha,样本内 IR 约 0.5)、4.3 因子暴露矩阵 B (Barra 风格 5 个 + 中信一级行业 10 个 + 国家因子)、4.4.2 Barra 风险模型 (Si...
打开 →周五下午三点,你在某 公募 基金管理一只 沪深300 指数增强(CSI 300 enhanced index)产品。当前基金合同把年化 跟踪误差(tracking error)上限设在 300 bp。求解器把当日再平衡的解返回过来——主仓位都合理,但对偶价格表里 跟踪误差 约束的乘子写着 公式 bp。翻译成 PM 听得懂的语言:若把上限从 300 bp 放到...
打开 →某沪深300指增私募的中级量化研究员把 L2 的成本感知优化器跑了三年。样本内纸面 Sharpe = 1.4,实盘 Sharpe = 0.7。她把回测净值拆开,发现两件事:12 1 截面动量 mu hat 的标准误差是均值的 3 5 倍——Chopra Ziemba(1993)《The effect of errors in means, variances...
打开 →若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i,请用单样本梯度推导 dL/dw。
打开 →两个特征几乎重复,但在经济上都很有意义。为什么 Elastic Net 在这种情况下常常比纯 Lasso 表现更好?
打开 →为什么把每一轮的叶节点更新 gamma_m 都乘以 c,同时把学习率 eta 除以 c,会让最终加性得分保持不变?
打开 →某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7,tau = 0.2,那么收缩后的权重是多少?
打开 →一个标准化 lasso 拟合的得分向量是 (4.1, 2.3, 1.7)。使所有系数都恰好变成 0 的最小 lambda 是多少?
打开 →在正交设计下的一步 lasso 更新中,某坐标的得分是 z = -3.2,惩罚参数 lambda = 0.7。软阈值之后的系数是多少?
打开 →忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?
打开 →证明 ell(r)=ln cosh(r) 关于残差 r 是凸函数。
打开 →证明 ell(z)=ln(1+e^{-z}) 在实数轴上是凸函数。
打开 →某层的权重向量为 w = (3, 4),其范数为 5。现在使用上限 c = 4 的 max-norm 正则,并在范数超标时按比例缩放。裁剪后保存的向量是什么?
打开 →如果二者在同一个根附近都表现良好,为什么 Newton 通常比朴素不动点迭代更快?
打开 →对 pinball 损失 rho_tau(r)=tau r(当 r>=0)且 (tau-1)r(当 r<0),在 r=0 处的次梯度集合是什么?
打开 →对于 ReLU(z)=max(0,z),在 z>0 与 z<0 两种情况下,反向传播分别使用什么导数?
打开 →最小化 $1x^2+3y^2$,约束为 $x+y\ge 4$。求 $(x^*,y^*)$ 以及 KKT 乘子。
打开 →设动量按 v_t = beta v_{t-1} + g_t 更新,其中 beta=0.9、前一时刻速度 v_{t-1}=0.5、当前梯度 g_t=2。v_t 是多少?
打开 →使用 delta = 1 的 Huber 损失,计算残差 0.5、-1.2、3.0 的总损失。
打开 →一个有利的赌注的净赔率为 $b$ 比 $1$:押注一定金额,以概率 $p$ 赢得所押金额的 $b$ 倍,以概率 $1-p$ 损失所押金额。每轮押注财富的比例 $f$,请用 $b$ 和 $p$ 推导增长最优的比例 $f^*$。
打开 →