链式法则与雅可比矩阵
Hook:一次梯度核对失败的复盘 上海某量化私募的小组复盘会上,工程师摊开一张 PnL 时序图:基于沪深300 成分股的因子神经网络回测里,梯度核对(gradient check)数值在第三层之后开始与解析梯度系统性偏离一个常数倍。CFFEX 主力合约的日线策略本来 7 月稳得像一块表,过完一个版本后突然走样——根因追下来是一行被写反的 transpose ...
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 13 个结果
中文题目Hook:一次梯度核对失败的复盘 上海某量化私募的小组复盘会上,工程师摊开一张 PnL 时序图:基于沪深300 成分股的因子神经网络回测里,梯度核对(gradient check)数值在第三层之后开始与解析梯度系统性偏离一个常数倍。CFFEX 主力合约的日线策略本来 7 月稳得像一块表,过完一个版本后突然走样——根因追下来是一行被写反的 transpose ...
打开 →Hook:风控室里的一行警告 周三盘中两点四十,上海某私募基金的多因子组合管理岗位上,你刚收到风控的一行警告:「沪深300 成分股口径下,当前权重 公式 对应的组合方差曲面在某只大盘消费品权重方向上斜率最大——加一个百分点的仓位,组合方差大致抬升 0.6 个 bp²。」 这一句话里其实只藏着一个数学对象:函数 公式 在当前点 公式 处的 梯度(gradi...
打开 →钩子:当一次完整梯度要四个小时 某上海百亿私募的研究员准备把一套基于沪深300 成分股的多因子神经网络 α 信号搬上生产。训练集是过去 5 年的日频面板:约 180 万行样本 × 300 只成分股 × 80 个特征。前两课的工具一一被排除——海森矩阵(Hessian matrix, 公式)装不进显存,L BFGS 一次方向计算也要把整批数据过一遍。退到最朴素...
打开 →Hook:两个看起来都「会优化」的求解器 上海某私募基金的两位研究员同时打开 Python,一位在跑一个标的为沪深300 成分股、目标为均值方差优化(mean variance optimization)的组合优化(portfolio optimization)问题,另一位在调一个三层的因子神经网络。两人用的迭代算法是同一份梯度下降代码,第一位 200 步就...
打开 →某 私募 量化研究组的季末复盘。组长把 沪深300 上跑了一个季度的两条信号摊在桌上:一条是上一课构造的 12 1 月动量,样本外 21 日 rank IC 约 0.03;另一条是组里 ML 工程师用 LightGBM 训出来的 ranker,同一个 universe、同一段样本外、同一个 21 日远期 rank return,样本外 rank IC 跳到 ...
打开 →周五下午两点,你在上海某私募的因子研究组里收到一张 12,000 × 600 的设计矩阵——600 个候选 alpha 因子在沪深300 成分股上 18 个月日频的横截面暴露。组合经理希望你下班前给一组系数,明早接入回测。你写下普通最小二乘(ordinary least squares, OLS)的闭式解 beta = np.linalg.solve(X.T...
打开 →上海某私募的因子研究员把上一节的 500 棵随机森林训完,沪深300 + 中证500 上的样本外准确率 57%——比单棵深树的 51% 上了 6 个点。她把 max features 从 sqrt(p) 调到 p/3、把树数加到 2000,准确率纹丝不动停在 57.2%——bagging 的方差红利已经吃干净了。PM 在因子复盘会上一句话:「方差降到底了,把...
打开 →深圳某私募的多因子研究员手头有 60 个交易日的沪深300 成分股横截面收益,外加一份「因子动物园」(factor zoo)清单:动量、价值、质量、低波,再加上 70 多个另类与基本面因子,合计 公式 个候选预测变量、公式 个观测——一个典型的 公式 病态设计矩阵。她直接套用上一模块的普通最小二乘(ordinary least squares, OLS),解...
打开 →Hook:一条卡在鞍点上的优化器 某沪深300 增强组合的研究员发来一段日志:使用裸的梯度下降迭代 6000 次后,目标函数(一个带分段惩罚的跟踪误差)几乎不再变化——但梯度范数也没有逼近零,反而在 公式 量级上震荡。绘出参数空间上的曲面发现:当前点位于一个鞍点(saddle point),沿其中一个主轴是「碗」、沿另一个主轴是「山脊」,一阶信息把这两种几何...
打开 →周一开盘后 15 分钟,沪深300 ETF 期权(300ETF options on SSE)的隐含波动率(implied volatility, IV)整体上抬了 3 个 vol。你在一家私募的做市账户上挂着一组 50ETF 与 300ETF 近月平值 call,定价模型需要把每张合约的市场报价反推成 IV。上一节用梯度下降跑过同样的题:在某些深度虚值(o...
打开 →策略梯度与深度强化学习 开篇场景:表格放不下的盘口 周三盘后,上海一家头部 私募 的初级量化把成果摊给组长:CFFEX 上 沪深300 股指期货 日内大单切片,建成 144 个离散状态的 MDP,跑通了表格 Q 学习,比 TWAP 省了约 2bp 的 实施差额(implementation shortfall)。组长翻两页就皱眉:「线上要吃 5 档盘口 + ...
打开 →周五午盘,一家 50 亿规模的 CN 私募把一份沪深300 alpha 数据甩到你工位:30 个特征、日频次日超额收益作标签。上一课那棵深度 15 的 CART 树样本内方向准确率 100%、样本外只有 51%——比抛硬币好不了多少,Sharpe 几乎为零。你把它换成 500 棵在 bootstrap 样本上独立训练的深树取平均,样本外跳到 57%。这一跳,...
打开 →Hook:周三晚上的训练日志 上海一家中等规模私募的初级量化研究员小陈,把上一课刚学会的反向传播搬到了沪深300 选股因子模型(factor model)的 alpha 预测上。模型是一个深度 5、宽度 256 的多层感知机(multi layer perceptron, MLP),约 33 万参数,输入是 60 个标准化后的截面风格因子,标签是次日截面超额...
打开 →