scipy.stats 分布对象与描述性统计
周一上午十点,你坐在一家中型私募的研究台。3.2.2 收尾那张 tear sheet 昨晚跑完了,落到磁盘的中间产物里有一行 returns = (closes['510300.SH'].pct change().dropna()).to numpy() ——一根长度 252 的 np.ndarray ,是沪深300 ETF(510300.SH)在 2024...
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 25 个结果
中文题目周一上午十点,你坐在一家中型私募的研究台。3.2.2 收尾那张 tear sheet 昨晚跑完了,落到磁盘的中间产物里有一行 returns = (closes['510300.SH'].pct change().dropna()).to numpy() ——一根长度 252 的 np.ndarray ,是沪深300 ETF(510300.SH)在 2024...
打开 →周五下午两点半,浦东陆家嘴一家中型私募的风控会上,PM 把昨晚跑出来的 tear sheet 推过来:「食品饮料这只 600519.SH 的 63 日滚动 夏普比率 (Sharpe ratio)样本期均值是 0.86,银行那两只 000001.SZ 和 600036.SH 是 0.42。0.44 的差,可信吗?」你脑子里第一反应是 3.2.2 L5 那...
打开 →周三午后,浦东陆家嘴一家中型私募的研究台上,PM 把一张 252 天的样本期跑出来推过来:「 600519.SH 对沪深300 ETF( 510300.SH )的 beta 我刚才用 np.linalg.lstsq 解出来是 0.91——但 0.91 离 1 到底有多远?是抽样噪音里飘出来的一格,还是这只票就比沪深300 系统性低 beta?」3.2.1 L...
打开 →周一上午十点,浦东一家中型私募的研究台。PM 把 3.2.2 L5 那张已经稳定跑通的 tear sheet 推过来,篮子是 、252 个交易日的 NumPy 收益矩阵 returns ,形状 公式。「我现在不要单只票的 alpha 也不要 Sharpe——给我四个数:第一,这只 3 票篮子的 最小方差 长仓权重;第二,顶端主成分占多少方差,看篮子风...
打开 →某多策略基金的风控官想要一个数:在已经持有一个长久期债券账户的组合里,再叠加一个沪深300 多头股票账户,会增加多少方差?答案不是"沪深300 方差加债券方差",而是"沪深300 方差加债券方差再加两倍协方差"——而这个协方差,正是上证日盘与 CFFEX 国债期货市场每天联动着送上来的统计量。要拿到这一个数,把整个联合分布全写出来是大材小用;风控官真正做的是...
打开 →某私募的组合经理向风控要一份"未来 5 个交易日组合预期 P&L"和"组合 5 日波动率"。这两个数对应概率论里最基础的两个量: 期望 (expectation, mean)与 方差 (variance, second central moment)。再深入一层,你会想问"组合 P&L 超过 5% 的概率上界是多少"——而当你对分布只有有限的...
打开 →某宏观对冲基金的量化研究员盯着一张散点图:横轴是沪深300 ETF 的日收益率,纵轴是 50ETF 隐含波动率指数的日变动。两个边缘分布他已经会读了——沪深300 日收益大致呈钟形,IV 指数日变动则厚尾且偏负。他真正想问的却是 条件 问题: 当 沪深300 刚刚打出 2% 的盘面 之后 ,IV 指数变动的分布长什么样?这个对象既不是...
打开 →某股票多空策略私募的信号研究员每天跑一条回归:下周收益对动量因子的回归。他把拟合直线写为 r hat = a + b signal 。在抽样之前,这条直线是什么?它就是 (收益, 信号) 的联合分布下的 总体条件期望 (population conditional expectation)公式 ——而在沪深300 因子收益满足联合正态(joint n...
打开 →某私募的合规体检流程里有一项强制 HIV 筛查:某种检测试剂的灵敏度(sensitivity)99%、特异度(specificity)95%。一个员工拿到阳性报告,推门进来问"我得病的概率是不是 99%?"——医生告诉他大约 17%。表面上反直觉的差距,根源在于他混淆了两个量:公式 与 公式。这一节把条件概率与贝叶斯公式这两件"信息更新"的核心工具讲清楚,顺...
打开 →某私募的策略经理把过去 12 个月的日 P&L 平均值定为 0.06%,准备据此外推年度回报。这种"样本均值即真均值"的隐含假设到底有多牢靠?——回答它需要两条极限定理: 大数定律 (law of large numbers, LLN)说"公式 足够大时样本均值确实贴近真均值"; 中心极限定理 (central limit theorem, ...
打开 →某私募基金的风控组在周五下午盘点一份报告:研究员声称他的新因子在过去 250 个交易日里"有 23 次同一日命中两只以上股票的涨跌停",并把这当作"反常聚集"的证据。问题是:在 23 个独立事件中至少撞上两次,本来就稀奇吗?这其实是"生日问题"的金融变体——回答它之前,你需要把"事件"和"概率"的定义先钉死。本节把概率从地基重新搭起来:样本空间、事件、Kol...
打开 →某私募的风险分析师每天早盘从终端上抓两个数:沪深300 ETF 的日收益与 10 年国债收益率的日变动。她真正关心的不是任何一个单变量,而是两者的 联合 画像:沪深300 跌超 1% 同时 10 年期收益率跳升 5bp 的概率。这类问题任何单变量密度都回答不了——它本质上是一个联合分布(joint distribution)问题。这一节把你在 2...
打开 →某私募的因子研究员在统计沪深300 成分股的日内 事件触发数 :某一天有 16 只股票触发"开盘 30 分钟内涨幅超 2%"。下一步要做的不是逐股分析,而是建模: 这个数本身 服从什么分布?如果它接近泊松分布(Poisson distribution),你可以一眼断定"日间触发数的波动属于自然涨落";若实际数据明显胖尾,则要换模型。把研究问题...
打开 →周一早盘,某私募的时间序列研究员把过去 200 个交易日的对冲组合超额收益丢进 statsmodels。她想确认这条曲线是不是一个干净的 ARMA 过程——若是,残差就是一组白噪声,可以挂上下一阶段的 GARCH;若不是,她得回去重做特征工程。问题是:用 AR(1)、MA(1)、ARMA(1, 1) 还是 ARMA(2, 1)?拟合完之后怎么知道这一支模型确...
打开 →某私募的研究员把一个 Jupyter notebook 推过来:他们在沪深300成份股上扫了 500 万个 (S, K, σ, t) 参数组合,目标是给隐含波动率曲面拟合做敏感度分析。纯 Python + scipy.stats.norm.cdf 跑了 47 分钟,他要的是把这一步压到 5 分钟以内,但策略迭代仍然由他在 notebook 里驱动——研究员不...
打开 →周一上午,你在上海的一家 量化 私募。研究主管 在桌边停下来,看了一眼你 上周提交的 12 1 动量 信号的 DSL,问了一句话:「IC 是 多少?」这就是 4.2.3 模块 整个 评估 工序的 起点。你 已经 按 4.2.2 的 规范 把 信号 构造 完毕——alpha 公式 写好了,标准化 流水 跑通了,T+1 滞后 处理过了——下一步 不是 再 优化 ...
打开 →周五晚上,某私募量化研究员要对一个 20 只股票的行业轮动策略做半年回测,需要一个 (T=252, N=20) 的日收益矩阵。问题是平台的合规决策写得很清楚:不接行情数据牌照,所有训练样例只能跑合成数据。CSV 里没有,卖方接口也没有,只能自己生成。这一课给出最小可复现的配方:一颗确定的随机种子、对数欧拉离散化的 GBM 一步、用 Cholesky 分解构造...
打开 →国内某多空选股私募的资深研究员把一篇顶刊工作论文转给了基金经理:「作者在沪深300成分股范围内构造了一个基于净经营资产应计的因子,样本内夏普 1.8,t 值 2.4。是否纳入生产合成因子?」基金经理翻到方法论页只回了三行字:「三个问题。(1) 论文 t 值 2.4——文献已经发了大概 300 个这种因子,多重检验调整后的门槛是多少?(2) 用了断点宇宙断点和...
打开 →国内某量化私募新来的研究员从离职同事那里接过一份 SMB 构建脚本。她在沪深300成分股之外把范围扩到中证全样本,2010 年之后跑出来,SMB 年化 7.4%,t 值高于 4——惊人,因为 LSY 3 的规模因子在国内学术样本里多年只在 2 3% 附近徘徊,Fama French 美股 SMB 也长期在 2 3%。投委会的资深基金经理脑子里跑了三步诊断:「...
打开 →某 A 股 50 私募的风控经理:她的交易团队上周三晚成交后报上来一份「明日 1 日 99% VaR = 1,800 万 RMB」。基金经理把头摇了摇——「我们 1 亿元 名义敞口,这个数字到底是什么意思?是说明天最多亏 1,800 万,还是说有 1% 概率亏超过 1,800 万?」更要命的问题在下一句:「2023 年起 FRTB 替换 99% VaR 用 ...
打开 →上海某量化私募的两位研究员同一天上午被同一类工具卡住:小赵在搭一个「明日是否跑赢沪深300」的择时信号,标签是二元的 0/1;小李在 50ETF 期权做市数据上估「下一分钟到单笔数」,响应是非负整数 公式。模块前三课的普通最小二乘(ordinary least squares, OLS)对这两个任务都派不上用场——OLS 默认响应在正态分布(Gaussian...
打开 →周二上午十点的滚动均值 某私募研究台周二上午十点。你刚把 3.2.2 收尾那条 8 步管道交给量化团队,篮子是沪深300 ETF(510300.SH)和三只 A 股票面 ,日收益矩阵 (252, 4) 。PM 把它拉到全市场场景版本——篮子扩到 100 只票、回溯 100 个交易日——结果纯 Python 嵌套循环算出来的 20 日滚动均值跑了 11 秒,下...
打开 →周一上午 9 点 40 分,浦东陆家嘴一家中型私募的研究台。PM 转过头来:「上周那个 A 股小篮子—— 600519.SH 、 000001.SZ 、 600036.SH ——把 2024 年全年的因子摘要(tear sheet)给我,按申万一级行业把夏普汇总一下,下午三点的月会要用。」你看了一眼磁盘:L4 那道时间序列流水线吐出的 closes.parq...
打开 →招商银行 私行 部 一位高级 FOF 经理 给你 转 来一份 私募 量化 中性 产品的 5 年期 业绩 路演 材料。基金报 Sharpe 2.1 净值口径,IR 1.5 相对 中证500 全收益,最大回撤 12%,AUM RMB 25亿,业绩报酬 1.5%+20%,容量估计 RMB 50亿,要 RMB 1亿 机构 配额。路演 PPT 的曲线平滑,在 私募 排...
打开 →某 HFT 私募的低延迟负责人在周五下午走进工程间,对写出 L1 / L2 / L3 这套交易二进制的团队问一个问题:"开发机上跑得对。现在要把它放到 CFFEX 张江 COLO 撮合引擎旁边的机柜里,并对交易桌承诺端到端 P99.9 在 3 µs 以下,还要做哪些事?"这段从「能编译」到「桌子敢用」的差距,就是部署故事。四层一起出力:编译标志(PGO + ...
打开 →