进程、作业与资源控制 — 面向量化开发的 Linux 与 Shell

晚上十点，你启动了一个沪深300 ETF（510300）的 5 分钟均值回归策略回测，参数扫了三十组，估计要跑一整夜加半天。你把笔记本一合准备回家，然后突然想起一件事：ssh 连接一断，那个 Python 进程就死了。第二天一早你还得看进度、还要在跑到一半时杀掉它重启。这一课教你怎么用 tmux 把长任务留下、用 ps / top / htop 看它在干什么、用信号干净地关掉它、用 rsync 把数据在机器之间倒。

进程模型

每个在跑的程序是一个进程，有唯一的进程号（process id, PID）和父进程号（parent PID, PPID）。shell 自身是一个进程，它 spawn 的每个子进程继承它的环境变量与工作目录。

ps aux 是 BSD 风格的「列出所有进程」；ps -ef 是 System V 风格的等价形式。常看的列：USER、PID、%CPU（瞬时 CPU 占用）、%MEM（物理内存占比）、VSZ（virtual size，虚拟内存——因 mmap 很大是正常现象，不要慌）、RSS（resident set size，真正占的物理内存）、STAT（状态：R 运行、S 睡眠、D 不可中断 I/O、Z 僵尸）、START（启动时刻）、TIME（累计 CPU 时间）、COMMAND（命令行）。pstree -p 给你父 / 子树形视图；pgrep -f 'backtest.py' 按完整命令行找 PID。

ps aux | grep -E 'backtest|python' | grep -v grep
pgrep -af backtest.py
top -p $(pgrep -d, -f backtest.py)

grep -v grep 把 grep 自身这行从结果里排除，是经典习惯。pgrep -af 输出「PID + 完整命令行」；top -p 锁定一组 PID 来实时看数字。htop 是 top 的美观、可交互版本——F9 发信号、F6 改排序——多数研究机都装了。

信号：宇宙通用的 IPC

信号是内核投递给进程的小整数。日常量化开发里你主要用这几个：

SIGTERM (15) — kill <pid> 的默认。语义是「请收尾退出」。好写的程序装一个 handler（Python 里 signal.signal(signal.SIGTERM, ...) 或 try/finally），flush buffer、关数据库连接、再退。
SIGKILL (9) — kill -9 <pid>。不可捕获、不可忽略——内核直接终结进程。这是最后手段，因为进程没机会清自己留下的临时文件 / 数据库行锁。
SIGINT (2) — Ctrl-C。Python 里翻成 KeyboardInterrupt。
SIGHUP (1) — 终端关闭时投给它的子进程。nohup 之所以叫 nohup，就是让进程忽略这一信号。
SIGSTOP (19) / SIGCONT (18) — 暂停 / 继续。Ctrl-Z 实际是 SIGTSTP，由 shell 接到后把前台任务暂停。

kill 12345         # SIGTERM: please clean up and exit
sleep 10; ps -p 12345
kill -9 12345      # SIGKILL: cannot be caught, cannot be ignored

信号选择口诀：先 SIGTERM 给程序留清理时间；只有真死了才 SIGKILL。一上来就 -9 是业余习惯——你在给自己制造 stale 临时文件与半写数据。

作业控制与 `tmux`

shell 自己也是一个「作业（job）调度器」的缩水版。命令末尾加 & 把它投到后台启动：python -m backtest.run --date 2025-04-24 &，shell 立刻返回提示符，打印 [1] 12345（作业号 1、PID 12345）。jobs 列当前 shell 的作业；fg %1 把作业 1 拉回前台；bg %1 把一个已暂停的作业在后台继续。Ctrl-Z 把前台作业暂停（shell 接 SIGTSTP）。disown %1 把作业从 shell 的表里摘除——shell 关闭时就不会给它发 SIGHUP。nohup cmd & 一步到位：忽略 SIGHUP、把 stdout / stderr 重定向到 nohup.out。

但 nohup 是老一代工具。现代做法是 tmux：

tmux new -s bt-mr5m                                # 开一个名为 bt-mr5m 的会话
python -m backtest.run --date 2025-04-24 2>&1 | tee run.log
# Ctrl-b d 分离会话（detach），进程继续跑
# 第二天从一台新 ssh 上来：
ssh quant@research-cn
tmux attach -t bt-mr5m                             # 把同一个会话拉回来
tail -F run.log                                    # 跟踪日志，文件被轮替也能跟

A-股量化团队习惯在 tmux 中跑多日 backtest——一个会话一个实验，命名规范直接写在会话名里（bt-510300-mr5m = 510300 上的 mean-reversion 5min）。screen 是老一代的等价物，现在基本只在老服务器上见。

远程 shell 与 `rsync`

ssh user@host 是交互式登录。ssh user@host 'cmd' 在远程跑一条命令然后返回——经常用来检查远程文件是否存在、查询远程磁盘。~/.ssh/config 给主机起别名：

Host research-cn
    HostName 10.0.0.7
    User quant

之后 ssh research-cn 就是上面那一坨的简称。

scp local remote: 拷单文件 / 小目录。**rsync 是量化数据同步的日常工具**：增量同步、断点续传、可以走 ssh。-avz 是 archive + verbose + compress（默认套餐），--progress 显示进度，--delete 让目的端与源端同步——这是危险操作。

rsync -avz --progress --dry-run --delete data-staging:/staging/cn/min1/20250424/ ./local-cache/   # --dry-run first, every time
rsync -avz --progress --delete data-staging:/staging/cn/min1/20250424/ ./local-cache/

三条 rsync 纪律一次写给你：

--dry-run 永远走在真跑之前——尤其当命令里同时出现 --delete。
带不带 src/ 末尾斜杠决定拷的是「目录内容」还是「目录自身」——念错一次就多走一层目录。
用 --progress 看进度、用 -avz 默认套餐、跨机一律走 ssh。

这在「--delete 把一天的工作删没了」之类事故之后不用再学。

资源控制：`ulimit` 与 `/usr/bin/time -v`

ulimit -a 列出当前 shell 的软限制。最常撞的一条是「too many open files」——Python 进程在大量并发 HTTPS 请求时把文件描述符撑爆，默认是 1024。一次性拉上来：

ulimit -n
ulimit -n 65536
/usr/bin/time -v python -m backtest.run --date 2025-04-24

/usr/bin/time -v（注意 是完整路径，不是 shell 内建的 time）跑完后打印一堆计数。三个数优先看：

Elapsed (wall clock) time — 真实流逝时间。
Maximum resident set size (kbytes) — 峰值物理内存。这才是「这个 backtest 吃了多少内存」的答案；不要看 VSZ。
Major (requiring I/O) page faults — 大于 0 通常意味着进程在 swap 到磁盘，研究机上一旦看到这个数上来就该排查内存不够用。

nice -n 10 cmd 起一个低调度优先级的进程（正 nice = 「我让着别人」）；ionice -c 3 cmd 降 I/O 优先级。研究机是多人共享的时候这两条都用得上。

工作流：tmux + 监控 + 干净收尾

把上面几块拼起来。把一个多日 510300 backtest 放进一个 tmux 会话，在里面跑、log 到文件、ssh 断线不死；第二天重连 attach 回来看 tail，发现一组参数不收敛想立刻杀掉。SIGTERM 给它留几秒收尾，写 pnl.csv 落地当天的部分结果（这一段由第 4 课的 trap 实现）；如果五秒后还没退，SIGKILL 它，再启动一组新参数。这是你接下来几年的日常。

一句关于 cgroups：ulimit 限制的是单进程，cgroups 限制的是一组进程（可以按内存、CPU、I/O 限）。容器内的资源限制用的就是 cgroups。再深的跑法留给 3.6.5（构建、部署与容器）。

练习

Exercise

你启动了一个 Python backtest：python -m backtest.run --date 2025-04-24 &。现在想 (a) 用 pgrep -f backtest.run 找它的 PID，(b) 从 /proc/$PID/status 的 VmHWM 行读它的峰值物理内存，(c) 先用 kill $PID 发 SIGTERM 并等 5 秒，(d) 如果还活着（用 ps -p $PID 验证），用 kill -9 $PID 发 SIGKILL，(e) 在一个名为 bt-rerun 的 tmux 会话中重启一次，让 ssh 断线也不会丢。把每一步的命令写出来。

提示

PID=$(pgrep -f backtest.run) 把 PID 抓到变量里。grep VmHWM /proc/$PID/status 直接读那一行。sleep 5 等 5 秒。ps -p $PID 还在输出就说明进程没退。

提示

tmux 开新会话是 tmux new -s bt-rerun，里面跑 python -m backtest.run --date 2025-04-24 2>&1 | tee run.log；分离用 Ctrl-b d；下次上来 tmux attach -t bt-rerun。会话名就是你一周后的路标。

下一课预告

至此你已经能把一个长任务留在研究机上跑、能在它出问题时干净关掉、能把数据在机器之间倒。但这一切还是「手跑」的——每晚你还是要上去敲一遍。下一课教你把它写进一个 bash 脚本，加上 set -euo pipefail、trap 清理、getopts 解析参数，再用 cron 或 systemd --user 定时调度，整个端到端落地流程才算真正立住。

阅读清单

《鸟哥的 Linux 私房菜》第四版，第 16–17 章（进程管理与系统服务 SystemD）。
man 7 signal 中文版（信号标准参考）。
man ssh_config / man rsync 中文（社区翻译）。
tmux 中文用户指南（社区翻译）。

一条额外注释提醒：A-股量化团队习惯在 tmux 中跑多日 backtest，研究机与数据机之间通过 rsync 同步落地数据；本地笔记本 / 公司网络之间走 VPN 或跳板机。tmux + rsync + ssh 的三件套你这几年每天都会用。

参考卡

本课出现的 Fenced ```bash 块：进程三查（ps aux、pgrep -af、top -p）、信号升级（SIGTERM 后 SIGKILL）、tmux 工作流（new / attach / tail -F）、rsync --dry-run 纪律、资源计量（ulimit -n、/usr/bin/time -v）。

进程 模型

信号：宇宙 通用 的 IPC

作业 控制 与 tmux

远程 shell 与 rsync

资源 控制：ulimit 与 /usr/bin/time -v

工作 流：tmux + 监控 + 干净 收尾

练习