文本处理管道：grep、awk、sed 与 jq — 面向量化开发的 Linux 与 Shell

A-股一家私募的 quant，下午三点半收盘之后收到数据团队的一条消息：「今天沪深300 ETF 的 tick 文件落到 /data/market-data/cn/equity/tick/20250424/ 了，你看看行数对不对、品种有没有缺、总成交额大概多少。」她不打算写一个 Python 脚本——这种「看一眼」的事用 shell 一句话更快。这一课教的就是这种「一句话」的工艺：用 stdin / stdout / stderr 三个流、用 | 拼小程序、用 grep / sed / awk / jq 做行与字段上的工作。

Unix 哲学：流与管道

每个进程启动时都拿到三个流：标准输入（stdin，文件描述符 0）、标准输出（stdout，文件描述符 1）、标准错误（stderr，文件描述符 2）。默认三者都连到终端，但它们是三股独立的字节流——这一点之所以重要，是因为当你把 cmd1 | cmd2 这样拼起来时，cmd1 的 stdout 接到 cmd2 的 stdin；而 cmd1 写到 stderr 的错误信息不会污染数据流，仍然落到终端。

重定向操作都是 shell 在启动子进程之前做的。基本形式：cmd > out.txt 覆盖输出文件、cmd >> out.txt 追加、cmd < in.txt 把文件喂给 stdin、cmd 2> err.log 只抓 stderr。合并 stderr 进 stdout 然后一起重定向有三种形式：

cmd > out.log 2>&1   # correct: stdout 先 重定向，再让 stderr 跟上去
cmd &> out.log       # modern shorthand: 等价于上一行，bash 4+ 支持
cmd 2>&1 > out.log   # broken: stderr 绑到 原 stdout (终端)，stdout 才被重定向到文件

第三行是经典的「foot-gun」：重定向是从左到右处理的，2>&1 此时 stdout 还指向终端，于是 stderr 绑到终端；下一步 > out.log 只改 stdout。结果是 stderr 仍然打在屏幕上，文件里只有 stdout。tee out.log 把一个流同时写到文件和 stdout，调试时很顺手。

管道 cmd1 | cmd2 把 cmd1 的 stdout 接到 cmd2 的 stdin。这是 Unix 写出「小程序、可组合」的关键设计。

核心工具箱

读与显示：cat file 打印文件（但 cmd < file 或 cmd file 通常更好——「useless cat」是真正的反模式）；head -n 5、tail -n 5；tail -f file.log 持续跟一个在写的日志；less file 分页看。

计数：wc -l（行）、wc -c（字节）、wc -w（词）。

排序与去重：sort（默认词典序）、sort -n（数值）、sort -r（倒序）、sort -k 2,2（按第二字段排）、sort -u（顺手去重）。uniq -c 数相邻重复——sort | uniq -c 是经典直方图模式（先排好才能用 uniq）。

切与拼：cut -d, -f1,3 从逗号分隔文件里取第 1、第 3 列；tr 'A-Z' 'a-z' 翻字符；paste -d, a.txt b.txt 按列拼两个文件；xargs -n 1 -I {} cmd {} 把流里的每个 token 当参数调一次命令。

直方图模板——拿一个 tick 文件算每个 ticker 出现多少次，前十名：

cut -d, -f1 tick_510300_20250424.csv | sort | uniq -c | sort -rn | head -n 10

五段流水：取 ticker 列、排好、数邻接重复、按计数倒序、取前十。这是你接下来几年会写几百遍的模式。

`grep`：三种正则

grep 默认是基础正则（BRE），但你应该默认使用 grep -E 的扩展正则（ERE）——+、?、()、{} 在 ERE 里不用转义。grep -F 'literal' 是「字面字符串」，对形如 [bracket] 的关键字既安全又最快。常见 flag：-v 反取（排除）、-c 数行数、-n 给出行号、-r 递归搜目录、-l 只列文件名、-i 大小写不敏感、-o 只输出匹配部分。

sed 's/old/new/g' 是 80% 的替换工作——g 表示每行全部出现。sed -i.bak 's/old/new/g' file 原地改文件并留一份 .bak 备份；裸 -i 在 GNU 和 BSD 之间行为不同，写脚本时显式给一个后缀。更深的 sed 用法（hold space、多行模式、跳转）一句话总结：当 sed 不够用时，你实际上在写 awk 或 python。

`awk`：一屏范围

awk 默认用空白分字段，awk -F, 改成逗号。$1 是第一字段，$0 是整行，NR 是当前行号（1-based），NF 是本行字段数。BEGIN { ... } 在第一行之前跑，END { ... } 在最后一行之后跑——这两个块加上在主循环里累加一个变量，就能做「跨行状态」。

awk -F, 'NR > 1 {rows++; syms[$1]=1; notional += $4 * $5} END {n=0; for (s in syms) n++; print rows, n, notional}' tick_510300_20250424.csv

NR > 1 跳过表头；主循环累加 rows，把 ticker 当关联数组的键用来算 distinct count，把 price * volume 加到 notional；END 里遍历 syms 数出不同品种数，最后一行输出三个数。这一行你应该默写。

`jq`：JSON 行流

JSONL（JSON Lines）是量化数据落地的主流格式之一：一行一个 JSON 对象，每行同 schema。jq '.field' 取字段；jq '.[]' 遍历数组；jq -c 输出紧凑 JSONL；jq 'select(.price > 100)' 过滤；jq -r 输出 raw 字符串（不带引号）；jq -r '[.a, .b] | @csv' 把字段投影成 CSV，跟后面的 awk 拼。

book_510300_20250424.jsonl 的一行长这样：{"ts":1745467800000,"ticker":"510300","bid":3.84,"ask":3.86,"mid":3.85}。用 jq 走同样三个数的路：

jq -r '[.ticker, .mid] | @csv' book_510300_20250424.jsonl | awk -F, '{rows++; syms[$1]=1; notional += $2} END {n=0; for (s in syms) n++; print rows, n, notional}'

jq -r 把每条 snapshot 投影成 "510300",3.85 一行，awk 处理跟之前同构——把 jq 当成「JSON → CSV 适配器」，下游工具不变。

Python 一行等价

python -c "import pandas as pd; df = pd.read_csv('tick_510300_20250424.csv'); print(len(df), df['ticker'].nunique(), (df['price'] * df['volume']).sum())"

Python 读一遍 CSV、求行数、distinct ticker、price * volume 求和。三种写法各有用武之地：

临时探索 / 半夜在终端排查 — 用 awk 或 jq；启动快，不离开 shell。
定时落地任务 — 用 Python；可测试、可加日志、可加异常路径。
可复跑的研究脚本 — 用 Python；要留给下周的自己用。

口诀：三段以内、无状态、临时用：shell；超过 -> Python。一旦你的 pipeline 长到四段、需要跨行状态 / 需要在 cron 里跑、需要留给同事读，就把它重写成一个 Python 脚本（这正是第 4 课的主题）。

一段关于压缩与数据库

研究机上的 tick 文件大多是 .csv.gz。zcat file.csv.gz | awk ... 等价于把 file 先解压再走 awk；zgrep pattern file.csv.gz 直接在压缩文件上搜。数据库客户端也能喂进同一条 pipeline——psql -A -F, -t -c 'SELECT ...' 输出 CSV、流式进 awk——但 psql 本身是第 3 个模块的主题，这里仅一句带过。LC_ALL=C sort 比 locale-aware sort 更快更可预测，量化数据通常都这样跑。

练习

Exercise

给定文件 tick_file.csv，表头是 ticker,trade_date,trade_time,price,volume，写出三条命令。(a) 用 grep 和 wc -l 数出 trade_time 字段以 0930 开头（开盘第一分钟）的行数。(b) 用 awk -F, 计算这一分钟切片的总成交额 sum(price * volume)，跳过表头行。(c) 用 jq 处理同一天的 book_file.jsonl，把 distinct 的 ticker 字段按字典序排好输出。最后验证 (a) 的行数和 jq '.' book_file.jsonl | wc -l 减去非开盘分钟行后的数字一致。

提示

开盘分钟的行形如 ...,20250424,093015,3.85,1000——grep -E ',0930[0-9]{2},' 卡 trade_time 在第三列；wc -l 数输出行数。awk 里 $3 ~ /^0930/ 或者在主循环起手加 if ($3 ~ /^0930/) 卡同一片区间。

提示

jq -r '.ticker' 一行一个 ticker；用 sort -u 去重排序。(price * volume) 在 awk 里写 $4 * $5，跨行用 notional += $4 * $5，最后 END { print notional }。

下一课预告

到这一课为止，你已经能在终端里把一个 tick 文件拆开看。但一旦你想让一个 backtest 跑两天、跑通宵、能在 ssh 断线后继续跑——你就需要离开「一句话」的世界，进入进程与作业控制。下一课教你怎么用 ps / top / htop 看进程，用 kill 与信号关进程，用 tmux 让长任务在 ssh 断线之后仍然活着，用 rsync 把数据在机器之间拷来拷去。

阅读清单

《鸟哥的 Linux 私房菜》第四版，第 11–12 章（正则表达式与文件查找、awk 与 sed）。
GNU grep / sed / awk 中文手册（社区翻译）。
jq 用户手册中文翻译（jqlang.github.io 镜像）。
一篇被 A-股量化社区广泛转载的「awk 处理 Tushare 导出 CSV」经典短文（不指名来源）。

把这一课的「直方图」与「三数 summary」两个模板抄进你自己的笔记本——你会用一辈子。

参考卡

本课出现的 Fenced ```bash 块：三段重定向形式（correct / modern shorthand / broken）、直方图五段流水、纯 awk 三数 summary、jq + awk 联合形式、python -c 等价。

Unix 哲学：流 与 管道

核心 工具箱

grep：三种 正则

awk：一屏 范围

jq：JSON 行 流

Python 一行 等价

一段 关于 压缩 与 数据库

练习