时序数据库：TimescaleDB、QuestDB、InfluxDB 与 kdb+ — SQL 与时序数据库

某沪深 300 私募的交易员提单：『上一季在 ticks 表上 15 秒出结果的 1 分钟 VWAP-per-symbol 查询，今天跑了 11 分钟。Postgres 仓库正在维持每秒 9 万写入来自沪深行情网关，EXPLAIN 在一条仅触三日数据的查询上报 1.8 亿缓冲读取』。L2 的卫生清单——ANALYZE、正确索引、覆盖复合——都已应用。约束现在在存储引擎。装着 L2 schema 与索引的单机 Postgres 处理日终 bar 表与几十亿历史 tick 都还 happy；但当持续 tick 摄入突破每秒几十万行、或者 GROUP BY symbol, time_bucket(...) 查询在上百亿行表上即便索引正确也不肯毫秒级返回时，它就开始喘了。时序数据库 是为这种场景专门设计的存储。

区分 TSDB 与行存 RDBMS 的三条存储属性

TSDB 之所以赢 tick 聚合负载，是因为三条存储属性，按这个顺序：columnar storage、time partitioning、time-bucket aggregation。列式存储 把一列的值在磁盘上连续摆放；触三列的四十列表，列存大约读行存的 3/40 字节，并且同一列的邻接值（微秒时间戳、聚簇在近期价位附近的价格）熵低、压缩比好。时间分区 把表物理按 ts 范围切成 chunk——常见是每日一 chunk 或每周一 chunk——于是 WHERE ts BETWEEN ... 只扫与窗口重叠的 chunk，而 DROP CHUNKS OLDER THAN '90 days' 这类保留策略用一次元数据操作回收旧数据，不必跑上亿行 DELETE + VACUUM。时间分桶聚合 把把时间按 N 分钟 / N 秒 / N 微秒分桶暴露为一等算子（time_bucket、SAMPLE BY、xbar），规划器可以直接从列存满足，不走显式 Sort。

同一条 VWAP 查询，四种写法

对 ticks(symbol, ts, price, size, side) 计算昨日交易时段每标的 1 分钟 VWAP。普通 Postgres + SQL（L1 / L2 基线）：

SELECT symbol, date_trunc('minute', ts) AS bucket, sum(price * size) / nullif(sum(size), 0) AS vwap FROM ticks WHERE ts >= date_trunc('day', now() - INTERVAL '1 day') AND ts < date_trunc('day', now()) GROUP BY symbol, bucket ORDER BY bucket, symbol;

TimescaleDB，同样的 SQL 加 time_bucket：

SELECT create_hypertable('ticks', 'ts', chunk_time_interval => INTERVAL '7 days');
SELECT symbol, time_bucket(INTERVAL '1 minute', ts) AS bucket, sum(price * size) / nullif(sum(size), 0) AS vwap FROM ticks WHERE ts >= now() - INTERVAL '1 day' GROUP BY symbol, bucket ORDER BY bucket, symbol;

QuestDB，一行用 SAMPLE BY 加原生 VWAP 函数：

SELECT symbol, vwap(price, size) AS vwap FROM ticks WHERE ts IN yesterday() SAMPLE BY 1m;

kdb+ / q，四种里最致密——每个 token 都有含义：

select vwap:size wavg price by symbol, 1 xbar ts.minute from ticks where date=.z.d-1

读这条 q：vwap:size wavg price 是加权平均聚合，输出列命名为 vwap；by symbol, 1 xbar ts.minute 按标的与 ts.minute 投影的 1 分钟桶分组；where date=.z.d-1 是在昨日日期目录上的分区谓词。

TimescaleDB：从 Postgres 出来的平缓坡道

Postgres 扩展。一个 hypertable 是一个逻辑父表，Timescale 在底下按 ts 自动切成 N 日 chunk。SQL 表面就是普通 Postgres SQL——L1 与 L2 的所有东西原样沿用。新原语：SELECT create_hypertable('bars_1m', 'ts', chunk_time_interval => INTERVAL '7 days'); 一句话把 L2 事实表转成 hypertable；time_bucket(INTERVAL '1 minute', ts) 作为 GROUP BY 表达式；CREATE MATERIALIZED VIEW bars_1m_5m_vwap WITH (timescaledb.continuous) AS SELECT symbol, time_bucket('5 minutes', ts) AS bucket, sum(close * volume) / nullif(sum(volume), 0) AS vwap FROM bars_1m GROUP BY symbol, bucket; 这类连续聚合用于增量物化视图；add_retention_policy('bars_1m', INTERVAL '5 years'); 配保留策略。卖点：迁移就是一句 CREATE EXTENSION timescaledb; 加一句 SELECT create_hypertable(...);，L1 / L2 的知识全部原样沿用。A 股量化团队上 PostgreSQL / PolarDB-O 的默认升级路径是 TimescaleDB。

QuestDB：为 tick 摄入而生

专门设计的列式 TSDB，讲 Postgres 线协议，所以 psql 与 Python 的 psycopg 直接能用。SQL 表面是 SQL 加量化倾斜的扩展：SAMPLE BY 1m FILL(LINEAR) 做带缺口填补的时间分桶，LATEST ON ts PARTITION BY symbol 做每标的最新值查询，以及设计器（yesterday()、today()、'2026-05-23' 这类日期字面直接当一整天数据）。磁盘布局是列式加按日分区加显式指定时间戳列；商品硬件单节点摄入吞吐触每秒几十万行。四个里试用门槛最低——单二进制文件、零配置、SAMPLE BY 语法一行就写完。社区翻译的中文 README 已覆盖关键章节。

InfluxDB：另一套心智模型

写入是 line-protocol 记录——measurement,tag1=v1,tag2=v2 field1=1.0,field2=2.5 timestamp_ns——读取用 Flux（现代 InfluxDB 2.x / 3.x 查询语言）或 InfluxQL（遗留 1.x 语言）。写时 schema 模型区分 tag（带索引的字符串维度）与 field（无索引的数值）——专为监控与 IoT 数据优化，那里维度是有限集合（主机、地域、传感器类型）而值是数值。在中国量化圈多用作监控系统的后端，作一线 tick 仓库较少；这里点名是为完整性，也因为 tag-vs-field 模型是标准的『没 SQL 的 TSDB』反例。

kdb+ / q：对冲基金旧主

全球头部对冲基金与国内头部私募 / 少数券商自营桌做 tick 分析的经典答案——点名仅抽象描述，不作推荐。q 是一种从 APL / K 派生的向量语言，第一眼看上去奇怪，但致密又快。分区表在磁盘上按每日一目录摆放——/db/2026.05.23/trade/、/db/2026.05.23/quote/、…，每个日期目录内每列一文件。杀手特性是 aj（asof-join：对 trades 每行找 ts ≤ trade.ts 的同标的最近一条 quote——标准的『把成交匹配到当时的顶档行情』）与 wj（窗口 join：在每笔成交 ts 附近的窗口内聚合行情统计）。卖点：当你的负载是两张各上百亿行 tick 表之间的 asof-join、答案必须一秒出而不是一小时出时，kdb+ 就是答案。代价是商业 license 费、q 语言学习曲线，以及维护一个厂商专用存储带来的运维习惯。

决策规则，明说

TSDB	查询语言	磁盘布局	主要用场
TimescaleDB	`Postgres SQL`	`Postgres rows + hypertable chunks by ts`	`gentle on-ramp from Postgres`
QuestDB	`Postgres-wire-compatible SQL with SAMPLE BY / LATEST ON`	`columnar with designated timestamp`	`high-throughput tick ingest`
InfluxDB	`Flux / InfluxQL (not SQL)`	`tags-and-fields columnar`	`metrics / IoT pipelines`
kdb+ / q	`q language with q-SQL`	`partitioned-on-disk per-date directories with one column file per column`	`asof-joins on multi-billion-row tick tables`

留在 Postgres 上，直到 (a) 持续摄入突破约 10 万行/秒、写入开始积压，或 (b) EXPLAIN (ANALYZE, BUFFERS) 报上亿缓冲读取与分钟级墙钟在跨多十亿行 tick 表的 GROUP BY symbol, date_trunc('minute', ts) 查询上出现。这时把 tick 表迁到 TimescaleDB（迁移摩擦最低）或 QuestDB（写入吞吐最高）。kdb+ 用在你团队已经在付 license、并且 asof-join 工作（把成交匹配到当时顶档行情）是瓶颈时。InfluxDB 仅当『你的生产端已经在用 line protocol』已经是事实时选。ClickHouse 处在 TimescaleDB 与 QuestDB 之间——列式 SQL 也快、但没 QuestDB 那种专为 tick 摄入调过——本课点名不讲。DuckDB 是笔记本上 Parquet 文件分析的故事；团队仓库故事是上面四个之一。一条提醒：大型私募与部分头部券商自营维护 kdb+ 集群；公募与中小私募更多落在 TimescaleDB 上。

操作前指：TSDB ticker plant

TSDB 上实时 tick 摄入通常由 ticker plant 前置：feed-handler 进程消费实时行情（multicast、Kafka、ZeroMQ——3.6.4 消息与流模块教），把行追加进内存中的实时数据库（RDB），并在日终落到磁盘分区数据库。kdb+ tickerplant 是标准例子。这个模式这里点名、不实现——3.6.4 拥有消息故事。本课停在『每个 TSDB 怎么存和查数据』这一层；『摄入怎么实时喂』留给下一模块。

纪律总结

TSDB 是专用工具。中位量化负载的正确答案仍是普通 Postgres；上亿行 tick 上慢 VWAP 的正确答案是 TimescaleDB 或 QuestDB；asof-join 主导的负载答案是 kdb+。挑能满足负载的最小存储；从 Postgres 迁出去的不可逆程度足以让你用一份写下来的决策文档做一次。第 4 课把 L1 + L2 + L3 缝成一个可跑的日终管道。

本课构件清单。Inline-code：三条 TSDB-vs-RDBMS 存储属性（columnar storage、time partitioning、time-bucket aggregation）；三个时间分桶原语（time_bucket、SAMPLE BY、xbar）。Fenced sql 代码块：Postgres 基线 VWAP；TimescaleDB 变种 `create_hypertable` + `time_bucket`；QuestDB 变种 `SAMPLE BY 1m`。Fenced q 代码块：kdb+ VWAP。Inline-code 表把四个参考 TSDB 映射到查询语言 / 磁盘布局 / 主要用场。一个 Exercise。Two Hints。市场数据锚是 A 股沪深 300 的 '510050'、'510500'、'510300' 在上证 / 深证 / CFFEX 受监管的私募 / 量化私募体系，T+1 结算、涨跌停制度、SSE / SZSE 流通的 50ETF 与 300ETF。国内主流仓库厂商与部署：PolarDB、TDSQL、OceanBase、GoldenDB、TiDB、StarRocks、Doris、TDengine、CnosDB、Tushare 行情接口、WindPy、聚宽、米筐、JoinQuant、Choice 终端是国内量化团队常见的行情与仓库接入锚。

练习

Exercise

你的 Postgres 仓库有一张 ticks(symbol TEXT NOT NULL, ts TIMESTAMPTZ NOT NULL, price NUMERIC(18,6) NOT NULL, size BIGINT NOT NULL, side CHAR(1) NOT NULL) 表，已长到 ~3 billion rows，覆盖 200 symbols；每日 1 分钟 VWAP 汇总查询（SELECT symbol, date_trunc('minute', ts) AS bucket, sum(price * size) / nullif(sum(size), 0) FROM ticks WHERE ts >= now() - INTERVAL '1 day' GROUP BY symbol, bucket;）现在要 8 minutes，EXPLAIN (ANALYZE, BUFFERS) 报 180M buffer reads。(a) 套 L2 卫生清单（ANALYZE、复合索引 (symbol, ts) INCLUDE (price, size)、ts 上的 BRIN）后重跑 EXPLAIN；若仍 > 60 seconds，(b) 用两句话说为什么迁到 TimescaleDB 或 QuestDB 是下一步、并在给定工作量 100k rows/s sustained ingest + 1-minute time-bucket queries on the latest day 下你会选哪一个。(c) 写出 TimescaleDB 版本：先 SELECT create_hypertable('ticks', 'ts', chunk_time_interval => INTERVAL '7 days');，再用 time_bucket(INTERVAL '1 minute', ts) 写同一条查询；并写出等价的 QuestDB 查询，用 SAMPLE BY 1m。(d) 用一句话说何时你反而会选 kdb+ / q。

提示

L2 卫生清单是必要但在 30 亿行量级上可能不充分。索引后 Seq Scan 应该消失，但几十亿行上的 time_bucket 查询正是 TSDB 为之设计的工作量。

提示

TimescaleDB 把迁移摩擦降到最低（一句 create_hypertable，SQL 完全一样）；QuestDB 在持续 tick 摄入吞吐上胜出。题目工作量同时提到两者——若 Postgres 工具链重要挑 TimescaleDB，若写入吞吐是紧约束挑 QuestDB。

区分 TSDB 与 行存 RDBMS 的 三 条 存储 属性

同 一条 VWAP 查询，四 种 写法

TimescaleDB：从 Postgres 出来 的 平缓 坡道

QuestDB：为 tick 摄入 而 生

InfluxDB：另一套 心智 模型

kdb+ / q：对冲 基金 旧主

决策 规则，明 说

操作 前指：TSDB ticker plant

纪律 总结

练习