容器编排：Compose 与 Kubernetes — 构建、部署与容器化

上海一家私募的 quant 把 L2 产出的 feed-handler:1.0.0 镜像推到内部 registry，问平台组怎么把它部署到测试集群。负责工程师直接反问：「你的 docker-compose.yml 本地长什么样？你的 manifests/ 在测试集群长什么样？」quant 两份都没有，手上只有镜像。集群凭据与云管的 StorageClass 平台组会帮你接，但 YAML——compose 文件、Deployment、Service、ConfigMap、Secret、资源请求、就绪探针——是开发者自己的责任。本课就是写这些 YAML 的地方。学完本课，你会写出一份五服务的 docker-compose.yml 在笔记本上起起 3.6.4 的完整流式栈，也会写出一个 manifests/ 目录让同一份栈在本地 kind 集群上起来。

两层规则

docker compose 是开发者笔记本、CI 集成测试、以及任何单主机可以手动重启的工作负载的正确工具。Kubernetes 是测试、生产、以及任何需要多主机调度、节点故障自动恢复、声明式漂移校正的工作负载的正确工具。Kubernetes 比 compose 多出的五项能力——也是维护一个集群这几个月投入的回报——是：(a) 多主机调度 节点挂了 pod 还能活（compose 没有多主机概念）；(b) 声明式持续校正（compose 是一次性 apply；Kubernetes 跑控制循环持续把集群状态与 manifest 对齐）；(c) Secret 与 ConfigMap 一级资源 与工作负载解耦，改配置不用重建镜像；(d) 滚动更新 + 修订历史 加安全回滚 kubectl rollout undo；(e) 集群级关注点（RBAC、网络策略、service mesh、PDB、自动伸缩）compose 直接不建模。规则：本地用 compose；测试与生产用 Kubernetes。

第一部分——Docker Compose 完整形态

按 3.6.4 capstone 栈写 docker-compose.yml。五个服务、命名网络、命名卷、健康检查、有序启动、重启策略。每一行都是有意写的：

services:
  kafka:
    image: confluentinc/cp-kafka:7.6.0
    environment:
      KAFKA_PROCESS_ROLES: broker,controller
      KAFKA_NODE_ID: 1
      KAFKA_CONTROLLER_QUORUM_VOTERS: 1@kafka:9093
      KAFKA_LISTENERS: PLAINTEXT://0.0.0.0:9092,CONTROLLER://0.0.0.0:9093
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092
      KAFKA_LISTENER_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,CONTROLLER:PLAINTEXT
      KAFKA_CONTROLLER_LISTENER_NAMES: CONTROLLER
      CLUSTER_ID: q1Sh-9_ISia_zwGINzRvyQ
    ports: ["19092:19092"]
    healthcheck:
      test: ["CMD", "kafka-topics", "--bootstrap-server", "localhost:9092", "--list"]
      interval: 10s
      timeout: 5s
      retries: 5
    volumes: ["kafka-data:/var/lib/kafka/data"]
    networks: [feed-net]
    restart: unless-stopped

  timescaledb:
    image: timescale/timescaledb:latest-pg16
    env_file: .env
    ports: ["5432:5432"]
    healthcheck:
      test: ["CMD-SHELL", "pg_isready -U postgres"]
      interval: 10s
      timeout: 5s
      retries: 5
    volumes: ["ts-data:/var/lib/postgresql/data"]
    networks: [feed-net]
    restart: unless-stopped

  feed-handler-producer:
    image: feed-handler:1.0.0
    command: ["producer"]
    environment:
      KAFKA_BOOTSTRAP_SERVERS: kafka:9092
    depends_on:
      kafka:
        condition: service_healthy
    networks: [feed-net]
    restart: unless-stopped

  feed-handler-consumer:
    image: feed-handler:1.0.0
    command: ["consumer"]
    env_file: .env
    environment:
      KAFKA_BOOTSTRAP_SERVERS: kafka:9092
    depends_on:
      kafka:
        condition: service_healthy
      timescaledb:
        condition: service_healthy
    networks: [feed-net]
    restart: unless-stopped

  feed-handler-monitor:
    image: feed-handler:1.0.0
    command: ["monitor"]
    networks: [feed-net]
    restart: unless-stopped

networks:
  feed-net:
    driver: bridge

volumes:
  kafka-data:
  ts-data:

逐节纪律。每个服务都写 healthcheck 以 0 / 非 0 退出表态，depends_on: condition: service_healthy 才能工作。每个有状态服务都挂命名 volume（生产绝不 host-bind：host-bind 把数据生命周期绑在特定主机目录上、破可移植性）。restart: unless-stopped 在失败与宿主重启时都拉回来；但手动 docker compose stop 不拉起。网络命名（feed-net），服务间 DNS 走服务名工作——kafka:9092 就是网络内的 bootstrap-server URL。凭据来自 gitignored .env，通过 env_file: 引用，绝不内联。.env.example 带占位值提交进 git，告诉同事要设哪些变量。

验证栈：docker compose up -d、docker compose ps（期望五个 healthy）、docker compose logs -f feed-handler-consumer（期望 3.6.4 L4 的结构化 JSON 日志）、docker compose down -v（拆栈含命名卷）。

第二部分——Kubernetes 八个原语

每个 quant developer 必须掌握的八个原语，按这个顺序：

Pod——调度单位；一个或多个容器共享网络命名空间（彼此走 localhost）和共享卷。几乎不直接创建；由控制器拥有。
Deployment——无状态服务的控制器；声明 replicas、滚动更新策略（默认 maxSurge: 25% / maxUnavailable: 25%）、kubectl rollout undo 用的修订历史。
StatefulSet——有状态服务的控制器；每个 pod 需要稳定主机名、稳定 PVC、有序启动与拆除（kafka-0 先起 kafka-1）。标准用例：数据库（TimescaleDB）或 broker（Kafka）。
Service——基于 pod 选择器的集群内稳定 DNS + 负载均衡。三种类型：ClusterIP（默认，仅内部，virtual IP 平衡到匹配 pod）、NodePort（在每个节点 IP 的高端口暴露——测试用）、LoadBalancer（云管外部负载均衡——生产用）。DNS：<service>.<namespace>.svc.cluster.local；同 namespace 内短名即可。
ConfigMap——非 secret 配置（topic 名、bootstrap-server URL、日志级别、symbol 列表）；以 env 或 /etc/config/<key> 文件挂载；任何有集群读权限的人都能看到。
Secret——凭据（Postgres 密码、Kafka SASL 密码、mTLS 证书）；默认 base64 存储，不是加密；生产集群在 API server 层配置静态加密 via 集群 KMS（AWS KMS / GCP KMS / Azure Key Vault / 国产 HSM / 阿里云 KMS）；以 env 或 /etc/secrets/<key> 文件挂载；sealed-secrets-controller 与 external-secrets-operator 让 Secret 加密后进 git、只在集群内解密（指向 GitOps）。
Namespace——隔离、RBAC、资源配额的逻辑分区。规则：一环境一 namespace，绝不跨环境共用。feed-dev / feed-staging / feed-prod；kube-system 与 kube-public 留给集群自身。
PersistentVolumeClaim——StatefulSet 绑的存储请求。集群的 StorageClass（云上 gp3 AWS / pd-ssd GCP / managed-premium Azure / 阿里云 alicloud-disk-essd；本地 kind 用 local-path）控制实际 provision。

掌握这八个；生产有状态工作负载用算子（Kafka 用 Strimzi，Postgres 用 Crunchy 或 Patroni）；N >= 2 环境用 Helm。

代表性 Deployment 示例

feed-handler-consumer 的：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: feed-handler-consumer
  namespace: feed-dev
  labels:
    app: feed-handler
    component: consumer
spec:
  replicas: 3
  selector:
    matchLabels:
      app: feed-handler
      component: consumer
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 25%
      maxUnavailable: 25%
  template:
    metadata:
      labels:
        app: feed-handler
        component: consumer
    spec:
      containers:
        - name: consumer
          image: feed-handler:1.0.0
          command: ["python", "-m", "feed_handler", "consumer"]
          envFrom:
            - configMapRef:
                name: feed-handler-config
            - secretRef:
                name: feed-handler-secrets
          resources:
            requests:
              cpu: 100m
              memory: 512Mi
            limits:
              cpu: 1
              memory: 2Gi
          readinessProbe:
            exec:
              command: ["python", "-c", "import feed_handler"]
            initialDelaySeconds: 10
            periodSeconds: 30
            timeoutSeconds: 5
          livenessProbe:
            exec:
              command: ["python", "-c", "import feed_handler"]
            initialDelaySeconds: 30
            periodSeconds: 60

代表性 StatefulSet 示例

timescaledb 的：

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: timescaledb
  namespace: feed-dev
spec:
  serviceName: timescaledb-headless
  replicas: 1
  selector:
    matchLabels:
      app: timescaledb
  template:
    metadata:
      labels:
        app: timescaledb
    spec:
      containers:
        - name: timescaledb
          image: timescale/timescaledb:latest-pg16
          envFrom:
            - secretRef:
                name: feed-handler-secrets
          ports: [{containerPort: 5432}]
          volumeMounts:
            - name: ts-data
              mountPath: /var/lib/postgresql/data
  volumeClaimTemplates:
    - metadata:
        name: ts-data
      spec:
        accessModes: [ReadWriteOnce]
        resources:
          requests:
            storage: 10Gi
        storageClassName: standard
# prod uses the Strimzi (Kafka) and Crunchy / Patroni (Postgres) operators rather than raw StatefulSets

serviceName: timescaledb-headless 是 headless service 模式，给每个 replica 一个稳定 DNS（timescaledb-0.timescaledb-headless.feed-dev.svc.cluster.local）。volumeClaimTemplates 给每个 replica 创建一个名字稳定（ts-data-timescaledb-0）、随 pod 重启不失的 PVC。

ConfigMap 与 Secret

apiVersion: v1
kind: ConfigMap
metadata:
  name: feed-handler-config
  namespace: feed-dev
data:
  KAFKA_BOOTSTRAP_SERVERS: kafka:9092
  TOPIC: ticks.sse.510300
  LOG_LEVEL: INFO

---
apiVersion: v1
kind: Secret
metadata:
  name: feed-handler-secrets
  namespace: feed-dev
type: Opaque
data:
  PG_DSN: cG9zdGdyZXNxbDovL3Bvc3RncmVzOnBvc3RncmVzQHRpbWVzY2FsZWRiOjU0MzIvd2FyZWhvdXNl
# base64 is encoding, NOT encryption; production uses cluster KMS for encryption-at-rest

资源请求与限制——生产单一最重要纪律

每个生产 pod 模板都必须同时声明 resources.requests 与 resources.limits 的 cpu 与 memory。feed-handler-consumer 的取值：requests.cpu: 100m、requests.memory: 512Mi、limits.cpu: 1、limits.memory: 2Gi。单位 m 是 milli-CPU（1000m = 1 核）；Mi 是 mebibyte；Gi 是 gibibyte。requests 告诉调度器该 pod 需要多少才能放（不设 requests，调度器把 pod 当 0 算，迟早超售崩溃）。limits 限制实际消耗（不设 limits，跑飞的 pod 会把整个节点拖死；内核通过 cgroups 强制）。合规则：requests 给调度器、limits 给内核；不设 requests 会超售崩；不设 limits 跑飞拖死节点；不测量写出来的请求与限制都是错的——先测、再写、再迭代。撞上 limits.memory 的 pod 以退出码 137、事件原因 OOMKilled 被杀——kubectl describe pod 与 kubectl get events 都能看到。

kind 集群起起

六条命令的端到端顺序：

kind create cluster --name feed-dev
kind load docker-image feed-handler:1.0.0 --name feed-dev
kubectl create namespace feed-dev
kubectl apply -f manifests/ -n feed-dev
kubectl get pods -n feed-dev -w
kubectl logs -f deployment/feed-handler-consumer -n feed-dev

kind load docker-image 把本地镜像推到集群内的 containerd 镜像库，kubelet 就不会去拉不存在的 registry。kubectl apply -f manifests/ 把目录内每个 YAML 应用进集群；kubectl get pods -n feed-dev -w 看滚动起来直到五个 pod Running。

Helm、Kustomize、GitOps 点到为止

原生 manifest 适合一环境与教学清晰（本课用这种）。N >= 2 环境且差异不 trivial 用 Helm chart：一个 Chart.yaml、每环境一个 values.yaml、模板化的 templates/deployment.yaml，通过 helm install feed-handler ./chart -f values.prod.yaml -n feed-prod 渲染。Kustomize 是 overlay 模板的替代：base/ 目录加 overlays/<env>/kustomization.yaml patch。ArgoCD 与 Flux 是推模式 kubectl apply from CI 的 GitOps 拉模式替代。HPA / KEDA 自动伸缩，Istio / Linkerd / Cilium service mesh——都是 forward-pointer。

纪律总结

compose 本地，Kubernetes 部署。每个生产 pod 设资源请求与限制。有状态服务用 StatefulSet + 稳定 PVC。非 secret 配置进 ConfigMap，凭据进 Secret 并牢记「base64 是编码，不是加密」。一环境一 namespace。N >= 2 环境用 Helm。生产有状态工作负载用算子。本课用原生 manifest 强调教学。

练习

Exercise

取 L2 构建的 feed-handler:1.0.0 镜像，用两种方式编排。

A 部分——Docker Compose 本地：(a) 按本课写 docker-compose.yml：五个服务、全部健康检查、命名网络 feed-net、命名卷 kafka-data 与 ts-data、env_file: .env 引用。(b) 建 .env 写 POSTGRES_PASSWORD=postgres（只用于开发），建 .env.example 同 key 用占位值（这一份 要 提交进 git）。(c) docker compose up -d 起栈，docker compose ps 验证五个服务都 healthy，再 docker compose logs -f feed-handler-consumer 看 3.6.4 L4 的结构化 JSON 日志流。(d) docker compose down -v 拆栈。

B 部分——Kubernetes 本地集群：(e) kind create cluster --name feed-dev 建集群。(f) 在 manifests/ 内写 Kubernetes manifest——namespace.yaml（Namespace feed-dev）、kafka-statefulset.yaml + kafka-service.yaml（单 broker StatefulSet 带 # prod uses Strimzi 注释）、timescaledb-statefulset.yaml + timescaledb-service.yaml（单节点 StatefulSet 带 # prod uses Crunchy/Patroni 注释）、feed-handler-producer-deployment.yaml（replicas 1）、feed-handler-consumer-deployment.yaml（replicas 3）、feed-handler-monitor-deployment.yaml（replicas 1）、config.yaml（本课的 ConfigMap）、secrets.yaml（base64 编码 PG_DSN 的 Secret 加解释「base64 不是加密」的注释）。每个工作负载模板 必须 设 resources.requests + resources.limits 和 readinessProbe。(g) kind load docker-image feed-handler:1.0.0 --name feed-dev 把镜像推进集群。(h) kubectl create namespace feed-dev 后 kubectl apply -f manifests/ -n feed-dev。(i) kubectl get pods -n feed-dev -w 看五个 pod 都 Running。(j) kubectl logs -f deployment/feed-handler-consumer -n feed-dev 看日志流。(k) 试滚动更新：把 consumer Deployment manifest 内 replicas: 3 改为 replicas: 5、重新 apply、看滚动过程，再 kubectl rollout undo deployment/feed-handler-consumer -n feed-dev 回滚。用一句话写出如果这是测试或生产部署（而不是 kind 集群）会有哪些不同（提示：托管 StorageClass、registry endpoint、RBAC、NetworkPolicy、有状态工作负载用算子）。

提示

若 pod 长时间停在 Pending，跑 kubectl describe pod <pod> -n feed-dev 看 Events:——kind 集群上最常见的原因是 PVC 绑不上（没有默认 StorageClass）或镜像拉不到（忘了 kind load docker-image）。

提示

若 kubectl rollout undo 报「no previous revision found」，确认你在两次 apply 之间实际改了 manifest——修订历史只记录 pod template 的变更，仅改 replicas 数不算。

必备组件回顾

本课交付物对合约的映射：

Fenced ```yaml 块——生产等级 docker-compose.yml，五服务（kafka、timescaledb、feed-handler-producer、feed-handler-consumer、feed-handler-monitor）、命名网络 feed-net、命名卷 kafka-data + ts-data、健康检查、depends_on: service_healthy、restart: unless-stopped、env_file: .env。
Fenced ```yaml 块——consumer Deployment manifest，replicas: 3、strategy: RollingUpdate（maxSurge: 25% / maxUnavailable: 25%）、image: feed-handler:1.0.0、command: ['python', '-m', 'feed_handler', 'consumer']、envFrom: [configMapRef, secretRef]、resources.requests: {cpu: 100m, memory: 512Mi}、resources.limits: {cpu: 1, memory: 2Gi}、readinessProbe 与 livenessProbe。
Fenced ```yaml 块——timescaledb StatefulSet，serviceName: timescaledb-headless、volumeClaimTemplates（accessModes: [ReadWriteOnce]、storage: 10Gi、storageClassName: standard）、生产指向 Strimzi / Crunchy / Patroni 算子的注释。
Fenced ```yaml 块——ConfigMap feed-handler-config（KAFKA_BOOTSTRAP_SERVERS、TOPIC、LOG_LEVEL）与 Secret feed-handler-secrets（Opaque、base64 编码 PG_DSN、注释「base64 是编码、不是加密；生产用集群 KMS 做静态加密」）。
Fenced ```bash 块——kind 集群六条启动命令：kind create cluster --name feed-dev、kind load docker-image feed-handler:1.0.0 --name feed-dev、kubectl create namespace feed-dev、kubectl apply -f manifests/ -n feed-dev、kubectl get pods -n feed-dev -w、kubectl logs -f deployment/feed-handler-consumer -n feed-dev。
Inline-code 列表八个 Kubernetes 原语：Pod、Deployment、StatefulSet、Service、ConfigMap、Secret、Namespace、PersistentVolumeClaim。
Inline-code 列表资源请求 + 限制 worked-example 取值：requests.cpu: 100m、requests.memory: 512Mi、limits.cpu: 1、limits.memory: 2Gi。
上面的练习加两个渐进式 Hint。

中国区锚点

国内量化 firm 的编排走同一套沪深300 ETF（510300）合成流形态：kind worked example 集群形态与平台组在自建集群或阿里云 ACK / 腾讯云 TKE / 华为云 CCE 上部署给上证 SSE / 深证 SZSE / CFFEX 行情入口的 manifest 一致；生产上把 local-path StorageClass 换成阿里云 ESSD（alicloud-disk-essd）或腾讯云 CBS、把 ConfigMap 内的 TOPIC 换成 ticks.sse.510300 / ticks.sse.510050 / ticks.cffex.if2503 即可——manifest 形态不变。私募内部凭据走自建 Vault 或 KMS 加 sealed-secrets-controller；50ETF / 300ETF / 沪深300ETF 与 CFFEX 期指都走同一套 Deployment 形态。T+1 结算周期、涨跌停板风控在应用层处理，不影响 manifest 与资源请求 / 限制的形态。

国内集群还有一项实操经验值得在本节锚住：基础镜像与算子镜像的拉取速度在国内公有云与自建集群上差异显著，因此 imagePullPolicy: IfNotPresent 是默认配置，配合集群节点预拉关键镜像（confluentinc/cp-kafka:7.6.0、timescale/timescaledb:latest-pg16、自有 feed-handler:1.0.0）以减少滚动更新时的等待时间。阿里云 ACK / 腾讯云 TKE 提供自动镜像加速接入上游 Harbor 或 ACR 的 pull-through cache，命名空间内的 Deployment manifest 写法不变只是镜像前缀变成内网域名。私募量化 firm 的量化业务团队与平台团队通过 namespace 与 ConfigMap 切出一个业务自治区，集群级 RBAC 限制业务团队只能在自己 namespace 内 apply manifest，平台团队拥有集群范围的 ClusterRole 与算子镜像。涨跌停在数据层由上游行情网关标字段，consumer 拿到后直接走业务分支，不触 manifest。沪深300 ETF（300ETF / 沪深300ETF）与上证 50ETF（50ETF）的入库形态在 manifest 层完全一致，只在 ConfigMap 内改 TOPIC 值与 WINDOW_NS。CFFEX 股指期货 IF / IC / IH 在主力合约换月时的重启路径走 kubectl rollout restart deployment/feed-handler-consumer，不改 manifest。

阅读清单

Kubernetes 官方中文文档 kubernetes.io/zh-cn/docs/；Helm 中文文档 helm.sh/zh/docs/；阿里云 ACK 文档 help.aliyun.com/product/85222.html；腾讯云 TKE 文档 cloud.tencent.com/document/product/457；公有云厂商容器服务帮助中心；极客时间《深入剖析 Kubernetes》系列；极客时间《Kubernetes 编排实战》系列；极客时间《容器实战高手课》系列；《Kubernetes 权威指南》第 5 版；KubeSphere 官方中文文档；Rancher 中文文档；OpenKruise 项目文档。一条额外注释：国内量化 firm 的 Kubernetes 集群多由平台 / DevOps 团队维护；quant developer 负责自己服务的 Deployment / Service / ConfigMap / Secret manifest，集群配置（CNI / RBAC / ingress controller / observability stack）是平台团队边界。

通往 L4 的桥

下一课把 L1 + L2 + L3 通过 CI 流水线串起来，让本地构建的同一份镜像在每次合入 main 时自动部署到真实的 kind 集群，并演练一条一行命令即可完成的回滚路径。

两 层 规则

第 一 部分——Docker Compose 完整 形态

第 二 部分——Kubernetes 八 个 原语

代表性 Deployment 示例

代表性 StatefulSet 示例

ConfigMap 与 Secret

资源 请求 与 限制——生产 单 一 最 重要 纪律

kind 集群 起 起

Helm、Kustomize、GitOps 点 到 为止

纪律 总结

练习

必备 组件 回顾

中国 区 锚点

阅读 清单

通往 L4 的 桥