新版本 cfg-grid-v3.2 在 per-strategy rate-limit 欄位填入 debug 用的 6 req/min,
覆蓋了原本繼承全域的 60 req/min。網格策略 GRID-V3 在亞洲早盤觸發限速,
新下單被排隊,hedge leg 延遲最高 47 秒,造成 3.2 BTC 短暫單邊敞口(仍在風控容忍內)。
revert 設定 + 重啟策略 worker 後恢復,無資金損失、無強平。
cfg-grid-v3.2 透過標準 rollout pipeline 推到 production,
包含新加的 per-strategy rate-limit 欄位。
hedge_lag_p95 > 30s 持續 60s。
on-call(KW)收到 Telegram 通知。
cfg-grid-v3.2、重啟策略 worker;
hedge_lag_p95 三分鐘內回到 4s 以下。
PR #3217 為每個策略加上獨立的 rate-limit 上限,方便未來細粒度控管。
本意是讓新欄位 per_strategy_rpm 預設繼承全域值(60),
但開發時為了在 local 測 throttle 行為,把預設值硬寫成 6 後忘了改回來。
config linter 只檢查欄位型別,沒有 magnitude(合理範圍)檢查,所以 6 req/min 過了 CI。 加上設定 rollout 跟 code deploy 走不同 pipeline,on-call 第一直覺去 rollback code deploy 其實沒有效果,多花了 12 分鐘繞遠路。
| 失敗 / 延遲下單 | ~340 筆 |
|---|---|
| hedge_lag 峰值 | 47 秒 |
| 受影響策略 | 1(GRID-V3) |
| 單邊敞口峰值 | 3.2 BTC |
| 實質損益 | 無 — 未觸發強平 / 停損 |
per_strategy.rpm < 10 觸發 CI 警告
04/30