Datadog — 把所有监控装进一个仪表盘的 SaaS 标杆

是什么

Datadog 是一家 2010 年在纽约成立的可观测性 SaaS 公司（NYSE: DDOG，2019 年上市），把以前要装五六个工具才能搞定的事——服务器监控、应用性能追踪（APM）、日志、前端真实用户监控（RUM）、网络流量、安全合规——全塞进一个浏览器仪表盘。

日常类比：以前的运维工具像一柜子专用医疗仪器（心电图、血压计、X 光机各一台），Datadog 是那台一次性给你出全身报告的体检中心。

为什么 ADR3 把它当全 SaaS 计费对照标杆：observability 这个品类里，所有竞品（Grafana Cloud / New Relic / Splunk Observability / Honeycomb）的定价表都在和 Datadog 的「按 host + 按用量混合」模型对照——它就是这个领域的价格坐标系。

为什么重要

不理解 Datadog 的计费和架构，下面这些事都没法解释：

为什么 2022 年传出 Coinbase 一年付给 Datadog 6500 万美金，业内当真闻
为什么很多创业团队明明只有 50 台机器，月账单也能冲到 5 万美金
为什么有了 Prometheus + Grafana 全免费的开源栈，公司还愿意每月付几十万买 SaaS
为什么 2024 年 Datadog 营收 26.8 亿美金、毛利 80%，资本市场把它当软件公司估值天花板

核心要点

Datadog 计费可以拆成 三个维度：

按 host：Infrastructure Pro $15/host/月，Enterprise $23/host/月（年付）。host 的定义是「装了 agent 的一台机器」——一台 16 核服务器和一台 t2.micro 同价。
按用量：Logs ingest $0.10/GB（「进管道就收钱」）+ indexed $1.27-$2.50/百万事件（「进搜索引擎再收一次」）。Custom metrics 前 100 个/host 免费，超出 $0.05/月/个。
按模块叠加：APM Pro $31/host、Security CSPM $7.50/host、Synthetic browser $12/万次。同一台机器开三个模块，host 价格累加。

这三层叠完，才是 Datadog 月账单的真面目。

实践案例

案例 1：1000 台机器全开会花多少

假设一家中型公司 1000 台 EC2 + 全开 APM + 每天 1 TB 日志：

Infrastructure Enterprise:  1000 × $23   = $23,000/月
APM Enterprise:             1000 × $40   = $40,000/月
Logs ingest:                30 TB × $100 = $3,000/月
Logs indexed (15 天):       约 $25,000/月
合计：                                    约 $91,000/月

一年 109 万美金。这就是为什么 Datadog 的 ARR > 10 万美金客户超过 3600 家。

案例 2：custom metric 的 cardinality 陷阱

业务代码里写一行：

statsd.increment('cart.add', tags=[f'user_id:{user_id}'])

看似无害，但每个不同的 user_id 都生成一个独立的 metric series。100 万用户 = 100 万个 series = 月底多收 $50,000。这就是「cardinality 爆炸」——Coinbase 的天价账单据说就栽在这。

案例 3：架构反向工程

Datadog Agent（Go 写的，开源在 github.com/DataDog/datadog-agent）跑在每台 host 上，K8s 里走 DaemonSet：

helm install datadog datadog/datadog \
  --set datadog.apiKey=xxx \
  --set datadog.site=datadoghq.com

agent → intake API → Kafka 总线 → 三个独立后端：

metrics 进自研 timeseries store（早期用 Cassandra，后来自研行存压缩）
logs 进 Elasticsearch 派生存储（数据量大会切到归档 S3）
traces 进 ClickHouse（2023 年从自研列存迁过去，单事件成本降一个数量级）

6 个 region（US1 / US3 / US5 / EU1 / AP1 / Gov），数据不跨 region——多区部署的客户要在 5 个 console 之间切。这也是 Datadog 不进中国、不进俄罗斯市场的根本原因：合规要求建本地 region 但市场体量摊不平成本。

踩过的坑

custom metric 用高基数字段做 tag：user_id / request_id / trace_id 当 tag → cardinality 爆炸 → 账单 10×。规则：tag 的值域必须可枚举（env / service / team 这种十几个值的）。
日志默认全量 indexed：写 log 没设保留策略，默认 15 天 indexed 全保留。ingest 便宜（$0.10/GB），indexed 贵 10 倍以上。要在 ingest pipeline 里写 exclusion filter 把 DEBUG 级别扔掉。
APM 和 Infrastructure 分开计价没看清：1000 host 同时开 Infra + APM，每月多付 31 万。合同期前要算清楚。
agent 升级没 pin 版本：Datadog Agent 自动升级开着，某次 release 引入内存泄漏，全集群 host RAM 涨 1G。生产建议固定 minor version，逐步灰度。
2023-03 us1 跨 AZ 中断 24 小时：Chef 推 systemd-resolved 升级触发 BGP 路由重启，客户连续 26 小时没 metrics 也没告警——「监控系统自己挂了谁来监控它」的经典案例。

适用 vs 不适用场景

适用：

中后期创业 → 上市公司，团队 < 200 人但服务器 > 100 台，没专职 SRE 维护监控栈
多语言混合（Java + Go + Python + Node + Rust）需要统一 APM 视图
合规驱动行业（金融 / 医疗）需要日志 7 年保留 + SOC2 / HIPAA 审计
DevOps 文化成熟的公司，dev 和 ops 真的会一起看 dashboard
跨云团队（AWS + Azure + GCP 都有）需要一个统一控制台跨 cloud 看资源

不适用：

早期创业 < 30 台机器：Grafana Cloud free tier + 自托管 Prometheus 就够
高基数核心场景（trace 每个字段都想查）：Honeycomb 不限 cardinality 更适合
极度成本敏感且有 SRE 资源：Prometheus + Loki + Tempo + Grafana 自建可以省 80%
主权数据要求强（中国 / 俄罗斯）：Datadog 没本地 region，得另选
想自己掌握存储格式做长期归档：Datadog 是黑盒，导出 raw 数据贵且慢

历史小故事（可跳过）

2010 年：Olivier Pomel（法国人，前 Wireless Generation CTO）和 Alexis Lê-Quôc 在纽约创立 Datadog。名字来源是「让 dev 和 ops 看同一个 dashboard」——dev + ops 中间那只看门狗。当时观点很反直觉：业内都在分头做 Nagios / Splunk / NewRelic，他们偏要拼一锅。
2015 年：推出 APM，从基础设施监控扩到应用层。这一步把 ARPU 从几千美金/月顶到几万美金/月。
2019 年 9 月：IPO，开盘市值 100 亿美金，是 SaaS IPO 史上前十大。
2021 年：收购 Sqreen（应用运行时安全） + Timber.io（拿到 Rust 写的 Vector 日志管道）。
2023 年：trace 后端从自研迁到 ClickHouse，单事件存储成本降一个数量级。
2024 年：推出 LLM Observability 模块，对标 Helicone / LangSmith，押注下一波生成式 AI 应用监控。

学到什么

「按 host + 按用量混合」是 SaaS 计费的黄金范式：固定底盘锁住客户增长曲线，用量层吃住业务增量。Snowflake / MongoDB Atlas 都在抄这个套路。底盘价让 CFO 好预算，用量价让财务模型在客户做大时自动跟涨——两边都不放过。
垂直整合比单点最优更值钱：Prometheus 单看比 Datadog metrics 强，Loki 单看比 Datadog logs 便宜，但客户愿意为「一个登录、一个告警、一个 trace 跳到 log」多付 5 倍价钱。observability 的护城河不是某项指标第一，而是关联跳转的体验。
agent 模型 + auto-discovery 是入场费：dd-trace 库自动注入 12 种语言运行时，业务代码不改一行就出 APM 数据——这种「免费午餐」是 SaaS 能锁住客户的关键。一旦 agent 装到 1000 台机器上，迁移成本就接近无限。
cardinality 是 observability 的核心成本变量：metric / trace / log 三种数据存储成本差异都来自基数，理解它才能既不被坑也不被锁。新项目接 Datadog 第一周一定要做 cardinality budget review。

关联

grafana-cloud —— 同品类「按用量」派标杆，对照定价模型
honeycomb —— event-based 高基数路线，避开 host 计费
new-relic —— 2020 改成按 GB + 按席位，承诺去 host 锁定
opentelemetry —— 行业开源 trace 标准，Datadog 兼容它
prometheus —— 自建监控的事实标准，DD 的对立面
clickhouse —— Datadog 2023 把 trace 后端迁到它

反向链接

clickhouse —— ClickHouse — 列式 OLAP 数据库
prometheus —— Prometheus — 时序监控系统
signoz —— SigNoz — 自托管的 OpenTelemetry 一体化可观测平台
vector —— Vector — Rust 写的统一可观测性数据管道