Token 即成本:核心概念

LLM 产品的成本结构区别于传统 SaaS 的根本原因——token 同时构成金额、延迟、上下文容量三种资源。本章列出三条基本规律与一次任务的参考账单。

成本结构与传统 SaaS 的差异

传统 SaaS 的成本由固定基础设施(服务器、带宽、存储)与接近零的边际用户成本构成,可按”用户数 × 月费”建立线性预算模型。

LLM 驱动的 agent 产品打破了这种线性关系。计费单位从”用户数”切换为”推理工作量”——每次 tool 调用、每段 history 重发、每次重试、每次 context 压缩均直接产生 API 费用。直接后果:

  • 100 个用户中,约 5 个重度使用者通常贡献 80% 的账单(power-law 分布,非线性叠加)
  • 同一任务,agent 走错路径一次的成本可能超过其做对十次的成本总和
  • 同一产品运行 1 个月与 3 个月的成本曲线存在显著差异——cache 命中率、history 长度、模型版本均随时间漂移

非工程角色(产品、销售、采购、客服、内部使用方)若沿用传统 SaaS 预算模板,估算结果会系统性偏低。因此 token 成本概念需要在所有相关方之间形成共识,不应局限于工程团队内部。

Token 的三重资源属性

每个 token 同时占用三类资源:

资源类型量化关系业务影响
金额API 单价 × token 数量月度账单
延迟token 数量大致正比于处理时间用户响应等待时长
容量token 数量 = context 占用任务执行深度与记忆持续时长

任何 token 优化均需先明确目标维度。三个维度通常呈相互替换关系而非同步增减:

  • 压缩 history 释放容量并降低未来成本,压缩本身是一次 LLM 调用,当期金额上升
  • 切换至更强模型,单步费用上升、总步骤数下降,金额可能升高、延迟下降
  • 切换至更便宜模型并增加兜底步骤,金额下降、延迟与失败率上升

不存在”全维度优化”,仅存在”明确选定目标维度并接受对应代价”。

三条基本规律

  1. Input 便宜、cached input 更便宜、output 昂贵、history 成本最高——history 既是历史 output,又作为 input 参与后续每一轮调用
  2. 未发生的 token 比节省的 token 价值更高——将 prompt 设计为静态以触发 cache 命中,收益通常大于手动缩减 prompt 内容
  3. 失败成本 ≥ 成功成本——agent 走错路径并重试时,前序步骤的 token 已计费且不可退还

参考账单:12 步任务

具体数字便于建立直觉,详细分项见下一节。

任务场景:用户请求 agent 整理 Gmail 收件箱,将最近 20 封邮件按所属项目分类。Agent 在 Claude Sonnet 4.6 上以 12 步完成。账单约 $0.19,分项构成:

  • 41% Conversation history——历史对话重复发送
  • 23% Model output——模型回复内容
  • 22% Tool results——工具返回值(计入 history)
  • 13% System prompt + tool descriptions——静态部分,cache 命中后的单价
  • < 1% Sandbox + 存储

中等长度任务(约 10-15 步)的成本构成大致服从 40 / 25 / 20 / 15 的比例分布。Conversation history 始终是最大成本项

章节导读

章节主要内容适用读者
cost-model$0.19 账单的逐项推导;不同模型执行同一任务的成本对比工程、产品、财务
controls-and-roi成本上限设置与监控机制;将人力时间折算为 ROI 测算的方法运维、销售、采购

仅阅读一节时建议选择 cost-model——分项账单数据较抽象论证更具说服力。

这页有帮助吗?