Token 即成本：核心概念

成本结构与传统 SaaS 的差异

传统 SaaS 的成本由固定基础设施（服务器、带宽、存储）与接近零的边际用户成本构成，可按”用户数 × 月费”建立线性预算模型。

LLM 驱动的 agent 产品打破了这种线性关系。计费单位从”用户数”切换为”推理工作量”——每次 tool 调用、每段 history 重发、每次重试、每次 context 压缩均直接产生 API 费用。直接后果：

非工程角色（产品、销售、采购、客服、内部使用方）若沿用传统 SaaS 预算模板，估算结果会系统性偏低。因此 token 成本概念需要在所有相关方之间形成共识，不应局限于工程团队内部。

每个 token 同时占用三类资源：

任何 token 优化均需先明确目标维度。三个维度通常呈相互替换关系而非同步增减：

不存在”全维度优化”，仅存在”明确选定目标维度并接受对应代价”。

Input 便宜、cached input 更便宜、output 昂贵、history 成本最高——history 既是历史 output，又作为 input 参与后续每一轮调用
未发生的 token 比节省的 token 价值更高——将 prompt 设计为静态以触发 cache 命中，收益通常大于手动缩减 prompt 内容
失败成本 ≥ 成功成本——agent 走错路径并重试时，前序步骤的 token 已计费且不可退还

具体数字便于建立直觉，详细分项见下一节。

任务场景：用户请求 agent 整理 Gmail 收件箱，将最近 20 封邮件按所属项目分类。Agent 在 Claude Sonnet 4.6 上以 12 步完成。账单约 $0.19，分项构成：

中等长度任务（约 10-15 步）的成本构成大致服从 40 / 25 / 20 / 15 的比例分布。Conversation history 始终是最大成本项。

章节	主要内容	适用读者
cost-model	$0.19 账单的逐项推导；不同模型执行同一任务的成本对比	工程、产品、财务
controls-and-roi	成本上限设置与监控机制；将人力时间折算为 ROI 测算的方法	运维、销售、采购

仅阅读一节时建议选择 cost-model——分项账单数据较抽象论证更具说服力。