LLM token 计价完全指南：input、output、cached、reasoning token 怎么算，账单为什么比你想的贵

同样是「$/1M tokens」，input、output、cached input 与 reasoning token 的算法完全不同，而账单最后的数字往往由你看不到的部分决定。本文用真实模型的定价（例如 Claude 把 cached input 压到标准价 10%、OpenAI o1 只打到 50%）说清楚每种 token 怎么计费、为什么 output 通常贵 3–5 倍，以及怎么估算与压低成本。

1. 什么是 token，怎么数

每一张 LLM API 账单上都有一个大多数人没有直觉感受的单位：token。计费单位不是字符，不是单词，不是句子，而是模型的 tokenizer 在处理文本之前把它切成的子词块。理解这一点，是理解账单为什么是这个数的第一步。

对英文散文来说有一条实用经验：大约 每个 token 对应 0.75 个词，反过来就是每个词约 1.33 个 token。500 个英文单词的文档大概对应 650 到 750 个 token。代码和结构化数据往往更密——Python 变量名和 JSON key 分词很紧凑，但 XML 或 YAML 这类冗长格式会接近 1.5–2 个 token 每个词等效，因为尖括号和冒号都是独立的 token 或共享一个。非英文语言差异很大：CJK 文字（中文、日文、韩文）通常 1–2 个字符一个 token，比起芬兰语这类黏着语言（一个变形词可能变成 3–4 个 token），算是 token 效率较高的。

你可以在发送 API 之前验证 token 数量。大多数提供商都提供 tokenizer 接口或客户端库（OpenAI 的 tiktoken、Anthropic 的 token counting API）。用你的典型 prompt 跑一遍，再和实际账单校准——「0.75 个词」的规则在边界情况下会失效（非常短的 prompt、代码密集型 prompt、多语言 prompt），而账单上的意外几乎都发生在这些边界情况。

一个值得注意的细节：tokenization 是模型家族专属的。GPT-4o 和 GPT-5 用的 tokenizer 和 Claude 不同，Claude 和 Gemini 也不同。用 tiktoken 测出来 1,000 个 token 的系统提示，在 Claude tokenizer 下可能是 950 或 1,100 个。做跨模型成本对比时，要用各家提供商实际的 tokenizer 来数，不要用通用估算值。

最后一个让很多人吃惊的地方：空白字符和格式 token 是真实计费的。一个充满 Markdown 的系统提示——标题、列表、代码围栏——每个格式字符都消耗 token。把系统提示从丰富 Markdown 压缩成简洁纯文本，可以在不影响模型理解的情况下减少 5–15% 的 input token 数量。这个节省每次发送都会叠加。

2. Input vs output：为什么 output 更贵

几乎每家 LLM 定价页都会显示两个数字：input 价格和 output 价格。几乎在所有情况下，output 都更贵——而且贵得明显。理解为什么，是管控它的前提。

这个不对称性有硬件层面的解释。处理 input token 可以部分并行：模型可以在一次前向传播中对整个 prompt 做 attention。生成 output token 则是自回归的——每个 token 必须按顺序产生，依赖前面的所有内容，才能开始下一个。推理硬件在生成阶段的利用率更低，因此每 token 的计算成本更高。提供商把这个成本差以更高的 output 单价传递出去。

这个倍数在市场上差异很大。以下是 2026 年中的真实数据（USD / 1M tokens）：

模型	Input	Output	Output / Input
Claude Opus 4.8（标准）	$5	$25	5×
GPT-5.5	$5	$30	6×
MiniMax M3	$0.30	$1.20	4×
DeepSeek V4 Pro	$0.435	$0.87	2×

这个范围是 2–6 倍。DeepSeek V4 Pro 相对紧凑的比例（2×）反映了面向高吞吐量 agentic 任务的定价策略；GPT-5.5 的 6× 倍数则体现了不同的市场定位。这个差异很重要：单看 input 单价最便宜的模型，一旦考虑真实的 output 用量，可能反而变成最贵的。

大多数真实应用的 input/output 比例并不是 50/50。一个客服 bot 发送 1,000 token 的 FAQ context 然后收到 100 token 的回答，91% 的 token 花在 input 上。一个代码生成器从 200 token 的需求说明产出 2,000 token 的实现，91% 花在 output 上。这两种工作流应该用完全不同的标准来评估模型。本站的费用计算器让你填入自己的 input/output 比例，看清楚哪个模型在你的具体数字下胜出。

3. Cached input：最大的单一成本杠杆

Prompt caching 让你对模型在上一次请求中已经处理过的 input token 支付折扣价。当一个请求的前缀——通常是长系统提示或检索到的文档——和缓存前缀完全匹配，你就按缓存价计费，而不是标准 input 价。2026 年，这已经成为大多数开发者影响月费最大的单一杠杆。

但这个折扣在各提供商之间差异很大。这是很多团队踩坑的地方。以下是 2026 年中的真实数字：

Claude Opus 4.8：标准 input $10/M → cached input $1/M。也就是标准价的 10%——缓存前缀打了 九折（省 90%）。
Claude Opus 4.6：标准 input $5/M → cached input $0.50/M。同样是标准价的 10%。
OpenAI GPT-5 Image：标准 input $10/M → cached input $1.25/M。是标准价的 12.5%——折扣深度接近 Anthropic。
OpenAI o3 Deep Research：标准 input $10/M → cached input $2.50/M。是标准价的 25%——折扣比 Anthropic 浅。
OpenAI o1：标准 input $15/M → cached input $7.50/M。是标准价的 50%——折扣最浅。对 o1 来说，缓存让 input 成本减半；对 Claude 来说，缓存把它压到十分之一。

这意味着「cached input」不是一个统一的功能——它的折扣幅度从 50%（OpenAI o1）到 90%（Anthropic Claude）不等。对一个每天用同一条 4,000 token 系统提示发 1,000 个请求的 agent 工作流来说，缓存 token 收 50% vs 收 10% 的提供商之间的月费差异是显著的。在确定提供商之前，务必用你自己的用量算一遍。

机制上也有区别。Anthropic 的缓存是前缀匹配的，只要你在消息里加上 cache_control 断点，就会自动预热。OpenAI 的自动缓存在前缀超过 1,024 token 之后第一个请求完成后才开始生效。两家都不保证命中——如果模型基础设施把你路由到不同的 pod，缓存可能是冷的。真实命中率取决于你的流量模式和提供商基础设施，不只是你的 prompt 结构。本站的最低 input 价排行会同时显示缓存 input 价和标准 input 价，方便直接对比。

4. 推理 token：你付钱却看不到的输出

OpenAI 的 o 系列模型（o1、o3、o4）和 Claude 的 extended thinking 模式都有一个让很多用户第一次看到账单时大吃一惊的特性：它们对推理 token 计费。这些是模型在产出可见答案之前内部生成的 chain-of-thought token——用来思考问题的草稿纸。你永远看不到它们出现在响应体里，但它们会出现在用量统计中，并按 output token 计费。

实际影响很大。对一个典型的「请认真思考」prompt，内部推理痕迹可能比可见答案长 5–20 倍。一个看起来只有 100 个 output token 的响应，一旦算上推理痕迹，实际计费可能是 1,000–2,000 个 output token。由于 output token 本来就是最贵的 token 类型（见第 2 节），这个叠加效应很快就会累积起来。

推理痕迹会有多长，没有简单的规律——它取决于模型对任务复杂性的感知，而这又是你 prompt 措辞的函数。说「请逐步思考，探索多种方案，然后给我最佳答案」的 prompt 会持续产生比「请简短回答」更长的推理痕迹。一些 API 参数允许你设置推理 token 的预算（Anthropic API 里的 thinking.budget_tokens，OpenAI API 里的推理力度档位），但模型不一定会精确遵守预算。

由此产生两个实际推论。第一，对成本敏感的工作流，按标题 output 单价看最便宜的推理模型，算上推理开销之后很可能比最贵的非推理模型还贵。第二，你不能只用 $/M output tokens 来对比推理和非推理模型——你需要在自己的 prompt 集上测量「每个已完成任务的成本」。在你的费用报告里，把推理 token 用量和标准用量分开列出，这样财务不会被账单吓到。

一个有用的心智模型：推理 token 更像「后台算力」而不是「可见输出」。你买的是模型的思考时间。这段思考时间是否带来了值得付费的质量提升，完全取决于任务类型。对高度结构化的抽取任务，一个调优好的非推理模型往往能以五分之一的成本打败推理模型。对复杂的多步规划任务，推理痕迹则物有所值。

5. 多模态与其他计费维度

Token 不是唯一的计费维度。随着 LLM 扩展到图片、音频、视频和其他模态，提供商引入了与 token 定价并列的按单位计费方式。如果你只看定价表里的文本 token 列，可能会漏掉账单里相当一部分的费用。

图片 input 是最常见的非文本维度。大多数提供商把图片转换成等效 token 数（OpenAI 的 GPT-4o 根据分辨率把图片分块成 85 或 170 token 的瓦片；Claude 根据像素面积把图片换算成固定 token 数）。实际效果是：一张高分辨率图片的成本可能等同于几百个词的文字 input。如果你的管道会发送全分辨率截图或产品图，在发送前把它们缩放到模型要求的最低分辨率是一个直接的成本优化——通常可以减少 30–60% 的图片相关费用，只要内容在小尺寸下仍然清晰可读，质量不会有损失。

按请求收费 在某些模型上会在 token 价格之外额外收一笔固定费用。这种情况最常见于特殊模型（网络搜索增强端点、图像生成模型，以及部分微调变体）。对于短 prompt、高请求量的工作流，按请求收费可能主导账单：如果你每天发 10 万个请求，每请求 $0.01 的费用就是 $1,000/天，可能远超 token 本身的费用。

音频和视频计费还在发展中。OpenAI 的实时音频 API 按音频秒数收费，而不是按 token，价格对长内容场景来说偏贵。视频理解模型通常把视频转为帧序列，按帧或按秒等效计费。这些数字变化很快，最好直接查提供商当前的定价页，而不是依赖聚合平台。

本站的价格来自 OpenRouter，它会路由请求，并在提供商成本之上可能会加一小段路由 margin。要了解路由价为什么和官方价不同、什么时候这个差异对你的预算有影响，参见平台价差分析文章。

6. 如何估算并压低帐单

在构建之前估算账单比看起来更容易实现。关键是测量一些有代表性的 prompt，而不是推导精确模型。这是一套实用框架：

准确数清你的 prompt token。用提供商的 tokenizer 跑 10–20 个有代表性的 prompt，不要用通用估算器。对结果取平均值，同时记录分布范围——范围宽意味着成本波动会大。
测量你的 input/output 比例。对每个有代表性的 prompt，记录模型实际生成了多少 token。这个比例常常让人意外——一个「生成摘要」的任务，一旦模型加上注意事项和背景说明，输出量可能是预期的 3 倍。
测量你的缓存命中率。如果你有任何重复前缀（系统提示、检索到的 context），模拟一周的流量，测量有多少比例的 input token 命中了缓存。即使是 50% 的命中率配上 90% 的折扣，也能减少 45% 的 input 成本。
如果使用 extended thinking 模型，要计入推理开销。用实际 prompt 跑一遍模型，查 usage 响应字段里的 reasoning_tokens。不要靠估算。
使用本站的费用计算器填入你的数字，一次对比多个模型。

在压低成本方面，有四个高杠杆动作：

把 prompt 结构化以最大化缓存命中。缓存前缀必须在每次请求中完全一致——哪怕改了一个字符都会导致缓存未命中。把所有稳定的内容（系统指令、参考文档、few-shot 示例）放在 prompt 最前面，把每次请求特有的内容（用户消息、检索结果）放在最后面。这样能最大化可以被缓存的前缀长度。

管控输出长度。如果你的场景不需要长回答，就在系统提示里明确说清楚。「用一段话回答」或「回答不超过 100 个字」都很有效。Output token 是最贵的，每个你阻止模型生成的 token 就是一个不需要付费的 token。这也是模型选择的关键点：DeepSeek V4 Pro 这类 output/input 比例只有 2× 的模型，对需要大量输出的任务来说，比 GPT-5.5 这类 6× 比例的模型要便宜得多。

对延迟不敏感的任务使用批量 API。OpenAI 的 Batch API 和 Anthropic 的 Message Batches 都在 24 小时内完成的前提下提供约 50% 的处理价格折扣。对后台任务——夜间文档处理、隔夜微调数据生成、每周分析——批量模式可以在不改变工程架构的情况下把账单减半，只需要改一下 API 调用模式。查看本站的最高性价比排行了解哪些模型也提供批量定价。

根据任务复杂度匹配模型。把每个请求都发给最大的旗舰模型是超支最快的方式。对分类、路由和简单抽取任务，$0.10/M input 的模型通常和 $5/M input 的模型无法区分。把贵的模型留给智能每美元真正产生差异的任务——复杂推理、多步规划、需要正确性保障的代码生成。本站的入门指南介绍了在优化价格之前如何设定质量门槛。

本文由 Allen Pan 撰写。如有勘误或想交流，欢迎来信 allen@xyzsleep.com。