2026 LLM API 性價比實測：用真實定價算出每種任務的最低成本

「最便宜」不等於「最划算」。本文用本站每日更新的真實定價與 Artificial Analysis 智能指數，先設一條 AA Index ≥ 40 的品質門檻，再依「每一美元買到多少智能」排序，找出各價位帶的性價比王——並用三種典型用量算出實際月成本。

1. 為什麼「最便宜」是錯誤的問題

每隔幾個月，就會出現一個定價在 $0.01–$0.05 / 百萬 input tokens 的超低價新模型，AI 圈立刻宣布「夠用」已經接近免費。問題是，這些模型幾乎無一例外地落在 AA Intelligence Index 的底部區間—— 100 分滿分裡得 15 到 25 分——意味著它們在多步驟推理上容易掉鏈子、產出的摘要流於表面、會捏造一個稍強的模型本不會犯的事實錯誤。你省了 $0.04 / 百萬 tokens，卻要花三倍代價在重跑、人工糾錯和用戶投訴上。

用我們當前資料集（408 個活躍模型）裡的兩個真實案例說明。inclusionAI Ling-2.6-flash 定價 $0.01 / $0.03（input / output，每百萬 tokens），幾乎免費，AA Index 得 19.3。OpenAI 的 gpt-oss-120b 貴一些，$0.039 / $0.18，AA 得 23.8。兩者都沒過 25。在實務中，這兩個模型都無法處理需要同時保持多個事實、或需要真正邏輯推理而非模式補全的任務。如果你的場景只是回答「營業時間是幾點」這類問題，也許勉強夠用。但凡涉及真正的知識工作，它們反而有害——以比人工審核更快的速度輸出聽起來像樣實則錯誤的答案。

正確的提問方式不是「最便宜的模型」，而是「在我這個具體任務上能過最低品質門檻的最便宜模型」。門檻會隨你做的東西不同而移動——輕量內容標籤器需要的遠比自主編程 agent 少——但底線始終存在。本文提議以 AA Intelligence Index ≥ 40 作為專業工作流的通用底線，然後告訴你哪些模型在這條線以上提供了最高的每美元智能量。

2. 設定品質門檻：AA Index ≥ 40

Artificial Analysis Intelligence Index（AA Index）是一個綜合基準分數，由推理、編程、數學和指令執行等多項任務組成，歸一化到 0–100。當前資料集 212 個已評分模型的最高分約為 60。其中只有約 6 個模型超過 50 分，約 22 個過了 40 分的門檻。這個 40 分的截止線不是隨意設的：大致在這個位置，模型開始能穩定完成多步推理鏈、以每十條提示少於一次誤解的頻率跟隨複雜指令、以及讓生成的程式碼首次執行成功率超過一半。

低於 AA 40，你就踩進了生產力陷阱。一個 AA 25 的模型可能有 70% 的回答是對的——聽起來還行，直到你意識到同仁仍然必須審核每一條輸出（自動化效益歸零），而那 30% 的失敗率並非隨機分布（偏偏集中在最難、最高價值的任務上）。超過 AA 40 之後，每提升 5 分，在你查詢分布硬尾部分的可靠性都有實質性的進步。

用高端參考模型來印證這一點。GPT-5.4 得 51.4 分，定價 $2.50 / $15.00。Claude Opus 4.8 得 55.7 分，定價 $5.00 / $25.00。Claude Fable 5 以 59.9 分領跑當前榜單，定價 $10.00 / $50.00。這些模型在複雜任務上無疑更強——但問題是，那邊際的能力提升，相比門檻以上最優性價比模型，值不值得 5×–50× 的價格溢價？對大多數規模化運行的專業工作流來說，答案是不值。

3. 各價位區間的性價比冠軍

下表列出了我們資料集中 AA Index ≥ 40 的所有模型，按 input 單價升序排列。「每美元智能量」是 AA 分與每百萬 tokens 混合成本之比（權重 80% input / 20% output，近似典型 RAG 工作流）。低於 $0.50 input 的價位區間提供了目前最強的性價比。

模型	Input $/1M	Output $/1M	AA Index	備注
DeepSeek V4 Flash	$0.09	$0.18	40.3	資料集中每美元智能量最高
Xiaomi MiMo-V2.5	$0.14	$0.28	40.1	AA 略低於 Flash，價格卻更高
MiniMax M3	$0.30	$1.20	44.4	1M token 上下文；中端最高 AA 分
DeepSeek V4 Pro	$0.435	$0.87	44.3	推理能力優於 V4 Flash
Xiaomi MiMo-V2.5-Pro	$0.435	$0.87	42.2	與 V4 Pro 同價位，AA 略低
MoonshotAI Kimi K2.6	$0.67	$3.50	42.8	output 價格偏高，適合 input 密集的 RAG
Z.ai GLM 5.1	$0.98	$3.08	40.2	相比更低價替代品性價比偏低
Z.ai GLM 5.2	$1.20	$4.20	51.1	$2 input 以下 AA 最高；接近高端品質
Qwen3.7 Max	$1.25	$3.75	46.0	推理能力強；$1–2 input 區間有競爭力
GPT-5.4（參考）	$2.50	$15.00	51.4	高端基準線
Claude Opus 4.8（參考）	$5.00	$25.00	55.7	高端基準線

兩個模型明顯勝出，適合作為注重性價比的團隊首選。DeepSeek V4 Flash 以 $0.09 / $0.18 的定價，在整個資料集（限 AA ≥ 40）中實現了最高的每美元智能量。Z.ai GLM 5.2 以 $1.20 / $4.20 定價， AA 51.1 讓它逼近 GPT-5.4 的能力，但 input 價格不到其一半——對於需要穩定高品質但不想全額支付高端價格的團隊，是當前最具吸引力的選項。兩者都值得在你的具體 benchmark 任務上跑一遍，再決定是否要選更貴的預設選項。

4. 依任務類型匹配模型

沒有單一模型在同等價位對所有任務類型都最優。正確的選擇取決於你的工作流實際需要什麼。輕量對話聊天——客服、FAQ 問答、基礎寫作——DeepSeek V4 Flash 是自然的起點。AA 40.3 對大多數指令執行任務已經足夠，而且超低價格讓你有餘力一次生成多個版本、讓用戶或審核者挑選最好的。主要風險在邊緣案例：不尋常的措辭、多語言混合查詢、或者需要模型訓練不足領域的專業知識的問題。

對於 RAG（檢索增強生成）服務，關鍵變量轉向上下文處理能力和輸出的忠實度。MiniMax M3 在這裡脫穎而出：1M token 的上下文視窗是真正的差異化能力，能直接省掉整類分塊和檢索工程工作。以 $0.30 / $1.20 和 AA 44.4，它能處理全文檔攝取任務，而同價位上下文更短的模型則需要複雜的預處理。Kimi K2.6 也值得評估，但 $3.50 的 output 價格在答案較長時代價不菲——先量清楚你的實際 output/input 比例。

編程和長程自主 agent 是品質門檻最重要的使用場景。一個中途無聲失敗、輸出看起來合理實則有問題的 agent，比沒有自動化更糟糕。對編程而言，AA Index 的編程子分數（可在對比工具中查詢）比綜合分更重要。Z.ai GLM 5.2 和 Qwen3.7 Max 在各自價位上展示了強勁的編程表現；DeepSeek V4 Pro 是 $0.50 input 以下最適合多步 agent 迴圈（需要長程連貫性）的選項。只有當你在實際程式碼庫上做基準測試、發現低價模型在你具體需要的任務模式上失敗時，再考慮升級到 GPT-5.4 或 Claude Opus 4.8。

5. 真實月費：三種工作流實算

抽象的每 token 價格比較掩蓋了真實的業務成本。下表展示三種典型工作流在四個模型上的月度 API 帳單：最強性價比模型（DeepSeek V4 Flash）、最佳中端選項（MiniMax M3），以及兩個最常見的高端預設選項（GPT-5.4、Claude Opus 4.8）。所有費用單位為美元。

工作流	DeepSeek V4 Flash	MiniMax M3	GPT-5.4	Claude Opus 4.8
A：輕量聊天機器人 5M in + 1M out / 月	$0.63	$2.70	$27.50	$50.00
B：RAG 服務 100M in + 5M out / 月	$9.90	$36.00	$325.00	$625.00
C：編程 agent 500M in + 50M out / 月	$54.00	$210.00	$2,000.00	$3,750.00

規模化之後，差距觸目驚心。在工作流 C 的吞吐量下，從 Claude Opus 4.8 換到 DeepSeek V4 Flash，每月節省 $3,696——近乎每年 $44,000——而能力下降在大多數真實任務上可能完全察覺不到。即便只是從 GPT-5.4 換到 MiniMax M3，在該體量下每月也節省 $1,790。以資料驅動的模型選型，商業價值不是邊際的——它可能是一個 AI 功能盈虧的分水嶺。

兩個重要說明。第一，以上數字假設你支付的是標準定價，不含快取、批量折扣或 Batch API 價格。光是 prompt caching，對於系統提示穩定的工作流就能把 input 成本砍掉 75–90%——完全重塑這張對比表。第二，表中的 token 數量是示意性的；你實際的 input/output 比例取決於你的提示設計。 95% input + 5% output 的 RAG 系統與生成密集型管線非常不同。正式決策前，請用費用計算器填入你的真實數字。

6. 如何用本站排行榜做決策

本站的最高性價比排行預設套用了 AA ≥ 40 的門檻，並按每美元智能量降序排列符合條件的模型——這是最接近你真正想問的那個問題的單一數字：「在我的 token 用量下，我能負擔得起的最聰明的模型是什麼？」這個排行是你的起始名單，不是終答案。正確的工作流是：（1）鎖定價格區間內的兩三個模型，（2）用對比工具把你的真實任務提示跑過一遍，（3）不只看通過/失敗，還要看輸出品質分布，（4）用計算器按預計體量算全包月費，（5）選最便宜的、在提示分布硬尾上能通過你品質門檻的那個模型。

最強模型排行作為參考點很有用：它告訴你選擇不用高端檔需要放棄什麼。如果頭對頭測試顯示最優性價比模型在超過 5–10% 的真實提示上失敗，而那些失敗後果嚴重（面向用戶的錯誤、發布了有 bug 的程式碼），升級到高端檔的成本幾乎肯定值得。本站資料存在的意義就是讓這個取捨變得可以用真實數字衡量，而不是憑直覺。

最後一點值得強調：競爭格局變化很快。DeepSeek V4 Flash 一年前根本不在任何性價比短名單上。來自中國實驗室的新模型正在以激進的定價持續進入市場，並快速縮小能力差距。本站的 AA Index 分數和價格每天從 408 個活躍模型的即時 API 資料更新——每次重要的採購決策之前都應該回來查一遍，三個月前的最優性價比選擇往往已經過時。

本文由 Allen Pan 撰寫。如有勘誤或想交流，歡迎來信 allen@xyzsleep.com.