2026 LLM API 性價比實測:用真實定價算出每種任務的最低成本
「最便宜」不等於「最划算」。本文用本站每日更新的真實定價與 Artificial Analysis 智能指數,先設一條 AA Index ≥ 40 的品質門檻,再依「每一美元買到多少智能」排序,找出各價位帶的性價比王——並用三種典型用量算出實際月成本。
1. 為什麼「最便宜」是錯誤的問題
每隔幾個月,就會出現一個定價在 $0.01–$0.05 / 百萬 input tokens 的超低價新模型,AI 圈立刻宣布 「夠用」已經接近免費。問題是,這些模型幾乎無一例外地落在 AA Intelligence Index 的底部區間—— 100 分滿分裡得 15 到 25 分——意味著它們在多步驟推理上容易掉鏈子、產出的摘要流於表面、會捏造一個 稍強的模型本不會犯的事實錯誤。你省了 $0.04 / 百萬 tokens,卻要花三倍代價在重跑、人工糾錯 和用戶投訴上。
用我們當前資料集(408 個活躍模型)裡的兩個真實案例說明。inclusionAI Ling-2.6-flash 定價 $0.01 / $0.03(input / output,每百萬 tokens),幾乎免費,AA Index 得 19.3。OpenAI 的 gpt-oss-120b 貴一些,$0.039 / $0.18,AA 得 23.8。兩者都沒過 25。在實務中,這兩個模型都無法 處理需要同時保持多個事實、或需要真正邏輯推理而非模式補全的任務。如果你的場景只是回答「營業時間 是幾點」這類問題,也許勉強夠用。但凡涉及真正的知識工作,它們反而有害——以比人工審核更快的速度 輸出聽起來像樣實則錯誤的答案。
正確的提問方式不是「最便宜的模型」,而是「在我這個具體任務上能過最低品質門檻的最便宜模型」。 門檻會隨你做的東西不同而移動——輕量內容標籤器需要的遠比自主編程 agent 少——但底線始終存在。 本文提議以 AA Intelligence Index ≥ 40 作為專業工作流的通用底線,然後告訴你哪些模型在這條線 以上提供了最高的每美元智能量。
2. 設定品質門檻:AA Index ≥ 40
Artificial Analysis Intelligence Index(AA Index)是一個綜合基準分數,由推理、編程、數學 和指令執行等多項任務組成,歸一化到 0–100。當前資料集 212 個已評分模型的最高分約為 60。其中 只有約 6 個模型超過 50 分,約 22 個過了 40 分的門檻。這個 40 分的截止線不是隨意設的:大致 在這個位置,模型開始能穩定完成多步推理鏈、以每十條提示少於一次誤解的頻率跟隨複雜指令、以及讓 生成的程式碼首次執行成功率超過一半。
低於 AA 40,你就踩進了生產力陷阱。一個 AA 25 的模型可能有 70% 的回答是對的——聽起來還行, 直到你意識到同仁仍然必須審核每一條輸出(自動化效益歸零),而那 30% 的失敗率並非隨機分布 (偏偏集中在最難、最高價值的任務上)。超過 AA 40 之後,每提升 5 分,在你查詢分布硬尾部分的 可靠性都有實質性的進步。
用高端參考模型來印證這一點。GPT-5.4 得 51.4 分,定價 $2.50 / $15.00。Claude Opus 4.8 得 55.7 分,定價 $5.00 / $25.00。Claude Fable 5 以 59.9 分領跑當前榜單,定價 $10.00 / $50.00。 這些模型在複雜任務上無疑更強——但問題是,那邊際的能力提升,相比門檻以上最優性價比模型,值不值 得 5×–50× 的價格溢價?對大多數規模化運行的專業工作流來說,答案是不值。
3. 各價位區間的性價比冠軍
下表列出了我們資料集中 AA Index ≥ 40 的所有模型,按 input 單價升序排列。「每美元智能量」是 AA 分與每百萬 tokens 混合成本之比(權重 80% input / 20% output,近似典型 RAG 工作流)。 低於 $0.50 input 的價位區間提供了目前最強的性價比。
| 模型 | Input $/1M | Output $/1M | AA Index | 備注 |
|---|---|---|---|---|
| DeepSeek V4 Flash | $0.09 | $0.18 | 40.3 | 資料集中每美元智能量最高 |
| Xiaomi MiMo-V2.5 | $0.14 | $0.28 | 40.1 | AA 略低於 Flash,價格卻更高 |
| MiniMax M3 | $0.30 | $1.20 | 44.4 | 1M token 上下文;中端最高 AA 分 |
| DeepSeek V4 Pro | $0.435 | $0.87 | 44.3 | 推理能力優於 V4 Flash |
| Xiaomi MiMo-V2.5-Pro | $0.435 | $0.87 | 42.2 | 與 V4 Pro 同價位,AA 略低 |
| MoonshotAI Kimi K2.6 | $0.67 | $3.50 | 42.8 | output 價格偏高,適合 input 密集的 RAG |
| Z.ai GLM 5.1 | $0.98 | $3.08 | 40.2 | 相比更低價替代品性價比偏低 |
| Z.ai GLM 5.2 | $1.20 | $4.20 | 51.1 | $2 input 以下 AA 最高;接近高端品質 |
| Qwen3.7 Max | $1.25 | $3.75 | 46.0 | 推理能力強;$1–2 input 區間有競爭力 |
| GPT-5.4(參考) | $2.50 | $15.00 | 51.4 | 高端基準線 |
| Claude Opus 4.8(參考) | $5.00 | $25.00 | 55.7 | 高端基準線 |
兩個模型明顯勝出,適合作為注重性價比的團隊首選。DeepSeek V4 Flash 以 $0.09 / $0.18 的定價, 在整個資料集(限 AA ≥ 40)中實現了最高的每美元智能量。Z.ai GLM 5.2 以 $1.20 / $4.20 定價, AA 51.1 讓它逼近 GPT-5.4 的能力,但 input 價格不到其一半——對於需要穩定高品質但不想全額支付 高端價格的團隊,是當前最具吸引力的選項。兩者都值得在你的具體 benchmark 任務上跑一遍,再決定 是否要選更貴的預設選項。
4. 依任務類型匹配模型
沒有單一模型在同等價位對所有任務類型都最優。正確的選擇取決於你的工作流實際需要什麼。輕量對話 聊天——客服、FAQ 問答、基礎寫作——DeepSeek V4 Flash 是自然的起點。AA 40.3 對大多數指令執行任務 已經足夠,而且超低價格讓你有餘力一次生成多個版本、讓用戶或審核者挑選最好的。主要風險在邊緣案例: 不尋常的措辭、多語言混合查詢、或者需要模型訓練不足領域的專業知識的問題。
對於 RAG(檢索增強生成)服務,關鍵變量轉向上下文處理能力和輸出的忠實度。MiniMax M3 在這裡脫穎 而出:1M token 的上下文視窗是真正的差異化能力,能直接省掉整類分塊和檢索工程工作。以 $0.30 / $1.20 和 AA 44.4,它能處理全文檔攝取任務,而同價位上下文更短的模型則需要複雜的預處理。Kimi K2.6 也值得評估,但 $3.50 的 output 價格在答案較長時代價不菲——先量清楚你的實際 output/input 比例。
編程和長程自主 agent 是品質門檻最重要的使用場景。一個中途無聲失敗、輸出看起來合理實則有問題的 agent,比沒有自動化更糟糕。對編程而言,AA Index 的編程子分數(可在對比工具中查詢)比綜合分更 重要。Z.ai GLM 5.2 和 Qwen3.7 Max 在各自價位上展示了強勁的編程表現;DeepSeek V4 Pro 是 $0.50 input 以下最適合多步 agent 迴圈(需要長程連貫性)的選項。只有當你在實際程式碼庫上做 基準測試、發現低價模型在你具體需要的任務模式上失敗時,再考慮升級到 GPT-5.4 或 Claude Opus 4.8。
5. 真實月費:三種工作流實算
抽象的每 token 價格比較掩蓋了真實的業務成本。下表展示三種典型工作流在四個模型上的月度 API 帳單: 最強性價比模型(DeepSeek V4 Flash)、最佳中端選項(MiniMax M3),以及兩個最常見的高端預設選項 (GPT-5.4、Claude Opus 4.8)。所有費用單位為美元。
| 工作流 | DeepSeek V4 Flash | MiniMax M3 | GPT-5.4 | Claude Opus 4.8 |
|---|---|---|---|---|
| A:輕量聊天機器人 5M in + 1M out / 月 | $0.63 | $2.70 | $27.50 | $50.00 |
| B:RAG 服務 100M in + 5M out / 月 | $9.90 | $36.00 | $325.00 | $625.00 |
| C:編程 agent 500M in + 50M out / 月 | $54.00 | $210.00 | $2,000.00 | $3,750.00 |
規模化之後,差距觸目驚心。在工作流 C 的吞吐量下,從 Claude Opus 4.8 換到 DeepSeek V4 Flash, 每月節省 $3,696——近乎每年 $44,000——而能力下降在大多數真實任務上可能完全察覺不到。即便只是從 GPT-5.4 換到 MiniMax M3,在該體量下每月也節省 $1,790。以資料驅動的模型選型,商業價值不是邊際 的——它可能是一個 AI 功能盈虧的分水嶺。
兩個重要說明。第一,以上數字假設你支付的是標準定價,不含快取、批量折扣或 Batch API 價格。 光是 prompt caching,對於系統提示穩定的工作流就能把 input 成本砍掉 75–90%——完全重塑這張 對比表。第二,表中的 token 數量是示意性的;你實際的 input/output 比例取決於你的提示設計。 95% input + 5% output 的 RAG 系統與生成密集型管線非常不同。正式決策前,請用 費用計算器填入你的真實數字。
6. 如何用本站排行榜做決策
本站的最高性價比排行預設套用了 AA ≥ 40 的門檻, 並按每美元智能量降序排列符合條件的模型——這是最接近你真正想問的那個問題的單一數字: 「在我的 token 用量下,我能負擔得起的最聰明的模型是什麼?」這個排行是你的起始名單,不是 終答案。正確的工作流是:(1)鎖定價格區間內的兩三個模型,(2)用 對比工具把你的真實任務提示跑過一遍,(3)不只看通過/失敗,還要看輸出品質分布, (4)用計算器按預計體量算全包月費,(5)選最便宜的、 在提示分布硬尾上能通過你品質門檻的那個模型。
最強模型排行作為參考點很有用:它告訴你選擇不用 高端檔需要放棄什麼。如果頭對頭測試顯示最優性價比模型在超過 5–10% 的真實提示上失敗,而那些 失敗後果嚴重(面向用戶的錯誤、發布了有 bug 的程式碼),升級到高端檔的成本幾乎肯定值得。 本站資料存在的意義就是讓這個取捨變得可以用真實數字衡量,而不是憑直覺。
最後一點值得強調:競爭格局變化很快。DeepSeek V4 Flash 一年前根本不在任何性價比短名單上。 來自中國實驗室的新模型正在以激進的定價持續進入市場,並快速縮小能力差距。本站的 AA Index 分數和價格每天從 408 個活躍模型的即時 API 資料更新——每次重要的採購決策之前都應該回來查一遍, 三個月前的最優性價比選擇往往已經過時。