DeepSeek 想只收电费吗？聊聊这次 V4 正式降价

5 月 22 日，DeepSeek 官方明确：V4-Pro 模型 API 当前 2.5 折的限时优惠将在 北京时间 5 月 31 日 23:59 结束，价格不会回弹——同一档价格直接转为永久价。

这件事最容易被读成“又一次促销结束公告”。但放在 2026 年这个时间点上、放在国内外大模型竞争的版图上看，它真正的意义不在数字本身，而在于：DeepSeek 把“低价”这件事，从市场动作正式升级成了产品定义。

一、价格只是入口，不是重点

为完整起见，先把官方人民币定价摆出来（数据来自 DeepSeek 官方定价文档，单位：元 / 百万 tokens）：

计费维度	V4-Flash	V4-Pro 当前促销	V4-Pro 原定价	6/1 起永久价
Input（缓存命中）	0.02	0.025	0.1	0.025
Input（缓存未命中）	1	3	12	3
Output	2	6	24	6

数字本身没变化。变的是状态：「促销价」三个字被划掉了。

为什么这件事比降价本身更重要？因为做长期项目的人都知道，「促销价」永远写不进商业计划书——你不知道它什么时候结束、结束后会跳回多高、后续是否还续。一旦价格钉死成永久价，团队敢规划半年、一年的 token 预算了，敢做 Agent 长链路、RAG 知识库、Long-context 文档分析这些重度依赖 token 量的产品形态了。

事实上 DeepSeek 这次也是先延期再永久——5 月初先把原本截止 5 月 5 日的促销延到 5 月 31 日，5 月 22 日再宣布钉死成永久价。两次公告对照看，路径很清晰：

DeepSeek 这次操作的本质，是把“廉价”从一个营销周期里的临时姿势，做成了产品契约。

二、放到国内外竞争版图里看

把同代产品的价格摊在桌面上对比一下（以 OpenAI 兼容格式 / 百万 tokens 输出价为准，数据来自各家官方页 + 2026 年公开汇总）：

厂商	旗舰模型	输出价	折合人民币
OpenAI	GPT-5.5	$180	≈ ¥1278
Anthropic	Claude Opus 4.7	$25	≈ ¥178
Google	Gemini 3.1 Pro	$15	≈ ¥107
阿里	Qwen3.5-Max	约 ¥40	¥40
字节	豆包 1.5 Pro	约 ¥9	¥9
DeepSeek	V4-Pro	¥6	¥6

旗舰对旗舰，DeepSeek V4-Pro 的输出价比 OpenAI 顶配低两个数量级，比 Anthropic / Google 低一个数量级，比国内卷得最凶的字节豆包还要再低 30%。轻量档的 V4-Flash 输出价 ¥2，已经接近“按 token 计费的电费”。

TechTimes 5 月 22 日那篇报道写得直白：China’s AI APIs Cost 90% Less and Run Significantly Slower——中国大模型 API 平均比海外便宜 90%。文章意在揭示“便宜的代价是延迟更高”，但这个标题反而验证了一件事：价格优势已经成了 Chinese AI 的标志性符号。

三、DeepSeek 的三层意图

把限时变永久这件事，DeepSeek 至少在解三个题：

第一层：用确定性换长期占有率。 促销价是“试用装”，永久价是“日用品”。开发者一旦在永久价上完成迁移和成本测算，沉没成本会让他长期留在生态里。这是教科书式的“低价 → 占规模 → 提粘性”路径，互联网公司打了二十年的法子，现在轮到大模型了。

第二层：拒绝“被价格描述”的命运。 国内大模型这一年都在卷价格，但每家姿态不一样：阿里靠云绑定、字节靠流量补贴、智谱主打 ToB。DeepSeek 选了最硬的一条路——靠工程能力把推理成本真打下来，并且跑在国产芯片上。V4 发布当天华为就官宣昇腾 950 supernode 集群对 V4 全系列适配，V4-Flash 训练阶段直接用了昇腾算力（来源：Reuters / 华为官方公告）。这是「成本可持续」的底气：不是烧钱补贴，是在亮成本结构。

第三层：抢“AI 时代水电煤”的命名权。 当大家都讨论 Claude 编码强、Gemini 上下文长、GPT 生态广，DeepSeek 想被讨论的关键词是“便宜到忽略不计”。一旦这个心智占据成功，所有“我只是想跑个 LLM 任务”的非旗舰需求会自动往这边流。这不是单点产品的胜负，是入口位置的争夺。

四、为什么便宜得起来：国产芯片的底牌

便宜不是促销，必须有可持续的成本结构托住。DeepSeek 这次能把 V4-Pro 价格钉死在原价 1/4，背后真正的硬支撑是国产推理芯片首次在前沿大模型上跑通了完整路径。

四个关键事实

V4 是首个面向昇腾原生优化的前沿大模型。 据 MIT Tech Review 报道，DeepSeek 为此把整个软件栈深度重写，发布因此推迟了几个月——为的就是把昇腾架构的性能榨出来，而不是简单跑通就完事（gagadget 报道）。

华为 Ascend 950 / 950PR / Atlas 350 全系列适配 V4 推理。 发布当天华为同步官宣，950PR 被定位为 V4 的主推理芯片。950PR 在 Atlas 350 加速卡上能跑 1.56 PFLOPS FP4 算力 + 112GB HBM，华为自家给出的对比是「2.87 倍 H20 性能」（China Research Collective）。

V4-Flash 的部分训练阶段就用了昇腾。 这是更激进的信号：以前国产卡只敢说“能推理”，这次第一次正面说“能训练”。Reuters 的 factbox 给出了官方确认。

字节、腾讯、阿里在 V4 发布后立刻加单 Ascend 950。 Capacity Global 报道这一波采购规模空前，Huawei 计划 2026 年出货 75 万片 950PR，下半年量产。

这条链路解决了什么

放在去年看，国内大模型的成本结构里有一笔很大的“政治不确定性税”：

主力训练 / 推理依赖 Nvidia H 系列
但 H100 / H200 早在出口管制名单上
H20 这种“特供版”性能阉割，价格还在往上涨
任何一次新的限制升级都会砸向 cap-ex

这种结构下“长期低价”是不可能写进商业计划书的，因为算力成本本身就是浮动炸药。V4 + 昇腾 950 的组合，第一次让“国产前沿模型 + 国产推理硬件 + 永久低价”成为同一句话。

DeepSeek 这次把 2.5 折钉死成永久价的底气，不是“我们能扛多久亏损”，而是“我们的成本结构跟海外厂商已经走到不同轨道上了”。

顺带踩平的另一个坎：CUDA 锁定

软件层面同样关键。DeepSeek 重写软件栈意味着 V4 不再死绑 CUDA 生态，模型可以同时跑在 Nvidia GPU 和 Ascend NPU 上（ghacks 报道提到 V4 论文里专门验证了 expert parallel 方案在两种硬件上的等价性）。

对国内整个 AI 基础设施而言，这是一次重要的破冰——前沿模型第一次在工程层面证明，离开 CUDA 也能跑得起来。这件事的长尾影响会比一次降价大得多：寒武纪、海光、沐曦、摩尔线程这些国产 GPU/NPU 厂商，从此都有了一个可以照着对齐的「跑得起 V4」工程基线。

一句话总结这一节

DeepSeek 的低价是「设计出来的」，不是「亏出来的」。国产芯片是这次降价能成为永久而非促销的物理前提；反过来，V4 的发布也把“国产卡能不能撑前沿大模型”这个问题，从期货变成了现货。

五、对开发者意味着什么

去年这时候，“用 OpenAI API 做点什么”还是要算 ROI 的——一个 RAG 系统、一个 Agent 工作流，输出 token 量稍微大一点账单就两三位数美金往上跑。

到了今天，每天 100 万 tokens 输入 + 50 万 tokens 输出（这已经是个偏重的小项目了），用 V4-Pro 永久价跑一个月也就 180 元，用 V4-Flash 60 元。月成本被压到一杯到几杯奶茶钱，意味着两件事：

试错成本归零，敢瞎做了：以前要写 PRD 论证 ROI，现在直接接上跑一周看数据。token 密集型场景（实时会议纪要、上百份文档的复杂 RAG、需要多轮反思的 Agent）从“奢侈品”变成“标配”
「调 API 就能赚钱」的窗口正在关闭：上游成本被打穿后，套壳生意没差异化就活不下去。开发者的护城河必须从“接通 API”挪到“上游数据 + 工作流设计 + 用户体验”上

简单粗暴一句话：bug 不再是成本，想象力才是。

六、性价比之下，哪些应用值得做

DeepSeek 这种价位，让一些过去被成本卡死的应用形态从 PPT 走进 production。下面是几个在 V4-Flash / V4-Pro 这种价格下能跑得起、有真实价值的方向：

1. 个人知识管理 / 第二大脑

把多年的笔记、邮件、聊天记录、PDF 全喂进去，本地或私有库做 embedding，用 V4-Pro 的 1M 上下文做长文档语义检索 + 对话式问答。

单次问答消耗大概 5K-20K input tokens（含 RAG context），约 ¥0.015-¥0.06
一个人一天用 30 次也就 ¥1-2

放在 GPT-5.5 那个价位上算同样的量，账单是这个的两百倍——这不是“省钱”，是“能不能做”的区别。

2. 重 Agent 工作流

Agent 应用的痛点从来不是“调一次 API”，是要调几十上百次。一个完整的代码修复 Agent 可能跑这样一条链路：

1	读 issue → 检索代码 → 推理修改方案 → 写补丁 → 跑测试 → 看错误 → 反思 → 改 → 再测

平均一个任务 50 次 LLM 调用、每次 8K input + 2K output，按 V4-Pro 永久价：

1	50 × (8K × 3元/M + 2K × 6元/M) = 50 × 0.036 = ¥1.8 / 任务

接 Claude Opus 4.7 同样的链路差不多 ¥35-40。对长链路 Agent 来说，模型的“贵”是按倍数累积的，DeepSeek 把这个累积压回到了可接受区间。

3. 实时会议 / 直播 / 视频内容处理

会议纪要、字幕生成、长视频摘要这类场景，1 小时音频 ASR 转出来大约 1.5-2 万字，转成 token 约 30K。

V4-Flash 处理：input ¥0.03 + output ¥0.04，一场会议**¥0.07 搞定**
加上多轮总结、行动项提取、按人物分线整理，单次任务总成本不超过 ¥0.5

这个价位才让“每个会议都自动出纪要”从 ToB 高客单变成 ToC 工具的可行特性。

4. 客服 / 售后机器人

中小商家最头疼的成本之一。V4-Flash + 自有 FAQ 知识库做 RAG：

单次会话平均 5 轮对话，每轮 input 1K + output 200，约 ¥0.0066 / 轮
一天 1000 个咨询、每个咨询 5 轮 = 5000 次调用，日成本 ¥33

对比传统人工客服一天动辄数百到数千元的人力支出，AI 兜底 + 人工处理 escalation 的混合模式，对小店来说真正是从“听说能用”变成“用得起”。

5. 长文档批处理：合同审查、文献综述、财报对比

V4-Pro 的 1M 上下文 + 永久 ¥3 / 百万输入价的组合，对法律 / 研究 / 财务场景特别合适：

一份 50 页合同 ≈ 30K tokens 输入，单次审查 ≈ ¥0.1
一份 200 页年报 ≈ 120K tokens，关键指标提取 ≈ ¥0.4
一组 20 篇论文综述 ≈ 200K tokens，结构化分析 ≈ ¥0.7

这是 DeepSeek 真正的差异化舒适区——海外旗舰能做但贵，国内同档便宜但上下文吃不下。

6. 生产级流量较大的副业产品

最典型的就是 AI 写作助手、翻译工具、代码补全这种 token 密集型 SaaS。过去算账总是“用户付的钱不够 cover API 调用”，现在反过来了：

一个用户一天 10 万 tokens 量级，月消耗约 300 万 tokens
V4-Flash 月成本 ≈ ¥6 / 用户，V4-Pro ≈ ¥18 / 用户
月费定 ¥29 / ¥39 仍然有 50% 以上毛利

简单说：DeepSeek 的定价，让独立开发者第一次可以严肃地做一个“自己付得起 token 账单”的 AI 产品。

给个组合拳的建议

实际项目里很少只用一个模型。一个比较稳的搭法：

任务类型	选型
高频简单调用、分类、抽取、改写	V4-Flash + 关思考模式
中等推理、结构化输出	V4-Flash + 开思考模式
复杂 Agent、长文档分析、关键决策点	V4-Pro
极致成本场景（金句、tagging 等）	V4-Flash + 边缘缓存 + 客户端缓存

按“任务难度匹配模型档位”分流，整体账单还能再砍一半。

七、能力不打折：直接接入 Claude Code、OpenCode

「便宜」的另一面通常是「能用就行」。但 DeepSeek V4-Pro 这次有点不一样——价格打到地板的同时，编码能力本身已经站在了 Claude Opus 4.7 / GPT-5.5 同一个梯队。

公开 benchmark 摆这里：

基准	DeepSeek V4-Pro	Claude Opus 4.7	GPT-5.5
SWE-bench Verified	80.6%	80.8%	-
LiveCodeBench	93.5	-	-
Codeforces ELO	3206	-	3168

来源：DeepSeek V4 Complete Guide / DeepSeek V4 技术报告。SWE-bench Verified 上和 Opus 4.7 实质打平（差 0.2 个百分点，统计上没意义），Codeforces 则反超 GPT-5.5。

更关键的是 DeepSeek 把 API 同时做成 OpenAI 兼容 + Anthropic 兼容两套协议，意味着主流 coding agent 几乎可以零代码改动直接换后端。

接入 Claude Code（Anthropic 协议）

Claude Code 默认走 Anthropic API。DeepSeek 提供了完全兼容的 endpoint，只要改两个环境变量：

# Windows PowerShell
$env:ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
$env:ANTHROPIC_AUTH_TOKEN="<your DeepSeek API Key>"
$env:ANTHROPIC_MODEL="deepseek-v4-pro[1m]"

# macOS / Linux
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_AUTH_TOKEN="<your DeepSeek API Key>"
export ANTHROPIC_MODEL="deepseek-v4-pro[1m]"

然后 claude 启动，所有原本走 Anthropic 的请求会被路由到 DeepSeek。Claude Code 的工具调用、prompt caching、文件编辑这些核心特性都正常工作，因为协议层是同一套。

模型名后面那个 [1m] 是开启 1M 上下文的标志，长项目/大代码库强烈建议加上。

接入 OpenCode

OpenCode 是开源的终端编码助手，原生支持自定义 provider。在 ~/.opencode/config.json（或对应配置文件）里加一段：

{
  "providers": {
    "deepseek": {
      "type": "openai",
      "baseURL": "https://api.deepseek.com",
      "apiKey": "<your DeepSeek API Key>",
      "models": ["deepseek-v4-pro", "deepseek-v4-flash"]
    }
  }
}

然后在 OpenCode 里切换 model 就行。详细配置见 DeepSeek 官方 OpenCode 接入指南。

一键管理多后端：几个值得用的开源项目

手动维护一堆环境变量挺烦的——尤其是你同时在用 Claude 官方、DeepSeek、Kimi、GLM 等好几个后端，按场景切换的话每次都要改环境变量太蠢了。社区已经有现成的轮子：

cc-switch — 跨平台桌面 GUI，强烈推荐

把 Claude Code、Codex、OpenCode、Gemini CLI 的 provider 配置和 MCP server 全部统一管起来。GUI 里点一下就能切 endpoint、切 API key、切 model，不用记环境变量名也不用改配置文件。中文 README 写得很完整，是国内开发者目前用得最顺手的工具之一。

从社区反响也能看出来，star 数曲线明显走出加速段：

deepclaude — Claude Code → DeepSeek 专用桥

如果你只想干“把 Claude Code 的脑子换成 DeepSeek”这一件事，这个项目最纯粹。 Decrypt 还专门写过它：DeepClaude Lets You Run Claude Code With DeepSeek’s Brain for 17x Cheaper。

Deep Code — 专为 DeepSeek-V4 设计的开源 terminal agent

实际算笔账

按 Anthropic 公开价格，Claude Code + Claude Opus 4.7 重度日用，每天 $5-$15 不算夸张（Opus 4.7 输入 $5 / 输出 $25 / 百万 tokens）。

换成 DeepSeek V4-Pro 永久价（输入 ¥3 / 输出 ¥6）：

用法	Claude Opus 4.7	DeepSeek V4-Pro	差距
1M input + 200K output	$5 + $5 = $10	¥3 + ¥1.2 = ¥4.2	≈ 17×
5M input + 1M output	$25 + $25 = $50	¥15 + ¥6 = ¥21	≈ 17×

GitHub 上有个项目就叫 deepclaude，标语直接写着 “Same UX, 17x cheaper”——这倍数不是营销话术，是几个 benchmark 拉平之后的真实算术结果。

给个使用建议

日常重度编码：Claude Code + DeepSeek V4-Pro Anthropic endpoint，1M 上下文打开，处理大型仓库重构、跨文件 refactor 都很稳
轻量补全 / 单文件改造：用 V4-Flash 关思考模式，响应更快、成本再砍 3 倍，适合「我就改个函数」的场景
多后端来回切：装 cc-switch，GUI 管所有 provider，按场景一键切换不烦人

八、行业的下半场

去年还有人争论“大模型会不会陷入价格战”。今年看回去，价格战不仅来了，而且打法变了——不是补贴撑出来的低价，是工程能力打下来的低价。这两种低价的可持续性完全不同。

可以预期的几件事：

海外厂商不会跟进同档降价。GPT、Claude 的定价锚定的是“训练 / 推理成本 + 品牌溢价”，跟进价格战意味着主动否定自己的成本结构。但他们会在产品形态上加码——更长上下文、更强 Agent、企业级合规——把战场从「按 token 卖」搬到「按订阅 / 按席位 / 按解决方案卖」
国内会进一步分层。一线（DeepSeek / 阿里 / 字节）继续卷工程优化拉低成本，二线模型要么靠垂直场景活下来，要么并到一线生态里。「中等价位的通用大模型」会是最难受的位置
应用层的爆发会被这次降价直接催生。当 token 不再是预算瓶颈，独立开发者敢做的事情会指数级增多。下半年到明年，重 token 消耗、轻品牌依赖的产品类目会出现一波新东西，类似当年云计算降价后的 SaaS 浪潮

九、写在最后

DeepSeek 把限时变永久这一刀，刀刃落在一个微妙的位置：它让“用得起 LLM”这件事，从开发者的乐观假设，变成了一个可以写进合同的常量。

我自己博客左侧栏那个 AI 每日金句卡片用的就是 DeepSeek V4-Flash，平均一次调用 100 tokens 左右，配合 Cloudflare 边缘缓存一天只触发一次实际调用——一年下来 API 成本不到 0.5 元。

如今，价格不再是借口，剩下的限制只剩想象力和执行力。

降价从来不是终点。终点是当 AI 成本压低到忽略不计时，谁能率先长出第一批真正离不开 LLM 的应用。

参考资料：

DeepSeek 官方定价文档（中文）