Seven's Blog

当 AI Agent 有了温度：聊聊 OpenHanako 的设计哲学

2026-05-24T01:00:00.000Z

市面上 AI Agent 的叙事，大多围绕“效率”和“自动化”展开——命令行里敲指令，模型跑完给你结果。OpenHanako 想讲一个不一样的故事：一个坐在你桌面上、记得你说过什么、有自己性格的 AI 助手。

它的作者 liliMozi 是一位中国开发者，一人全职维护这个项目——从代码到设计到文档，一个人扛下了整个产品。这篇文章基于实际使用体验，聊聊这个项目的定位、核心机制、和同类产品的差异。

一、先说定位

OpenHanako 的核心卖点不是“比 Claude Code 更强”或“比 Manus 更自动”。它试图回答一个不同的问题：AI Agent 能不能像一个靠谱的同事一样，长期驻留在你的工作环境里？

放一张表看它和主流 Agent 的定位差异：

类型	代表	交互方式	目标用户	核心价值
IDE Copilot	Cursor / Cline	嵌入编辑器	开发者	代码补全
CLI Agent	Claude Code / Codex	终端命令行	开发者	任务执行
通用对话	ChatGPT / Claude Desktop	网页/App	所有人	单次问答
桌面常驻 Agent	OpenHanako	桌面 GUI + 多平台	所有人	长期陪伴 + 主动行动

OpenHanako 的作者在 README 里写得很直白：“我本职也是一介文员，所以我也针对日常办公场景做了很多工具性和流程性的优化。” 这句话解释了它和 CLI-first 的 Agent 们为什么长得不一样——它从一开始就是为“不写代码的人”设计的。

二、记忆系统：不是 RAG，是“时间的重量”

大部分 Agent 的记忆方案是向量数据库 + RAG：把对话 embed 进去，检索时按相似度捞。OpenHanako 用的是一套时间衰减记忆模型：

近期事件：高精度保留，细节清晰
中期记忆：自动压缩编译，保留关键事实
长期记忆：LLM 周期性编译，沉淀为结构化事实

这个设计的好处是“记忆有轻重缓急”。你昨天随口说的“明天要交报告”，Agent 记得清清楚楚；但三个月前的一次闲聊，它只保留核心结论，不会把每个细节都塞进上下文窗口浪费 token。

实际体验下来，记忆编译的质量取决于底层模型。用强模型（GPT-4o / Claude Sonnet）编译出来的记忆更准确，用小模型偶尔会丢失细节或产生幻觉。这是所有记忆系统的通病，不是 OpenHanako 独有的问题。

三、人格系统：每个 Agent 都是“一个人”

OpenHanako 的人格不是简单的 system prompt 加个名字。它有一套完整的人格模板 + 行为逻辑机制：

SOUL.md：定义 Agent 的核心性格、说话方式、价值观
人格模板：预置多种风格（温柔、理性、幽默……），也可以自由创作
行为逻辑：不只是“怎么说”，还影响“怎么做”——主动关心你的情绪、在合适的时候提醒你休息

这点在实际使用中感受很明显。传统 Agent 你问它答，你不问它就沉默。OpenHanako 的 Agent 会根据上下文主动发起对话——比如你连续工作三小时没休息，它可能会提醒你该起来活动了。

当然，这种“主动性”也需要调校。太主动会烦人，太被动又失去意义。作者在安全模型上做了平衡：主动行为需要通过审核，不会随便乱发消息。

四、多 Agent 协作：不只是一个助手，是一个团队

OpenHanako 支持创建多个 Agent，各自有独立的记忆、人格和技能。Agent 之间可以通过两种方式协作：

频道群聊：多个 Agent 在同一个频道里讨论问题，类似 Slack 的群组
任务委派：主 Agent 可以把子任务分配给其他 Agent，各自独立执行

这个设计让“分工”成为可能。比如你可以有一个专门负责写作的 Agent、一个负责数据分析的 Agent、一个负责日程管理的 Agent，它们各自擅长自己的领域，遇到跨领域问题时互相请教。

实际使用中，多 Agent 的协调成本不低——Agent 之间的对话可能会跑偏，需要人工干预。但这个方向是对的：单个 Agent 的能力有天花板，协作才能突破。

五、工具与技能：不只是调 API

OpenHanako 的工具覆盖了日常办公的绝大多数场景：

工具类别	具体能力
文件操作	读写文件、浏览文件树、拖拽上传
终端	一次性命令、持续终端会话
浏览器	网页导航、截图、长截图、元素检查
媒体	图片/视频预览、SVG 查看、全屏查看器
网络	搜索引擎、网页抓取、API 调用
日程	定时任务（Cron）、心跳巡检

更值得关注的是技能系统。OpenHanako 兼容 Skills 社区生态，但做了一个有意思的优化：Agent 可以自己学习新技能。当它成功完成一个任务后，会自动把流程沉淀为可复用的技能文档，下次遇到类似任务直接调用。

这和 Hermes Agent 的“自我进化”理念相似，但 OpenHanako 的实现更偏向“人工审核 + 自动沉淀”的混合模式——技能需要通过安全审核才能正式启用，避免了“自动学习出错误技能”的风险。

Vision Bridge：让文本模型“看见”世界

有一个容易被忽略但非常聪明的设计：Vision Bridge。

DeepSeek V4 是一个纯文本模型（多模态版本据称已在测试中，但截至本文写作时尚未正式发布），本身不具备理解图片的能力。OpenHanako 的做法不是等模型升级，而是在架构层面做了一个适配层——当你向 Agent 发送图片时，系统自动调用一个独立配置的视觉模型（可以是 GPT-4o、Claude 等任意支持多模态的模型）来“翻译”图片内容为文字描述，再把这段描述作为上下文注入到对话中。对文本模型来说，它看到的就是一段“用户发了一张图，图里是什么”的自然语言描述，而不需要理解图片本身。

这个设计的巧劲在于不改造模型，只改造输入：

用户端无感。你直接拖图进去，Agent 就能“看懂”，不需要任何额外操作
成本可控。视觉模型只被调用一次做图片翻译，后续多轮对话仍由廉价的文本模型处理，对 DeepSeek V4 这种低价模型的生态来说尤其适配
模型无关。Vision Bridge 的视觉模型可以在设置页单独选择更换，不和对话模型绑定

说实话，这种“用工程手段弥合模型能力边界”的思路，比等着模型厂商发新版本务实得多。作者用几行适配代码解决了一个“文本模型就是文本模型”的硬限制，而且解得漂亮。她在抖音也分享过对 DeepSeek 的深度适配经验，感兴趣的可以看看：我给 DeepSeek 做了一套专属武装。

六、安全沙盒：给 AI 划红线

Agent 能操作你的电脑，安全问题就是头等大事。OpenHanako 的安全设计是双层隔离：

第一层：应用级 PathGuard（四级访问控制）

只读访问系统普通文件
写入和删除限制在工作目录与受控数据目录
敏感操作需要用户确认

第二层：操作系统级沙盒

macOS：Seatbelt
Linux：Bubblewrap
Windows：restricted token

这意味着即使 Agent 的指令有误，它也无法突破沙盒去删除系统文件或访问不该访问的目录。在设置里还可以调整沙盒级别——从“严格”到“宽松”，根据你的信任程度选择。

七、多平台接入：同一个 Agent，随处对话

OpenHanako 通过 Bridge 机制，让同一个 Agent 可以同时接入：

Telegram
飞书
QQ
微信
CLI（终端）

你在电脑前和 Agent 对话，出门后用手机上的微信继续同一个话题，Agent 的记忆是连续的。这对“跨设备工作流”来说是刚需。

更实用的是移动端 PWA：通过手机访问 Hana Server，可以查看会话、继续聊天、管理工作台文件。不需要额外装 App，浏览器打开就能用。

八、技术架构速览

层级	技术
桌面端	Electron 38
前端	React 19 + Zustand 5 + CSS Modules
构建	Vite 7
服务端	Hono + @hono/node-server
Agent 运行时	Pi SDK
数据库	better-sqlite3（WAL 模式）
测试	Vitest
国际化	5 语言（中/英/日/韩/繁体）

Server 以独立 Node.js 进程运行（由 Electron spawn 或独立启动），与 Electron 渲染进程通过 WebSocket 通信。用户数据目录默认在 ~/.hanako，每个 Agent 是一个独立的文件夹，备份和迁移都很方便。

九、和同类产品对比

维度	OpenHanako	Hermes Agent	OpenClaw	Claude Desktop
界面	桌面 GUI + 移动 PWA	CLI + Telegram	桌面 GUI	桌面 App
目标用户	所有人	开发者	开发者	所有人
记忆方案	时间衰减 + LLM 编译	FTS5 + Honcho	显式记忆	会话内
技能来源	自动沉淀 + 人工审核	自动生成	人工编写	插件市场
沙盒	PathGuard + OS 级	用户授权	文件级身份	受限
模型支持	OpenAI / Anthropic / Ollama 等	模型无关	模型无关	仅 Claude
多 Agent	支持（频道 + 委派）	支持（子 Agent）	不支持	不支持
多平台	Telegram/飞书/QQ/微信	Telegram/Discord/Slack/WhatsApp	无	无
开源	Apache 2.0	Apache 2.0	开源	闭源

简单说：Hermes 适合想“放养”型自学习的开发者，OpenClaw 适合想“圈养”型可控助手的开发者，OpenHanako 适合想要“有温度的长期伙伴”的所有人。

十、审美本身就是功能

聊完功能和技术，必须单独说一句视觉设计。这不是那种“界面好看就行”的凑字数段落——对 OpenHanako 来说，审美是功能性的。

一个软件如果长得丑，你永远不会和它建立情感连接。CLI 可以丑，因为终端的美学是效率；但一个自称“有温度的长期伙伴”的东西如果界面刺眼、排版混乱、配色廉价，它说自己有灵魂你是不会信的。OpenHanako 在这一点上做得很清醒。

配色与暗色模式

不是那种程序员自嗨的高饱和度赛博朋克风，也不是大厂 ToB 软件那种灰蒙蒙的“性冷淡”。OpenHanako 的配色偏向暖灰色调，大面积留白，重点色克制地用在交互焦点上，整体观感接近一款做得好的日系笔记 App。暗色模式不是简单的黑底白字——深色背景有微妙的暖灰渐变，文字层级清晰但不刺眼，长时间盯着窗口不会疲劳。

光是主题名字就能看出作者的审美自觉：暖纸、青夜、草香、沉思、素白——每个名字不是功能描述，而是一种情绪提示。你选的不是“深色背景”，你选的是“今晚想待在一个青色的夜里”。暗色模式可以叫高对比，但它偏叫“青夜·高对比”。这些命名背后有一个罕见的意识：界面的每一个字都在和用户对话，而 OpenHanako 选择说人话。

书桌：拟物而不俗气

每个 Agent 都有自己的书桌，可以在上面放文件、写笺（类似便签）。这个设计巧在两点：

空间隐喻做得很自然。你和 Agent 共享一张虚拟桌面，而不是一个聊天框。拖拽文件到书桌上，Agent 会感知到变化并主动读取——这个交互把“我给 AI 塞了个文件”翻译成了“我往桌上放了张纸条”，不需要学习任何新概念。
拟物但不土。很多国内软件的拟物设计要么过度（阴影到处都是、材质贴图堆满），要么生搬 iOS 那套磨砂玻璃。OpenHanako 的书桌保留了拟物的直觉（“这是桌子”），但视觉上做了扁平化处理——阴影只起到层级提示的作用，不抢注意力。

全屏媒体查看器：细节里的功力

这是个小功能，但能看出作者的审美直觉。聊天里或书桌上的任意图片、视频点开，是一层暗色遮罩的全屏预览，滚轮缩放、拖拽平移，左右箭头在同会话或同目录的相邻媒体间切换。关键不在功能本身（看图软件都有），在于动效的节奏：遮罩淡入不是生硬的出现，缩放有缓动，切换有过渡。这些不是“炫技”，是让每一次操作都感觉“被好好对待了”。

如果把同类产品拉出来对比就很明显：不少 CLI-first 的 Agent 功能强大到飞起，但界面就是几行纯文本配 ANSI 颜色码。不是它们不想好看，而是它们的目标用户不在乎——开发者要的是“快”，不是“舒服”。OpenHanako 选了另一条路：让非开发者也有打开它的欲望。

一个容易被忽略的洞察

用户每天面对的不是一个模型、一组 API，而是一个界面。AI 本身没有形状，界面就是它的身体。OpenHanako 的设计语言不是在“美化一个工具”，而是在给 AI 一具让人愿意亲近的身体。

选色、排版、间距、动效——这些在编码优先的项目里往往被压缩到最后一个 sprint 随便糊一下。但 OpenHanako 的 README 截图一放出来就能看出，作者对视觉是有要求的。这种要求不是设计师那种“像素级对齐”的执念，而是一种更简单的东西：希望你打开这个软件的时候，心情是好的。

十一、局限与诚实的评价

用了这段时间，几个问题需要坦诚说：

Windows 仍在 Beta：偶发的 UI 卡顿和内存占用偏高（常驻约 1GB+），小内存机器需要谨慎
模型依赖：记忆编译和技能沉淀的质量高度依赖底层模型，用弱模型效果会打折
学习成本：虽然比 CLI Agent 友好很多，但 SOUL.md / 技能 / 频道 / 桥接等概念仍然需要时间理解
社区生态：相比 Hermes 的 30K stars，OpenHanako 的社区还在早期（约 2500 stars），插件和技能资源相对少
主动性的边界：Agent 的“主动关心”目前还比较机械，距离真正的“懂你”还有距离

十二、谁适合用

适合：

希望 AI 助手有“人格感”、不只是冷冰冰的工具
日常办公场景多，需要跨平台（电脑 + 手机）连续对话
想要一个能记住你说过什么、主动提醒你的长期伙伴
对开源和数据隐私有要求

不太适合：

只需要“问一句答一句”的轻度用户
追求极致响应速度和最低资源占用
没有耐心做初期配置和调校

十三、写在最后

OpenHanako 的作者在 README 里有一句话打动了我：“弥合绝大多数人和 AI Agent 之间的缝隙。”

这句话点出了一个被忽略的事实：当前 AI Agent 生态的最大鸿沟，不是技术能力，而是使用门槛。CLI-first 的 Agent 再强大，对不会写代码的人来说就是不存在的。OpenHanako 试图用 GUI、人格、记忆、多平台这些“非技术特性”，把 Agent 的能力翻译成所有人都能用的语言。

它目前还不完美——Beta 阶段的 Windows 版、还在成长的社区、需要调校的主动性——但它走的这条路，指向了一个值得期待的方向：AI 助手不只是效率工具，还可以是一个有温度的存在。

相关链接：

项目地址：github.com/liliMozi/openhanako
官网：openhanako.com
下载：Releases
插件开发指南：PLUGINS.md
贡献指南：CONTRIBUTING.md
作者的抖音主页：liliMozi

DeepSeek 想只收电费吗？聊聊这次 V4 正式降价

2026-05-23T10:00:00.000Z

5 月 22 日，DeepSeek 官方明确：V4-Pro 模型 API 当前 2.5 折的限时优惠将在 北京时间 5 月 31 日 23:59 结束，价格不会回弹——同一档价格直接转为永久价。

这件事最容易被读成“又一次促销结束公告”。但放在 2026 年这个时间点上、放在国内外大模型竞争的版图上看，它真正的意义不在数字本身，而在于：DeepSeek 把“低价”这件事，从市场动作正式升级成了产品定义。

一、价格只是入口，不是重点

为完整起见，先把官方人民币定价摆出来（数据来自 DeepSeek 官方定价文档，单位：元 / 百万 tokens）：

计费维度	V4-Flash	V4-Pro 当前促销	V4-Pro 原定价	6/1 起永久价
Input（缓存命中）	0.02	0.025	0.1	0.025
Input（缓存未命中）	1	3	12	3
Output	2	6	24	6

数字本身没变化。变的是状态：「促销价」三个字被划掉了。

为什么这件事比降价本身更重要？因为做长期项目的人都知道，「促销价」永远写不进商业计划书——你不知道它什么时候结束、结束后会跳回多高、后续是否还续。一旦价格钉死成永久价，团队敢规划半年、一年的 token 预算了，敢做 Agent 长链路、RAG 知识库、Long-context 文档分析这些重度依赖 token 量的产品形态了。

事实上 DeepSeek 这次也是先延期再永久——5 月初先把原本截止 5 月 5 日的促销延到 5 月 31 日，5 月 22 日再宣布钉死成永久价。两次公告对照看，路径很清晰：

5 月初：促销延长至 5/31

5 月 22 日：钉死为永久价

DeepSeek 这次操作的本质，是把“廉价”从一个营销周期里的临时姿势，做成了产品契约。

二、放到国内外竞争版图里看

把同代产品的价格摊在桌面上对比一下（以 OpenAI 兼容格式 / 百万 tokens 输出价为准，数据来自各家官方页 + 2026 年公开汇总）：

厂商	旗舰模型	输出价	折合人民币
OpenAI	GPT-5.5	$180	≈ ¥1278
Anthropic	Claude Opus 4.7	$25	≈ ¥178
Google	Gemini 3.1 Pro	$15	≈ ¥107
阿里	Qwen3.5-Max	约 ¥40	¥40
字节	豆包 1.5 Pro	约 ¥9	¥9
DeepSeek	V4-Pro	¥6	¥6

旗舰对旗舰，DeepSeek V4-Pro 的输出价比 OpenAI 顶配低两个数量级，比 Anthropic / Google 低一个数量级，比国内卷得最凶的字节豆包还要再低 30%。轻量档的 V4-Flash 输出价 ¥2，已经接近“按 token 计费的电费”。

TechTimes 5 月 22 日那篇报道写得直白：China’s AI APIs Cost 90% Less and Run Significantly Slower——中国大模型 API 平均比海外便宜 90%。文章意在揭示“便宜的代价是延迟更高”，但这个标题反而验证了一件事：价格优势已经成了 Chinese AI 的标志性符号。

三、DeepSeek 的三层意图

把限时变永久这件事，DeepSeek 至少在解三个题：

第一层：用确定性换长期占有率。 促销价是“试用装”，永久价是“日用品”。开发者一旦在永久价上完成迁移和成本测算，沉没成本会让他长期留在生态里。这是教科书式的“低价 → 占规模 → 提粘性”路径，互联网公司打了二十年的法子，现在轮到大模型了。

第二层：拒绝“被价格描述”的命运。 国内大模型这一年都在卷价格，但每家姿态不一样：阿里靠云绑定、字节靠流量补贴、智谱主打 ToB。DeepSeek 选了最硬的一条路——靠工程能力把推理成本真打下来，并且跑在国产芯片上。V4 发布当天华为就官宣昇腾 950 supernode 集群对 V4 全系列适配，V4-Flash 训练阶段直接用了昇腾算力（来源：Reuters / 华为官方公告）。这是「成本可持续」的底气：不是烧钱补贴，是在亮成本结构。

第三层：抢“AI 时代水电煤”的命名权。 当大家都讨论 Claude 编码强、Gemini 上下文长、GPT 生态广，DeepSeek 想被讨论的关键词是“便宜到忽略不计”。一旦这个心智占据成功，所有“我只是想跑个 LLM 任务”的非旗舰需求会自动往这边流。这不是单点产品的胜负，是入口位置的争夺。

四、为什么便宜得起来：国产芯片的底牌

便宜不是促销，必须有可持续的成本结构托住。DeepSeek 这次能把 V4-Pro 价格钉死在原价 1/4，背后真正的硬支撑是国产推理芯片首次在前沿大模型上跑通了完整路径。

四个关键事实

V4 是首个面向昇腾原生优化的前沿大模型。 据 MIT Tech Review 报道，DeepSeek 为此把整个软件栈深度重写，发布因此推迟了几个月——为的就是把昇腾架构的性能榨出来，而不是简单跑通就完事（gagadget 报道）。

华为 Ascend 950 / 950PR / Atlas 350 全系列适配 V4 推理。 发布当天华为同步官宣，950PR 被定位为 V4 的主推理芯片。950PR 在 Atlas 350 加速卡上能跑 1.56 PFLOPS FP4 算力 + 112GB HBM，华为自家给出的对比是「2.87 倍 H20 性能」（China Research Collective）。

V4-Flash 的部分训练阶段就用了昇腾。 这是更激进的信号：以前国产卡只敢说“能推理”，这次第一次正面说“能训练”。Reuters 的 factbox 给出了官方确认。

字节、腾讯、阿里在 V4 发布后立刻加单 Ascend 950。 Capacity Global 报道这一波采购规模空前，Huawei 计划 2026 年出货 75 万片 950PR，下半年量产。

这条链路解决了什么

放在去年看，国内大模型的成本结构里有一笔很大的“政治不确定性税”：

主力训练 / 推理依赖 Nvidia H 系列
但 H100 / H200 早在出口管制名单上
H20 这种“特供版”性能阉割，价格还在往上涨
任何一次新的限制升级都会砸向 cap-ex

这种结构下“长期低价”是不可能写进商业计划书的，因为算力成本本身就是浮动炸药。V4 + 昇腾 950 的组合，第一次让“国产前沿模型 + 国产推理硬件 + 永久低价”成为同一句话。

DeepSeek 这次把 2.5 折钉死成永久价的底气，不是“我们能扛多久亏损”，而是“我们的成本结构跟海外厂商已经走到不同轨道上了”。

顺带踩平的另一个坎：CUDA 锁定

软件层面同样关键。DeepSeek 重写软件栈意味着 V4 不再死绑 CUDA 生态，模型可以同时跑在 Nvidia GPU 和 Ascend NPU 上（ghacks 报道提到 V4 论文里专门验证了 expert parallel 方案在两种硬件上的等价性）。

对国内整个 AI 基础设施而言，这是一次重要的破冰——前沿模型第一次在工程层面证明，离开 CUDA 也能跑得起来。这件事的长尾影响会比一次降价大得多：寒武纪、海光、沐曦、摩尔线程这些国产 GPU/NPU 厂商，从此都有了一个可以照着对齐的「跑得起 V4」工程基线。

一句话总结这一节

DeepSeek 的低价是「设计出来的」，不是「亏出来的」。国产芯片是这次降价能成为永久而非促销的物理前提；反过来，V4 的发布也把“国产卡能不能撑前沿大模型”这个问题，从期货变成了现货。

五、对开发者意味着什么

去年这时候，“用 OpenAI API 做点什么”还是要算 ROI 的——一个 RAG 系统、一个 Agent 工作流，输出 token 量稍微大一点账单就两三位数美金往上跑。

到了今天，每天 100 万 tokens 输入 + 50 万 tokens 输出（这已经是个偏重的小项目了），用 V4-Pro 永久价跑一个月也就 180 元，用 V4-Flash 60 元。月成本被压到一杯到几杯奶茶钱，意味着两件事：

试错成本归零，敢瞎做了：以前要写 PRD 论证 ROI，现在直接接上跑一周看数据。token 密集型场景（实时会议纪要、上百份文档的复杂 RAG、需要多轮反思的 Agent）从“奢侈品”变成“标配”
「调 API 就能赚钱」的窗口正在关闭：上游成本被打穿后，套壳生意没差异化就活不下去。开发者的护城河必须从“接通 API”挪到“上游数据 + 工作流设计 + 用户体验”上

简单粗暴一句话：bug 不再是成本，想象力才是。

六、性价比之下，哪些应用值得做

DeepSeek 这种价位，让一些过去被成本卡死的应用形态从 PPT 走进 production。下面是几个在 V4-Flash / V4-Pro 这种价格下能跑得起、有真实价值的方向：

1. 个人知识管理 / 第二大脑

把多年的笔记、邮件、聊天记录、PDF 全喂进去，本地或私有库做 embedding，用 V4-Pro 的 1M 上下文做长文档语义检索 + 对话式问答。

单次问答消耗大概 5K-20K input tokens（含 RAG context），约 ¥0.015-¥0.06
一个人一天用 30 次也就 ¥1-2

放在 GPT-5.5 那个价位上算同样的量，账单是这个的两百倍——这不是“省钱”，是“能不能做”的区别。

2. 重 Agent 工作流

Agent 应用的痛点从来不是“调一次 API”，是要调几十上百次。一个完整的代码修复 Agent 可能跑这样一条链路：

1	读 issue → 检索代码 → 推理修改方案 → 写补丁 → 跑测试 → 看错误 → 反思 → 改 → 再测

平均一个任务 50 次 LLM 调用、每次 8K input + 2K output，按 V4-Pro 永久价：

1	50 × (8K × 3元/M + 2K × 6元/M) = 50 × 0.036 = ¥1.8 / 任务

接 Claude Opus 4.7 同样的链路差不多 ¥35-40。对长链路 Agent 来说，模型的“贵”是按倍数累积的，DeepSeek 把这个累积压回到了可接受区间。

3. 实时会议 / 直播 / 视频内容处理

会议纪要、字幕生成、长视频摘要这类场景，1 小时音频 ASR 转出来大约 1.5-2 万字，转成 token 约 30K。

V4-Flash 处理：input ¥0.03 + output ¥0.04，一场会议**¥0.07 搞定**
加上多轮总结、行动项提取、按人物分线整理，单次任务总成本不超过 ¥0.5

这个价位才让“每个会议都自动出纪要”从 ToB 高客单变成 ToC 工具的可行特性。

4. 客服 / 售后机器人

中小商家最头疼的成本之一。V4-Flash + 自有 FAQ 知识库做 RAG：

单次会话平均 5 轮对话，每轮 input 1K + output 200，约 ¥0.0066 / 轮
一天 1000 个咨询、每个咨询 5 轮 = 5000 次调用，日成本 ¥33

对比传统人工客服一天动辄数百到数千元的人力支出，AI 兜底 + 人工处理 escalation 的混合模式，对小店来说真正是从“听说能用”变成“用得起”。

5. 长文档批处理：合同审查、文献综述、财报对比

V4-Pro 的 1M 上下文 + 永久 ¥3 / 百万输入价的组合，对法律 / 研究 / 财务场景特别合适：

一份 50 页合同 ≈ 30K tokens 输入，单次审查 ≈ ¥0.1
一份 200 页年报 ≈ 120K tokens，关键指标提取 ≈ ¥0.4
一组 20 篇论文综述 ≈ 200K tokens，结构化分析 ≈ ¥0.7

这是 DeepSeek 真正的差异化舒适区——海外旗舰能做但贵，国内同档便宜但上下文吃不下。

6. 生产级流量较大的副业产品

最典型的就是 AI 写作助手、翻译工具、代码补全这种 token 密集型 SaaS。过去算账总是“用户付的钱不够 cover API 调用”，现在反过来了：

一个用户一天 10 万 tokens 量级，月消耗约 300 万 tokens
V4-Flash 月成本 ≈ ¥6 / 用户，V4-Pro ≈ ¥18 / 用户
月费定 ¥29 / ¥39 仍然有 50% 以上毛利

简单说：DeepSeek 的定价，让独立开发者第一次可以严肃地做一个“自己付得起 token 账单”的 AI 产品。

给个组合拳的建议

实际项目里很少只用一个模型。一个比较稳的搭法：

任务类型	选型
高频简单调用、分类、抽取、改写	V4-Flash + 关思考模式
中等推理、结构化输出	V4-Flash + 开思考模式
复杂 Agent、长文档分析、关键决策点	V4-Pro
极致成本场景（金句、tagging 等）	V4-Flash + 边缘缓存 + 客户端缓存

按“任务难度匹配模型档位”分流，整体账单还能再砍一半。

七、能力不打折：直接接入 Claude Code、OpenCode

「便宜」的另一面通常是「能用就行」。但 DeepSeek V4-Pro 这次有点不一样——价格打到地板的同时，编码能力本身已经站在了 Claude Opus 4.7 / GPT-5.5 同一个梯队。

公开 benchmark 摆这里：

基准	DeepSeek V4-Pro	Claude Opus 4.7	GPT-5.5
SWE-bench Verified	80.6%	80.8%	-
LiveCodeBench	93.5	-	-
Codeforces ELO	3206	-	3168

来源：DeepSeek V4 Complete Guide / DeepSeek V4 技术报告。SWE-bench Verified 上和 Opus 4.7 实质打平（差 0.2 个百分点，统计上没意义），Codeforces 则反超 GPT-5.5。

更关键的是 DeepSeek 把 API 同时做成 OpenAI 兼容 + Anthropic 兼容两套协议，意味着主流 coding agent 几乎可以零代码改动直接换后端。

接入 Claude Code（Anthropic 协议）

Claude Code 默认走 Anthropic API。DeepSeek 提供了完全兼容的 endpoint，只要改两个环境变量：

# Windows PowerShell
$env:ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
$env:ANTHROPIC_AUTH_TOKEN=""
$env:ANTHROPIC_MODEL="deepseek-v4-pro[1m]"

# macOS / Linux
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_AUTH_TOKEN=""
export ANTHROPIC_MODEL="deepseek-v4-pro[1m]"

然后 claude 启动，所有原本走 Anthropic 的请求会被路由到 DeepSeek。Claude Code 的工具调用、prompt caching、文件编辑这些核心特性都正常工作，因为协议层是同一套。

模型名后面那个 [1m] 是开启 1M 上下文的标志，长项目/大代码库强烈建议加上。

接入 OpenCode

OpenCode 是开源的终端编码助手，原生支持自定义 provider。在 ~/.opencode/config.json（或对应配置文件）里加一段：

{
  "providers": {
    "deepseek": {
      "type": "openai",
      "baseURL": "https://api.deepseek.com",
      "apiKey": "",
      "models": ["deepseek-v4-pro", "deepseek-v4-flash"]
    }
  }
}

然后在 OpenCode 里切换 model 就行。详细配置见 DeepSeek 官方 OpenCode 接入指南。

一键管理多后端：几个值得用的开源项目

手动维护一堆环境变量挺烦的——尤其是你同时在用 Claude 官方、DeepSeek、Kimi、GLM 等好几个后端，按场景切换的话每次都要改环境变量太蠢了。社区已经有现成的轮子：

cc-switch — 跨平台桌面 GUI，强烈推荐

把 Claude Code、Codex、OpenCode、Gemini CLI 的 provider 配置和 MCP server 全部统一管起来。GUI 里点一下就能切 endpoint、切 API key、切 model，不用记环境变量名也不用改配置文件。中文 README 写得很完整，是国内开发者目前用得最顺手的工具之一。

从社区反响也能看出来，star 数曲线明显走出加速段：

deepclaude — Claude Code → DeepSeek 专用桥

如果你只想干“把 Claude Code 的脑子换成 DeepSeek”这一件事，这个项目最纯粹。 Decrypt 还专门写过它：DeepClaude Lets You Run Claude Code With DeepSeek’s Brain for 17x Cheaper。

Deep Code — 专为 DeepSeek-V4 设计的开源 terminal agent

实际算笔账

按 Anthropic 公开价格，Claude Code + Claude Opus 4.7 重度日用，每天 $5-$15 不算夸张（Opus 4.7 输入 $5 / 输出 $25 / 百万 tokens）。

换成 DeepSeek V4-Pro 永久价（输入 ¥3 / 输出 ¥6）：

用法	Claude Opus 4.7	DeepSeek V4-Pro	差距
1M input + 200K output	$5 + $5 = $10	¥3 + ¥1.2 = ¥4.2	≈ 17×
5M input + 1M output	$25 + $25 = $50	¥15 + ¥6 = ¥21	≈ 17×

GitHub 上有个项目就叫 deepclaude，标语直接写着 “Same UX, 17x cheaper”——这倍数不是营销话术，是几个 benchmark 拉平之后的真实算术结果。

给个使用建议

日常重度编码：Claude Code + DeepSeek V4-Pro Anthropic endpoint，1M 上下文打开，处理大型仓库重构、跨文件 refactor 都很稳
轻量补全 / 单文件改造：用 V4-Flash 关思考模式，响应更快、成本再砍 3 倍，适合「我就改个函数」的场景
多后端来回切：装 cc-switch，GUI 管所有 provider，按场景一键切换不烦人

八、行业的下半场

去年还有人争论“大模型会不会陷入价格战”。今年看回去，价格战不仅来了，而且打法变了——不是补贴撑出来的低价，是工程能力打下来的低价。这两种低价的可持续性完全不同。

可以预期的几件事：

海外厂商不会跟进同档降价。GPT、Claude 的定价锚定的是“训练 / 推理成本 + 品牌溢价”，跟进价格战意味着主动否定自己的成本结构。但他们会在产品形态上加码——更长上下文、更强 Agent、企业级合规——把战场从「按 token 卖」搬到「按订阅 / 按席位 / 按解决方案卖」
国内会进一步分层。一线（DeepSeek / 阿里 / 字节）继续卷工程优化拉低成本，二线模型要么靠垂直场景活下来，要么并到一线生态里。「中等价位的通用大模型」会是最难受的位置
应用层的爆发会被这次降价直接催生。当 token 不再是预算瓶颈，独立开发者敢做的事情会指数级增多。下半年到明年，重 token 消耗、轻品牌依赖的产品类目会出现一波新东西，类似当年云计算降价后的 SaaS 浪潮

九、写在最后

DeepSeek 把限时变永久这一刀，刀刃落在一个微妙的位置：它让“用得起 LLM”这件事，从开发者的乐观假设，变成了一个可以写进合同的常量。

我自己博客左侧栏那个 AI 每日金句卡片用的就是 DeepSeek V4-Flash，平均一次调用 100 tokens 左右，配合 Cloudflare 边缘缓存一天只触发一次实际调用——一年下来 API 成本不到 0.5 元。

如今，价格不再是借口，剩下的限制只剩想象力和执行力。

降价从来不是终点。终点是当 AI 成本压低到忽略不计时，谁能率先长出第一批真正离不开 LLM 的应用。

参考资料：

DeepSeek 官方定价文档（中文）

Hermes Agent 评测：一款能自我进化的开源 AI 智能体

2026-05-22T07:49:06.000Z

Hermes Agent 是 Nous Research 在 2026 年初开源的 AI 智能体框架，仓库上线后短时间内 GitHub 星标突破 30K。它的卖点是“自我进化”—— 不止有记忆，还能从执行任务的过程中自动生成可复用技能。本文综合多家评测和官方文档，对项目做一次客观梳理。

一、定位

Hermes Agent 的核心定位与主流 Agent 工具差异明显：

类型	代表	形态
IDE Copilot	Cursor / Cline / Aider	嵌入编辑器，按代码上下文补全
通用对话助手	ChatGPT / Claude Desktop	浏览器/桌面应用，单次会话
常驻自托管 Agent	Hermes / OpenClaw	后台长期运行，持续学习

它和 Cursor 这类工具不在同一个赛道。更准确的对照是 OpenClaw —— 同样主打“自托管 + 持久化”的个人 AI Agent。

二、核心机制：自我进化

不同于“对话即遗忘”的传统 Agent，Hermes 围绕可复用过程性知识构建：

SOUL.md：定义 Agent 的人格和角色边界
MEMORY.md / USER.md：长期事实型记忆，记录用户画像和关键事实
Skills（技能）：将成功完成的任务流程自动沉淀为可调用脚本
FTS5 全文检索：基于 SQLite 的会话历史检索，配合 LLM 摘要做跨会话回忆
Honcho 用户建模：持续迭代对用户偏好和习惯的理解

TuringPost 的评测把这套设计称为“过程性记忆（procedural memory）”—— Agent 记住的不只是事实，还有方法论。Substack 的 mlearning 评测中提到一个有意思的数字：

在评测中，Agent 在两小时内自主生成了三个 skill 文档，再次执行类似任务时速度比首次快约 40%，全程没有人工调整提示词。

这是 Hermes 与“加了向量数据库的普通 Agent”之间最关键的差异。

三、模型支持

Hermes 是**模型无关（model-agnostic）**的运行时，可以自由切换底层 LLM。截至 2026 年 5 月支持的主流来源：

Nous Portal（官方）
OpenRouter：聚合 200+ 模型
NovitaAI：模型 API + Agent Sandbox + GPU Cloud
NVIDIA NIM：Nemotron 系列
国内主流：智谱 GLM-4.6、Kimi K2、MiniMax-M2、小米 MiMo
国外主流：OpenAI（GPT-5 / o3）、Anthropic（Claude Sonnet 4.5 / Opus 4.7）
本地推理：HuggingFace TGI / Ollama / 任意 OpenAI 兼容端点

切换模型仅需一条命令：

1	hermes model

不需要改代码、不需要改配置文件，对避免厂商锁定很有意义。

四、运行时与部署

Agent 运行后端共 7 种：

后端	适用场景
本地（Local）	开发测试
Docker	容器化隔离
SSH	远程服务器
Singularity	HPC 集群
Modal	Serverless（休眠/唤醒）
Daytona	Serverless
Vercel Sandbox	边缘计算

其中 Modal 和 Daytona 的 Serverless 模式是亮点：Agent 在闲置时自动休眠，按需唤醒，长期运行成本接近零。这让“在 5 美元/月的 VPS 上常驻”和“按调用量付费”都成为可行选项。

五、多平台接入

Hermes 通过统一 Gateway 接入多个对话入口：

Telegram
Discord
Slack
WhatsApp
Signal
CLI（终端）

支持语音备忘录自动转写。社区扩展 HermesClaw 可同时桥接微信。

六、性能数据（参考第三方评测）

JustOborn 的对比测试（2026-05）数据如下：

任务平均耗时（多步任务）：
  HERMES Agent       3.2 分钟
  Claude Code Agent  4.3 分钟（慢 34%）
  ChatGPT Agents     4.9 分钟（慢 53%）
  AutoGPT            7.2 分钟（慢 125%）

任务完成率：
  HERMES   89%（声称 92%）
  Claude   74%
  ChatGPT  68%

成本对比（1000 任务/月，每任务 8 次 LLM 调用）：

方案	月费	单任务成本
HERMES（混合 GPT-4 + GPT-3.5）	$32.5	$0.033
ChatGPT Agents（全 GPT-4 Turbo）	$80	$0.08
Claude Code（全 Claude Sonnet）	$120	$0.12

数据来源不同测试场景，仅作参考。Hermes 的成本优势主要来自多模型混合调度 —— 简单任务派给便宜的小模型，复杂任务调用强模型。

七、自动化与并行

Cron 定时任务：用自然语言描述周期性任务，自动投递到任意平台
子 Agent 并行：主 Agent 可派遣隔离的 subagent 处理并发任务，多步流水线压缩为单次调用
MCP 工具协议：原生支持 Model Context Protocol，可接入任何 MCP 工具

八、安装

官方一键脚本：

# Linux / macOS / WSL2 / Termux
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

# Windows 原生（早期 Beta）
iex (irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1)

源码方式：

git clone https://github.com/NousResearch/hermes-agent.git
cd hermes-agent
./setup-hermes.sh
./hermes

中国大陆环境需要注意：安装脚本依赖 astral.sh、PyPI 和 GitHub，建议提前配置代理或镜像源（PyPI 清华源、npmmirror 等）。

九、与 OpenClaw 对比

TuringPost 把 Hermes 和 OpenClaw 做了系统对比，结论是两者哲学不同：

维度	Hermes Agent	OpenClaw
核心理念	自我进化、长期复利	控制平面优先、人工编排
技能来源	自动从经验生成	人工编写
默认安全	用户授权、审批检查、隔离	文件级身份、显式记忆
适用场景	长期常驻、累积学习	工作区助手、强人工控制

简单说：想要“放养”型自学习 Agent 选 Hermes，想要“圈养”型可控助手选 OpenClaw。

十、局限与风险

各家评测中较一致的几个问题：

学习曲线陡：SOUL.md / MEMORY.md / Skills / Hooks / Cron 等概念多，初次配置 45-90 分钟（JustOborn 数据）
生成的 skill 良莠不齐：自动沉淀的技能需要定期审查清理，否则会积累噪音
多模型切换的上下文一致性：跨模型切换时偶发记忆丢失，社区 issue 中有讨论
Windows 原生支持仍在 Beta：建议优先使用 WSL2
国内网络问题：安装阶段对代理依赖较强
资源占用：长时间运行内存占用约 1GB+，1G 内存的小机器需谨慎

十一、适合的使用场景

综合评测，Hermes Agent 较适合：

已有稳定 AI 工作流、希望“自动化 + 长期记忆”的开发者
对厂商锁定有顾虑、希望灵活切换模型的团队
需要常驻型 Agent（定时任务、跨平台、多入口）的场景
看重开源、可审计、可定制的研究人员

不太适合：

寻求“开箱即用、零配置”的轻度用户
偶尔使用 AI、对话量小的场景（无法触发学习闭环）
没有自托管能力或运维经验的用户

十二、总结

相关链接：

项目地址：github.com/NousResearch/hermes-agent
自我进化扩展：hermes-agent-self-evolution（用 DSPy + GEPA 优化技能与提示词）
官方文档：hermes-agent.nousresearch.com
社区中文文档：mudrii/hermes-agent-docs

Hermes Agent 在“自我进化”这个方向上做出了和 IDE Copilot 完全不同的回答 —— AI Agent 的终态可能不是嵌入式插件，而是一个长期常驻、跨平台、自学习的助理。

它的成本优势、模型无关性、过程性记忆设计都很有技术亮点，但学习曲线和运维门槛意味着它不是给所有人的工具。对于希望深度集成 AI 到日常工作的开发者，值得评测一轮再决定是否长期投入。

Hexo 博客部署指南：从 GitHub Pages 到 Cloudflare Pages

2026-05-21T01:30:00.000Z

记录一下本站的部署方案演进：从最初的 GitHub Pages 到现在的 Cloudflare Pages，解决国内访问慢的问题。

为什么要换部署方案？

GitHub Pages 虽然免费好用，但有一个致命问题：国内访问太慢了。经常打开一个页面要等好几秒，体验很差。

尝试过的方案：

Gitee Pages：免费版已关闭
Vercel：vercel.app 域名在国内部分地区被墙
Cloudflare Pages：免费、国内能访问、自动部署 ✅

部署架构

1	本地写文章 → git push → GitHub 仓库（源码）→ Cloudflare Pages 自动构建 → 全球 CDN

同时保留 GitHub Pages 作为备用：

1	本地 hexo deploy → GitHub Pages（编译产物）

Cloudflare Pages 部署步骤

1. 准备源码仓库

把 Hexo 博客源码推到 GitHub：

cd blog
git init
git add .
git commit -m "blog source"
git remote add origin https://github.com/你的用户名/blog-source.git
git push -u origin main

.gitignore 需要排除这些：

node_modules/
public/
.deploy*/
db.json

2. 创建 Cloudflare Pages 项目

登录 Cloudflare Dashboard
左侧 Workers & Pages → Create → Pages → Import an existing Git repository
授权 GitHub，选择源码仓库
构建设置：
- Build command: npx hexo generate
- Build output directory: public
- 环境变量: NODE_VERSION = 20
点击 Deploy

3. 等待构建完成

大约 30 秒就能构建完成，Cloudflare 会分配一个 xxx.pages.dev 的域名。

日常发文流程

以前需要 hexo clean + generate + deploy 三连，现在只需要：

# 写文章
npx hexo new "文章标题"

# 推送源码，自动部署
git add .
git commit -m "新文章"
git push

推完代码 Cloudflare 自动构建，1 分钟内上线。

对比总结

方案	国内速度	自动部署	免费	需要域名
GitHub Pages	慢	需手动 hexo deploy	✅	❌
Cloudflare Pages	较快	✅ git push 即部署	✅	❌

小贴士

两个平台可以同时用，互为备份
Cloudflare Pages 每月 500 次构建，个人博客完全够用
如果有自定义域名，可以在 Cloudflare 绑定，速度更快
构建失败大概率是 Node 版本问题，确保 NODE_VERSION >= 20

希望这篇文章能帮到同样被 GitHub Pages 速度困扰的同学。

博客开张：记录我的技术成长之路

2026-05-20T10:00:00.000Z

这是 Seven’s Blog 的第一篇文章，很早就部署了，但一直没有发布内容。

你好，世界！

为什么要写博客？

整理思路 — 写作是最好的学习方式，把知识输出一遍才能真正内化
记录成长 — 回头看自己走过的路，会发现进步比想象中大
分享交流 — 也许我踩过的坑能帮到其他人

这里会写什么？

🤖 AI 相关的学习笔记
💻 技术实践（Python、Java、前端开发）
📝 日常碎碎念和游记

技术栈

本博客使用 Hexo 搭建，主题为 Redefine，部署在 GitHub Pages 上。

整个搭建过程非常简单：

npm install -g hexo-cli
hexo init blog
cd blog
npm install hexo-theme-redefine
hexo deploy

几分钟就能拥有一个漂亮的个人博客，推荐给所有想写博客的同学。

感谢你的到来，希望这里的内容对你有所帮助。🎉