当 AI Agent 有了温度:聊聊 OpenHanako 的设计哲学

当 AI Agent 有了温度:聊聊 OpenHanako 的设计哲学

Seven

市面上 AI Agent 的叙事,大多围绕“效率”和“自动化”展开——命令行里敲指令,模型跑完给你结果。OpenHanako 想讲一个不一样的故事:一个坐在你桌面上、记得你说过什么、有自己性格的 AI 助手

它的作者 liliMozi 是一位中国开发者,一人全职维护这个项目——从代码到设计到文档,一个人扛下了整个产品。这篇文章基于实际使用体验,聊聊这个项目的定位、核心机制、和同类产品的差异。

OpenHanako Logo

一、先说定位

OpenHanako 的核心卖点不是“比 Claude Code 更强”或“比 Manus 更自动”。它试图回答一个不同的问题:AI Agent 能不能像一个靠谱的同事一样,长期驻留在你的工作环境里?

放一张表看它和主流 Agent 的定位差异:

类型 代表 交互方式 目标用户 核心价值
IDE Copilot Cursor / Cline 嵌入编辑器 开发者 代码补全
CLI Agent Claude Code / Codex 终端命令行 开发者 任务执行
通用对话 ChatGPT / Claude Desktop 网页/App 所有人 单次问答
桌面常驻 Agent OpenHanako 桌面 GUI + 多平台 所有人 长期陪伴 + 主动行动

OpenHanako 的作者在 README 里写得很直白:“我本职也是一介文员,所以我也针对日常办公场景做了很多工具性和流程性的优化。” 这句话解释了它和 CLI-first 的 Agent 们为什么长得不一样——它从一开始就是为“不写代码的人”设计的。

OpenHanako 主界面

二、记忆系统:不是 RAG,是“时间的重量”

大部分 Agent 的记忆方案是向量数据库 + RAG:把对话 embed 进去,检索时按相似度捞。OpenHanako 用的是一套时间衰减记忆模型

  • 近期事件:高精度保留,细节清晰
  • 中期记忆:自动压缩编译,保留关键事实
  • 长期记忆:LLM 周期性编译,沉淀为结构化事实

这个设计的好处是“记忆有轻重缓急”。你昨天随口说的“明天要交报告”,Agent 记得清清楚楚;但三个月前的一次闲聊,它只保留核心结论,不会把每个细节都塞进上下文窗口浪费 token。

实际体验下来,记忆编译的质量取决于底层模型。用强模型(GPT-4o / Claude Sonnet)编译出来的记忆更准确,用小模型偶尔会丢失细节或产生幻觉。这是所有记忆系统的通病,不是 OpenHanako 独有的问题。

三、人格系统:每个 Agent 都是“一个人”

OpenHanako 的人格不是简单的 system prompt 加个名字。它有一套完整的人格模板 + 行为逻辑机制:

  • SOUL.md:定义 Agent 的核心性格、说话方式、价值观
  • 人格模板:预置多种风格(温柔、理性、幽默……),也可以自由创作
  • 行为逻辑:不只是“怎么说”,还影响“怎么做”——主动关心你的情绪、在合适的时候提醒你休息

这点在实际使用中感受很明显。传统 Agent 你问它答,你不问它就沉默。OpenHanako 的 Agent 会根据上下文主动发起对话——比如你连续工作三小时没休息,它可能会提醒你该起来活动了。

当然,这种“主动性”也需要调校。太主动会烦人,太被动又失去意义。作者在安全模型上做了平衡:主动行为需要通过审核,不会随便乱发消息。

四、多 Agent 协作:不只是一个助手,是一个团队

OpenHanako 支持创建多个 Agent,各自有独立的记忆、人格和技能。Agent 之间可以通过两种方式协作:

  • 频道群聊:多个 Agent 在同一个频道里讨论问题,类似 Slack 的群组
  • 任务委派:主 Agent 可以把子任务分配给其他 Agent,各自独立执行

这个设计让“分工”成为可能。比如你可以有一个专门负责写作的 Agent、一个负责数据分析的 Agent、一个负责日程管理的 Agent,它们各自擅长自己的领域,遇到跨领域问题时互相请教。

实际使用中,多 Agent 的协调成本不低——Agent 之间的对话可能会跑偏,需要人工干预。但这个方向是对的:单个 Agent 的能力有天花板,协作才能突破

五、工具与技能:不只是调 API

OpenHanako 的工具覆盖了日常办公的绝大多数场景:

工具类别 具体能力
文件操作 读写文件、浏览文件树、拖拽上传
终端 一次性命令、持续终端会话
浏览器 网页导航、截图、长截图、元素检查
媒体 图片/视频预览、SVG 查看、全屏查看器
网络 搜索引擎、网页抓取、API 调用
日程 定时任务(Cron)、心跳巡检

更值得关注的是技能系统。OpenHanako 兼容 Skills 社区生态,但做了一个有意思的优化:Agent 可以自己学习新技能。当它成功完成一个任务后,会自动把流程沉淀为可复用的技能文档,下次遇到类似任务直接调用。

这和 Hermes Agent 的“自我进化”理念相似,但 OpenHanako 的实现更偏向“人工审核 + 自动沉淀”的混合模式——技能需要通过安全审核才能正式启用,避免了“自动学习出错误技能”的风险。

Vision Bridge:让文本模型“看见”世界

有一个容易被忽略但非常聪明的设计:Vision Bridge。

DeepSeek V4 是一个纯文本模型(多模态版本据称已在测试中,但截至本文写作时尚未正式发布),本身不具备理解图片的能力。OpenHanako 的做法不是等模型升级,而是在架构层面做了一个适配层——当你向 Agent 发送图片时,系统自动调用一个独立配置的视觉模型(可以是 GPT-4o、Claude 等任意支持多模态的模型)来“翻译”图片内容为文字描述,再把这段描述作为上下文注入到对话中。对文本模型来说,它看到的就是一段“用户发了一张图,图里是什么”的自然语言描述,而不需要理解图片本身。

这个设计的巧劲在于不改造模型,只改造输入

  • 用户端无感。你直接拖图进去,Agent 就能“看懂”,不需要任何额外操作
  • 成本可控。视觉模型只被调用一次做图片翻译,后续多轮对话仍由廉价的文本模型处理,对 DeepSeek V4 这种低价模型的生态来说尤其适配
  • 模型无关。Vision Bridge 的视觉模型可以在设置页单独选择更换,不和对话模型绑定

说实话,这种“用工程手段弥合模型能力边界”的思路,比等着模型厂商发新版本务实得多。作者用几行适配代码解决了一个“文本模型就是文本模型”的硬限制,而且解得漂亮。她在抖音也分享过对 DeepSeek 的深度适配经验,感兴趣的可以看看:我给 DeepSeek 做了一套专属武装

六、安全沙盒:给 AI 划红线

Agent 能操作你的电脑,安全问题就是头等大事。OpenHanako 的安全设计是双层隔离

第一层:应用级 PathGuard(四级访问控制)

  • 只读访问系统普通文件
  • 写入和删除限制在工作目录与受控数据目录
  • 敏感操作需要用户确认

第二层:操作系统级沙盒

  • macOS:Seatbelt
  • Linux:Bubblewrap
  • Windows:restricted token

这意味着即使 Agent 的指令有误,它也无法突破沙盒去删除系统文件或访问不该访问的目录。在设置里还可以调整沙盒级别——从“严格”到“宽松”,根据你的信任程度选择。

七、多平台接入:同一个 Agent,随处对话

OpenHanako 通过 Bridge 机制,让同一个 Agent 可以同时接入:

  • Telegram
  • 飞书
  • QQ
  • 微信
  • CLI(终端)

你在电脑前和 Agent 对话,出门后用手机上的微信继续同一个话题,Agent 的记忆是连续的。这对“跨设备工作流”来说是刚需。

更实用的是移动端 PWA:通过手机访问 Hana Server,可以查看会话、继续聊天、管理工作台文件。不需要额外装 App,浏览器打开就能用。

八、技术架构速览

层级 技术
桌面端 Electron 38
前端 React 19 + Zustand 5 + CSS Modules
构建 Vite 7
服务端 Hono + @hono/node-server
Agent 运行时 Pi SDK
数据库 better-sqlite3(WAL 模式)
测试 Vitest
国际化 5 语言(中/英/日/韩/繁体)

Server 以独立 Node.js 进程运行(由 Electron spawn 或独立启动),与 Electron 渲染进程通过 WebSocket 通信。用户数据目录默认在 ~/.hanako,每个 Agent 是一个独立的文件夹,备份和迁移都很方便。

九、和同类产品对比

维度 OpenHanako Hermes Agent OpenClaw Claude Desktop
界面 桌面 GUI + 移动 PWA CLI + Telegram 桌面 GUI 桌面 App
目标用户 所有人 开发者 开发者 所有人
记忆方案 时间衰减 + LLM 编译 FTS5 + Honcho 显式记忆 会话内
技能来源 自动沉淀 + 人工审核 自动生成 人工编写 插件市场
沙盒 PathGuard + OS 级 用户授权 文件级身份 受限
模型支持 OpenAI / Anthropic / Ollama 等 模型无关 模型无关 仅 Claude
多 Agent 支持(频道 + 委派) 支持(子 Agent) 不支持 不支持
多平台 Telegram/飞书/QQ/微信 Telegram/Discord/Slack/WhatsApp
开源 Apache 2.0 Apache 2.0 开源 闭源

简单说:Hermes 适合想“放养”型自学习的开发者,OpenClaw 适合想“圈养”型可控助手的开发者,OpenHanako 适合想要“有温度的长期伙伴”的所有人

十、审美本身就是功能

聊完功能和技术,必须单独说一句视觉设计。这不是那种“界面好看就行”的凑字数段落——对 OpenHanako 来说,审美是功能性的。

一个软件如果长得丑,你永远不会和它建立情感连接。CLI 可以丑,因为终端的美学是效率;但一个自称“有温度的长期伙伴”的东西如果界面刺眼、排版混乱、配色廉价,它说自己有灵魂你是不会信的。OpenHanako 在这一点上做得很清醒。

配色与暗色模式

不是那种程序员自嗨的高饱和度赛博朋克风,也不是大厂 ToB 软件那种灰蒙蒙的“性冷淡”。OpenHanako 的配色偏向暖灰色调,大面积留白,重点色克制地用在交互焦点上,整体观感接近一款做得好的日系笔记 App。暗色模式不是简单的黑底白字——深色背景有微妙的暖灰渐变,文字层级清晰但不刺眼,长时间盯着窗口不会疲劳。

OpenHanako 主题设置

光是主题名字就能看出作者的审美自觉:暖纸、青夜、草香、沉思、素白——每个名字不是功能描述,而是一种情绪提示。你选的不是“深色背景”,你选的是“今晚想待在一个青色的夜里”。暗色模式可以叫高对比,但它偏叫“青夜·高对比”。这些命名背后有一个罕见的意识:界面的每一个字都在和用户对话,而 OpenHanako 选择说人话。

书桌:拟物而不俗气

每个 Agent 都有自己的书桌,可以在上面放文件、写笺(类似便签)。这个设计巧在两点:

  1. 空间隐喻做得很自然。你和 Agent 共享一张虚拟桌面,而不是一个聊天框。拖拽文件到书桌上,Agent 会感知到变化并主动读取——这个交互把“我给 AI 塞了个文件”翻译成了“我往桌上放了张纸条”,不需要学习任何新概念。
  2. 拟物但不土。很多国内软件的拟物设计要么过度(阴影到处都是、材质贴图堆满),要么生搬 iOS 那套磨砂玻璃。OpenHanako 的书桌保留了拟物的直觉(“这是桌子”),但视觉上做了扁平化处理——阴影只起到层级提示的作用,不抢注意力。

全屏媒体查看器:细节里的功力

这是个小功能,但能看出作者的审美直觉。聊天里或书桌上的任意图片、视频点开,是一层暗色遮罩的全屏预览,滚轮缩放、拖拽平移,左右箭头在同会话或同目录的相邻媒体间切换。关键不在功能本身(看图软件都有),在于动效的节奏:遮罩淡入不是生硬的出现,缩放有缓动,切换有过渡。这些不是“炫技”,是让每一次操作都感觉“被好好对待了”。

如果把同类产品拉出来对比就很明显:不少 CLI-first 的 Agent 功能强大到飞起,但界面就是几行纯文本配 ANSI 颜色码。不是它们不想好看,而是它们的目标用户不在乎——开发者要的是“快”,不是“舒服”。OpenHanako 选了另一条路:让非开发者也有打开它的欲望

一个容易被忽略的洞察

用户每天面对的不是一个模型、一组 API,而是一个界面。AI 本身没有形状,界面就是它的身体。OpenHanako 的设计语言不是在“美化一个工具”,而是在给 AI 一具让人愿意亲近的身体

选色、排版、间距、动效——这些在编码优先的项目里往往被压缩到最后一个 sprint 随便糊一下。但 OpenHanako 的 README 截图一放出来就能看出,作者对视觉是有要求的。这种要求不是设计师那种“像素级对齐”的执念,而是一种更简单的东西:希望你打开这个软件的时候,心情是好的

十一、局限与诚实的评价

用了这段时间,几个问题需要坦诚说:

  1. Windows 仍在 Beta:偶发的 UI 卡顿和内存占用偏高(常驻约 1GB+),小内存机器需要谨慎
  2. 模型依赖:记忆编译和技能沉淀的质量高度依赖底层模型,用弱模型效果会打折
  3. 学习成本:虽然比 CLI Agent 友好很多,但 SOUL.md / 技能 / 频道 / 桥接等概念仍然需要时间理解
  4. 社区生态:相比 Hermes 的 30K stars,OpenHanako 的社区还在早期(约 2500 stars),插件和技能资源相对少
  5. 主动性的边界:Agent 的“主动关心”目前还比较机械,距离真正的“懂你”还有距离

十二、谁适合用

适合:

  • 希望 AI 助手有“人格感”、不只是冷冰冰的工具
  • 日常办公场景多,需要跨平台(电脑 + 手机)连续对话
  • 想要一个能记住你说过什么、主动提醒你的长期伙伴
  • 对开源和数据隐私有要求

不太适合:

  • 只需要“问一句答一句”的轻度用户
  • 追求极致响应速度和最低资源占用
  • 没有耐心做初期配置和调校

十三、写在最后

OpenHanako 的作者在 README 里有一句话打动了我:“弥合绝大多数人和 AI Agent 之间的缝隙。”

这句话点出了一个被忽略的事实:当前 AI Agent 生态的最大鸿沟,不是技术能力,而是使用门槛。CLI-first 的 Agent 再强大,对不会写代码的人来说就是不存在的。OpenHanako 试图用 GUI、人格、记忆、多平台这些“非技术特性”,把 Agent 的能力翻译成所有人都能用的语言。

它目前还不完美——Beta 阶段的 Windows 版、还在成长的社区、需要调校的主动性——但它走的这条路,指向了一个值得期待的方向:AI 助手不只是效率工具,还可以是一个有温度的存在


相关链接:

  • 标题: 当 AI Agent 有了温度:聊聊 OpenHanako 的设计哲学
  • 作者: Seven
  • 创建于 : 2026-05-24 09:00:00
  • 更新于 : 2026-05-28 10:57:14
  • 链接: https://seven-blog.pages.dev/2026/05/24/OpenHanako-有温度的桌面AI助手/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。