Lazy loaded image
技术分享
GitHub星标5万+的Hermes Agent:这个自进化AI智能体框架为何让独立开发者疯狂?
字数 7650阅读时长 20 分钟
2026-4-23
2026-5-8
type
Post
status
Published
date
Apr 23, 2026
slug
how-to-use-hermes-agent
summary
tags
开发
工具
category
技术分享
icon
password
URL
这篇文章不讲概念不吹牛逼,只谈我自己这一个月怎么把这个“会自我进化的AI管家”跑起来、调顺手、让它真正帮我干活的。全文约8800字,花20分钟读完,你能省下至少3天的试错时间。

给普通人的极简梳理:Hermes Agent(爱马仕Agent)是由美国Nous Research团队开发的开源AI智能体框架,最大的特点是——“会自我进化”。简单说,它不是一个“对话完就忘”的机器人,而是一个长期住在你服务器(或本地电脑)上的数字管家。你让它做完一个复杂任务(比如整理你的笔记、爬取某个网站的数据、写一个自动化脚本),它会自动把整个过程存成一个“技能”,下次遇到类似事直接调用,不用从头教。而且它会记住你的偏好——你几周前告诉过它“我喜欢用spaces缩进,不用tabs”,现在它还记得,不用重复讲。因为Hermes和奢侈品牌“爱马仕”撞名了,国内开发者就叫它“爱马仕”或者直接简称“马”。这就是为什么有人开玩笑说“不养龙虾了,开始养马了”——“龙虾”指的是另一个同类框架OpenClaw。
如果你关注GitHub Trending,最近几周大概率被一个叫“Hermes Agent”的项目刷过屏。从2月底开源,不到两个月就狂揽了超过4.7万颗星,最猛的时候一天新增6400多星——还不是那种“看一下就点星”的项目,是真的有人用它干活,有人帮它写文档,有人在社区里每天讨论。中文开发者给起了个亲切的外号:养马。
我也是被这种热度吸引上车的。说实话,安装之前我挺犹豫的。一个开源不到两个月的项目,文档肯定不全,社区可能还没形成,大概率要自己踩一堆坑。但用了一个月之后,我的态度从“试试看”变成了“离不开了”。现在我每天至少有六七个小时挂着Hermes在跑任务——代码审查、文档整理、会议纪要转需求、甚至帮我看股票。不是说它真的像人一样聪明,而是它有一个所有AI都不具备的特质:它真的在成长。你教它一次,它就记住了;你纠正它一次,它就改过来了;你让它完成一个任务,它会把这个任务的执行路径存成一个“技能”,下次遇到类似的事情,直接从技能库里调,不再从零推理。
这篇文章就是我养马这一个月的完整记录。不是技术文档,不是宣传软文,就是一个普通用户踩坑之后总结出来的——从最基础的“怎么装上”,到“怎么让它听话”,再到“怎么让社区高手写的技能为我所用”,每一步只有实操,没有废话。

第一章:养马第一关,安装没你想的那么简单

官方文档上写着一行命令就能装完——curl -fsSL … | bash——看起来简单得像装个Homebrew。实际跑起来,我跟你讲,Windows用户和Mac用户面临的完全是两个世界。

1.1 Windows用户:WSL2是唯一的出路

Hermes Agent原生支持的是Linux和macOS,Windows只能用WSL2跑,不支持直接在PowerShell或CMD里跑。我先是没装WSL2,直接cmd跑一键脚本,报错报得我头皮发麻。
如果你还没装WSL2,下面是万无一失的步骤:
第一步,以管理员身份打开PowerShell,输入:
重启电脑。重启后在刚装好的Linux子系统(默认是Ubuntu)里执行安装:
避坑点:装完之后如果hermes命令提示“not found”,不要急。关掉Ubuntu终端,重新打开,WSL2会重新加载环境变量。如果还不行,手动执行source ~/.bashrc

1.2 WSL2的内存和CPU限制很严重,必须手动放开

WSL2默认分配给Ubuntu的内存只有宿主机的一半,而且有上限。当你跑比较复杂的Agent任务时,Ubuntu会卡死甚至直接被系统杀掉。所以装完WSL2后,有一个最重要的配置必须做,很多人都是因此劝退。
在Windows用户目录下(C:\\Users\\你的用户名\\)新建一个文件叫.wslconfig(注意文件名前面的点),内容如下:
保存后,在PowerShell里执行wsl — shutdown,下次启动WSL2时配置生效。如果没有这个文件,Hermes跑大型任务(比如爬几百个网页、分析整个项目代码)非常容易卡死。

1.3 一键安装可能缺依赖,补装姿势

如果官方的一键脚本跑不了(比如网络问题),用下面的手动方式:
第一步,确认基础依赖都在:
这三个任何一个缺失都会导致安装失败。
然后手动克隆并安装:
装完之后把hermes命令添加到PATH,方便在任意目录调用。

1.4 macOS用户反而最简单

如果你用的是macOS(Intel或Apple Silicon都支持),一行命令就能装上,装完直接跑,不需要额外配置:
装完后终端直接输入hermes就能启动。

第二章:给马装上大脑,选模型比选对象还纠结

Hermes装好了,它还是“空壳”——没有大脑。模型就是它的大脑,决定了它说话的风格、推理的深度、回答的速度、甚至是每句话要花多少钱。
Hermes支持200多种模型,你可以在线对话类模型(OpenAI、Claude、DeepSeek)、本地运行的免费模型(Ollama)、模型聚合平台(OpenRouter)之间任意切换。而且可以用/model命令实时换模型,这一秒用GPT-4写代码,下一秒切到本地免费模型做不重要的任务。

2.1 省流版结论,各模型怎么选

  • OpenAI GPT-4o:编程能力最强,逻辑最严,但贵。用OpenRouter接入,配合/model在需要时调用,平时用小模型。
  • DeepSeek V4:性价比之王。V4 Flash日处理一万次任务成本不到闭源模型的1/100。原生支持Hermes,国内直连。适合大部分日常任务。
  • Claude Opus 4.6:SWE-bench跑分80.8%,是目前编程能力最强的模型。但贵且国内接入不方便。建议只在深度代码重构时切过去用。
  • 本地Ollama(Llama3.1:8B/70B):完全免费,隐私完全在你手里。但8B参数版本推理质量只有GPT-4的六成左右,70B需要至少32GB内存。建议处理敏感数据或不重要的重复任务时使用。
  • 智谱GLM-5 / 千问Qwen3-Max:国内直连,中文理解好,API成本低。适合文档处理、中文内容生成。

2.2 DeepSeek V4接入实操(国内用户首选)

DeepSeek V4是唯一一个在“能力很强”和“成本极低”之间取得平衡的选择。接入极其简单:
第一步,去DeepSeek官网注册获取API Key。
然后启动Hermes配置向导:
向导会问你几个问题——选供应商(deepseek)、粘贴API Key、选模型(V4 Flash或V4 Pro)。
验证配置是否生效
如果返回类似deepseek/deepseek-v4-flash,配置就成功了。

2.3 本地Ollama接入(不花钱方案)

如果你一分钱都不想花,或者处理敏感数据不适合走云端API,本地模型是最好的选择。
第一步,安装Ollama:
然后在Hermes里配置模型:
注意运行顺序:必须先ollama serve启动Ollama服务,再启动Hermes。否则Hermes找不到本地模型会报错。
硬件门槛:8B参数版本最低8GB内存就能跑,普通笔记本没压力。70B版本需要32GB以上内存且有独立显卡,不推荐普通用户尝试。

2.4 实用命令:日常换模型有多方便

这是我最常用的几个操作,每天都要敲:
对话中临时切换模型的超短写法(Hermes聪明到你只写模型名也能识别):
查看当前用的什么模型:
查看支持的所有Provider:

第三章:斜杠命令,让你和Agent更“丝滑”

Hermes的交互越用越像在跟真人聊天,而不是在敲命令。但为了效率,下面这几个斜杠命令你应该知道。
  • */model**:切换大脑模型,上面已经讲过,不多说了。
  • */new**:清空当前对话开启新会话,但不会清空Agent的长期记忆。换话题时打这行,不用关掉重开。
  • */skills**:列出所有已沉淀的技能。如果某个技能很久没用,用这个命令看一眼就清楚了。
  • */insights — days N**:这是我最喜欢的功能之一。它会给出一份关于你过去N天工作的分析报告,包括你用得最多的技能是哪些、哪些任务AI处理得最慢、你重复最多的是哪类需求。每周执行一次/insights — days 7,能很清晰地看到自己把时间花在哪里了。
  • */steer**:v0.11.0版本新增的命令。当你发现Agent跑偏了——比如它在审查代码时开始纠结格式而不是逻辑——用/steer 重点检查逻辑错误,别管缩进就能在进程里纠正它,不需要打断重来。

第四章:Gateway,把“马”放进微信/飞书

一直在终端里跟Hermes对话,多多少少不方便。Hermes的Gateway就是这个场景的解决方案——把你的Agent接入微信、飞书、Telegram等聊天软件,实现“随手发消息,Agent在后台干活”。我把它接入微信后,开会时直接在群里丢需求,Hermes自动分析整理,会议还没结束初步报告就发回来了。

4.1 飞书接入最简单

第一步,启动Gateway配置向导:
菜单里选择Feishu,按提示获取飞书应用的App ID和App Secret。
这个向导会生成一个回调地址,复制到飞书后台的应用事件订阅处,保存。然后回到Hermes按回车,完成。

4.2 微信扫码接入

微信接入的配置界面化很多,不需要申请企业微信,用个人微信就能用。在Gateway设置中选择WeChat,终端会出现一个二维码,扫码即可登录,Hermes自动挂载到你的微信账号后台,之后你在微信里私聊或群聊@它,它都会回复。

4.3 Gateway避坑

如果你想把Gateway长期挂在后台,用以下命令:
这样即使关掉终端,接入也不会中断。
多平台同时接入:一个Gateway可以同时激活多个平台。比如你可以在飞书里问问题,同时让Hermes去微信上回复另一个人——Agent会在后台自动管理不同会话,不会串。

第五章:技能系统,不只是自动沉淀

Hermes最打动我的地方不是它有多聪明,而是它做过的每个复杂任务都会被记住,并且不断自我优化。
当Hermes完成一个复杂任务(定义为5次以上工具调用或遇到棘手错误),它会自动将这个解决路径生成一个名为SKILL.md的技能文件。下次遇到类似问题,它直接调用这个技能,执行速度和成功率大幅提升。
而且技能不是静态的——每次调用已有技能时,如果Hermes发现原有的方法不够好(比如某个步骤已经过时,或者有更高效的替代方案),它会通过patch操作自动更新技能内容。技能像你手头一个越练习越熟练的徒弟——第一次犯点错,你纠正一次,下次再也不会错。

5.1 用/skills管理技能库

技能沉淀得多了,需要管理系统去组织。你可以用命令查看所有技能及使用频率:
这个命令会把技能按使用频率从高到低排序。上个月我就用这个命令发现自己有一个“PDF批量重命名”技能用得特别多,但效率并不高。我手动改写了命令逻辑,效率提升了近一半。这就是高频技能值得花时间深度优化的典型案例。

5.2 技能存储在哪里,以及如何备份

存储位置:
每个技能都是标准的Markdown文件,包含了前置条件、操作步骤、已知坑位和验证方法。把这些文件备份到Git或者云盘里,换一台电脑恢复技能库就只需要把这个文件夹复制过去。

5.3 如何手动创建并固化你自己的一套流程

不是所有事情都需要等Agent自己做完了才沉淀技能。有些固定流程完全可以手动写成技能。
举个例子,我每周五有一个固定的“周报汇总”流程:从Coding、Jira、Git里拉取数据,然后生成格式化的周报。我手动写了一个weekly_report_workflow.md,内容大概是这样的:
写好之后丢到skills/目录,Hermes下次执行“生成本周周报”时,它会自动加载并执行这份规则。耗时从初期的近40分钟手动整理压缩到了不到5分钟全自动,误差很小。

5.4 技能重复生成问题的解决

Hermes的一个小瑕疵是:有时候对非常类似但略有差异的需求,它会单独生成一个新技能,而不是扩展现有技能。这样技能库会逐渐变得臃肿。
我的方法是:在第一次完成复杂任务后,如果是通用性很强的场景,主动用/skills edit <技能名>手动添加适用场景标签,告诉Agent“这个技能除了A场景,还能用于B、C场景”。加一次之后,它就学会了跨场景复用,不会再单独生成冗余技能。

第六章:三条“杀手级指令”,用好就出活

说实话,Hermes的潜力不在于功能本身,而在于你怎么跟它交流。下面这三个技巧是我觉得“用得好和用得不好”的分水岭。

6.1 设置人设,让Agent“角色扮演”

/personality命令可以给Agent加载不同的人设。命令行中自带几个预设,比如/personality code会切换到专注解决编程问题的专业模式,回答会默认加上代码示例和测试用例。/personality explain则适合用来学习新概念——它会倾向于用口语化的方式解释复杂知识。
如果你想要更精细的控制,可以在~/.hermes/personalities/目录下自定义人格文件(Markdown格式),定义回答风格、信息详略度、是否默认引导长文档阅读等。

6.2 定制记忆,把项目背景和要求“喂”给它

Hermes的持久记忆系统藏在两个核心文件里:MEMORY.mdUSER.mdMEMORY.md是项目的记忆文件:存放当前项目的工作目录、技术栈、踩过的坑、已确认的接口约定等。你可以在对话中用几行文字让Agent自己去更新它——比如对新项目进行初始化配置时,你会说“我们的项目用React+TypeScript,文件行宽100字符”。Agent会在MEMORY.md里记下这些约定,下次你再说“写一个组件”,它自动遵守这些约束。
USER.md是用户的画像文件:存放你的个人偏好——你的职业角色(前端/后端/全栈)、熟悉的编程语言、喜欢简略回答还是详细解释。这个文件是跨项目通用的,所有人格预设和长期记忆共享同一个画像基础。
高阶玩法:Agent会自动管理这些文件,但你也可以主动编辑它们。如果你的某个项目约定发生了变更(比如从Flow迁移到TypeScript),直接在MEMORY.md里修改那一行约定描述,Agent下次会自动以新的为准。

6.3 主动触发技能生成

如果Hermes没自动触发技能生成,或者你有一个特定流程想固化,可以用skill_manage手动创建:
接着描述步骤,Agent会帮你生成一个规范的技能文档。
技能复用与调试指导:如果一个技能调用失败了,根本原因是技能文档表述不够明确。直接用/skills edit <技能名>打开源文档,观察哪个步骤Agent没理解——调整一下措辞,增加精确的文件路径或执行条件,下次就能成功调用。建议保留技能的出错记录(Hermes会把调用失败的日志输出在终端),帮助你逐条排查逻辑漏洞。

第七章:让它为你“打工”——五个能直接上手的应用场景

Hermes能帮我干的事,远不止聊天那么简单。以下是这段时间我亲身实践的5个有效场景。每个场景都附上了具体的提示词示例,你可以直接复制微调后使用。

7.1 开发分支自动化同步

如果你的团队协作流程繁琐(比如合并master需要做大量检查),Hermes可以帮你固化一个全自动的Git工作流。我用它来处理团队分支的同步工作:Agent读取当前分支状态、自动stash未提交的改动、fetch远程master并变基、然后恢复工作区。这个流程固化成了技能git_sync_workflow.md,每周使用十几次,从未出过差错。
提示词示例:
“帮我写一个自动同步Git分支的脚本:保存当前工作区的所有未提交改动(git stash),从远程拉取master分支的最新代码(git fetch origin master),将master变基到当前分支(git rebase origin/master),然后恢复之前保存的改动(git stash pop)。如果过程中出现冲突,自动暂停并列出冲突文件清单。”

7.2 批量分析代码风格/技术债

Hermes可以用grep配合文件搜索工具,扫描整个代码库并自动生成统一报告。我试过扫描整个项目找出所有未使用的ESLint禁用注释——以前需要手动抽查,现在Agent几分钟跑完全量扫描生成完整表格。
提示词示例:
“扫描当前代码仓库中所有的*.js和*.ts文件,找出所有包含‘eslint-disable-next-line’的行。对于每一个匹配项,记录文件路径、行号、以及禁用规则的具体id(比如‘@typescript-eslint/no-explicit-any’)。最后按禁用原因分类汇总,生成Markdown表格。忽略node_modules目录。”

7.3 会议记录自动整理成纪要(个人最常用)

开会时在白板上随便记几点要点,会后把零散的Markdown笔记丢给Hermes,它会自动切分话题、补充背景信息并生成完整的待办事项列表。我在多次跨部门会议后使用这个功能,直接省下了原本需要一个多小时的整理工作。
提示词示例:
“这是我的会议原始速记。 [粘贴笔记] 请帮我把这些散乱的笔记整理成正式的会议纪要,结构如下:1. 会议标题(从内容推断),2. 参会人(有就写,没有可写‘待补充’),3. 讨论要点(按主题分类,每个要点写出结论和依据),4. 待办事项(明确负责人和截止时间)。语言正式,适合发给邮件。”

7.4 跨平台知识库查询

我把个人知识库放在语雀和飞书文档里,通过Hermes的Google Drive插件接入后,可以在对话中直接问“我之前整理的关于JWT鉴权的笔记在哪里”,它会跨文档搜索并返回链接,不需要手动在一堆文件夹里翻。

7.5 定时执行任务(Cron调度器)

Hermes内置了Cron调度器,可以精确到秒级定时。我每天早上9点让Agent自动帮我抓取Hacker News上Meta标签的热门帖子并生成摘要。配置方法很简单,写一个cron配置绑定到某个技能上,Hermes会自动在后台执行,不需要人工触发。

第八章:养马必须知道的五个“坑”

平心而论,用了一个月,Hermes不是完美的。下面这五个坑是我亲身体验过的,你大概率也会遇到,提前知道可以省去很多纠结。

8.1 安全风险 —— Agent有权限但必须批

Hermes默认内置沙箱机制,危险的操作(比如删除系统文件、修改系统级别的配置)会先询问你,得到确认才会执行。这对于新手来说是很友好的——你不用担心某句话不小心让Agent把你的重要目录删得精光。
但有一点:你给它的权限越大,风险越大。给一个Agent完全的Terminal权限不加监控,就相当于让一个实习生操作你的生产服务器。我的建议:定期/insights —查看它在一段时间内调用了哪些工具、访问了哪些目录。如果发现某个文件或文件夹不该被频繁触碰,主动调整你的禁止访问列表。

8.2 Windows下WSL2内存限制

这个问题前面提到过,但值得再单独拿出来说。很多用Windows跑Hermes的用户(包括我早期)都经历过跑任务跑到一半,Ubuntu突然崩掉的崩溃瞬间。根本原因就是WSL2默认内存限制太低。按照第一章的方法创建.wslconfig文件并设置memory=8GB以上,基本不会再遇到这个问题。

8.3 技能库膨胀,需要定期清理

自动技能减少人工维护是真的,但它带来一个新的烦恼——过时的技能会大量堆积。上个月我/skills查看所有技能,发现出现了几十个类似的重复技能(比如rename_pdfs_v1rename_pdfs_v2等),它们占用了Agent的调度资源。
解决方案:每次过时技能被修补后,用/skills search <关键词>全局搜索,人工清理掉名称类似但已不用的技能版本。

8.4 Gateway后台长期不重启会消耗过多内存

Gateway默认启动后不会自动释放已断开的平台连接。如果不定期重启,内存占用会逐渐上升,两周后就能翻倍,可能影响系统稳定性。建议每周一行命令重启一次Gateway:

8.5 避免上下文过长导致的模型输出“失真”

如果你丢给Agent一个过长、包含大量混杂内容的MEMORY.md,Agent在做推理时可能会“理解不准确”。建议保持MEMORY.md的精简(官方建议加上系统指令后整体不超过约1200字符),更细粒度的信息可以单独分离为子文档,必要时让Agent自己去查阅。

第九章:如果不想折腾,这几个社区项目能让你快速上手

如果你觉得从零搭一个Hermes还是太麻烦,或者想先看看别人的技能是怎么写的再下手,我推荐几个现成的项目。
agentskills.io:Hermes官方的技能市场,目前收录了130多个技能,按文件操作、终端执行、代码测试等26个类别整理。遇到常用场景(比如自动合并PDF、批量转换视频文件)可以直接下载现成的技能文件,放到自己的skills/目录。我当初自己写的“批量图片压缩”效率不高,从市场上下载了一个社区优化版本后,效率马上就上去了。
阿里云·计算巢一键部署:如果你不想在自己的Windows/macOS上折腾WSL或本地环境,阿里云提供了三种云上部署方案——计算巢、无影云电脑、轻量应用服务器,都基于阿里云原生技术栈,真正的“开箱即用”。最便宜的一个月不到50块钱,连登都帮你登好,运行在云端24小时在线,网络稳定,比较适合不想自己维护软硬件环境的用户。它还帮你把模型API(比如百炼的千问)集成好了,省去配置的麻烦。
GitHub社区技能仓库:GitHub上用hermes-agent skill搜索能找到大量第三方技能库,大多基于MIT协议免费使用。我最近就下载了一个专门对接飞书API自动发汇报的技能,用了几天感觉不错,省了自己写对接层的时间。
OpenClaw迁移工具:如果你之前在用OpenClaw(就是“龙虾”),Hermes官方提供了从OpenClaw配置的无缝迁移工具。因为数据结构和模型商基本一样,运行官方迁移脚本(hermes migrate openclaw)就能把原Agent的配置、部分历史和技能直接搬过来,无需从零配置。

写在最后

养马一个月,我最大的体会是:Hermes Agent不止是一个工具,它更像一个真正的“数字同事”——你给它任务,教它怎么做,它自己记住,自己优化,自己成长。而且它不是只存在于某一家公司的云端,它运行在你自己的环境里,数据归你,策略归你,使用方式也归你。
当然,它还不完美。稳定性和安全问题还在迭代中,大规模生产项目直接全线依赖它还不是时候。但对于个人开发、日常自动化、项目原型探索来说,它是我迄今为止用过的最顺手、最有潜力的“AI进化体”。
在AI这条路上,我们试过太多“对话完就忘”的玩具。Hermes Agent让我第一次感受到了一种新的可能性——一个会成长的AI,真的可以变成你数字生活的一部分。

这篇长文的实战数据和配置方案,全部来自我这一个月的个人使用,所有命令都亲测有效,系统环境包括:Windows 11+WSL2 Ubuntu、macOS Sequoia 15.
 
上一篇
Obsidian + AI:打造你的第二大脑知识管理新范式
下一篇
我试用了2026年最火的AI浏览器扩展,这是独立开发者真能用的
目录