给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

兄弟们，这周末我干了件特酷的事——在我那台在风岚云买的4核4G上跑通了 Hermes Agent，还用上了英伟达免费 API（就是那个一分钟只能调40次的）。本来以为会卡限流，结果调教一下完全够用。这篇纯属个人折腾记录，不整那些官方套话，你照着抄作业就行。

一、英伟达免费 API 是个啥？

英伟达给了个白嫖接口，注册就送每分钟40次调用，不限总量。支持的模型还挺猛：z-ai/glm5，moonshotai/kimi-k2.5等等。不用绑卡，不用梯子，直接国内访问。

Hermes Agent 接这个 API 的好处是：

一分钱不花
数据在自己服务器上
模型能力完全不输付费的

唯一的坎就是那一分钟 40 次的限制，后面我会说怎么让它不炸。

二、先去搞个英伟达 Key

打开浏览器，搜 build.nvidia.com，右上角登录。
没账号就注册，邮箱验证一下就行，不用绑卡。
登录后右上角个人菜单里能找到 API Key，点 Generate Key。
复制下来保存好，格式一般是 nvapi-xxxxx。

右上角会写清楚：Up to 40 rpm，说明免费额度到账了。

三、开装！一条命令搞定

先 SSH 连上你的 Linux 服务器（Ubuntu 22.04 最稳），然后执行：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

它会自己搞定 Python、依赖、路径这些杂事。中间要是卡住，可能是网络环境不行，这里我推荐用香港的云服务器。

装完刷新一下环境：

source ~/.bashrc

验证一下：

hermes --version

出来版本号就说明装上了。

四、把英伟达 API 怼进去

默认的配置向导里没有英伟达选项，得手动改配置文件。

1. 打开配置文件

它会在终端里用 nano 或者 vim 打开 ~/.hermes/config.yaml。

2. 找到 `model` 那一块，改成这样

model:
  default: "z-ai/glm5"
  provider: "custom"
  base_url: "https://integrate.api.nvidia.com/v1"
  api_key: "nvapi-你的密钥粘贴在这里"
  api_mode: "chat_completions"

注意：default 那里可以换成其他免费模型，比如：

moonshotai/kimi-k2.5 （长文本猛）
minimaxai/minimax-m2.5 （综合强）
z-ai/glm5 （推理好）

3. 顺便把限流防护加上

在同一文件里找到 agent 那一块（没有就自己加），加上重试和并发控制：

agent:
  max_retries: 3          # 超限了自动重试3次
  retry_delay: 2          # 每次重试等2秒
  max_concurrent_requests: 2   # 同时只发2个请求，别一下冲40次
  max_turns: 20           # 一次任务最多推理20轮，省调用次数

保存退出。

4. 切一下模型让配置生效

hermes model

选你刚配的那个，回车确认。

五、测一下通不通

hermes chat -q "讲个冷笑话"

有正常回复就稳了。如果报 RateLimitError: Too many requests，别慌，说明刚才的重试配置没生效或者那一分钟已经打满了，等几十秒再试。

六、让它跑起来！

1. 最基础：命令行聊天

hermes chat

然后你就可以像跟 ChatGPT 说话一样使唤它：

“帮我看下服务器内存还剩多少”
“写个 Python 脚本把 /tmp 下超过7天的文件删了”
“等下把刚才那段对话存成 txt”

它真会去执行命令、读文件，不是光动嘴。

2. 问完就跑

hermes chat -q "Python 快速排序怎么写"

3.接飞书/Telegram

跑一下配置：

hermes gateway setup

选你要的平台（飞书要 App ID 和 Secret，Telegram 要 Bot Token），照着提示填就行。填完重启 gateway：

sudo systemctl restart hermes-gateway

然后手机上给机器人发消息就能使唤了。

七、40次/分钟不够用咋办？

说实话，个人日常用完全够了，除非你让它同时开好几个任务狂跑。万一真超了：

自动重试已经开了（上面配置里的 max_retries），等几秒自己会续上。
降低并发：max_concurrent_requests: 1 设成单线程，稳如老狗。
换个模型试试：不同模型限流松紧好像不太一样，我用的 GLM-5 很少爆。
终极歪招：多注册俩英伟达账号，拿多个 Key，配置文件里写 provider 池轮换（这个高级玩法自己查文档）。

别嫌40次少，我用telegram每天用它查资料、写脚本、定闹钟，从来没见过限流报错。

好了，教程到这里就结束了！英伟达不会注册的小伙伴可以用我的密钥！

此处内容已隐藏，请付费后查看

没有心仪的服务器这里我推荐风岚云香港4-4一个月才20免备案（我自己用的就是）

下次见！

文章版权声明本网站名称：风の博客
本站永久网址：blog.fengl.cc
1 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系风の博客邮箱进行删除处理。
2 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
3 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
4 本站代码模板仅供学习交流使用请勿商业运营，严禁从事违法、侵权等任何非法活动，否则后果自负！

本站收集的资源仅供内部学习研究软件设计思想和原理使用，学习研究后请自觉删除，请勿传播，因未及时删除所造成的任何后果责任自负。本站禁止以任何形式发布或转载任何违法相关信息，若您发现请立即向站长举报；

如有版权内容，其版权均归原作者所有，本站虽力求保存原有版权信息，但因众多资源经多次转载，已无法确定其真实来源，故敬请原作者谅解！如果用于其他用途，请购买正版支持作者，谢谢！若您认为「风の博客」发布的内容若侵犯到您的权益，请联系站长邮箱：3919020966@qq.com 进行删除处理。

THE END

源码程序
# Hermes Agent # AI Agent部署 # Linux教程 # 英伟达免费API # 白嫖大模型 # 免费API

给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

一、英伟达免费 API 是个啥？

二、先去搞个英伟达 Key

三、开装！一条命令搞定

四、把英伟达 API 怼进去

1. 打开配置文件

2. 找到 `model` 那一块，改成这样

3. 顺便把限流防护加上

4. 切一下模型让配置生效

五、测一下通不通

六、让它跑起来！

1. 最基础：命令行聊天

2. 问完就跑

3.接飞书/Telegram

七、40次/分钟不够用咋办？

请登录后发表评论

网站信息统计

给 Linux服务器 装个 Hermes Agent，白嫖英伟达免费 API

给 Linux服务器 装个 Hermes Agent，白嫖英伟达免费 API

给 Linux服务器 装个 Hermes Agent，白嫖英伟达免费 API

一、英伟达免费 API 是个啥？

二、先去搞个英伟达 Key

三、开装！一条命令搞定

四、把英伟达 API 怼进去

1. 打开配置文件

2. 找到 model 那一块，改成这样

3. 顺便把限流防护加上

4. 切一下模型让配置生效

五、测一下通不通

六、让它跑起来！

1. 最基础：命令行聊天

2. 问完就跑

3.接飞书/Telegram

七、40次/分钟不够用咋办？

请登录后发表评论

网站信息统计

给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

给 Linux服务器装个 Hermes Agent，白嫖英伟达免费 API

2. 找到 `model` 那一块，改成这样