给 Linux服务器 装个 Hermes Agent,白嫖英伟达免费 API
兄弟们,这周末我干了件特酷的事——在我那台在风岚云买的4核4G上跑通了 Hermes Agent,还用上了英伟达免费 API(就是那个一分钟只能调40次的)。本来以为会卡限流,结果调教一下完全够用。这篇纯属个人折腾记录,不整那些官方套话,你照着抄作业就行。
一、英伟达免费 API 是个啥?
英伟达给了个白嫖接口,注册就送每分钟40次调用,不限总量。支持的模型还挺猛:z-ai/glm5,moonshotai/kimi-k2.5等等。不用绑卡,不用梯子,直接国内访问。
Hermes Agent 接这个 API 的好处是:
-
一分钱不花
-
数据在自己服务器上
-
模型能力完全不输付费的
唯一的坎就是那一分钟 40 次的限制,后面我会说怎么让它不炸。
二、先去搞个英伟达 Key
-
打开浏览器,搜
build.nvidia.com,右上角登录。 -
没账号就注册,邮箱验证一下就行,不用绑卡。
-
登录后右上角个人菜单里能找到 API Key,点
Generate Key。 -
复制下来保存好,格式一般是
nvapi-xxxxx。
右上角会写清楚:Up to 40 rpm,说明免费额度到账了。
三、开装!一条命令搞定
先 SSH 连上你的 Linux 服务器(Ubuntu 22.04 最稳),然后执行:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
它会自己搞定 Python、依赖、路径这些杂事。中间要是卡住,可能是网络环境不行,这里我推荐用香港的云服务器。
装完刷新一下环境:
source ~/.bashrc
验证一下:
hermes --version
出来版本号就说明装上了。
四、把英伟达 API 怼进去
默认的配置向导里没有英伟达选项,得手动改配置文件。
1. 打开配置文件
它会在终端里用 nano 或者 vim 打开 ~/.hermes/config.yaml。
2. 找到 model 那一块,改成这样
model:
default: "z-ai/glm5"
provider: "custom"
base_url: "https://integrate.api.nvidia.com/v1"
api_key: "nvapi-你的密钥粘贴在这里"
api_mode: "chat_completions"
注意:default 那里可以换成其他免费模型,比如:
-
moonshotai/kimi-k2.5(长文本猛) -
minimaxai/minimax-m2.5(综合强) -
z-ai/glm5(推理好)
3. 顺便把限流防护加上
在同一文件里找到 agent 那一块(没有就自己加),加上重试和并发控制:
agent:
max_retries: 3 # 超限了自动重试3次
retry_delay: 2 # 每次重试等2秒
max_concurrent_requests: 2 # 同时只发2个请求,别一下冲40次
max_turns: 20 # 一次任务最多推理20轮,省调用次数
保存退出。
4. 切一下模型让配置生效
hermes model
选你刚配的那个,回车确认。
五、测一下通不通
hermes chat -q "讲个冷笑话"
有正常回复就稳了。如果报 RateLimitError: Too many requests,别慌,说明刚才的重试配置没生效或者那一分钟已经打满了,等几十秒再试。
六、让它跑起来!
1. 最基础:命令行聊天
hermes chat
然后你就可以像跟 ChatGPT 说话一样使唤它:
-
“帮我看下服务器内存还剩多少”
-
“写个 Python 脚本把 /tmp 下超过7天的文件删了”
-
“等下把刚才那段对话存成 txt”
它真会去执行命令、读文件,不是光动嘴。
2. 问完就跑
hermes chat -q "Python 快速排序怎么写"
3.接飞书/Telegram
跑一下配置:
hermes gateway setup
选你要的平台(飞书要 App ID 和 Secret,Telegram 要 Bot Token),照着提示填就行。填完重启 gateway:
sudo systemctl restart hermes-gateway
然后手机上给机器人发消息就能使唤了。
七、40次/分钟不够用咋办?
说实话,个人日常用完全够了,除非你让它同时开好几个任务狂跑。万一真超了:
-
自动重试已经开了(上面配置里的
max_retries),等几秒自己会续上。 -
降低并发:
max_concurrent_requests: 1设成单线程,稳如老狗。 -
换个模型试试:不同模型限流松紧好像不太一样,我用的 GLM-5 很少爆。
-
终极歪招:多注册俩英伟达账号,拿多个 Key,配置文件里写 provider 池轮换(这个高级玩法自己查文档)。
别嫌40次少,我用telegram每天用它查资料、写脚本、定闹钟,从来没见过限流报错。
好了,教程到这里就结束了!英伟达不会注册的小伙伴可以用我的密钥!
没有心仪的服务器这里我推荐风岚云香港4-4一个月才20免备案(我自己用的就是)
下次见!
本站收集的资源仅供内部学习研究软件设计思想和原理使用,学习研究后请自觉删除,请勿传播,因未及时删除所造成的任何后果责任自负。本站禁止以任何形式发布或转载任何违法相关信息,若您发现请立即向站长举报;
如有版权内容,其版权均归原作者所有,本站虽力求保存原有版权信息,但因众多资源经多次转载,已无法确定其真实来源,故敬请原作者谅解!如果用于其他用途,请购买正版支持作者,谢谢!若您认为「 风の博客 」发布的内容若侵犯到您的权益,请联系站长邮箱:3919020966@qq.com 进行删除处理。








暂无评论内容