实测成本数据:建议解耦收集模型与写作模型
背景
我们在 pafozz/hermes-deep-research(本项目的 Hermes Agent 移植版)上运行了一次完整的研究流程:11 个条目 × 43 个字段的 Beyond Meat 深度研究。过程中遇到了一个可能影响首次用户体验的问题,分享实测数据供参考。
问题:Opus 全流程的成本曲线
当前 agent 配置将 model: opus(Claude Code)/ model: gpt-5.4(Codex)硬编码在整个流程中,包括 Phase 2 的并行搜索阶段。对于多条目研究,实际成本增长很快:
| 条目数 |
估算成本 (Opus) |
| 5 |
~$10-12 |
| 10 |
~$20-24 |
| 14 (本次) |
~$30+ |
我们在完成第一批 5 个文件后看到成本估算,主动中断了流程,切换模型后才继续。如果这是一个新用户的第一次 /research-deep 运行,这个成本曲线很可能在第一阶段就劝退了。
实测对比:模型大小在搜索阶段不关键
我们在不同模型上跑了分组对照:
| 维度 |
Claude Sonnet 4.6 (5 file) |
DeepSeek V4 Flash (6 file) |
| 字段覆盖率 |
100% (43/43) |
100% (43/43) |
| 文件通过率 |
5/5 |
6/6 |
| 质量问题 |
无 |
1 处中文引号冲突(语法级,patch 修复) |
| 成本/文件 |
~$0.90 |
~$0.07 |
子代理搜索 + 写 JSON 的任务本质上是机械性的,不需要深度推理:
web_search + web_extract → 工具框架执行
- 从搜索结果中提取数值填入对应字段 → 定位+复制
- 输出 valid JSON 并通过 schema 验证 → 迭代到通过
建议:解耦收集模型和写作模型
当前: Opus × N 并行收集 → Opus × 1 写报告
建议: Flash × N 并行收集 → Opus/Sonnet × 1 写报告
实际成本对比
| 方案 |
6 文件收集 |
1 份报告 |
总计 |
| Sonnet 全流程 |
~$4.50 |
~$0.80 |
$5.30 |
| Flash 收集 + Sonnet 写作 |
~$0.28 |
~$0.80 |
$1.08 |
| Flash 收集 + Opus 写作 |
~$0.28 |
~$3.00 |
$3.28 |
收益
- 成本降低 5-13×,搜索阶段的 JSON 质量无差异
- 报告质量不会降低 —— 写作阶段仍使用高级模型,且输入数据是已清洗的结构化 JSON,效果甚至更好
- 首次运行门槛降低 —— 从 ~$30 降到 ~$1,用户愿意跑完看结果
额外建议:子代理预检
我们遇到过一个情况:更换 delegation model 后第一批 3 个并行子代理全部静默挂死(tool calling 初始化失败),直到 600s 超时。建议在批量派发前发一个单次测试子代理验证当前模型是否能正常执行 tool calling,10-20s 的开销可以避免 10 分钟级的无声失败。
运行环境: Hermes Agent on Windows
数据来源: Beyond Meat 深度研究,11 个 JSON 文件,43 字段,100% validate 通过
实测成本数据:建议解耦收集模型与写作模型
背景
我们在 pafozz/hermes-deep-research(本项目的 Hermes Agent 移植版)上运行了一次完整的研究流程:11 个条目 × 43 个字段的 Beyond Meat 深度研究。过程中遇到了一个可能影响首次用户体验的问题,分享实测数据供参考。
问题:Opus 全流程的成本曲线
当前 agent 配置将
model: opus(Claude Code)/model: gpt-5.4(Codex)硬编码在整个流程中,包括 Phase 2 的并行搜索阶段。对于多条目研究,实际成本增长很快:我们在完成第一批 5 个文件后看到成本估算,主动中断了流程,切换模型后才继续。如果这是一个新用户的第一次
/research-deep运行,这个成本曲线很可能在第一阶段就劝退了。实测对比:模型大小在搜索阶段不关键
我们在不同模型上跑了分组对照:
子代理搜索 + 写 JSON 的任务本质上是机械性的,不需要深度推理:
web_search+web_extract→ 工具框架执行建议:解耦收集模型和写作模型
实际成本对比
收益
额外建议:子代理预检
我们遇到过一个情况:更换 delegation model 后第一批 3 个并行子代理全部静默挂死(tool calling 初始化失败),直到 600s 超时。建议在批量派发前发一个单次测试子代理验证当前模型是否能正常执行 tool calling,10-20s 的开销可以避免 10 分钟级的无声失败。
运行环境: Hermes Agent on Windows
数据来源: Beyond Meat 深度研究,11 个 JSON 文件,43 字段,100% validate 通过