- 流程、路径、关键参数变更后,必须同步更新
README.md与SKILL.md - 文档冲突时,以当前脚本行为为准并立即修正文档
- 禁止在脚本中硬编码真实 API key、微信凭证或飞书凭证,所有凭证统一通过环境变量读取
- 新增脚本需在
README.md第 4 节和SKILL.md第 5 节登记 - 新增分析相关脚本应优先复用
analysis-engine.js,避免重复实现重试/保存逻辑 - 新增可配置参数应放入
config.js,并同步添加环境变量覆写支持 - 修改
prompts/deep-analysis.md或prompts/filter.md后,代码会自动读取最新内容,无需改代码 - 修改
deep-analyzer.js输出契约后,需同步检查scripts/utils.js与scripts/utils.py - 修改
config.js后,需同步更新tests/config.test.js - 修改评分/标签/机器摘要格式后,需抽样验证
data/current/deep-analysis-result.json和最终博客/社媒产物 - 安全审计:定期检查代码中是否意外泄露 API key、token、凭证备份文件或环境变量快照;
data/和logs/目录下的临时/备份文件严禁提交到版本控制 .gitignore要求:确保data/、logs/、*.env、*.backup*、.DS_Store、*-cache.json、敏感日志等被正确忽略
deep-analyzer.js 当前使用顶会审稿人(NeurIPS/ICML/ICLR)风格的七维评分体系,并要求同步输出机器摘要:
总分 = 创新性(0-3)+ 技术严谨性(0-1.5)+ 实验充分性(0-1.5)+ 清晰度(0-1)+ 影响力(0-2)+ 开源(0-1.5)+ 可复现性(0-0.5),四舍五入到 0.1 分,满分 10 分。
代码后处理:scripts/utils.js 与 scripts/utils.py 中的 parseAnalysis/parse_analysis 会从 ## 评分理由 中提取七个分项分数重新计算总分,四舍五入到 0.1,覆盖 LLM 原始输出的 ## 评分 总分(LLM 经常算错或跳过该章节)。
机器摘要字段:
rank_bucket(前10% / 前25% / 前50% / 后50%)quality_score(综合学术质量:创新性+技术严谨性+实验充分性+清晰度,范围 0-7)value_score(影响力与重要性,范围 0-2)reproducibility_bonus(可复现性综合:开源完整度+文档/细节充分度,范围 0-2)confidenceprimary_task_tagprimary_method_tagsota_claimhas_codehas_modelhas_dataset
| 维度 | 范围 | 说明 |
|---|---|---|
| 创新性 | 0-3 | 问题是否新颖、方法是否有本质突破、insight 是否深刻、与 SOTA 区分度是否清晰且有说服力 |
| 技术严谨性 | 0-1.5 | 推导/证明是否正确、算法逻辑有无漏洞、假设是否合理、边界条件是否讨论、数学表述是否严谨 |
| 实验充分性 | 0-1.5 | 基线是否充分且有代表性、消融实验是否完整、数据集覆盖是否足够、结果是否真正支撑结论 |
| 清晰度 | 0-1 | 组织结构、符号定义、公式解释、图表质量。读者能否不读源码就理解并复现 |
| 影响力 | 0-2 | 对领域的推动作用、潜在后续工作价值、实际应用潜力、与语音/音乐/音频读者相关性 |
| 开源 | 0-1.5 | 代码/模型/数据/检查点是否公开可用。1.5分要求全部开源且有完整README和文档;1.0分代码开源但缺模型或缺文档;0.5分仅提供部分资源或无文档链接;0分完全不开源 |
| 可复现性 | 0-0.5 | 除开源外的文档充分度——训练细节/超参数/硬件环境/复现步骤是否足够让他人复现 |
rank_bucket只能从前10% / 前25% / 前50% / 后50%中选择9.0-10.0:突破性贡献,领域里程碑候选,方法或结果具有范式转变潜力8.0-8.5:高水平工作,在重要问题上做出扎实贡献,有明确影响力或显著性能提升6.5-7.5:有价值但不够突出,或有小硬伤,属于合格到良好,对特定方向研究者有参考意义5.0-6.0:创新有限、实验薄弱、结论不够重要或存在明显缺陷,仅适合快速浏览1.0-4.5:问题严重,推导错误、实验不支持结论或写作极差,不推荐投入时间
- 最终标签总数为 3-5 个
- 必须至少包含 1 个【任务】标签和 1 个【方法/模型】标签
- 必须额外输出
主任务标签、主方法标签、补充标签 主任务标签和主方法标签都只能有 1 个,且必须来自最终标签集合音频大模型与语音大模型二选一;使用多模态模型时通常不再重复标音视频
当 prompts/deep-analysis.md 或评分/标签规范发生变化时,至少检查以下内容:
- 确认
scripts/utils.js中的loadPrompt()能正确读取prompts/目录下的 markdown 文件 scripts/utils.js与scripts/utils.py是否仍能正确解析## 机器摘要、标签和评分字段(注意机器摘要从###变为##)- 抽样检查
data/current/deep-analysis-result.json,确认存在rank_bucket、primary_task_tag、primary_method_tag - 验证
score是否从## 评分理由的七个分项正确计算:抽样对比parsed.score与## 评分理由中各分项之和,确认四舍五入到 0.1 且范围在 1-10 - 验证博客发布脚本产物,确认榜单、单篇页和热门方向正确显示新字段
- 验证微信/小红书/飞书脚本产物,确认文案中没有因字段缺失导致的空值或格式错位
- 确认
## 局限与问题新章节在博客/社媒中正确显示(如有内容)
- 本项目在设计和实现过程中参考了 speech-paper-daily-skill 的思路与结构