维护约定

流程、路径、关键参数变更后，必须同步更新 README.md 与 SKILL.md
文档冲突时，以当前脚本行为为准并立即修正文档
禁止在脚本中硬编码真实 API key、微信凭证或飞书凭证，所有凭证统一通过环境变量读取
新增脚本需在 README.md 第 4 节和 SKILL.md 第 5 节登记
新增分析相关脚本应优先复用 analysis-engine.js，避免重复实现重试/保存逻辑
新增可配置参数应放入 config.js，并同步添加环境变量覆写支持
修改 prompts/deep-analysis.md 或 prompts/filter.md 后，代码会自动读取最新内容，无需改代码
修改 deep-analyzer.js 输出契约后，需同步检查 scripts/utils.js 与 scripts/utils.py
修改 config.js 后，需同步更新 tests/config.test.js
修改评分/标签/机器摘要格式后，需抽样验证 data/current/deep-analysis-result.json 和最终博客/社媒产物
安全审计：定期检查代码中是否意外泄露 API key、token、凭证备份文件或环境变量快照；data/ 和 logs/ 目录下的临时/备份文件严禁提交到版本控制
.gitignore 要求：确保 data/、logs/、*.env、*.backup*、.DS_Store、*-cache.json、敏感日志等被正确忽略

附录：当前评分与标签口径

deep-analyzer.js 当前使用顶会审稿人（NeurIPS/ICML/ICLR）风格的七维评分体系，并要求同步输出机器摘要：

14.1 评分公式

总分 = 创新性（0-3）+ 技术严谨性（0-1.5）+ 实验充分性（0-1.5）+ 清晰度（0-1）+ 影响力（0-2）+ 开源（0-1.5）+ 可复现性（0-0.5），四舍五入到 0.1 分，满分 10 分。

代码后处理：scripts/utils.js 与 scripts/utils.py 中的 parseAnalysis/parse_analysis 会从 ## 评分理由 中提取七个分项分数重新计算总分，四舍五入到 0.1，覆盖 LLM 原始输出的 ## 评分 总分（LLM 经常算错或跳过该章节）。

机器摘要字段：

rank_bucket（前10% / 前25% / 前50% / 后50%）
quality_score（综合学术质量：创新性+技术严谨性+实验充分性+清晰度，范围 0-7）
value_score（影响力与重要性，范围 0-2）
reproducibility_bonus（可复现性综合：开源完整度+文档/细节充分度，范围 0-2）
confidence
primary_task_tag
primary_method_tag
sota_claim
has_code
has_model
has_dataset

14.2 七维分项定义

维度	范围	说明
创新性	0-3	问题是否新颖、方法是否有本质突破、insight 是否深刻、与 SOTA 区分度是否清晰且有说服力
技术严谨性	0-1.5	推导/证明是否正确、算法逻辑有无漏洞、假设是否合理、边界条件是否讨论、数学表述是否严谨
实验充分性	0-1.5	基线是否充分且有代表性、消融实验是否完整、数据集覆盖是否足够、结果是否真正支撑结论
清晰度	0-1	组织结构、符号定义、公式解释、图表质量。读者能否不读源码就理解并复现
影响力	0-2	对领域的推动作用、潜在后续工作价值、实际应用潜力、与语音/音乐/音频读者相关性
开源	0-1.5	代码/模型/数据/检查点是否公开可用。1.5分要求全部开源且有完整README和文档；1.0分代码开源但缺模型或缺文档；0.5分仅提供部分资源或无文档链接；0分完全不开源
可复现性	0-0.5	除开源外的文档充分度——训练细节/超参数/硬件环境/复现步骤是否足够让他人复现

14.3 分档要求

rank_bucket 只能从 前10% / 前25% / 前50% / 后50% 中选择
9.0-10.0：突破性贡献，领域里程碑候选，方法或结果具有范式转变潜力
8.0-8.5：高水平工作，在重要问题上做出扎实贡献，有明确影响力或显著性能提升
6.5-7.5：有价值但不够突出，或有小硬伤，属于合格到良好，对特定方向研究者有参考意义
5.0-6.0：创新有限、实验薄弱、结论不够重要或存在明显缺陷，仅适合快速浏览
1.0-4.5：问题严重，推导错误、实验不支持结论或写作极差，不推荐投入时间

14.4 标签输出要求

最终标签总数为 3-5 个
必须至少包含 1 个【任务】标签和 1 个【方法/模型】标签
必须额外输出 主任务标签、主方法标签、补充标签
主任务标签 和 主方法标签 都只能有 1 个，且必须来自最终标签集合
音频大模型 与 语音大模型 二选一；使用 多模态模型 时通常不再重复标 音视频

14.5 输出契约变更检查清单

当 prompts/deep-analysis.md 或评分/标签规范发生变化时，至少检查以下内容：

确认 scripts/utils.js 中的 loadPrompt() 能正确读取 prompts/ 目录下的 markdown 文件
scripts/utils.js 与 scripts/utils.py 是否仍能正确解析 ## 机器摘要、标签和评分字段（注意机器摘要从 ### 变为 ##）
抽样检查 data/current/deep-analysis-result.json，确认存在 rank_bucket、primary_task_tag、primary_method_tag
验证 score 是否从 ## 评分理由 的七个分项正确计算：抽样对比 parsed.score 与 ## 评分理由 中各分项之和，确认四舍五入到 0.1 且范围在 1-10
验证博客发布脚本产物，确认榜单、单篇页和热门方向正确显示新字段
验证微信/小红书/飞书脚本产物，确认文案中没有因字段缺失导致的空值或格式错位
确认 ## 局限与问题 新章节在博客/社媒中正确显示（如有内容）

参考与致谢

本项目在设计和实现过程中参考了 speech-paper-daily-skill 的思路与结构

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

维护约定

维护约定

附录：当前评分与标签口径

14.1 评分公式

14.2 七维分项定义

14.3 分档要求

14.4 标签输出要求

14.5 输出契约变更检查清单

参考与致谢

FilesExpand file tree

maintenance.md

Latest commit

History

maintenance.md

File metadata and controls

维护约定

维护约定

附录：当前评分与标签口径

14.1 评分公式

14.2 七维分项定义

14.3 分档要求

14.4 标签输出要求

14.5 输出契约变更检查清单

参考与致谢