Skip to content

Latest commit

 

History

History
92 lines (69 loc) · 5.84 KB

File metadata and controls

92 lines (69 loc) · 5.84 KB

维护约定

维护约定

  • 流程、路径、关键参数变更后,必须同步更新 README.mdSKILL.md
  • 文档冲突时,以当前脚本行为为准并立即修正文档
  • 禁止在脚本中硬编码真实 API key、微信凭证或飞书凭证,所有凭证统一通过环境变量读取
  • 新增脚本需在 README.md 第 4 节和 SKILL.md 第 5 节登记
  • 新增分析相关脚本应优先复用 analysis-engine.js,避免重复实现重试/保存逻辑
  • 新增可配置参数应放入 config.js,并同步添加环境变量覆写支持
  • 修改 prompts/deep-analysis.mdprompts/filter.md 后,代码会自动读取最新内容,无需改代码
  • 修改 deep-analyzer.js 输出契约后,需同步检查 scripts/utils.jsscripts/utils.py
  • 修改 config.js 后,需同步更新 tests/config.test.js
  • 修改评分/标签/机器摘要格式后,需抽样验证 data/current/deep-analysis-result.json 和最终博客/社媒产物
  • 安全审计:定期检查代码中是否意外泄露 API key、token、凭证备份文件或环境变量快照;data/logs/ 目录下的临时/备份文件严禁提交到版本控制
  • .gitignore 要求:确保 data/logs/*.env*.backup*.DS_Store*-cache.json、敏感日志等被正确忽略


附录:当前评分与标签口径

deep-analyzer.js 当前使用顶会审稿人(NeurIPS/ICML/ICLR)风格的七维评分体系,并要求同步输出机器摘要:

14.1 评分公式

总分 = 创新性(0-3)+ 技术严谨性(0-1.5)+ 实验充分性(0-1.5)+ 清晰度(0-1)+ 影响力(0-2)+ 开源(0-1.5)+ 可复现性(0-0.5),四舍五入到 0.1 分,满分 10 分。

代码后处理scripts/utils.jsscripts/utils.py 中的 parseAnalysis/parse_analysis 会从 ## 评分理由 中提取七个分项分数重新计算总分,四舍五入到 0.1,覆盖 LLM 原始输出的 ## 评分 总分(LLM 经常算错或跳过该章节)。

机器摘要字段:

  • rank_bucket(前10% / 前25% / 前50% / 后50%)
  • quality_score(综合学术质量:创新性+技术严谨性+实验充分性+清晰度,范围 0-7)
  • value_score(影响力与重要性,范围 0-2)
  • reproducibility_bonus(可复现性综合:开源完整度+文档/细节充分度,范围 0-2)
  • confidence
  • primary_task_tag
  • primary_method_tag
  • sota_claim
  • has_code
  • has_model
  • has_dataset

14.2 七维分项定义

维度 范围 说明
创新性 0-3 问题是否新颖、方法是否有本质突破、insight 是否深刻、与 SOTA 区分度是否清晰且有说服力
技术严谨性 0-1.5 推导/证明是否正确、算法逻辑有无漏洞、假设是否合理、边界条件是否讨论、数学表述是否严谨
实验充分性 0-1.5 基线是否充分且有代表性、消融实验是否完整、数据集覆盖是否足够、结果是否真正支撑结论
清晰度 0-1 组织结构、符号定义、公式解释、图表质量。读者能否不读源码就理解并复现
影响力 0-2 对领域的推动作用、潜在后续工作价值、实际应用潜力、与语音/音乐/音频读者相关性
开源 0-1.5 代码/模型/数据/检查点是否公开可用。1.5分要求全部开源且有完整README和文档;1.0分代码开源但缺模型或缺文档;0.5分仅提供部分资源或无文档链接;0分完全不开源
可复现性 0-0.5 除开源外的文档充分度——训练细节/超参数/硬件环境/复现步骤是否足够让他人复现

14.3 分档要求

  • rank_bucket 只能从 前10% / 前25% / 前50% / 后50% 中选择
  • 9.0-10.0:突破性贡献,领域里程碑候选,方法或结果具有范式转变潜力
  • 8.0-8.5:高水平工作,在重要问题上做出扎实贡献,有明确影响力或显著性能提升
  • 6.5-7.5:有价值但不够突出,或有小硬伤,属于合格到良好,对特定方向研究者有参考意义
  • 5.0-6.0:创新有限、实验薄弱、结论不够重要或存在明显缺陷,仅适合快速浏览
  • 1.0-4.5:问题严重,推导错误、实验不支持结论或写作极差,不推荐投入时间

14.4 标签输出要求

  • 最终标签总数为 3-5 个
  • 必须至少包含 1 个【任务】标签和 1 个【方法/模型】标签
  • 必须额外输出 主任务标签主方法标签补充标签
  • 主任务标签主方法标签 都只能有 1 个,且必须来自最终标签集合
  • 音频大模型语音大模型 二选一;使用 多模态模型 时通常不再重复标 音视频

14.5 输出契约变更检查清单

prompts/deep-analysis.md 或评分/标签规范发生变化时,至少检查以下内容:

  1. 确认 scripts/utils.js 中的 loadPrompt() 能正确读取 prompts/ 目录下的 markdown 文件
  2. scripts/utils.jsscripts/utils.py 是否仍能正确解析 ## 机器摘要、标签和评分字段(注意机器摘要从 ### 变为 ##
  3. 抽样检查 data/current/deep-analysis-result.json,确认存在 rank_bucketprimary_task_tagprimary_method_tag
  4. 验证 score 是否从 ## 评分理由 的七个分项正确计算:抽样对比 parsed.score## 评分理由 中各分项之和,确认四舍五入到 0.1 且范围在 1-10
  5. 验证博客发布脚本产物,确认榜单、单篇页和热门方向正确显示新字段
  6. 验证微信/小红书/飞书脚本产物,确认文案中没有因字段缺失导致的空值或格式错位
  7. 确认 ## 局限与问题 新章节在博客/社媒中正确显示(如有内容)


参考与致谢