-
Notifications
You must be signed in to change notification settings - Fork 3
Open
Description
本项目拟对当前Diverse Chain-of-Thought (DCoT) 推理框架进行两项创新:
-
【动态CoT数量自适应】
- 现有代码支持通过参数
--min_cots和--max_cots控制每个问题生成的CoT数量,实际训练/推理时通常为固定值。 - 创新方向:开发一个动态机制,根据问题复杂度、模型置信度或历史表现,自动决定每个样本生成的CoT数量。
- 设计思路:可引入问题难度预测模块、置信度阈值、或通过预先运行一次推理获得动态调整建议。
- 目标:提升资源利用率和模型推理效果。
- 现有代码支持通过参数
-
【CoT质量评估与过滤】
- 现有DCoT仅对CoT多样性进行训练和量化,但缺乏自动化的CoT质量筛选和排序机制。
- 创新方向:实现对每条推理链的质量打分与过滤,保留高质量CoT用于最终答案融合。
- 设计思路:可结合启发式规则(如长度、逻辑连贯、与最终答案一致性)、或训练判别模型进行评估。
- 目标:提升模型推理准确率,减少无效或低质量推理链对最终结果的干扰。
【技术建议】
- 重点改动点:推理与评估流程(evaluation.py等)、Prompt构造与结果处理(src/data_processors.py)、输出格式(README/说明)等。
- 可参考现有命令行参数设计,并扩展为自适应和质量评估相关接口。
- 评估方法可结合现有的多任务评测与人工分析样例。
【预期成果】
- 推理流程支持动态CoT数量调整
- 引入CoT链质量自动化评估与过滤模块
- 相关代码、文档与实验报告
Labels: enhancement
Metadata
Metadata
Assignees
Labels
No labels