README

CoLA任务RL训练代码库

项目简介

本仓库主要聚焦于利用Qwen3系列模型，通过强化学习（Reinforcement Learning, RL）技术，完成GLUE基准中的CoLA（Corpus of Linguistic Acceptability）子任务的句子可接受性分类。代码实现了数据预处理、模型训练和评估全流程，方便快速上手与复现相关研究。

更新日志

[25/09/08]整理主要结果，上传wandb模型训练记录。

[25/07/23]修复数据准备错误，新增SFT数据准备代码和训练脚本（基于LLaMA-Factory框架），新增REMAX、DAPO训练脚本，新增Text Classification代码，新增DeepSeek R1 0528蒸馏COLA数据集。

[25/06/22]完成数据处理流程、模型GRPO训练脚本（基于verl框架）和文档编写

测评指标

对比指标Matthews相关系数（MCC）
提示词：

Decide whether the following sentence is grammatically acceptable or not. If it is grammatically correct, answer "acceptable". If not, answer "unacceptable". Only output "acceptable" or "unacceptable", and do not output any other information.

Sentence: {sentence}

Your answer:

主要结果

Model	Fine-tuning method	验证集	测试集（kaggle）
Qwen3-0.6B	-	0.223	待测试
DeepSeek V3 0324	-	0.726	待测试
DeepSeek R1 0120	-	0.636	待测试
DeepSeek R1 0528	-	0.658	待测试
Qwen3-1.7B-Remax	Remax (RL)	0.658	待测试
Qwen3-1.7B-GRPO	GRPO (RL)	0.669	待测试
Qwen3-1.7B-SFT-E1-GRPO	SFT + GRPO (RL)	0.702	待测试
Bert-base	CLS	0.548	待测试
Qwen3-0.6B-CLS	CLS	0.610	待测试
Qwen3-1.7B-SFT	SFT	0.657	待测试
Qwen3-0.6B-SFT	SFT	0.598	待测试

Note

SFT-E1-GRPO后缀表示模型先进行1个Epoch的SFT后再进行GRPO。

CLS后缀表示模型输出头变为分类头。

各模型训练记录wandb log

如何使用

环境搭建

Tip

参阅文档。

模型下载

从魔搭社区或Huggingface下载Qwen3系列模型到model文件夹下。

GRPO训练

修改脚本run_grpo_qwen3_0.6b.sh，修改wandb api key、工作目录和训练GPU编号。
启动训练：

bash run_grpo_qwen3_0.6b.sh

待办事项

对比不同RL算法对CoLA分类的效果。
对比不同参数量模型对CoLA分类的效果。
上传wandb报告。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
cola_data		cola_data
data		data
docs		docs
model		model
recipe		recipe
scripts		scripts
verl		verl
LICENSE		LICENSE
README.md		README.md
README_en.md		README_en.md
extract_cot_data.py		extract_cot_data.py
prepare_rl_data.ipynb		prepare_rl_data.ipynb
prepare_sft_data.ipynb		prepare_sft_data.ipynb
train_cls.py		train_cls.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

README

目录

项目简介

更新日志

测评指标

主要结果

如何使用

环境搭建

模型下载

GRPO训练

待办事项

致谢

About

Uh oh!

Releases

Packages

Languages

License

ytzfhqs/CoLA-RL

Folders and files

Latest commit

History

Repository files navigation

README

目录

项目简介

更新日志

测评指标

主要结果

如何使用

环境搭建

模型下载

GRPO训练

待办事项

致谢

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages