中文心理推理大模型Psyche-R1

Paper here -> Psyche-R1: Towards Reliable Psychological LLMs through Unified Empathy, Expertise, and Reasoning

[ English | 简体中文 ]

简介

自 PsycoLLM 发布以来，我们始终致力于探索AI+心理健康领域，寻求进一步的提升与突破。

现有的心理大模型强调情感支持与陪伴，侧重于提高模型的共情能力。然而，它们可能缺乏扎实的心理学专业知识和复杂的逻辑推理能力，在深入分析和推理上表现欠佳。此外，一些在数学、编程等领域表现出色的推理大模型，侧重纯粹的逻辑推理，而缺乏心理学领域所需的共情和领域知识，导致在心理领域表现不佳。总而言之，就是“共情”、“领域知识”和“推理”很难兼得，这限制了心理大模型的表现。

为此，我们提出了中文心理推理大模型 Psyche-R1，首次统一了共情、专业知识和推理能力。

我们提出了一个全新的数据合成管道，如下图所示。通过数据清洗、题目生成、解释迭代和共情对话合成等流程，我们生成了超过7.5万条带有详细心理学解释的心理学题目问答对、以及7.3万条共情对话数据。在此基础上，我们利用多模型的选择，筛选出高难度的“挑战题”，以用于强化模型的复杂推理能力，其余数据则被划分为“非挑战题”。

我们使用 Qwen2.5-7B-Instruct 作为基座模型。模型首先在海量的“非挑战题”（包括心理学题目和共情对话数据）进行 SFT，为模型注入广泛的专业知识和共情能力。在此基础上，模型基于“挑战题”进行GRPO强化学习训练，以进一步提高模型的复杂推理能力。

我们随后进行了详细的评估实验。在多个权威的心理学基准测试中，仅有 7B 参数的 Psyche-R1，其表现不仅显著超越其他同等规模的模型，甚至与671B参数的DeepSeek-R1表现相当。

模型在 Psychological Counselor Examination Benchmark (PCEB) 的实验结果如下。注意，我们仅展示了部分的实验结果，完整实验结果请看文章。其中，下划线数字表示 MMCQ 的弹性正确率，粗体数字表示该项中的最佳性能，平均值表示严格正确率的平均值，括号内的值表示 SMCQ 的严格正确率和 MMCQ 的弹性正确率的平均值。实验结果表明，无论是在选择题还是开放式问答中，Psyche-R1 都展现出了卓越的心理学领域能力。

Model	Case			Moral			Theory			Avg.		Case (QA)
Model	SMCQ	MMCQ		SMCQ	MMCQ		SMCQ	MMCQ		Avg.		R-1	R-L	B-4
Qwen2.5-7B-Instruct	47.57	31.64	47.49	87.83	59.50	71.02	78.46	42.45	55.17	57.91	(64.59)	20.94	11.28	1.28
Qwen2.5-72B-Instruct	46.91	40.34	53.11	90.79	70.25	78.48	82.63	47.63	59.74	63.09	(68.61)	21.43	12.02	1.16
DeepSeek-R1	79.25	44.25	60.86	95.39	68.99	77.95	92.19	57.60	69.41	72.95	(79.18)	17.65	9.19	0.94
DeepSeek-R1-70B	56.30	30.72	46.95	88.16	52.53	65.66	68.01	25.64	45.63	53.56	(61.79)	22.77	13.23	1.16
QwQ-32B	56.51	23.35	41.27	88.82	41.14	53.06	82.12	32.69	49.90	54.11	(61.95)	18.39	7.48	0.84
Qwen3-235B-A22B	68.58	41.91	57.24	93.42	69.62	78.90	88.36	56.70	68.64	69.77	(75.86)	18.96	11.14	1.11
GPT-4o	65.63	13.67	34.53	88.15	33.54	54.79	74.65	24.10	45.07	49.96	(60.47)	23.45	12.75	1.18
Claude3.7-Sonnet	63.39	19.40	34.23	90.13	60.13	70.04	76.73	37.37	48.99	57.86	(63.92)	21.59	11.11	1.23
EmoLLM	46.93	21.87	40.02	84.21	34.17	51.05	71.72	26.18	44.49	47.51	(56.40)	22.15	11.69	1.20
PsycoLLM	55.58	35.07	42.89	88.81	69.62	74.20	72.63	48.59	54.12	61.72	(64.71)	24.45	17.45	2.04
Psyche-R1	63.31	56.26	66.21	92.76	79.62	82.54	87.70	66.54	73.34	74.37	(77.64)	27.31	15.33	2.40

我们还进行了更详细、更全面的实验，包括在 CPsyExam 和 PsyDT 测试集上的实验，充分展现了 Psyche-R1 在心理学考试及咨询对话的能力。详细的实验结果，请查阅原文。

快速使用

克隆本项目至本地

git clone https://github.com/MindIntLab-HFUT/Psyche-R1.git

配置环境

conda create -n psycher1 python=3.10
conda activate psycher1
pip install -r requirements.txt

运行 Python 文件 run.py

deepspeed --num_gpus=1 run.py

开始交互

致谢

模型训练基于 LLaMA-Factory 和 VeRL 框架进行。

同时，感谢以下同学对本项目的帮助，包括但不限于数据收集、数据处理等（排名不分先后）：邓宇航、金逸多、李想、刘悦、罗妍、王卫东、禹锦明。我们还感谢王卫东为开发 APP 做出的贡献。

引用

If this work is helpful, please kindly cite as:

@article{dai2025psyche,
  title={Psyche-R1: Towards Reliable Psychological LLMs through Unified Empathy, Expertise, and Reasoning},
  author={Dai, Chongyuan and Hu, Jinpeng and Shi, Hongchang and Li, Zhuo and Yang, Xun and Wang, Meng},
  journal={arXiv preprint arXiv:2508.10848},
  year={2025}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中文心理推理大模型Psyche-R1

最近更新

简介

快速使用

致谢

引用

FilesExpand file tree

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

中文心理推理大模型Psyche-R1

最近更新

简介

快速使用

致谢

引用