Paper here -> Psyche-R1: Towards Reliable Psychological LLMs through Unified Empathy, Expertise, and Reasoning
[ English | 简体中文 ]
🔥[2025.10.17] 我们开发了一款 APP ,支持 Windows、Linux 和 Android 平台。请点击此处下载:Psyche-R1-APP.
🔥[2025.8.16] 中文心理推理大模型 Psyche-R1正式发布!如有需要下载模型,请点击此处:MindIntLab/Psyche-R1
自 PsycoLLM 发布以来,我们始终致力于探索AI+心理健康领域,寻求进一步的提升与突破。
现有的心理大模型强调情感支持与陪伴,侧重于提高模型的共情能力。然而,它们可能缺乏扎实的心理学专业知识和复杂的逻辑推理能力,在深入分析和推理上表现欠佳。此外,一些在数学、编程等领域表现出色的推理大模型,侧重纯粹的逻辑推理,而缺乏心理学领域所需的共情和领域知识,导致在心理领域表现不佳。总而言之,就是“共情”、“领域知识”和“推理”很难兼得,这限制了心理大模型的表现。
为此,我们提出了中文心理推理大模型 Psyche-R1,首次统一了共情、专业知识和推理能力。
我们提出了一个全新的数据合成管道,如下图所示。通过数据清洗、题目生成、解释迭代和共情对话合成等流程,我们生成了超过7.5万条带有详细心理学解释的心理学题目问答对、以及7.3万条共情对话数据。在此基础上,我们利用多模型的选择,筛选出高难度的“挑战题”,以用于强化模型的复杂推理能力,其余数据则被划分为“非挑战题”。
我们使用 Qwen2.5-7B-Instruct 作为基座模型。模型首先在海量的“非挑战题”(包括心理学题目和共情对话数据)进行 SFT,为模型注入广泛的专业知识和共情能力。在此基础上,模型基于“挑战题”进行GRPO强化学习训练,以进一步提高模型的复杂推理能力。
我们随后进行了详细的评估实验。在多个权威的心理学基准测试中,仅有 7B 参数的 Psyche-R1,其表现不仅显著超越其他同等规模的模型,甚至与671B参数的DeepSeek-R1表现相当。
模型在 Psychological Counselor Examination Benchmark (PCEB) 的实验结果如下。注意,我们仅展示了部分的实验结果,完整实验结果请看文章。其中,下划线数字表示 MMCQ 的弹性正确率,粗体数字表示该项中的最佳性能,平均值表示严格正确率的平均值,括号内的值表示 SMCQ 的严格正确率和 MMCQ 的弹性正确率的平均值。实验结果表明,无论是在选择题还是开放式问答中,Psyche-R1 都展现出了卓越的心理学领域能力。
| Model | Case | Moral | Theory | Avg. | Case (QA) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SMCQ | MMCQ | SMCQ | MMCQ | SMCQ | MMCQ | R-1 | R-L | B-4 | ||||||
| Qwen2.5-7B-Instruct | 47.57 | 31.64 | 47.49 | 87.83 | 59.50 | 71.02 | 78.46 | 42.45 | 55.17 | 57.91 | (64.59) | 20.94 | 11.28 | 1.28 |
| Qwen2.5-72B-Instruct | 46.91 | 40.34 | 53.11 | 90.79 | 70.25 | 78.48 | 82.63 | 47.63 | 59.74 | 63.09 | (68.61) | 21.43 | 12.02 | 1.16 |
| DeepSeek-R1 | 79.25 | 44.25 | 60.86 | 95.39 | 68.99 | 77.95 | 92.19 | 57.60 | 69.41 | 72.95 | (79.18) | 17.65 | 9.19 | 0.94 |
| DeepSeek-R1-70B | 56.30 | 30.72 | 46.95 | 88.16 | 52.53 | 65.66 | 68.01 | 25.64 | 45.63 | 53.56 | (61.79) | 22.77 | 13.23 | 1.16 |
| QwQ-32B | 56.51 | 23.35 | 41.27 | 88.82 | 41.14 | 53.06 | 82.12 | 32.69 | 49.90 | 54.11 | (61.95) | 18.39 | 7.48 | 0.84 |
| Qwen3-235B-A22B | 68.58 | 41.91 | 57.24 | 93.42 | 69.62 | 78.90 | 88.36 | 56.70 | 68.64 | 69.77 | (75.86) | 18.96 | 11.14 | 1.11 |
| GPT-4o | 65.63 | 13.67 | 34.53 | 88.15 | 33.54 | 54.79 | 74.65 | 24.10 | 45.07 | 49.96 | (60.47) | 23.45 | 12.75 | 1.18 |
| Claude3.7-Sonnet | 63.39 | 19.40 | 34.23 | 90.13 | 60.13 | 70.04 | 76.73 | 37.37 | 48.99 | 57.86 | (63.92) | 21.59 | 11.11 | 1.23 |
| EmoLLM | 46.93 | 21.87 | 40.02 | 84.21 | 34.17 | 51.05 | 71.72 | 26.18 | 44.49 | 47.51 | (56.40) | 22.15 | 11.69 | 1.20 |
| PsycoLLM | 55.58 | 35.07 | 42.89 | 88.81 | 69.62 | 74.20 | 72.63 | 48.59 | 54.12 | 61.72 | (64.71) | 24.45 | 17.45 | 2.04 |
| Psyche-R1 | 63.31 | 56.26 | 66.21 | 92.76 | 79.62 | 82.54 | 87.70 | 66.54 | 73.34 | 74.37 | (77.64) | 27.31 | 15.33 | 2.40 |
我们还进行了更详细、更全面的实验,包括在 CPsyExam 和 PsyDT 测试集上的实验,充分展现了 Psyche-R1 在心理学考试及咨询对话的能力。详细的实验结果,请查阅原文。
- 克隆本项目至本地
git clone https://github.com/MindIntLab-HFUT/Psyche-R1.git- 配置环境
conda create -n psycher1 python=3.10
conda activate psycher1
pip install -r requirements.txt- 运行 Python 文件 run.py
deepspeed --num_gpus=1 run.py- 开始交互
模型训练基于 LLaMA-Factory 和 VeRL 框架进行。
同时,感谢以下同学对本项目的帮助,包括但不限于数据收集、数据处理等(排名不分先后):邓宇航、金逸多、李想、刘悦、罗妍、王卫东、禹锦明。我们还感谢王卫东为开发 APP 做出的贡献。
If this work is helpful, please kindly cite as:
@article{dai2025psyche,
title={Psyche-R1: Towards Reliable Psychological LLMs through Unified Empathy, Expertise, and Reasoning},
author={Dai, Chongyuan and Hu, Jinpeng and Shi, Hongchang and Li, Zhuo and Yang, Xun and Wang, Meng},
journal={arXiv preprint arXiv:2508.10848},
year={2025}
}
