您好,首先非常感谢您们的工作,非常的有意义。
我在阅读的时候,对于一些细节存在疑惑。
1、在摘要里提到了"we release the last-stage training data, including a custom-built medical diagnostic dialogue dataset." 这里所指的dialogue数据集是已经混合在Citrus_S3 数据集里了嘛?如果是的话,这里的数据种子和样例是什么呢?因为我在阅读的时候,只发现section5中的benchmark里提到了用医患对话数据来合成基于电子病历的问答。
2、目前开源的Citrus_S3是20K,论文里为60K。请问这里的差值是否意味着部分数据没有开源?