用ms-swift, ernie-kit都试过sft 100w 业务数据,但是发现训练收敛不了,训完后评测发现效果更差了,这是为什么呢。 业务数据的公式用latex标注,table和chart只标注ocr,文本是只识别print ocr,都用的固定prompt。