问题背景:首先非常感谢 OmniDocBench 团队的优秀工作。
我在分析 OmniDocBench_v1.5 end2end 的 textchunk 指标评测流程时,发现在 quick_match 策略下存在一个反直觉的现象,希望能够探讨一下。
具体问题:目前的评测逻辑是将预测的 Markdown 文本行分为 text(文本)、formula(公式)和 table(表格),并根据元素类型执行不同的归一化(Normalization)策略。这种分而治之的策略在大多数情况下很有效,但我发现了一个特定的 Corner Case:
场景描述:GT 标注为文本块,检测模型将其切分为 文本块,公式块,公式块
实际效果:从最终渲染的 Markdown 结果来看,识别内容是正确的,且非常贴切原图
评测异常:由于被识别为不同类型(Text vs Formula),代码对两者分别进行了不同的归一化处理。这导致归一化后的字符串无法匹配,进而打断了 quick_match 的匹配链路(matching interruption)。最终导致指标不能准确反映模型的真实识别效果(出现了指标与视觉效果不一致的情况)。
考虑到 Markdown 中文本和公式的边界有时较为模糊,过于严格的类别绑定可能会导致评测过于严苛。
是否可以考虑调整 textchunk 的评测方式:在进行文本块评测时,考虑将**公式块(Formula)**的内容合并进来,或者在匹配失败时尝试统一的归一化策略?
这样可以利用多对一(many-to-one)的匹配优势,兼容“内容正确但类别被误判为公式”的情况,使评测指标更聚焦于内容的准确性,从而提升评测的鲁棒性。
