Skip to content

关于 v1.5 End2End quick_match 评测逻辑的优化建议:兼容文本/公式类别混淆导致的匹配中断 #166

@cmsfw-github

Description

@cmsfw-github

问题背景:首先非常感谢 OmniDocBench 团队的优秀工作。
我在分析 OmniDocBench_v1.5 end2end 的 textchunk 指标评测流程时,发现在 quick_match 策略下存在一个反直觉的现象,希望能够探讨一下。

具体问题:目前的评测逻辑是将预测的 Markdown 文本行分为 text(文本)、formula(公式)和 table(表格),并根据元素类型执行不同的归一化(Normalization)策略。这种分而治之的策略在大多数情况下很有效,但我发现了一个特定的 Corner Case:
场景描述:GT 标注为文本块,检测模型将其切分为 文本块,公式块,公式块
实际效果:从最终渲染的 Markdown 结果来看,识别内容是正确的,且非常贴切原图
评测异常:由于被识别为不同类型(Text vs Formula),代码对两者分别进行了不同的归一化处理。这导致归一化后的字符串无法匹配,进而打断了 quick_match 的匹配链路(matching interruption)。最终导致指标不能准确反映模型的真实识别效果(出现了指标与视觉效果不一致的情况)。

考虑到 Markdown 中文本和公式的边界有时较为模糊,过于严格的类别绑定可能会导致评测过于严苛。
是否可以考虑调整 textchunk 的评测方式:在进行文本块评测时,考虑将**公式块(Formula)**的内容合并进来,或者在匹配失败时尝试统一的归一化策略?
这样可以利用多对一(many-to-one)的匹配优势,兼容“内容正确但类别被误判为公式”的情况,使评测指标更聚焦于内容的准确性,从而提升评测的鲁棒性。

Image Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions