关于 v1.5 End2End quick_match 评测逻辑的优化建议：兼容文本/公式类别混淆导致的匹配中断

**问题背景**：首先非常感谢 OmniDocBench 团队的优秀工作。
我在分析 OmniDocBench_v1.5 end2end 的 textchunk 指标评测流程时，发现在 quick_match 策略下存在一个反直觉的现象，希望能够探讨一下。

**具体问题**：目前的评测逻辑是将预测的 Markdown 文本行分为 text（文本）、formula（公式）和 table（表格），并根据元素类型执行不同的归一化（Normalization）策略。这种分而治之的策略在大多数情况下很有效，但我发现了一个特定的 Corner Case：
**场景描述**：GT 标注为文本块，检测模型将其切分为 文本块，公式块，公式块
实际效果：从最终渲染的 Markdown 结果来看，识别内容是正确的，且非常贴切原图
评测异常：由于被识别为不同类型（Text vs Formula），代码对两者分别进行了不同的归一化处理。这导致归一化后的字符串无法匹配，进而打断了 quick_match 的匹配链路（matching interruption）。最终导致指标不能准确反映模型的真实识别效果（出现了指标与视觉效果不一致的情况）。

考虑到 Markdown 中文本和公式的边界有时较为模糊，过于严格的类别绑定可能会导致评测过于严苛。
是否可以考虑调整 textchunk 的评测方式：在进行文本块评测时，考虑将**公式块（Formula）**的内容合并进来，或者在匹配失败时尝试统一的归一化策略？
这样可以利用多对一（many-to-one）的匹配优势，兼容“内容正确但类别被误判为公式”的情况，使评测指标更聚焦于内容的准确性，从而提升评测的鲁棒性。

<img width="4344" height="2048" alt="Image" src="https://github.com/user-attachments/assets/4142b8a2-b603-4041-ae39-ed31f6e7e3a0" />

<img width="1390" height="504" alt="Image" src="https://github.com/user-attachments/assets/3c63865a-9d92-4874-9ea1-37a899a786e9" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

关于 v1.5 End2End quick_match 评测逻辑的优化建议：兼容文本/公式类别混淆导致的匹配中断 #166

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于 v1.5 End2End quick_match 评测逻辑的优化建议：兼容文本/公式类别混淆导致的匹配中断 #166

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions