PaddleOCR-VL后处理合框逻辑问题

您好，我在看合并的实现逻辑时，发现如下几个问题，可能导致框的合并存在问题：
1. 判断框是否上下对齐的一个条件是需要与其他框存在重叠，这里该如何理解？是否少了一个not？https://github.com/PaddlePaddle/PaddleX/blob/release/3.3/paddlex/inference/pipelines/paddleocr_vl/uilts.py#L248
2. is_cross表示两个框在水平方向无重叠，且竖直方向有重叠。该逻辑合框的依据是什么？根据现在的逻辑，会将下图中3，4合并。

[yanbaor2_yanbaoPPT_6065_layout_order_res.zip](https://github.com/user-attachments/files/23470394/yanbaor2_yanbaoPPT_6065_layout_order_res.zip)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

PaddleOCR-VL后处理合框逻辑问题 #4722

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

PaddleOCR-VL后处理合框逻辑问题 #4722

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions