Skip to content

Conversation

@xiaohuangpin
Copy link

Pull Request

描述 (Description)

The original PDF parser did not support image extraction. This new PDF parser uses the PyMuPDF library, which provides robust support for both text and images, and converts tables into Markdown tables.

变更类型 (Type of Change)

  • 🐛 Bug 修复 (Bug fix)
  • [✔ ] ✨ 新功能 (New feature)
  • 💥 破坏性变更 (Breaking change)
  • 📚 文档更新 (Documentation update)
  • 🎨 代码重构 (Code refactoring)
  • ⚡ 性能优化 (Performance improvement)
  • 🧪 测试相关 (Test related)
  • 🔧 配置变更 (Configuration change)
  • 🐳 Docker 相关 (Docker related)
  • 🎨 前端 UI/UX (Frontend UI/UX)

影响范围 (Scope)

  • 后端 API (Backend API)
  • 前端界面 (Frontend UI)
  • 数据库 (Database)
  • [✔ ] 文档解析服务 (Document Reader Service)
  • MCP 服务器 (MCP Server)
  • Docker 配置 (Docker Configuration)
  • 配置文件 (Configuration)

测试 (Testing)

  • 单元测试 (Unit tests)
  • 集成测试 (Integration tests)
  • [✔ ] 手动测试 (Manual testing)
  • 前端测试 (Frontend testing)
  • API 测试 (API testing)

检查清单 (Checklist)

  • 代码遵循项目的编码规范
  • [✔ ] 已进行自我代码审查
  • 代码变更已添加适当的注释
  • 相关文档已更新
  • 变更不会产生新的警告
  • 已添加测试用例证明修复有效或功能正常
  • 新功能和变更已更新到相关文档
  • 破坏性变更已在描述中明确说明

测试结果截图/录屏 (Screenshots/Recordings)

企业微信截图_17611820692455

数据库迁移 (Database Migration)

  • 需要数据库迁移
  • [✔ ] 不需要数据库迁移

@begoniezhao
Copy link
Collaborator

尊敬的 xiaohuangpin,您好!
衷心感谢您提交的MR,其代码实现简洁高效,有效解决了PDF的痛点问题,令人印象深刻。然而,遗憾的是,我们暂时无法将其合入本项目。
原因在于,本项目采用MIT协议,而您所使用的pymupdf4llm的开源协议为AGPL 3.0,二者存在兼容性问题,导致我们无法直接使用。不过,请您放心,我们始终欢迎并期待您提交其他符合本项目协议要求的优质开源实现。
再次感谢您的付出与支持,期待与您进一步交流合作。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants