-
Notifications
You must be signed in to change notification settings - Fork 3.2k
Description
Bug
Using docling as the content extraction engine in open-webui (a llm web frontend).
docling is running in docker. docling has been installed as advised in https://docs.openwebui.com/features/document-extraction/docling/
when uploading md documents into openwebui knowledge (collection of documents the llm should be working on),
the original md document (excerpt):
- **Kategorie**: Rückläufe/ Abfälle HM-Material in der Produktion
- **Zustand**: PR trocken, Kleinmengen
will be markdown-rendered to:
- [<RawText children='Kategorie'>]
- [<RawText children='Zustand'>]
Subsequently, the llm is missing some of the information it should know about.
...
Steps to reproduce
I skipped open-webui and uploaded the document to the docling web ui running on port 5001 and processed the file with default settings. I also tested the different engines tesseract, easyocr, ocrmac, rapidocr and tesserocr with the same result.
The source document:
# Rücklaufmaterial - Pressrücklauf PR, Pressabfall PA
## Hauptinformationen
- **Kategorie**: Rückläufe/ Abfälle HM-Material in der Produktion
- **Zustand**: PR trocken, Kleinmengen
## Entsorgungsanweisung
Material nach HM-Sorten getrennt - Auswiegen - Eintrag in Übergabeliste an Übergabestation RU
## Behälter & Kennzeichnung
- **Sammelbehältnis**: Kleinmengen: Plastikeimer rot mit Deckel weiß verschlossen
- **Kennzeichnung**: Behälter mit HM-Sorte und RU-Art ("VR" oder "PR") kennzeichnen
## Übergabe
Übergabestation Schwerlastregal Bereich 300t-Presse Keine Direktentsorgung!
The output after processing in markdown:
# Rücklaufmaterial - Pressrücklauf PR, Pressabfall PA
## Hauptinformationen
- [<RawText children='Kategorie'>]
- [<RawText children='Zustand'>]
## Entsorgungsanweisung
Material nach HM-Sorten getrennt - Auswiegen - Eintrag in Übergabeliste an Übergabestation RU
## Behälter & Kennzeichnung
- [<RawText children='Sammelbehältnis'>]
- [<RawText children='Kennzeichnung'>]
## Übergabe
Übergabestation Schwerlastregal Bereich 300t-Presse Keine Direktentsorgung!
ID: 1
...
Docling version
docling version: 2.30.0
...
Python version
Python 3.12.10
...