Skip to content

Bold list entries are not converted correctly #1604

@sabotrax

Description

@sabotrax

Bug

Using docling as the content extraction engine in open-webui (a llm web frontend).
docling is running in docker. docling has been installed as advised in https://docs.openwebui.com/features/document-extraction/docling/
when uploading md documents into openwebui knowledge (collection of documents the llm should be working on),
the original md document (excerpt):

- **Kategorie**: Rückläufe/ Abfälle HM-Material in der Produktion
- **Zustand**: PR trocken, Kleinmengen

will be markdown-rendered to:

-  [<RawText children='Kategorie'>]
-  [<RawText children='Zustand'>]

Subsequently, the llm is missing some of the information it should know about.
...

Steps to reproduce

I skipped open-webui and uploaded the document to the docling web ui running on port 5001 and processed the file with default settings. I also tested the different engines tesseract, easyocr, ocrmac, rapidocr and tesserocr with the same result.
The source document:

# Rücklaufmaterial - Pressrücklauf PR, Pressabfall PA

## Hauptinformationen
- **Kategorie**: Rückläufe/ Abfälle HM-Material in der Produktion
- **Zustand**: PR trocken, Kleinmengen

## Entsorgungsanweisung
Material nach HM-Sorten getrennt - Auswiegen - Eintrag in Übergabeliste an Übergabestation RU

## Behälter & Kennzeichnung
- **Sammelbehältnis**: Kleinmengen: Plastikeimer rot mit Deckel weiß verschlossen
- **Kennzeichnung**: Behälter mit HM-Sorte und RU-Art ("VR" oder "PR") kennzeichnen

## Übergabe
Übergabestation Schwerlastregal Bereich 300t-Presse Keine Direktentsorgung!

The output after processing in markdown:

# Rücklaufmaterial - Pressrücklauf PR, Pressabfall PA

## Hauptinformationen

- [&lt;RawText children='Kategorie'&gt;]
- [&lt;RawText children='Zustand'&gt;]

## Entsorgungsanweisung

Material nach HM-Sorten getrennt - Auswiegen - Eintrag in Übergabeliste an Übergabestation RU

## Behälter &amp; Kennzeichnung

- [&lt;RawText children='Sammelbehältnis'&gt;]
- [&lt;RawText children='Kennzeichnung'&gt;]

## Übergabe

Übergabestation Schwerlastregal Bereich 300t-Presse Keine Direktentsorgung!

ID: 1

...

Docling version

docling version: 2.30.0
...

Python version

Python 3.12.10
...

Metadata

Metadata

Assignees

Labels

bugSomething isn't working

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions