Strange cid tag into simple pdf extraction

I'm trying megaparse to see how it can handle my pdf ,and I found a buggy behaviour.
all pdf I gave to hit return with some letter seen as (cid:xxx). 
This is always the "e" letter.

Préambul(cid:4) L(cid:4) p(cid:4)rsonn(cid:4)l, dans l'(cid:4)x(cid:4)rcic(cid:4) d(cid:4) s(cid:4)s fonctions, (cid:4)st conduit à utilis(cid:4)r l(cid:4)s outils (cid:4)t logici(cid:4)ls informatiqu(cid:4)s mis à sa disposition pour accéd(cid:4)r aux systèm(cid:4)s d'information (cid:4)t d(cid:4) communication d(cid:4) la société. L’utilisation d(cid:4) s(cid:4)rvic(cid:4)s (cid:4)n lign(cid:4) doit êtr(cid:4) (cid:4)ff(cid:4)ctué(cid:4) (cid:4)xclusiv(cid:4)m(cid:4)nt à d(cid:4)s fins prof(cid:4)ssionn(cid:4)ll(cid:4)s.
Ce document définit les règles et les logiciels homologués pour le groupe.
D’un(cid:4) manièr(cid:4) général(cid:4), la philosophi(cid:4) du group(cid:4) (cid:4)st d’(cid:4)xt(cid:4)rnalis(cid:4)r l(cid:4) moins d(cid:4) donné(cid:4)s possibl(cid:4)s v(cid:4)rs l’(cid:4)xtéri(cid:4)ur. Quand c(cid:4)la n(cid:4) p(cid:4)ut êtr(cid:4) évité, il privilégi(cid:4) d(cid:4)s s(cid:4)rvic(cid:4)s (cid:4)uropé(cid:4)ns.

Pdf file are generated from onlyoffice version 8.2.2.22 (deb) on debian 12.
Attached a very silmle sample pdf

[Test_003.pdf](https://github.com/user-attachments/files/18724849/Test_003.pdf)

code used
`
from megaparse import MegaParse
megaparse = MegaParse()
response = megaparse.load("./data/Test_003.pdf")
`

Also I see it always switch to "Switching to Unstructured Parser"

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Strange cid tag into simple pdf extraction #225

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Strange cid tag into simple pdf extraction #225

Description

Activity

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions