Skip to content

soundex #49

@pebbe

Description

@pebbe

Het standaard soundex-algoritme is niet ideaal voor Nederlandse namen. Het probleem is niet dat je te veel matches krijgt, maar dat het belangrijke matches mist. Weinand en Wijnand krijgen verschillende codes.

We kunnen op zoek naar een Nederlandse variant van soundex.

Of we kunnen namen voorbewerken voordat je soundex erop loslaat. Bijvoorbeeld deze omzettingen:

  1. accenten verwijderen
  2. eij → y
  3. ey → y
  4. ei → y
  5. ij → y
  6. x → ks
  7. ch → x
  8. oud → old
  9. out → olt
  10. j → i
  11. w → v
  12. c als beginletter → k

Over regels 8 en 9 ben ik minder zeker. Het helpt voor het vinden van varianten zoals Wouters / Wolters.

Regel 12 is voor namen met C of K als beginletter: Cornelis / Kornelis

Omdat AllegroGraph niet de mogelijkheid biedt eigen zoekfilters toe te voegen moet je de Nederlandse codes opnemen in de data.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions