Usage

docker run -v $(pwd):/input cloudtooling/data-anonymizer -t xml -i "input/my.xml:(type=street,xpath=//Strasse)"

or

inputFile=input/my.xml
docker run -v $(pwd):/input cloudtooling/data-anonymizer -t xml -i \
  "$inputFile:(type=street,xpath=//Strasse)" \
  "$inputFile:(type=number,xpath=//HausNr)" \
  "$inputFile:(type=zip,xpath=//PLZ)" \
  "$inputFile:(type=city,xpath=//Ort)" \
  "$inputFile:(type=city_suffix,xpath=//Ortsteil)" \
  "$inputFile:(type=city_suffix,xpath=//KreisRegion)" \
  "$inputFile:(type=last_name,xpath=//Nachname)" \
  "$inputFile:(type=first_name,xpath=//Vorname)" \
  "$inputFile:(type=name,xpath=//Ansprechpartner)" \
  "$inputFile:(type=name,xpath=//GeschFuehrer)" \
  "$inputFile:(type=passport_number,xpath=//HRNr)" \
  "$inputFile:(type=url,xpath=//Homepage)" \
  "$inputFile:(type=email,xpath=//Email)" \
  "$inputFile:(type=phone_number,xpath=//TelefonNr)" \
  "$inputFile:(type=phone_number,xpath=//MobilNr)" \
  "$inputFile:(type=phone_number,xpath=//FaxNr)"

# Anonymize email column in CSV
... -i data.csv:(type=email,column=2)

# Anonymize multiple columns
...  -i data.csv:(type=first_name,column=0) data.csv:(type=last_name,column=1)

# With wildcards
... -i data*.csv:(type=email,column=2)

# Overwrite original file
...  -i data.csv:(type=email,column=2) -o

# Custom delimiter (comma)
...  -i data.csv:(type=email,column=2) -d ','

# Different locale
...  -i data.csv:(type=name,column=0) -l en_US

CLI Arguments

Short	Long	Destination	Default	Action	Description
`-i`	`--input`	`input`	—	`extend`	One or more input sources. Examples: • CSV: `inputfile1:(type=number,column=0)` • XML: `inputfile1:(type=last_name,xpath=./person/lastname)` • SQLite: `sqlite://[username:password@]server/database:(input_type=db,type=first_name,table=people,column=first_name)` Use multiple arguments to anonymize across multiple files. Supports mixing types (`csv`, `xml`, `json`, …) and wildcards (`*`, `?`).
`-t`	`--type`	`type`	`number`	—	Type of data to anonymize (e.g., `name`, `first_name`, `last_name`, `email`, `zip`, `city`, `address`, `number`, …).
`-e`	`--encoding`	`encoding`	`ISO-8859-15`	—	File encoding for reading/writing. Example: `UTF-8`.
`-d`	`--delimiter`	`delimiter`	`;`	—	CSV column delimiter. Use `--delimiter $'\t'` for tab-separated files.
`-l`	`--locale`	`locale`	`de_DE`	—	Locale for generating fake data (e.g., `en_US`, `fr_FR`).
`-o`	`--overwrite`	`overwrite`	`False`	`store_true`	Overwrite original file(s) with anonymized data.
`-j`	`--ignore-missing-file`	`ignoreMissingFile`	`False`	`store_true`	Ignore missing files instead of failing.
—	`--header-lines`	`headerLines`	`0`	—	Number of header lines in CSV files to skip.
—	`--namespace`	`namespace`	—	—	Define XML namespaces. Syntax: `shortname=http://full-url-of-namespace.com` Multiple can be provided, separated by spaces.

Check also .bin/tests.sh for some sample usages.

See here for supported faker types.

Extending

As Python Module

from faker import Factory
from jinja2 import Environment
from selector import Selector
from csv_anonymizer import anonymize_csv
from anonymizer import unidecode_filter

faker = Factory.create('de_DE')
template_env = Environment()
template_env.filters['unidecode'] = unidecode_filter

selector = Selector("(type=email,column=2)")
anonymize_csv(
    'input.csv', 'output.csv', [selector],
    0, 'utf-8', ';', faker, template_env
)

Name		Name	Last commit message	Last commit date
Latest commit History 146 Commits
.github		.github
.vscode		.vscode
lib		lib
test		test
.dockerignore		.dockerignore
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
Dockerfile		Dockerfile
LICENSE		LICENSE
__init__.py		__init__.py
anonymizer.py		anonymizer.py
config.json		config.json
csv_anonymizer.py		csv_anonymizer.py
csv_filterlines.py		csv_filterlines.py
faker_utils.py		faker_utils.py
multi_anonymizer.py		multi_anonymizer.py
pytest.ini		pytest.ini
readme.md		readme.md
renovate.json		renovate.json
requirements.txt		requirements.txt
selector.py		selector.py
source.py		source.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Repository files navigation

Usage

CLI Arguments

Extending

As Python Module

About

Uh oh!

Releases 4

Sponsor this project

Uh oh!

Packages

Languages

Uh oh!

License

CloudTooling/data-anonymizer

Folders and files

Latest commit

History

Repository files navigation

Usage

CLI Arguments

Extending

As Python Module

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 4

Sponsor this project

Uh oh!

Packages 0

Languages

Packages