Skip to content

Preprocessed - Guardar información en parquet particionado (pyspark) #7

Open
@dvilla88

Description

@dvilla88

En AWS actualmente para el schema preprocessed la información se guarda en formato parquet utilizando pandas, quedando toda la información comprimida en un solo archivo parquet, sin embargo, no se ha podido hacer con pyspark para comprimir un archivo en varias particiones parquet.

  • Guardar información en particiones parquet utilizando pyspark

Metadata

Metadata

Labels

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions