Fix atomic_rename double-wrapping bug in transform_conversation (#2163)

rjpower · web-flow · commit 5a4a77de4227 · 2025-12-06T01:33:51.000-08:00
Remove unnecessary `atomic_rename()` wrapper around
`write_jsonl_file()`.

`write_jsonl_file()` already handles atomic writes internally, and the
double-wrapping caused the compression check to fail (seeing `.tmp`
extension instead of `.gz`).
diff --git a/lib/marin/src/marin/transform/conversation/transform_conversation.py b/lib/marin/src/marin/transform/conversation/transform_conversation.py
@@ -38,7 +38,7 @@
 from marin.core.conversation import DolmaConversationOutput, OpenAIChatMessage
 from marin.execution import unwrap_versioned_value
 from marin.utils import fsspec_mkdirs, load_dataset_with_backoff
-from zephyr import Dataset, atomic_rename, flow_backend, load_jsonl, write_jsonl_file
+from zephyr import Dataset, flow_backend, load_jsonl, write_jsonl_file
 
 from .adapters import TransformAdapter
 
@@ -361,8 +361,7 @@ def transform_records():
             if transformed_row is not None:
                 yield transformed_row.model_dump()
 
-    with atomic_rename(output_filename) as tmp_filename:
-        result = write_jsonl_file(transform_records(), tmp_filename)
+    result = write_jsonl_file(transform_records(), output_filename)
 
     logging.info(
         f"Wrote {result['count']} rows to {result['path']} "