apache
diff --git a/‎extensions-core/avro-extensions/src/test/java/org/apache/druid/data/input/AvroStreamInputRowParserTest.java‎
Lines changed: 4 additions & 1 deletion b/‎extensions-core/avro-extensions/src/test/java/org/apache/druid/data/input/AvroStreamInputRowParserTest.java‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎indexing-hadoop/src/main/java/org/apache/druid/indexer/HadoopDruidIndexerConfig.java‎
Lines changed: 14 additions & 3 deletions b/‎indexing-hadoop/src/main/java/org/apache/druid/indexer/HadoopDruidIndexerConfig.java‎
Lines changed: 14 additions & 3 deletions
diff --git a/‎indexing-hadoop/src/main/java/org/apache/druid/indexer/IndexGeneratorJob.java‎
Lines changed: 2 additions & 2 deletions b/‎indexing-hadoop/src/main/java/org/apache/druid/indexer/IndexGeneratorJob.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎indexing-hadoop/src/main/java/org/apache/druid/indexer/InputRowSerde.java‎
Lines changed: 11 additions & 4 deletions b/‎indexing-hadoop/src/main/java/org/apache/druid/indexer/InputRowSerde.java‎
Lines changed: 11 additions & 4 deletions
diff --git a/‎indexing-hadoop/src/test/java/org/apache/druid/indexer/HadoopDruidIndexerConfigTest.java‎
Lines changed: 78 additions & 0 deletions b/‎indexing-hadoop/src/test/java/org/apache/druid/indexer/HadoopDruidIndexerConfigTest.java‎
Lines changed: 78 additions & 0 deletions
@@ -45,6 +45,7 @@
 import org.apache.druid.java.util.common.parsers.JSONPathFieldType;
 import org.apache.druid.java.util.common.parsers.JSONPathSpec;
 import org.apache.druid.java.util.common.parsers.ParseException;
+import org.apache.druid.math.expr.Evals;
 import org.junit.Assert;
 import org.junit.Before;
 import org.junit.Test;
@@ -71,6 +72,7 @@
 import java.util.List;
 import java.util.Map;
 import java.util.regex.Pattern;
+import java.util.stream.Collectors;
 
 public class AvroStreamInputRowParserTest
 {
@@ -366,8 +368,9 @@ static void assertInputRowCorrect(InputRow inputRow, List<String> expectedDimens
           Lists.transform(SOME_INT_ARRAY_VALUE, String::valueOf),
           inputRow.getDimension("someIntArray")
       );
+      // For string array, nulls are preserved so use ArrayList (ImmutableList doesn't support nulls)
       Assert.assertEquals(
-          Lists.transform(SOME_STRING_ARRAY_VALUE, String::valueOf),
+          SOME_STRING_ARRAY_VALUE.stream().map(Evals::asString).collect(Collectors.toList()),
           inputRow.getDimension("someStringArray")
       );
 
 
@@ -52,7 +52,8 @@
 import org.apache.druid.java.util.common.jackson.JacksonUtils;
 import org.apache.druid.segment.IndexIO;
 import org.apache.druid.segment.IndexMerger;
-import org.apache.druid.segment.IndexMergerV9;
+import org.apache.druid.segment.IndexMergerV10Factory;
+import org.apache.druid.segment.IndexMergerV9Factory;
 import org.apache.druid.segment.IndexSpec;
 import org.apache.druid.segment.loading.DataSegmentPusher;
 import org.apache.druid.server.DruidNode;
@@ -88,12 +89,14 @@ public class HadoopDruidIndexerConfig
   private static final Injector INJECTOR;
 
   static final String CONFIG_PROPERTY = "druid.indexer.config";
+  private static final String STORE_EMPTY_COLUMNS_KEY = "druid.indexer.task.storeEmptyColumns";
+  private static final String BUILD_V10_KEY = "druid.indexer.task.buildV10";
   static final Charset JAVA_NATIVE_CHARSET = Charset.forName("Unicode");
   static final Splitter TAB_SPLITTER = Splitter.on("\t");
   static final Joiner TAB_JOINER = Joiner.on("\t");
   public static final ObjectMapper JSON_MAPPER;
   public static final IndexIO INDEX_IO;
-  static final IndexMerger INDEX_MERGER_V9; // storeEmptyColumns is off for this indexMerger
+  static final IndexMerger INDEX_MERGER;
   static final HadoopKerberosConfig HADOOP_KERBEROS_CONFIG;
   static final DataSegmentPusher DATA_SEGMENT_PUSHER;
   private static final String DEFAULT_WORKING_PATH = "/tmp/druid-indexing";
@@ -129,10 +132,17 @@ public class HadoopDruidIndexerConfig
     );
     JSON_MAPPER = INJECTOR.getInstance(ObjectMapper.class);
     INDEX_IO = INJECTOR.getInstance(IndexIO.class);
-    INDEX_MERGER_V9 = INJECTOR.getInstance(IndexMergerV9.class);
     HADOOP_KERBEROS_CONFIG = INJECTOR.getInstance(HadoopKerberosConfig.class);
     DATA_SEGMENT_PUSHER = INJECTOR.getInstance(DataSegmentPusher.class);
     PROPERTIES = INJECTOR.getInstance(Properties.class);
+
+    boolean buildV10 = Boolean.parseBoolean(PROPERTIES.getProperty(BUILD_V10_KEY, "false"));
+    if (buildV10) {
+      INDEX_MERGER = INJECTOR.getInstance(IndexMergerV10Factory.class).create();
+    } else {
+      boolean storeEmptyColumns = Boolean.parseBoolean(PROPERTIES.getProperty(STORE_EMPTY_COLUMNS_KEY, "true"));
+      INDEX_MERGER = INJECTOR.getInstance(IndexMergerV9Factory.class).create(storeEmptyColumns);
+    }
   }
 
   public enum IndexJobCounters
@@ -262,6 +272,7 @@ public HadoopDruidIndexerConfig(
     this.allowedHadoopPrefix.add("druid.javascript");
     this.allowedHadoopPrefix.addAll(DATA_SEGMENT_PUSHER.getAllowedPropertyPrefixesForHadoop());
     this.allowedHadoopPrefix.addAll(spec.getTuningConfig().getUserAllowedHadoopPrefix());
+    this.allowedHadoopPrefix.add("druid.indexer");
   }
 
   @JsonProperty(value = "spec")
 
@@ -602,7 +602,7 @@ private File persist(
         final ProgressIndicator progressIndicator
     ) throws IOException
     {
-      return HadoopDruidIndexerConfig.INDEX_MERGER_V9
+      return HadoopDruidIndexerConfig.INDEX_MERGER
           .persist(index, interval, file, config.getIndexSpecForIntermediatePersists(), progressIndicator, null);
     }
 
@@ -614,7 +614,7 @@ protected File mergeQueryableIndex(
     ) throws IOException
     {
       boolean rollup = config.getSchema().getDataSchema().getGranularitySpec().isRollup();
-      return HadoopDruidIndexerConfig.INDEX_MERGER_V9
+      return HadoopDruidIndexerConfig.INDEX_MERGER
           .mergeQueryableIndex(
               indexes,
               rollup,
 
@@ -372,9 +372,9 @@ private static void writeBytes(@Nullable byte[] value, ByteArrayDataOutput out)
     }
   }
 
-  private static void writeString(String value, ByteArrayDataOutput out) throws IOException
+  private static void writeString(@Nullable String value, ByteArrayDataOutput out) throws IOException
   {
-    writeBytes(StringUtils.toUtf8(value), out);
+    writeBytes(StringUtils.toUtf8Nullable(value), out);
   }
 
   private static void writeStringArray(List<String> values, ByteArrayDataOutput out) throws IOException
@@ -389,15 +389,20 @@ private static void writeStringArray(List<String> values, ByteArrayDataOutput ou
     }
   }
 
+  @Nullable
   private static String readString(DataInput in) throws IOException
   {
     byte[] result = readBytes(in);
-    return StringUtils.fromUtf8(result);
+    return StringUtils.fromUtf8Nullable(result);
   }
 
+  @Nullable
   private static byte[] readBytes(DataInput in) throws IOException
   {
     int size = WritableUtils.readVInt(in);
+    if (size < 0) {
+      return null;
+    }
     byte[] result = new byte[size];
     in.readFully(result, 0, size);
     return result;
@@ -449,7 +454,9 @@ public static InputRow fromBytes(
 
         if (typeHelper.getType() == ValueType.STRING) {
           List<String> dimensionValues = (List<String>) dimValues;
-          if (dimensionValues.size() == 1) {
+          // Preserve single-element lists that contain null (e.g., [null]) instead of unwrapping to null,
+          // which would then become [] when getDimension() is called. This ensures parity with native batch ingestion.
+          if (dimensionValues.size() == 1 && dimensionValues.get(0) != null) {
             event.put(dimension, dimensionValues.get(0));
           } else {
             event.put(dimension, dimensionValues);
 
@@ -38,6 +38,9 @@
 import org.apache.druid.java.util.common.DateTimes;
 import org.apache.druid.java.util.common.Intervals;
 import org.apache.druid.java.util.common.granularity.Granularities;
+import org.apache.druid.segment.IndexMerger;
+import org.apache.druid.segment.IndexMergerV10;
+import org.apache.druid.segment.IndexMergerV9;
 import org.apache.druid.segment.indexing.DataSchema;
 import org.apache.druid.timeline.partition.HashBasedNumberedShardSpec;
 import org.apache.druid.timeline.partition.HashPartitionFunction;
@@ -46,11 +49,13 @@
 import org.junit.Test;
 
 import javax.annotation.Nullable;
+import java.lang.reflect.Field;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
+import java.util.Properties;
 import java.util.Set;
 
 public class HadoopDruidIndexerConfigTest
@@ -214,6 +219,79 @@ public void testGetTargetPartitionSizeWithSingleDimensionPartitionsMaxRowsPerSeg
     Assert.assertEquals(maxRowsPerSegment, targetPartitionSize);
   }
 
+  /**
+   * Tests that INDEX_MERGER is configured correctly based on the properties.
+   * Verifies the merger type (V9 or V10) and storeEmptyColumns flag match what properties dictate.
+   */
+  @Test
+  public void testIndexMergerMatchesProperties() throws Exception
+  {
+    IndexMerger indexMerger = HadoopDruidIndexerConfig.INDEX_MERGER;
+    Properties properties = HadoopDruidIndexerConfig.PROPERTIES;
+
+    boolean buildV10 = Boolean.parseBoolean(properties.getProperty("druid.indexer.task.buildV10", "false"));
+    boolean expectedStoreEmptyColumns = buildV10 ||
+        Boolean.parseBoolean(properties.getProperty("druid.indexer.task.storeEmptyColumns", "true"));
+
+    if (buildV10) {
+      Assert.assertTrue(
+          "When buildV10=true, INDEX_MERGER should be IndexMergerV10",
+          indexMerger instanceof IndexMergerV10
+      );
+    } else {
+      Assert.assertTrue(
+          "When buildV10=false, INDEX_MERGER should be IndexMergerV9",
+          indexMerger instanceof IndexMergerV9
+      );
+      // Use reflection to verify storeEmptyColumns on IndexMergerV9
+      Field storeEmptyColumnsField = IndexMergerV9.class.getDeclaredField("storeEmptyColumns");
+      storeEmptyColumnsField.setAccessible(true);
+      boolean actualStoreEmptyColumns = (boolean) storeEmptyColumnsField.get(indexMerger);
+      Assert.assertEquals(
+          "storeEmptyColumns flag should match property value",
+          expectedStoreEmptyColumns,
+          actualStoreEmptyColumns
+      );
+    }
+  }
+
+  /**
+   * Tests that druid.indexer.task properties are passed to Hadoop jobs via getAllowedProperties().
+   */
+  @Test
+  public void testIndexerPropertiesArePassedToHadoopJobs()
+  {
+    HadoopIngestionSpec spec = new HadoopIngestionSpecBuilder().build();
+    HadoopDruidIndexerConfig config = new HadoopDruidIndexerConfig(spec);
+
+    String storeEmptyColumnsKey = "druid.indexer.task.storeEmptyColumns";
+    String buildV10Key = "druid.indexer.task.buildV10";
+    String originalStoreEmpty = HadoopDruidIndexerConfig.PROPERTIES.getProperty(storeEmptyColumnsKey);
+    String originalBuildV10 = HadoopDruidIndexerConfig.PROPERTIES.getProperty(buildV10Key);
+
+    try {
+      HadoopDruidIndexerConfig.PROPERTIES.setProperty(storeEmptyColumnsKey, "true");
+      HadoopDruidIndexerConfig.PROPERTIES.setProperty(buildV10Key, "true");
+
+      Map<String, String> allowedProperties = config.getAllowedProperties();
+      Assert.assertEquals("true", allowedProperties.get(storeEmptyColumnsKey));
+      Assert.assertEquals("true", allowedProperties.get(buildV10Key));
+    }
+    finally {
+      restoreProperty(storeEmptyColumnsKey, originalStoreEmpty);
+      restoreProperty(buildV10Key, originalBuildV10);
+    }
+  }
+
+  private void restoreProperty(String key, String originalValue)
+  {
+    if (originalValue != null) {
+      HadoopDruidIndexerConfig.PROPERTIES.setProperty(key, originalValue);
+    } else {
+      HadoopDruidIndexerConfig.PROPERTIES.remove(key);
+    }
+  }
+
   private static class HadoopIngestionSpecBuilder
   {
     private static final DataSchema DATA_SCHEMA =
Original file line number	Diff line number	Diff line change
`@@ -602,7 +602,7 @@ private File persist(`
`602`	`602`	`final ProgressIndicator progressIndicator`
`603`	`603`	`) throws IOException`
`604`	`604`	`{`
`605`		`- return HadoopDruidIndexerConfig.INDEX_MERGER_V9`
	`605`	`+ return HadoopDruidIndexerConfig.INDEX_MERGER`
`606`	`606`	`.persist(index, interval, file, config.getIndexSpecForIntermediatePersists(), progressIndicator, null);`
`607`	`607`	`}`
`608`	`608`
`@@ -614,7 +614,7 @@ protected File mergeQueryableIndex(`
`614`	`614`	`) throws IOException`
`615`	`615`	`{`
`616`	`616`	`boolean rollup = config.getSchema().getDataSchema().getGranularitySpec().isRollup();`
`617`		`- return HadoopDruidIndexerConfig.INDEX_MERGER_V9`
	`617`	`+ return HadoopDruidIndexerConfig.INDEX_MERGER`
`618`	`618`	`.mergeQueryableIndex(`
`619`	`619`	`indexes,`
`620`	`620`	`rollup,`
Original file line number	Diff line number	Diff line change
`@@ -372,9 +372,9 @@ private static void writeBytes(@Nullable byte[] value, ByteArrayDataOutput out)`
`372`	`372`	`}`
`373`	`373`	`}`
`374`	`374`
`375`		`- private static void writeString(String value, ByteArrayDataOutput out) throws IOException`
	`375`	`+ private static void writeString(@Nullable String value, ByteArrayDataOutput out) throws IOException`
`376`	`376`	`{`
`377`		`- writeBytes(StringUtils.toUtf8(value), out);`
	`377`	`+ writeBytes(StringUtils.toUtf8Nullable(value), out);`
`378`	`378`	`}`
`379`	`379`
`380`	`380`	`private static void writeStringArray(List<String> values, ByteArrayDataOutput out) throws IOException`
`@@ -389,15 +389,20 @@ private static void writeStringArray(List<String> values, ByteArrayDataOutput ou`
`389`	`389`	`}`
`390`	`390`	`}`
`391`	`391`
	`392`	`+ @Nullable`
`392`	`393`	`private static String readString(DataInput in) throws IOException`
`393`	`394`	`{`
`394`	`395`	`byte[] result = readBytes(in);`
`395`		`- return StringUtils.fromUtf8(result);`
	`396`	`+ return StringUtils.fromUtf8Nullable(result);`
`396`	`397`	`}`
`397`	`398`
	`399`	`+ @Nullable`
`398`	`400`	`private static byte[] readBytes(DataInput in) throws IOException`
`399`	`401`	`{`
`400`	`402`	`int size = WritableUtils.readVInt(in);`
	`403`	`+ if (size < 0) {`
	`404`	`+ return null;`
	`405`	`+ }`
`401`	`406`	`byte[] result = new byte[size];`
`402`	`407`	`in.readFully(result, 0, size);`
`403`	`408`	`return result;`
`@@ -449,7 +454,9 @@ public static InputRow fromBytes(`
`449`	`454`
`450`	`455`	`if (typeHelper.getType() == ValueType.STRING) {`
`451`	`456`	`List<String> dimensionValues = (List<String>) dimValues;`
`452`		`- if (dimensionValues.size() == 1) {`
	`457`	`+ // Preserve single-element lists that contain null (e.g., [null]) instead of unwrapping to null,`
	`458`	`+ // which would then become [] when getDimension() is called. This ensures parity with native batch ingestion.`
	`459`	`+ if (dimensionValues.size() == 1 && dimensionValues.get(0) != null) {`
`453`	`460`	`event.put(dimension, dimensionValues.get(0));`
`454`	`461`	`} else {`
`455`	`462`	`event.put(dimension, dimensionValues);`