apache
diff --git a/‎embedded-tests/src/test/java/org/apache/druid/testing/embedded/compact/CompactionSupervisorTest.java‎
Lines changed: 182 additions & 0 deletions b/‎embedded-tests/src/test/java/org/apache/druid/testing/embedded/compact/CompactionSupervisorTest.java‎
Lines changed: 182 additions & 0 deletions
diff --git a/‎embedded-tests/src/test/java/org/apache/druid/testing/embedded/msq/MultiStageQueryTest.java‎
Lines changed: 172 additions & 0 deletions b/‎embedded-tests/src/test/java/org/apache/druid/testing/embedded/msq/MultiStageQueryTest.java‎
Lines changed: 172 additions & 0 deletions
@@ -67,6 +67,7 @@
 import org.apache.druid.segment.metadata.IndexingStateFingerprintMapper;
 import org.apache.druid.segment.transform.CompactionTransformSpec;
 import org.apache.druid.segment.virtual.ExpressionVirtualColumn;
+import org.apache.druid.segment.virtual.NestedFieldVirtualColumn;
 import org.apache.druid.server.compaction.CompactionCandidateSearchPolicy;
 import org.apache.druid.server.compaction.InlineReindexingRuleProvider;
 import org.apache.druid.server.compaction.MostFragmentedIntervalFirstPolicy;
@@ -709,6 +710,187 @@ public void test_compaction_cluster_by_virtualcolumn_rollup()
     );
   }
 
+  @Test
+  public void test_compaction_cluster_by_nested_virtualcolumn()
+  {
+    // Virtual Columns on nested data is only supported with MSQ compaction engine right now.
+    CompactionEngine compactionEngine = CompactionEngine.MSQ;
+    configureCompaction(compactionEngine, null);
+
+    String jsonDataWithNestedColumn =
+        """
+            {"timestamp": "2023-01-01T00:00:00", "str":"a",    "obj":{"a": "LL"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"",     "obj":{"a": "MM"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"null", "obj":{"a": "NN"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"b",    "obj":{"a": "OO"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"c",    "obj":{"a": "PP"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"d",    "obj":{"a": "QQ"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":null,   "obj":{"a": "RR"}}
+            """;
+
+    final TaskBuilder.Index task = TaskBuilder
+        .ofTypeIndex()
+        .dataSource(dataSource)
+        .jsonInputFormat()
+        .inlineInputSourceWithData(jsonDataWithNestedColumn)
+        .isoTimestampColumn("timestamp")
+        .schemaDiscovery()
+        .granularitySpec("DAY", null, false);
+
+    cluster.callApi().runTask(task.withId(IdUtils.getRandomId()), overlord);
+    cluster.callApi().waitForAllSegmentsToBeAvailable(dataSource, coordinator, broker);
+
+    Assertions.assertEquals(7, getTotalRowCount());
+
+    // getClusterByVirtualColumnMappings does the order 'backwards' since it finds the column referenced by the
+    // clustered by expression and then adds its dependencies after when collecting virtual columns. this test will
+    // fail if that ever changes (unless we do something like make equals on VirtualColumns not care about order)
+    VirtualColumns virtualColumns = VirtualColumns.create(
+        new ExpressionVirtualColumn("v1", "lower(\"v0\")", ColumnType.STRING, TestExprMacroTable.INSTANCE),
+        new NestedFieldVirtualColumn("obj", "$.a", "v0", ColumnType.STRING)
+    );
+
+    InlineSchemaDataSourceCompactionConfig config =
+        InlineSchemaDataSourceCompactionConfig
+            .builder()
+            .forDataSource(dataSource)
+            .withSkipOffsetFromLatest(Period.seconds(0))
+            .withTransformSpec(
+                new CompactionTransformSpec(
+                    null,
+                    virtualColumns
+                )
+            )
+            .withTuningConfig(
+                UserCompactionTaskQueryTuningConfig
+                    .builder()
+                    .partitionsSpec(new DimensionRangePartitionsSpec(4, null, List.of("v1"), false))
+                    .build()
+            )
+            .build();
+
+    runCompactionWithSpec(config);
+    waitForAllCompactionTasksToFinish();
+
+    cluster.callApi().waitForAllSegmentsToBeAvailable(dataSource, coordinator, broker);
+
+    List<DataSegment> segments = cluster.callApi().getVisibleUsedSegments(dataSource, overlord).stream().toList();
+    Assertions.assertEquals(2, segments.size());
+    Assertions.assertEquals(
+        new DimensionRangeShardSpec(
+            List.of("v1"),
+            virtualColumns,
+            null,
+            StringTuple.create("oo"),
+            0,
+            2
+        ),
+        segments.get(0).getShardSpec()
+    );
+    Assertions.assertEquals(
+        new DimensionRangeShardSpec(
+            List.of("v1"),
+            virtualColumns,
+            StringTuple.create("oo"),
+            null,
+            1,
+            2
+        ),
+        segments.get(1).getShardSpec()
+    );
+  }
+
+  @Test
+  public void test_compaction_cluster_by_nested_virtualcolumn_rollup()
+  {
+    // Virtual Columns on nested data is only supported with MSQ compaction engine right now.
+    CompactionEngine compactionEngine = CompactionEngine.MSQ;
+    configureCompaction(compactionEngine, null);
+
+    String jsonDataWithNestedColumn =
+        """
+            {"timestamp": "2023-01-01T00:00:00", "str":"a",    "obj":{"a": "LL"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"",     "obj":{"a": "MM"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"null", "obj":{"a": "NN"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"b",    "obj":{"a": "OO"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"c",    "obj":{"a": "PP"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":"d",    "obj":{"a": "QQ"}}
+            {"timestamp": "2023-01-01T00:00:00", "str":null,   "obj":{"a": "RR"}}
+            """;
+
+    final TaskBuilder.Index task = TaskBuilder
+        .ofTypeIndex()
+        .dataSource(dataSource)
+        .jsonInputFormat()
+        .inlineInputSourceWithData(jsonDataWithNestedColumn)
+        .isoTimestampColumn("timestamp")
+        .schemaDiscovery()
+        .dataSchema(builder -> builder.withAggregators(new CountAggregatorFactory("count")))
+        .granularitySpec("DAY", "MINUTE", true);
+
+    cluster.callApi().runTask(task.withId(IdUtils.getRandomId()), overlord);
+    cluster.callApi().waitForAllSegmentsToBeAvailable(dataSource, coordinator, broker);
+
+    Assertions.assertEquals(7, getTotalRowCount());
+
+    // getClusterByVirtualColumnMappings does the order 'backwards' since it finds the column referenced by the
+    // clustered by expression and then adds its dependencies after when collecting virtual columns. this test will
+    // fail if that ever changes (unless we do something like make equals on VirtualColumns not care about order)
+    VirtualColumns virtualColumns = VirtualColumns.create(
+        new ExpressionVirtualColumn("v1", "lower(\"v0\")", ColumnType.STRING, TestExprMacroTable.INSTANCE),
+        new NestedFieldVirtualColumn("obj", "$.a", "v0", ColumnType.STRING)
+    );
+
+    InlineSchemaDataSourceCompactionConfig config =
+        InlineSchemaDataSourceCompactionConfig
+            .builder()
+            .forDataSource(dataSource)
+            .withSkipOffsetFromLatest(Period.seconds(0))
+            .withTransformSpec(
+                new CompactionTransformSpec(
+                    null,
+                    virtualColumns
+                )
+            )
+            .withTuningConfig(
+                UserCompactionTaskQueryTuningConfig
+                    .builder()
+                    .partitionsSpec(new DimensionRangePartitionsSpec(4, null, List.of("v1"), false))
+                    .build()
+            )
+            .build();
+
+    runCompactionWithSpec(config);
+    waitForAllCompactionTasksToFinish();
+
+    cluster.callApi().waitForAllSegmentsToBeAvailable(dataSource, coordinator, broker);
+
+    List<DataSegment> segments = cluster.callApi().getVisibleUsedSegments(dataSource, overlord).stream().toList();
+    Assertions.assertEquals(2, segments.size());
+    Assertions.assertEquals(
+        new DimensionRangeShardSpec(
+            List.of("v1"),
+            virtualColumns,
+            null,
+            StringTuple.create("oo"),
+            0,
+            2
+        ),
+        segments.get(0).getShardSpec()
+    );
+    Assertions.assertEquals(
+        new DimensionRangeShardSpec(
+            List.of("v1"),
+            virtualColumns,
+            StringTuple.create("oo"),
+            null,
+            1,
+            2
+        ),
+        segments.get(1).getShardSpec()
+    );
+  }
+
   /**
    * Tests that when a compaction task filters out all rows using a transform spec,
    * tombstones are created to properly drop the old segments. This test covers both
 
@@ -46,6 +46,9 @@
 import org.junit.jupiter.api.Test;
 
 import java.io.File;
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.List;
@@ -267,6 +270,88 @@ CLUSTERED BY CONCAT(country, ':', city)
     assertClusterByVirtualColumnQueries();
   }
 
+  @Test
+  public void testClusterByNestedVirtualColumn() throws IOException
+  {
+    final Path tempFile = createNestedJsonDataFile();
+    final String sqlTemplate =
+        """
+            SET rowsPerSegment = 4;
+            SET groupByEnableMultiValueUnnesting = FALSE;
+            REPLACE INTO %s OVERWRITE ALL
+            WITH "ext" AS (
+              SELECT *
+              FROM TABLE(EXTERN('{"type":"local","files":["%s"]}', '{"type":"json"}'))
+              EXTEND(
+                "timestamp" VARCHAR,
+                "str" VARCHAR,
+                "obj" TYPE('COMPLEX<json>')
+              )
+            )
+            SELECT
+              TIME_PARSE("timestamp") AS __time,
+              str,
+              obj
+            FROM "ext"
+            PARTITIONED BY DAY
+            CLUSTERED BY LOWER(JSON_VALUE(obj, '$.a' RETURNING VARCHAR))
+            """;
+    final String sql = StringUtils.format(
+        sqlTemplate,
+        dataSource,
+        tempFile.toAbsolutePath()
+    );
+
+    final SqlTaskStatus taskStatus = msqApis.submitTaskSql(sql);
+    cluster.callApi().waitForTaskToSucceed(taskStatus.getTaskId(), overlord.latchableEmitter());
+    cluster.callApi().waitForAllSegmentsToBeAvailable(dataSource, coordinator, broker);
+
+    assertClusterByNestedVirtualColumnSegments();
+    assertClusterByNestedVirtualColumnQueries();
+  }
+
+  @Test
+  public void testClusterByNestedVirtualColumnRollup() throws IOException
+  {
+    final Path tempFile = createNestedJsonDataFile();
+    final String sqlTemplate =
+        """
+            SET rowsPerSegment = 4;
+            SET groupByEnableMultiValueUnnesting = FALSE;
+            REPLACE INTO %s OVERWRITE ALL
+            WITH "ext" AS (
+              SELECT *
+              FROM TABLE(EXTERN('{"type":"local","files":["%s"]}', '{"type":"json"}'))
+              EXTEND(
+                "timestamp" VARCHAR,
+                "str" VARCHAR,
+                "obj" TYPE('COMPLEX<json>')
+              )
+            )
+            SELECT
+              TIME_PARSE("timestamp") AS __time,
+              str,
+              obj,
+              COUNT(*) AS cnt
+            FROM "ext"
+            GROUP BY TIME_PARSE("timestamp"), str, obj, LOWER(JSON_VALUE(obj, '$.a' RETURNING VARCHAR))
+            PARTITIONED BY DAY
+            CLUSTERED BY LOWER(JSON_VALUE(obj, '$.a' RETURNING VARCHAR))
+            """;
+    final String sql = StringUtils.format(
+        sqlTemplate,
+        dataSource,
+        tempFile.toAbsolutePath()
+    );
+
+    final SqlTaskStatus taskStatus = msqApis.submitTaskSql(sql);
+    cluster.callApi().waitForTaskToSucceed(taskStatus.getTaskId(), overlord.latchableEmitter());
+    cluster.callApi().waitForAllSegmentsToBeAvailable(dataSource, coordinator, broker);
+
+    assertClusterByNestedVirtualColumnSegments();
+    assertClusterByNestedVirtualColumnQueries();
+  }
+
   private void assertClusterByVirtualColumnSegments()
   {
     List<DataSegment> segments = cluster.callApi().getVisibleUsedSegments(dataSource, overlord).stream().toList();
@@ -331,6 +416,93 @@ private void assertClusterByVirtualColumnQueries()
     Assertions.assertEquals(2, getSegmentsScannedForDartQuery(queryId));
   }
 
+
+  private Path createNestedJsonDataFile() throws IOException
+  {
+    final Path tempFile = Files.createTempFile("nested-data", ".json");
+    tempFile.toFile().deleteOnExit();
+    Files.writeString(tempFile,
+                      """
+                          {"timestamp": "2023-01-01T00:00:00", "str":"a",    "obj":{"a": "A"}}
+                          {"timestamp": "2023-01-01T00:00:01", "str":"b",    "obj":{"a": "A"}}
+                          {"timestamp": "2023-01-01T00:00:02", "str":"c",    "obj":{"a": "B"}}
+                          {"timestamp": "2023-01-01T00:00:03", "str":"d",    "obj":{"a": "A"}}
+                          {"timestamp": "2023-01-01T00:00:04", "str":"e",    "obj":{"a": "B"}}
+                          {"timestamp": "2023-01-01T00:00:05", "str":"f",    "obj":{"a": "A"}}
+                          {"timestamp": "2023-01-01T00:00:06", "str":"g",    "obj":{"a": "A"}}
+                          """
+    );
+    return tempFile;
+  }
+
+  private void assertClusterByNestedVirtualColumnSegments()
+  {
+    // all rows in same time chunk, max rows is 4, so we expect 2 segments with a range split on 'a' since there are
+    // 5 rows with 'A' and 2 rows with 'B'
+    List<DataSegment> segments = cluster.callApi().getVisibleUsedSegments(dataSource, overlord).stream().toList();
+    Assertions.assertEquals(2, segments.size());
+
+    final DimensionRangeShardSpec shardSpec0 = (DimensionRangeShardSpec) segments.get(0).getShardSpec();
+    Assertions.assertEquals(1, shardSpec0.getDimensions().size());
+    Assertions.assertFalse(shardSpec0.getVirtualColumns().isEmpty());
+    Assertions.assertEquals(2, shardSpec0.getVirtualColumns().getVirtualColumns().length);
+    Assertions.assertEquals(0, shardSpec0.getPartitionNum());
+
+    Assertions.assertNull(shardSpec0.getStartTuple());
+    Assertions.assertEquals(StringTuple.create("a"), shardSpec0.getEndTuple());
+
+    final DimensionRangeShardSpec shardSpec1 = (DimensionRangeShardSpec) segments.get(1).getShardSpec();
+    Assertions.assertEquals(shardSpec0.getDimensions(), shardSpec1.getDimensions());
+    Assertions.assertEquals(shardSpec0.getVirtualColumns(), shardSpec1.getVirtualColumns());
+    Assertions.assertEquals(1, shardSpec1.getPartitionNum());
+
+    Assertions.assertEquals(StringTuple.create("a"), shardSpec1.getStartTuple());
+    Assertions.assertNull(shardSpec1.getEndTuple());
+  }
+
+  private void assertClusterByNestedVirtualColumnQueries()
+  {
+    String queryId = UUID.randomUUID().toString();
+    cluster.callApi().verifySqlQuery(
+        "SET engine = 'msq-dart'; SET sqlQueryId = '" + queryId + "'; SELECT str FROM %s ORDER BY __time",
+        dataSource,
+        """
+            a
+            b
+            c
+            d
+            e
+            f
+            g"""
+    );
+    Assertions.assertEquals(2, getSegmentsScannedForDartQuery(queryId));
+
+    queryId = UUID.randomUUID().toString();
+    cluster.callApi().verifySqlQuery(
+        "SET engine = 'msq-dart'; SET sqlQueryId = '" + queryId + "'; SELECT str FROM %s WHERE LOWER(JSON_VALUE(obj, '$.a' RETURNING VARCHAR)) = 'b' ORDER BY __time",
+        dataSource,
+        """
+            c
+            e"""
+    );
+    Assertions.assertEquals(1, getSegmentsScannedForDartQuery(queryId));
+
+    queryId = UUID.randomUUID().toString();
+    cluster.callApi().verifySqlQuery(
+        "SET engine = 'msq-dart'; SET sqlQueryId = '" + queryId + "'; SELECT str FROM %s WHERE LOWER(JSON_VALUE(obj, '$.a' RETURNING VARCHAR)) <= 'b' ORDER BY __time",
+        dataSource,
+        """
+            a
+            b
+            c
+            d
+            e
+            f
+            g"""
+    );
+    Assertions.assertEquals(2, getSegmentsScannedForDartQuery(queryId));
+  }
+
   private long getSegmentsScannedForDartQuery(String sqlQueryId)
   {
     ChannelCounters.Snapshot segmentChannelCounters = getDartSegmentChannelCounters(sqlQueryId);