Merge branch 'apache:main' into main

zkaoudi · web-flow · commit 5cee47f5993a · 2023-11-13T21:32:57.000+01:00
diff --git a/README.md b/README.md
@@ -60,8 +60,8 @@ You first have to build the binaries as shown [here](guides/tutorial.md).
 Once you have the binaries built, follow these steps to install Wayang:
 
 ```shell
-tar -xvf wayang-0.6.1-snapshot.tar.gz
-cd wayang-0.6.1-SNAPSHOT
+tar -xvf wayang-0.7.1-snapshot.tar.gz
+cd wayang-0.7.1-SNAPSHOT
 ```
 
 In linux
@@ -100,7 +100,7 @@ Wayang is available via Maven Central. To use it with Maven, include the followi
 <dependency>
   <groupId>org.apache.wayang</groupId>
   <artifactId>wayang-***</artifactId>
-  <version>0.6.0</version>
+  <version>0.7.1</version>
 </dependency>
 ```
 Note the `***`: Wayang ships with multiple modules that can be included in your app, depending on how you want to use it:
diff --git a/guides/tutorial.md b/guides/tutorial.md
@@ -29,14 +29,14 @@ Running following commands to build Wayang and generate the tar.gz
 cd incubator-wayang
 ./mvnw clean package -pl :wayang-assembly -Pdistribution 
 ```
-Then you can find the `wayang-assembly-0.6.1-SNAPSHOT-dist.tar.gz` under `wayang-assembly/target` directory.
+Then you can find the `wayang-assembly-0.7.1-SNAPSHOT-dist.tar.gz` under `wayang-assembly/target` directory.
 
 
 # Prepare the environment
 ## Wayang
 ```shell
-tar -xvf wayang-assembly-0.6.1-SNAPSHOT-dist.tar.gz
-cd wayang-0.6.1-SNAPSHOT
+tar -xvf wayang-assembly-0.7.1-SNAPSHOT-dist.tar.gz
+cd wayang-0.7.1-SNAPSHOT
 ```
 
 In linux
@@ -60,7 +60,7 @@ source ~/.zshrc
 To execute the WordCount example with Apache Wayang, you need to execute your program with the 'wayang-submit' command:
 
 ```shell
-cd wayang-0.6.1-SNAPSHOT
+cd wayang-0.7.1-SNAPSHOT
 ./bin/wayang-submit org.apache.wayang.apps.wordcount.Main java file://$(pwd)/README.md
 ```
 Then you should be able to see outputs like this:
diff --git a/wayang-platforms/wayang-jdbc-template/pom.xml b/wayang-platforms/wayang-jdbc-template/pom.xml
@@ -78,6 +78,11 @@
             <artifactId>hadoop-common</artifactId>
             <scope>test</scope>
         </dependency>
+        <dependency>
+            <groupId>org.apache.wayang</groupId>
+            <artifactId>wayang-spark_2.12</artifactId>
+            <version>0.7.1-SNAPSHOT</version>
+        </dependency>
     </dependencies>
 
 
diff --git a/wayang-platforms/wayang-jdbc-template/src/main/java/org/apache/wayang/jdbc/operators/SqlToRddOperator.java b/wayang-platforms/wayang-jdbc-template/src/main/java/org/apache/wayang/jdbc/operators/SqlToRddOperator.java
@@ -0,0 +1,118 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.wayang.jdbc.operators;
+
+import org.apache.spark.api.java.JavaRDD;
+import org.apache.wayang.basic.data.Record;
+import org.apache.wayang.core.optimizer.OptimizationContext;
+import org.apache.wayang.core.plan.wayangplan.UnaryToUnaryOperator;
+import org.apache.wayang.core.platform.ChannelDescriptor;
+import org.apache.wayang.core.platform.ChannelInstance;
+import org.apache.wayang.core.platform.lineage.ExecutionLineageNode;
+import org.apache.wayang.core.types.DataSetType;
+import org.apache.wayang.core.util.JsonSerializable;
+import org.apache.wayang.core.util.Tuple;
+import org.apache.wayang.core.util.json.WayangJsonObj;
+import org.apache.wayang.jdbc.channels.SqlQueryChannel;
+import org.apache.wayang.jdbc.platform.JdbcPlatformTemplate;
+import org.apache.wayang.spark.channels.RddChannel;
+import org.apache.wayang.spark.execution.SparkExecutor;
+import org.apache.wayang.spark.operators.SparkExecutionOperator;
+
+import java.sql.Connection;
+import java.util.Collection;
+import java.util.Collections;
+import java.util.Iterator;
+import java.util.List;
+import java.util.stream.Collectors;
+import java.util.stream.StreamSupport;
+
+public class SqlToRddOperator extends UnaryToUnaryOperator<Record, Record> implements SparkExecutionOperator, JsonSerializable {
+
+    private final JdbcPlatformTemplate jdbcPlatform;
+
+    public SqlToRddOperator(JdbcPlatformTemplate jdbcPlatform) {
+        this(jdbcPlatform, DataSetType.createDefault(Record.class));
+    }
+
+    public SqlToRddOperator(JdbcPlatformTemplate jdbcPlatform, DataSetType<Record> dataSetType) {
+        super(dataSetType, dataSetType, false);
+        this.jdbcPlatform = jdbcPlatform;
+    }
+
+    protected SqlToRddOperator(SqlToRddOperator that) {
+        super(that);
+        this.jdbcPlatform = that.jdbcPlatform;
+    }
+
+    @Override
+    public List<ChannelDescriptor> getSupportedInputChannels(int index) {
+        return Collections.singletonList(this.jdbcPlatform.getSqlQueryChannelDescriptor());
+    }
+
+    @Override
+    public List<ChannelDescriptor> getSupportedOutputChannels(int index) {
+        return Collections.singletonList(RddChannel.UNCACHED_DESCRIPTOR);
+    }
+
+    @Override
+    public Tuple<Collection<ExecutionLineageNode>, Collection<ChannelInstance>> evaluate(
+            ChannelInstance[] inputs,
+            ChannelInstance[] outputs,
+            SparkExecutor executor,
+            OptimizationContext.OperatorContext operatorContext) {
+        // Cast the inputs and outputs.
+        final SqlQueryChannel.Instance input = (SqlQueryChannel.Instance) inputs[0];
+        final RddChannel.Instance output = (RddChannel.Instance) outputs[0];
+
+        JdbcPlatformTemplate producerPlatform = (JdbcPlatformTemplate) input.getChannel().getProducer().getPlatform();
+        final Connection connection = producerPlatform
+                .createDatabaseDescriptor(executor.getConfiguration())
+                .createJdbcConnection();
+
+        Iterator<Record> resultSetIterator = new SqlToStreamOperator.ResultSetIterator(connection, input.getSqlQuery());
+        Iterable<Record> resultSetIterable = () -> resultSetIterator;
+
+        // Convert the ResultSet to a JavaRDD.
+        JavaRDD<Record> resultSetRDD = executor.sc.parallelize(
+                StreamSupport.stream(resultSetIterable.spliterator(), false).collect(Collectors.toList()),
+                executor.getNumDefaultPartitions()
+        );
+
+        output.accept(resultSetRDD, executor);
+
+        // TODO: Add load profile estimators
+        ExecutionLineageNode queryLineageNode = new ExecutionLineageNode(operatorContext);
+        queryLineageNode.addPredecessor(input.getLineage());
+        ExecutionLineageNode outputLineageNode = new ExecutionLineageNode(operatorContext);
+        output.getLineage().addPredecessor(outputLineageNode);
+
+        return queryLineageNode.collectAndMark();
+    }
+
+    @Override
+    public boolean containsAction() {
+        return false;
+    }
+
+    @Override
+    public WayangJsonObj toJson() {
+        return null;
+    }
+}
diff --git a/wayang-platforms/wayang-jdbc-template/src/main/java/org/apache/wayang/jdbc/operators/SqlToStreamOperator.java b/wayang-platforms/wayang-jdbc-template/src/main/java/org/apache/wayang/jdbc/operators/SqlToStreamOperator.java
@@ -144,7 +144,7 @@ public Collection<String> getLoadProfileEstimatorConfigurationKeys() {
     /**
      * Exposes a {@link ResultSet} as an {@link Iterator}.
      */
-    private static class ResultSetIterator implements Iterator<Record>, AutoCloseable {
+    public static class ResultSetIterator implements Iterator<Record>, AutoCloseable {
 
         /**
          * Keeps around the {@link ResultSet} of the SQL query.
diff --git a/wayang-platforms/wayang-jdbc-template/src/test/java/org/apache/wayang/jdbc/operators/OperatorTestBase.java b/wayang-platforms/wayang-jdbc-template/src/test/java/org/apache/wayang/jdbc/operators/OperatorTestBase.java
@@ -18,7 +18,6 @@
 
 package org.apache.wayang.jdbc.operators;
 
-import org.junit.BeforeClass;
 import org.apache.wayang.core.api.Configuration;
 import org.apache.wayang.core.api.Job;
 import org.apache.wayang.core.optimizer.DefaultOptimizationContext;
@@ -31,6 +30,10 @@
 import org.apache.wayang.java.execution.JavaExecutor;
 import org.apache.wayang.java.operators.JavaExecutionOperator;
 import org.apache.wayang.java.platform.JavaPlatform;
+import org.apache.wayang.spark.execution.SparkExecutor;
+import org.apache.wayang.spark.operators.SparkExecutionOperator;
+import org.apache.wayang.spark.platform.SparkPlatform;
+import org.junit.BeforeClass;
 
 import static org.mockito.Mockito.mock;
 import static org.mockito.Mockito.when;
@@ -52,6 +55,11 @@ protected static JavaExecutor createJavaExecutor() {
         return new JavaExecutor(JavaPlatform.getInstance(), job);
     }
 
+    protected static SparkExecutor createSparkExecutor() {
+        final Job job = createJob();
+        return new SparkExecutor(SparkPlatform.getInstance(), job);
+    }
+
     private static Job createJob() {
         final Job job = mock(Job.class);
         when(job.getConfiguration()).thenReturn(configuration);
@@ -70,4 +78,10 @@ protected static void evaluate(JavaExecutionOperator operator,
         operator.evaluate(inputs, outputs, createJavaExecutor(), createOperatorContext(operator));
     }
 
+    protected static void evaluate(SparkExecutionOperator operator,
+                                   ChannelInstance[] inputs,
+                                   ChannelInstance[] outputs) {
+        operator.evaluate(inputs, outputs, createSparkExecutor(), createOperatorContext(operator));
+    }
+
 }
diff --git a/wayang-platforms/wayang-jdbc-template/src/test/java/org/apache/wayang/jdbc/operators/SqlToRddOperatorTest.java b/wayang-platforms/wayang-jdbc-template/src/test/java/org/apache/wayang/jdbc/operators/SqlToRddOperatorTest.java
@@ -0,0 +1,167 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.wayang.jdbc.operators;
+
+import org.apache.wayang.basic.data.Record;
+import org.apache.wayang.core.api.Configuration;
+import org.apache.wayang.core.api.Job;
+import org.apache.wayang.core.function.PredicateDescriptor;
+import org.apache.wayang.core.optimizer.OptimizationContext;
+import org.apache.wayang.core.plan.executionplan.ExecutionTask;
+import org.apache.wayang.core.plan.wayangplan.ExecutionOperator;
+import org.apache.wayang.core.plan.wayangplan.OutputSlot;
+import org.apache.wayang.core.platform.ChannelInstance;
+import org.apache.wayang.core.platform.CrossPlatformExecutor;
+import org.apache.wayang.core.profiling.FullInstrumentationStrategy;
+import org.apache.wayang.jdbc.channels.SqlQueryChannel;
+import org.apache.wayang.jdbc.test.HsqldbFilterOperator;
+import org.apache.wayang.jdbc.test.HsqldbPlatform;
+import org.apache.wayang.spark.channels.RddChannel;
+import org.apache.wayang.spark.execution.SparkExecutor;
+import org.apache.wayang.spark.platform.SparkPlatform;
+import org.junit.Assert;
+import org.junit.Test;
+
+import java.sql.Connection;
+import java.sql.SQLException;
+import java.sql.Statement;
+import java.util.Arrays;
+import java.util.List;
+
+import static org.mockito.Mockito.mock;
+import static org.mockito.Mockito.when;
+
+public class SqlToRddOperatorTest extends OperatorTestBase {
+
+    @Test
+    public void testWithHsqldb() throws SQLException {
+        Configuration configuration = new Configuration();
+
+        Job job = mock(Job.class);
+        when(job.getConfiguration()).thenReturn(configuration);
+
+        CrossPlatformExecutor cpe = new CrossPlatformExecutor(job, new FullInstrumentationStrategy());
+        when(job.getCrossPlatformExecutor()).thenReturn(cpe);
+        final SparkExecutor sparkExecutor = new SparkExecutor(SparkPlatform.getInstance(), job);
+
+        HsqldbPlatform hsqldbPlatform = new HsqldbPlatform();
+
+        // Create some test data.
+        try (Connection jdbcConnection = hsqldbPlatform.createDatabaseDescriptor(configuration).createJdbcConnection()) {
+            final Statement statement = jdbcConnection.createStatement();
+            statement.execute("CREATE TABLE testSqlToRddWithHsqldb (a INT, b VARCHAR(6));");
+            statement.execute("INSERT INTO testSqlToRddWithHsqldb VALUES (0, 'zero');");
+            statement.execute("INSERT INTO testSqlToRddWithHsqldb VALUES (1, 'one');");
+            statement.execute("INSERT INTO testSqlToRddWithHsqldb VALUES (2, 'two');");
+        }
+
+        final ExecutionOperator filterOperator = new HsqldbFilterOperator(
+                new PredicateDescriptor<>(x -> false, Record.class)
+        );
+        final SqlQueryChannel sqlQueryChannel = new SqlQueryChannel(
+                HsqldbPlatform.getInstance().getSqlQueryChannelDescriptor(),
+                filterOperator.getOutput(0)
+        );
+        SqlQueryChannel.Instance sqlQueryChannelInstance = sqlQueryChannel.createInstance(
+                hsqldbPlatform.createExecutor(job),
+                mock(OptimizationContext.OperatorContext.class),
+                0
+        );
+        sqlQueryChannelInstance.setSqlQuery("SELECT * FROM testSqlToRddWithHsqldb;");
+        ExecutionTask producer = new ExecutionTask(filterOperator);
+        producer.setOutputChannel(0, sqlQueryChannel);
+
+        RddChannel.Instance rddChannelInstance =
+                new RddChannel(RddChannel.UNCACHED_DESCRIPTOR, mock(OutputSlot.class)).createInstance(
+                        sparkExecutor,
+                        mock(OptimizationContext.OperatorContext.class),
+                        0
+                );
+
+        SqlToRddOperator sqlToRddOperator = new SqlToRddOperator(HsqldbPlatform.getInstance());
+        evaluate(
+                sqlToRddOperator,
+                new ChannelInstance[]{sqlQueryChannelInstance},
+                new ChannelInstance[]{rddChannelInstance}
+        );
+
+        List<Record> output = rddChannelInstance.<Record>provideRdd().collect();
+        List<Record> expected = Arrays.asList(
+                new Record(0, "zero"),
+                new Record(1, "one"),
+                new Record(2, "two")
+        );
+
+        Assert.assertEquals(expected, output);
+    }
+
+    @Test
+    public void testWithEmptyHsqldb() throws SQLException {
+        Configuration configuration = new Configuration();
+
+        Job job = mock(Job.class);
+        when(job.getConfiguration()).thenReturn(configuration);
+
+        CrossPlatformExecutor cpe = new CrossPlatformExecutor(job, new FullInstrumentationStrategy());
+        when(job.getCrossPlatformExecutor()).thenReturn(cpe);
+        final SparkExecutor sparkExecutor = new SparkExecutor(SparkPlatform.getInstance(), job);
+
+        HsqldbPlatform hsqldbPlatform = new HsqldbPlatform();
+
+        // Create some test data.
+        try (Connection jdbcConnection = hsqldbPlatform.createDatabaseDescriptor(configuration).createJdbcConnection()) {
+            final Statement statement = jdbcConnection.createStatement();
+            statement.execute("CREATE TABLE testSqlToRddWithEmptyHsqldb (a INT, b VARCHAR(6));");
+        }
+
+        final ExecutionOperator filterOperator = new HsqldbFilterOperator(
+                new PredicateDescriptor<>(x -> false, Record.class)
+        );
+        final SqlQueryChannel sqlQueryChannel = new SqlQueryChannel(
+                HsqldbPlatform.getInstance().getSqlQueryChannelDescriptor(),
+                filterOperator.getOutput(0)
+        );
+        SqlQueryChannel.Instance sqlQueryChannelInstance = sqlQueryChannel.createInstance(
+                hsqldbPlatform.createExecutor(job),
+                mock(OptimizationContext.OperatorContext.class),
+                0
+        );
+        sqlQueryChannelInstance.setSqlQuery("SELECT * FROM testSqlToRddWithEmptyHsqldb;");
+        ExecutionTask producer = new ExecutionTask(filterOperator);
+        producer.setOutputChannel(0, sqlQueryChannel);
+
+        RddChannel.Instance rddChannelInstance =
+                new RddChannel(RddChannel.UNCACHED_DESCRIPTOR, mock(OutputSlot.class)).createInstance(
+                        sparkExecutor,
+                        mock(OptimizationContext.OperatorContext.class),
+                        0
+                );
+
+        SqlToRddOperator sqlToRddOperator = new SqlToRddOperator(HsqldbPlatform.getInstance());
+        evaluate(
+                sqlToRddOperator,
+                new ChannelInstance[]{sqlQueryChannelInstance},
+                new ChannelInstance[]{rddChannelInstance}
+        );
+
+        List<Record> output = rddChannelInstance.<Record>provideRdd().collect();
+        Assert.assertTrue(output.isEmpty());
+    }
+
+}
diff --git a/wayang-platforms/wayang-postgres/src/main/java/org/apache/wayang/postgres/channels/ChannelConversions.java b/wayang-platforms/wayang-postgres/src/main/java/org/apache/wayang/postgres/channels/ChannelConversions.java
diff --git a/wayang-platforms/wayang-sqlite3/src/main/java/org/apache/wayang/sqlite3/channels/ChannelConversions.java b/wayang-platforms/wayang-sqlite3/src/main/java/org/apache/wayang/sqlite3/channels/ChannelConversions.java