apache
diff --git a/‎deploy_gaussdb_to_gaussdb.sh‎
Lines changed: 13 additions & 17 deletions b/‎deploy_gaussdb_to_gaussdb.sh‎
Lines changed: 13 additions & 17 deletions
diff --git a/‎flink-cdc-connect/flink-cdc-source-connectors/flink-connector-debezium/src/main/java/org/apache/flink/cdc/debezium/table/DebeziumChangelogMode.java‎
Lines changed: 13 additions & 4 deletions b/‎flink-cdc-connect/flink-cdc-source-connectors/flink-connector-debezium/src/main/java/org/apache/flink/cdc/debezium/table/DebeziumChangelogMode.java‎
Lines changed: 13 additions & 4 deletions
diff --git a/‎flink-cdc-connect/flink-cdc-source-connectors/flink-connector-gaussdb-cdc/docker/sql/gaussdb_optimized_sync.sql‎
Lines changed: 165 additions & 0 deletions b/‎flink-cdc-connect/flink-cdc-source-connectors/flink-connector-gaussdb-cdc/docker/sql/gaussdb_optimized_sync.sql‎
Lines changed: 165 additions & 0 deletions
diff --git a/‎flink-cdc-connect/flink-cdc-source-connectors/flink-connector-gaussdb-cdc/docker/sql/gaussdb_simplified_sync.sql‎
Lines changed: 107 additions & 0 deletions b/‎flink-cdc-connect/flink-cdc-source-connectors/flink-connector-gaussdb-cdc/docker/sql/gaussdb_simplified_sync.sql‎
Lines changed: 107 additions & 0 deletions
@@ -125,7 +125,7 @@ done
 # 3. Copy SQL script
 echo "📜 Copying SQL script to JobManager..."
 docker exec flink-jobmanager mkdir -p /opt/flink/sql
-docker cp "$SQL_FILE" flink-jobmanager:/opt/flink/sql/gaussdb_to_gaussdb.sql
+docker cp "$SQL_FILE" flink-jobmanager:/opt/flink/sql/gaussdb_sync.sql
 
 # 4. Restart Clusters
 echo "🔄 Restarting Flink containers to apply changes..."
@@ -173,9 +173,11 @@ BEGIN
             stock INTEGER DEFAULT 0,
             created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
         ) DISTRIBUTE BY HASH(product_id);
-        RAISE NOTICE 'Source table created';
+        ALTER TABLE products REPLICA IDENTITY FULL;
+        RAISE NOTICE 'Source table created and REPLICA IDENTITY set to FULL';
     ELSE
-        RAISE NOTICE 'Source table already exists';
+        ALTER TABLE products REPLICA IDENTITY FULL;
+        RAISE NOTICE 'Source table already exists, ensuring REPLICA IDENTITY is FULL';
     END IF;
 END \$\$;
 EOF
@@ -195,22 +197,16 @@ CREATE TABLE products_sink (
 EOF
 echo -e "${GREEN}✅ Sink table created${NC}"
 
-# 5.4 插入种子数据 (确保快照阶段有数据，CDC 能正确进入 stream 阶段)
-echo "🌱 Inserting seed data for CDC initialization..."
-PGPASSWORD=Gauss_235 psql -h 10.250.0.30 -p 8000 -U tom -d db1 <<EOF
--- 清除旧种子数据
-DELETE FROM products WHERE product_id BETWEEN 1 AND 10;
--- 插入种子数据 (使用 ID 1-10，测试数据使用 2000+)
-INSERT INTO products (product_id, product_name, category, price, stock) VALUES
-(1, 'Seed Product 1', 'SEED', 10.00, 100),
-(2, 'Seed Product 2', 'SEED', 20.00, 200),
-(3, 'Seed Product 3', 'SEED', 30.00, 300);
-EOF
-echo -e "${GREEN}✅ Seed data inserted (3 records)${NC}"
+# 5.4 跳过种子数据插入 (性能测试时会预先插入完整数据)
+# 注意：之前这里有 DELETE FROM products WHERE product_id BETWEEN 1 AND 10
+# 这会导致性能测试中的数据丢失，因此已移除
+echo "🌱 Skipping seed data insertion (data should be pre-populated by test script)..."
+echo -e "${GREEN}✅ Ready for CDC sync${NC}"
+
 
 # 6. Submit SQL Job
-echo "🚀 Submitting SQL job to Flink..."
-docker exec flink-jobmanager /opt/flink/bin/sql-client.sh -f /opt/flink/sql/gaussdb_to_gaussdb.sql
+echo "🚀 Submitting SQL job to Flink (Optimized with Dual-Sink Routing)..."
+docker exec flink-jobmanager /opt/flink/bin/sql-client.sh -f /opt/flink/sql/gaussdb_sync.sql
 
 echo ""
 echo -e "${GREEN}✅ Success! GaussDB -> GaussDB deployment complete.${NC}"
 
@@ -17,15 +17,24 @@
 
 package org.apache.flink.cdc.debezium.table;
 
-/** Changelog modes used to encode changes from Debezium to Flink internal structure. */
+/**
+ * Changelog modes used to encode changes from Debezium to Flink internal
+ * structure.
+ */
 public enum DebeziumChangelogMode {
-    /** Encodes changes as retract stream using all RowKinds. This is the default mode. */
+    /**
+     * Encodes changes as retract stream using all RowKinds. This is the default
+     * mode.
+     */
     ALL("all"),
     /**
-     * Encodes changes as upsert stream that describes idempotent updates on a key. Primary keys
+     * Encodes changes as upsert stream that describes idempotent updates on a key.
+     * Primary keys
      * must be set in tables to use this changelog mode.
      */
-    UPSERT("upsert");
+    UPSERT("upsert"),
+    /** Encodes changes as insert-only stream. */
+    INSERT_ONLY("insert-only");
 
     private final String value;
 
 
@@ -0,0 +1,165 @@
+-- Optimized Flink SQL Job for GaussDB to GaussDB Synchronization
+-- Uses dual-sink routing to optimize snapshot phase with INSERT INTO
+
+-- =====================================================
+-- Performance Tuning Settings
+-- =====================================================
+SET 'parallelism.default' = '4';
+SET 'table.exec.state.ttl' = '36h';
+SET 'table.optimizer.source.reuse-enabled' = 'true';
+SET 'table.exec.sink.upsert-materialize' = 'AUTO';
+SET 'checkpoint.interval' = '10s';
+SET 'pipeline.object-reuse' = 'true';
+SET 'execution.checkpointing.interval' = '10s';
+
+-- =====================================================
+-- 1. Source Table DN1 (GaussDB)
+-- =====================================================
+CREATE TABLE source_dn1 (
+    product_id INT NOT NULL,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT,
+    is_snapshot BOOLEAN METADATA FROM 'is_snapshot' VIRTUAL,
+    PRIMARY KEY (product_id) NOT ENFORCED
+) WITH (
+    'connector' = 'gaussdb-cdc',
+    'hostname' = '10.250.0.30',
+    'port' = '40000',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'database-name' = 'db1',
+    'schema-name' = 'public',
+    'table-name' = 'products',
+    'slot.name' = 'flink_cdc_g2g_dn1',
+    'decoding.plugin.name' = 'mppdb_decoding',
+    'scan.incremental.snapshot.enabled' = 'true',
+    'scan.snapshot.fetch.size' = '10000',
+    'scan.incremental.snapshot.chunk.size' = '50000'
+);
+
+-- =====================================================
+-- 2. Source Table DN2 (GaussDB)
+-- =====================================================
+CREATE TABLE source_dn2 (
+    product_id INT NOT NULL,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT,
+    is_snapshot BOOLEAN METADATA FROM 'is_snapshot' VIRTUAL,
+    PRIMARY KEY (product_id) NOT ENFORCED
+) WITH (
+    'connector' = 'gaussdb-cdc',
+    'hostname' = '10.250.0.181',
+    'port' = '40020',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'database-name' = 'db1',
+    'schema-name' = 'public',
+    'table-name' = 'products',
+    'slot.name' = 'flink_cdc_g2g_dn2',
+    'decoding.plugin.name' = 'mppdb_decoding',
+    'scan.incremental.snapshot.enabled' = 'true',
+    'scan.snapshot.fetch.size' = '10000',
+    'scan.incremental.snapshot.chunk.size' = '50000'
+);
+
+-- =====================================================
+-- 3. Source Table DN3 (GaussDB)
+-- =====================================================
+CREATE TABLE source_dn3 (
+    product_id INT NOT NULL,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT,
+    is_snapshot BOOLEAN METADATA FROM 'is_snapshot' VIRTUAL,
+    PRIMARY KEY (product_id) NOT ENFORCED
+) WITH (
+    'connector' = 'gaussdb-cdc',
+    'hostname' = '10.250.0.157',
+    'port' = '40040',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'database-name' = 'db1',
+    'schema-name' = 'public',
+    'table-name' = 'products',
+    'slot.name' = 'flink_cdc_g2g_dn3',
+    'decoding.plugin.name' = 'mppdb_decoding',
+    'scan.incremental.snapshot.enabled' = 'true',
+    'scan.snapshot.fetch.size' = '10000',
+    'scan.incremental.snapshot.chunk.size' = '50000'
+);
+
+-- =====================================================
+-- 4. Fast Sink (Snapshot phase)
+-- No primary key defined in Flink -> Uses INSERT INTO
+-- =====================================================
+CREATE TABLE products_sink_fast (
+    product_id INT PRIMARY KEY NOT ENFORCED,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT
+) WITH (
+    'connector' = 'jdbc',
+    'url' = 'jdbc:gaussdb://10.250.0.30:8000/db1?currentSchema=public',
+    'table-name' = 'products_sink_FAST_INSERT_ONLY',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'driver' = 'com.huawei.gaussdb.jdbc.Driver',
+    'sink.buffer-flush.max-rows' = '5000',
+    'sink.buffer-flush.interval' = '1s'
+);
+
+-- =====================================================
+-- 5. Upsert Sink (Incremental phase)
+-- Primary key defined -> Uses MERGE INTO (GaussDB Dialect)
+-- =====================================================
+CREATE TABLE products_sink_upsert (
+    product_id INT PRIMARY KEY NOT ENFORCED,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT
+) WITH (
+    'connector' = 'jdbc',
+    'url' = 'jdbc:gaussdb://10.250.0.30:8000/db1?currentSchema=public',
+    'table-name' = 'products_sink',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'driver' = 'com.huawei.gaussdb.jdbc.Driver',
+    'sink.buffer-flush.max-rows' = '1000',
+    'sink.buffer-flush.interval' = '1s'
+);
+
+-- =====================================================
+-- 6. Unified Source View
+-- =====================================================
+CREATE TEMPORARY VIEW unified_source AS
+SELECT product_id, product_name, category, price, stock, is_snapshot FROM source_dn1
+UNION ALL
+SELECT product_id, product_name, category, price, stock, is_snapshot FROM source_dn2
+UNION ALL
+SELECT product_id, product_name, category, price, stock, is_snapshot FROM source_dn3;
+
+-- =====================================================
+-- 7. Routing Statement Set
+-- =====================================================
+BEGIN STATEMENT SET;
+
+-- Snapshot records route to fast sink (using blind INSERT)
+INSERT INTO products_sink_fast
+SELECT product_id, product_name, category, price, stock
+FROM unified_source 
+WHERE is_snapshot = true;
+
+-- Incremental records route to upsert sink (using MERGE INTO)
+INSERT INTO products_sink_upsert
+SELECT product_id, product_name, category, price, stock
+FROM unified_source 
+WHERE is_snapshot = false;
+
+END;
@@ -0,0 +1,107 @@
+-- Simplified Flink SQL Job for GaussDB to GaussDB Synchronization
+-- Recommended standard approach after JDBC Dialect UPSERT refactor
+
+-- =====================================================
+-- Performance Tuning Settings
+-- =====================================================
+SET 'parallelism.default' = '1';
+SET 'checkpoint.interval' = '10s';
+SET 'execution.checkpointing.interval' = '10s';
+SET 'table.optimizer.source.reuse-enabled' = 'true';
+
+-- =====================================================
+-- 1. Source Tables (Distributed GaussDB)
+-- =====================================================
+CREATE TABLE source_dn1 (
+    product_id INT NOT NULL,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT,
+    PRIMARY KEY (product_id) NOT ENFORCED
+) WITH (
+    'connector' = 'gaussdb-cdc',
+    'hostname' = '10.250.0.30',
+    'port' = '40000',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'database-name' = 'db1',
+    'schema-name' = 'public',
+    'table-name' = 'products',
+    'slot.name' = 'flink_cdc_simplified_dn1',
+    'decoding.plugin.name' = 'mppdb_decoding'
+);
+
+CREATE TABLE source_dn2 (
+    product_id INT NOT NULL,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT,
+    PRIMARY KEY (product_id) NOT ENFORCED
+) WITH (
+    'connector' = 'gaussdb-cdc',
+    'hostname' = '10.250.0.181',
+    'port' = '40020',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'database-name' = 'db1',
+    'schema-name' = 'public',
+    'table-name' = 'products',
+    'slot.name' = 'flink_cdc_simplified_dn2',
+    'decoding.plugin.name' = 'mppdb_decoding'
+);
+
+CREATE TABLE source_dn3 (
+    product_id INT NOT NULL,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT,
+    PRIMARY KEY (product_id) NOT ENFORCED
+) WITH (
+    'connector' = 'gaussdb-cdc',
+    'hostname' = '10.250.0.157',
+    'port' = '40040',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'database-name' = 'db1',
+    'schema-name' = 'public',
+    'table-name' = 'products',
+    'slot.name' = 'flink_cdc_simplified_dn3',
+    'decoding.plugin.name' = 'mppdb_decoding'
+);
+
+-- =====================================================
+-- 2. Simplified Sink Table
+-- Single Sink is now efficient for both Snapshot and Incremental phases
+-- =====================================================
+CREATE TABLE products_sink (
+    product_id INT PRIMARY KEY NOT ENFORCED,
+    product_name STRING,
+    category STRING,
+    price DECIMAL(10, 2),
+    stock INT
+) WITH (
+    'connector' = 'jdbc',
+    'url' = 'jdbc:gaussdb://10.250.0.30:8000/db1?currentSchema=public',
+    'table-name' = 'products_sink',
+    'username' = 'tom',
+    'password' = 'Gauss_235',
+    'driver' = 'com.huawei.gaussdb.jdbc.Driver',
+    -- Batch settings for overall performance
+    'sink.buffer-flush.max-rows' = '2000',
+    'sink.buffer-flush.interval' = '1s'
+);
+
+-- =====================================================
+-- 3. Unified Sync (Transparent UPSERT)
+-- =====================================================
+-- =====================================================
+-- 3. Unified Sync (Independent Pipelines for Stability)
+-- =====================================================
+BEGIN STATEMENT SET;
+INSERT INTO products_sink SELECT product_id, product_name, category, price, stock FROM source_dn1;
+INSERT INTO products_sink SELECT product_id, product_name, category, price, stock FROM source_dn2;
+INSERT INTO products_sink SELECT product_id, product_name, category, price, stock FROM source_dn3;
+END;