fedspendingtransparency · zachflanders-frb · Dec 11, 2025 · Jan 5, 2026 · Jan 7, 2026 · Jan 12, 2026
diff --git a/.github/workflows/pull-request-checks.yaml b/.github/workflows/pull-request-checks.yaml
@@ -54,14 +54,6 @@ jobs:
     if: ${{ !failure() && !cancelled() }}
     uses: ./.github/workflows/test-spark-integration-load-transactions-fabs-fpds.yaml
 
-  Run-Spark-Integration-Load-Transactions-Lookup-Tests:
-    name: Run Spark Integration Load Transactions Lookup Tests
-    needs:
-      - Run-Code-Style-Checks
-      - Build-Broker-Docker-Image
-    if: ${{ !failure() && !cancelled() }}
-    uses: ./.github/workflows/test-spark-integration-load-transactions-lookup.yaml
-
   Run-Spark-Integration-Load-To-From-Delta-Tests:
     name: Run Spark Integration Load To From Delta Tests
     needs:

diff --git a/.github/workflows/test-spark-integration-load-transactions-fabs-fpds.yaml b/.github/workflows/test-spark-integration-load-transactions-fabs-fpds.yaml
@@ -62,7 +62,7 @@ jobs:
         with:
           cov-report-name: 'spark-load-transactions-fabs-fpds-tests'
-          cov-report-name: 'spark-load-transactions-fabs-fpds-tests'
+          cov-report-name: 'spark-load-transactions-tests'
-          cov-report-name: 'spark-load-transactions-fabs-fpds-tests'
+          cov-report-name: 'spark-load-transactions-tests'
           include-glob: 'test_*.py *_test.py'
-          keyword: 'test_load_transactions_in_delta_fabs_fpds.py'
+          keyword: 'test_load_transactions.py'
           marker: 'spark'
           num-processes: 0
           working-directory: ./usaspending-api
diff --git a/.github/workflows/test-spark-integration-load-transactions-lookup.yaml b/.github/workflows/test-spark-integration-load-transactions-lookup.yaml
diff --git a/.github/workflows/test-spark-integration-other.yaml b/.github/workflows/test-spark-integration-other.yaml
@@ -62,6 +62,6 @@ jobs:
         with:
           cov-report-name: 'spark-other-tests'
           include-glob: 'test_*.py *_test.py'
-          keyword: '(not test_load_to_from_delta.py and not test_load_transactions_in_delta_lookups.py and not test_load_transactions_in_delta_fabs_fpds.py)'
+          keyword: '(not test_load_to_from_delta.py and not test_load_transactions.py)'
           marker: 'spark'
           working-directory: ./usaspending-api
diff --git a/usaspending_api/awards/delta_models/awards.py b/usaspending_api/awards/delta_models/awards.py
@@ -15,7 +15,7 @@
     "fpds_parent_agency_id": "STRING",
     "funding_agency_id": "INTEGER",
     "generated_unique_award_id": "STRING NOT NULL",
-    "id": "LONG NOT NULL",
+    "id": "LONG",
     "is_fpds": "BOOLEAN NOT NULL",
     "last_modified_date": "DATE",
     "latest_transaction_id": "LONG",

diff --git a/usaspending_api/common/helpers/spark_helpers.py b/usaspending_api/common/helpers/spark_helpers.py
@@ -31,7 +31,10 @@
 from usaspending_api.common.helpers.aws_helpers import is_aws, get_aws_credentials
 from usaspending_api.config import CONFIG
 from usaspending_api.config.utils import parse_pg_uri, parse_http_url
-from usaspending_api.transactions.delta_models import DETACHED_AWARD_PROCUREMENT_DELTA_COLUMNS, PUBLISHED_FABS_COLUMNS
+from usaspending_api.transactions.delta_models import (
+    DETACHED_AWARD_PROCUREMENT_DELTA_COLUMNS,
+    PUBLISHED_FABS_DELTA_COLUMNS,
+)
 from usaspending_api.transactions.delta_models.transaction_fabs import (
     TRANSACTION_FABS_COLUMN_INFO,
     TRANSACTION_FABS_COLUMNS,
@@ -575,7 +578,7 @@ def load_dict_to_delta_table(spark, s3_data_bucket, table_schema, table_name, da
     table_to_col_names_dict["awards"] = list(AWARDS_COLUMNS)
     table_to_col_names_dict["financial_accounts_by_awards"] = list(FINANCIAL_ACCOUNTS_BY_AWARDS_COLUMNS)
     table_to_col_names_dict["detached_award_procurement"] = list(DETACHED_AWARD_PROCUREMENT_DELTA_COLUMNS)
-    table_to_col_names_dict["published_fabs"] = list(PUBLISHED_FABS_COLUMNS)
+    table_to_col_names_dict["published_fabs"] = list(PUBLISHED_FABS_DELTA_COLUMNS)
 
     table_to_col_info_dict = {}
     for tbl_name, col_info in zip(
@@ -586,15 +589,16 @@ def load_dict_to_delta_table(spark, s3_data_bucket, table_schema, table_name, da
             table_to_col_info_dict[tbl_name][col.dest_name] = col
 
     # Make sure the table has been created first
-    call_command(
-        "create_delta_table",
-        "--destination-table",
-        table_name,
-        "--alt-db",
-        table_schema,
-        "--spark-s3-bucket",
-        s3_data_bucket,
-    )
+    if not spark.catalog.tableExists(table_name, table_schema):
+        call_command(
+            "create_delta_table",
+            "--destination-table",
+            table_name,
+            "--alt-db",
+            table_schema,
+            "--spark-s3-bucket",
+            s3_data_bucket,
+        )
 
     if data:
         insert_sql = f"INSERT {'OVERWRITE' if overwrite else 'INTO'} {table_schema}.{table_name} VALUES\n"

diff --git a/usaspending_api/common/spark/configs.py b/usaspending_api/common/spark/configs.py
@@ -41,9 +41,9 @@
     # process is started from, even if started under the hood of a Py4J JavaGateway). With a "standalone" (not
     # YARN or Mesos or Kubernetes) cluster manager, only client mode is supported.
     "spark.submit.deployMode": "client",
-    # Default of 1g (1GiB) for Driver. Increase here if the Java process is crashing with memory errors
-    "spark.driver.memory": "1g",
-    "spark.executor.memory": "1g",
+    # Default of 4g (4GiB) for Driver. Increase here if the Java process is crashing with memory errors
+    "spark.driver.memory": "4g",
+    "spark.executor.memory": "4g",
     "spark.ui.enabled": "false",  # Does the same as setting SPARK_TESTING=true env var
     "spark.jars.packages": ",".join(SPARK_SESSION_JARS),
 }