pytorch
diff --git a/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/cache.test.ts
Lines changed: 174 additions & 1 deletion b/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/cache.test.ts
Lines changed: 174 additions & 1 deletion
diff --git a/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/cache.ts
Lines changed: 79 additions & 0 deletions b/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/cache.ts
Lines changed: 79 additions & 0 deletions
diff --git a/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/runners.test.ts
Lines changed: 5 additions & 1 deletion b/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/runners.test.ts
Lines changed: 5 additions & 1 deletion
diff --git a/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/runners.ts
Lines changed: 25 additions & 1 deletion b/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/runners.ts
Lines changed: 25 additions & 1 deletion
diff --git a/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/scale-up-chron.ts
Lines changed: 1 addition & 2 deletions b/‎terraform-aws-github-runner/modules/runners/lambdas/runners/src/scale-runners/scale-up-chron.ts
Lines changed: 1 addition & 2 deletions
@@ -1,4 +1,12 @@
-import { locallyCached, redisCached, clearLocalCache, shutdownRedisPool, redisClearCacheKeyPattern } from './cache';
+import {
+  locallyCached,
+  redisCached,
+  clearLocalCache,
+  shutdownRedisPool,
+  redisClearCacheKeyPattern,
+  getExperimentValue,
+  getJoinedStressTestExperiment,
+} from './cache';
 import { mocked } from 'ts-jest/utils';
 import { v4 as uuidv4 } from 'uuid';
 import nock from 'nock';
@@ -131,6 +139,171 @@ describe('locallyCached', () => {
   });
 });
 
+describe('experiment functions', () => {
+  beforeEach(async () => {
+    await shutdownRedisPool();
+    clearLocalCache();
+    jest.restoreAllMocks();
+    jest.clearAllMocks();
+  });
+
+  afterEach(async () => {
+    await shutdownRedisPool();
+  });
+
+  describe('getExperimentValue', () => {
+    it('returns the value from redis when it exists', async () => {
+      const experimentKey = 'test-experiment';
+      const experimentValue = '42';
+      const defaultValue = 10;
+
+      mockedRedisClient.get.mockResolvedValueOnce(experimentValue);
+
+      const result = await getExperimentValue(experimentKey, defaultValue);
+
+      expect(result).toBe(42);
+      expect(mockedRedisClient.get).toBeCalledTimes(1);
+      expect(mockedRedisClient.get).toBeCalledWith('gh-ci.EXPERIMENT.test-experiment');
+    });
+
+    it('returns default value when key does not exist', async () => {
+      const experimentKey = 'missing-experiment';
+      const defaultValue = 10;
+
+      mockedRedisClient.get.mockResolvedValueOnce(null);
+
+      const result = await getExperimentValue(experimentKey, defaultValue);
+
+      expect(result).toBe(defaultValue);
+      expect(mockedRedisClient.get).toBeCalledTimes(1);
+      expect(mockedRedisClient.get).toBeCalledWith('gh-ci.EXPERIMENT.missing-experiment');
+    });
+
+    it('returns default value when redis throws an error', async () => {
+      const experimentKey = 'error-experiment';
+      const defaultValue = 10;
+
+      mockedRedisClient.get.mockRejectedValueOnce(new Error('Redis error'));
+
+      const result = await getExperimentValue(experimentKey, defaultValue);
+
+      expect(result).toBe(defaultValue);
+      expect(mockedRedisClient.get).toBeCalledTimes(1);
+    });
+
+    it('returns default value when value is not a valid number', async () => {
+      const experimentKey = 'invalid-experiment';
+      const defaultValue = 10;
+
+      mockedRedisClient.get.mockResolvedValueOnce('not-a-number');
+
+      const result = await getExperimentValue(experimentKey, defaultValue);
+
+      expect(result).toBe(defaultValue);
+      expect(mockedRedisClient.get).toBeCalledTimes(1);
+    });
+  });
+
+  describe('getJoinedStressTestExperiment', () => {
+    it('returns false when RUNNER_NAME_SUFFIX is not set', async () => {
+      mockedRedisClient.get.mockResolvedValueOnce(null);
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name');
+
+      expect(result).toBe(false);
+      expect(mockedRedisClient.get).toBeCalledTimes(1);
+      expect(mockedRedisClient.get).toBeCalledWith('gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+    });
+
+    it('returns false when runner name does not match suffix', async () => {
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-without-match');
+
+      expect(result).toBe(false);
+      expect(mockedRedisClient.get).toBeCalledTimes(1);
+      expect(mockedRedisClient.get).toBeCalledWith('gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+    });
+
+    it('returns false when probability is less than random value', async () => {
+      jest.spyOn(global.Math, 'random').mockReturnValueOnce(0.6);
+
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+      mockedRedisClient.get.mockResolvedValueOnce('50');
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-suffix');
+
+      expect(result).toBe(false);
+      expect(mockedRedisClient.get).toBeCalledTimes(2);
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(1, 'gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(2, 'gh-ci.EXPERIMENT.TEST_EXPERIMENT');
+    });
+
+    it('returns true when probability is greater than random value', async () => {
+      jest.spyOn(global.Math, 'random').mockReturnValueOnce(0.4);
+
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+      mockedRedisClient.get.mockResolvedValueOnce('50');
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-suffix');
+
+      expect(result).toBe(true);
+      expect(mockedRedisClient.get).toBeCalledTimes(2);
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(1, 'gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(2, 'gh-ci.EXPERIMENT.TEST_EXPERIMENT');
+    });
+
+    it('returns false when experiment value is zero', async () => {
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+      mockedRedisClient.get.mockResolvedValueOnce('0');
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-suffix');
+
+      expect(result).toBe(false);
+      expect(mockedRedisClient.get).toBeCalledTimes(2);
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(1, 'gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(2, 'gh-ci.EXPERIMENT.TEST_EXPERIMENT');
+    });
+
+    it('returns true when experiment value is 100', async () => {
+      jest.spyOn(global.Math, 'random').mockReturnValueOnce(0.99);
+
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+      mockedRedisClient.get.mockResolvedValueOnce('100');
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-suffix');
+
+      expect(result).toBe(true);
+      expect(mockedRedisClient.get).toBeCalledTimes(2);
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(1, 'gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(2, 'gh-ci.EXPERIMENT.TEST_EXPERIMENT');
+    });
+
+    it('returns false when experiment value is not a valid number', async () => {
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+      mockedRedisClient.get.mockResolvedValueOnce('not-a-number');
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-suffix');
+
+      expect(result).toBe(false);
+      expect(mockedRedisClient.get).toBeCalledTimes(2);
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(1, 'gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(2, 'gh-ci.EXPERIMENT.TEST_EXPERIMENT');
+    });
+
+    it('returns false when experiment query throws an error', async () => {
+      mockedRedisClient.get.mockResolvedValueOnce('-suffix');
+      mockedRedisClient.get.mockRejectedValueOnce(new Error('Redis error'));
+
+      const result = await getJoinedStressTestExperiment('TEST_EXPERIMENT', 'runner-name-suffix');
+
+      expect(result).toBe(false);
+      expect(mockedRedisClient.get).toBeCalledTimes(2);
+      expect(mockedRedisClient.get).toHaveBeenNthCalledWith(1, 'gh-ci.EXPERIMENT.RUNNER_NAME_SUFFIX');
+    });
+  });
+});
+
 describe('redisCached', () => {
   beforeEach(async () => {
     await shutdownRedisPool();
 
@@ -278,6 +278,85 @@ export async function redisLocked<T>(
   throw new Error(`Could not acquire lock for ${nameSpace}-${key}`);
 }
 
+export async function getExperimentValue<T>(experimentKey: string, defaultValue: T): Promise<T> {
+  return locallyCached('EXPERIMENT', experimentKey, 60, async (): Promise<T> => {
+    await startupRedisPool();
+    if (!redisPool) throw Error('Redis should be initialized!');
+
+    const queryKey = `${Config.Instance.environment}.EXPERIMENT.${experimentKey}`;
+
+    console.debug(`Checking redis entry for experiment ${experimentKey} (${queryKey})`);
+    try {
+      // eslint-disable-next-line @typescript-eslint/no-explicit-any
+      const experimentValue: any = await redisPool.use(async (client: RedisClientType) => {
+        return await client.get(queryKey);
+      });
+
+      if (experimentValue === undefined || experimentValue === null) {
+        console.debug(`Experiment ${queryKey} not found, returning default value ${defaultValue}`);
+        return defaultValue;
+      }
+
+      if (typeof defaultValue === 'number' && typeof experimentValue === 'string') {
+        const numValue = Number(experimentValue);
+        if (!isNaN(numValue)) {
+          console.debug(`Experiment ${queryKey} found and converted to number, returning experiment value ${numValue}`);
+          return numValue as T;
+        } else {
+          console.warn(
+            `Experiment ${queryKey} found but value is not a valid number: ` +
+              `${experimentValue}, returning default value ${defaultValue}`,
+          );
+          return defaultValue;
+        }
+      }
+
+      if (typeof defaultValue === typeof experimentValue) {
+        console.debug(
+          `Experiment ${queryKey} found and with the correct type (${typeof experimentValue}),` +
+            ` returning experiment value ${experimentValue}`,
+        );
+        return experimentValue;
+      }
+    } catch (e) {
+      console.error(`Error retrieving experiment ${queryKey}, returning default value ${defaultValue}: ${e}`);
+    }
+
+    return defaultValue;
+  });
+}
+
+export async function getJoinedStressTestExperiment(experimentKey: string, runnerName: string): Promise<boolean> {
+  const runnerNameSuffix = await getExperimentValue('RUNNER_NAME_SUFFIX', '');
+  if (runnerNameSuffix === undefined || runnerNameSuffix === null || runnerNameSuffix === '') {
+    console.debug(`Experiment ${experimentKey} check ignored, as RUNNER_NAME_SUFFIX is not set`);
+    return false;
+  }
+
+  if (!runnerName.endsWith(runnerNameSuffix)) {
+    console.debug(
+      `Runner name ${runnerName} does not match suffix ${runnerNameSuffix} when checking experiment ${experimentKey}`,
+    );
+    return false;
+  }
+
+  const experimentValue = await getExperimentValue(experimentKey, 0);
+
+  if (Math.random() * 100 < experimentValue) {
+    console.debug(
+      `Enabling experiment ${experimentKey} for runner ${runnerName}. ` +
+        `Reached probability threshold of ${experimentValue}%`,
+    );
+    return true;
+  }
+
+  console.debug(
+    `Skipping experiment ${experimentKey} for runner ${runnerName}. ` +
+      `Didn't reach probability threshold of ${experimentValue}%`,
+  );
+  return false;
+}
+
 export async function redisCached<T>(
   nameSpace: string,
   key: string,
 
@@ -71,6 +71,10 @@ jest.mock('./cache', () => ({
     .mockImplementation(async <T>(ns: string, k: string, t: number, j: number, fn: () => Promise<T>): Promise<T> => {
       return await locallyCached(ns, k, t, fn);
     }),
+  /* eslint-disable-next-line @typescript-eslint/no-unused-vars */
+  getJoinedStressTestExperiment: jest.fn().mockImplementation(async (experimentKey: string, defaultValue: string) => {
+    return false;
+  }),
 }));
 jest.mock('./gh-auth');
 
@@ -143,7 +147,7 @@ function createExpectedRunInstancesLinux(
 
 const metrics = new ScaleUpMetrics();
 
-beforeEach(() => {
+beforeEach(async () => {
   jest.resetModules();
   jest.clearAllMocks();
   jest.restoreAllMocks();
 
@@ -5,8 +5,9 @@ import { RunnerInfo, expBackOff, getRepo, shuffleArrayInPlace } from './utils';
 import { Config } from './config';
 import LRU from 'lru-cache';
 import { Metrics, ScaleUpMetrics } from './metrics';
-import { redisCached, redisLocked } from './cache';
+import { getJoinedStressTestExperiment, redisCached, redisLocked } from './cache';
 import moment from 'moment';
+import { RetryableScalingError } from './scale-up';
 
 export interface ListRunnerFilters {
   applicationDeployDatetime?: string;
@@ -472,6 +473,13 @@ export async function tryReuseRunner(
     repoName: runnerParameters.repoName,
     runnerType: runnerParameters.runnerType.runnerTypeName,
   };
+  if (await getJoinedStressTestExperiment('stresstest_awsfail', runnerParameters.runnerType.runnerTypeName)) {
+    console.warn(
+      `Joining stress test stresstest_awsfail, failing AWS reuse for ${runnerParameters.runnerType.runnerTypeName}`,
+    );
+    throw new RetryableScalingError('Stress test stockout');
+  }
+
   const runners = shuffleArrayInPlace(await listRunners(metrics, filters));
 
   /* istanbul ignore next */
@@ -666,6 +674,21 @@ export async function createRunner(runnerParameters: RunnerInputParameters, metr
   try {
     console.debug('Runner configuration: ' + JSON.stringify(runnerParameters));
 
+    if (await getJoinedStressTestExperiment('stresstest_awsfail', runnerParameters.runnerType.runnerTypeName)) {
+      console.warn(
+        `Joining stress test stresstest_awsfail, failing instance creation` +
+          ` for ${runnerParameters.runnerType.runnerTypeName}`,
+      );
+      throw new RetryableScalingError('Stress test stresstest_awsfail');
+    }
+    if (await getJoinedStressTestExperiment('stresstest_stockout', runnerParameters.runnerType.runnerTypeName)) {
+      console.warn(
+        `Joining stress test stresstest_stockout, failing instance ` +
+          `creation for ${runnerParameters.runnerType.runnerTypeName}`,
+      );
+      throw new RetryableScalingError('Stress test stresstest_stockout');
+    }
+
     const storageDeviceName = runnerParameters.runnerType.os === 'linux' ? '/dev/xvda' : '/dev/sda1';
     const tags = [
       { Key: 'Application', Value: 'github-action-runner' },
@@ -739,6 +762,7 @@ export async function createRunner(runnerParameters: RunnerInputParameters, metr
             `[${awsRegion}] [${vpcId}] [${subnet}] Attempting to create ` +
               `instance ${runnerParameters.runnerType.instance_type}${labelsStrLog}`,
           );
+
           const runInstancesResponse = await expBackOff(() => {
             return metrics.trackRequestRegion(
               awsRegion,
 
@@ -24,10 +24,9 @@ export async function scaleUpChron(metrics: ScaleUpChronMetrics): Promise<void>
     );
     throw new Error('scaleUpChronRecordQueueUrl is not set. Cannot send queued scale up requests');
   }
-  const scaleUpChronRecordQueueUrl = Config.Instance.scaleUpChronRecordQueueUrl;
   // Only proactively scale up the jobs that have been queued for longer than normal
   // Filter out the queued jobs that are do not correspond to a valid runner type
-  const queuedJobs = (await getQueuedJobs(metrics, scaleUpChronRecordQueueUrl))
+  const queuedJobs = (await getQueuedJobs(metrics, Config.Instance.scaleUpChronRecordQueueUrl))
     .filter((runner) => {
       return (
         runner.min_queue_time_minutes >= minAutoScaleupDelayMinutes && runner.org === Config.Instance.scaleConfigOrg