aws
diff --git a/‎base/buildspec-cu128-ubuntu24.yml‎
Lines changed: 54 additions & 0 deletions b/‎base/buildspec-cu128-ubuntu24.yml‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎base/buildspec-cu129-ubuntu22.yml‎
Lines changed: 54 additions & 0 deletions b/‎base/buildspec-cu129-ubuntu22.yml‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎base/buildspec.yml‎
Lines changed: 1 addition & 54 deletions b/‎base/buildspec.yml‎
Lines changed: 1 addition & 54 deletions
diff --git a/‎base/x86_64/gpu/cu128/Dockerfile‎ ‎…/x86_64/gpu/cu128/ubuntu24.04/Dockerfile‎base/x86_64/gpu/cu128/Dockerfile renamed to base/x86_64/gpu/cu128/ubuntu24.04/Dockerfile b/‎base/x86_64/gpu/cu128/Dockerfile‎ ‎…/x86_64/gpu/cu128/ubuntu24.04/Dockerfile‎base/x86_64/gpu/cu128/Dockerfile renamed to base/x86_64/gpu/cu128/ubuntu24.04/Dockerfile
diff --git a/‎base/x86_64/gpu/cu129/ubuntu22.04/Dockerfile‎
Lines changed: 125 additions & 0 deletions b/‎base/x86_64/gpu/cu129/ubuntu22.04/Dockerfile‎
Lines changed: 125 additions & 0 deletions
diff --git a/‎dlc_developer_config.toml‎
Lines changed: 3 additions & 0 deletions b/‎dlc_developer_config.toml‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎scripts/install_cuda.sh‎
Lines changed: 41 additions & 0 deletions b/‎scripts/install_cuda.sh‎
Lines changed: 41 additions & 0 deletions
diff --git a/‎test/dlc_tests/container_tests/bin/efa/testEFA‎
Lines changed: 1 addition & 1 deletion b/‎test/dlc_tests/container_tests/bin/efa/testEFA‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎test/dlc_tests/ec2/test_efa.py‎
Lines changed: 10 additions & 4 deletions b/‎test/dlc_tests/ec2/test_efa.py‎
Lines changed: 10 additions & 4 deletions
diff --git a/‎test/sagemaker_tests/pytorch/training/integration/sagemaker/test_distributed_operations.py‎
Lines changed: 1 addition & 0 deletions b/‎test/sagemaker_tests/pytorch/training/integration/sagemaker/test_distributed_operations.py‎
Lines changed: 1 addition & 0 deletions
@@ -0,0 +1,54 @@
+account_id: &ACCOUNT_ID <set-$ACCOUNT_ID-in-environment>
+prod_account_id: &PROD_ACCOUNT_ID 763104351884
+region: &REGION <set-$REGION-in-environment>
+framework: &FRAMEWORK base
+version: &VERSION 12.8.1
+short_version: &SHORT_VERSION "12.8"
+arch_type: &ARCH_TYPE x86_64
+autopatch_build: "False"
+
+repository_info:
+  base_repository: &BASE_REPOSITORY
+    image_type: &IMAGE_TYPE gpu
+    root: .
+    repository_name: &REPOSITORY_NAME !join [ pr, "-", *FRAMEWORK ]
+    repository: &REPOSITORY !join [ *ACCOUNT_ID, .dkr.ecr., *REGION, .amazonaws.com/, *REPOSITORY_NAME ]
+    release_repository_name: &RELEASE_REPOSITORY_NAME !join [ *FRAMEWORK ]
+    release_repository: &RELEASE_REPOSITORY !join [ *PROD_ACCOUNT_ID, .dkr.ecr., *REGION, .amazonaws.com/, *RELEASE_REPOSITORY_NAME ]
+
+context:
+  base_context: &BASE_CONTEXT
+    deep_learning_container:
+      source: src/deep_learning_container.py
+      target: deep_learning_container.py
+    install_python:
+      source: scripts/install_python.sh
+      target: install_python.sh
+    install_cuda:
+      source: scripts/install_cuda.sh
+      target: install_cuda.sh
+    install_efa:
+      source: scripts/install_efa.sh
+      target: install_efa.sh
+
+images:
+  base_x86_64_gpu_cuda128:
+    <<: *BASE_REPOSITORY
+    context:
+      <<: *BASE_CONTEXT
+    image_size_baseline: 11000
+    device_type: &DEVICE_TYPE gpu
+    cuda_version: &CUDA_VERSION cu128
+    python_version: &DOCKER_PYTHON_VERSION py3
+    tag_python_version: &TAG_PYTHON_VERSION py312
+    os_version: &OS_VERSION ubuntu24.04
+    tag: !join [ *VERSION, "-", *DEVICE_TYPE, "-", *TAG_PYTHON_VERSION, "-", *CUDA_VERSION, "-", *OS_VERSION, "-ec2" ]
+    latest_release_tag: !join [ *VERSION, "-", *DEVICE_TYPE, "-", *TAG_PYTHON_VERSION, "-", *CUDA_VERSION, "-", *OS_VERSION, "-ec2" ]
+    docker_file: !join [ *FRAMEWORK, /, *ARCH_TYPE, /, *DEVICE_TYPE, /, *CUDA_VERSION, /, *OS_VERSION, /Dockerfile ]
+    target: final
+    build: true
+    enable_common_stage_build: false
+    test_configs:
+      test_platforms:
+        - sanity
+        - security
@@ -0,0 +1,54 @@
+account_id: &ACCOUNT_ID <set-$ACCOUNT_ID-in-environment>
+prod_account_id: &PROD_ACCOUNT_ID 763104351884
+region: &REGION <set-$REGION-in-environment>
+framework: &FRAMEWORK base
+version: &VERSION 12.9.1
+short_version: &SHORT_VERSION "12.9"
+arch_type: &ARCH_TYPE x86_64
+autopatch_build: "False"
+
+repository_info:
+  base_repository: &BASE_REPOSITORY
+    image_type: &IMAGE_TYPE gpu
+    root: .
+    repository_name: &REPOSITORY_NAME !join [ pr, "-", *FRAMEWORK ]
+    repository: &REPOSITORY !join [ *ACCOUNT_ID, .dkr.ecr., *REGION, .amazonaws.com/, *REPOSITORY_NAME ]
+    release_repository_name: &RELEASE_REPOSITORY_NAME !join [ *FRAMEWORK ]
+    release_repository: &RELEASE_REPOSITORY !join [ *PROD_ACCOUNT_ID, .dkr.ecr., *REGION, .amazonaws.com/, *RELEASE_REPOSITORY_NAME ]
+
+context:
+  base_context: &BASE_CONTEXT
+    deep_learning_container:
+      source: src/deep_learning_container.py
+      target: deep_learning_container.py
+    install_python:
+      source: scripts/install_python.sh
+      target: install_python.sh
+    install_cuda:
+      source: scripts/install_cuda.sh
+      target: install_cuda.sh
+    install_efa:
+      source: scripts/install_efa.sh
+      target: install_efa.sh
+
+images:
+  base_x86_64_gpu_cuda129_ubuntu22:
+    <<: *BASE_REPOSITORY
+    context:
+      <<: *BASE_CONTEXT
+    image_size_baseline: 11000
+    device_type: &DEVICE_TYPE gpu
+    cuda_version: &CUDA_VERSION cu129
+    python_version: &DOCKER_PYTHON_VERSION py3
+    tag_python_version: &TAG_PYTHON_VERSION py312
+    os_version: &OS_VERSION ubuntu22.04
+    tag: !join [ *VERSION, "-", *DEVICE_TYPE, "-", *TAG_PYTHON_VERSION, "-", *CUDA_VERSION, "-", *OS_VERSION, "-ec2" ]
+    latest_release_tag: !join [ *VERSION, "-", *DEVICE_TYPE, "-", *TAG_PYTHON_VERSION, "-", *CUDA_VERSION, "-", *OS_VERSION, "-ec2" ]
+    docker_file: !join [ *FRAMEWORK, /, *ARCH_TYPE, /, *DEVICE_TYPE, /, *CUDA_VERSION, /, *OS_VERSION, /Dockerfile ]
+    target: final
+    build: true
+    enable_common_stage_build: false
+    test_configs:
+      test_platforms:
+        - sanity
+        - security
@@ -1,54 +1 @@
-account_id: &ACCOUNT_ID <set-$ACCOUNT_ID-in-environment>
-prod_account_id: &PROD_ACCOUNT_ID 763104351884
-region: &REGION <set-$REGION-in-environment>
-framework: &FRAMEWORK base
-version: &VERSION 12.8.1
-short_version: &SHORT_VERSION "12.8"
-arch_type: &ARCH_TYPE x86_64
-autopatch_build: "False"
-
-repository_info:
-  base_repository: &BASE_REPOSITORY
-    image_type: &IMAGE_TYPE gpu
-    root: .
-    repository_name: &REPOSITORY_NAME !join [ pr, "-", *FRAMEWORK ]
-    repository: &REPOSITORY !join [ *ACCOUNT_ID, .dkr.ecr., *REGION, .amazonaws.com/, *REPOSITORY_NAME ]
-    release_repository_name: &RELEASE_REPOSITORY_NAME !join [ *FRAMEWORK ]
-    release_repository: &RELEASE_REPOSITORY !join [ *PROD_ACCOUNT_ID, .dkr.ecr., *REGION, .amazonaws.com/, *RELEASE_REPOSITORY_NAME ]
-
-context:
-  base_context: &BASE_CONTEXT
-    deep_learning_container:
-      source: src/deep_learning_container.py
-      target: deep_learning_container.py
-    install_python:
-      source: scripts/install_python.sh
-      target: install_python.sh
-    install_cuda:
-      source: scripts/install_cuda.sh
-      target: install_cuda.sh
-    install_efa:
-      source: scripts/install_efa.sh
-      target: install_efa.sh
-
-images:
-  base_x86_64_gpu_cuda128:
-    <<: *BASE_REPOSITORY
-    context:
-      <<: *BASE_CONTEXT
-    image_size_baseline: 11000
-    device_type: &DEVICE_TYPE gpu
-    cuda_version: &CUDA_VERSION cu128
-    python_version: &DOCKER_PYTHON_VERSION py3
-    tag_python_version: &TAG_PYTHON_VERSION py312
-    os_version: &OS_VERSION ubuntu24.04
-    tag: !join [ *VERSION, "-", *DEVICE_TYPE, "-", *TAG_PYTHON_VERSION, "-", *CUDA_VERSION, "-", *OS_VERSION, "-ec2" ]
-    latest_release_tag: !join [ *VERSION, "-", *DEVICE_TYPE, "-", *TAG_PYTHON_VERSION, "-", *CUDA_VERSION, "-", *OS_VERSION, "-ec2" ]
-    docker_file: !join [ *FRAMEWORK, /, *ARCH_TYPE, /, *DEVICE_TYPE, /, *CUDA_VERSION, /Dockerfile ]
-    target: final
-    build: true
-    enable_common_stage_build: false
-    test_configs:
-      test_platforms:
-        - sanity
-        - security
+buildspec_pointer: buildspec-cu129-ubuntu22.yml
@@ -0,0 +1,125 @@
+ARG PYTHON="python3"
+ARG PYTHON_VERSION="3.12.10"
+ARG PYTHON_SHORT_VERSION="3.12"
+ARG CUDA_MAJOR="12"
+ARG CUDA_MINOR="9"
+ARG EFA_VERSION="1.43.1"
+FROM nvidia/cuda:12.9.1-base-ubuntu22.04 AS base-builder
+
+
+RUN mv /usr/local/cuda/compat /usr/local \
+    && apt-get update \
+    && apt-get -y upgrade --only-upgrade systemd \
+    && apt-get install -y --allow-change-held-packages --no-install-recommends \
+        automake \
+        build-essential \
+        ca-certificates \
+        cmake \
+        curl \
+        emacs \
+        git \
+        jq \
+        libcurl4-openssl-dev \
+        libglib2.0-0 \
+        libegl1 \
+        libgl1 \
+        libsm6 \
+        libssl-dev \
+        libxext6 \
+        libxrender-dev \
+        zlib1g-dev \
+        unzip \
+        vim \
+        wget \
+        libhwloc-dev \
+        libgomp1 \
+        libibverbs-dev \
+        libnuma1 \
+        libnuma-dev \
+        libtool \
+        openssl \
+        python3-dev \
+        autoconf \
+        pkg-config \
+        check \
+        libsubunit0 \
+        libsubunit-dev \
+        libffi-dev \
+        libbz2-dev \
+        liblzma-dev \
+    && apt-get autoremove -y \
+    && apt-get clean \
+    && rm -rf /var/lib/apt/lists/*
+
+##############################################################################
+FROM base-builder AS python-builder
+ARG PYTHON_VERSION
+COPY install_python.sh install_python.sh
+RUN bash install_python.sh ${PYTHON_VERSION} && rm install_python.sh
+
+##############################################################################
+FROM base-builder AS cuda-builder
+ARG CUDA_MAJOR
+ARG CUDA_MINOR
+COPY install_cuda.sh install_cuda.sh
+RUN bash install_cuda.sh "${CUDA_MAJOR}.${CUDA_MINOR}" && rm install_cuda.sh
+
+##############################################################################
+FROM nvidia/cuda:12.9.1-base-ubuntu22.04 AS final 
+ARG PYTHON
+ARG PYTHON_SHORT_VERSION
+ARG CUDA_MAJOR
+ARG CUDA_MINOR
+ARG EFA_VERSION
+LABEL maintainer="Amazon AI"
+LABEL dlc_major_version="1"
+ENV DEBIAN_FRONTEND=noninteractive \
+    LANG=C.UTF-8 \
+    LC_ALL=C.UTF-8 \
+    DLC_CONTAINER_TYPE=base \
+    # Python won’t try to write .pyc or .pyo files on the import of source modules
+    # Force stdin, stdout and stderr to be totally unbuffered. Good for logging
+    PYTHONDONTWRITEBYTECODE=1 \
+    PYTHONUNBUFFERED=1 \
+    PYTHONIOENCODING=UTF-8 \
+    CUDA_HOME="/usr/local/cuda" \
+    PATH="/opt/amazon/openmpi/bin:/opt/amazon/efa/bin:/usr/local/cuda/bin:${PATH}" \
+    LD_LIBRARY_PATH="/usr/local/lib:/usr/local/cuda/lib64:/opt/amazon/ofi-nccl/lib:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:${LD_LIBRARY_PATH}"
+
+WORKDIR /
+
+# + python and pip packages (awscli, boto3, requests)
+COPY --from=python-builder /usr/local/lib/python${PYTHON_SHORT_VERSION} /usr/local/lib/python${PYTHON_SHORT_VERSION}
+COPY --from=python-builder /usr/local/include/python${PYTHON_SHORT_VERSION} /usr/local/include/python${PYTHON_SHORT_VERSION}
+COPY --from=python-builder /usr/local/bin /usr/local/bin
+# + cuda-toolkit, cudnn, nccl
+COPY --from=cuda-builder /usr/local/cuda-${CUDA_MAJOR}.${CUDA_MINOR} /usr/local/cuda-${CUDA_MAJOR}.${CUDA_MINOR}
+COPY install_efa.sh install_efa.sh 
+COPY deep_learning_container.py /usr/local/bin/deep_learning_container.py
+COPY bash_telemetry.sh /usr/local/bin/bash_telemetry.sh
+RUN chmod +x /usr/local/bin/deep_learning_container.py && \
+    chmod +x /usr/local/bin/bash_telemetry.sh && \
+    echo 'source /usr/local/bin/bash_telemetry.sh' >> /etc/bash.bashrc && \
+    # Install EFA
+    bash install_efa.sh ${EFA_VERSION} && \
+    rm install_efa.sh && \
+    # OSS compliance
+    apt-get update && \
+    apt-get upgrade -y && \
+    apt-get install -y --allow-change-held-packages --no-install-recommends \
+    unzip \
+    wget && \
+    apt-get clean && \
+    HOME_DIR=/root && \
+    curl -o ${HOME_DIR}/oss_compliance.zip https://aws-dlinfra-utilities.s3.amazonaws.com/oss_compliance.zip && \
+    unzip ${HOME_DIR}/oss_compliance.zip -d ${HOME_DIR}/ && \
+    cp ${HOME_DIR}/oss_compliance/test/testOSSCompliance /usr/local/bin/testOSSCompliance && \
+    chmod +x /usr/local/bin/testOSSCompliance && \
+    chmod +x ${HOME_DIR}/oss_compliance/generate_oss_compliance.sh && \
+    ${HOME_DIR}/oss_compliance/generate_oss_compliance.sh ${HOME_DIR} ${PYTHON} && \
+    rm -rf ${HOME_DIR}/oss_compliance* && \
+    rm -rf /tmp/tmp* && \
+    rm -rf /var/lib/apt/lists/* && \
+    rm -rf /root/.cache | true
+    
+CMD ["/bin/bash"]
@@ -118,6 +118,9 @@ use_scheduler = false
 
 ### TRAINING PR JOBS ###
 
+# Base
+dlc-pr-base = ""
+
 # Standard Framework Training
 dlc-pr-pytorch-training = "pytorch/training/buildspec-2-7-ec2.yml"
 dlc-pr-tensorflow-2-training = ""
 
@@ -87,12 +87,53 @@ function install_cuda128_stack {
     ldconfig
 }
 
+function install_cuda129_stack {
+    CUDNN_VERSION="9.10.2.21"
+    NCCL_VERSION="v2.27.3-1"
+    CUDA_HOME="/usr/local/cuda"
+    
+    # move cuda-compt and remove existing cuda dir from nvidia/cuda:**.*.*-base-*
+    rm -rf /usr/local/cuda-*
+    rm -rf /usr/local/cuda
+
+    # install CUDA
+    wget -q https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda_12.9.1_575.57.08_linux.run
+    chmod +x cuda_12.9.1_575.57.08_linux.run
+    ./cuda_12.9.1_575.57.08_linux.run --toolkit --silent
+    rm -f cuda_12.9.1_575.57.08_linux.run
+    ln -s /usr/local/cuda-12.9 /usr/local/cuda
+    # bring back cuda-compat
+    mv /usr/local/compat /usr/local/cuda/compat
+
+    # install cudnn
+    mkdir -p /tmp/cudnn
+    cd /tmp/cudnn
+    wget -q https://developer.download.nvidia.com/compute/cudnn/redist/cudnn/linux-x86_64/cudnn-linux-x86_64-${CUDNN_VERSION}_cuda12-archive.tar.xz -O cudnn-linux-x86_64-${CUDNN_VERSION}_cuda12-archive.tar.xz
+    tar xf cudnn-linux-x86_64-${CUDNN_VERSION}_cuda12-archive.tar.xz
+    cp -a cudnn-linux-x86_64-${CUDNN_VERSION}_cuda12-archive/include/* /usr/local/cuda/include/
+    cp -a cudnn-linux-x86_64-${CUDNN_VERSION}_cuda12-archive/lib/* /usr/local/cuda/lib64/
+
+    # install nccl
+    mkdir -p /tmp/nccl
+    cd /tmp/nccl
+    git clone -b $NCCL_VERSION --depth 1 https://github.com/NVIDIA/nccl.git
+    cd nccl 
+    make -j src.build
+    cp -a build/include/* /usr/local/cuda/include/
+    cp -a build/lib/* /usr/local/cuda/lib64/
+
+    prune_cuda
+    ldconfig
+}
+
 # idiomatic parameter and option handling in sh
 while test $# -gt 0
 do
     case "$1" in
     12.8) install_cuda128_stack;
         ;;
+    12.9) install_cuda129_stack;
+        ;;
     *) echo "bad argument $1"; exit 1
         ;;
     esac
 
@@ -36,7 +36,7 @@ validate_all_reduce_performance_logs(){
     # EFA 1.37.0 using "Using network Libfabric" instead of "Using network AWS Libfabric"
     grep -E "Using network (AWS )?Libfabric" ${TRAINING_LOG} || { echo "efa is not working, please check if it is installed correctly"; exit 1; }
     if [[ ${INSTANCE_TYPE} == p4d* || ${INSTANCE_TYPE} == p5* ]]; then
-        grep "Setting NCCL_TOPO_FILE environment variable to" ${TRAINING_LOG}
+        grep "NCCL_TOPO_FILE set by environment to" ${TRAINING_LOG}
         # EFA 1.37.0 change from NET/AWS Libfabric/0/GDRDMA to NET/Libfabric/0/GDRDMA
         grep -E "NET/(AWS )?Libfabric/0/GDRDMA" ${TRAINING_LOG}
     fi
 
@@ -294,10 +294,16 @@ def _setup_container(connection, docker_image, container_name):
     # using SSH on a pre-defined port (as decided by sshd_config on server-side).
     # Allow instance to share all memory with container using memlock=-1:-1.
     # Share all EFA devices with container using --device <device_location> for all EFA devices.
-    connection.run(
-        f"docker run --runtime=nvidia --gpus all -id --name {container_name} --network host --ulimit memlock=-1:-1 "
-        f"{docker_all_devices_arg} -v $HOME/container_tests:/test -v /dev/shm:/dev/shm {docker_image} bash"
-    )
+    if "vllm" in docker_image:
+        connection.run(
+            f"docker run --entrypoint=/bin/bash -e CUDA_HOME=/usr/local/cuda --runtime=nvidia --gpus all -id --name {container_name} --network host --ulimit memlock=-1:-1 "
+            f"{docker_all_devices_arg} -v $HOME/container_tests:/test -v /dev/shm:/dev/shm {docker_image}"
+        )
+    else:
+        connection.run(
+            f"docker run --runtime=nvidia --gpus all -id --name {container_name} --network host --ulimit memlock=-1:-1 "
+            f"{docker_all_devices_arg} -v $HOME/container_tests:/test -v /dev/shm:/dev/shm {docker_image} bash"
+        )
 
 
 def _setup_master_efa_ssh_config(connection):
 
@@ -664,6 +664,7 @@ def test_smmodelparallel_gpt2_sdp_multinode_efa(
         )
 
 
+@pytest.mark.skip(reason="Sagemaker efa test is a duplicate of ec2 efa test on p4d instances")
 @pytest.mark.integration("smmodelparallel")
 @pytest.mark.model("mnist")
 @pytest.mark.processor("gpu")
Original file line number	Diff line number	Diff line change
`@@ -664,6 +664,7 @@ def test_smmodelparallel_gpt2_sdp_multinode_efa(`
`664`	`664`	`)`
`665`	`665`
`666`	`666`
	`667`	`+@pytest.mark.skip(reason="Sagemaker efa test is a duplicate of ec2 efa test on p4d instances")`
`667`	`668`	`@pytest.mark.integration("smmodelparallel")`
`668`	`669`	`@pytest.mark.model("mnist")`
`669`	`670`	`@pytest.mark.processor("gpu")`