BaguaSys
diff --git a/‎.buildkite/scripts/benchmark_master.sh‎
Lines changed: 4 additions & 8 deletions b/‎.buildkite/scripts/benchmark_master.sh‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎.buildkite/scripts/benchmark_worker.sh‎
Lines changed: 4 additions & 8 deletions b/‎.buildkite/scripts/benchmark_worker.sh‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎bagua/torch_api/communication.py‎
Lines changed: 2 additions & 2 deletions b/‎bagua/torch_api/communication.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/communication_primitives/main.py‎
Lines changed: 3 additions & 5 deletions b/‎examples/communication_primitives/main.py‎
Lines changed: 3 additions & 5 deletions
diff --git a/‎tests/internal/multi_process_v2.py‎
Lines changed: 1 addition & 2 deletions b/‎tests/internal/multi_process_v2.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎tests/pytorch_lightning/test_bagua_strategy.py‎
Lines changed: 5 additions & 5 deletions b/‎tests/pytorch_lightning/test_bagua_strategy.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎tests/torch_api/data_parallel/test_async_model_average.py‎
Lines changed: 48 additions & 81 deletions b/‎tests/torch_api/data_parallel/test_async_model_average.py‎
Lines changed: 48 additions & 81 deletions
@@ -1,19 +1,12 @@
 #!/usr/bin/env bash
 
-echo "$BUILDKITE_PARALLEL_JOB"
-echo "$BUILDKITE_PARALLEL_JOB_COUNT"
-echo "$BUILDKITE_BUILD_ID"
-echo "${MASTER_ADDR}:${MASTER_PORT}"
+printenv
 
 set -euox pipefail
 
 # 0. install bagua
 cp -a /upstream /workdir
 export WORKDIR=/workdir && cd $WORKDIR && bash .buildkite/scripts/install_bagua.sh || exit 1
-apt-get update && apt-get install -y iputils-ping
-ping ${MASTER_ADDR} -c 10
-
-nvidia-smi
 
 # 1. test communication_primitives api
 echo "begin to test [communication_primitives]"
@@ -24,6 +17,7 @@ NCCL_SOCKET_IFNAME=^docker,lo,veth python -m bagua.distributed.run \
     --rdzv_id=${BUILDKITE_BUILD_ID} \
     --rdzv_backend=c10d \
     --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} \
+    --rdzv_conf read_timeout=300 \
     ${COMMUNICATION_SCRIPT}
 
 # 2. benchmark test with all communication algorithms
@@ -97,6 +91,7 @@ for ((i = 0; i < $length; i++)); do
         --rdzv_id=${BUILDKITE_BUILD_ID} \
         --rdzv_backend=c10d \
         --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} \
+        --rdzv_conf read_timeout=300 \
         ${SYNTHETIC_SCRIPT} \
         --num-iters 100 \
         --algorithm ${algorithms[$i]} \
@@ -140,6 +135,7 @@ NCCL_SOCKET_IFNAME=^docker,lo,veth CUDA_VISIBLE_DEVICES=0,1 python -m bagua.dist
     --rdzv_id=${BUILDKITE_BUILD_ID} \
     --rdzv_backend=c10d \
     --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} \
+    --rdzv_conf read_timeout=300 \
     ${MOE_SCRIPT} \
     --algorithm gradient_allreduce \
     --epochs 5 \
 
@@ -1,19 +1,12 @@
 #!/usr/bin/env bash
 
-echo "$BUILDKITE_PARALLEL_JOB"
-echo "$BUILDKITE_PARALLEL_JOB_COUNT"
-echo "$BUILDKITE_BUILD_ID"
-echo "${MASTER_ADDR}:${MASTER_PORT}"
+printenv
 
 set -euox pipefail
 
 # 0. install bagua
 cp -a /upstream /workdir
 export WORKDIR=/workdir && cd $WORKDIR && bash .buildkite/scripts/install_bagua.sh || exit 1
-apt-get update && apt-get install -y iputils-ping
-ping ${MASTER_ADDR} -c 10
-
-nvidia-smi
 
 # 1. test communication_primitives api
 echo "begin to test [communication_primitives]"
@@ -24,6 +17,7 @@ NCCL_SOCKET_IFNAME=^docker,lo,veth python -m bagua.distributed.run \
     --rdzv_id=${BUILDKITE_BUILD_ID} \
     --rdzv_backend=c10d \
     --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} \
+    --rdzv_conf read_timeout=300 \
     ${COMMUNICATION_SCRIPT}
 
 # 2. benchmark test with all communication algorithms
@@ -39,6 +33,7 @@ for ((i = 0; i < $length; i++)); do
         --rdzv_id=${BUILDKITE_BUILD_ID} \
         --rdzv_backend=c10d \
         --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} \
+        --rdzv_conf read_timeout=300 \
         ${SYNTHETIC_SCRIPT} \
         --num-iters 100 \
         --algorithm ${algorithms[$i]} \
@@ -57,6 +52,7 @@ NCCL_SOCKET_IFNAME=^docker,lo,veth CUDA_VISIBLE_DEVICES=0,1 python -m bagua.dist
     --rdzv_id=${BUILDKITE_BUILD_ID} \
     --rdzv_backend=c10d \
     --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} \
+    --rdzv_conf read_timeout=300 \
     ${MOE_SCRIPT} \
     --algorithm gradient_allreduce \
     --epochs 5 \
 
@@ -501,8 +501,8 @@ def init_process_group(store: Optional[torch.distributed.Store] = None, rank: in
         _default_store = store
     else:
         assert rank >= 0
-        assert world_size >= 0
-        assert local_world_size >= 0
+        assert world_size > 0
+        assert local_world_size > 0
 
         os.environ["RANK"] = str(rank)
         os.environ["WORLD_SIZE"] = str(world_size)
 
@@ -6,6 +6,9 @@
 import bagua.torch_api as bagua
 
 
+logging.basicConfig(format="%(levelname)s:%(message)s", level=logging.INFO)
+
+
 def main():
     torch.set_printoptions(precision=20)
     parser = argparse.ArgumentParser(description="Communication Primitives Example")
@@ -15,11 +18,6 @@ def main():
 
     torch.cuda.set_device(bagua.get_local_rank())
     bagua.init_process_group()
-
-    logging.basicConfig(format="%(levelname)s:%(message)s", level=logging.ERROR)
-    if bagua.get_rank() == 0:
-        logging.getLogger().setLevel(logging.INFO)
-
     comm = bagua.communication._get_default_group().get_global_communicator()
 
     # send, recv
 
@@ -106,8 +106,7 @@ def _get_timeout(self):
         return 300
 
     def _init_bagua_distributed(self):
-        print("rank:", self.rank)
-        print("world_size: ", self.world_size)
+        logger.info("rank: {}, world_size: {}".format(self.rank, self.world_size()))
 
         torch.cuda.set_device(self.rank)
         store = torch.distributed.FileStore(self.file_name, self.world_size)
 
@@ -43,16 +43,16 @@ def test_bagua_default(tmpdir):
     )
     trainer.fit(model)
     trainer.test(model)
-    assert torch.norm(model.layer.weight) == 2.4819390773
+    assert torch.norm(model.layer.weight) == 2.4819386005
 
 
 @pytest.mark.parametrize(
     ["algorithm", "criterion"],
     [
-        ("gradient_allreduce", 2.8353762626),
+        ("gradient_allreduce", 2.8353767395),
         ("bytegrad", 2.8350479602),
-        ("decentralized", 2.8353762626),
-        ("low_precision_decentralized", 2.8350701332),
+        ("decentralized", 2.8353767395),
+        ("low_precision_decentralized", 2.8350696564),
     ],
 )
 @skip_if_cuda_not_available()
@@ -106,4 +106,4 @@ def test_qadam(tmpdir):
     )
     trainer.fit(model)
     trainer.test(model)
-    assert torch.norm(model.layer.weight) == 6.8912997245
+    assert torch.norm(model.layer.weight) == 6.8912987709
@@ -1,14 +1,16 @@
+import logging
+import os
+import unittest
+
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from tests.internal.common_utils import find_free_port
-import unittest
-import multiprocessing
-import os
 import bagua.torch_api as bagua
-from tests import skip_if_cuda_not_available
-import logging
+
 from bagua.torch_api.data_parallel import DistributedDataParallel as DDP
+from tests.internal.multi_process_v2 import MultiProcessTestCase, skip_if_lt_x_gpu
+
+logger = logging.getLogger(__name__)
 
 
 class Net(nn.Module):
@@ -26,21 +28,8 @@ def forward(self, x):
         return F.softmax(x, dim=1)
 
 
-def run_model_wrapper(rank, env, fn, warmup_steps):
-    # initialize subprocess env
-    os.environ["WORLD_SIZE"] = env["WORLD_SIZE"]
-    os.environ["LOCAL_WORLD_SIZE"] = env["LOCAL_WORLD_SIZE"]
-    os.environ["MASTER_ADDR"] = env["MASTER_ADDR"]
-    os.environ["MASTER_PORT"] = env["MASTER_PORT"]
-    os.environ["BAGUA_SERVICE_PORT"] = env["BAGUA_SERVICE_PORT"]
-    os.environ["RANK"] = str(rank)
-    os.environ["LOCAL_RANK"] = str(rank)
-
-    # init bagua distributed process group
-    torch.cuda.set_device(rank)
-    bagua.init_process_group()
-
-    # construct model and optimizer, etc.
+def create_model_and_optimizer(warmup_steps):
+    # construct model and optimizer
     model = Net().cuda()
     optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
     loss_fn = nn.MSELoss()
@@ -52,84 +41,62 @@ def run_model_wrapper(rank, env, fn, warmup_steps):
     )
     ddp_model = DDP(model, optimizers=[optimizer], algorithm=algorithm)
 
-    fn(ddp_model, optimizer, loss_fn)
+    return model, optimizer
 
 
-def train_epoch(epoch, model, optimizer, loss_fn):
-    logging.debug("Training epoch {}".format(epoch))
+def train_epoch(epoch, model, optimizer):
+    logger.debug("Training epoch {}".format(epoch))
     for _ in range(10):
         data = torch.randn(4, 2).cuda()
         target = torch.randn(4, 4).cuda()
 
         optimizer.zero_grad()
         output = model(data)
-        loss = loss_fn(output, target)
+        loss = nn.MSELoss()(output, target)
 
         loss.backward()
         optimizer.step()
 
 
-def run_epochs(model, optimizer, loss_fn):
-    for epoch in range(5):
-        train_epoch(epoch, model, optimizer, loss_fn)
-    model.bagua_algorithm.abort(model)
+class TestAsyncModelAverage(MultiProcessTestCase):
+    def setUp(self):
+        super(TestAsyncModelAverage, self).setUp()
+        self._spawn_processes()
 
+    def tearDown(self):
+        super(TestAsyncModelAverage, self).tearDown()
+        try:
+            os.remove(self.file_name)
+        except OSError:
+            pass
 
-def run_multiple_aborts(model, optimizer, loss_fn):
-    for epoch in range(10):
-        model.bagua_algorithm.resume(model)
-        model.bagua_algorithm.resume(model)
-        train_epoch(epoch, model, optimizer, loss_fn)
-        model.bagua_algorithm.abort(model)
-        model.bagua_algorithm.abort(model)
-
+    @property
+    def world_size(self) -> int:
+        return torch.cuda.device_count()
 
-class TestAsyncModelAverage(unittest.TestCase):
-    @skip_if_cuda_not_available()
+    @skip_if_lt_x_gpu(2)
     def test_algorithm(self):
-        nprocs = torch.cuda.device_count()
-        env = {
-            "WORLD_SIZE": str(nprocs),
-            "LOCAL_WORLD_SIZE": str(nprocs),
-            "MASTER_ADDR": "127.0.0.1",
-            "MASTER_PORT": str(find_free_port(8000, 8100)),
-            "BAGUA_SERVICE_PORT": str(find_free_port(9000, 9100)),
-        }
-
-        mp = multiprocessing.get_context("spawn")
-        processes = []
-        for i in range(nprocs):
-            p = mp.Process(target=run_model_wrapper, args=(i, env, run_epochs, 0))
-            p.start()
-            processes.append(p)
-
-        for p in processes:
-            p.join(timeout=60)
-            self.assertTrue(p.exitcode == 0)
-
-    @skip_if_cuda_not_available()
+        self._init_bagua_distributed()
+        model, optimizer = create_model_and_optimizer(warmup_steps=0)
+
+        for epoch in range(100):
+            train_epoch(epoch, model, optimizer)
+        model.bagua_algorithm.abort(model)
+
+    @skip_if_lt_x_gpu(2)
     def test_multiple_aborts(self):
-        nprocs = torch.cuda.device_count()
-        env = {
-            "WORLD_SIZE": str(nprocs),
-            "LOCAL_WORLD_SIZE": str(nprocs),
-            "MASTER_ADDR": "127.0.0.1",
-            "MASTER_PORT": str(find_free_port(8000, 8100)),
-            "BAGUA_SERVICE_PORT": str(find_free_port(9000, 9100)),
-        }
-
-        mp = multiprocessing.get_context("spawn")
-        processes = []
-        for i in range(nprocs):
-            p = mp.Process(
-                target=run_model_wrapper, args=(i, env, run_multiple_aborts, 10)
-            )
-            p.start()
-            processes.append(p)
-
-        for p in processes:
-            p.join(timeout=60)
-            self.assertTrue(p.exitcode == 0)
+        self._init_bagua_distributed()
+        model, optimizer = create_model_and_optimizer(warmup_steps=10)
+
+        for i in range(2):
+            model.bagua_algorithm.resume(model)
+            model.bagua_algorithm.abort(model)
+            model.bagua_algorithm.resume(model)
+            for epoch in range(100):
+                train_epoch(i * 100 + epoch, model, optimizer)
+
+            model.bagua_algorithm.abort(model)
+            model.bagua_algorithm.abort(model)
 
 
 if __name__ == "__main__":
Original file line number	Diff line number	Diff line change
`@@ -43,16 +43,16 @@ def test_bagua_default(tmpdir):`
`43`	`43`	`)`
`44`	`44`	`trainer.fit(model)`
`45`	`45`	`trainer.test(model)`
`46`		`- assert torch.norm(model.layer.weight) == 2.4819390773`
	`46`	`+ assert torch.norm(model.layer.weight) == 2.4819386005`
`47`	`47`
`48`	`48`
`49`	`49`	`@pytest.mark.parametrize(`
`50`	`50`	`["algorithm", "criterion"],`
`51`	`51`	`[`
`52`		`- ("gradient_allreduce", 2.8353762626),`
	`52`	`+ ("gradient_allreduce", 2.8353767395),`
`53`	`53`	`("bytegrad", 2.8350479602),`
`54`		`- ("decentralized", 2.8353762626),`
`55`		`- ("low_precision_decentralized", 2.8350701332),`
	`54`	`+ ("decentralized", 2.8353767395),`
	`55`	`+ ("low_precision_decentralized", 2.8350696564),`
`56`	`56`	`],`
`57`	`57`	`)`
`58`	`58`	`@skip_if_cuda_not_available()`
`@@ -106,4 +106,4 @@ def test_qadam(tmpdir):`
`106`	`106`	`)`
`107`	`107`	`trainer.fit(model)`
`108`	`108`	`trainer.test(model)`
`109`		`- assert torch.norm(model.layer.weight) == 6.8912997245`
	`109`	`+ assert torch.norm(model.layer.weight) == 6.8912987709`