Changed counting epochs to counting steps (#17)

spietras · web-flow · commit f490608fca87 · 2022-09-21T11:18:00.000+02:00
diff --git a/kilroy_module_pytorch_py_sdk/pyproject.toml b/kilroy_module_pytorch_py_sdk/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "kilroy-module-pytorch-py-sdk"
-version = "0.6.0"
+version = "0.6.1"
 description = "SDK for kilroy modules using PyTorch 🧰"
 readme = "README.md"
 authors = ["kilroy <kilroymail@pm.me>"]
diff --git a/kilroy_module_pytorch_py_sdk/src/kilroy_module_pytorch_py_sdk/modules/basic.py b/kilroy_module_pytorch_py_sdk/src/kilroy_module_pytorch_py_sdk/modules/basic.py
@@ -58,7 +58,7 @@ def config(cls) -> Dict[str, Any]:
         return {
             "type": "line",
             "data": {"datasets": [{"data": []}]},
-            "options": {"parsing": {"xAxisKey": "epoch", "yAxisKey": "loss"}},
+            "options": {"parsing": {"xAxisKey": "step", "yAxisKey": "loss"}},
         }
 
 
@@ -76,7 +76,7 @@ def config(cls) -> Dict[str, Any]:
         return {
             "type": "line",
             "data": {"datasets": [{"data": []}]},
-            "options": {"parsing": {"xAxisKey": "epoch", "yAxisKey": "score"}},
+            "options": {"parsing": {"xAxisKey": "step", "yAxisKey": "score"}},
         }
 
 
@@ -88,8 +88,8 @@ class MetricsState:
 
 @dataclass
 class ReportsState:
-    epoch_supervised_losses: List[float]
-    epoch_reinforced_scores: List[float]
+    step_supervised_losses: List[float]
+    step_reinforced_scores: List[float]
 
 
 @dataclass
@@ -104,7 +104,7 @@ class State:
     codec: Codec
     results_cache: Dict[UUID, Tuple[Tensor, Tensor]]
     batch_size: int
-    epoch: int
+    step: int
     metrics: MetricsState
     reports: ReportsState
 
@@ -205,7 +205,7 @@ def fit(model, batch):
             async for batch in streamer:
                 async with self.state.write_lock() as state:
                     loss = await background(fit, state.model, batch)
-                    state.reports.epoch_supervised_losses.append(loss)
+                    state.reports.step_supervised_losses.append(loss)
 
     async def fit_posts(
         self, posts: AsyncIterable[Tuple[Dict[str, Any], float]]
@@ -233,7 +233,7 @@ def fit():
 
         async with self.state.write_lock() as state:
             score = await background(fit)
-            state.reports.epoch_reinforced_scores.append(score)
+            state.reports.step_reinforced_scores.append(score)
 
     async def fit_scores(self, scores: List[Tuple[UUID, float]]) -> None:
         async def get_results():
@@ -246,34 +246,34 @@ async def get_results():
         await self._fit_reinforced(get_results())
 
     @staticmethod
-    async def _report_mean_from_epoch(
-        metric: Metric, epoch: int, label: str, values: Iterable[float]
+    async def _report_mean_from_step(
+        metric: Metric, step: int, label: str, values: Iterable[float]
     ) -> None:
         values = list(values)
         if values:
-            await metric.report({"epoch": epoch, label: np.mean(values)})
+            await metric.report({"step": step, label: np.mean(values)})
 
     @staticmethod
     async def _reset_reports(state: State) -> None:
-        state.reports.epoch_supervised_losses = []
-        state.reports.epoch_reinforced_scores = []
+        state.reports.step_supervised_losses = []
+        state.reports.step_reinforced_scores = []
 
     async def step(self) -> None:
         async with self.state.write_lock() as state:
             await state.optimizer.step()
             if state.scheduler is not None:
                 await state.scheduler.step()
-            await self._report_mean_from_epoch(
+            await self._report_mean_from_step(
                 state.metrics.supervised_loss_metric,
-                state.epoch,
+                state.step,
                 "loss",
-                state.reports.epoch_supervised_losses,
+                state.reports.step_supervised_losses,
             )
-            await self._report_mean_from_epoch(
+            await self._report_mean_from_step(
                 state.metrics.reinforced_score_metric,
-                state.epoch,
+                state.step,
                 "score",
-                state.reports.epoch_reinforced_scores,
+                state.reports.step_reinforced_scores,
             )
             await self._reset_reports(state)
-            state.epoch += 1
+            state.step += 1
diff --git a/kilroy_module_pytorch_py_sdk/src/kilroy_module_pytorch_py_sdk/modules/reward.py b/kilroy_module_pytorch_py_sdk/src/kilroy_module_pytorch_py_sdk/modules/reward.py
@@ -63,7 +63,7 @@ def config(cls) -> Dict[str, Any]:
         return {
             "type": "line",
             "data": {"datasets": [{"data": []}]},
-            "options": {"parsing": {"xAxisKey": "epoch", "yAxisKey": "loss"}},
+            "options": {"parsing": {"xAxisKey": "step", "yAxisKey": "loss"}},
         }
 
 
@@ -81,7 +81,7 @@ def config(cls) -> Dict[str, Any]:
         return {
             "type": "line",
             "data": {"datasets": [{"data": []}]},
-            "options": {"parsing": {"xAxisKey": "epoch", "yAxisKey": "score"}},
+            "options": {"parsing": {"xAxisKey": "step", "yAxisKey": "score"}},
         }
 
 
@@ -99,7 +99,7 @@ def config(cls) -> Dict[str, Any]:
         return {
             "type": "line",
             "data": {"datasets": [{"data": []}]},
-            "options": {"parsing": {"xAxisKey": "epoch", "yAxisKey": "loss"}},
+            "options": {"parsing": {"xAxisKey": "step", "yAxisKey": "loss"}},
         }
 
 
@@ -117,7 +117,7 @@ def config(cls) -> Dict[str, Any]:
         return {
             "type": "line",
             "data": {"datasets": [{"data": []}]},
-            "options": {"parsing": {"xAxisKey": "epoch", "yAxisKey": "score"}},
+            "options": {"parsing": {"xAxisKey": "step", "yAxisKey": "score"}},
         }
 
 
@@ -151,10 +151,10 @@ class MetricsState:
 
 @dataclass
 class ReportsState:
-    epoch_supervised_losses: List[float]
-    epoch_reinforced_scores: List[float]
-    epoch_reward_model_losses: List[float]
-    epoch_reward_model_scores: List[float]
+    step_supervised_losses: List[float]
+    step_reinforced_scores: List[float]
+    step_reward_model_losses: List[float]
+    step_reward_model_scores: List[float]
 
 
 @dataclass
@@ -167,7 +167,7 @@ class State:
     results_cache: Dict[UUID, Tuple[Tensor, Tensor]]
     batch_size: int
     sample_size: int
-    epoch: int
+    step: int
     metrics: MetricsState
     reports: ReportsState
     coroutine_queue: Queue[Coroutine]
@@ -357,14 +357,14 @@ async def _fit_supervised(
                         state.language_model.model,
                         sequences,
                     )
-                    state.reports.epoch_supervised_losses.append(loss)
+                    state.reports.step_supervised_losses.append(loss)
                     loss = await background(
                         self._fit_reward_model_batch,
                         state.reward_model.model,
                         sequences,
                         scores,
                     )
-                    state.reports.epoch_reward_model_losses.append(loss)
+                    state.reports.step_reward_model_losses.append(loss)
 
     async def fit_posts(
         self, posts: AsyncIterable[Tuple[Dict[str, Any], float]]
@@ -409,7 +409,7 @@ async def _fit_with_reward_model(self) -> None:
                     sequences,
                     logprobs,
                 )
-                state.reports.epoch_reward_model_scores.append(score)
+                state.reports.step_reward_model_scores.append(score)
 
     async def _fit_reinforced(
         self,
@@ -429,8 +429,8 @@ async def _fit_reinforced(
                         sequences,
                         scores,
                     )
-                    state.reports.epoch_reward_model_losses.append(loss)
-                    state.reports.epoch_reinforced_scores.append(
+                    state.reports.step_reward_model_losses.append(loss)
+                    state.reports.step_reinforced_scores.append(
                         scores.mean().item()
                     )
 
@@ -448,19 +448,19 @@ async def get_results():
         await self._fit_reinforced(get_results())
 
     @staticmethod
-    async def _report_mean_from_epoch(
-        metric: Metric, epoch: int, label: str, values: Iterable[float]
+    async def _report_mean_from_step(
+        metric: Metric, step: int, label: str, values: Iterable[float]
     ) -> None:
         values = list(values)
         if values:
-            await metric.report({"epoch": epoch, label: np.mean(values)})
+            await metric.report({"step": step, label: np.mean(values)})
 
     @staticmethod
     async def _reset_reports(state: State) -> None:
-        state.reports.epoch_supervised_losses = []
-        state.reports.epoch_reinforced_scores = []
-        state.reports.epoch_reward_model_losses = []
-        state.reports.epoch_reward_model_scores = []
+        state.reports.step_supervised_losses = []
+        state.reports.step_reinforced_scores = []
+        state.reports.step_reward_model_losses = []
+        state.reports.step_reward_model_scores = []
 
     async def step(self) -> None:
         async with self.state.write_lock() as state:
@@ -470,29 +470,29 @@ async def step(self) -> None:
             await state.reward_model.optimizer.step()
             if state.reward_model.scheduler is not None:
                 await state.reward_model.scheduler.step()
-            await self._report_mean_from_epoch(
+            await self._report_mean_from_step(
                 state.metrics.supervised_loss_metric,
-                state.epoch,
+                state.step,
                 "loss",
-                state.reports.epoch_supervised_losses,
+                state.reports.step_supervised_losses,
             )
-            await self._report_mean_from_epoch(
+            await self._report_mean_from_step(
                 state.metrics.reinforced_score_metric,
-                state.epoch,
+                state.step,
                 "score",
-                state.reports.epoch_reinforced_scores,
+                state.reports.step_reinforced_scores,
             )
-            await self._report_mean_from_epoch(
+            await self._report_mean_from_step(
                 state.metrics.reward_model_loss_metric,
-                state.epoch,
+                state.step,
                 "loss",
-                state.reports.epoch_reward_model_losses,
+                state.reports.step_reward_model_losses,
             )
-            await self._report_mean_from_epoch(
+            await self._report_mean_from_step(
                 state.metrics.reward_model_score_metric,
-                state.epoch,
+                state.step,
                 "score",
-                state.reports.epoch_reward_model_scores,
+                state.reports.step_reward_model_scores,
             )
             await self._reset_reports(state)
-            state.epoch += 1
+            state.step += 1
diff --git a/pyproject.toml b/pyproject.toml
@@ -3,7 +3,7 @@
 
 [tool.poetry]
 name = "kilroy-module-pytorch-py-sdk"
-version = "0.6.0"
+version = "0.6.1"
 description = "SDK for kilroy modules using PyTorch 🧰"
 readme = "kilroy_module_pytorch_py_sdk/README.md"
 authors = ["kilroy <kilroymail@pm.me>"]