fix signatures for task1, now they synced to the ones in template_crossentropy.py

klensy · klensy · commit c8d225514cc8 · 2025-09-18T18:56:54.000+03:00
diff --git a/homeworks/hw02_cross_entropy/01_crossentropy_method.ipynb b/homeworks/hw02_cross_entropy/01_crossentropy_method.ipynb
@@ -493,7 +493,7 @@
         "elite_states = [1, 2, 3, 4, 2, 0, 2, 3, 1]\n",
         "elite_actions = [0, 2, 4, 3, 2, 0, 1, 3, 3]\n",
         "\n",
-        "new_policy = update_policy(elite_states, elite_actions)\n",
+        "new_policy = update_policy(elite_states, elite_actions, n_states, n_actions)\n",
         "\n",
         "assert np.isfinite(new_policy).all(\n",
         "), \"Your new policy contains NaNs or +-inf. Make sure you don't divide by zero.\"\n",
@@ -587,13 +587,13 @@
         "\n",
         "for i in range(100):\n",
         "\n",
-        "    %time sessions = [generate_session(policy) for _ in range(n_sessions)]\n",
+        "    %time sessions = [generate_session(env, policy) for _ in range(n_sessions)]\n",
         "\n",
         "    states_batch, actions_batch, rewards_batch = zip(*sessions)\n",
         "\n",
         "    elite_states, elite_actions = select_elites(states_batch, actions_batch, rewards_batch, percentile)\n",
         "\n",
-        "    new_policy = update_policy(elite_states, elite_actions)\n",
+        "    new_policy = update_policy(elite_states, elite_actions, n_states, n_actions)\n",
         "\n",
         "    policy = learning_rate*new_policy + (1-learning_rate)*policy\n",
         "\n",