NVIDIA · amukkara · Mar 12, 2026
@@ -305,7 +305,6 @@ def setup_llm(args, **kwargs):
         enable_iter_perf_stats=args.print_iter_log,
         torch_compile_config=TorchCompileConfig(
             enable_fullgraph=args.use_torch_compile,
-            enable_inductor=args.use_torch_compile,
             enable_piecewise_cuda_graph= \
                 args.use_piecewise_cuda_graph)
         if args.use_torch_compile else None,

@@ -146,9 +146,10 @@ def __call__(self, gm: GraphModule,
             )
             return gm
 
+        self.input_num_tokens = None
         for node in gm.graph.nodes:
             if node.op == "placeholder":
-                if node.name == "l_input_ids_":
+                if node.name in ["l_input_ids_", "l_kwargs_input_ids_"]:
                     example_value = node.meta["example_value"]
                     assert isinstance(example_value, FakeTensor)
                     self.input_num_tokens = example_value.shape[0]