Merge pull request #4391 from nick-stroud/fix-tensorflow-example

nick-stroud · web-flow · commit 119d97c6cf24 · 2025-07-13T21:32:47.000-07:00
Fix bug in tensorflow example 'text input must be of type str
diff --git a/examples/gke-managed-hyperdisk.yaml b/examples/gke-managed-hyperdisk.yaml
@@ -154,7 +154,8 @@ deployment_groups:
         from transformers import AutoTokenizer
         import numpy as np
         tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
-        tokenized_data = tokenizer(dataset["sentence"], return_tensors="np", padding=True)
+        sentences = [str(s) for s in dataset["sentence"]]
+        tokenized_data = tokenizer(sentences, return_tensors="np", padding=True)
         tokenized_data = dict(tokenized_data)
         labels = np.array(dataset["label"])
         from transformers import TFAutoModelForSequenceClassification
@@ -195,7 +196,8 @@ deployment_groups:
         from transformers import AutoTokenizer
         import numpy as np
         tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
-        tokenized_data = tokenizer(dataset["sentence"], return_tensors="np", padding=True)
+        sentences = [str(s) for s in dataset["sentence"]]
+        tokenized_data = tokenizer(sentences, return_tensors="np", padding=True)
         tokenized_data = dict(tokenized_data)
         labels = np.array(dataset["label"])
         from transformers import TFAutoModelForSequenceClassification
@@ -236,7 +238,8 @@ deployment_groups:
         from transformers import AutoTokenizer
         import numpy as np
         tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
-        tokenized_data = tokenizer(dataset["sentence"], return_tensors="np", padding=True)
+        sentences = [str(s) for s in dataset["sentence"]]
+        tokenized_data = tokenizer(sentences, return_tensors="np", padding=True)
         tokenized_data = dict(tokenized_data)
         labels = np.array(dataset["label"])
         from transformers import TFAutoModelForSequenceClassification