allenporter · victorigualada · Jan 30, 2026 · Jan 30, 2026 · Jan 30, 2026 · Feb 27, 2026
diff --git a/.github/ISSUE_TEMPLATE/benchmark-run.yml b/.github/ISSUE_TEMPLATE/benchmark-run.yml
@@ -0,0 +1,33 @@
+---
+name: "Benchmark run (OpenRouter)"
+description: "Request a benchmark run for a single OpenRouter model"
+title: "Benchmark: <author>/<model> (OpenRouter)"
+body:
+  - type: markdown
+    attributes:
+      value: |
+        Submit a benchmark request for a single OpenRouter model.
+
+        - Only org members/collaborators can trigger runs.
+        - A workflow will validate this issue when the `run-benchmark` label is applied.
+
+  - type: textarea
+    id: models
+    attributes:
+      label: Model (OpenRouter URL or slug)
+      description: |
+        Exactly one model. Accepted formats:
+        - https://openrouter.ai/<author>/<model>
+        - <author>/<model>
+      placeholder: |
+        https://openrouter.ai/mistralai/mistral-large-2512
+    validations:
+      required: true
+
+  - type: textarea
+    id: notes
+    attributes:
+      label: Notes (optional)
+      description: Any context for reviewers / maintainers.
+    validations:
+      required: false
diff --git a/datasets/assist-de/dataset_card.yaml b/datasets/assist-de/dataset_card.yaml
@@ -0,0 +1,15 @@
+---
+name: assist-de
+language: de
+version: v2
+description: |-
+  Ein Datensatz zum Testen der Home Assistant LLM API. Die Häuser in diesem
+  Datensatz wurden synthetisch mit gpt-3.5 generiert und anschließend manuell
+  kuratiert, um die Home Assistant Intents zur Gerätesteuerung zu testen. Die
+  Sätze wurden absichtlich schwieriger gestaltet als die bestehende
+  Assistenten-NLP, um die Denkfähigkeiten größerer Modelle zu demonstrieren.
+urls:
+  - https://github.com/allenporter/home-assistant-datasets/tree/main/datasets/assist-de
+  - https://developers.home-assistant.io/blog/2024/05/20/llm-api/
+# Erhöhe die Standard-Anzahl der Durchläufe für ein niedrigeres Konfidenzintervall
+count: 5