Skip to content

Latest commit

 

History

History
230 lines (167 loc) · 11.2 KB

File metadata and controls

230 lines (167 loc) · 11.2 KB

AutoHarness Logo

「Aha」— AutoHarness: Automated Harness Engineering for AI Agents

すべてのエージェントに aha モーメントを — モデルは推論を、私たちが残りすべてをハーネスします。

AutoHarness Poster

MIT License Python 3.10+ 958 Tests Passed GitHub Ruff mypy

🇬🇧 English · 🇨🇳 简体中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇪🇸 Español · 🇫🇷 Français · 🇩🇪 Deutsch · 🇵🇹 Português · 🇷🇺 Русский

📖 ドキュメント · 🚀 クイックスタート · 💡 使い方 · 🤝 謝辞


⚡ クイックインストール

git clone https://github.com/aiming-lab/AutoHarness.git
cd AutoHarness && pip install -e .
from openai import OpenAI
from autoharness import AutoHarness

client = AutoHarness.wrap(OpenAI())
# これだけです。あなたのエージェントは aha モーメントを迎えました。

🔥 ニュース

  • [04/01/2026] v0.2.0 リリース:3段階パイプラインモード(Core / Standard / Enhanced)、トレースベースの診断、インターフェース検証ゲート、コンテキスト管理の改善。テスト958件合格。
  • [04/01/2026] v0.1.0 リリース:6ステップガバナンスパイプライン、リスクパターンマッチング、YAMLコンスティテューション、監査証跡、マルチエージェントプロファイル、コスト追跡付きセッション永続化。

🤔 なぜ AhaAutoHarness)なのか?

LLMの訓練において、aha モーメントとはモデルが突然推論を学び取る瞬間のことです。

エージェントにとっての aha モーメントとは、「デモなら動く」レベルから真に信頼できるレベルへと飛躍する瞬間です。

その間のギャップは膨大です:コンテキスト管理、ツールガバナンス、コスト制御、可観測性、セッション永続化……これらこそが、おもちゃと本番システムを隔てるエンジニアリングパターンです。私たちはこれをハーネスエンジニアリングと呼んでいます。

AutoHarness は軽量かつ階層的なガバナンスフレームワークです。すべてのエージェントが aha モーメントを迎えられるように。

Agent = Model + Harness。 モデルが推論し、ハーネスがそれ以外のすべてを担います。


🚀 クイックスタート

# 任意のLLMクライアントをラップ(2行で即座にガバナンス)
from openai import OpenAI
from autoharness import AutoHarness

client = AutoHarness.wrap(OpenAI())
response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[{"role": "user", "content": "Refactor auth.py"}],
    tools=[{"type": "function", "function": {"name": "Bash", "description": "Run shell commands",
            "parameters": {"type": "object", "properties": {"command": {"type": "string"}}}}}],
)
# またはフルエージェントループを使用
from autoharness import AgentLoop

loop = AgentLoop(model="gpt-5.4", constitution="constitution.yaml")
result = loop.run("Fix the failing tests in auth.py")

その他の例 →


✨ 何が手に入るのか

ハーネスなし AutoHarnessあり
エージェントが rm -rf / を実行しても誰も止めない 6ステップパイプラインがブロックし、ログに記録し、理由を説明
コンテキストがトークン上限を超えて破綻する トークン予算 + トランケーションでコンテキストを制御下に
どのツール呼び出しにいくらかかったか不明 呼び出し単位のコスト帰属、モデル対応の価格設定
プロンプトインジェクションが素通りする 多層バリデーション:入力レール → 実行 → 出力レール
コンプライアンスに必要な監査証跡がない JSONL監査ログがすべての判断を完全な来歴とともに記録
エージェント全員が同一の権限セット マルチエージェントプロファイルによるロールベースのガバナンス

コアアーキテクチャ:6ステップガバナンスパイプライン

すべてのツール呼び出しが構造化されたパイプラインを通過します:

1. パース&検証  →  2. リスク分類  →  3. 権限チェック
4. 実行          →  5. 出力サニタイズ →  6. 監査ログ

組み込みのリスクパターンが、危険な操作、シークレットの露出、パストラバーサルなどを検出します。

数字で見る

6ステップガバナンスパイプライン  ·  リスクパターンマッチング      ·  YAMLコンスティテューション
トークン予算管理                ·  マルチエージェントプロファイル  ·  JSONL監査証跡
2行で統合                      ·  ベンダーロックインなし          ·  MITライセンス

🔧 パイプラインモード

AutoHarnessは3段階のパイプラインモードをサポートしています。ニーズに合ったガバナンスレベルを選択してください:

モード パイプライン コンテキスト マルチエージェント ユースケース
Core 6ステップ トークン予算 + トランケーション シングルエージェント 軽量ガバナンス
Standard 8ステップ + Microcompact + トレースストア 基本プロファイル 本番エージェント
Enhanced 14ステップ + LLM要約 + 画像ストリッピング Fork / Swarm / Background 最高レベルのガバナンス
# コンスティテューションでモードを切り替え
# constitution.yaml
mode: core      # または "standard" または "enhanced"
# またはCLIで切り替え
autoharness mode enhanced

Enhancedがデフォルトモードです。 最強のガバナンスをすぐに利用可能。最小限のオーバーヘッドが必要な場合はCoreモードに切り替えてください。

モード比較の詳細 →


🖥️ CLI

autoharness init                          # コンスティテューション生成(default/strict/soc2/hipaa/financial)
autoharness init --mode core              # 特定のパイプラインモードで生成
autoharness mode                          # 現在のパイプラインモードを表示
autoharness mode enhanced                 # パイプラインモードを切り替え
autoharness validate constitution.yaml    # コンスティテューションファイルを検証
autoharness check --stdin --format json   # ルールに対してツール呼び出しをチェック
autoharness audit summary                 # 監査サマリーを表示
autoharness install --target claude-code  # Claude Codeフックとしてインストール(ワンコマンド)
autoharness export --format cursor        # クロスハーネスコンスティテューションをエクスポート

📊 比較表

機能 AutoHarness LangGraph Guardrails AI OpenAI SDK
ツールガバナンスパイプライン ✅ 6ステップ(最大14) ⚠️ 出力のみ
コンテキスト管理 ✅ マルチレイヤー ⚠️ トリミング
マルチエージェントプロファイル ✅ グラフ ⚠️ ハンドオフ
バリデーション(入力+出力) ✅ Rails
トレースベース診断
コスト帰属 ✅ 呼び出し単位
ベンダーロックイン なし LangChain なし OpenAI
セットアップ 2行 Graph DSL RAIL XML SDK

🙏 謝辞

  • Claude Code(Anthropic):一部のエンジニアリングパターンがEnhancedモードの機能設計にインスピレーションを与えました
  • Codex(OpenAI):コンテキストエンジニアリングの実践が、コンテキスト管理の設計に参考となりました

📌 引用

研究でAutoHarnessを使用する場合は、以下を引用してください:

@software{autoharness2026,
  title   = {AutoHarness: The Harness Engineering Framework for AI Agents},
  author  = {{AutoHarness Team}},
  year    = {2026},
  url     = {https://github.com/aiming-lab/AutoHarness},
  license = {MIT}
}

⚠️ 免責事項

Enhanced モードの一部のアーキテクチャ上の決定は、2026年3月31日に Anthropic の npm レジストリを通じて意図せず公開された Claude Code の設計に関する公開分析およびコミュニティでの議論を参考にしています。Claude Code のオリジナルソースコードは Anthropic の知的財産であることを認識しています。AutoHarness は Anthropic の専有コードを含んでおらず、再配布や直接的な翻訳も行っていません。Anthropic の知的財産権を尊重し、懸念事項には迅速に対応いたします — issue または autoharness.aha@gmail.com でご連絡ください。


📄 ライセンス

MIT — 詳細は LICENSE をご覧ください。