🧩 ProactiveBench

概要

ProactiveBench は、プロアクティブエージェントを評価するためのベンチマークです。データセット、報酬モデル、および評価スクリプトが含まれています。私たちのテストセットには、コーディング、ライティング、および日常生活の3つのカテゴリのイベントが含まれています。現在、テストセットには227のイベントが含まれています。報酬モデルはデータセットでトレーニングされ、テストセットで0.918のF1スコアを達成しています。プロアクティブエージェントと報酬モデルのパフォーマンスを評価するためのすべてのスクリプトを提供します。

報酬モデルの評価

報酬モデルは、プロアクティブエージェントのパフォーマンスを評価するために使用されます。ここから報酬モデルをダウンロードし（近日公開）、VLLMなどのフレームワークを使用してOpenAIスタイルのAPIを提供することができます。

その後、スクリプトreward_model_scoring.pyを変更してモデルのアドレスを設定し、次のコマンドを実行します。

python eval/reward_model_scoring.py

このプロセスの後、報酬モデルの最終スコアを取得できます。

プロアクティブエージェントの評価

モデルのパフォーマンスを確認するには、./eval/script.pyを変更してモデルをロードし（またはSDKを使用）、次のコマンドを実行します。

python eval/script.py

テストデータはモデルに送信され、すべてのトレースとエージェントの応答は./eval/traces_newフォルダに保存されます。このプロセスの後、次のコマンドを実行できます。

# スクリプトを実行する前に、judge_agent_prediction.pyのアドレスを報酬モデルのアドレスに変更する必要があります。
sh eval/judge_result.sh

これにより、報酬モデルがエージェントからの応答が受け入れ可能かどうかを評価します。結果は./eval/judgedフォルダに保存されます。

報酬モデルによって評価された後、次のコマンドを実行できます。

sh calculate.sh

最終的にモデルのスコアを取得します。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🧩 ProactiveBench

概要

報酬モデルの評価

プロアクティブエージェントの評価

FilesExpand file tree

README_ja.md

Latest commit

History

README_ja.md

File metadata and controls

🧩 ProactiveBench

概要

報酬モデルの評価

プロアクティブエージェントの評価