ProactiveBench は、プロアクティブエージェントを評価するためのベンチマークです。データセット、報酬モデル、および評価スクリプトが含まれています。
私たちのテストセットには、コーディング、ライティング、および日常生活の3つのカテゴリのイベントが含まれています。
現在、テストセットには227のイベントが含まれています。
報酬モデルはデータセットでトレーニングされ、テストセットで0.918のF1スコアを達成しています。
プロアクティブエージェントと報酬モデルのパフォーマンスを評価するためのすべてのスクリプトを提供します。
報酬モデルは、プロアクティブエージェントのパフォーマンスを評価するために使用されます。 ここから報酬モデルをダウンロードし(近日公開)、VLLMなどのフレームワークを使用してOpenAIスタイルのAPIを提供することができます。
その後、スクリプトreward_model_scoring.pyを変更してモデルのアドレスを設定し、次のコマンドを実行します。
python eval/reward_model_scoring.pyこのプロセスの後、報酬モデルの最終スコアを取得できます。
モデルのパフォーマンスを確認するには、./eval/script.pyを変更してモデルをロードし(またはSDKを使用)、次のコマンドを実行します。
python eval/script.pyテストデータはモデルに送信され、すべてのトレースとエージェントの応答は./eval/traces_newフォルダに保存されます。
このプロセスの後、次のコマンドを実行できます。
# スクリプトを実行する前に、judge_agent_prediction.pyのアドレスを報酬モデルのアドレスに変更する必要があります。
sh eval/judge_result.shこれにより、報酬モデルがエージェントからの応答が受け入れ可能かどうかを評価します。結果は./eval/judgedフォルダに保存されます。
報酬モデルによって評価された後、次のコマンドを実行できます。
sh calculate.sh最終的にモデルのスコアを取得します。