Update Faithfulness rake task to use shared class

chaecramb · chaecramb · commit 01331284e89d · 2026-01-06T15:24:19.000Z
Replace the direct implementation with EvaluateAnswerFromQuestionMessage,
matching the pattern used by the Coherence and AnswerRelevancy tasks.

This also updates the spec to use the shared "a task that returns a
ScoreResult" example.
diff --git a/lib/tasks/evaluation.rake b/lib/tasks/evaluation.rake
@@ -209,25 +209,15 @@ namespace :evaluation do
   task generate_faithfulness_evaluation: :environment do
     raise "Requires an INPUT env var" if ENV["INPUT"].blank?
 
-    question = Question.new(message: ENV["INPUT"], conversation: Conversation.new)
-
-    answer = AnswerComposition::PipelineRunner.call(question:, pipeline: [
-      AnswerComposition::Pipeline::SearchResultFetcher,
-      AnswerComposition::Pipeline::Claude::StructuredAnswerComposer,
-    ])
+    begin
+      result = AutoEvaluation::EvaluateAnswerFromQuestionMessage.call(
+        evaluation_class: AutoEvaluation::Faithfulness,
+        question_message: ENV["INPUT"],
+      )
 
-    if answer.status =~ /^error/
-      warn "Warning: answer has an error status: #{answer.status}"
-      abort(answer.error_message)
+      puts result.to_json
+    rescue AutoEvaluation::EvaluateAnswerFromQuestionMessage::TaskFailedError => e
+      abort e.message
     end
-
-    retrieval_context = answer.sources.used.map(&:plain_content).join("\n\n")
-
-    result = AutoEvaluation::Faithfulness.call(
-      answer_message: answer.message,
-      retrieval_context:,
-    )
-
-    puts(result.to_json)
   end
 end
diff --git a/spec/lib/tasks/evaluation_spec.rb b/spec/lib/tasks/evaluation_spec.rb
@@ -590,28 +590,9 @@
   end
 
   describe "generate_faithfulness_evaluation" do
-    it_behaves_like "an auto-evaluation generate task" do
-      let(:question_message) { "What is the current VAT rate?" }
+    it_behaves_like "a task that returns a ScoreResult" do
       let(:task_name) { "evaluation:generate_faithfulness_evaluation" }
-      let(:used_sources) do
-        [
-          build(:answer_source, used: true, chunk: build(:answer_source_chunk, plain_content: "Source 1 content")),
-          build(:answer_source, used: true, chunk: build(:answer_source_chunk, plain_content: "Source 2 content")),
-        ]
-      end
-      let(:retrieval_context) { "Source 1 content\n\nSource 2 content" }
-
-      before do
-        allow(answer.sources).to receive(:used).and_return(used_sources)
-
-        allow(AutoEvaluation::Faithfulness)
-          .to receive(:call)
-          .with(
-            answer_message: answer.message,
-            retrieval_context:,
-          )
-          .and_return(evaluation_result)
-      end
+      let(:evaluation_class) { AutoEvaluation::Faithfulness }
     end
   end
 end