TechForkTeam
diff --git a/‎src/main/java/com/techfork/domain/recommendation/service/LlmRecommendationService.java‎
Lines changed: 93 additions & 0 deletions b/‎src/main/java/com/techfork/domain/recommendation/service/LlmRecommendationService.java‎
Lines changed: 93 additions & 0 deletions
diff --git a/‎src/main/java/com/techfork/domain/recommendation_quality/ImprovedRecommendationTestCase.java‎
Lines changed: 66 additions & 0 deletions b/‎src/main/java/com/techfork/domain/recommendation_quality/ImprovedRecommendationTestCase.java‎
Lines changed: 66 additions & 0 deletions
diff --git a/‎src/main/java/com/techfork/domain/recommendation_quality/TrainTestSplit.java‎
Lines changed: 45 additions & 0 deletions b/‎src/main/java/com/techfork/domain/recommendation_quality/TrainTestSplit.java‎
Lines changed: 45 additions & 0 deletions
diff --git a/‎src/test/java/com/techfork/domain/recommendation/LambdaOptimizationTest.java‎
Lines changed: 37 additions & 34 deletions b/‎src/test/java/com/techfork/domain/recommendation/LambdaOptimizationTest.java‎
Lines changed: 37 additions & 34 deletions
@@ -164,6 +164,99 @@ public List<Long> generateRecommendationsForEvaluation(User user) {
         }
     }
 
+    /**
+     * 추천 생성 (평가 전용 - Train/Test Split 지원)
+     * 특정 읽은 글 목록(Train Set)만 제외하고 추천 생성
+     *
+     * @param user 사용자
+     * @param trainPostIds Train Set 게시글 ID 목록 (제외할 글)
+     * @return 추천된 게시글 ID 리스트
+     */
+    public List<Long> generateRecommendationsForEvaluation(User user, Set<Long> trainPostIds) {
+        // 1. 사용자 프로필 벡터 조회
+        Optional<UserProfileDocument> profileOpt = userProfileDocumentRepository.findByUserId(user.getId());
+        if (profileOpt.isEmpty() || profileOpt.get().getProfileVector() == null) {
+            log.warn("사용자 {}의 프로필 또는 벡터를 찾을 수 없음. 추천 생성 스킵.", user.getId());
+            return Collections.emptyList();
+        }
+
+        float[] userProfileVector = profileOpt.get().getProfileVector();
+
+        try {
+            // 2. k-NN 검색으로 초기 후보군 가져오기 (Train Set만 제외)
+            List<MmrCandidate> candidates = searchCandidatesWithCustomReadHistory(userProfileVector, user, trainPostIds);
+
+            if (candidates.isEmpty()) {
+                log.debug("사용자 {}의 추천 후보군을 찾을 수 없음 (Train Set {} 개 제외)", user.getId(), trainPostIds.size());
+                return Collections.emptyList();
+            }
+
+            // 3. MMR 적용하여 최종 추천 선택
+            List<MmrResult> mmrResults = mmrService.applyMmr(candidates);
+
+            // 4. 추천된 게시글 ID 리스트 반환
+            return mmrResults.stream()
+                    .map(MmrResult::getPostId)
+                    .toList();
+
+        } catch (Exception e) {
+            log.error("사용자 {} 추천 생성 실패 (Train/Test Split 평가용)", user.getId(), e);
+            return Collections.emptyList();
+        }
+    }
+
+    /**
+     * Elasticsearch k-NN 검색으로 초기 후보군 조회 (커스텀 읽은 글 목록)
+     * Train/Test Split 평가를 위해 Train Set만 제외
+     */
+    private List<MmrCandidate> searchCandidatesWithCustomReadHistory(
+            float[] userProfileVector,
+            User user,
+            Set<Long> readPostIds) throws IOException {
+
+        log.debug("사용자 {}의 읽은 게시글 {} 개 제외 (Train Set)", user.getId(), readPostIds.size());
+
+        // 가중치 가져오기
+        RecommendationProperties.EmbeddingWeights weights = properties.getEmbeddingWeights();
+
+        // 랜덤 시드 생성 (현재 시간 기반)
+        long randomSeed = System.currentTimeMillis();
+        double randomWeight = 0.2; // 랜덤 가중치 20%
+
+        // k-NN 쿼리 (가중 평균: title + summary + content chunks + 랜덤 요소)
+        Query knnQuery = vectorQueryBuilder.createWeightedVectorQueryWithRandomness(
+                TITLE_EMBEDDING_FIELD,
+                SUMMARY_EMBEDDING_FIELD,
+                CONTENT_CHUNKS_FIELD,
+                CHUNK_EMBEDDING_FIELD,
+                userProfileVector,
+                weights.getTitle(),
+                weights.getSummary(),
+                weights.getContent(),
+                randomSeed,
+                randomWeight
+        );
+
+        log.debug("ES 쿼리 실행 (Train/Test Split) - 벡터 차원: {}, 가중치 [title:{}, summary:{}, content:{}]",
+                userProfileVector.length, weights.getTitle(), weights.getSummary(), weights.getContent());
+
+        SearchResponse<PostDocument> response = elasticsearchClient.search(s -> s
+                        .index(POSTS_INDEX)
+                        .query(knnQuery)
+                        .size(properties.getKnnSearchSize())
+                ,
+                PostDocument.class
+        );
+
+        // 결과를 MmrCandidate로 변환 (Train Set만 필터링)
+        return response.hits().hits().stream()
+                .filter(hit -> hit.source() != null)
+                .filter(hit -> !readPostIds.contains(hit.source().getPostId()))
+                .map(this::mapToMmrCandidate)
+                .filter(candidate -> candidate.getSummaryVector() != null)
+                .toList();
+    }
+
     /**
      * Elasticsearch k-NN 검색으로 초기 후보군 조회
      * - 이미 읽은 글 제외
 
@@ -0,0 +1,66 @@
+package com.techfork.domain.recommendation_quality;
+
+import lombok.AllArgsConstructor;
+import lombok.Builder;
+import lombok.Data;
+import lombok.NoArgsConstructor;
+
+import java.util.List;
+import java.util.Set;
+import java.util.stream.Collectors;
+
+/**
+ * Train/Test Split 기반 개선된 추천 시스템 테스트 케이스
+ *
+ * 기존 방식의 문제:
+ * 1. Ground Truth가 문자열 매칭 기반 (추천 시스템은 벡터 유사도 기반)
+ * 2. Recall 분모가 너무 커서(100개) 지표가 낮게 나옴
+ *
+ * 개선 방식:
+ * 1. 읽은 글을 8:2로 분할 (Train/Test)
+ * 2. Test Set을 Ground Truth로 사용 (실제로 읽은 글 = 관심있는 글)
+ * 3. 적절한 Recall 분모 (Test Set 크기 = 20개 정도)
+ */
+@Data
+@Builder
+@NoArgsConstructor
+@AllArgsConstructor
+public class ImprovedRecommendationTestCase {
+
+    /**
+     * 사용자 ID
+     */
+    private Long userId;
+
+    /**
+     * 사용자 관심사
+     */
+    private List<String> interests;
+
+    /**
+     * Train/Test 분할 결과
+     */
+    private TrainTestSplit trainTestSplit;
+
+    /**
+     * Test Set을 Ground Truth로 반환 (Recall 계산용)
+     */
+    public Set<Long> getGroundTruthPostIds() {
+        return trainTestSplit.getTestPostIds().stream()
+                .collect(Collectors.toSet());
+    }
+
+    /**
+     * Train Set 반환 (사용자 프로필 생성용)
+     */
+    public List<Long> getTrainPostIds() {
+        return trainTestSplit.getTrainPostIds();
+    }
+
+    /**
+     * Test Set 반환 (평가용)
+     */
+    public List<Long> getTestPostIds() {
+        return trainTestSplit.getTestPostIds();
+    }
+}
@@ -0,0 +1,45 @@
+package com.techfork.domain.recommendation_quality;
+
+import lombok.AllArgsConstructor;
+import lombok.Builder;
+import lombok.Data;
+import lombok.NoArgsConstructor;
+
+import java.util.List;
+
+/**
+ * 사용자 읽기 이력의 Train/Test 분할 결과
+ * Train: 사용자 프로필 생성에 사용
+ * Test: 평가 Ground Truth로 사용
+ */
+@Data
+@Builder
+@NoArgsConstructor
+@AllArgsConstructor
+public class TrainTestSplit {
+
+    /**
+     * Train 세트: 사용자 프로필 생성에 사용될 게시글 ID 목록 (80%)
+     */
+    private List<Long> trainPostIds;
+
+    /**
+     * Test 세트: 평가 Ground Truth로 사용될 게시글 ID 목록 (20%)
+     * 추천 시스템이 이 글들을 상위권에 추천했는지 평가
+     */
+    private List<Long> testPostIds;
+
+    /**
+     * Train 세트 크기
+     */
+    public int getTrainSize() {
+        return trainPostIds.size();
+    }
+
+    /**
+     * Test 세트 크기
+     */
+    public int getTestSize() {
+        return testPostIds.size();
+    }
+}
@@ -6,27 +6,32 @@
 import org.junit.jupiter.api.Test;
 
 import java.util.ArrayList;
+import java.util.Comparator;
 import java.util.List;
 
 @Slf4j
 public class LambdaOptimizationTest extends RecommendationTestBase {
 
     @Test
-    @DisplayName("Lambda 최적화 - 요약 중심 vs 현재 기본값")
-    void optimizeLambda() {
-        log.info("===== Lambda 최적화 테스트 =====");
+    @DisplayName("Lambda 최적화 - 3가지 가중치 조합 (Train/Test Split 방식)")
+    void optimizeLambdaWithTrainTestSplit() {
+        log.info("===== Lambda 최적화 테스트 (Train/Test Split) =====");
+        log.info("읽은 글 100개 → Train 80개 (프로필 생성용) + Test 20개 (평가용)");
+        log.info("가중치 조합: 컨텐츠중심, 요약중심, 기본값");
+        log.info("Lambda 범위: 0.0 ~ 1.0 (0.1 단위)");
 
         List<ConfigCombo> configs = createLambdaTestConfigs();
-        List<User> testUsers = getTestUsers(DEFAULT_TEST_USER_COUNT);
+        List<User> testUsers = getTestUsers();
+        log.info("테스트 사용자: {} 명 (IDs: {})", testUsers.size(), TEST_USER_IDS);
 
-        printConfigComparisonHeader();
-        List<EvaluationResult> results = evaluateAllConfigs(configs, testUsers);
-        printBestResult(results);
+        printImprovedConfigComparisonHeader();
+        List<ImprovedEvaluationResult> results = evaluateAllConfigsWithTrainTestSplit(configs, testUsers);
+        printBestImprovedResultByWeightType(results);
     }
 
     /**
      * Lambda 0.0 ~ 1.0 (0.1 단위) 테스트 설정 생성
-     * 요약 중심 + 현재 기본값 조합
+     * 컨텐츠 중심
      */
     private List<ConfigCombo> createLambdaTestConfigs() {
         List<ConfigCombo> configs = new ArrayList<>();
@@ -35,53 +40,51 @@ private List<ConfigCombo> createLambdaTestConfigs() {
         for (int i = 0; i <= 10; i++) {
             double lambda = i / 10.0;
 
-            // 1. 요약 중심 (title:0.2, summary:0.6, content:0.2)
             configs.add(ConfigCombo.builder()
-                    .name(String.format("요약중심 λ=%.1f", lambda))
+                    .name(String.format("컨텐츠중심 λ=%.1f", lambda))
                     .titleWeight(0.2f)
-                    .summaryWeight(0.6f)
-                    .contentWeight(0.2f)
-                    .mmrLambda(lambda)
-                    .build());
-
-            // 2. 현재 기본값 (title:0.4, summary:0.4, content:0.2)
-            configs.add(ConfigCombo.builder()
-                    .name(String.format("기본값 λ=%.1f", lambda))
-                    .titleWeight(DEFAULT_TITLE_WEIGHT)
-                    .summaryWeight(DEFAULT_SUMMARY_WEIGHT)
-                    .contentWeight(DEFAULT_CONTENT_WEIGHT)
+                    .summaryWeight(0.2f)
+                    .contentWeight(0.6f)
                     .mmrLambda(lambda)
                     .build());
         }
 
+        log.info("총 {} 개 설정 생성", configs.size());
         return configs;
     }
 
     /**
-     * 모든 설정 평가
+     * 모든 설정 평가 (Train/Test Split)
      */
-    private List<EvaluationResult> evaluateAllConfigs(List<ConfigCombo> configs, List<User> testUsers) {
+    private List<ImprovedEvaluationResult> evaluateAllConfigsWithTrainTestSplit(
+            List<ConfigCombo> configs,
+            List<User> testUsers) {
         return configs.stream()
                 .map(config -> {
-                    log.debug("설정 평가 시작: {}", config.getName());
-                    EvaluationResult result = evaluateConfig(config, testUsers);
-                    log.debug("설정 평가 완료: {} - Recall={}, nDCG={}, ILD={}",
+                    log.debug("설정 평가 시작 (Train/Test Split): {}", config.getName());
+                    ImprovedEvaluationResult result = evaluateConfigWithTrainTestSplit(config, testUsers);
+                    log.debug("설정 평가 완료 (Train/Test Split): {} - Recall={}, nDCG={}, ILD={}",
                             config.getName(), result.getAvgRecall(), result.getAvgNdcg(), result.getAvgIld());
-                    printResult(config.getName(), result);
+                    log.info(result.toString());
                     return result;
                 })
                 .toList();
     }
 
     /**
-     * 최고 성능 설정 출력
+     * 가중치 타입별 최고 성능 설정 출력 (Train/Test Split)
      */
-    private void printBestResult(List<EvaluationResult> results) {
-        EvaluationResult best = results.stream()
-                .max((a, b) -> Double.compare(a.getOverallScore(), b.getOverallScore()))
-                .orElseThrow();
+    private void printBestImprovedResultByWeightType(List<ImprovedEvaluationResult> results) {
+        log.info("\n===== 가중치 타입별 최고 성능 설정 (Train/Test Split) =====");
 
-        log.info("\n===== 최고 성능 설정 =====");
-        printResult(best.getConfigName(), best);
+        // 컨텐츠 중심
+        ImprovedEvaluationResult bestContent = results.stream()
+                .filter(r -> r.getConfigName().startsWith("컨텐츠중심"))
+                .max(Comparator.comparingDouble(ImprovedEvaluationResult::getCompositeScore))
+                .orElse(null);
+        if (bestContent != null) {
+            log.info("\n[컨텐츠 중심 최고]");
+            log.info(bestContent.toString());
+        }
     }
 }