✨ Sorting via GPT-5

Zeta611 · Zeta611 · commit 15709d1cb3d7 · 2025-09-27T16:08:22.000+09:00
diff --git a/components/jargon/jargon-translations-section.tsx b/components/jargon/jargon-translations-section.tsx
@@ -19,7 +19,7 @@ export default function JargonTranslationsSection({
   name: string;
   translations: TranslationListItem[];
 }) {
-  const [sort, setSort] = useState<TranslationSortOption>("recent");
+  const [sort, setSort] = useState<TranslationSortOption>("llm");
 
   return (
     <div className="flex flex-col gap-2">
diff --git a/components/jargon/translation-list.tsx b/components/jargon/translation-list.tsx
@@ -3,13 +3,14 @@
 import { useMemo } from "react";
 import TranslationActions from "@/components/jargon/translation-actions";
 
-export type TranslationSortOption = "recent" | "abc" | "zyx";
+export type TranslationSortOption = "recent" | "abc" | "zyx" | "llm";
 
 export interface TranslationListItem {
   id: string;
   name: string;
   author_id: string;
   updated_at?: string;
+  llm_rank?: number | null;
 }
 
 export default function TranslationList({
@@ -31,6 +32,14 @@ export default function TranslationList({
       copy.sort((a, b) => a.name.localeCompare(b.name, "ko"));
     } else if (sort === "zyx") {
       copy.sort((a, b) => b.name.localeCompare(a.name, "ko"));
+    } else if (sort === "llm") {
+      copy.sort((a, b) => {
+        const aRank = a.llm_rank ?? Number.POSITIVE_INFINITY;
+        const bRank = b.llm_rank ?? Number.POSITIVE_INFINITY;
+        if (aRank !== bRank) return aRank - bRank; // lower rank first; nulls last
+        // Stable fallback by name for ties
+        return a.name.localeCompare(b.name, "ko");
+      });
     }
     return copy;
   }, [translations, sort]);
diff --git a/components/jargon/translation-sort-button.tsx b/components/jargon/translation-sort-button.tsx
@@ -38,11 +38,12 @@ export default function TranslationSortButton({
           value={value}
           onValueChange={(val) => onChange(val as TranslationSortOption)}
         >
+          <DropdownMenuRadioItem value="llm">AI 추천순</DropdownMenuRadioItem>
           <DropdownMenuRadioItem value="recent">
             최근 활동순
           </DropdownMenuRadioItem>
           <DropdownMenuRadioItem value="abc">가나다순</DropdownMenuRadioItem>
-          <DropdownMenuRadioItem value="zyx">하파카순</DropdownMenuRadioItem>
+          {/* <DropdownMenuRadioItem value="zyx">하파카순</DropdownMenuRadioItem> */}
         </DropdownMenuRadioGroup>
       </DropdownMenuContent>
     </DropdownMenu>
diff --git a/lib/supabase/repository.ts b/lib/supabase/repository.ts
@@ -35,7 +35,7 @@ export const QUERIES = {
     return supabase
       .from("jargon")
       .select(
-        "id, name, slug, created_at, author_id, translations:translation(id, name, author_id, updated_at), categories:jargon_category(category:category(id, name, acronym))",
+        "id, name, slug, created_at, author_id, translations:translation(id, name, author_id, updated_at, llm_rank), categories:jargon_category(category:category(id, name, acronym))",
       )
       .eq("slug", slug)
       .limit(1)
diff --git a/lib/supabase/types.ts b/lib/supabase/types.ts
@@ -292,6 +292,7 @@ export type Database = {
           created_at: string
           id: string
           jargon_id: string
+          llm_rank: number | null
           name: string
           updated_at: string
         }
@@ -301,6 +302,7 @@ export type Database = {
           created_at?: string
           id?: string
           jargon_id: string
+          llm_rank?: number | null
           name: string
           updated_at?: string
         }
@@ -310,6 +312,7 @@ export type Database = {
           created_at?: string
           id?: string
           jargon_id?: string
+          llm_rank?: number | null
           name?: string
           updated_at?: string
         }
diff --git a/scripts/.gitignore b/scripts/.gitignore
@@ -0,0 +1,2 @@
+*.csv
+.env
diff --git a/scripts/dump.py b/scripts/dump.py
@@ -0,0 +1,30 @@
+from sqlalchemy import create_engine
+from sqlalchemy.pool import NullPool
+from dotenv import load_dotenv
+import pandas as pd
+import os
+
+load_dotenv()
+USER = os.getenv("user")
+PASSWORD = os.getenv("password")
+HOST = os.getenv("host")
+PORT = os.getenv("port")
+DBNAME = os.getenv("dbname")
+
+DATABASE_URL = f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}:{PORT}/{DBNAME}?sslmode=require"
+
+engine = create_engine(DATABASE_URL, poolclass=NullPool)
+
+tables = ["category", "comment", "html", "jargon", "jargon_category", "translation"]
+try:
+    with engine.connect() as connection:
+        for table in tables:
+            print(f"Table: {table}")
+            df = pd.read_sql(f"SELECT * FROM public.{table}", engine)
+            n_rows, n_cols = df.shape
+            print(f" Rows: {n_rows}, Columns: {n_cols}")
+            print(" Columns: ", list(df.columns))
+
+            df.to_csv(f"{table}.csv", index=False)
+except Exception as e:
+    print(f"Failed to connect: {e}")
diff --git a/scripts/rank_translations_llm.py b/scripts/rank_translations_llm.py
@@ -0,0 +1,203 @@
+#!/usr/bin/env python3
+"""
+Compute LLM-based ranking indices per jargon using OpenRouter via LangChain.
+
+Inputs:
+  - jargon.csv (must contain at least: id, name, slug)
+  - translation.csv (must contain at least: id, name, jargon_id)
+
+Output:
+  - llm_ranks.csv with columns: translation_id, llm_rank
+
+Environment:
+  - AI_API_KEY: API key for OpenRouter
+
+Notes:
+  - We do not mutate any database here; this is offline ranking.
+  - Newly added translations after a run should default to NULL in DB until next batch.
+  - Resumable: if llm_ranks.csv exists, skip GPT calls for any group whose translations
+    are already fully ranked; write progress after each processed group.
+"""
+
+import os
+import sys
+import time
+import argparse
+import re
+import pandas as pd
+from tqdm import tqdm
+from typing import List, Tuple, Dict
+from dotenv import load_dotenv
+
+from langchain_openai import ChatOpenAI
+from langchain_core.messages import HumanMessage, SystemMessage
+
+
+SYSTEM_PROMPT = """
+컴퓨터과학 및 컴퓨터공학 분야의 전문용어를 쉽게 번역하는 것의 취지는 다음과 같아야 한다:
+---
+# 배경
+전문지식이 전문가들에게만 머문다면 그 분야는 그렇게 쇠퇴할 수 있다. 저변이 좁아지고 깊은 공부를 달성하는 인구는 그만큼 쪼그라들 수 있다.
+전문지식이 보다 많은 사람들에게 널리 퍼진다면, 그래서 더 발전할 힘이 많이 모이는 활기찬 선순환이 만들어진다면. 그러면 그 분야를 밀어올리는 힘은 나날이 커질 수 있다. 더 많은 사람들이 더 나은 성과를 위한 문제제기와 답안제안에 참여할 수 있고, 전문가의 성과는 더 널리 이해되고 더 점검받을 수 있게된다.
+그러므로 쉬운 전문용어가 어떨까. 전문개념의 핵심을 쉽게 전달해주는 전문용어. 학술은 학술의 언어를—우리로서는 소리로만 읽을 원어나 한문을—사용해야만 정확하고 정밀하고 경제적일까? 아무리 정교한 전문지식이라도 쉬운 일상어로 짧고 정밀하게 전달될 수 있다. 시에서 평범한 언어로 밀도 있게 전달되는 정밀한 느낌을 겪으며 짐작되는 바이다.
+쉬운 전문용어가 활발히 만들어지고 테스트되는 생태계. 이것이 울타리없는 세계경쟁에서 우리를 깊고 높게 키워줄 비옥한 토양이다. 시끌벅적 쉬운말로 하는 학술의 재미는 말할것도 없다.
+# 원칙
+쉬운 전문용어를 만들때 원칙은 다음과 같다.
+  * 정확히 이해하기: 전문용어의 의미를 정확히 이해하도록 한다. 이해못했다면 쉬운말을 찾을 수 없다.
+  * 쉬운말을 찾기: 그 의미가 정확히 전달되는 쉬운말을 찾는다.
+  * 어깨힘 빼기: 이때, 어깨에 힘을 뺀다. 지레 겁먹게하는 용어(불필요한 한문투)를 피하고, 가능하면 쉬운말을 찾는다.
+  * 하나만 필요는 없다: 전문용어 하나에 쉬운 한글용어 하나가 일대일 대응일 필요가 없이, 상황에 따라서 다양하게 풀어쓸 수 있다. 중요한 것은 의미의 명확한 전개.
+  * 때로는 소리나는 대로: 도저히 쉬운말을 찾을 수 없을 땐, 소리나는대로 쓴다.
+  * 때로는 만들기: 쉬운 느낌을 가진 새 말을 만들 수도 있다. 우리가 모국어의 심연을 공유하므로 가능하다.
+  * 괄호안에 항상-I: 원문 전문용어는 괄호안에 항상 따라붙인다.
+  * 깨어있기: 기존의 관성에 눈멀지 않는다. 이미 널리퍼진 용어지만 쉽지않다면, 보다 쉬운 전문용어를 찾고 실험한다.
+  * 괄호안에 항상-II: 이때, 기존용어는 원문 전문용어와 함께 괄호안에 따라붙인다.
+  * 순우리말 No, 쉬운말 Yes: 쉬운말은 순수 우리말을 뜻하지 않는다. 외래어라도 널리 쉽게 받아들여진다면 사용한다.
+# 쓰임
+K-언어권에서 말하고 글 쓸 때 사용한다.
+  * 설명/강의/저술/번역/블로그/SNS 등에서 한국어로 말하고 글 쓸 때 사용한다.
+  * 쉽게쉽게 도란도란, 통쾌하게 시끌벅적, 차근차근 왁자글, 신나게 재미있게.
+"""
+
+def build_prompt(jargon_name: str, translations: List[str]) -> str:
+    lines = [
+        "다음 용어의 쉬운 전문용어 번역 후보들을 취지에 맞게 좋은 것부터 순서를 정해봐. 순서는 첫 줄에 쉼표로 구분해서 0부터 시작해서 출력해. 용어들을 누락하면 안되고, 모든 단어들을 정렬해야 해.",
+        "- 예시 출력: 2,0,1",
+        f"- 전문용어: {jargon_name}",
+        "- 쉬운 전문용어 번역 목록:",
+    ]
+    for idx, t in enumerate(translations):
+        lines.append(f"  {idx}. {t}")
+    return "\n".join(lines)
+
+
+def parse_order(text: str, num_items: int) -> List[int]:
+    # Extract integers and clamp to a permutation-like ordering
+    # Fallback: identity order if parsing fails
+    try:
+        text = text.split("\n")[0]
+        numbers = [int(x.strip()) for x in re.split(",| |:", text) if x.strip().isdigit()]
+        seen = set()
+        order = []
+        for n in numbers:
+            if 0 <= n < num_items and n not in seen:
+                order.append(n)
+                seen.add(n)
+        # Fill in missing indices
+        for i in range(num_items):
+            if i not in seen:
+                print(f"Missing {i}")
+                order.append(i)
+        return order[:num_items]
+    except Exception:
+        print("Parsing failed")
+        return list(range(num_items))
+
+
+def main():
+    parser = argparse.ArgumentParser(description="Rank translations per jargon with OpenRouter")
+    parser.add_argument("--jargon_csv", default=os.path.join("jargon.csv"))
+    parser.add_argument("--translation_csv", default=os.path.join("translation.csv"))
+    parser.add_argument("--output_csv", default=os.path.join("llm_ranks.csv"))
+    parser.add_argument("--rate_limit_sec", type=float, default=0.5, help="sleep between LLM calls")
+    args = parser.parse_args()
+
+    load_dotenv()
+    api_key = os.getenv("AI_API_KEY")
+    if not api_key:
+        print("Set AI_API_KEY in env.", file=sys.stderr)
+        sys.exit(1)
+
+    chat = ChatOpenAI(api_key=api_key, base_url="https://openrouter.ai/api/v1", model="openai/gpt-5")
+
+    # Load CSVs
+    jargons = pd.read_csv(args.jargon_csv)
+    translations = pd.read_csv(args.translation_csv)
+
+    # minimal columns validation
+    for col in ["id", "name"]:
+        if col not in jargons.columns:
+            raise ValueError(f"jargon.csv missing column: {col}")
+    for col in ["id", "name", "jargon_id"]:
+        if col not in translations.columns:
+            raise ValueError(f"translation.csv missing column: {col}")
+
+    # Group translations by jargon_id
+    grouped = translations.groupby("jargon_id")
+
+    # Load existing progress if present
+    existing_map: Dict[str, int] = {}
+    if os.path.exists(args.output_csv):
+        try:
+            existing_df = pd.read_csv(args.output_csv)
+            if "translation_id" in existing_df.columns and "llm_rank" in existing_df.columns:
+                for row in existing_df.itertuples(index=False):
+                    try:
+                        existing_map[str(row.translation_id)] = int(row.llm_rank)
+                    except Exception:
+                        continue
+            print(f"Loaded existing ranks: {len(existing_map)} from {args.output_csv}")
+        except Exception as e:
+            print(f"Warning: failed to read existing output {args.output_csv}: {e}", file=sys.stderr)
+
+    def write_progress() -> None:
+        tmp_path = args.output_csv + ".tmp"
+        out_df = pd.DataFrame({"translation_id": list(existing_map.keys()), "llm_rank": list(existing_map.values())})
+        out_df = out_df.sort_values(by=["translation_id"]).reset_index(drop=True)
+        out_df.to_csv(tmp_path, index=False)
+        os.replace(tmp_path, args.output_csv)
+
+    # Build a map for jargon_id -> jargon_name for prompts
+    jargon_name_by_id = {row.id: row.name for row in jargons.itertuples(index=False)}
+
+    for jargon_id, group in tqdm(grouped):
+        names = group["name"].fillna("").astype(str).tolist()
+        tids = group["id"].astype(str).tolist()
+
+        # Skip GPT if every translation in this group already ranked
+        if all(tid in existing_map for tid in tids):
+            continue
+
+        if len(names) <= 1:
+            changed = False
+            for idx, tid in enumerate(tids):
+                if existing_map.get(tid) != idx:
+                    existing_map[tid] = idx
+                    changed = True
+            if changed:
+                write_progress()
+            continue
+
+        jargon_name = jargon_name_by_id.get(jargon_id, "")
+        prompt = build_prompt(jargon_name, names)
+
+        tqdm.write(f"Jargon: {jargon_name}, Translations: {names}")
+        try:
+            response = chat.invoke([SystemMessage(content=SYSTEM_PROMPT), HumanMessage(content=prompt)])
+            text = getattr(response, "content", "") or str(response)
+        except Exception as e:
+            # Fallback: identity order on errors
+            tqdm.write(f"Error: {e}")
+            text = ""
+        finally:
+            if args.rate_limit_sec > 0:
+                time.sleep(args.rate_limit_sec)
+
+        tqdm.write("===\n" + text)
+        order = parse_order(text, len(names))
+        tqdm.write(",".join([str(x) for x in order]))
+        # Assign llm_rank based on order index
+        inverse_rank = [0] * len(order)
+        for rank, original_idx in enumerate(order):
+            inverse_rank[original_idx] = rank
+
+        for original_idx, tid in enumerate(tids):
+            existing_map[tid] = inverse_rank[original_idx]
+        write_progress()
+
+    # Final summary
+    print(f"Wrote {len(existing_map)} rows to {args.output_csv}")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/scripts/update_llm_rank.py b/scripts/update_llm_rank.py
diff --git a/supabase/migrations/20250926090000_translation_add_llm_rank.sql b/supabase/migrations/20250926090000_translation_add_llm_rank.sql

Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,7 @@ export const QUERIES = {`
`35`	`35`	`return supabase`
`36`	`36`	`.from("jargon")`
`37`	`37`	`.select(`
`38`		`- "id, name, slug, created_at, author_id, translations:translation(id, name, author_id, updated_at), categories:jargon_category(category:category(id, name, acronym))",`
	`38`	`+ "id, name, slug, created_at, author_id, translations:translation(id, name, author_id, updated_at, llm_rank), categories:jargon_category(category:category(id, name, acronym))",`
`39`	`39`	`)`
`40`	`40`	`.eq("slug", slug)`
`41`	`41`	`.limit(1)`