yuaiccc
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 0 deletions b/‎.gitignore‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎backend/common-words.json‎
Lines changed: 370 additions & 0 deletions b/‎backend/common-words.json‎
Lines changed: 370 additions & 0 deletions
diff --git a/‎backend/db.js‎
Lines changed: 98 additions & 0 deletions b/‎backend/db.js‎
Lines changed: 98 additions & 0 deletions
diff --git a/‎backend/fetch-words.js‎
Lines changed: 171 additions & 0 deletions b/‎backend/fetch-words.js‎
Lines changed: 171 additions & 0 deletions
diff --git a/‎backend/import-words.js‎
Lines changed: 19 additions & 0 deletions b/‎backend/import-words.js‎
Lines changed: 19 additions & 0 deletions
@@ -104,5 +104,7 @@ temp/
 
 # Database
 *.db
+*.db-shm
+*.db-wal
 *.sqlite
 *.sqlite3
@@ -0,0 +1,98 @@
+import Database from 'better-sqlite3';
+import path from 'path';
+import { fileURLToPath } from 'url';
+
+const __filename = fileURLToPath(import.meta.url);
+const __dirname = path.dirname(__filename);
+
+const dbPath = path.join(__dirname, 'dictionary.db');
+const db = new Database(dbPath);
+
+// 性能优化
+db.pragma('journal_mode = WAL');
+db.pragma('synchronous = NORMAL');
+
+// 建表
+db.exec(`
+  CREATE TABLE IF NOT EXISTS words (
+    id INTEGER PRIMARY KEY AUTOINCREMENT,
+    kanji TEXT NOT NULL,
+    kana TEXT NOT NULL,
+    romaji TEXT NOT NULL,
+    meaning TEXT NOT NULL DEFAULT '',
+    word_type TEXT NOT NULL DEFAULT 'other',
+    jlpt TEXT DEFAULT '',
+    is_common INTEGER DEFAULT 0,
+    UNIQUE(kanji, kana)
+  )
+`);
+
+// 创建索引
+db.exec(`
+  CREATE INDEX IF NOT EXISTS idx_words_kanji ON words(kanji);
+  CREATE INDEX IF NOT EXISTS idx_words_kana ON words(kana);
+  CREATE INDEX IF NOT EXISTS idx_words_romaji ON words(romaji);
+  CREATE INDEX IF NOT EXISTS idx_words_meaning ON words(meaning);
+  CREATE INDEX IF NOT EXISTS idx_words_type ON words(word_type);
+`);
+
+// 查询函数：多字段 LIKE 模糊匹配
+const searchStmt = db.prepare(`
+  SELECT kanji, kana, romaji, meaning, word_type AS wordType, jlpt, is_common AS isCommon
+  FROM words
+  WHERE kanji LIKE ? OR kana LIKE ? OR romaji LIKE ? OR meaning LIKE ?
+  LIMIT ?
+`);
+
+export function searchWords(query, limit = 8) {
+  const pattern = `%${query}%`;
+  return searchStmt.all(pattern, pattern, pattern, pattern, limit);
+}
+
+// 精确查找（用于 conjugate 端点查 meaning/reading）
+const findExactStmt = db.prepare(`
+  SELECT kanji, kana, romaji, meaning, word_type AS wordType, jlpt, is_common AS isCommon
+  FROM words
+  WHERE kanji = ? OR kana = ?
+  LIMIT 1
+`);
+
+export function findWord(keyword) {
+  return findExactStmt.get(keyword, keyword) || null;
+}
+
+// 插入函数
+const insertStmt = db.prepare(`
+  INSERT OR IGNORE INTO words (kanji, kana, romaji, meaning, word_type, jlpt, is_common)
+  VALUES (?, ?, ?, ?, ?, ?, ?)
+`);
+
+export function insertWord(word) {
+  return insertStmt.run(
+    word.kanji,
+    word.kana,
+    word.romaji,
+    word.meaning || '',
+    word.wordType || word.word_type || 'other',
+    word.jlpt || '',
+    word.isCommon || word.is_common ? 1 : 0
+  );
+}
+
+// 批量插入（事务）
+const insertMany = db.transaction((words) => {
+  for (const w of words) {
+    insertWord(w);
+  }
+});
+
+export function bulkInsert(words) {
+  insertMany(words);
+}
+
+// 获取词条数量
+export function getWordCount() {
+  return db.prepare('SELECT COUNT(*) AS count FROM words').get().count;
+}
+
+export default db;
@@ -0,0 +1,171 @@
+/**
+ * 从 Jisho API 批量抓取 JLPT 词汇并导入 SQLite
+ * 用法: node fetch-words.js [--levels n5,n4,n3,n2,n1] [--delay 1500]
+ * 默认抓取 N5, N4, N3
+ */
+import https from 'https';
+import * as wanakana from 'wanakana';
+import { bulkInsert, getWordCount } from './db.js';
+
+const args = process.argv.slice(2);
+const levelArg = args.find(a => a.startsWith('--levels='));
+const delayArg = args.find(a => a.startsWith('--delay='));
+
+const levels = levelArg
+  ? levelArg.split('=')[1].split(',').map(l => l.trim())
+  : ['n5', 'n4', 'n3'];
+const DELAY_MS = delayArg ? parseInt(delayArg.split('=')[1]) : 1500;
+const MAX_PAGES_PER_LEVEL = 50; // 安全上限，每级最多 50 页 × 20 条 = 1000 词
+
+function sleep(ms) {
+  return new Promise(resolve => setTimeout(resolve, ms));
+}
+
+function fetchPage(keyword, page) {
+  return new Promise((resolve, reject) => {
+    const url = `https://jisho.org/api/v1/search/words?keyword=${encodeURIComponent(keyword)}&page=${page}`;
+    https.get(url, { timeout: 15000 }, (res) => {
+      let data = '';
+      res.on('data', chunk => data += chunk);
+      res.on('end', () => {
+        try {
+          resolve(JSON.parse(data));
+        } catch (e) {
+          reject(new Error(`JSON parse error: ${e.message}`));
+        }
+      });
+    }).on('error', reject)
+      .on('timeout', function() { this.destroy(); reject(new Error('Request timeout')); });
+  });
+}
+
+function parseJishoItem(item) {
+  if (!item.japanese || item.japanese.length === 0) return null;
+
+  const japanese = item.japanese[0];
+  const kanji = japanese.word || japanese.reading;
+  const kana = japanese.reading || kanji;
+  if (!kanji || !kana) return null;
+
+  let wordType = 'other';
+  const meanings = [];
+
+  for (const sense of (item.senses || [])) {
+    const pos = (sense.parts_of_speech || []).join(' ').toLowerCase();
+    if (wordType === 'other') {
+      if (pos.includes('verb')) wordType = 'verb';
+      else if (pos.includes('i-adjective')) wordType = 'i-adjective';
+      else if (pos.includes('na-adjective')) wordType = 'na-adjective';
+      else if (pos.includes('noun')) wordType = 'noun';
+      else if (pos.includes('adverb')) wordType = 'adverb';
+      else if (pos.includes('particle')) wordType = 'particle';
+      else if (pos.includes('conjunction')) wordType = 'conjunction';
+      else if (pos.includes('interjection')) wordType = 'interjection';
+      else if (pos.includes('prefix')) wordType = 'prefix';
+      else if (pos.includes('suffix')) wordType = 'suffix';
+      else if (pos.includes('counter')) wordType = 'counter';
+      else if (pos.includes('pronoun')) wordType = 'pronoun';
+      else if (pos.includes('expression')) wordType = 'expression';
+    }
+    const defs = (sense.english_definitions || []).slice(0, 3).join(', ');
+    if (defs) meanings.push(defs);
+  }
+
+  if (wordType === 'other' && meanings.length === 0) return null;
+
+  const jlptArr = item.jlpt || [];
+  const jlpt = jlptArr.length > 0 ? jlptArr[0].replace('jlpt-', '').toUpperCase() : '';
+
+  return {
+    kanji,
+    kana,
+    romaji: wanakana.toRomaji(kana),
+    meaning: meanings.slice(0, 2).join('; '),
+    wordType: wordType === 'other' ? 'noun' : wordType, // 有 JLPT 标记但无法识别词性的默认归为名词
+    jlpt,
+    isCommon: item.is_common ? 1 : 0
+  };
+}
+
+async function fetchLevel(level) {
+  const keyword = `#jlpt-${level}`;
+  let page = 1;
+  let totalFetched = 0;
+  const words = [];
+
+  while (page <= MAX_PAGES_PER_LEVEL) {
+    process.stdout.write(`  📡 JLPT ${level.toUpperCase()} - 第 ${page} 页... `);
+
+    let result;
+    let retries = 0;
+    while (retries < 3) {
+      try {
+        result = await fetchPage(keyword, page);
+        break;
+      } catch (e) {
+        retries++;
+        console.log(`⚠️  重试 ${retries}/3: ${e.message}`);
+        await sleep(3000);
+      }
+    }
+
+    if (!result || !result.data || result.data.length === 0) {
+      console.log('✅ 无更多数据');
+      break;
+    }
+
+    let pageCount = 0;
+    for (const item of result.data) {
+      const word = parseJishoItem(item);
+      if (word) {
+        words.push(word);
+        pageCount++;
+      }
+    }
+
+    totalFetched += pageCount;
+    console.log(`${pageCount} 条 (累计 ${totalFetched})`);
+
+    page++;
+    await sleep(DELAY_MS);
+  }
+
+  return words;
+}
+
+async function main() {
+  const beforeCount = getWordCount();
+  console.log(`📊 当前数据库: ${beforeCount} 条词汇\n`);
+  console.log(`🎯 准备抓取 JLPT 等级: ${levels.map(l => l.toUpperCase()).join(', ')}`);
+  console.log(`⏱️  请求间隔: ${DELAY_MS}ms\n`);
+
+  let allWords = [];
+
+  for (const level of levels) {
+    console.log(`\n── JLPT ${level.toUpperCase()} ──`);
+    const words = await fetchLevel(level);
+    allWords = allWords.concat(words);
+    console.log(`  📦 ${level.toUpperCase()} 共获取 ${words.length} 条\n`);
+  }
+
+  console.log(`\n📥 正在批量导入 ${allWords.length} 条词汇...`);
+  
+  // 分批导入，每批 200 条
+  const BATCH_SIZE = 200;
+  for (let i = 0; i < allWords.length; i += BATCH_SIZE) {
+    const batch = allWords.slice(i, i + BATCH_SIZE);
+    bulkInsert(batch);
+    process.stdout.write(`  已导入 ${Math.min(i + BATCH_SIZE, allWords.length)}/${allWords.length}\r`);
+  }
+
+  const afterCount = getWordCount();
+  console.log(`\n\n✅ 导入完成！`);
+  console.log(`   导入前: ${beforeCount} 条`);
+  console.log(`   导入后: ${afterCount} 条`);
+  console.log(`   新增: ${afterCount - beforeCount} 条（重复词汇已自动跳过）`);
+}
+
+main().catch(e => {
+  console.error('❌ 抓取失败:', e);
+  process.exit(1);
+});
@@ -0,0 +1,19 @@
+import fs from 'fs';
+import path from 'path';
+import { fileURLToPath } from 'url';
+import { bulkInsert, getWordCount } from './db.js';
+
+const __filename = fileURLToPath(import.meta.url);
+const __dirname = path.dirname(__filename);
+
+// 读取 common-words.json
+const wordsPath = path.join(__dirname, 'common-words.json');
+const words = JSON.parse(fs.readFileSync(wordsPath, 'utf8'));
+
+console.log(`📦 读取到 ${words.length} 条词汇，正在导入...`);
+
+// 批量插入
+bulkInsert(words);
+
+const count = getWordCount();
+console.log(`✅ 导入完成！数据库中共 ${count} 条词汇。`);