取代旧
PROJECT_SUMMARY.md(其含虚假估值与编造性能指标,已废)。 本报告只陈述从数据中实证的事实。生成于重启会话。
- git 仅一条 commit、17.5 万行同时落地 → AI 单次生成的半成品,非多年迭代。
- 原始资产是别处的
.txt手记(格式单词 词性.释义),已被extract_vocab.py嚼成vocabulary.json,源 txt 不在项目内。 - 唯一真资产 = 14143 条人工中文释义(
def字段),多年真功夫。 - 旧文档的"商业价值 $408,800 / 性能领先行业 40% / 准确率 99.2%"全为 AI 编造,与事实相反(真实语言误判率约 50%)。
- cyberpunk dashboard、Instagram 海报生成器 = 噱头,与学语言无关。
这不是"14143 个散单词",而是一份多语个人词汇语料(英/西/法/粤为主体)。
- 粤语带 jyutping 音系标注(299 条,结构化金矿)
⚠️ 原以为是"28 集平行学习日志、可重建时序"——此判断已证伪(见 §3)。
曾误判:以为 json 是"分段字母序"(每集内部排序、EP 标题=文件边界),据此切分 28 集、重建学习时序。
真相:vocabulary.json 是全局字母排序(monotonic 0.96,abastecimiento→variable→yokel 一条到底)。EP 标题首词(Bahasa→B / Cantonese→C / English→E)按字母落位纯属巧合,非文件边界。
后果:
- EP→词条归属全错,原始学习序被字母序覆盖、不可逆丢失。
- 任何"集时序/扩张曲线"皆为伪。已从 viz / 本报告撤除。
- 罕见语言(日/阿/希/荷/印尼)罗马化词散落全表,候选约束错→被误判 en,严重漏判。
仍为真:27 条 EP 标题证明学习者确曾学过 9 语(英/西/法/粤/希腊/荷兰/印尼/日/阿拉伯),且漏报了希腊/荷兰/阿拉伯三语——但无法把词条归到具体集。恢复 EP 结构唯有找回源 txt。
决策:接受四语现状(英西法粤 99.9% 可靠),放弃 EP 时序与罕见语言补救。
- 语言标签近 50% 错误。字符集启发式无法区分拉丁诸语(英/西/法/印尼/荷兰)+ 变音符。
- 假桶 ≠ 真语言:
pt 桶 100% 实为西语、zh 桶 100% 实为粤语(带 jyutping)、es 桶仅 ~31% 真西语(法 44% / 英 25%)、fr 桶仅 10 条(假象,法语大量埋在 es 桶)。 - 罕见语言(希腊/荷兰/印尼/日/阿拉伯)多以罗马转写记录,字符无从辨别 → 必须用 LLM + 候选约束判定。
- json 已被分段字母排序(每集内部 a–z),段内原始学习顺序不可逆丢失;但 EP 标题=文件边界幸存,集级时序可恢复。
步骤A · EP 切分 [ep_segment.py] ❌ 失败(全局字母序,见 §3)
→ 脚本与 vocabulary_v3.json 已删(ep 字段不可信)
步骤B · 语言重判 [ep_relang.py] DeepSeek·已完成
→ vocabulary_v4.json 每条附 lang_new(真实ISO) + conf
→ 四语(英西法粤)~98% 可信;罕见语言漏判(候选约束基于错误 ep)
→ 全量成本 ≈ $0.49 USD,14116 条全判
步骤C · 成果产出(已交付,四语)
→ index.html 语言分布 + 词性分布 + 跨语言同源词(Pages 入口)
→ obsidian_vault/ 14116 note,按语言组织,同源词互链(去 ep)
→ polyglot_deck.apkg 14116 卡,8 语言子 deck,navy 样式,无音频
真实语言分布(v4):英 12262 · 法 863 · 西 677 · 粤 299 · 荷 8 · 希腊 4 · 印尼 2(罕见语言为漏判残值,不可信)。
| 文件 | 状态 | 说明 |
|---|---|---|
vocabulary.json |
原始,勿动 | 旧产物,lang 字段不可信 |
vocabulary_v3.json |
✅ 已生成 | 切分后,带 ep + ep_langs |
vocabulary_v4.json |
🔄 生成中 | 重判后,带 lang_new + conf |
ep_segment.py |
✅ | 步骤A 切分器 |
ep_relang.py |
✅ | 步骤B DeepSeek 重判器 |
.env |
本地·gitignored | DeepSeek key(用完请轮换) |
PROJECT_SUMMARY.md |
AI 编造内容,被本报告取代 |