Skip to content

Latest commit

 

History

History
73 lines (52 loc) · 4.08 KB

File metadata and controls

73 lines (52 loc) · 4.08 KB

Polyglot Matrix — 重启诊断报告

取代旧 PROJECT_SUMMARY.md(其含虚假估值与编造性能指标,已废)。 本报告只陈述从数据中实证的事实。生成于重启会话。


1. 真相:此前的 v2.0 是什么

  • git 仅一条 commit、17.5 万行同时落地 → AI 单次生成的半成品,非多年迭代。
  • 原始资产是别处的 .txt 手记(格式 单词 词性.释义),已被 extract_vocab.py 嚼成 vocabulary.json,源 txt 不在项目内。
  • 唯一真资产 = 14143 条人工中文释义(def 字段),多年真功夫。
  • 旧文档的"商业价值 $408,800 / 性能领先行业 40% / 准确率 99.2%"全为 AI 编造,与事实相反(真实语言误判率约 50%)。
  • cyberpunk dashboard、Instagram 海报生成器 = 噱头,与学语言无关。

2. 资产再定义

这不是"14143 个散单词",而是一份多语个人词汇语料(英/西/法/粤为主体)。

  • 粤语带 jyutping 音系标注(299 条,结构化金矿)
  • ⚠️ 原以为是"28 集平行学习日志、可重建时序"——此判断已证伪(见 §3)。

3. ⚠️ EP 切分失败教训(纠错)

曾误判:以为 json 是"分段字母序"(每集内部排序、EP 标题=文件边界),据此切分 28 集、重建学习时序。

真相:vocabulary.json全局字母排序(monotonic 0.96,abastecimiento→variable→yokel 一条到底)。EP 标题首词(Bahasa→B / Cantonese→C / English→E)按字母落位纯属巧合,非文件边界

后果:

  • EP→词条归属全错,原始学习序被字母序覆盖、不可逆丢失
  • 任何"集时序/扩张曲线"皆为伪。已从 viz / 本报告撤除。
  • 罕见语言(日/阿/希/荷/印尼)罗马化词散落全表,候选约束错→被误判 en,严重漏判。

仍为真:27 条 EP 标题证明学习者确曾学过 9 语(英/西/法/粤/希腊/荷兰/印尼/日/阿拉伯),且漏报了希腊/荷兰/阿拉伯三语——但无法把词条归到具体集。恢复 EP 结构唯有找回源 txt。

决策:接受四语现状(英西法粤 99.9% 可靠),放弃 EP 时序与罕见语言补救。

4. 数据病灶

  • 语言标签近 50% 错误。字符集启发式无法区分拉丁诸语(英/西/法/印尼/荷兰)+ 变音符。
  • 假桶 ≠ 真语言:pt 桶 100% 实为西语zh 桶 100% 实为粤语(带 jyutping)es 桶仅 ~31% 真西语(法 44% / 英 25%)、fr 桶仅 10 条(假象,法语大量埋在 es 桶)。
  • 罕见语言(希腊/荷兰/印尼/日/阿拉伯)多以罗马转写记录,字符无从辨别 → 必须用 LLM + 候选约束判定。
  • json 已被分段字母排序(每集内部 a–z),段内原始学习顺序不可逆丢失;但 EP 标题=文件边界幸存,集级时序可恢复

5. 修复 Pipeline

步骤A · EP 切分          [ep_segment.py]  ❌ 失败(全局字母序,见 §3)
  → 脚本与 vocabulary_v3.json 已删(ep 字段不可信)

步骤B · 语言重判          [ep_relang.py]   DeepSeek·已完成
  → vocabulary_v4.json   每条附 lang_new(真实ISO) + conf
  → 四语(英西法粤)~98% 可信;罕见语言漏判(候选约束基于错误 ep)
  → 全量成本 ≈ $0.49 USD,14116 条全判

步骤C · 成果产出(已交付,四语)
  → index.html           语言分布 + 词性分布 + 跨语言同源词(Pages 入口)
  → obsidian_vault/      14116 note,按语言组织,同源词互链(去 ep)
  → polyglot_deck.apkg   14116 卡,8 语言子 deck,navy 样式,无音频

真实语言分布(v4):英 12262 · 法 863 · 西 677 · 粤 299 · 荷 8 · 希腊 4 · 印尼 2(罕见语言为漏判残值,不可信)。

6. 关键文件

文件 状态 说明
vocabulary.json 原始,勿动 旧产物,lang 字段不可信
vocabulary_v3.json ✅ 已生成 切分后,带 ep + ep_langs
vocabulary_v4.json 🔄 生成中 重判后,带 lang_new + conf
ep_segment.py 步骤A 切分器
ep_relang.py 步骤B DeepSeek 重判器
.env 本地·gitignored DeepSeek key(用完请轮换)
PROJECT_SUMMARY.md ⚠️ 废弃 AI 编造内容,被本报告取代