|
| 1 | +--- |
| 2 | +title: "专题 | 爱思唯尔起诉 Meta:AI 的「数据原罪」终于被翻了出来" |
| 3 | +date: "2026-05-14" |
| 4 | +type: "topic" |
| 5 | +tags: ["Meta", "Llama", "版权争议", "Sci-Hub", "数据训练"] |
| 6 | +summary: "Elsevier 指控 Meta 通过 Sci-Hub 下载了 490 万篇论文训练 Llama。这不只是 Meta 的麻烦,而是整个 AI 行业都必须面对的数据原罪问题。" |
| 7 | +--- |
| 8 | + |
| 9 | +> AI 行业一直把互联网当成免费的自助餐厅,现在账单来了。 |
| 10 | +
|
| 11 | +--- |
| 12 | + |
| 13 | +前几天,学术出版巨头爱思唯尔(Elsevier)向法院递交了一份诉状,指控 Meta 在训练 Llama 模型时,通过 Sci-Hub 下载了 490 万篇受版权保护的学术论文。 |
| 14 | + |
| 15 | +这事听起来像是一个具体的法律纠纷,但它的意义远不止于此。 |
| 16 | + |
| 17 | +如果你关注 AI 行业一段时间,可能会有一种隐约的不安感:这些公司宣称自己的模型用了"数万亿 token"训练,但从来没有一家公司完整地、透明地公开过训练数据到底从哪来的。 |
| 18 | + |
| 19 | +现在,这份不安感有了第一个具体的名字:**Sci-Hub**。 |
| 20 | + |
| 21 | +--- |
| 22 | + |
| 23 | +## Sci-Hub 怎么成了 AI 训练数据的"隐形供应链" |
| 24 | + |
| 25 | +Sci-Hub 是什么?简单说,它是全球最大的学术盗版网站,由 Alexandra Elbakyan 创建,目的是打破学术出版的付费墙,让任何人都能免费阅读论文。 |
| 26 | + |
| 27 | +它合法吗?当然不。它在几十个国家被法院封禁,创始人被通缉,出版商们恨之入骨。 |
| 28 | + |
| 29 | +但它在学术圈的普及程度是惊人的。很多研究生、研究人员、甚至是教授,都习惯性地用 Sci-Hub 找论文——不是因为支持盗版,而是因为正规渠道的订阅费用高到离谱。一篇论文 35 美元,一个期刊一年的订阅费动辄几千美元。Sci-Hub 填补的是一个真实存在的、巨大的需求缺口。 |
| 30 | + |
| 31 | +然后,AI 公司发现了它。 |
| 32 | + |
| 33 | +诉状指控 Meta 通过 Sci-Hub 下载了 490 万篇论文。这个数字意味着什么?意味着 Sci-Hub 已经不仅仅是一个研究人员的工具了,它变成了一个事实上的"数据供应商",只不过这个供应商没有发票、没有授权、没有任何合法身份。 |
| 34 | + |
| 35 | +> **Awesome AI 观点:** 这件事最讽刺的地方在于:AI 公司一直在强调自己的数据来源是"公开的"、"合法的"、"透明的",但 Sci-Hub 的存在直接戳穿了这种叙事。公开不等于合法,合法不等于有授权。这三者之间的界限,AI 行业一直故意模糊处理。 |
| 36 | +
|
| 37 | +--- |
| 38 | + |
| 39 | +## Meta 的问题,也是全行业的问题 |
| 40 | + |
| 41 | +如果这件事只涉及 Meta,那顶多就是 Meta 的法务部门忙一阵子。但真正的问题是:**Meta 不是唯一一个这么做的公司。** |
| 42 | + |
| 43 | +所有前沿大语言模型——OpenAI 的 GPT、Google 的 Gemini、Anthropic 的 Claude——都用了海量的文本数据训练。这些数据从哪里来? |
| 44 | + |
| 45 | +一部分来自合法的授权和合作,这部分没有争议。 |
| 46 | + |
| 47 | +另一部分来自"公开可用的"互联网内容,比如 Common Crawl 这样的开源数据集。这部分是灰色地带——内容确实是公开可访问的,但"公开可访问"是否等于"可以用于商业模型训练",法律上还没有定论。 |
| 48 | + |
| 49 | +还有一部分,很可能来自类似 Sci-Hub 这样的渠道。不是直接下载,而是通过某种中间环节——比如某个第三方数据提供商声称自己"清理过"的数据集,而这些数据的原始来源并不干净。 |
| 50 | + |
| 51 | +这就是 AI 行业的"数据原罪":**没人知道模型到底吃了什么,但所有人都假装它是干净的。** |
| 52 | + |
| 53 | +--- |
| 54 | + |
| 55 | +## 这个案子会怎么判? |
| 56 | + |
| 57 | +法律上的预判很难,但有几个关键因素会影响最终结果。 |
| 58 | + |
| 59 | +第一是**"合理使用"(Fair Use)**原则。AI 公司一直主张,训练模型属于合理使用范畴——模型不是在"复制"论文,而是在"学习"论文中的知识和模式。这就像人类读了论文后学到了东西,不能因为"学了"就说是侵权。 |
| 60 | + |
| 61 | +但这个论点在 Sci-Hub 这个场景下面临巨大挑战。合理使用的前提是"合法获取"——你至少得先有权利拿到这份材料,才能讨论后续的使用是否合理。Sci-Hub 的数据本身就是盗版获取的,"合理使用"的地基就不存在。 |
| 62 | + |
| 63 | +第二是**规模问题**。490 万篇论文,这个体量远远超出了个人研究的范畴。即使单个论文的使用可能被视为合理,数百万篇的系统性获取和使用,很难用"合理使用"来辩护。 |
| 64 | + |
| 65 | +第三是**商业目的**。Llama 虽然开源,但 Meta 用它来构建自己的 AI 生态、提升产品竞争力、吸引开发者。这种商业属性会让法院在判决时更加谨慎。 |
| 66 | + |
| 67 | +> **Awesome AI 观点:** 这个案子最可能的结果不是 Meta 赔多少钱,而是法院如何定义"AI 训练数据的合法性"。如果判决倾向于出版商,整个 AI 行业的数据供应链都需要重新洗牌;如果判决倾向于 Meta,学术出版商可能会寻找其他法律途径来保护自己的内容。无论结果如何,行业不可能回到"随便拿"的时代了。 |
| 68 | +
|
| 69 | +--- |
| 70 | + |
| 71 | +## 对行业的影响:数据成本的时代 |
| 72 | + |
| 73 | +这件事最大的意义不在于诉讼本身,而在于它释放的信号:**AI 训练数据的"免费时代"可能正在结束。** |
| 74 | + |
| 75 | +过去几年,AI 行业的增长在很大程度上建立在"数据便宜"这个假设上。互联网上有海量免费内容,拿来训练就行。但现在,版权方开始反击了。 |
| 76 | + |
| 77 | +如果 Meta 败诉,其他 AI 公司也会面临类似的风险。即使不起诉,版权方也会开始要求授权费用。学术论文、新闻文章、书籍内容、甚至社交媒体帖子——所有这些都可能从"免费数据"变成"付费数据"。 |
| 78 | + |
| 79 | +这对行业意味着什么? |
| 80 | + |
| 81 | +**训练成本会大幅上升。** 现在训练一个大模型,算力成本是主要开支。如果数据也需要按授权付费,这个成本可能不亚于算力。 |
| 82 | + |
| 83 | +**小公司的门槛会更高。** 大厂还有资源去谈授权、去建立合规的数据供应链。小公司怎么办?买不起正版数据,又不敢用盗版数据,可能就被排除在竞争之外了。 |
| 84 | + |
| 85 | +**开源模型会受到最大冲击。** 闭源模型可以把数据成本转嫁给用户(API 调用费、订阅费),开源模型怎么办?如果数据获取成本太高,开源模型的"免费"优势还能维持多久? |
| 86 | + |
| 87 | +--- |
| 88 | + |
| 89 | +## 我的看法 |
| 90 | + |
| 91 | +我一直认为,AI 行业在数据获取上的"灰色操作"迟早会付出代价。 |
| 92 | + |
| 93 | +这不只是为了保护版权——虽然版权保护确实很重要——更是为了行业的长期健康发展。一个建立在"不知道数据来源"基础上的行业,就像一座建在沙子上的高楼,看起来高,但地基不稳。 |
| 94 | + |
| 95 | +这次爱思唯尔的诉讼,是第一次有人把 AI 行业的"数据原罪"拿到了法庭上。不管结果如何,这个行业都需要面对一个根本性的问题: |
| 96 | + |
| 97 | +**你的模型到底有多"干净"?** |
| 98 | + |
| 99 | +如果连这个问题都回答不了,再强的模型、再高的跑分,也只是一个建立在不确定基础上的技术奇迹。 |
| 100 | + |
| 101 | +而真正的技术进步,不应该建立在灰色地带上。 |
0 commit comments