生成性 AI：初稿而非最终稿

原文：www.kdnuggets.com/generative-ai-the-first-draft-not-final

作者：努玛·达哈尼 & 玛吉·恩格勒

可以说，人工智能正处于风口浪尖。自从 OpenAI 的对话代理 ChatGPT 在去年末意外走红以来，科技行业一直在热议 ChatGPT 背后的技术——大型语言模型（LLMs）。除了谷歌、Meta 和微软之外，还有像 Anthropic 和 Cohere 这样资金充裕的初创公司也推出了自己的 LLM 产品。各个行业的公司纷纷争相将 LLM 整合进他们的服务中：仅 OpenAI 就拥有从金融科技公司如 Stripe 提供客户服务聊天机器人，到教育科技公司如 Duolingo 和 Khan Academy 生成教育材料，再到视频游戏公司如 Inworld 利用 LLM 为 NPC（非玩家角色）提供对话的各类客户。凭借这些合作伙伴关系和广泛的采用，据报道 OpenAI 预计年收入将超过十亿美元。很容易被这些模型的活跃性所打动：关于 GPT-4 的技术报告显示，该模型在各种学术和专业基准测试中取得了令人印象深刻的分数，包括律师资格考试；SAT、LSAT 和 GRE；以及涉及艺术史、心理学、统计学、生物学和经济学的 AP 考试。

这些引人注目的结果可能暗示着知识工作者的终结，但 GPT-4 和人类专家之间存在一个关键区别：GPT-4 没有理解。GPT-4 和所有 LLM 生成的回答并不是来源于逻辑推理过程，而是来自统计操作。大型语言模型是通过海量的互联网数据进行训练的。网络爬虫——访问数百万网页并下载其内容的机器人——生成了来自各种网站的文本数据集：社交媒体、维基和论坛、新闻和娱乐网站。这些文本数据集包含数十亿或数万亿个单词，这些单词大多以自然语言的形式排列：单词形成句子，句子形成段落。

为了学习如何生成连贯的文本，这些模型在数百万个文本补全示例数据上进行训练。例如，给定模型的数据集中可能包含像“这是一个黑暗而暴风雨的夜晚”和“西班牙的首都为马德里”这样的句子。模型不断尝试在看到“这是一个黑暗而暴风雨的”或“西班牙的首都为”之后预测下一个词，然后检查是否正确，并在每次错误时更新自己。随着时间的推移，模型在文本补全任务上变得越来越好，以至于在许多上下文中——尤其是那些下一个词几乎总是相同的上下文，如“西班牙的首都为”——模型认为最可能的响应是人类认为的“正确”响应。在那些下一个词可能有几个不同选择的上下文中，如“这是一个黑暗而”，模型将学习选择人类认为至少是合理的选择，也许是“暴风雨的”，但也可能是“阴险的”或“霉味的”。LLM 生命周期的这一阶段，模型在大型文本数据集上进行训练，被称为预训练。对于某些上下文，仅仅预测下一个词并不一定能产生期望的结果；模型可能无法理解它应该如何响应诸如“写一首关于狗的诗”这样的指令，而不是继续执行指令。为了产生某些行为，如遵循指令，并提高模型完成特定任务的能力，例如编写代码或与人进行轻松对话，LLM 随后会在针对这些任务设计的目标数据集上进行训练。

然而，LLM（大规模语言模型）通过预测可能的下一个词来生成文本的任务，导致了一种现象，称为幻觉。这是一个被广泛记录的技术陷阱，在这种情况下，LLM 在被提示时会自信地编造错误的信息和解释。LLM 预测和完成文本的能力基于训练过程中学到的模式，但当面临不确定或多种可能的补全时，LLM 选择看起来最可信的选项，即使它与现实无关。

例如，当谷歌推出其聊天机器人 Bard 时，它在首次公开演示中犯了一个事实错误。Bard 臭名昭著地声明詹姆斯·韦布太空望远镜（JWST）“拍摄了第一张来自我们太阳系外的行星的照片。”但实际上，第一张外行星的图像是在 2004 年拍摄的，由非常大望远镜（VLT）拍摄，而JWST 直到 2021 年才发射。

幻觉并不是大型语言模型（LLMs）唯一的缺陷——在大量互联网数据上训练还直接导致了偏见和版权问题。首先，让我们讨论一下偏见，它指的是模型在个人身份属性（如种族、性别、阶级或宗教）方面产生的不同输出。鉴于 LLMs 从互联网数据中学习特征和模式，它们也不幸地继承了类似于人类的偏见、历史不公和文化关联。虽然人类有偏见，但 LLMs更糟糕，因为它们往往会放大训练数据中的偏见。对于 LLMs 来说，男性是成功的医生、工程师和首席执行官，而女性则是支持性、美丽的接待员和护士，LGBTQ 人群则不存在。

在不可估量的互联网数据上训练 LLMs 还引发了版权问题的质疑。版权是对创作作品的独占权利，版权持有者是唯一有权在特定时间段内复制、分发、展览或表演该作品的实体。

目前，关于 LLMs 的主要法律问题不在于其输出的版权性，而在于现有版权的潜在侵犯，尤其是那些贡献了他们创作作品用于训练数据集的艺术家和作家。作家协会呼吁 OpenAI、谷歌、Meta 和微软等公司，要求他们同意、标注并公平地补偿作家使用版权材料来训练 LLMs。一些作家和出版商也已将此事提上日程。

LLM 开发者目前正面临来自个人和团体的几起关于版权的诉讼——喜剧演员和演员萨拉·席弗曼加入了一组作家和出版商起诉 OpenAI 的诉讼，声称他们从未授权将他们的版权书籍用于训练 LLMs。

尽管与幻觉、偏见和版权相关的担忧是与 LLMs 相关的最有文献记录的问题之一，但这绝不是唯一的担忧。举几个例子，LLMs 编码了敏感信息，产生了不良或有害的输出，并且可能被对手利用。毫无疑问，LLMs 在生成连贯且上下文相关的文本方面表现出色，应该毫无疑问地被用来提高效率等众多任务和场景中的效益。

研究人员也在致力于解决这些问题，但如何最佳控制模型输出仍然是一个未解的研究问题，因此现有的大型语言模型远非万无一失。它们的输出应始终检查准确性、事实性和潜在偏见。如果你获得的输出结果好得令人难以置信，那就要提高警惕，仔细审查。验证和修正任何由大型语言模型生成的文本是用户的责任，或者我们喜欢说的，生成式人工智能：这是你的初稿，而非最终稿。

玛吉·恩格勒是一位工程师和研究员，目前致力于大型语言模型的安全性。她专注于将数据科学和机器学习应用于在线生态系统中的滥用问题，是网络安全以及信任和安全领域的专家。玛吉还是一位热心的教育者和传播者，担任德克萨斯大学奥斯汀分校信息学院的兼职讲师。

努玛·达马尼****是一位在技术与社会交汇处工作的工程师和研究员。她是自然语言处理领域的专家，具有影响力操作、安全性和隐私方面的专业知识。努玛为财富 500 强公司、社交媒体平台、初创企业和非营利组织开发了机器学习系统。她曾为公司和组织提供咨询，担任美国国防部研究计划的首席研究员，并为多个国际同行评审期刊做出了贡献。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

generative-ai-the-first-draft-not-final.md

generative-ai-the-first-draft-not-final.md

生成性 AI：初稿而非最终稿

更多相关主题

Files

generative-ai-the-first-draft-not-final.md

Latest commit

History

generative-ai-the-first-draft-not-final.md

File metadata and controls

生成性 AI：初稿而非最终稿

更多相关主题