楔子：下一代大模型的难题

他不费多少力气就学会了英语、法语、葡萄牙语、拉丁语。但我认为他思维的能力不是很强。思维是忘却差异，是归纳，是抽象化。在富内斯的满坑满谷的世界里有的只是伸手可及的细节。

—— 《博闻强记的富内斯》，博尔赫斯

承载数千年来人类知识沉淀的文本被灌输给 AI 训练，大模型在事实类知识储备方面，虽然偶有幻觉，已经远远超越了世界上任何一个人类专家。如今 AI 大模型的参数量级已经接近人类大脑的神经元连接数，人们对大模型的期望并不只是一个新式搜索引擎，而是希望 AI 在理解、问答、推理、生成方面显著提升，具备与人类接近的认知能力。

OpenAI 在2020年提出了大模型的 Scaling Law 法则：模型的最终性能主要与计算量、模型参数量和数据大小三者相关，而与模型的具体结构(层数/深度/宽度)基本无关。具体来说，当不受其他因素制约时，模型的性能与这三者呈现幂律关系。这意味着随着模型参数量、数据集规模和训练使用的计算量增加，模型的性能会显著提升。

在后续的实践中，人们确实观察到这样一个难以忽视的事实：模型尺寸越大，训练使用的高质量数据越多，大模型所具备的能力就越强。现在无论是闭源模型还是开源模型，从GPT-1到GPT-4o，从Llama1到Llama3，各家推出的旗舰大模型的参数量持续攀升，评测得分你追我赶，目前还未看到Scaling Law失效的迹象。作为标杆的GPT-4大模型的参数量据估计为1.8万亿，而OpenAI代号为 Q* 的下一代模型相信会拥有更多参数量，以及更具突破性的表现。

所以，好消息是scaling law继续有效，我们可以继续沿着现有的大模型性能之路向上攀登，但坏消息是什么呢？

令人忧心的是，目前的大模型训练已经几乎耗尽了人类有史以来积累的高质量文本。有人大致测算过当前互联网上所有的高质量公共文本数据量，乐观估计英语语料大约在40T~90T Tokens (1T=1万亿) 的范围，加上其他非英语语料最多能达到100T~200T的范围。

最新的Llama3模型训练使用的文本大约包含11万亿个单词，15T Tokens 的数据量，而训练下一代大模型需要的数据量大概为之前的 10 倍！这已经接近可获取的公共数据上限 —— 即使不考虑算力和能源消耗的问题，人类手头可用的高质量数据不多了。且未来人类对更多高质量文本的需求量（指数级），将远超数据产生的速度（约1%~7%/每年）。

当然，以上数据仅为公共数据的测算结果。私有数据的规模则更为庞大，例如 Facebook 的帖子数据可能高达 140T，谷歌的 Gmail 所包含的数据估计有 400T。然而，这些私有数据对于大模型供应商来说难以获取。即便他们能够采集到这些数据，最终的大模型产品在商业化应用方面也会面临诸多限制，甚至可能会遭遇法律方面的挑战。

合成数据难堪大任？

一个自然的想法是使用大模型输出更多的合成数据来训练未来的大模型。“用自己生成的数据训练自己”听上去似乎不合理。这有点像贪吃蛇啃食自己的尾巴，然后越变越长——有这样的好事？如果将语言模型比作一个知识库，它已经记住了这个世界的绝大部分知识，模型生成的数据不是理应已经包含在知识库之中吗，那么用这些生成数据作为训练数据又有什么意义？

此前已经有人尝试过使用模型输出的数据来训练模型，这针对于落后模型向先进模型偷师是一条捷径，但是对于同一个模型而言，使用自身输出的数据训练却导致了性能的劣化。随着时间的推移，模型会遗忘训练数据中不太常见但重要的信息，初始模型中存在的偏差在后续的训练迭代中也会传播放大，对噪声数据产生过拟合，导致对现实场景的泛化能力变差。模型的输出可能会变得越来越同质化和不准确。

如果再往前追溯，曾经风靡一时的生成对抗网络（GANs, Generative Adversarial Networks）就是一个使用模型输出来训练模型的例子。在其迭代过程中涉及两个关键组件：生成器和鉴别器，生成器创建合成数据样本，然后将其用作反例来训练鉴别器，这个过程允许鉴别器学习区分真实和虚假数据。生成器和鉴别器进行持续的对抗训练过程。随着生成器在创建真实数据方面的改进，鉴别器还必须提高其区分真实和虚假样本的能力，这种持续的竞争促使这两个网络提高了性能。

可以说合成数据造就了GANs，但一定程度上也毁了它。由于生成器和鉴别器网络的对抗性，GAN很难训练。实现平衡和稳定的训练过程具有挑战性，通常会导致不稳定的收敛，如果其中一个网络的表现优于另一个，将导致训练时间延长和不一致的结果。当生成器产生的输出种类有限，无法捕捉到真实数据分布的多样性时，就会发生崩溃。这意味着生成器专注于几种类型的输出，这些输出总是欺骗鉴别器，降低了GAN在需要不同数据生成的应用程序中的有效应用。

另一个关于数据与模型共生系统的成功案例是 AlphaZero。在仅了解棋局规则的情况下，AlphaZero 通过不断地与自己对弈来生成训练数据。这种自我博弈的方法使人工智能能够探索大量的棋局位置和策略，而无需依赖外部输入或人类的游戏数据。AlphaZero 通过与自身对抗来产生新的游戏数据，然后将其用于训练神经网络，更新后的网络则用于后续的自我游戏，形成了一个不断优化的循环。通过自我对弈，AlphaZero 能够发现新的策略，并通过从自身的成功和失败中学习来不断改进，最终它在围棋项目上战胜了 AlphaGo。然而围棋的世界黑白分明，而复杂的现实世界却并没有一个明确的规则系统，来规定世界运行的法则和产生这些状态的机制。因此，成功应用于 AlphaZero 的技术存在泛化性难题。

如果与人类的学习过程相类比，想要读懂一本书并掌握其中知识，最有效的方法绝非是将整本书都背诵下来，因为这种学习方式难以挖掘出知识之间深层次的关联和逻辑关系。恰恰相反，在大多数情况下，人们是在解决问题或回答问题的过程中开始理解知识，或是加深知识之间的联系。这些问题可能源于书本上的习题，也可能是我们在脑海中对自己的提问，亦或是当我们遇到实际问题时迅速建立起与知识点相关的联系。

对于一个见过海量数据的大型语言模型而言，至关重要的是，要设计相当多复杂多样的任务，并引导模型解决这些难题。如此方能强化模型对知识的理解，逐渐形成对知识融会贯通的能力，更加贴近人类的智力。引入多元化的指令和任务，或是训练大模型大幅提升解决问题的能力的关键。但是，多样化的高质量数据有没有便捷的获取方式呢？

腾讯的解题思路

最近，腾讯 AI 团队提出了一种基于角色驱动的数据合成方法，即在数据合成提示中添加角色描述，引导LLM从相应的角色视角生成独特的、多样的、符合场景逻辑的合成数据。他们为此创建了10亿个角色！

这10亿个角色是怎么生成的呢？腾讯团队使用了两种方法，一种是“文本到角色”，另一种是“角色到角色”。第一种方法是提供很多来自互联网的小段文本，然后让LLM推断“这段文本可能是由什么样的人物角色创作的?”；有了这些角色后，再使用第二种方法向LLM询问“谁与给定的角色关系密切?”进行6轮关系扩展（根据“六度分隔”理论）。比如，可以从“儿科护士”推导出“患病儿童”、“医药公司代表”等有关联的角色。

反复进行这两步操作，可以得到高达几十亿的角色描述信息。随后再使用MinHash（根据角色描述的n-gram特征进行去重）与使用文本嵌入模型计算相似性两种方式去重，过滤低质量的角色描述，最后得到高达1,015,863,523个角色！腾讯在开源项目Persona Hub（角色仓库）中开放了其中的20万个角色信息，里面包含“搬家公司的司机”、“化学动力学研究员”、“对音频处理感兴趣的音乐家”等多样化的角色信息。

生成角色信息只是第一步，最终目的是为了生产多样化的合成数据。生成方式很简单，就是在指令中加入角色信息，LLM就能根据Prompt要求生成对应的文本，包括数学问题、逻辑问题和用户提示词。下图是要求LLM对一个角色（“一个对语言和社交活动感兴趣的语言学家”）生成不同类别（如“几何问题”）不同难度（如“奥林匹克级别”）数学问题的示例：

这些合成数据的质量如何呢？腾讯团队使用以上方法构建的107万个合成数学问题，微调模型Qwen2-7B实现了近80%的准确率，超越了所有开源大语言模型。进一步在MATH基准上进行评测发现，微调模型的答题准确率64.9%，以7B参数的体量超越了gpt-4-turbo-preview（1106/0125）大模型的性能！

还可以利用这些角色信息在大规模数学和逻辑推理问题生成、指令生成、知识丰富的文本生成、游戏NPC以及工具（功能）开发等场景中创建丰富且多样化的合成数据。一个有趣的例子是让LLM生成“弱智吧”语言风格的逻辑推理问题，其脑洞大开、幽默风趣的风格相比长期泡网的人类网虫也不遑多让！

数据并非生而平等

就像博尔赫斯笔下“博闻强记的富内斯”，前苏联曾有一位著名的记者——所罗门·维塔利耶维奇·谢列舍夫斯基（Solomon Veniaminovich Shereshevsky）能够记住几乎所有发生过的事情。现代神经心理学之父亚历山大·卢里亚对他进行了长达30年的研究，也让他成为心理学史上最著名的人物之一。

谢列舍夫斯基的记忆力强大到可以完美地回忆起几十年前事件的所有细节，能在几分钟之内记住世界上最复杂的数学公式、巨大无比的矩阵、甚至是他从未学过的外语诗歌。但这种优势是以巨大的代价换来的，谢列舍夫斯基很难忘记任何事情，就像《追忆似水年华》里普鲁斯特被玛德琳蛋糕的味道触发了对儿时的回忆一样，大量细枝末节的事情不受控制地浮现在他的脑海里，把重要的事情都淹没了。虽然他非常善于记忆事实，但几乎无法掌握某件事情的要旨，无法掌握细节背后的概念，无法将相关的事实与次要的细节区分开来。谢列舍夫斯基在理解文学和诗歌方面有很大的困难，他可以逐字复述一本小说，但他看不到故事背后更深层的意义。

对于一个大模型来说，记忆大量的事实只是智能的基础，虽然不至于像谢列舍夫斯基那样造成无法承受的负担，但更重要的是通过Prompt Engineering的技巧，通过角色扮演、思维链等方式，激发出训练数据中最贴合场景、高质量的那部分数据，作出高质量的推理，给出能解决现实难题的答案。在训练环节上，大模型也面临同样的问题，单调场景和指令训练数据只能导致过拟合及负向偏离的结果。在人类储备的原生数据不足的情况下，多样化的合成数据可能是解决之道，我们很有必要去探寻有效的方法来构建高质量的合成训练数据集。

从这个角度来说，科学和数据都不是民主的——科学是精英制的，而数据并非生而平等，“有些数据比别的数据更加平等”。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/81333.html

好消息是 Scaling Law 继续有效，坏消息呢？

楔子：下一代大模型的难题

合成数据难堪大任？

腾讯的解题思路

数据并非生而平等

发表回复

好消息是 Scaling Law 继续有效，坏消息呢？

楔子：下一代大模型的难题

合成数据难堪大任？

腾讯的解题思路

数据并非生而平等

相关推荐

发表回复