准备好应对人工智能地震吧!加州大学洛杉矶分校的研究人员团队( @zxche n、 @Yihe__Deng 、 @HuizhuoY 、 @Kaixuan_Ji_19、 @QuanquanGu )已经放弃了 AGI 的一些主要关键。这不仅是真正听起来像人类的人工智能的代码,而且他们还开源了整个东西。
现在,您可以开发更好的法学硕士,而无需为其提供大量新的人工注释数据。
首先,让我们关注这里的游戏规则改变者:自学语言模型。
这种方法让语言模型能够自我学习,变得越来越好,而无需大量新的、外部管理的数据。
我进行了全面的深入研究 - 阅读了他们的论文(“自玩微调将弱语言模型转换为强语言模型”),使用 Google Gemini Ultra 和 GPT-4 在HackerNews 、 X和Reddit等论坛上搜索了见解Turbo——以及 SPIN 的核心概念让我对科技的热爱大吃一惊:
想象一下,从一个已经掌握了基本技能(比如说会话礼仪)的语言模型开始。通过 SPIN,模型可以生成内部“对话”,根据已知信息构建数据集。
即时知识扩展!
第二步涉及释放一个新模型并赋予它一项任务:找出机器生成的聊天和真正的人类交流之间的区别。这迫使原始模型升级其游戏,每次响应都变得越来越像人类以避免被发现。
这就是事情变得有趣的地方。他们从zephyr-7b-sft-full开始(已经使用UltraChat 语料库进行了微调)。 SPIN 通过该基本模型推出了迭代训练系统,在不依赖大量外部创建的新数据的情况下实现了指数级改进。
我们通常认为机器学习,特别是对于这些巨大的语言模型,需要大量精心策划和标记的数据。直接偏好优化(DPO)方法需要人类煞费苦心地对人工智能的反应进行评分,以进行训练。这不仅是劳动密集型的,而且随着数据集的增长,成本也会不断增加。
直接偏好优化 (DTO) 是一种训练方法,其中使用偏好数据集对模型进行微调,通常涉及人类判断来决定模型生成的响应中的哪些是首选。此方法需要收集新数据,其中每个数据都根据这些偏好进行标记,这可能会占用大量资源。
相比之下,SPIN 利用迭代自我对弈,显着减少了对新数据的需求。
通过第一次迭代, SPIN 的性能在大多数情况下已经超过了 DPO ,凸显了其利用现有数据增强模型性能的效率和有效性。
SPIN 通过在更广泛的数据集上训练的模型实现同等性能来展示其优势。迭代训练过程有条不紊地增强了模型在多次迭代中的性能,展示了显着的改进,特别是在 TruthfulQA 和 GSM8k 等具有挑战性的基准测试上。
因此,SPIN 通过有效地利用通过自我对弈生成的合成数据集,而不需要额外的人工注释数据,优于包括 DPO 在内的传统训练方法。
SPIN 以其自玩动态抛出一个曲线球。
可以把它想象成一个语言模型在语言拳击场上与自己较量,每一轮都会教它新的技巧。
SPIN 的数据效率无需新的人工注释数据集。
但更重要的是,它加速了改进循环,使模型越来越擅长生成类似人类的文本。
SPIN 不仅看起来与在更大的外部数据集上训练的模型相匹配,而且它的迭代能力意味着一致的增益,因为它本质上是研究自己的输出。
令人兴奋,对吧?
Nous Research 联合创始人@Teknium1有道理。这些大型语言模型不会免费变得更加智能。每次使用 SPIN 进行迭代重新训练都涉及昂贵的监督微调 (SFT) 过程。
不过,他也提到“我认为这是值得的!”。此外,更快的发展和对人工注释数据的潜在依赖减少的长期好处是否超过了初始投资?这是令人兴奋的问题!
就在昨天,加州大学洛杉矶分校计算机科学副教授、字节跳动人工智能研究总监顾泉泉宣布,现在任何人都可以使用SPIN模型和数据集。这不仅仅意味着代码和数据集,还意味着预训练的模型来启动您自己的人工智能之旅。
SPIN 反映了人类的思维过程。
通过生成人性化的文本,SPIN 暗示了未来人工智能可以进行推理的基本要素。你知道有些法学硕士的输出感觉很机械吗?嗯,SPIN 是不同的。它实际上反映了人类的思维方式。它的书写方式感觉如此自然,就像是一窥未来人工智能如何能够为自己推理。
这不仅仅是为了让聊天机器人听起来更好听。
这是关于创造一种像我们一样运作的数字思维。这种人工智能会更加灵活并且能够真正理解。
虽然 SPIN 在使语言模型听起来更自然方面取得了巨大的飞跃,但人们很容易感到兴奋并高估其含义。
它生成的文本令人印象深刻(您可以查看数据库),但重要的是要记住人工智能尚不具备真正独立推理的能力。
虽然 SPIN 并不是真正的AGI ,但它模仿人类书写的方式展示了人工智能在未来处理和使用语言方面取得的令人瞩目的进步。
即便如此,它确实为人工智能和语言在未来如何发展提供了惊人的可能性(如果你还记得我们正处于曲棍球棒的开端,未来离今天并不遥远......)
连锁反应将是巨大的,这是您的访问通行证:
总而言之,其迭代、自我改进的方法论是创建能够进行真正类人交流的法学硕士的重大进步。
最初分享在我的X 帐户上。