任何对人工智能技术的发展感兴趣的人都知道,当今的解决方案都是关于大型语言模型(LLM)和变压器的。简而言之,LLM 是可以根据输入标记预测下一个标记的神经网络。通常,这些标记是单词(这并不完全准确,但这样更容易概念化),并且网络的输出也是单词。这就是 ChatGPT 的工作原理。你输入一个问题,网络就会生成一个单词。然后,问题和单词一起成为网络输入,生成另一个单词,依此类推,直到形成完整的答案。
然而,标记不仅仅是文字。 GPT-4 或 Gemini 等高级语言模型现在是多模式的,这意味着它们的输入可以包括图像和单词。正如句子可以分解为单词一样,图像可以分为小块,从那里,相同的转换器架构可以处理它们。例如,可以要求多模态网络描述图像中的内容或对图片中看到的用户界面进行编码。
这种架构更加通用。 DeepMind 的 Gato系统就是一个很好的例子,其中单个变压器网络可以同时回答问题、玩视频游戏或控制机器人,甚至可以使用 ChatGPT 来控制机器人。由于 LLM 使用代币,并且任何任务都可以代币化,因此 LLM 为任何任务提供了通用解决方案。
最近最热门的科技新闻报道之一是关于Groq公司开发的ASIC(专用集成电路) ,与传统 GPU 相比,它可以更高效地运行 LLM,并且能耗更低。这清楚地表明 LLM 架构已经变得如此基础,以至于现在值得为其创建专门的硬件。
最近,题为“ 1 位法学硕士时代:所有大型语言模型均采用 1.58 位”的出版物也出现了。神经网络的量化是减小尺寸和计算需求的常用方法。该解决方案的本质是使用浮点数在大型 GPU 集群上进行训练,然后将完成的网络权重转换为不太精确的格式,从而使用户设备的处理器能够更高效地工作。例如,使用16或32位浮点数进行训练,然后将其转换为8或4位定点数以进行快速客户端操作。这样,该模型甚至可以在移动或物联网设备上正常运行。这种量化的一种极端形式是将权重转换为 1 位数字。这可以是完整的二进制转换,或者正如出版物所建议的,使用值 {-1,0,1}(因此是 1.58 位)。人们可能会认为这种极端的量化会使网络完全无法使用,但实际上,事实恰恰相反;这些 1 位网络的性能非常好。
如果这三个值足以表示权重,那么就不再需要乘法(目前神经网络中最常用的运算)。这就是 GPU 集群用于神经网络的原因,因为 GPU 可以非常高效地执行乘法。不需要乘法,就不需要 GPU,模型甚至可以在 CPU 上高效运行,或者可以构建可以(甚至以模拟方式)运行这些 1 位网络的专用硬件 (ASIC)。
目前,量化是训练后操作。因此,使用 1 位网络不会加速训练过程。尽管如此,它们仍然有用,因为训练是一次性操作,但神经网络会运行无数次。因此,运行网络比训练消耗更多的能量。因此,即使在培训背景下,我们也可能从这项技术中受益。
由于基于梯度的训练不适用于 1 位或二值化网络,因此非基于梯度的技术变得相关(检查nevergrad和PyGAD ),例如遗传算法或其他无梯度技术。尽管在大多数情况下反向传播比无梯度解决方案更有效,但 1 位网络的运行效率比浮点网络要高得多。因此,通过反向传播,我们使用浮点数找到最优网络的速度可能比使用遗传算法快 10 倍。但如果 1 位网络的运行速度快 20 倍,那么使用遗传算法进行训练的速度仍将是原来的两倍。研究如何有效地使用无梯度方法训练 1 位网络可能是一个非常有趣的研究课题。
这个话题如此令人着迷的另一个原因是这些网络更类似于自然大脑中发现的神经网络(生物学上合理)。因此,我相信通过选择良好的无梯度训练算法并应用这些 1 位网络,我们可以构建更类似于人脑的系统。此外,这为 ASIC 之外的技术解决方案开辟了可能性,这些解决方案以前是不可行的,例如模拟、基于光的甚至基于生物的处理器。
从长远来看,这个方向可能会成为一个死胡同,但就目前而言,它的革命潜力是显而易见的,对于任何涉及人工智能领域的人来说,它都是一个非常有前途的研究途径。