paint-brush
开源:人工智能革命的下一步经过@minio
109,716 讀數
109,716 讀數

开源:人工智能革命的下一步

经过 MinIO6m2024/01/25
Read on Terminal Reader

太長; 讀書

对开源人工智能未来的探索将剖析人工智能开发中的“伪装者”并捍卫“真正的”,以揭示在其背后嗡嗡作响的开源软件的创新引擎。最重要的是,开源人工智能将产生开源数据堆栈。
featured image - 开源:人工智能革命的下一步
MinIO HackerNoon profile picture
0-item
1-item


想象一下未来,人工智能不再被锁在企业金库中,而是由全球创新者社区一砖一瓦地公开构建。合作而非竞争能够推动进步,道德考量与原始绩效同等重要。这不是科幻小说,而是人工智能开发核心正在酝酿的开源革命。但大型科技公司有自己的议程,将受限制的模型隐藏为开源,同时试图获得真正开放社区的好处。


让我们揭开代码层,揭开这些努力背后的真相。对开源人工智能未来的探索将剖析人工智能开发中的“伪装者”并捍卫“真正的”,以揭示在其背后嗡嗡作响的开源软件的创新引擎。最重要的是,开源人工智能将产生一个开源数据堆栈。


需求

Matteo Wong 最近在《大西洋月刊》上发表了一篇文章,“ 从来没有“开放”人工智能这样的东西”描述了学术界和软件社区中真正开源人工智能的增长趋势。 “我们的想法是创建相对透明的模型,让公众可以更容易、更便宜地使用、研究和复制,试图使高度集中的技术民主化,这种技术可能有潜力改变工作、警察、休闲甚至宗教。”同一份《大西洋月刊》指出,像 Meta 这样的大型科技公司正试图通过“公开清洗”其产品来满足市场的这一需求。他们假设了开源社区的品质和积极声誉,但没有真正开源他们的产品。但是,真实的东西是无可替代的。这是因为真正的开源软件推动创新和协作:负责任地推动人工智能发展迫切需要这两种品质。


伪装者

LLaMA 2 是Meta创建的大型语言模型,可免费用于研究和商业用途。一些人认为 LLaMA 2 是开源的。然而,Meta 对他们的模型的使用实施了一些严格的限制。例如,LLaMA 2 不能用于改进任何其他大型语言模型。违背传统的立场私营集体创新模式开放软件,促进自由和开放的创新启示,造福软件社区中的每个人。


Meta 不允许将 LLaMA 2 与每月拥有 7 亿用户的产品集成,也没有透露其模型训练的数据或用于构建模型的代码,从而进一步削弱了其模型的使用。通过不披露信息,Meta 正在面临固有偏见和意外歧视的问题。经过歧视性数据训练的模型将提供歧视性回应。如果整个软件社区无法查看用于构建模型的代码以了解是否内置了任何保护措施,或者无法查看用于训练模型的数据,那么我们对这些道德问题一无所知。在一个当已发表的人工智能研究更关心的是表现而不是正义和尊重,这种混淆尤其令人不安。


真实的人

米斯特拉尔人工智能因其开源大型语言模型(特别是 Mistral 7B 和 Mixtral 8x7B)而获得认可。该公司努力确保其人工智能模型的广泛可访问性,鼓励开放软件社区进行审查、修改和重用。


法学硕士代表“矢量化低延迟模型服务”,是一个开源库,专门用于加速和优化大型语言模型 (LLM)。它是一个强大的工具,可以显着提高法学硕士的性能和可用性。这使其成为开发各种人工智能应用程序(从聊天机器人和虚拟助手到内容创建和代码生成)的开发人员的宝贵资产。因此,Mistral 建议使用 vLLM 作为 7B 和 8x7B 模型的推理服务器。


埃鲁瑟人工智能是一家非营利性人工智能研究实验室,已从讨论 GPT-3 的 Discord 服务器发展成为领先的非营利性研究组织。该小组以其在自然语言处理领域的培训和推广开放科学规范方面的工作而闻名。他们发布了各种开源大语言模型,并参与了与人工智能对齐和可解释性相关的研究项目。他们的LM-线束项目可能是领先的语言模型开源评估工具。


Φ2是微软的法学硕士,其实力超群。这个小型但功能强大的模型经过合成文本和过滤网站的混合训练,擅长执行问答、总结和翻译等任务。 Phi-2 真正与众不同之处在于它专注于推理和语言理解,即使没有先进的对齐技术,也能带来令人印象深刻的性能。


许多有能力的开源嵌入模型正在加强整个开源生成人工智能空间。这些是当前最先进的开源技术,包括阿联酋-大-V1多语言-e5-largel


在这个不断发展的领域还有更多。这个有限的列表只是一个开始。


开源推动创新

真正参与开源软件开发的公司秉承极端开放创新的理念,通过承认以下事实来挑战传统的竞争优势概念: 并非所有好的代码或伟大的想法都存在于他们的组织中。这一转变支持争论开源生态系统内的共享创新会带来更快的市场增长,为更小的软件公司提供更有限的研发资金受益的机会来自开源软件中存在的研发溢出效应。这是因为,与传统外包相比,开放式创新增强内部资源通过利用社区的集体智慧,同时不减少内部研发工作。这意味着开源软件公司不必牺牲预算来追求组织外部的思想领导力和代码。


此外,开源软件公司通过以下方式战略性地推动创新: 尽早且经常发布代码,认识到软件社区创新过程的累积性质。所有这些都说明了许多人已经认识到的一点:开源软件推动创新。


开源促进协作

通过联网在开源软件社区中,企业家能够实现短期和长期目标。短期利润目标建立公司,长期利润目标维持公司。与此同时,这种网络努力使网络本身得以自我延续——为下一个企业家不断发展。众所周知,开源平台提供对源代码的访问,使开发人员能够创建升级、插件和其他软件并根据自己的要求使用它们。随着 Kubernetes 被更广泛的软件社区广泛采用,这种特殊的协作经历了蓬勃发展。现在,现代技术比以往任何时候都更能毫无摩擦地协同工作,并且几乎可以在任何地方在几分钟内协同工作。


大型科技公司在自由发布用于维护和开发内部工具而创建的框架、库和语言时,承认了开源社区固有的深度协作。这样做可以加深有能力开发其产品的开发人员队伍,并开始为类似技术的运作方式设定标准。同一篇《大西洋月刊》文章引用了 Meta 创始人马克·扎克伯格的话说,“提供这一服务对我们来说非常有价值,因为现在行业内所有最优秀的开发人员都在使用我们内部也在使用的工具”。


开源催生开源

这些都是我们经常看到开源公司之间产生协同效应的因素。开源人工智能和机器学习公司自然会与其他开源产品一起开发解决方案,从对象存储等基础产品到整个堆栈再到可视化工具。当一家开源公司挺身而出时,我们都会这么做。这种凝聚力和混合的方法可能是我们开发采用以人为中心的方法的人工智能的最佳选择。市场对开源人工智能的需求所固有的自然力量与开源软件的创新和协作品质相结合,将推动人工智能数据堆栈的开源。


请发送电子邮件至:你好@min.io或在我们的Slack 频道上向我们发送消息。


也发布在这里